“众所周知，视频不能 P”，GAN 模型：是吗？P 视频来了

观点

2022

01/25

18:43

亚设网

见过用 GAN 来 P 图，见过用 GAN P 视频吗？瞧，原本一直在面无表情地讲话的人，全程露出了微笑；原本得 4、50 岁的人，直接变 20 几岁了：

“众所周知，视频不能 P”，GAN 模型：是吗？P 视频来了

另一边，正在微笑唱歌的“赫敏”一下子愤怒起来，还能换上一张几岁小孩的脸：

“众所周知，视频不能 P”，GAN 模型：是吗？P 视频来了

美国前总统也如此，4 种版本的面部状态信手拈来，甚至连性别都给 P 成女的了：

“众所周知，视频不能 P”，GAN 模型：是吗？P 视频来了

不管人脸表情和状态如何变化，这些视频都没有给人任何违和感，全程如此的丝滑～哦对，除了真人，动漫视频里的脸也可以 P：

“众所周知，视频不能 P”，GAN 模型：是吗？P 视频来了

有点厉害了。

基于 GAN 的视频面部编辑

这个模型出自以色列特拉维夫大学。

“众所周知，视频不能 P”，GAN 模型：是吗？P 视频来了

众所周知，GAN 在其潜空间内编码丰富语义的能力，已经被广泛用于人脸编辑。不过将它用在视频中还是有点挑战性：一个是缺乏高质量数据集，一个是需要克服时间一致性（temporal coherency）这一基本障碍。

不过研究人员认为，第二点这个障碍主要是人为的。因为原视频本具备时间一致性，编辑后的视频却变了，部分原因就是在 editing pipeline 中对一些组件（component）处理不当。而他们提出的这个视频人脸语义编辑框架，相对于当前技术水平做出了重大改进：只采用了标准的非时序 StyleGAN2，对 GAN editing pipeline 中的不同组件进行分析，确定哪些组件具备一致性，就用这些组件来操作。整个过程不涉及任何用来维持时间一致性的额外操作。具体流程一共分为六步：

“众所周知，视频不能 P”，GAN 模型：是吗？P 视频来了

1、输入视频首先被分割成帧，每帧中的人脸都被裁剪下来并对齐；

2、使用预训练的 e4e 编码器，将每张已裁剪的人脸反演到预训练的 StyleGAN2 的潜空间中；

3、在所有并行帧中使用 PTI（最新提出的一种视频人脸编辑方法）对生成器进行微调，纠正初始反演中的错误，恢复全局一致性；

4、所有帧通过使用固定的方向和步长，线性地操纵其轴心潜码（pivot latent codes）进行相应编辑；

5、再次微调生成器，将背景和编辑过的人脸“缝合”在一起；

6、反转对齐步骤，并将修改后的人脸粘贴回视频中。

“众所周知，视频不能 P”，GAN 模型：是吗？P 视频来了

△ 注意颈部曾产生了大量瑕疵，在最后一步完全修复好