给人像「P」上浓密的胡须,需要多久?
这个 AI 只需要一秒,而且效果逼真,看不出一点破绽。
最近,一则马斯克的恶搞视频在 YouTube 上火了。
一位油管博主用 AI【P】出了多个版本的马斯克,重点是效果惊人。比如,这个中年光头版。
恐怕连马斯克本人见了都会相信吧?
还有长发飘飘的马斯克。不得不说,女版马斯克也散发着一股女强人的气质。
这个 AI 是来自 Adobe Research 和阿卜杜拉国王科技大学(KAUST)的一项最新研发成果—StyleFlow 算法。
它非常更擅长在合成图像或真实图像的基础上重新编辑面部属性。除了上述马斯克的面部毛发、年龄、性别处理外,它还可以改变拍照角度、光照、人物表情等等。
值得一提的是,StyleFlow 不仅可以用于人像处理,也可以修改汽车等其他图像属性。
比如这款【特斯拉】图像可以一秒切换车身颜色。
接下来,我们来看看这个硬核 AI 是如何做到的?
提到 Style 系列不免让人想到 StyleGAN,经常关注雷锋网的小伙伴可能会了解,StyleGAN 是 GAN 的变种,它通过生成器和鉴别器的相互 battle,也可以达到令人惊叹的面部合成效果。
而 StyleFlow 可以说是 StyleGAN 图像合成的进阶版。
研究人员在论文中称,GANs(如 StyleGAN)在保证高质量输出的条件下,使用(语义)属性控制生成过程的选项有限。同时,由于 GAN 潜在空间的纠缠性质,沿着一个属性执行编辑很容易导致沿着其他属性的改变。
因此,他们提出了基于属性条件采样(Attribute-Conditioned Sampling)和属性控制编辑(Attribute-Controlled editing)的 StyleFlow。
其中,属性条件采样,是对具有目标属性的高质量真实图像进行采样;属性控制编辑,是指编辑给定图像,并使其具有目标属性,同时最好地保留源图像的特性。
以下为 StyleFlow 实现两种任务的完整框架:
▲ z 表示先验分布变量,w 表示 StyleGAN 的中间权重向量。
从源图像开始,通过使用反向推理和一系列 CNF(Continuous Normalizing Flow)功能模块的正向推理来支持属性条件编辑。
另外,需要注意的是,反向推理和正向推理是由 ODE 解算器通过计算时间变量上的 CNF 函数来解决的。
CNF(连续归一流)功能块可以作为神经网络块来实现。其中,以属性向量 at 为条件的学习函数,既可以可用于正向推理,也可以用于反向推理。
基于以上原理,研究人员通过使用 StyleFlow 对给定图像进行了属性条件采样。论文中展示了固定目标姿势下戴眼镜女性的图像(上);面部有毛发的 50 岁男性图像(中);固定姿势下 5 岁男孩的微笑图像(下)三类属性的抽样结果。
可以注意到采样的质量非常高,未编辑的属性在很大程度上保持不变,它验证了网络能够学习底层的语义表示,并进一步用于对图像进行语义编辑。
接下来,研究人员使用 StyleGAN 生成的人脸和汽车的潜在空间对 StyleFlow 进行了评估,并展示了对各类属性进行细粒度分离编辑的结果。
他们采用了两个评估数据集 FFHQ 和 LSUN Car。前者是 1024×1024 高分辨率人脸图像数据集,由 70000 张图像组成,这些图像在种族、年龄和配件方面都是不同的。LSUN-Car 是一个 512×384 分辨率的汽车图像数据集,由 16185 幅图像组成,这些图像在汽车姿态、颜色和类型方面有很大的差别。
在定性比较上,StyleFlow 对人像角度、光照、表情、性别和年龄的处理,与现有 Image2StyleGAN 、 InterfaceGAN 、 GANSpace 方法相比均表现出了一定的优越性。
在定量比较上也同样如此。下图展示了 StyleFlow 与其他方法在人脸分类器(Geitgey 2020)评估下得出的 SOTA 结果。StyleFlow 在灯光、姿势、表情等属性上基本达到了最高值。
以下是在循环编辑一致性方面,StyleFlow 的编辑方法在不同排列下基本保持一致(各个属性中使用了平均误差)。
更多详细内容可参见论文:https://arxiv.org/pdf/2008.02401.pdf