谷歌研究介绍了MediaPipe FaceStylizer:一种高效的少样本人脸风格化设计

Google Research introduces MediaPipe FaceStylizer an efficient few-shot face stylization design.

近年来,研究人员和消费者对结合增强现实(AR)的智能手机应用程序表现出越来越大的热情。这使得用户可以实时生成和修改短视频、VR和游戏中的面部特征。基于生成对抗网络(GAN)方法的面部生成和编辑模型由于其轻量级和优质的特性而受到欢迎。然而,大多数GAN模型在计算复杂性方面存在严重限制,并需要大量的训练数据集。合理使用GAN模型也非常重要。

谷歌研究人员开发了MediaPipe FaceStylizer作为少样本面部风格化的有效解决方案,考虑了模型复杂性和数据效率等问题。在这个模型中,GAN反演将图像转换为面部生成器的潜在编码。为了在从粗到细的各个粒度上生成高质量的图像,他们引入了一个适用于面部生成器的移动友好合成网络,包括一个辅助头部,可以将特征转换为RGB。此外,他们从教师StyleGAN模型中提取了学生生成器,通过精心设计前面提到的辅助头部的损失函数,并将它们与通用的GAN损失函数相结合,得到了一个轻量级模型,保持了良好的生成质量。MediaPipe提供了对该解决方案的开源访问。MediaPipe Model Maker允许用户通过学习一个或几个照片的风格来微调生成器。MediaPipe FaceStylizer将使用户能够将生成的模型部署到设备上的面部风格化应用程序中。

借助MediaPipe面部风格化任务的帮助,可以增强或从头开始创建图像和视频中的面部。这项活动可以制作具有各种美学选择的虚拟角色。

此任务使用BlazeFaceStylizer模型,其中包括面部生成器和面部编码器。BlazeStyleGAN是StyleGAN模型系列的轻量级实现,可以生成和优化面部以匹配给定的美学。面部编码器通过输入照片与面部生成器产生的面部进行关联,使用MobileNet V2核心来实现。

该项目旨在提供一个流程,帮助用户微调MediaPipe FaceStylizer模型以适应不同的风格。研究人员构建了一个面部风格化流程,其中包括GAN反演编码器和有效的面部生成器模型(有关详细信息,请参见下文)。在微调过程中,编码器模块被冻结,只有生成器被调整。根据输入样式图像的编码输出周围的几个潜在代码进行采样,以训练生成器。之后,优化联合对抗损失函数,使生成器能够以与输入样式图像相同的美学重建面部图像。通过这种微调过程,MediaPipe FaceStylizer足够灵活,以适应用户的输入。该方法可以将风格应用于测试照片中的真实人脸。

谷歌的研究人员使用知识蒸馏来训练BlazeStyleGAN,以广泛使用的StyleGAN2作为教师模型。此外,他们通过引入多尺度感知损失来训练模型以生成更好的图像。BlazeStyleGAN比MobileStyleGAN具有更少的参数和更简单的模型。他们在几款移动设备上对BlazeStyleGAN进行了基准测试,证明其可以在移动GPU上实时运行。BlazeStyleGAN的输出与其教师模型的视觉质量非常接近。他们还指出,BlazeStyleGAN可以通过减少教师模型产生的伪影来改善某些情况下的视觉质量。BlazeStyleGAN的Frechet Inception Distance(FID)结果与教师StyleGAN的结果相当。以下是该研究的贡献摘要:

  • 研究人员通过在每个生成器级别添加额外的UpToRGB头部,并且仅在推断过程中使用它,创建了一个移动友好的架构。
  • 通过使用辅助头部计算多尺度感知损失和对真实图像进行对抗损失,他们增强了蒸馏技术,实现了更好的图像生成,并减轻了从教师模型传输伪影的影响。
  • BlazeStyleGAN可以在各种流行的智能手机上实时生成高质量图像。

谷歌的研究团队推出了世界上第一个可以在绝大多数高端智能手机上实时生成高质量面部照片的StyleGAN模型(BlazeStyleGAN)。在高效的设备上生成模型领域有很多探索空间。为了减少教师模型的影响,他们设计了StyleGAN合成网络的改进架构,并微调了蒸馏技术。BlazeStyleGAN可以在移动设备上实现实时性能,因为模型复杂性得到了大幅降低。