来自威斯康星大学和字节跳动的研究人员介绍了PanoHead:第一个能够通过单视图图像合成视角一致的完整头部图像的3D GAN框架

Researchers from the University of Wisconsin and ByteDance introduced PanoHead, a 3D GAN framework capable of synthesizing complete head images with consistent perspectives through single-view image synthesis.

在计算机视觉和图形领域,逼真的肖像图像合成一直备受强调,在虚拟化身、远程呈现、沉浸式游戏和许多其他领域都有广泛的应用。最近发展的生成对抗网络(GANs)在图像合成质量方面展现出了非常高的水平,几乎与真实图像无法辨别。然而,当今的生成方法并没有对潜在的3D场景进行建模,而是基于2D卷积网络进行操作。因此,在合成不同位置的头像时,无法确保3D的一致性。传统的方法需要从大量的3D扫描集合中学习得到参数化的纹理网格模型,以产生具有不同形态和外观的3D头部。

然而,产生的图像需要更多的细节和表现力较差的感知质量。为了制作更逼真的3D感知人脸图像,借助可微分渲染和隐式神经表示的出现,人们创建了条件生成模型。然而,这些方法通常依赖于多视图图像或3D扫描监督,这在获取上是具有挑战性的,并且具有受限的外观分布,因为通常是在受控环境中记录的。近期在3D场景建模中的隐式神经表示和生成对抗网络(GANs)在图像合成方面的发展加速了3D感知生成模型的发展。

图1显示了我们的PanoHead如何实现高保真度的几何形状和360度视角一致的逼真全头图像合成,从单个视角创建逼真的3D肖像。

其中一种先驱性的3D GAN,EG3D,在视角连贯图像合成方面具有出色的质量,并且是使用野外的单视图图像集进行训练的。然而,这些3D GAN方法只能在近正面的视角合成。字节跳动和威斯康星大学麦迪逊分校的研究人员提出了PanoHead,这是一种独特的3D感知GAN,它仅使用野外非结构化照片进行训练,实现了高质量的完整3D头部合成,并能够从所有视角观察到。他们认为他们的方法是首个能够实现完全360度3D头部合成的3D GAN方法。

在使用EG3D等3D GAN框架进行完整的3D头部合成时,存在几个主要的技术障碍:许多3D GAN无法区分前景和背景,导致2.5D头部几何形状。无法渲染大姿势,因为背景通常作为墙体结构与3D生成的头部纠缠在一起。他们开发了一个前景感知的三重判别器,利用来自2D图像分割的先前信息,同时学习在3D空间中分解前景头部。此外,混合的3D场景表示,如三平面,对于360度摄像机姿态存在显著的投影不确定性,导致后方头部上出现“镜面脸”,尽管它们具有高效性和紧凑性。

他们提供了一种独特的3D三维网格体表示,将前方特征与后方头部分开,同时保留了三平面表示的有效性,以解决这个问题。最后,获取野外后方头部照片的准确相机外部参数对于3D GANs的训练非常具有挑战性。此外,这些照片与具有可识别面部标志的前方照片之间存在图像对齐的差异。由于对齐差距,导致了不够吸引人的头部几何形状和嘈杂的外观。因此,他们提出了一种独特的两阶段对齐方法,可可靠地对齐来自所有视角的照片。这个过程极大地减少了3D GAN的学习曲线。

他们特别提出了一个相机自适应模块,动态修改渲染相机位置,以解决后头部图片的对齐漂移问题。如图1所示,他们的方法显著提高了3D GAN的适应能力,可以从任意视角适应野外整个头部的照片。生成的3D GAN可以创建高保真度的360° RGB图片和几何图形,并在定量指标上优于最先进的技术。通过这个模型,他们展示了如何通过从单眼观察的照片中重建整个头部来轻松创建3D肖像。

以下是他们的主要贡献的概要:

• 第一个能够呈现360度全头部图像合成并保持视角一致和高保真度的3D GAN框架。他们使用高质量的野外单眼3D头部重建来说明他们的方法。

• 一种独特的三网格表达形式,用于表达3D 360度头部场景,兼顾效果和表现力。

• 一种三鉴别器,将2D背景合成与3D前景头部建模分离。

• 一种先进的两阶段图片对齐技术,可以自适应地适应糟糕的相机姿势和错位的图像裁剪,使得能够从野外拍摄的照片中训练3D GAN,并适应广泛的相机姿势范围。