字节跳动和加州大学圣地亚哥分校的研究人员提出了一种多视角扩散模型,能够根据给定的任何文本生成一组物体或场景的多视角图像

字节跳动和加州大学圣地亚哥分校的研究人员提出了一种多视角扩散模型,能够生成一组物体或场景的多视角图像

尽管在当代游戏和媒体行业的流程中是一个关键阶段,但创建3D内容非常耗时,需要熟练的设计师投入数小时甚至数天的努力才能产生一个3D物品。因此,一个允许非专业用户轻松创建3D材料的系统非常有价值。目前存在三种类别的现有3D对象创建技术:基于模板的生成流水线、3D生成模型和2D提升技术。由于可访问的3D模型数量有限且数据复杂性较大,基于模板的生成器和3D生成模型现在很少能够普遍适用于任意对象的生成。它们创建的材料通常限于一些类别,其中大多数是来自外界的具有简单拓扑和纹理的常见物体。

然而,在商业领域中,受欢迎的3D资源经常结合复杂、创造性和甚至不现实的结构和风格(Ske)。根据最近关于2D提升技术的研究,预训练的2D生成模型可以用于3D生成。常见的表示包括Dreamfusion和Magic3D系统,它们使用2D扩散模型作为改进3D表示(如NeRF)的监督,使用得分蒸馏采样(SDS)。这些使用大规模2D图片数据集开发的2D模型具有出色的泛化能力,可以产生假设和未见情况,其细节可以由文本输入定义,使其成为生成美学3D资源的有效工具。

然而,这些模型只能提供单视图监督,并且由于只具有2D知识,生成的资源容易受到多视图一致性问题的影响。因此,生成结果非常不稳定,产品常常存在严重的伪影。2D提升方法存在问题,因为在没有全面的多视图知识或3D意识的情况下,得分蒸馏是困难的。其中包括(1)具有许多面孔的詹尼斯问题。该系统经常重新创建由文本提示表示的内容。(2)内容在不同视角之间发生渗透。示例见图1。造成多面性问题的原因有多种可能。例如,某些物体在特定角度下几乎不可见。

图1展示了用于解决3D生成多视图一致性问题的典型2D提升方法。左侧是“一个木雕的秃鹰”,有两个面。右侧是“一张装有炸鸡和华夫饼上面涂有枫糖浆的盘子的数码单反相机图像”,其中炸鸡慢慢变成了华夫饼。

然而,从其他角度来看,角色或动物的重要部分可能会被遮挡或自我遮挡。2D扩散模型只能从一些可能的角度评估这些事物,就像人类一样,这导致它提供了冗余和不一致的材料。字节跳动和UCSD的研究人员提出了多视图扩散模型作为解决这些问题的方法,该模型同时生成一组相互一致的多视图图片。它们主要保持了用于多图像生成的2D图像扩散的架构设计。这使我们能够继承先前学习的2D扩散模型的泛化能力,用于迁移学习。他们从一个实际的3D数据集(称为正面)中产生一组多视图图片,以确保模型的多视图一致性。

他们发现通过同时在真实照片和多视图图片上训练模型,可以实现高一致性和泛化能力。他们还使用多视图得分蒸馏将这些模型应用于3D创建。与单视图2D扩散模型相比,他们模型的多视图监督更加稳定。它们仍然可以使用纯2D扩散模型产生假设的、隐藏的3D内容。他们使用从一组提供的照片中提取身份数据的多视图扩散模型,经过少量展示的微调后,表现出很强的多视图一致性。他们的模型MVDream在3D创建过程中有效构建3D Nerf模型,而不会出现詹尼斯问题。它的多样性要么超过,要么与其他前沿技术相当。