Adobe 研究人员提出了 DMV3D:一种新颖的 3D 生成方法,使用基于 Transformer 的 3D 大型重建模型来去噪多视角扩散
【美丽时尚专家揭秘】Adobe研究团队推出全新创意: DMV3D——基于Transformer的3D大型重建模型,轻松去噪多视角扩散
在增强现实(AR)、虚拟现实(VR)、机器人技术和游戏领域中,3D资产创建面临着一个普遍的挑战。3D扩散模型的流行度激增,该模型简化了复杂的3D资产创建过程,但也带来了一些麻烦。这些模型需要访问地面真实的3D模型或点云进行训练,这对于真实图像来说可能很具挑战性。此外,潜在的3D扩散方法通常会在不同的3D数据集上产生复杂且难以去噪的潜在空间,使得高质量的渲染成为一道难题。
一些现有的解决方案虽然可以解决这个问题,但通常需要大量的手动工作和优化过程。Adobe Research和斯坦福大学的研究人员一直在努力使3D生成过程更快、更真实、更通用。一篇最近的论文介绍了一种新方法,称为DMV3D,即单阶段类别不可知扩散模型。该模型通过直接模型推断,可以根据文本或单一图像输入条件生成3D神经辐射场(NeRFs),极大地减少了创建3D对象所需的时间。
DMV3D的重要贡献包括使用多视角2D图像扩散模型进行3D生成的先驱性单阶段扩散框架。他们还引入了一个大型重构模型(LRM),该模型是一个多视角去噪器,从带有噪声的多视角图像中重建无噪声的三重NeRFs。该模型提供了一种用于高质量文本到3D生成和单一图像重建的通用概率方法,实现了快速的直接模型推断,只需要约30秒的时间在一张A100 GPU上。
DMV3D将3D NeRF重建和渲染整合到其去噪器中,创建了一个在没有直接3D监督的情况下进行训练的2D多视角图像扩散模型。这消除了单独训练3D NeRF编码器进行潜在空间扩散的需要,并简化了每个资产的优化过程。研究人员巧妙地使用了围绕物体的四个多视角图像的稀疏集合,有效地描述了一个没有显著自遮挡的3D物体。
借助大型Transformer模型,研究人员解决了稀疏视图3D重建的挑战性任务。基于最近的3D大规模重构模型(LRM),他们引入了一种新的联合重建和去噪模型,能够处理扩散过程中的各种噪声水平。该模型将作为多视角图像去噪器整合到多视角图像扩散框架中。
通过大规模合成渲染和真实捕捉的数据集进行训练,DMV3D在一张A100 GPU上能够在约30秒内生成单阶段3D。它在单一图像3D重建方面取得了最先进的结果。这项工作通过将2D和3D生成模型的领域联系起来,统一了3D重建和生成,为解决3D视觉和图形中的各种挑战打开了大门,其影响超出了即时应用。