这项人工智能研究介绍了DreamCraft3D:一种用于创建生成连贯且高保真度3D模型的分层方法
探索DreamCraft3D:一种逐层创建连贯高保真度3D模型的人工智能研究
“`html


2D生成建模的惊人流行大大影响了他们生成视觉资料的方式。深度生成网络在创建3D图像时仍然存在很大困难,而这对于游戏、电影和虚拟现实等应用是至关重要的。尽管3D生成建模已为某些类别产生了令人印象深刻的结果,但仍需要更多的3D数据来生成广泛的3D模型。在最近的研究中,预训练的文本到图像生成模型被用作指导,取得了令人鼓舞的结果。DreamFusion是首家建议使用预训练的文本到图像(T2I)模型进行3D创作的公司。为了改善3D模型,使其在随机视角下符合文本条件的图片分布,根据强大的T2I扩散模型解释,实施了得分蒸馏采样(SDS)损失。
DreamFusion可以在保留2D生成模型的创造潜力的同时,产生极具创造力的3D材料。最近的研究采用了阶段优化方法或提供了改进的2D蒸馏损失来解决模糊和过饱和的问题,提高了视觉逼真度。然而,大多数现有研究无法像2D生成模型那样合成复杂的材料。此外,这些作品经常遭受“Janus问题”,即当3D表示在自身看起来可信时,整体上却存在风格和语义错误。清华大学和DeepSeek AI的研究人员在本文中提供了DreamCraft3D作为一种创建复杂3D对象同时维持全面3D一致性的方法。
他们研究了分层生成的可能性。他们受到手工创作过程的影响,其中抽象的想法首先被发展成2D草图。粗略的几何体被雕刻,几何细节被完善,高保真度的纹理被绘制。他们采取类似的方法,将3D创建的困难任务分解为可消化的部分。他们根据文本输入创建高质量的2D参考图像,然后使用纹理增强和几何雕刻步骤将其转化为3D。与其他方法不同的是,他们的工作展示了对每个层面的细节的精细关注如何最大化分层生成的潜力并产生最高品质的3D创作。几何雕刻步骤的目标是将2D参考图像转换为一致可信的3D几何体。
除了在参考视图和新视图上使用光度损失和SDS损失之外,他们还提出了其他策略来促进几何一致性。首先,他们使用基于参考图像的自定义视角条件图像转换模型模拟了独特观点的分布。这种视角条件的扩散模型提供了丰富的3D先验知识,增强了2D扩散,因为它是基于各种3D输入进行训练的。他们还发现,逐渐扩展训练视图和退火样本时间步对进一步加强一致性至关重要。在粗糙到精细的几何体细化优化过程中,他们从隐式表面表示转变为网格表示。通过使用这些方法,几何雕刻步骤有效地抑制了大部分几何伪影,同时产生了精确、详细的几何体。
此外,他们建议使用引导式得分蒸馏来显著改善纹理。当代2D扩散模型的保真度往往不及在限制的3D上训练的视角条件扩散模型。相反,他们使用正在优化的3D实例的多视图表示来对扩散模型进行微调。这种视角一致性感知的定制3D感知先验在增强3D纹理方面起着关键作用。值得注意的是,他们发现通过以不同方式改进生成先验和3D表示可以相互增强的好处。以更好的多视图渲染进行训练有助于扩散模型,为3D纹理优化提供更好的指导。
“`
图1: DreamCraft3D通过将2D照片升级到3D,生成具有丰富功能和逼真一致性的3D效果。如需更多发现,请参见演示视频和附录。
与以往的努力学习固定目标分布不同,他们通过根据优化状态逐步演化目标分布来实现。他们的“引导”方法使他们能够在捕捉越来越详细的纹理的同时保持视觉的完整性。他们的技术可以创造具有复杂几何形状和逼真材料的想象力3D对象,并以360度的方式呈现,如图1所示。与基于优化的替代方案相比,他们的方法提供了更好的纹理和复杂性。同时,他们的工作在生成360度逼真图像方面表现出色,与图像到3D处理相比具有前所未有的真实感。这些发现表明DreamCraft3D在开拓3D内容生产的新创作途径方面具有巨大潜力。整个实现将面向广大观众。




