斯坦福大学的研究人员介绍了局部条件扩散:一种使用扩散模型进行组合式文本到图像生成的方法

斯坦福大学研究人员介绍了局部条件扩散:一种文本到图像生成的方法

3D场景建模传统上是一项耗时的过程,只有具有领域专业知识的人才能进行。尽管在公共领域中有大量的3D材料可用,但很难找到与用户需求匹配的3D场景。因此,3D设计师有时会花费数小时甚至数天来对单个3D对象进行建模,并将它们组合成一个场景。使3D创建变得简单,同时保持对其组件的控制,有助于弥合有经验的3D设计师与普通公众(例如,单个对象的大小和位置)之间的差距。

近年来,由于对3D生成模型的研究,3D场景建模的可访问性得到了改善。使用3D感知生成对抗网络(GANs)已经取得了合成3D对象的有希望的结果,这是将创建的项目组合成场景的第一步。然而,GANs专门针对单个项目类别,这限制了结果的多样性,并且使得基于文本的3D转换变得困难。相比之下,使用扩散模型进行文本到3D生成可以使用户从各种类别中促使3D对象的创建。

当前研究使用单词提示对可微分场景表示的渲染视图进行全局调节,使用在互联网规模数据上学习到的强大的2D图像扩散先验知识。这些技术可以产生出色的以对象为中心的生成物,但它们需要帮助来生成具有多个独特特征的场景。全局调节进一步限制了可控性,因为用户输入仅限于单个文本提示,无法影响所创建场景的设计。斯坦福大学的研究人员提供了一种基于局部条件扩散的组合文本到图像生成技术。

他们建议的技术使用文本提示和3D边界框作为输入,在构建具有对单个对象的大小和位置的控制的连贯3D集合方面是行之有效的。他们的方法使用输入分割掩码和匹配的文本提示有选择地将条件扩散阶段应用于图像的某些部分,产生符合用户指定组合的输出。通过将他们的技术与基于分数蒸馏采样的文本到3D生成流程结合起来,他们还可以创建组合的文本到3D场景。

他们具体提供了以下贡献:

• 他们提出了局部条件扩散技术,使2D扩散模型具有更多的组合灵活性。

• 他们提出了重要的相机姿态采样方法,对于组合式3D生成至关重要。

• 他们引入了一种通过将局部条件扩散添加到基于分数蒸馏采样的3D生成流程中,实现组合式3D合成的方法。