“梦之雕塑:DreamTime 是一种 AI 模型,用于改进文本到三维内容生成的优化策略”

梦之雕塑:DreamTime 是一种 AI 模型,用于优化文本到三维内容生成的策略

生成式人工智能模型现在已经成为我们日常生活的一部分。它们在近年来取得了快速的发展,结果从一些奇特的图像发展到了高度逼真的图像。有了MidJourney、StableDiffusion和DALL-E等这些模型,生成你脑海中的图像变得更加容易。

这不仅仅在2D领域是如此。与此同时,我们已经看到了在3D内容生成方面相当显著的进展。无论第三个维度是时间(视频)还是深度(NeRF、3D模型),生成的结果与真实的对象越来越接近。这些生成模型降低了对3D建模和设计的专业知识要求。

然而,不是一切都是美好的。3D生成变得更加逼真,没错,但与2D生成模型相比,它们仍然远远落后。大规模的文本到图像数据集在扩展图像生成算法的能力方面发挥了关键作用。然而,尽管2D数据易于获取,但访问用于训练和监督的3D数据更具挑战性,导致3D生成模型的不足。

现有3D生成模型的两个主要限制是颜色饱和度不足和多样性低于文本到图像模型。让我们来见识一下DreamTime,并看它如何克服这些限制。

DreamTime表明,NeRF(神经辐射场)优化过程中观察到的限制主要是由于评分蒸馏中均匀时间步长采样的冲突造成的。为了解决这个冲突并克服这些限制,它使用了一种新颖的方法,通过使用单调非递增函数来优先选择时间步长采样。通过将NeRF优化过程与扩散模型的采样过程对齐,旨在提高NeRF优化生成逼真3D模型的质量和效果。

SDS梯度的可视化。来源:https://arxiv.org/pdf/2306.12422.pdf

现有方法往往导致具有饱和颜色和有限多样性的模型,给内容创作带来了障碍。为了解决这个问题,DreamTime提出了一种称为时间优先的评分蒸馏采样(TP-SDS)的新技术,用于文本到3D生成。TP-SDS背后的关键思想是优先考虑事先训练的扩散模型在不同噪声水平下提供的不同层次的视觉概念。这种方法允许优化过程专注于细化细节和提高视觉质量。通过结合一个非递增时间步长采样策略,TP-SDS将文本到3D优化过程与扩散模型的采样过程对齐。

DreamTime生成的样本结果。来源:https://arxiv.org/pdf/2306.12422.pdf

为了评估TP-SDS的有效性,DreamTime的作者进行了全面的实验,并将其性能与标准评分蒸馏采样(SDS)技术进行了比较。他们通过数学公式、梯度可视化和频率分析分析了文本到3D优化和均匀时间步长采样之间的冲突。结果表明,所提出的TP-SDS方法显著提高了文本到3D生成的质量和多样性,优于现有方法。