LucidDreamer 通过区间分数匹配实现高保真度的文本到3D生成

LucidDreamer 通过区间分数匹配实现高保真度的3D文本生成

文本到3D生成AI框架的最新进展标志着生成模型中的重要里程碑。它们为在各种真实场景中创建3D资产开辟了新的可能性。数字3D资产现在在我们的数字存在中占据了不可或缺的地位,使我们能够全面可视化和与复杂环境和物体进行互动,这些环境和物体反映了我们在现实世界中的体验。这些3D生成AI框架应用于动画、建筑、游戏、增强现实和虚拟现实等各个领域,并在在线会议、零售、教育和营销等方面得到广泛应用。

然而,尽管这些文本到3D生成框架的进展前景众多,但广泛使用3D技术也存在一个严重问题。生成高质量的3D图像和媒体内容仍然需要大量时间、精力、资源和熟练的专业知识。即使满足了这些要求,文本到3D生成也经常无法呈现出详细和高质量的3D模型。这个渲染和低质量3D生成的问题在使用评分蒸馏采样(SDS)方法的框架中更为普遍。本文将讨论使用SDS方法的模型中观察到的显著缺陷,这些缺陷导致生成输出上出现不一致性和低质量的更新方向,从而产生过度平滑的效果。我们还将介绍LucidDreamer框架,这是一种使用区间评分匹配(ISM)方法来解决过度平滑问题的新方法。我们将探索该模型的架构及其与最先进的文本到3D生成框架的性能。所以,让我们开始吧。

LucidDreamer3D:使用区间评分匹配的3D生成介绍

3D生成模型成为生成AI行业谈论的焦点原因之一是其在各个领域和行业的广泛应用,以及其实时产生3D内容的能力。由于其广泛的实际应用,开发人员提出了许多3D内容生成方法,其中文本到3D生成框架凭借其仅使用文本描述来生成富有想象力的3D模型的能力脱颖而出。文本到3D生成框架通过使用经过预训练的文本到图像扩散模型在监督训练神经参数化的3D模型之前将其作为强大的图像,从而实现这一目标,使得能够始终与文本相一致地呈现3D图像。这种呈现一致的3D图像能力根植于得分蒸馏采样的使用,而SDS作为核心机制将扩散模型的2D结果转化为其3D对应物,从而实现在不使用训练图像的情况下训练3D模型。尽管其有效性,使用SDS方法的3D生成AI框架通常会出现失真和过度平滑问题,从而阻碍了高保真度3D生成的实际应用。

为解决过度平滑问题,LucidDreamer框架采用了一种名为区间评分匹配的新方法,该方法使用两种有效机制。首先,ISM方法采用DDIM反演方法来缓解伪Ground Truth不一致性引起的平均化效应,通过产生可逆的扩散轨迹。其次,ISM方法不是将3D模型生成的图像与伪Ground Truth进行匹配,而是在扩散轨迹的两个区间步骤之间进行匹配,从而避免了一步重构引起的高重构误差。使用ISM而不是SDS使得性能始终如一,并产生高度逼真和详细的输出。

总体而言,LucidDreamer框架在3D生成AI方面的贡献如下:

  1. 对SDS进行深入分析,SDS是文本到3D生成框架中的基本概念,并确定其关键局限性为低质量的伪Ground Truth,并解释了这些3D生成框架面临的过度平滑效应。
  2. 为了对抗SDS方法带来的局限性,LucidDreamer框架引入了区间评分匹配,一种使用基于区间的匹配和可逆扩散轨迹来超越SDS的新方法,从而产生高度逼真和详细的输出。
  3. 通过将ISM方法与3D高斯喷溅相结合,实现了卓越的性能,超越现有的低训练成本的3D内容生成方法。

SDS的限制

如前所述,SDS是文本生成3D模型中最流行的方法之一,它在DDPM的潜在空间中寻找有条件后先验的模式。SDS方法还采用了预训练的DDPM来建模有条件后验,并旨在通过最小化以下KL散度来提取有条件后验的3D表示。此外,SDS方法还为DDP训练重用了加权去噪分数匹配目标。SDS方法的主要目标也可以看作是将3D模型的视图与由DDPM在单步中估计的伪基本事实相匹配。然而,开发者们观察到,蒸馏过程经常忽视DDPM的关键方面。下图演示了预训练的DDPM倾向于使用不一致特征预测伪基本事实,并在蒸馏过程中产生低质量输出。

然而,在不良情况下更新方向会导致最终过度平滑的3D表示结果。此外,值得注意的是,DDPM组件对输入非常敏感,即使输入的微小变化也会显著改变伪基本事实的特征。此外,输入的相机姿势和噪声成分的随机性可能会增加在蒸馏过程中无法避免的波动。为不一致的伪基本事实优化输入会导致平均结果。此外,SDS方法获取所有时间间隔的伪基本事实的单步预测,而不考虑单步DDPM组件的局限性,该组件无法产生高质量的输出,这表明使用SDS组件蒸馏3D资源或图像可能不是最理想的方法。

LucidDreamer:方法和工作原理

LucidDreamer框架确实引入了ISM方法,但它也借鉴了其他框架的经验,包括文本到3D生成模型、扩散模型和可微分3D表示框架。在此基础上,让我们详细了解LucidDreamer框架的架构和方法。

区间分数匹配或ISM

大多数文本到3D生成框架面临的过度平滑和低质量输出问题可以归因于它们使用的SDS方法,该方法旨在将伪基本事实与不一致且常常质量低劣的3D表示相匹配。为了解决SDS面临的问题,LucidDreamer框架引入了区间分数匹配(ISM)方法,这是一种具有两个工作阶段的新方法。在第一个阶段,ISM组件在蒸馏过程中获得更一致的伪基本事实,无论相机姿势和噪声的随机性如何。在第二个阶段,该框架生成更高质量的伪基本事实。

SDS的另一个主要限制是为所有时间间隔生成单步预测的伪基本事实,这使得很难保证高质量的伪基本事实,并且它为改善伪基本事实的视觉质量奠定了基础。类似地,SDS目标可以被视为将3D模型的视图与由DDPM在单步中估计的伪基本事实相匹配,尽管在蒸馏过程中蒸馏过程忽视了DDPM组件的一个关键方面,即它在蒸馏过程中生成具有不一致特征的低质量伪基本事实。

总的来说,ISM组件在文本生成3D模型中使用的先前方法上承诺提供几个优势。首先,由于ISM能够始终提供高质量的伪基本事实,它能够生成具有更精细结构和更丰富细节的高保真度蒸馏输出,从而消除了大规模引导尺度的需求,并提升了3D内容创作的灵活性。其次,从SDS方法转换为ISM方法在计算上几乎没有额外的开销,尤其是由于ISM方法对于DDIM反演需要额外的计算成本,但整体效率并未受到影响。

上述图示了ISM方法的工作原理,并概述了LucidDreamer框架的架构。该框架首先使用预训练的文本到3D生成器使用提示初始化高斯喷洒,即3D表示。然后将其与预训练的2D DDPM组件相结合,使用DDIM反演扰动随机视图以生成带有噪声的无条件潜在轨迹,并使用区间得分进行更新。由于其架构,ISM组件的优化核心集中在将3D表示更新为高质量和特征一致的伪地面真值上,同时具有计算友好性。这一原则使ISM能够与SDS方法的基本目标保持一致,并改进现有方法。

DDIM反演

LucidDreamer框架旨在产生与3D表示一致的伪地面真值。因此,LucidDreamer框架不再产生3D表示,而是采用DDIM反演方法预测噪声潜在3D表示,并以迭代方式预测可逆噪声潜在轨迹。此外,正是由于DDIM反演的可逆性,LucidDreamer框架能够显著提高所有时间间隔的伪地面真值的一致性。

高级生成管道

LucidDreamer框架除了ISM之外,还引入了一个高级管道,以探索影响文本到3D生成的视觉质量的因素,并引入了3D高斯喷洒(3DGS)作为其3D生成和3D点云生成模型进行初始化。

3D高斯喷洒

现有研究表明,增加训练的批次大小和渲染分辨率可以显著提高视觉质量。然而,用于文本到3D生成的可学习3D表示的大部分方法耗时且占用内存。另一方面,3D高斯喷洒方法在优化和渲染方面提供了高效的结果,即使在有限的计算资源下,LucidDreamer框架的高级生成管道也能实现大批次大小和高分辨率渲染。

初始化

目前主流的文本到3D生成框架大多使用圆形、方形或圆柱等有限几何图形初始化其3D表示,这往往会导致在非轴对称对象上产生不理想的输出。另一方面,由于LucidDreamer框架引入了3D高斯喷洒作为3D表示,框架可以自然地采用多个文本到点生成框架生成带有人类输入的粗略初始化。这种初始化策略最终显著提高了收敛速度。

LucidDreamer:实验与结果

文本到3D生成

上图示了LucidDreamer模型使用原始稳定扩散方法生成的结果,而下图则介绍了在不同微调检查点上生成的结果。

如上所示,LucidDreamer框架能够使用输入文本和语义线索生成高度一致的3D内容。此外,通过使用ISM,LucidDreamer框架在生成常见对象以及支持创意创作时避免了常见问题(如过度饱和或过度平滑),生成更复杂逼真的图像。

ISM的普适性

为了评估ISM的普适性,对ISM和SDS方法的显式和隐式表示进行了比较,并在下图中展示了结果。

定性比较

为了分析LucidDreamer框架的定性效率,与当前的SoTA基准模型进行比较,并确保公平比较,使用稳定扩散2.1框架进行蒸馏,结果在以下图片中展示。可以看出,该框架在消耗更少资源和时间的同时,提供了高保真度和几何精确度的结果。

此外,为了提供更全面的评估,开发人员还进行了用户研究。评估选择28个提示,并对每个提示使用不同的文本生成方法生成对象。然后,用户根据与输入提示的对齐程度和保真度对结果进行排名。

LucidDreamer:应用

由于在各种文本到3D生成任务中表现出色,LucidDreamer框架具有多个潜在应用,包括零击中实体生成、个性化文本到3D生成和零击2D和3D编辑等。

左上图展示了LucidDreamer在零击2D和3D编辑任务中的潜力,而左下图片展示了该框架在生成个性化文本到3D输出与LoRA中的能力,右侧的图片展示了该框架生成3D头像的能力。

最后的想法

在本文中,我们讨论了LucidDreamer,一种使用区间得分匹配(Interval Score Matching)或ISM方法来克服过度平滑问题的新方法,并讨论了模型架构以及其在文本到3D生成框架中的性能。我们还讨论了SDS或得分蒸馏采样(Score Distillation Sampling),这是大多数现代文本到3D生成模型中常见的方法,往往会导致生成图像过度平滑,以及LucidDreamer框架如何通过引入新的方法,即ISM(Interval Score Matching)方法来生成高保真度和更真实的3D图像来解决这个问题。结果和评估表明LucidDreamer框架在各种3D生成任务上的有效性,以及该框架已经比当前现代3D生成模型表现更好。该框架的出色性能为广泛的实际应用铺平了道路,如前面所讨论的。