这篇AI论文通过黎曼几何深入理解扩散模型的潜变空间

用黎曼几何深入解析扩散模型潜在变化空间的AI论文

随着人工智能和机器学习的日益普及,其主要子领域,如自然语言处理、自然语言生成等,正以快速的步伐发展。最近引入的扩散模型 (DMs) 在各种应用中表现出色,包括图像编辑、逆问题和文本到图像的合成。尽管这些生成模型获得了很多赞赏和成功,但对它们的潜在空间及其对产生的输出的影响还了解甚少。

尽管全面扩散图像通常被视为潜在变量,但它们在潜在空间中沿特定方向穿越时会意外地发生变化,因为它们缺乏调节结果的相关特性。最近的研究提出了一个中间特征空间的概念,该空间由扩散核内表示为字母 H 的中间特征空间充当语义潜在空间。另一些研究是关于跨注意力或自注意力操作的特征图,它们可以影响下游任务,如语义分割、提高样本质量或改善结果控制。

尽管有这些发展,仍需要探索包含潜在变量 {xt} 的空间 Xt 的结构。这是困难的,因为 DM 训练的性质与传统的分类或相似性等监督方式不同,模型独立于输入预测前向噪声。由于存在多个递归时间步长上的多个潜在变量,该研究的进一步复杂性更加复杂。

最近的研究团队通过检查空间 Xt 及其匹配表示 H 来解决这些挑战。拉回度量来自黎曼几何学,这是团队建议将局部几何融入到 Xt 中的方法。该团队在分析中采用了几何视角,并使用与 DMs 的编码特征图相关的拉回度量来导出 X 内的局部潜在基底。

该团队表示,这项研究的结果发现了一种在启用图像修改功能方面至关重要的局部潜在基础。为此,DMs 的潜在空间沿着在预定的时间步长上的基向量进行操作。通过在特定时间步长 t 上应用修改,无需进行更多训练即可更新图像。

该团队还评估了各种文本环境的方差以及 DMs 在扩散时间步长中的几何结构的演变。这项分析再次证实了粗粒到细粒的生成现象,还阐明了数据集复杂性的影响和文本提示的时变效果。

总之,这项研究独具一格,是首次通过遍历 x 空间来呈现图像修改,以在特定时间步长上进行编辑而无需额外训练的要求。