“认识AnimateDiff:一种有效的AI框架,用于将个性化文本到图像(T2I)模型扩展为动画生成器,无需模型特定的调整”

Introducing AnimateDiff an efficient AI framework that extends personalized text-to-image (T2I) models to animation generators without the need for model-specific adjustments.

文本到图像(T2I)生成模型引起了研究界内外的前所未有的关注,成为非研究人员用户(如艺术家和业余爱好者)参与AI辅助内容创作的低门槛入口。提出了几种轻量级个性化技术,如DreamBooth和LoRA,可以在消费级设备(如带有RTX3080的笔记本电脑)上对这些模型进行定制微调,以便在小型数据集上生成具有明显改进质量的定制内容。这些技术进一步旨在鼓励现有T2I生成模型的创造力。

这使用户能够快速而经济地为预训练的T2I模型添加新的想法或美学,从而导致了类似CivitAI和Huggingface等模型共享网站上由专业人士和业余爱好者创建的定制模型的大量出现。尽管使用DreamBooth或LoRA开发的定制文本到图像模型因其出色的视觉质量而备受赞赏,但它们只能生成静态图片。缺乏时间上的灵活度是主要问题。在考虑动画的多样化用途的情况下,他们想知道是否可以将大多数当前的定制T2I模型转换为可创建动画图片的模型,并且保持原始的视觉质量。

将时间建模纳入初始T2I模型并使用视频数据集进行微调是最近两种通用文本到视频生成技术的建议。但对于定制T2I模型来说,这变得困难,因为消费者通常需要帮助来负担微妙的超参数调整、定制视频收集和要求高的计算资源。在这项工作中,上海人工智能实验室、香港中文大学和斯坦福大学的研究人员描述了一种名为AnimateDiff的通用技术,它能够为任何定制T2I模型创建动画图片,而无需进行特定于模型的调整,并且在时间上具有美学上令人愉悦的内容一致性。

考虑到大多数定制T2I模型均来自同一基础模型(如稳定扩散),并且收集每个定制域的相应视频是不可行的,因此他们转而设计了一个运动建模模块,最终可以为大多数定制T2I模型添加动画效果。更具体地说,将运动建模模块添加到基础T2I模型中,并在大型视频片段上进行优化,学习适当的运动先验知识。值得注意的是,底层模型的参数保持不变。经过一些微调,他们表明所创建的个性化T2I模型也可能从良好学习的运动先验知识中受益,创造出有吸引力和流畅的动画。

运动建模模块能够为所有相关的个性化T2I模型提供动画效果,而无需额外的数据收集或定制培训。他们在各种典型的DreamBooth和LoRA模型上测试了AnimateDiff,包括逼真的图像和动漫图像。大多数定制T2I模型可以直接通过安装熟练的运动建模模块来添加动画效果,无需特殊调整。此外,他们在实践中发现,运动建模模块可以仅通过时间维度上的普通注意力获得正确的运动先验知识。他们还展示了运动先验知识在2D动漫和3D动画等领域的应用。为此,他们的AnimateDiff可能会成为定制能量的简单而高效的基线,使消费者可以轻松获得定制图片模型的定制动画,只需支付少量费用。代码可在GitHub上获得。