“见梦境摄影棚:一种用于主题驱动的文本到图像生成的人工智能技术”

Dream Studio an AI technology for theme-driven text-to-image generation

想象一下你的四足朋友在外面玩耍,或者你的汽车在独家展厅展示。创建这些虚构的场景是非常具有挑战性的,因为它需要将特定主题的实例(例如物体或动物)与新鲜的背景结合起来。

最近开发的大规模文本到图像模型展示出了在自然语言描述的基础上生成高质量和多样化图像的非凡能力。这些模型的一个关键优势在于它们能够利用从大量图像-标题对中获得的强大语义理解能力。这种语义先验使得模型能够将诸如”狗”这样的词与各种狗的表示关联起来,考虑到图像中不同的姿势和上下文变化。虽然这些模型在合成方面表现出色,但它们无法忠实地复制给定参考集中主题的外观,或者在不同的上下文中生成对这些主题的新的解释。这种限制是由于它们输出域的受限表现力所导致的。因此,即使是对一个对象的详细文本描述,也可能导致具有不同外观的实例,如果你正在寻找类似的东西,那就是个坏消息。

好消息是,最近引入了一种新的人工智能方法,可以实现文本到图像扩散模型的”个性化”。这使得将生成模型定制以满足个人用户的独特图像生成需求成为可能。目标是扩展模型的语言-视觉字典,建立新单词与用户意图生成的特定主题之间的关联。

一旦扩展字典被整合到模型中,它就具备了在不同场景中合成主题集的新颖逼真图像的能力,同时保留其独特的识别特征。这个过程可以被看作是一个”魔法照片亭”,其中捕获了一些主题图像,然后亭子根据简单直观的文本提示生成主题在不同条件和场景下的照片。DreamBooth的架构如下图所示。

https://arxiv.org/abs/2208.12242

形式上,目标是以一种方式将主题嵌入到模型的输出域中,以便在给定少量主题图像(大约3-5张)的情况下,与唯一标识符一起进行合成。为了实现这一目标,DreamBooth使用罕见的令牌标识符来表示主题,并对预训练的基于扩散的文本到图像框架进行微调。

文本到图像模型使用输入图像和文本提示进行微调,文本提示由唯一标识符和主题的类名组成(例如,”一只[V]的狗”)。这种方法允许模型利用关于主题类的先验知识,同时将类特定的实例与唯一标识符相关联。提出了一种类特定的先验保持损失,以防止语言漂移,这可能会导致模型错误地将类名(例如,”狗”)与特定实例关联起来。该损失利用了模型内部的嵌入语义先验,鼓励生成同一类别的多样化实例。

所提出的方法应用于各种基于文本的图像生成任务,包括主题重新上下文化、属性修改、原创艺术表现等。这些应用为以前具有挑战性的任务开辟了新的道路。

下面是一些重新上下文化任务的输出示例,以及实现该任务的文本提示。

https://arxiv.org/abs/2208.12242

这是DreamBooth的摘要,一种新颖的面向主题的文本到图像生成的AI技术。如果您有兴趣并希望了解更多关于这项工作的信息,您可以通过点击下面的链接找到更多信息。