“在LLMs中生成信息丰富的文本,以实现强大的跨模态接口,具有去扩散功能”

创造丰富信息内容的LLMs,实现强大的跨模态界面与去扩散功能

LLM(大型语言模型)产品的全球现象,以ChatGPT的广泛采用为例,引起了广泛关注。许多人已形成共识,认为LLMs在理解自然语言对话和帮助人类进行创意任务方面具有优势。尽管得到了这种承认,但以下问题仍然存在:这些技术的进化将走向何方?

一个明显的趋势表明,模型正在向多模态转变,使其能够理解各种模态,如图像、视频和音频。最近公布了一种具有出色图像理解能力的多模态模型GPT-4,并配有音频处理能力。

自深度学习问世以来,跨模态界面经常依赖于深度嵌入。这些嵌入在训练为自动编码器时,在保留图像像素方面表现出熟练性,同时也可以实现语义的有意义性,正如最近的模型CLIP所示。在思考语音和文本之间的关系时,文本自然成为直观的跨模态界面,这个事实经常被忽视。将语音音频转换为文本可以有效地保留内容,使用成熟的文本到语音技术可以重建语音音频。此外,转录的文本被认为包含了所有必要的语义信息。类比一下,我们可以将图像类似地“转录”为文本,这个过程通常被称为图像字幕。然而,典型的图像字幕在内容保留方面存在不足,更强调准确性而非全面性。图像字幕往往难以有效回答各种视觉问题。

尽管图像字幕有限,但如果可以实现准确和全面的文本,无论从直观上还是从实际上,都将是一个有前途的选择。从实际角度来看,文本为LLMs提供了本地的输入域。使用文本消除了与深度嵌入相关的自适应训练的需要。考虑到训练和适应头部LLMs的成本高昂,文本的模块化设计打开了更多的可能性。那么,我们如何获得图像的准确和全面的文本表示?解决方案在于借助经典的自编码技术。

与传统自编码器相比,所采用的方法是将预训练的文本到图像扩散模型作为解码器,以文本作为自然潜在空间。编码器被训练将输入图像转换为文本,然后将其输入到文本到图像扩散模型进行解码。目标是最小化重构误差,要求潜在文本是准确和全面的,即使它经常将语义概念组合成输入图像的“混乱字幕”。

生成文本到图像模型的最新进展展示了在将复杂文本,甚至包含成十几个单词的文本,转换为与给定提示紧密对齐的高度详细图像方面的异常熟练能力。这进一步证明了这些生成模型将复杂文本处理成视觉上连贯输出的非凡能力。通过将一个这样的生成文本到图像模型作为解码器纳入其中,优化的编码器探索了文本的广阔潜在空间,揭示了生成模型内蕴含的广泛的视觉语言知识。

在这些发现的支持下,研究人员开发了De-Diffusion,这是一种利用文本作为强大的跨模态界面的自编码器。其架构概述如下所示。

De-Diffusion由编码器和解码器组成。编码器被训练将输入图像转换为描述性文本,然后将其馈送到一个固定的预训练文本到图像扩散解码器中以重构原始输入。

对所提出方法的实验表明,De-Diffusion生成的文本能够熟练捕捉图像中的语义概念,当作为文本提示用于不同的文本到图像工具时,能够实现各种视觉语言应用。通过重建FID的定量评估结果表明,与人工注释的图像字幕相比,De-Diffusion文本作为第三方文本到图像模型的提示明显优于人工注释的图像字幕。此外,De-Diffusion文本通过仅使用少量任务特定示例提示,能够轻松地让现有LLMs执行开放式的视觉语言任务。这些结果似乎表明,De-Diffusion文本有效地将人类解释与不同领域的各种现成模型相连。

这是关于De-Diffusion的摘要,一种新颖的人工智能技术,可以将输入图像转换为富有信息的文本,能够在不同形式之间充当灵活的接口,实现多样化的视听语言应用。如果您感兴趣并想了解更多信息,请随时参考下面列出的链接。