从声音到视觉:了解用于音频到图像合成的AudioToken
神经生成模型改变了我们消费数字内容的方式,彻底改变了各个方面。它们具有生成高质量图像的能力,确保长篇文本的连贯性,甚至还可以产生语音和音频。在不同的方法中,基于扩散的生成模型已经获得了突出的地位,并在各种任务中展现了有希望的结果。
在扩散过程中,模型学习将预定义的噪声分布映射到目标数据分布。在每个步骤中,模型预测噪声并从目标分布中生成信号。扩散模型可以操作不同形式的数据表示,例如原始输入和潜在表示。
针对文本到图像合成任务,已经开发了稳定扩散、DALLE和Midjourney等最先进的模型。尽管近年来X到Y的生成越来越受到关注,但音频到图像模型尚未得到深入探讨。
使用音频信号而不是文本提示的原因是在视频的情境下图像和音频之间的相互关系。相比之下,虽然基于文本的生成模型可以产生出色的图像,但文本描述并不与图像本质上相关,这意味着文本描述通常是手动添加的。此外,音频信号还具有表示复杂场景和对象的能力,例如相同乐器的不同变体(例如古典吉他、原声吉他、电吉他等)或相同对象的不同视角(例如在工作室录制的古典吉他与现场演出的古典吉他)。为不同对象的这些详细信息手动注释是劳动密集型的,这使得可扩展性具有挑战性。
以前的研究提出了几种方法,用于从图像输入生成音频,主要是使用生成对抗网络(GAN)基于音频记录生成图像。然而,他们的工作与提出的方法之间存在显着差异。有些方法专注于仅生成MNIST数字,而没有将其方法扩展到包括一般音频声音。其他方法确实从一般音频生成图像,但结果是低质量的图像。
为克服这些研究的局限性,提出了一种DL模型,用于音频到图像的生成。其概述如下图所示。
这种方法涉及利用预先训练的文本到图像生成模型和预先训练的音频表示模型来学习它们的输出和输入之间的适应层映射。借鉴最近有关文本反演的工作,引入了专用音频令牌,将音频表示映射到嵌入向量中。然后将此向量作为连续表示转发到网络中,反映出新的单词嵌入。
音频嵌入器利用预先训练的音频分类网络来捕获音频的表示。通常,判别网络的最后一层被用于分类目的,但它经常忽略与判别任务无关的重要音频细节。为了解决这个问题,该方法将较早的层与最后一个隐藏层相结合,形成音频信号的时间嵌入。
下面是该模型生成的示例结果。
这是新型音频到图像(A2I)合成模型AudioToken的总结。如果您有兴趣,可以在下面的链接中了解更多有关这种技术的信息。