文本到音乐生成AI：稳定音频，谷歌的MusicLM等等

音乐是一种与人类灵魂共鸣的艺术形式，一直以来都是我们的忠实伴侣。几十年前，使用人工智能创作音乐就已经开始了。最初的尝试简单而直观，基本算法生成单调的曲调。然而，随着技术的进步，AI音乐生成器的复杂性和能力也在不断提高，深度学习和自然语言处理（NLP）在这一技术中扮演着重要角色。

如今，像Spotify这样的平台正在利用AI来优化用户的听歌体验。这些深度学习算法根据节奏和情绪等各种音乐元素来分析个体偏好，为用户提供个性化的歌曲推荐。它们甚至分析更广泛的听歌模式，并搜索与歌曲相关的讨论来构建详细的歌曲概要。

音乐中人工智能的起源：从算法作曲到生成建模的旅程

在音乐领域中，AI混音的早期阶段可以追溯到20世纪50年代至70年代，主要关注算法作曲。这是一种计算机使用一组定义好的规则来创作音乐的方法。这一时期的第一个显著创作是1957年的《弦乐四重奏伊利亚克组曲》。它使用了蒙特卡洛算法，这是一个涉及随机数的过程，用来决定音高和节奏，符合传统音乐理论和统计概率。

作者使用Midjourney生成的图像

在此期间，另一位先驱者伊安尼斯·克萨纳基斯利用随机过程这一概念来创作音乐。他使用计算机和FORTRAN语言连接多个概率函数，创建了一个不同图形表示对应不同声音空间的模式。

将文本转化为音乐的复杂性

音乐以丰富且多维的数据格式存储，包括旋律、和声、节奏和速度等元素，使得将文本转化为音乐的任务极其复杂。一首标准歌曲在计算机中由近百万个数字表示，这个数字远高于其他数据格式如图像、文本等。

音频生成领域正在采用创新方法来克服创建逼真声音的挑战。一种方法是生成频谱图，然后将其转换回音频。

另一种策略是利用音乐的符号表示，比如乐谱，可以被音乐家解释和演奏。这种方法已经成功地数字化，例如Magenta的Chamber Ensemble Generator可以创建MIDI格式的音乐，这是一种在计算机和乐器之间进行通信的协议。

虽然这些方法推动了该领域的发展，但它们也存在一些局限性，突显了音频生成的复杂性。

基于Transformer的自回归模型和基于U-Net的扩散模型，处于技术的前沿，在生成音频、文本、音乐等方面取得了最先进的结果。OpenAI的GPT系列和几乎所有其他LLM都使用了Transformer，利用编码器、解码器或两者结构。在艺术/图像方面，MidJourney、Stability AI和DALL-E 2都利用了扩散框架。这两个核心技术在音频领域取得了SOTA的结果。本文将深入介绍Google的MusicLM和Stable Audio，它们展示了这些技术的卓越能力。

Google的MusicLM

Google的MusicLM于今年5月发布。MusicLM可以生成与文本中描述的情感完全相符的高保真音乐作品。通过分层序列到序列建模，MusicLM能够将文本描述转化为24kHz的音乐，并持续较长时间。

该模型在多个维度上运作，不仅仅符合文本输入，还展示了根据旋律进行条件约束的能力。这意味着它可以根据哼唱或吹口哨的旋律，按照文本说明中指定的风格进行转化。

技术见解

MusicLM借鉴了AudioLM的原理，AudioLM是2022年引入的用于音频生成的框架。AudioLM将音频合成视为一种离散表示空间内的语言建模任务，利用了粗粒度到细粒度的音频离散单元层次结构，也被称为标记。这种方法确保了在较长时间内的音质高保真和长期一致性。

为了促进生成过程，MusicLM扩展了AudioLM的能力，将文本条件引入其中，这是一种将生成的音频与输入文本的细微差别对齐的技术。通过使用MuLan创建的共享嵌入空间，可以将音乐和其对应的文本描述在嵌入空间中相互靠近。这种策略有效地消除了训练过程中需要字幕的需求，使模型能够在大规模的仅音频语料库上进行训练。

MusicLM模型还使用SoundStream作为其音频分词器，它可以通过利用残差矢量量化（RVQ）实现高效且高质量的音频压缩，以每秒6千比特的速率重构24千赫兹的音乐。

此外，MusicLM通过允许旋律条件化来扩展其功能。这种方法确保即使是简单的哼唱旋律也可以为华丽的听觉体验奠定基础，并且可以根据精确的文本样式描述进行微调。

MusicLM的开发人员还开源了MusicCaps，这是一个包含5.5k音乐-文本对的数据集，每个对都附带有人工专家撰写的丰富文本描述。您可以在这里查看：MusicCaps on Hugging Face。

准备使用Google的MusicLM创建AI配乐了吗？以下是如何入门：

1. 访问官方MusicLM网站并点击“开始”。
2. 选择“注册您的兴趣”加入等待列表。
3. 使用您的Google帐户登录。
4. 一旦获得访问权限，点击“立即试用”开始使用。

以下是我尝试过的一些示例提示：

“冥想曲，宁静舒缓，带有长笛和吉他。音乐缓慢，重点是创造平和与宁静的感觉。”

“爵士乐，有萨克斯风。”

在定性评估中，与Riffusion和Mubert等先前的SOTA模型相比，参与者更偏爱MusicLM，他们对文本字幕与10秒音频片段的兼容性给予了积极评价。

MusicLM的性能，图片来源：这里

稳定音频

Stability AI上周推出了“稳定音频”，这是一种以文本元数据为条件的潜在扩散模型架构，同时考虑了音频文件的持续时间和起始时间。这种方法，就像Google的MusicLM一样，对生成音频的内容和长度具有控制能力，可以创建具有指定长度的音频片段，长度可达到训练窗口的大小。

稳定音频包括多个组件，包括变分自编码器（VAE）和基于U-Net的条件扩散模型，与文本编码器一起工作。

VAE通过将立体声音频压缩为数据压缩、抗噪和可逆的有损潜在编码，实现了更快的生成和训练，避免了使用原始音频样本的需要。

文本编码器是从CLAP模型派生而来的，它在理解单词和声音之间的复杂关系方面起着关键作用，提供了经过标记化的输入文本的信息性表示。这是通过使用CLAP文本编码器倒数第二层的文本特征，并通过交叉注意力层将其整合到扩散U-Net中来实现的。

一个重要的方面是时间嵌入的融入，它们是基于两个属性计算的：音频块的开始秒和原始音频文件的总持续时间。这些值被转化为每秒离散学习的嵌入，与提示标记结合，并输入到U-Net的交叉注意力层中，使用户能够控制输出音频的总长度。

稳定音频模型是通过与股票音乐提供商AudioSparx合作，利用超过80万个音频文件的大量数据集进行训练的。

稳定音频商业广告

稳定音频提供免费版本，每月可生成20个长达20秒的音轨，以及每月12美元的专业版计划，可生成长达90秒的音轨500个。

下面是我使用稳定音频创建的音频片段。

图片由作者使用Midjourney生成

“电影音轨，柔和雨滴声，氛围，舒缓，远处狗叫声，宁静的树叶沙沙声，微风，40 BPM”

这样精心制作的音频作品的应用是无限的。电影制片人可以利用这项技术创造丰富而沉浸式的音景。在商业领域，广告商可以利用这些定制的音轨。此外，这个工具为个人创作者和艺术家开辟了创新和实验的途径，提供了一个无限潜力的画布，可以创造出以前在没有大量预算或技术专长的情况下很难实现的具有深度的声音作品。

提示技巧

使用文本提示来制作完美的音频。以下是一个快速指南，帮助您入门：

详细描述：指定类型、情绪和乐器。例如：电影音乐、西部野蛮、打击乐、紧张、氛围
情绪设定：结合音乐和情感术语来传达所需的情绪。
乐器选择：使用形容词增强乐器名称，如“混响吉他”或“强大的合唱团”。
BPM：将节奏与流派相匹配，以获得和谐的输出，例如对于鼓和贝斯曲目使用“170 BPM”。

结束语

图片由作者使用Midjourney生成

在本文中，我们深入探讨了AI生成的音乐/音频，从算法组合到如今的Google MusicLM和稳定音频等先进的生成AI框架。这些技术利用深度学习和SOTA压缩模型，不仅增强了音乐生成，也调整了听众的体验。

然而，这是一个不断发展的领域，面临着保持长期连贯性和AI创作音乐的真实性的持续辩论等挑战。就在一周前，人们热议的是一首以Drake和The Weeknd风格为主题的AI创作歌曲，这首歌曲早些时候在网络上引起了轰动。然而，它被从格莱美提名名单中移除，展示了围绕AI生成音乐的合法性的持续辩论（来源）。随着AI不断缩小音乐和听众之间的差距，它必然促进了一个技术与艺术共存的生态系统，既促进创新又尊重传统。

Generative AI,NLP,Prompt Engineering

文本到音乐生成AI：稳定音频，谷歌的MusicLM等等