‘MusicGen再创新:Meta在AI音乐方面的潜在进展’

‘音乐创新先锋:Meta在AI音乐领域的潜力无限’

探索被忽视但令人瞩目的MusicGen进展

一个象征着音乐人工智能产品如何提升每个人的音乐创作的图像。该图像是通过与ChatGPT和DALL-E-3的对话生成的。

起源…

2023年2月,谷歌以他们的生成式音乐人工智能MusicLM引起了轰动。从那时起,事情变得明朗:

  1. 2023年将是基于人工智能的音乐生成的突破年
  2. 很快就会有一个新模型超越MusicLM

许多人预期,下一个突破的模型将在模型参数和训练数据方面是MusicLM的十倍。它还将带来同样的伦理问题,包括对源代码的限制访问以及使用受版权保护的训练资料。

如今,我们知道这只有一半是真的。

在2023年6月发布的Meta的MusicGen模型带来了一些巨大的改进,包括:

  1. 更高质量的音乐输出(从24kHz增加到32kHz)
  2. 更自然的音乐乐器声音
  3. 可以将生成与任何旋律联系起来(我写了一篇博客文章介绍这个)

……所有这些改进都是在使用更少的训练数据、开源代码和模型权重以及只使用商业许可的训练资料的情况下实现的。

六个月后,炒作已经逐渐平息。然而,Meta的研究团队FAIR继续发表论文并更新代码,以逐步改进MusicGen。

……目前情况如何

自发布以来,Meta以两种关键方式升级了MusicGen:

  1. 使用多频带扩散生成更高质量的音乐
  2. 通过立体声生成使输出更生动

虽然这听起来像是两个小改进,但它们产生了很大的差别。亲自聆听吧!这是由原始的MusicGen模型(33亿参数)生成的10秒乐曲:

取自官方MusicGen演示页面的生成曲目。

所使用的提示是:

自然色彩,环保意识,夏威夷四弦琴,和谐,轻松,有机乐器,温柔的节奏

现在,这是六个月后基于相同提示输入的MusicGen输出的一个例子:

由作者使用MusicGen 3.3B立体声生成的乐曲。

如果您使用智能手机扬声器听音乐,这个差别可能不太明显。但在其他设备上,您应该能够听出整体音质更清晰、更自然,立体声让作品变得更活泼、更令人兴奋。

在这篇博文中,我想展示这些改进,解释它们的重要性和工作原理,并提供一些例子。

多频带扩散 – 它是做什么的?

要理解多频带扩散是什么以及为什么它有所改进,让我们看看原始的MusicGen模型[1]是如何产生输出的。

在计算机中,以34kHz的采样率表示的30秒音频由将近100万个数字组成。逐个采样生成这样的音频相当于用ChatGPT生成10部完整的小说。

相反,Meta依赖于神经音频压缩技术。他们的压缩模型EnCodec[2]可以将音乐从34kHz压缩到大约0.05kHz,同时仍然保持重建到原始采样率的相关信息。EnCodec包括一个编码器,用于压缩音频,和一个解码器,用于重新创建原始声音(图1)。

图1 — Encodec: Meta的神经音频压缩模型。图片由作者提供。

现在回到MusicGen。它不再以全采样率生成音乐,而是以0.05kHz的速率生成,并让EnCodec“重构”它,以在最少的计算时间和成本下获得高保真度的输出(图2)。

图2 — MusicGen: 用户提示(文本)被转换为编码音频信号,然后解码以产生最终结果。图片由作者提供。

虽然EnCodec是一项令人印象深刻的技术,但它的压缩并非无损的。与原始音频相比,在重构的音频中存在明显的人为痕迹。请亲自聆听!

原始音频

EnCodec音乐示例取自官方的EnCodec演示页面

重构音频

EnCodec音乐示例取自官方的EnCodec演示页面

由于MusicGen完全依赖于EnCodec,这成为生成音乐质量的一个主要瓶颈。这就是为什么Meta决定改进EnCodec的解码器部分。2023年8月,他们开发了利用多频带扩散的EnCodec更新解码器[3]

Meta发现EnCodec的原始解码器存在一个问题,即它倾向于先生成低频部分,然后再生成高频部分。不幸的是,这意味着低频部分的任何错误/人为痕迹也会扭曲高频部分,大大降低输出质量。

多频带扩散通过在合并之前独立生成频谱的不同部分来解决这个问题。研究人员发现,这个过程显著改善了生成的输出结果。从我的角度来看,差异是显而易见的。听一下具有原始EnCodec解码器和多频带扩散解码器的同一曲目:

原始解码器

取自多频带扩散的生成曲目的演示页面

多频带扩散解码器

取自多频带扩散的生成曲目的演示页面

当前的文本转音乐系统的一个核心问题是,它所产生的声音始终带有不自然的质量,特别是对于声学乐器。多频带扩散使输出的声音更加清晰、自然,提高了MusicGen的水平。

为什么立体声声音如此重要?

到目前为止,大多数生成式音乐模型都是产生单声道音频。这意味着MusicGen不会将任何声音或乐器放置在左侧或右侧,导致混音较为平淡和乏味。立体声声音一直被忽视的原因是生成立体声并不是一项简单的任务。

作为音乐人,当我们制作立体声信号时,我们可以访问混音中的各个乐器音轨,并将它们放置在我们想要的位置。MusicGen不会单独生成所有乐器,而是产生一个合并的音频信号。在没有访问这些乐器源的情况下,创造立体声声音是困难的。不幸的是,将音频信号拆分为其各个来源是一个棘手的问题(我在博客文章中发表了相关内容),并且技术仍然不完善。

因此,Meta决定将立体声生成直接纳入MusicGen模型中。他们使用了一个包含立体声音乐的新数据集,训练MusicGen生成立体声输出。研究人员声称,与单声道相比,生成立体声并不增加计算成本。

虽然我觉得论文中对立体声过程的描述不是很清晰,但我理解它是这样工作的(图3):MusicGen学会了生成两个压缩音频信号(左声道和右声道),而不是一个单声道信号。这些压缩信号必须在组合成最终立体声输出之前分别解码。之所以这个过程不会花费两倍的时间,是因为MusicGen现在可以在之前一个信号所需的时间内同时产生两个压缩音频信号。

图3 — MusicGen立体声更新。请注意,这个过程在论文中没有被足够详细地记录,我也不能100%确定。可以将其视为基于经验的猜测。图片由作者提供。

能够产生令人信服的立体声音效使MusicGen与其他前沿模型(如MusicLM或Stable Audio)有所区别。在我看来,这个“小”添加在生成的音乐的生动性方面有着巨大的差异。请亲自聆听(在智能手机扬声器上可能很难听到):

单声道

立体声

结论

MusicGen从发布的那天起就令人印象深刻。然而,自那以后,Meta的FAIR团队一直在不断改进他们的产品,使其产生更高质量、更真实的结果。就生成音频信号(而不是MIDI等)的文本到音乐模型而言,从我的角度来看,MusicGen领先于竞争对手(截至2023年11月)。

此外,由于MusicGen及其相关产品(EnCodec,AudioGen)都是开源的,它们成为了令人难以置信的灵感来源和渴望成为AI音频工程师的首选框架。如果我们看看MusicGen在仅仅6个月内的改进,我只能想象2024年将会是一个令人兴奋的一年。

另一个重要的观点是,Meta的透明度方法还为那些希望将这项技术融入音乐软件的开发人员提供了基础性的工作。生成样本,构思音乐创意,或者改变现有作品的风格 —— 这些都是我们已经开始看到的一些令人兴奋的应用。只要透明度足够,我们就可以确保我们正在建设一个未来,其中人工智能使音乐创作更加兴奋,而不仅仅是对人类音乐才能的威胁。

注:虽然MusicGen是开源的,但预训练模型不得用于商业用途!请访问audiocraft的GitHub存储库,了解有关其各个组件的预期用途的更详细信息。

参考资料

[1] Copet等(2023)。简单且可控的音乐生成。 https://arxiv.org/pdf/2306.05284.pdf

[2] Défossez等(2022)。高保真度神经音频压缩。 https://arxiv.org/pdf/2210.13438.pdf

[3] Roman等(2023)。从离散标记到多带扩散高保真度音频。 https://arxiv.org/abs/2308.02560

关于我

嗨!我是一个音乐学家和数据科学家,分享我对人工智能和音乐的当前话题的看法。这是我与本文相关的一些以前的工作:

VoAGILinkedin上找到我!