准备好迎接AI的声音革命:2023年是生成式声音波的年份
2023年是AI声音革命的年份
<img src=”https://www.marktechpost.com/wp-content/uploads/2023/02/Newsletter-Banner-Thumbnail-Beehiiv-2-1024×538.jpg”/><img src=”https://www.marktechpost.com/wp-content/uploads/2023/02/Newsletter-Banner-Thumbnail-Beehiiv-2-150×150.jpg”/><p>去年,关注计算机视觉(CV)和自然语言处理(NLP)的工作量显著增加。因此,全球学术界正在关注深度学习和大型语言模型(LLMs)可能带来的音频生成潜在益处。仅在过去几周,已经有四篇新论文发表,每篇都介绍了一个潜在有用的音频模型,可以使这一领域的进一步研究更加容易。
<p><strong>MusicLM</strong></p><p>第一个模型是MusicLM,由谷歌和IRCAM-Sorbonne Universite的研究人员开发。MusicLM是一个能够根据文本描述生成高质量音乐的模型,比如“由失真吉他节奏支持的舒缓的小提琴旋律”。MusicLM将条件音乐生成建模为层次化的序列到序列建模任务,能够生成持续几分钟的24 kHz音乐。MusicLM可以在文本和旋律上进行训练。这使得模型能够调整哼唱或吹口哨的曲调的音高和速度,以配合标题文本的音调。MusicCaps是一个公开可用的数据集,包含5.5k个音乐-文本对,带有详细的人工生成的描述。
<p>MusicLM特别训练了SoundStream、w2v-BERT和MuLan预训练模块。其中,类似CLIP的MuLan模型尤其引人注目,因为它学习将耦合的音频和文本编码更接近嵌入空间中的彼此。正如在他们的论文《MusicLM: 生成音乐文本》中提到的那样,有了MuLan的支持,MusicLM可以克服配对数据不足的问题,并从大型音频语料库中获取知识。
<p><strong>SingSong</strong></p><p>谷歌的另一项研究提出了SingSong,这是一个能够根据输入的人声音频生成配套的器乐音频的系统。换句话说,输出的器乐音频可以与输入的人声音频结合起来,创作出连贯的音乐,包括输入的内容。
- 一项新的人工智能研究提出了一种多模态的思维链推理语言模型,其在ScienceQA上的表现超过了GPT-3.5 16%(从75.17%提升至91.68%)
- 德克萨斯大学奥斯汀分校的研究人员介绍了PSLD:一种利用稳定扩散来解决所有线性问题而无需额外训练的人工智能方法
- 2023年顶级生成式人工智能公司
<p>SingSong利用了音乐技术中的两个重要领域的发展:源分离和生成式音频建模。团队通过使用先前作品中开发的商业可用源分离技术,将包含100万首曲目的大规模音乐数据集分割成对齐的人声和器乐源。他们将这作为我们工作的平行数据。然后,他们将AudioLM重新用于条件的“音频到音频”生成建模,通过对源分离的数据进行监督训练。AudioLM是一个涉及中间表示层次结构的音频生成模型,因此适用于无条件音频生成建模。
<p>在他们的论文《SingSong: 从演唱中生成音乐伴奏》中,团队提出了两种增强输入人声的特征化策略,以提高泛化能力:</p><ol>
<li>向人声输入添加噪声以隐藏伪影</li>
<li>仅使用AudioLM最粗糙的中间表示作为条件输入。</li>
</ol><p>这些增强措施使孤立人声的性能比标准AudioLM增强提高了55%。与使用参考检索方法的器乐相比,听众66%的时间选择了SingSong生成的器乐。更重要的是,听众有34%的时间更喜欢SingSong生成的器乐而不是真实的器乐。
<p><strong>Moûsai</strong></p><p>由ETH Zürich和Max Planck Institute for Intelligent Systems的一组研究人员合作进行的研究介绍了Moûsai,这是一个基于上下文构建长时间48kHz立体音乐的文本条件级联扩散模型,并能生成广泛的音乐。
<p>正如在他们的论文《Moûsai: 基于长上下文潜在扩散的文本到音乐生成》中提到的,研究人员在Moûsai模型中采用了两阶段级联扩散。</p><ul>
<li>第一阶段采用一种新颖的扩散自编码器将音频波形压缩了64倍,同时保持了适度高的质量。</li>
<li>第二阶段学习以预训练语言模型生成的文本嵌入为条件生成减少的潜在表示。</li>
</ul><p>他们在两个阶段都使用了优化版本的高效U-Net。研究结果表明,推理可以快速进行,使模型在实际应用中具有实践意义。类似地,整个系统可以在最低资源的情况下进行教学和运行,例如大多数学院可用的资源,每个阶段在一台A100 GPU上的训练时间约为一周。</p>
AudioLDM
萨里大学与伦敦帝国学院合作推出了AudioLDM,这是一个利用连续LDM(潜在扩散模型)实现最先进的生成质量,并具有计算效率和文本条件音频处理优势的TTA系统。他们在《AudioLDM: Text-to-Audio Generation with Latent Diffusion Models》的工作中表明,借助基于mel频谱图的变分自动编码器(VAE),AudioLDM可以学习如何在潜在空间(VAE)中构建音频先验。
研究人员在训练LDM时不依赖语言-音频对,而是利用CLAP潜变量来促进TTA的创建。他们的实验证明,只利用音频输入在LDM训练中可以获得高质量且计算经济的TTA系统。他们的研究表明,与音频-文本数据对相比,只使用音频可以更有效地训练LDM。
在AudioCaps数据集上进行测试时,提出的AudioLDM相对于DiffSound基线有着显著的优势,其得分(FD)为23.31,实现了最先进的TTA性能。该技术允许在采样过程中进行零样本音频变换。
EPIC SOUNDS数据集
最后,牛津大学和布里斯托大学使用EPIC-audio KITCHENS100创建了EPIC-SOUNDS,这是一个包含日常噪声的大规模数据集。EPIC-SOUNDS包括来自45个住宅厨房的700个视频中提取的100小时素材,总共包含117,553个声音事件。其中,有44个类别的声音事件有78,366个,未分类的声音事件有39,187个。声音类别是通过听觉描述来创建的,因此非常适合音频/声音识别和声音事件检测等声学挑战。
音乐生成技术可能会深刻改变音乐文化,并重新定义利益相关者之间的经济联系。许多研究人员对这些模型带来的深层危害表示关注,例如增加对音乐创作的参与。更具体地说,人声作为一种歌唱乐器,可能与任何乐器中的个人身份有着最强烈的联系。
为了避免从头开始生成音乐或模仿身份的系统的缺点,许多研究人员认为这些模型应该依赖用户的主动性(即唱歌)来产生音乐,并在输出中保持个体的独特性。
研究人员认为,最近的研究将改变音乐产业,使音乐创作者能够更快地生成音乐创意和概念,尝试新的声音和风格,并自动化重复性任务。此外,人类音乐家在音乐中带来了艺术和细微差别,机器无法复制。





