遇见梦幻:一种基于扩散的音乐领域知识启发的文本转音乐系统,扩展了探戈文本到音频模型
「梦幻邂逅:基于扩散音乐领域知识启迪的文本转音乐系统,将探戈文本拓展至音频模型」
“`html


在文本音乐合成领域,生成内容的质量不断提高,但音乐方面的可控性仍未被开发。新加坡科技与设计大学和伦敦玛丽女王大学的研究团队提出了一个名为Mustango的解决方案,该方案扩展了Tango文本到音频模型,旨在通过丰富的说明生成音乐,包含有关和弦、节拍、速度和调式的具体指令。
研究人员将Mustango介绍为一个基于扩散模型的音乐领域知识启发的文本到音乐系统。他们强调了从扩散模型直接生成音乐所面临的独特挑战,强调了需要在条件文本和音乐性之间取得平衡的必要性。Mustango使音乐家、制作人和音效设计师能够根据和弦进行、速度和调式选择创建具有特定条件的音乐片段。
作为Mustango的一部分,研究人员提出了一个名为MuNet的音乐领域知识引导的UNet子模块。MuNet将从文本提示中预测出的包括和弦、节拍、调式和速度在内的音乐特定特征融入扩散去噪过程。为了克服音乐和文本说明可用数据集的有限性,研究人员引入了一种新颖的数据增强方法。该方法涉及到改变音乐音频的和声、节奏和动态方面,并使用音乐信息检索方法提取音乐特征,然后将它们附加到现有的文本描述中,从而得到MusicBench数据集。
MusicBench数据集包含超过52,000个实例,丰富了原始文本描述的信息,包括节拍、下拍位置、底层和弦进行、调式和速度。研究人员进行了大量实验证明Mustango达到了最先进的音乐质量。他们强调了通过音乐特定的文本提示来控制Mustango的能力,在捕捉多个数据集上的期望和弦、节拍、调式和速度方面展示出了卓越的性能。他们评估了这些预测器在没有控制句子的情况下的适应性,并观察到Mustango在这种情况下优于Tango,表明控制预测器不会影响性能。
实验证明了与基线(如Tango)和Mustango的变体进行的比较,证明了所提出的数据增强方法在提高性能方面的有效性。从头开始训练的Mustango被认为是最佳表现者,在音频质量、节奏存在和谐方面超过了Tango和其他变体。Mustango拥有14亿参数,比Tango多得多。
总之,研究人员将Mustango介绍为文本音乐合成领域的一项重大进展。他们解决了现有系统中的可控性差距,并通过大量实验证明了他们提出的方法的有效性。Mustango不仅实现了最先进的音乐质量,而且提供了增强的可控性,使其成为该领域的宝贵贡献。研究人员发布了MusicBench数据集,为未来的文本音乐合成研究提供了资源。
“`



