字节跳动AI研究介绍了StemGen:一种端到端音乐生成深度学习模型,它经过训练可以聆听音乐背景并作出适当的回应

美妆与时尚专家解析:字节跳动AI研究介绍StemGen——一款独特的端到端音乐生成深度学习模型,让你的音乐体验更加智能化和个性化!

使用深度学习进行音乐生成是指训练模型以创建音乐作品,模仿现有音乐中的模式和结构。常用的深度学习技术包括循环神经网络(RNN)、长短期记忆网络(LSTM)和变压器模型。本研究探索了一种创新的方法,使用非自回归、基于变压器的模型来生成音乐音频,并对音乐上下文作出回应。这种新范式注重听和回应,与现有模型依赖于抽象条件的方式不同。该研究结合了该领域的最新进展,并讨论了对架构进行的改进。

SAMI和字节跳动团队的研究人员引入了一种非自回归、基于变压器的模型,它可以依据音乐上下文进行听和回应,并利用MusicGen模型的一个公开可用的Encodec检查点。模型的评估使用了标准指标和音乐信息检索描述符(Distance)方法,包括Frechet音频距离(FAD)和音乐信息检索描述符距离(MIRDD)。结果模型展现出了具有竞争力的音频质量和良好的音乐与上下文的对齐,通过客观指标和主观MOS测试进行了验证。

该研究突出了深度学习在端到端音乐音频生成方面取得的最新进展,借鉴了图像和语言处理的技术。它强调了音乐创作中音频的对齐难题,并批评了依赖于抽象条件的现有模型。该研究提出了一种训练模型的范式,使用非自回归、基于变压器的架构来回应音乐上下文。它引入了两种调节源,并将问题设定为有条件的生成。模型评估需要使用客观指标、音乐信息检索描述符和听觉测试。

该方法利用了一种非自回归、基于变压器的模型进行音乐生成,将一个独立的听觉编码模型中的残差向量量化器组合起来。它通过拼接嵌入将多个音频通道合并为一个序列元素。训练过程采用了掩蔽过程,并在令牌采样期间使用无需分类的指导,以增强音频上下文的对齐。客观指标评估模型性能,包括Fr’echet音频距离和音乐信息检索描述符距离。评估过程涉及使用各种指标生成和比较示例输出与真实音频的情况。

该研究使用了标准指标和音乐信息检索描述符方法对生成的模型进行评估,包括FAD和MIRDD。与真实音频对比表明,该模型实现了与最先进的文本条件模型相当的音频质量,与上下文具有较强的音乐连贯性。通过参与音乐训练的参与者进行的平均意见分数测试进一步验证了模型产生合理音乐结果的能力。MIRDD评估生成的音频和真实音频的分布对齐,提供了音乐连贯性和对齐度的度量。

总之,本研究的主要内容如下:

  • 该研究提出了一种可以回应音乐上下文的生成模型的新训练方法。
  • 该方法引入了一个非自回归语言模型,以变压器为基础,并有两个未经测试的改进:多源无需分类指导和迭代解码期间的因果偏差。
  • 通过对开源和专有数据集进行训练,模型实现了最先进的音频质量。
  • 标准指标和音乐信息检索描述符方法对模型的音频质量进行了验证。
  • 平均意见分数测试证实了模型生成逼真音乐结果的能力。