认识GETMusic:一个能够生成任何音乐曲目的统一表示和传播框架
GETMusic A unified representation and dissemination framework for generating any music track.
近年来,使用机器学习模型生成音乐取得了显著进展。然而,在实现高效率和对结果的实质性控制方面仍存在挑战。以往的尝试主要由于音乐表示和模型架构的局限性而遇到困难。
由于源音轨和目标音轨可能有着广泛的组合,因此需要一个统一的模型,能够处理全面的音轨生成任务并产生期望的结果。基于采用的音乐表示,目前对符号音乐生成的研究可以归纳为两类,即基于序列的方法和基于图像的方法。基于序列的方法将音乐表示为离散令牌的序列,而基于图像的方法将音乐表示为具有钢琴卷轴作为理想选择的2D图像。钢琴卷轴将音符表示为水平线,其中垂直位置表示音高,线的长度表示持续时间。
为了满足生成任意音轨的统一模型的需求,中国的一支研究团队开发了一个名为GETMusic(GET代表GEnerate music Tracks)的框架。GETMusic非常了解输入,并且能够通过音轨生成音乐。这个框架允许用户创建节奏并添加额外元素以制作所需的音轨。该框架能够从头开始创建音乐,并能生成引导和混合音轨。
GETMusic使用一种称为GETScore的表示和一种称为GETDiff的离散扩散模型。GETScore在一个2D结构中表示音轨,其中音轨垂直堆叠,并随时间水平进展。研究人员用一个音高和一个持续时间令牌表示音符。GETDiff的工作是随机选择音轨作为目标或源。GETDiff有两个过程:前向过程和去噪过程。在前向过程中,GETDiff通过屏蔽令牌来破坏目标音轨,而将源音轨保留为真实数据。而在去噪过程中,GETDiff学习根据提供的源音轨预测被屏蔽的目标令牌。
研究人员强调,这一创新框架能够明确控制从头开始生成所需的目标音轨,或者基于用户提供的源音轨。此外,GETScore作为一种简洁的多音轨音乐表示,突破模型学习过程并实现和谐音乐生成。此外,此表示中使用的音高令牌有效地保留了多声部依赖关系,促进了和谐丰富的音乐作品的创作。
除了其音轨生成能力,GETDiff的先进屏蔽和去噪机制还赋予了零样本填充的能力。这一显著特点允许在GETScore中任意位置无缝去噪屏蔽令牌,推动创造力的边界,并增强框架的整体多样性。
总体而言,GETMusic表现出色,胜过许多其他类似模型,展示了目标音轨与提供的源音轨之间卓越的旋律、节奏和结构匹配。在未来,研究人员将继续探索该框架的潜力,特别关注将歌词作为额外音轨的整合。这种整合旨在实现令人印象深刻的歌词到旋律生成能力,进一步提升模型的多样性和表达能力。无缝结合文本和音乐元素可能会开启新的创意可能性,并提升整体音乐体验。