“见证JEN-1:一个通用的AI框架,结合双向和单向模式,用于根据文本或音乐表达生成高质量的音乐”
JEN-1 A universal AI framework combining bidirectional and unidirectional modes for generating high-quality music based on text or music expression.
音乐被亨利·沃兹沃斯·朗费罗誉为人类的普遍语言,它蕴含和谐、旋律和节奏的精髓,编织出一幅文化意义的图景,与世界各地的人们产生深刻共鸣。深度生成模型的最新进展推动了音乐生成的进步。然而,生成高质量、逼真的音乐,并在文本描述的条件下捕捉其复杂性和细微差别的挑战仍然十分艰巨。
现有的音乐生成方法已经取得了重大进展,但仍需要改进以开发与自由形式文本提示相符的复杂逼真的音乐。音乐的多面性涵盖了各种乐器和和声,需要解决特定的挑战:
- 音乐包含广泛的频谱范围,需要高采样率(如44.1KHz立体声)来捕捉复杂的细节。这与较低采样率的语音形成对比。
- 乐器的精妙互动和旋律、和声的安排导致复杂的音乐结构。精确度至关重要,因为音乐对于不协调音的敏感。
- 保持对调式、流派和旋律等属性的控制对于实现预期的艺术愿景至关重要。
为了解决文本到音乐生成的这些挑战,未来宇宙研究团队设计了JEN-1。JEN-1利用了独特的全向扩散模型,结合了自回归(AR)和非自回归(NAR)范式,使其能够捕捉顺序依赖关系并加快生成速度。与通常将音频数据转换为梅尔频谱图的先前方法不同,JEN-1直接对原始音频波形进行建模,保持更高的保真度和质量。这通过一个抗噪声的掩蔽自编码器实现,将原始音频压缩成潜在表示,保留高频细节。研究人员引入了一步归一化,以减少潜在嵌入中的各向异性,进一步提高模型的性能。
JEN-1的核心架构是一个全向1D扩散模型,结合了双向和单向模式。该模型利用了一种受Efficient U-Net架构启发的时间1D高效U-Net,有效地对波形进行建模,并包括卷积层和自注意力层,以捕捉顺序依赖关系和上下文信息。单向模式是由因果填充和掩蔽自注意力引入的,由于其时序性质,对于音乐生成至关重要,确保右侧生成的潜在嵌入依赖于其左侧的对应部分。
JEN-1的独特优势之一在于其统一的音乐多任务训练方法。它支持三个主要的音乐生成任务:
- 双向文本引导的音乐生成
- 双向音乐修复(恢复缺失片段)
- 单向音乐延续(外推)
通过多任务训练,JEN-1在任务之间共享参数,使其更好地泛化并更有效地处理顺序依赖关系。这种灵活性使JEN-1成为一个可应用于不同音乐生成场景的多功能工具。
实验设置涉及对5,000小时的高质量音乐数据进行JEN-1训练。模型使用了掩蔽音乐自编码器和FLAN-T5进行文本嵌入。在训练过程中,平衡了多任务目标,并采用了无分类器的引导。JEN-1在8个A100 GPU上使用AdamW优化器进行了200k步的训练。
JEN-1的性能通过客观和主观指标与几种最先进的方法进行了比较。在可信度(FAD)、音频文本对齐(CLAP)、人工评定的文本到音乐质量(T2M-QLT)和对齐(T2M-ALI)方面,它优于其他方法。尽管计算效率很高,JEN-1在文本到音乐合成方面超过了竞争模型。
消融研究证明了JEN-1中不同组成部分的有效性。包括自回归模式和多任务目标的引入提高了音乐质量和泛化能力。所提出的方法在不增加训练复杂性的情况下始终实现了高保真度的音乐生成。
总体而言,JEN-1为文本到音乐生成提供了一个强大的解决方案,显著推进了该领域的发展。它通过直接建模波形并结合自回归和非自回归训练来生成高质量的音乐。集成扩散模型和掩蔽自编码器增强了序列建模。与强基线方法相比,JEN-1在主观质量、多样性和可控性方面表现出优势,突显了其在音乐合成方面的有效性。