意大利的一项新的人工智能研究介绍了一种基于扩散的生成模型,能够同时进行音乐合成和音源分离
意大利的一项人工智能研究介绍了一种基于扩散的生成模型,可同时进行音乐合成和音源分离
人类有能力同时处理多个声音源,无论是在音乐作曲或合成与分析,即源分离方面。换句话说,人脑可以从混合物中分离出单个声音源,反之亦然,即合成多个声音源以形成一种连贯的组合。当要数学表达这种知识时,研究人员使用源的联合概率密度。例如,音乐混音具有一种上下文,使得源的联合概率密度不能因为个别源的乘积而分解。
目前还不存在一种能够将许多源合成为连贯混合物并从混合物中分离出单个源的深度学习模型。在音乐作曲或生成任务中,模型直接学习混合物的分布,提供准确的混合物建模,但失去了有关单个源的所有知识。相反,源分离的模型学习每个源分布的单一模型,并在推理时间条件下的混合物上进行条件。因此,源之间相互依赖的关键细节都丢失了。无论是在哪种情况下,生成混合物都很困难。
为了构建一个既能够进行源分离又能够进行音乐生成的深度学习模型,罗马大学GLADIA研究实验室的研究人员开发了多源扩散模型(MSDM)。该模型是使用共享上下文的源的联合概率密度进行训练的,称为先验分布。生成任务通过使用先验进行采样完成,而分离任务则通过将先验分布条件于混合物,然后从得到的后验分布中采样来完成。这种方法是通用音频模型的重要第一步,因为它是一种能够执行生成和分离任务的首个模型。
- 使用Hugging Face构建一个使用LLMs的文本摘要工具
- 微软和哥伦比亚大学的研究人员提出了LLM-AUGMENTER:一种人工智能系统,它通过一组即插即用的模块增强黑盒LLM
- 斯坦福大学和DeepMind的研究人员提出了使用大型语言模型(LLMs)作为代理奖励函数的想法
研究人员使用Slakh2100数据集进行实验。Slakh2100数据集由2100个音轨组成,是源分离的标准数据集。选择Slakh2100作为团队的数据集主要是因为它的数据量比其他多源数据集要大得多,这对于建立生成模型的水平至关重要。该模型的基础在于估计源的联合分布,即先验分布。然后,不同的任务在推理时间使用先验进行解决。部分推理任务,例如源插补,其中给定其他源(例如使用与鼓声相补充的钢琴音轨)生成一部分源,是一些附加的任务,除了传统的整体推理任务。
研究人员使用基于扩散的生成模型,通过得分匹配训练以学习先验。这种技术通常被称为“去噪得分匹配”。得分匹配的关键思想是近似目标分布的“得分”函数,而不是分布本身。研究人员还引入了一种基于Dirac Delta函数的新的采样方法,以在源分离任务上获得显著的结果。
为了评估他们的模型在分离、部分和完全生成方面的性能,研究人员进行了多次测试。该模型在分离任务上的表现与其他最先进的回归模型相当。研究人员还解释说,目前可访问的上下文数据量限制了他们算法的性能。团队已考虑预分离混合物并将其用作数据集来解决这个问题。总之,GLADIA研究实验室提供的用于音乐领域的多源扩散模型,用于分离和整体与部分生成,是一种新颖的范式。该团队希望他们的工作能够鼓励其他学者在音乐领域进行更深入的研究。