来自UCL和Google的研究人员提出了AudioSlots 一种以插槽为中心的音频域盲源分离生成模型

Researchers from UCL and Google propose AudioSlots, a slot-centric audio domain blind source separation generation model.

最近,神经网络在处理结构化数据并从非结构化输入映射到结构化输出空间的架构中得到了广泛关注。尤其在视觉领域中,对象识别和无监督对象发现的最新进展得到了基于插槽或对象为中心系统的支持。这些对象为中心的架构由于其置换等变性的归纳偏差,非常适合音频分离。本文的重点是应用这些架构的关键概念来区分混合音频信号中的音频源,而无需了解源或混合过程的内部信息。

图1:架构概述:在切割输入波形之后创建一个频谱图。然后,神经网络将频谱图编码为一组置换不变的源嵌入(s1…n),然后解码以生成一组不同的源频谱图。通过基于匹配的置换不变性损失函数来监督整个流程,使用地面实况源频谱图。

音频分离是一个基于集合的问题,因为源的顺序是随机的。学习从混合音频频谱图到无序集合的单独源频谱图的映射,并将声音分离的挑战定义为置换不变的条件生成建模问题。通过使用他们的技术,AudioSlots,音频被分成每个源的不同潜在变量,然后解码为特定源的频谱图。它是基于Transformer架构的编码器和解码器函数创建的。它是置换等变的,不依赖于源潜在变量(也称为“插槽”)的排序。他们使用基于匹配的损失来训练AudioSlots,以从混合音频输入中产生独立的源,以评估这种架构的潜力。

来自伦敦大学学院和Google研究的研究人员介绍了AudioSlots,一种面向插槽的音频频谱图的生成架构。他们提供了AudioSlots在解决音频源分离问题上应用结构化生成模型的潜力的证据。尽管他们目前实施的AudioSlots存在一些缺点,例如高频特征的重建质量较低以及需要单独的音频源作为监督,但他们相信这些问题可以解决,并提出了几个进一步研究的潜在领域。

他们展示了他们的方法在Libri2Mix上的一个简单的两个说话者声音分离任务中的应用。他们发现使用以插槽为中心的生成模型进行声音分离具有潜力,但也存在一些困难:他们呈现的模型版本在生成高频细节方面存在困难,依赖于启发式方法将独立预测的音频片段拼接在一起,并且仍然需要有地面实况参考音频源进行训练。在他们的未来工作中,他们提供了研究中的潜在路线,他们对解决这些困难持乐观态度。然而,他们的结果主要作为这个想法的概念验证。

查看论文。别忘了加入我们的超过22k人的ML SubRedditDiscord频道电子邮件通讯,在那里我们分享最新的AI研究新闻,有趣的AI项目等等。如果对以上文章有任何问题或我们遗漏了任何内容,请随时发送电子邮件至[email protected]

在AI工具俱乐部中查看数百种AI工具

本文翻译自MarkTechPost,原文链接:点击查看