音频源分离的万能钥匙:介绍AudioSep,将您所描述的任何音频分离开来
万能的音频源分离钥匙:介绍AudioSep,将任何音频分离
计算听觉场景分析(CASA)是音频信号处理领域的一个分支,专注于在复杂听觉环境中分离和理解各个声音源。一种新的CASA方法是基于语言查询的音频源分离(LASS),在2022年的InterSpeech中首次提出。LASS的目的是基于自然语言查询从音频混合物中分离出目标声音,从而为数字音频应用提供一种自然且可扩展的界面。尽管在音频源(如乐器和一小类音频事件)上取得了出色的分离性能,但最近对LASS的努力还无法在开放领域环境中分离音频概念。
为了应对这些挑战,研究人员开发了AudioSep – separate anything audio模型,这是一个展示了在任务之间令人印象深刻的零样本泛化能力和强大分离能力的基础模型,包括语音增强、音频事件分离和乐器分离。
AudioSep有两个关键组成部分:一个文本编码器和一个分离模型。使用CLIP或CLAP的文本编码器来提取文本嵌入。然后,使用一个包含6个编码器和六个解码器块的30层ResUNet模型来进行通用声音分离。每个编码器块由两个卷积层组成,卷积核大小为3×3。AudioSep模型在8个Tesla V100 GPU卡上进行了100万步的训练。
对于音频事件分离、乐器分离和语音增强等任务,对AudioSep进行了广泛评估。它展示了强大的分离性能和令人印象深刻的零样本泛化能力,使用音频字幕或文本标签作为查询,明显优于先前的音频查询和语言查询声音分离模型。
研究人员使用AudioSep-CLAP模型可视化音频混合物和真实目标音频源的谱图,并使用各种声音源(如音频事件、语音)的文本查询来分离源。分离源的谱图模式与地面实况源的谱图模式相似,与客观实验结果一致。
他们发现,与“文本标签”相比,使用“原始字幕”作为文本查询显著提高了性能。这是因为人工注释的字幕比音频事件标签提供了更详细和精确的对感兴趣源的描述。尽管重新注释的字幕具有个性化和可变的词分布特点,但使用“重新注释的字幕”得到的结果略逊于使用“原始字幕”的结果,但仍超过了使用“文本标签”的结果。这些发现证明了AudioSep在现实场景中的鲁棒性和有前景的特性,并成为分离我们所描述的任何声音的工具。
AudioSep在未监督学习技术下的分离以及在视觉查询分离、音频查询分离和说话者分离任务上的扩展是其未来发展的下一步。