见面 AUDIT:一种基于潜在扩散模型的指导音频编辑模型
见面 AUDIT:基于潜在扩散模型的音频编辑指导模型
扩散模型正在快速发展,使生活更加便利。从自然语言处理和自然语言理解到计算机视觉,扩散模型在几乎所有领域都展示了有希望的结果。这些模型是生成式人工智能中的一项最新发展,是一种可以从复杂分布中生成逼真样本的深度生成模型。
最近,研究人员引入了一种名为AUDIT的新型扩散模型,它可以轻松编辑音频剪辑。AUDIT是一种基于指令引导的音频编辑模型。音频编辑主要涉及更改输入音频信号以产生编辑后的音频输出。这包括添加背景音效,替换背景音乐,修复不完整的音频或增强低质量音频等任务。AUDIT同时将输入音频和人类指令作为条件,并生成编辑后的音频输出。
研究人员使用三元组数据以监督方式训练音频编辑扩散模型。所使用的三元组数据包括指令、输入音频和输出音频。为了确保音频片段在编辑过程中保持一致,输入音频直接用作条件输入。编辑指令也直接用作文本指导,使模型更加灵活,适用于现实世界情境。
AUDIT团队总结了他们的贡献如下:
- AUDIT是第一个训练具有音频编辑功能的扩散模型,它采用人类文本指令作为条件。
- 设计了一种数据构建框架,以监督方式训练AUDIT。
- AUDIT能够最大程度地保留不需要编辑的音频片段。
- AUDIT可以在没有详细编辑目标描述的情况下,通过简单的文本指导工作。
- AUDIT在许多音频编辑任务的客观和主观评估指标上取得了显著的结果。
AUDIT团队分享了一些示例,证明AUDIT在准确地编辑音频方面表现出色。这些包括在音频中添加汽车喇叭声音,将笑声替换为喇叭声音,从吹口哨的人的音频中移除女人说话的声音等。AUDIT在音频编辑任务中表现出色,并在客观和主观指标上取得了良好的结果,包括以下任务:
- 向音频剪辑中添加声音。
- 删除或移除音频剪辑中的声音。
- 用另一个声音替换输入音频中的声音事件。
- 音频修复:根据上下文或提供的文本提示,完成一个被屏蔽的音频片段。
- 超分辨率任务:将低采样输入音频转换为高采样输出音频。
总之,AUDIT似乎是未来一种有前景的方法,可以通过遵循人类指令来简化灵活有效的音频编辑。