“遇见 AudioSR:一个即插即用、一体化的人工智能解决方案,可将音频升频至令人难以置信的48kHz质量”

Meet AudioSR an AI solution that is plug-and-play and integrated, capable of upsampling audio to an incredible 48kHz quality.

数字音频处理领域的一个关键挑战是音频超分辨率。它旨在通过预测和合并低分辨率音频数据中缺失的高频成分来提高音频信号的质量。其主要目标是提供更沉浸式和更出色的听觉体验,即高保真度。音频超分辨率是一项关键技术,具有多种用途,例如恢复旧录音。然而,过去在这个领域的方法存在一些缺点,例如它们限制在狭窄的带宽设置范围内,通常仅限于4 kHz到8 kHz,并且过于专注于特定的音频类型,如音乐或语音。

为了克服这些挑战,一组研究人员最近提出了一种创新的方法,称为AudioSR(音频超分辨率),该方法基于扩散式生成模型。AudioSR为包括语音、音乐和音效在内的各种声音提供了强大的音频超分辨率能力。AudioSR在处理各种音频格式方面的适应性是其值得注意的特点之一。它可以处理超分辨率,从输入的各种产生2 kHz到16 kHz带宽的音频信号中提供具有一致的24 kHz带宽和48 kHz采样率的高质量音频输出。

由于AudioSR可以高效地提升各种音频格式和带宽设置下的音频信号,因此它非常适应各种实际场景和应用。AudioSR建立在先前的研究基础上,该研究表明神经声码器在音频超分辨率任务中对重建高频成分具有有用的先验知识。它将音频超分辨率应用于梅尔频谱图,并使用神经声码器创建音频信号。训练了一个潜在的扩散模型,以学习从低分辨率对应物中条件地生成高分辨率梅尔频谱图,以便AudioSR估计高分辨率梅尔频谱图。

实验结果表明,AudioSR在支持各种输入采样率设置的同时,为包括语音、音乐和音效在内的各种音频格式提供了有希望的超分辨率结果。主观分析表明,像AudioLDM这样的文本到音频模型、像MusicGen这样的文本到音乐模型以及像Fastspeech2这样的文本到语音模型的输出通过使用AudioSR得到了极大的改善。这意味着AudioSR可以轻松地作为插拔式模块添加到大多数音频生成模型中,改善各种应用的听音质量。

团队总结了他们的贡献如下:

  1. 通用可听音频超分辨率:团队引入了AudioSR,它在所有可听声音的领域实现了音频超分辨率。与早期的方法相反,这些方法经常专门针对特定的音频类别,AudioSR为提高音频质量提供了更灵活和全面的解决方案。
  1. 灵活的音频带宽处理:AudioSR提供了令人难以置信的灵活性,因为它可以高效处理带宽范围从2 kHz到16 kHz的音频信号。即使将此带宽扩展到可靠的24 kHz,它仍然可以保持高质量的48 kHz采样率。
  1. 与音频生成模型的即插即用集成:AudioSR作为一个即插即用模块,对于改善多个音频生成模型的音频质量以及在音频超分辨率方面的才能已经得到了证明。将AudioSR添加到像AudioLDM、MusicGen和FastSpeech2这样的模型中,可以提高音频输出质量。