Meta AI通过Voicebox打破了障碍:一个前所未有的生成式人工智能模型——革命性地改变了语音合成领域

元学习研究人员最近在生成语音的生成AI方面取得了重大突破。他们开发了Voicebox,一种创新的AI模型,展示了最先进的性能和在没有特定培训的情况下推广语音生成任务的能力。

与以前的语音生成模型不同,Voicebox使用一种称为Flow Matching的新方法,其性能超越了扩散模型。Voicebox已经证明在智能性和音频相似性方面优于现有模型,同时速度快了多达20倍。此外,它可以合成六种语言的语音,并执行噪声去除、内容编辑、样本转换和多样化样本生成。

传统上,语音的生成AI需要使用经过精心筛选的数据对每个特定任务进行彻底的培训。然而,Voicebox通过学习原始音频及其相应的文字转录打破了这个障碍。这一突破使模型能够修改给定样本的任何部分,而不仅仅是改变音频剪辑的结尾。

研究人员使用50,000多小时的录音和公共领域有声书的转录来训练Voicebox,这些有声书包括英语、法语、西班牙语、德语、波兰语和葡萄牙语。该模型被训练以根据周围的语音和相应的转录预测语音片段。通过从上下文中学习填充语音,Voicebox可以在音频录制的中间生成语音部分,而无需重新创建整个输入。

Voicebox的多功能性使其在各种语音生成任务中表现出色。它可以执行上下文文本到语音合成、跨语言风格转移、语音去噪和编辑以及多样化语音抽样。例如,通过两秒钟的输入音频样本,Voicebox可以匹配音频风格并将其用于文本到语音生成。这种能力在帮助无法说话的人或自定义虚拟助手和非玩家角色的声音方面具有潜在应用。

Voicebox的另一个令人印象深刻的特点是其在跨语言风格转移方面的能力。给定一个支持的语言中的语音样本和文本段落,Voicebox可以生成对应语言的文本阅读。这一突破可以促进不同语言之间的自然、真实的交流。

此外,Voicebox的上下文学习使其能够熟练地编辑音频记录中的片段。它可以重新合成由短时噪声破坏的语音片段,或替换口误而无需重新录制整个语音。这种能力简化了清理和编辑音频的过程,可能会革命性地改变音频编辑工具。

此外,Voicebox对多样化的真实世界数据的训练使其能够生成更好地代表人们在不同语言之间自然谈话的语音。这种能力可以用于生成用于训练语音助手模型的合成数据。值得注意的是,基于Voicebox生成的合成语音训练的语音识别模型与基于真实语音训练的模型几乎达到了相当水平,结果是最小的准确度下降。

尽管研究人员承认公开和与AI社区分享研究的重要性,但由于潜在的误用风险,他们正在保留对Voicebox模型和代码的公共访问。在他们的研究论文中,他们概述了一种高效的分类器的开发,以区分真实语音和使用Voicebox生成的音频,旨在减轻可能的未来风险。

Voicebox代表了语音生成中生成AI方面的重大进展,提供了一种具有任务推广能力的多功能和高效模型。随着潜在的众多应用可能性,Voicebox为语音合成、跨语言交流、音频编辑和训练语音识别模型开辟了新的可能性。随着研究社区在这一突破基础上不断发展,语音生成领域将迎来令人兴奋的进展和发现。