语音盒子:Meta令人惊叹的语音生成人工智能工具

Meta(前身为Facebook)刚刚发布了Voicebox,这是一种最先进的生成式人工智能模型,正在改变语音生成的方式。

这是一种多语言的文本转语音人工智能工具,质量难以置信。

Voicebox可以用来做什么?

1. 上下文文本到语音合成

想象一下像鹦鹉一样学会了模仿你的声音。它只需要你的一段语音片段。然后,你可以打出任何你想说的话,它就会用你的声音读出来。

2. 语音编辑和降噪

假设你为朋友录制了一段美好的生日祝福,但是背景里有一辆汽车鸣笛了。不必重新录制整个祝福,Voicebox可以简单地从你的祝福信息中“擦除”那个汽车鸣笛声。

同样的,如果你在某个词汇上结巴或者说错了什么,你也不需要重新开始。Voicebox可以用你原来的声音来修正那些错误。

3. 跨语言风格转移

假设你说英语,但是你想用西班牙语给说西班牙语的朋友惊喜的生日祝福。你可以用西班牙语打出你的祝福信息,然后Voicebox会用你的声音把它朗读出来,即使你提供的原始录音是用英语录制的。

4. 多样化语音采样

世界各地的人们说话方式都不同,对吧?有不同的口音、语气和风格。Voicebox从六种语言的广泛语音模式中学习。

因此,它可以生成一个听起来就像母语人士的逼真语音,包括英语、法语、西班牙语、德语、波兰语或葡萄牙语。这可以让你的GPS或虚拟助手听起来更自然、更熟悉。

谁可以使用这个工具?

Voicebox的应用范围广泛,适用于各种受众。

  • 内容创作者: Voicebox可以成为音频编辑和制作的强大工具。它可以帮助创作者为视频制作高质量的音频轨道,而不需要因为小的干扰或错误而重新录制整个片段。
  • 视觉障碍者: Voicebox可以将朋友的书面信息转换为高质量的语音,以他们的声音朗读,使数字通信更加无障碍。
  • 播客制作者: 借助其语音编辑和降噪功能,播客制作者可以无缝地编辑他们录制的节目。无论是消除背景噪音还是纠正发音错误,Voicebox都可以确保干净、专业的播客声音,而无需重新录制。

Voicebox对公众开放吗?

目前,Meta尚未公开发布Voicebox模型或代码。

这主要是由于担心技术的潜在滥用。你能想象未来恶作剧电话会变成什么样子吗?

因此,Voicebox的公共访问目前还不可用。

我想了解更多关于人工智能的信息

如果你想及时了解最新的人工智能工具和更新(以及如何利用它们),请确保你已经订阅了小猪AI的通讯。

本文来自 小猪AI Media。