微软AI团队发布了NaturalSpeech 2:一种基于潜在扩散模型的尖端TTS系统,具备强大的零样本语音合成和增强的表达式韵律

微软AI团队发布了NaturalSpeech 2:一种新的TTS系统,具备强大的语音合成和表达式韵律

文本到语音(TTS)的目标是生成高质量、多样化的语音,听起来像真实的人说的。韵律、说话人身份(如性别、口音和音色)、说话和唱歌风格等都对人类语音的丰富性有所贡献。随着神经网络和深度学习的进步,TTS系统在可懂度和自然度方面取得了巨大的改进;一些系统(如NaturalSpeech)甚至在单说话人录音室基准数据集上达到了人类级别的语音质量。

由于数据的多样性不足,以前的以说话人为限的录音室数据集无法捕捉到人类语音中的各种说话人身份、韵律和风格的广泛变化。然而,使用少样本或零样本技术,TTS模型可以在大型语料库上进行训练,学习这些差异,然后使用这些训练好的模型推广到无限未知的场景中。将连续语音波形量化为离散令牌,并使用自回归语言模型对这些令牌进行建模,这在当今的大规模TTS系统中很常见。

微软的最新研究介绍了NaturalSpeech 2,这是一个使用潜在扩散模型来产生富有表现力的韵律、良好的弹性和最关键的零样本能力的TTS系统。研究人员首先训练了一个神经音频编解码器,该编解码器使用编解码器编码器将语音波形转换为一系列潜在向量,并使用编解码器解码器恢复原始波形。在从音素编码器、持续时间预测器和音高预测器获得之前的向量之后,他们使用扩散模型构造这些潜在向量。

以下是他们论文中讨论的设计决策的示例:

  • 在先前的工作中,语音通常通过多个剩余量化器进行量化,以保证神经编解码器的语音重建质量。这对声学模型(自回归语言模型)造成了很大的负担,因为由此产生的离散令牌序列非常长。团队使用连续向量代替令牌。因此,他们使用连续向量而不是离散令牌,这缩短了序列,并为精确的语音重建提供了更多数据。
  • 用扩散模型替代自回归模型。
  • 通过语音提示机制在上下文中学习。团队开发了语音提示机制,以促进扩散模型和音高/持续时间预测器的上下文学习,通过鼓励扩散模型遵循语音提示的特征,提高了零样本能力。
  • NaturalSpeech 2比其自回归前辈更可靠和稳定,因为它只需要一个声学模型(扩散模型),而不是两阶段的令牌预测。换句话说,它可以使用其持续时间/音高预测和非自回归生成应用于除语音之外的其他风格(如唱歌声)。

为了证明这些架构的有效性,研究人员使用了400M个模型参数和44K小时的语音数据训练了NaturalSpeech 2。然后,他们使用它在零样本场景(仅有几秒的语音提示)中创建具有各种说话人身份、韵律和风格(如唱歌)的语音。研究结果显示,NaturalSpeech 2在实验中优于先前的强大TTS系统,并在零样本条件下生成自然语音。它与语音提示和实际语音具有更相似的韵律。在LibriTTS和VCTK测试集上,它的自然度(关于CMOS)与实际语音相当或更好。实验结果还显示,它可以用短暂的唱歌提示或者有趣的是,仅凭语音提示就能生成具有新颖音色的唱歌声,实现真正的零样本唱歌合成。

未来,该团队计划研究有效的方法(如一致性模型)来加速扩散模型,并进行广泛的说话和唱歌训练,以实现更强大的混合说唱/唱歌能力。