谷歌AI研究呈现Translatotron 3:一种新颖的无监督语音到语音翻译架构

谷歌AI研究展示3代Translatotron:一种创新无监督语音到语音翻译架构

语音到语音翻译(S2ST)是一项破解语言障碍的变革性技术,但是平行语音数据的稀缺性阻碍了其进展。大多数现有模型需要监督设置,并且在从合成的训练数据中学习翻译和语音属性重建方面存在困难。

在语音到语音翻译中,Google AI的先前模型,如Translatotron 1和Translatotron 2,通过直接在语言之间进行语音翻译,取得了显著的进展。然而,这些模型存在局限性,因为它们依赖于带有平行语音数据的监督训练。关键挑战在于这种平行数据的稀缺性,使得S2ST模型的训练成为一项复杂的任务。于是,Google研究团队提出了一个开创性的解决方案——Translatotron 3。

研究人员认识到,大多数语音翻译的公共数据集是半合成或完全合成的,从文本中导致了更多学习翻译和准确重构可能需要在文本中更好表示的语音属性的障碍。作为回应,Translatotron 3引入了非监督式S2ST的概念,旨在仅从单语数据中学习翻译任务。这一创新扩大了跨各种语言对的翻译潜力,并引入了翻译非文本语音属性(如停顿、说话速度和说话者身份)的能力。

https://blog.research.google/2023/12/unsupervised-speech-to-speech.html

Translatotron 3的架构设计了三个关键方面来应对非监督式S2ST的挑战:

  1. 作为遮蔽自动编码器的预训练和SpecAugment:整个模型作为遮蔽自动编码器进行预训练,利用SpecAugment——一种简单的用于语音识别的数据增强方法。SpecAugment作用于输入音频的对数Mel频谱图,增强了编码器的泛化能力。
  2. 基于多语言非监督嵌入(MUSE)的非监督嵌入映射:Translatotron 3利用MUSE,这是一种在非配对语言上训练的技术,使模型能够学习源语言和目标语言之间的共享嵌入空间。这个共享嵌入空间有助于更高效、更有效地对输入语音进行编码。
  3. 通过反向翻译进行重构损失:该模型使用非监督的MUSE嵌入损失、重构损失和S2S反向翻译损失的组合进行训练。在推理过程中,共享编码器将输入编码为一个多语言嵌入空间,随后由目标语言解码器解码。

Translatotron 3的训练方法包括重构自动编码和反向翻译术语。在第一部分中,通过使用MUSE损失和重构损失,训练网络将输入自动编码为一个多语言嵌入空间。该阶段旨在确保网络生成有意义的多语言表示。在第二部分中,进一步训练网络使用反向翻译损失来翻译输入的频谱图。为了强化潜在空间的多语言特性,这第二部分的训练中应用了MUSE损失和重构损失。在两个阶段的编码器输入中都使用SpecAugment,以确保学到有意义的属性。

Translatotron 3的实证评估显示其在基线级联系统上的优越性,特别擅长保留对话细微差别。该模型在翻译质量、说话者相似度和语音质量方面的表现优于其他系统。尽管是一种非监督方法,但Translatotron 3是一个强大的解决方案,与现有系统相比表现出色。它能够实现与真实音频样本相当的语音自然性,以Mean Opinion Score(MOS)为衡量标准,突显了它在实际场景中的有效性。

https://blog.research.google/2023/12/unsupervised-speech-to-speech.html

面对无监督S2ST的挑战,由于平行语音数据的稀缺,Translatotron 3成为了开创性的解决方案。通过从单语数据中学习并利用MUSE,该模型实现了卓越的翻译质量,并保留了重要的非文本语音属性。研究团队的创新方法意味着在各种语言对之间使语音到语音的翻译更加多样化和有效的一个重要步骤。Translatotron 3在超越现有模型方面取得的成功显示了其改变该领域并增强不同语言社区间的交流潜力。在未来的工作中,该团队将致力于将该模型扩展到更多语言,并探索其在零样例S2ST场景中的适用性,从而可能扩大其对全球交流的影响。