“遇见SeamlessM4T:Meta AI的新一代语音翻译基础模型”

Meet SeamlessM4T Next-generation voice translation base model of Meta AI

该模型提供了独特的架构和突破性的性能,适用于不同的语音翻译任务。

使用Midjourney创建

我最近开始了一个以人工智能为重点的教育通讯,已经有超过160,000个订阅者了。TheSequence是一个无废话(意味着没有炒作、没有新闻等)以机器学习为导向的通讯,只需5分钟阅读。目标是让您了解机器学习项目、研究论文和概念的最新动态。请通过下面的订阅试一试:

TheSequence | Jesus Rodriguez | Substack

机器学习、人工智能和数据领域的最佳信息来源…

thesequence.substack.com

语音正迅速成为基础模型的下一个前沿领域之一。尽管语言和计算机视觉等领域仍占据主导地位,但语音领域正变得越来越重要。例如,语音到语音翻译(S2ST)等领域一直依赖级联架构,通过组合大量组件逐步进行翻译。结果是,这个领域的进展没有像其他基础模型领域那样显著。最近,Meta AI Research公开了SeamlessM4T的研究成果——用于不同语音翻译任务的统一语音基础模型。

在当今的基础模型生态系统中,现有的机器翻译(MT)系统主要围绕文本展开,如果有的话,就将语音支持置于次要地位。将语音集成到机器翻译领域经常被降级为与基于文本的对应物相比的次要地位。尽管单一单模型取得了一些成就,但实现统一的S2ST模型在广度和效能上与级联模型相媲美仍然遥远。这种模态上的差异可以归因于各种因素,但音频数据的稀缺性和建模的局限性仍然是主要障碍。使语音从机器翻译的角度来看更具挑战性的复杂性(它具备编码更丰富信息和表达要素的能力)也正是它在传达意图和促进对话参与者之间稳健社交连接方面的优势。

目前,此类系统的现状存在三个主要不足之处。

1. 语音翻译模型的重点主要集中在高资源语言,如英语、西班牙语和法语,往往忽视了低资源语言。

2. 它们主要满足从源语言到英语的翻译,而不是相反的方向。

3. 目前的大多数S2ST系统严重依赖级联框架,由多个连续的子系统组成,分阶段处理翻译——从自动语音识别(ASR)开始,转到T2TT,最后在三层架构中完成文本到语音(TTS)合成。

将这些多方面的能力统一到一个完整的实体中的努力已经催生了端到端语音翻译系统的初版。然而,这些系统还没有达到级联对应物设定的性能标准。

SeamlessM4T

SeamlessM4T(Massively Multilingual and multimodal Machine Translation)是一个集成平台,包括ASR、T2TT、语音到文本翻译(S2TT)、文本到语音翻译(T2ST)和S2ST功能。该模型建立在Meta AI在语音翻译领域取得突破的悠久历史基础上。值得注意的是,Meta AI在前一年推出了No Language Left Behind(NLLB)——一种文本到文本机器翻译模型,涵盖了令人印象深刻的200种语言。在接下来的几个月里,Meta AI展示了开创性的通用语音翻译器。该开创性系统实现了福建话的直接语音到语音翻译,福建话以其缺乏广泛采用的书写系统而闻名。这一努力还产生了SpeechMatrix,这是一个里程碑般的多语言语音到语音翻译数据集,它诞生于SpeechLASER的创新,标志着受监督表示学习领域的一个里程碑。今年早些时候,Meta AI取得了更大的进展,推出了Massively Multilingual Speech。这个全面的解决方案涵盖了超过1,100种语言的自动语音识别、语言识别和语音合成能力。

图片来源:Meta AI

SeamlessM4T出现了,综合了从这些不同项目中获取的见解。其结果是一种变革性的多语言和多模态翻译体验,源自一个单一的模型。该模型经过精心构建,汇集了广泛的口语数据来源,最终呈现出最先进的结果。

为了构建一个统一的模型,Meta AI需要一个轻量级的序列建模工具包,可以无缝地集成到其他现代PyTorch生态系统库中。为了满足这一需求,Meta AI对其原始序列建模工具包fairseq进行了重新设计。通过加入更高效的建模和数据加载器API,fairseq2现在在驱动SeamlessM4T的底层建模过程中起到了关键作用。

图片来源:Meta AI

该模型的核心是多任务UnitY模型架构,设计用于执行一系列功能,包括生成翻译文本和语音。该架构还便于自动语音识别、文本到文本翻译、文本到语音转换、语音到文本翻译和语音到语音翻译等功能,这些功能已经内置在基本的UnitY模型中。多任务UnitY模型围绕着三个主要的顺序组件进行结构化。文本和语音编码器负责识别近100种语言的语音输入。随后,文本解码器将其转化为各种语言的文本内容,然后通过文本到单元模型将其解码为针对36种语音语言量身定制的离散声学单元。通过对自我监督编码器、语音到文本、文本到文本翻译组件和文本到单元模型进行预训练,提高了模型的质量并确保了其训练的稳定性。然后,通过多语言HiFi-GAN单元声码器将结果解码的离散单元转化为语音。

Meta AI采用了一种称为w2v-BERT 2.0的自我监督语音编码器,它是w2v-BERT的增强版本,具有更好的训练稳定性和表示质量。该编码器经过训练,可以识别多语言语音中的结构和含义,并从数百万小时的多语言语音中获取见解。从功能上讲,编码器将音频信号分解为较小的片段,构建出口语内容的内部表示。鉴于口语包含各种声音和字符,使用长度适配器将这些元素近似地映射到相应的单词。

类似地,Meta AI采用了基于NLLB模型的文本编码器。该文本编码器经过训练,可以理解涵盖近100种语言的文本内容,并生成对翻译任务有价值的表示。

Meta AI的文本解码器能够处理编码的语音表示或文本表示。这种能力在同一语言内的任务中得到了利用,包括自动语音识别和多语言翻译工作。例如,当一个说话者用法语说出“bonjour”时,相应翻译为斯瓦希里语的文本“habari”将无缝地生成。通过多任务训练,Meta AI利用强大的文本到文本翻译模型(NLLB)通过令牌级别的知识蒸馏来指导语音到文本翻译模型。

在语音生成的背景下,Meta AI利用声学单元来表示目标语音。UnitY模型内的文本到单元(T2U)组件根据文本输出协调离散语音单元的创建。在UnitY微调阶段之前,该组件在ASR数据上经过预训练。随后,使用多语言HiFi-GAN单元声码器将这些离散单元转换为音频波形。

像SeamlessM4T这样的数据驱动模型从大量高质量的端到端数据中获得了重要的好处,特别是语音到文本和语音到语音数据。然而,仅依靠人工转录和翻译的语音数据是无法解决100种语言的语音翻译的复杂性的。为此,Meta AI在文本到文本挖掘方面建立了先驱性的工作,并在统一嵌入空间中使用相似度度量,以及对语音挖掘的初步探索,为SeamlessM4T模型训练生成了额外的资源。

结果

通过一个单一模型,Meta AI的SeamlessM4T在近100种语言的广泛范围内取得了最先进的成果。这一成就得益于其多任务能力,涵盖了自动语音识别、语音到文本、语音到语音、文本到语音和文本到文本翻译等功能。

值得注意的是,该系统扩展了其先进技术,以涵盖资源可用性较低和中等水平的语言,显著提升了它们的性能。这种增强伴随着系统在高资源语言中提供强大结果的卓越表现。

为了追求准确的系统评估,Meta AI引入了一个扩展度量标准BLASER 2.0,超越了基于文本的评估。这种进化的度量标准使得对语音和文本单元进行评估具有与其前身相似的准确性。通过对韧性的严格测试,该系统展示出在语音转文本任务中出色的适应能力。在背景噪声和发音特点变化的背景下,系统取得了显著的改进,分别平均提高了37%和48%,超过了目前的最先进模型。

图片来源:Meta AI

SeamlessM4T绝对是有史以来最令人兴奋的语音翻译基础模型之一。希望我们能看到它融入Meta AI的多模态努力中。