Meta AI发布了SeamlessM4T:一个基础的多语言和多任务模型,可以在语音和文本之间无缝地进行翻译和转录

Meta AI发布了SeamlessM4T,一个基础的多语言和多任务模型,可以在语音和文本之间无缝进行翻译和转录

在一个越来越全球化的互动世界中,掌握多种语言可以弥合鸿沟,促进理解,并为各种机遇打开大门。学习多种语言可以帮助我们深入了解语言结构和语言学,加深对沟通和思维机制的理解。在当今全球化的世界中,这尤其有价值,因为跨文化的互动非常普遍。难道你不认为即使在人类和人工智能之间,这座桥梁也需要填补吗?

来自MetaAI和UC Berkley的研究人员提出了一种基础的多语言和多任务模型,可以在语音和文本之间实现无缝翻译和转录。他们称之为“SeamlessM4T”。该名称中的M4T代表大规模多语言和多模态机器翻译。它是一个AI模型,具有语音到文本、语音到语音、文本到语音、文本到文本的翻译功能,并且支持多达100种语言的自动语音识别。

谁不熟悉Babel Fish(一种在线翻译工具)呢?它有什么问题吗?Babel Fish是一种语音到语音的翻译系统。目前各种现有的类似系统往往侧重于高资源语言,如英语、西班牙语和法语,而忽视了许多低资源语言。它们的服务大多是从英语翻译到其他语言,而不是相反。这些系统依赖于由多个子系统组成的级联系统,因此它们的性能不如级联对应系统。

为了解决这些限制,研究人员使用超过100万小时的开放语音音频数据进行自我监督语音学习。他们创建了一个多模态语料库,其中包含超过47万小时的自动对齐语音翻译!为了评估模型对背景噪声和说话者的鲁棒性,他们创建了开放鲁棒性基准,并分别取得了38%和49%的改进。

研究人员表示,他们在整个工作流程中始终对系统进行系统评估,以确保其安全和稳健的性能。他们使用了并行数据挖掘的方法,而不是使用封闭数据。这种方法涉及将来自各种语言的句子编码为固定大小的嵌入空间,并根据相似度度量找到并行实例。

创建一个统一的大型模型,可以处理文本和语音翻译中涉及的全部任务,为下一代设备和按需多模态翻译打下了重要的基础。他们表示,当以这种理念为主要目标开发语言技术时,解决了全球一半人口的需求,并且他们未来的工作涉及弥合那些使用高和低资源语言的人之间的鸿沟,引领世界朝着前所未有的互联方向发展。

研究人员表示,他们的SeamlessM4T模型在翻译俚语或专有名词方面的性能可能需要更加一致。他们的未来工作将解决这一限制,使对话更加友好和中和,基于人们的母语和俚语。