克服多语言语音技术中的障碍:顶级5个挑战和创新解决方案

克服多语言语音技术的挑战:5个创新解决方案

介绍

你有多少次在向你的语音助手询问一些事情时,需要暂停一下,然后重新用语音助手能理解的语言(通常是英语)重新表达你的请求,因为语音助手听不懂你用西班牙语提问的内容?或者你有多少次在向语音助手要求播放你最喜欢的艺术家A.R. Rahman的音乐时,故意发音错误他们的名字,因为你知道如果你正确说出他们的名字,语音助手根本听不懂,但是如果你说A.R. Ramen,语音助手就能理解了?此外,你有多少次听到语音助手用他们那令人放心的无所不知的声音将你最喜欢的音乐剧《悲惨世界》的名字发音错误,明确地把它发音为”Les Miz-er-ables”而感到难堪?

尽管语音助手在大约十年前已经变得十分普及,但它们在多语言环境下理解用户请求方面仍然非常简单。在一个多语言家庭日益增多、现有和潜在用户群越来越全球化和多样化的世界中,语音助手要想在理解用户请求方面变得无缝对接就至关重要,无论用户使用的是什么语言、方言、口音、语调、调节和其他语音特征。然而,与人类之间的流畅对话相比,语音助手在这方面的表现仍然远远不够。在本文中,我们将深入探讨使语音助手多语言运作面临的主要挑战,以及缓解这些挑战的一些策略。在本文中,我们将使用一个假想的语音助手Nova进行说明。

语音助手的工作原理

在深入探讨语音助手在多语言环境下的挑战和机遇之前,让我们先了解一下语音助手的工作原理。以假想的语音助手Nova为例,我们来看一下请求播放一首音乐曲目的全流程(参考资料)。

如图1所示,当用户要求Nova播放流行乐队Coldplay的原声音乐时,用户的声音信号首先被转换为一串文本标记,作为人-语音助手交互的第一步。这个阶段被称为自动语音识别(ASR)或语音到文本(STT)。一旦有了标记字符串,它就会被传递给自然语言理解步骤,语音助手试图理解用户意图的语义和句法含义。在这种情况下,语音助手的NLU解释用户正在寻找Coldplay乐队的歌曲(即解释Coldplay是一个乐队),这些歌曲是原声音乐(即在这个乐队的唱片中查找歌曲的元数据,并选择版本=原声的歌曲)。然后,这个用户意图理解用于查询后端以找到用户正在寻找的内容。最后,将找到的实际内容和任何其他需要呈现给用户的附加信息传递到下一步。在这一步中,响应和任何其他可用的信息用于为用户装饰体验并满意地回答用户的查询。在这种情况下,它将是一个文本到语音(TTS)输出(“这是Coldplay的一些原声音乐”),接着播放为此用户查询选择的实际歌曲。

构建多语言语音助手的挑战

多语言语音助手(VAs)意味着能够理解和响应多种语言的语音助手,无论这些语言是同一个人或多个人说的,还是同一个人在同一个句子中与另一种语言混合说的(例如“Nova, arrêt! Play something else”)。以下是在多模式设置下使语音助手无缝运作时的主要挑战。

  • 语言资源的数量和质量不足

为了使语音助手能够很好地解析和理解查询,它需要在该语言上接受大量的训练数据。这些数据包括来自人类的语音数据,用于地面真实性的注释,大量的文本语料库,用于改善TTS发音的资源(例如发音字典)和语言模型。虽然这些资源对于英语、西班牙语和德语等流行语言来说很容易获得,但对于斯瓦希里语、普什图语或捷克语等语言来说,它们的可用性有限甚至不存在。尽管这些语言有足够的使用人数,但却没有可用的结构化资源。为多种语言创建这些资源可能是昂贵、复杂和手动劳动密集型的,从而造成了阻力。

  • 语言的变化

不同语言有不同的方言、口音、变体和地区适应。处理这些变化对于语音助手来说是具有挑战性的。除非语音助手适应这些语言细微差别,否则很难正确理解用户的请求,或者以相同的语言口吻来回应,以提供更自然、更接近人类的体验。例如,仅英国就有40多种英语口音。另一个例子是墨西哥的西班牙语与西班牙的西班牙语有所不同。

  • 语言识别和适应

多语种用户在与其他人交流时经常切换语言,并且他们可能希望与语音助手进行相同的自然交互。例如,“Hinglish”是一个常用的术语,用来描述一个人在交谈时同时使用印地语和英语的词汇。能够识别用户与语音助手交互的语言,并相应地调整回应,是当今主流语音助手无法解决的困难挑战。

  • 语言翻译

将语音助手扩展到多种语言的一种方法是将来自一种不太常见的语言(例如卢森堡语)的ASR输出翻译成能够被NLU层更准确解释的语言,如英语。常用的翻译技术包括使用神经机器翻译(NMT)、统计机器翻译(SMT)、基于规则的机器翻译(RBMT)等一种或多种技术。然而,这些算法在多样化的语言集上可能无法很好地扩展,并且可能需要大量的训练数据。此外,语言特定的细微差别常常会丢失,翻译版本常常显得尴尬和不自然。翻译质量一直是能够扩展多语种语音助手的持久挑战之一。翻译步骤中的另一个挑战是引入的延迟,它降低了人与语音助手交互的体验。

  • 真正的语言理解

不同语言通常具有独特的语法结构。例如,英语有单数和复数的概念,而梵语有三个(单数、双数、复数)。不同的成语在其他语言中可能无法很好地翻译。最后,可能存在文化细微差别和文化参考,除非翻译技术具有高质量的语义理解,否则可能翻译得很差。开发语言特定的NLU模型是昂贵的。

 

克服构建多语种语音助手的挑战

 

上述挑战是难以解决的问题。然而,有一些技术可以部分或完全缓解这些挑战。以下是可以解决上述挑战中的一个或多个的一些技术。

  • 利用深度学习来检测语言

解释一个句子的含义的第一步是知道这个句子属于哪种语言。这就是深度学习发挥作用的地方。深度学习使用人工神经网络和大量数据创建出看似人类的输出。基于Transformer的架构(例如BERT)在语言检测方面取得了成功,即使在资源有限的语言情况下也是如此。与基于Transformer的语言检测模型相比,循环神经网络(RNN)是一种替代方案。这些模型的应用示例是,如果一个通常使用英语交谈的用户突然有一天用西班牙语与语音助手交谈,语音助手可以正确地检测和识别西班牙语。

  • 使用上下文机器翻译来“理解”请求

一旦检测到语言,解释句子的下一步是将ASR阶段的输出(即令牌串)翻译成一种可以处理的语言,以生成响应。与使用可能不总是了解语音界面的上下文和特殊性并且由于高延迟而导致响应不佳的翻译API不同,如果将上下文感知的机器翻译模型集成到语音助手中,翻译可以具有更高的质量和准确性,因为它们是针对特定领域或会话上下文的。例如,如果一个语音助手主要用于娱乐,它可以利用上下文机器翻译来正确理解和回答关于音乐流派和子流派、乐器和音符的问题,某些音轨的文化相关性等。

  • 充分利用多语言预训练模型

由于每种语言都有独特的结构和语法,文化参考,短语,习语,表达方式和其他细微差别,处理多样化的语言是具有挑战性的。鉴于特定语言的模型昂贵,预训练的多语言模型可以帮助捕捉特定语言的细微差别。BERT和XLM-R等模型是能够捕捉特定语言细微差别的良好示例。最后,这些模型可以进行微调以进一步提高其准确性。例如,对于在音乐领域训练的模型可能不仅能够理解查询,还可以通过语音助手以丰富的方式返回丰富的响应。如果这个语音助手被问到一首歌词的含义是什么,它将能够以比简单的词语解释更丰富的方式回答这个问题。

  • 使用代码切换模型

为了能够处理语言输入是不同语言混合的情况,实施代码切换模型可以帮助处理与语音助手的交互中使用多种语言的用户。例如,如果一个语音助手专门设计用于加拿大的某个地区,用户经常混淆法语和英语,那么可以使用代码切换模型来理解针对语音助手的句子是两种语言混合的情况,并且语音助手将能够处理它。

  • 利用迁移学习和零样本学习处理资源有限的语言

迁移学习是机器学习中的一种技术,其中模型在一个任务上进行训练,但作为第二个任务模型的起点。它利用从第一个任务中学到的知识来提高第二个任务的性能,从而在一定程度上克服了冷启动问题。零样本学习是指使用预训练模型处理它从未见过的数据。迁移学习和零样本学习都可以利用资源丰富的语言中的知识转移到资源有限的语言中。例如,如果一个语音助手已经在全球最常用的10种语言上进行了训练,那么它可以用来理解斯瓦希里语等资源有限的语言的查询。

 

结论

 

总之,在语音助手上构建和实施多语言体验是具有挑战性的,但也有方法可以减轻其中一些挑战。通过解决上述提到的挑战,语音助手将能够为用户提供无缝的体验,无论他们使用的语言是什么。Ashlesha Kadam领导亚马逊音乐的全球产品团队,在Alexa和亚马逊音乐应用程序(Web,iOS,Android)上为来自45个以上国家的数百万客户构建音乐体验。她还是科技中的女性的热情拥护者,担任Grace Hopper Celebration(女性科技领域最大的技术会议,来自115个国家的30,000多名参与者)的人机交互(HCI)跟踪的联合主席。在业余时间,Ashlesha喜欢阅读小说,听商业技术播客(目前最喜欢的是Acquired),在美丽的太平洋西北地区徒步旅行,并与丈夫、儿子和5岁的金毛犬共度时光。