Meta AI发布BELEBELE:全球首个122种语言的平行阅读理解评估基准

Meta AI releases BELEBELE the world's first benchmark for parallel reading comprehension evaluation in 122 languages.

评估多语言模型的文本理解能力面临着一个重要挑战,即缺乏高质量的、同时进行评估的标准。虽然有高覆盖的自然语言处理数据集,如FLORES-200,但它们主要用于机器翻译。虽然100多种语言使用理解和生成文本服务,但缺乏标记数据在大多数语言中构建有效系统的过程中存在重大障碍。

在为资源有限的语言开发NLP系统时,需要进行重要的科学研究。虽然许多建模方法声称是语言无关的,但它们的适用性通常仅在一小部分语言中进行测试,而不能适用于各种现象类型。

Meta AI、Abridge AI和Reka AI的一项新研究发布了BELEBELE,这是一个关键的基准,用于评估122种不同语言变体的自然语言理解系统。数据集中的每个488段落都有900个总问题的对应的多项选择题。问题区分了具有不同语言理解能力水平的模型,并经过精心创建。这些问题旨在奖励具有普遍性的NLU模型,并有意惩罚存在偏见的模型,尽管它们不需要更高的知识或推理能力。用英语提问的问题几乎可以被人类准确回答。多样化的模型输出表明这是一个有区分度的NLU挑战,类似于众所周知的LLM基准,如MMLU。

BELEBELE系统是其类别中的首次,并且在所有语言中是平行的。这使得可以首次直接比较不同语言之间的模型性能。数据集包括29个书写系统和27个语言家族,代表了各种资源可用性和语言多样性。基于这七种语言用两种不同的书写体系书写的印地语、乌尔都语、孟加拉语、尼泊尔语和僧伽罗语是罗马化版本的自然语言处理(NLP)基准测试的首批。

数据集的平行性允许在各种跨语言情景中评估跨语言文本表示,并可用于评估单语和多语模型。可以通过从可比的QA数据集中组合训练集来进行完全微调评估。研究人员使用多个掩码语言模型(MLM)来进行语言之间和英语与其他语言之间的翻译微调。使用五次上下文学习和零次(在语言内和翻译测试)评估来比较LLM的不同模型。

研究结果表明,虽然以英语为中心的LLM可以进一步推广到30多种语言,但在VoAGI和资源有限的语言上训练的模型最大程度地受益于大词汇量和平衡的预训练数据。

团队希望他们的研究能够通过揭示模型如何处理多语言数据来改进现有的模型架构和训练方法。