一项新的人工智能研究发布了名为SWIM-IR的大规模合成多语言检索数据集,包含33种语言的2800万个训练对

全球发布规模浩大的合成多语言检索数据集SWIM-IR:33种语言2800万个训练对

谷歌研究部门、Google DeepMind以及滑铁卢大学的研究人员介绍了SWIM-IR。SWIM-IR是一个综合性的合成检索训练数据集,涵盖了33种语言,解决了多语种检索中人工标记训练对的限制问题。利用了 SAP(总结-提问提示)方法,SWIM-IR的构建使得多语种密集检索模型能够在没有人工监督的情况下进行合成微调。基于SWIM-IR训练的SWIM-X模型在包括XOR-Retrieve、XTREME-UP和MIRACL在内的多个基准测试中表现出与由人类监督的厚度检索模型相竞争的水平。

本研究解决了多语种密集检索模型所面临的限制问题。现有的多语种检索模型由于训练数据匮乏或不均匀而面临挑战。SWIM-IR采用SAP方法辅助语言模型在目标语言中生成信息丰富的查询。在SWIM-IR上训练的SWIM-X模型在各种基准测试中展示了与人类监督模型相竞争的性能,突显了合成数据集作为多语种密集检索模型中代替昂贵的人工标记训练数据的一种经济有效选择的潜力。

该研究解决了多语种密集检索模型的有限成功,并将其归因于非英语语言缺乏足够的受监督训练数据。该合成数据集使得多语种密集检索模型能够进行微调,并在XOR-Retrieve、XTREME-UP和MIRACL等基准测试上进行评估。结果表明,SWIM-IR在替代昂贵的人工标记训练数据方面具有有效性,使得多语种密集检索模型在与人工监督对照组相竞争时表现出色。

SWIM-IR是一个涵盖33种语言的合成检索训练数据集,通过SAP技术生成。研究利用SWIM-IR探索了多语种密集检索模型的合成微调,适应了Dense Passage Retrieval(DPR)模型。采用T5X Retrieval框架,它利用了多语种T5-base检查点进行初始化,并在英语MS MARCO数据集上进行细调。研究人员利用mC4数据集进行预训练,并利用对比损失进行批内负采样,使用PaLM 2 Small模型进行跨语言查询生成。

基于从SWIM-IR中获取的合成训练数据,SWIM-X模型在多语种密集检索任务中展现出竞争性能。在XOR-Retrieve基准测试中,SWIM-X(7M)在Recall5kt上的表现超过了最佳微调模型mContriever-X 7.1个百分点。即使是有限预算的基准实验SWIM-X(500k),也比mContriever-X高出3.6个百分点。SWIM-X(180K)在MIRACL基准测试中表现良好,在nDCG10上比最佳零样本模型高出6.6个百分点,但低于利用含有难负样本的人工标记训练对的mContriever-X。合成基准实验SWIM-X(120K)和SWIM-X(120K)MT在跨语言监督基准测试中取得了有希望的结果,相对于现有模型在Recall5kt方面表现更好。该研究强调了优化训练技术的重要性,包括使用SWIM-IR更好地采样难负样本,以进一步提升合成模型的性能。

该研究指出本研究所使用的SWIM-IR数据集存在一些限制,包括非上下文化、代码切换、段落质量和长度问题,以及低语言模型生成的事实不一致性。研究承认语言模型可能生成缺乏足够知识来源支撑的文本,会导致生成输出中的错误信息和幻觉风险。虽然这些限制可能会影响生成查询的质量和准确性,但它们不会直接影响下游的多语种检索任务。然而,该研究并未详细讨论方法的局限性,例如SAP方法或微调过程。

SWIM-IR是使用SAP方法生成多种语言中信息丰富查询的合成多语种检索训练数据集。SWIM-IR提供了涵盖33种语言的2800万个查询-段落对供训练,使得多语种密集检索模型能够进行微调,无需人工标记的训练数据。最终的SWIM-X模型在跨语言和单语言基准测试中超越了现有的召回率和平均互易排名模型,展现出竞争力。它强调SWIM-IR作为一种经济有效替代昂贵的人工标记检索训练数据的潜力,使得能够开发出强大的多语种密集检索模型。