最大的法学硕士基准测试套件:MEGAVERSE

MEGAFERSE是最全面的法学硕士基准测试套件

现在,基准测试涵盖了81种语言,甚至2个多模态数据集

快速回顾一下由微软的Sunayana Sitaram发表的研究。

TLDR:

随着LLMs变得越来越先进和全面,评估框架需要跟上它们在多模态、多语言和评估方式上的性能评估能力。

微软已经发布了最新的基准测试套件:MEGAVERSE。

它包括22个数据集、81种语言和2个多模态数据集。

论文中的其他重要发现:

已经为英语开发了基准测试。我们评估的最大模型GPT4(OpenAI,2023)接近但在大多数情况下不超过TULRv6(Patra等,2023)这样的SOTA精调语言模型的性能。GPT4在非拉丁文字和资源稀缺语言上表现更差。

论文评估了五个新的SOTA LLMs-

  • PaLM2(Google,2023)
  • Llama2(3个变种)(Touvron等,2023)和
  • LLaVA-v1.5(Liu等,2023a)
  • GPT4
  • GPT-3.5-Turbo

多模态

  • LLaVA-v1.5模型(Liu等,2023a)
  • 两个新的多语种多模态数据集

以前开发的基准测试

BIG-bench Srivastava等(2023)有204个任务,涵盖多种语言的测试

语言模型的整体评估(HELM)Liang等(2022),包括任务、领域和语言,并包括指标(例如准确性、校准度、毒性),在42个场景和7个指标上包括30个语言模型。

BUFFET(Asai等,2023)在15个数据集中涵盖54种语言。