最大的法学硕士基准测试套件:MEGAVERSE
MEGAFERSE是最全面的法学硕士基准测试套件
现在,基准测试涵盖了81种语言,甚至2个多模态数据集
快速回顾一下由微软的Sunayana Sitaram发表的研究。
TLDR:
随着LLMs变得越来越先进和全面,评估框架需要跟上它们在多模态、多语言和评估方式上的性能评估能力。
微软已经发布了最新的基准测试套件:MEGAVERSE。
它包括22个数据集、81种语言和2个多模态数据集。
论文链接:
论文中的其他重要发现:
已经为英语开发了基准测试。我们评估的最大模型GPT4(OpenAI,2023)接近但在大多数情况下不超过TULRv6(Patra等,2023)这样的SOTA精调语言模型的性能。GPT4在非拉丁文字和资源稀缺语言上表现更差。
论文评估了五个新的SOTA LLMs-
- PaLM2(Google,2023)
- Llama2(3个变种)(Touvron等,2023)和
- LLaVA-v1.5(Liu等,2023a)
- GPT4
- GPT-3.5-Turbo
多模态
- LLaVA-v1.5模型(Liu等,2023a)
- 两个新的多语种多模态数据集
以前开发的基准测试
BIG-bench Srivastava等(2023)有204个任务,涵盖多种语言的测试
语言模型的整体评估(HELM)Liang等(2022),包括任务、领域和语言,并包括指标(例如准确性、校准度、毒性),在42个场景和7个指标上包括30个语言模型。
BUFFET(Asai等,2023)在15个数据集中涵盖54种语言。