面对 LMSYS-Chat-1M:一个包含2500万条与25个最先进的LLM进行的真实世界对话的大规模数据集

面对 LMSYS-Chat-1M:一个包含2500万条与25个最先进的LLM进行的真实世界对话的大规模数据集

大型语言模型(LLMs)已经成为各种人工智能应用的重要组成部分,从虚拟助手到代码生成。当与LLMs互动时,用户会根据不同的目的使用特定的查询和问题格式来适应他们的行为。研究这些模式可以提供关于用户期望和对各种LLMs的信任的见解。此外,了解从简单事实到复杂内容密集型查询的问题范围,可以帮助增强LLMs以更好地为用户服务,防止滥用并提高人工智能的安全性。可以说:

  • 运行大型语言模型服务所带来的高运营成本使得许多组织在收集真实用户问题数据方面面临财务挑战。
  • 拥有大量用户问题数据集的公司因担心揭示竞争优势和保护数据隐私而不愿意共享这些数据。
  • 鼓励用户与开源语言模型互动是一个挑战,因为这些模型通常表现不如大公司开发的模型。
  • 用户与开放模型互动困难,很难编制一个准确反映用户与这些模型进行真实互动的大规模数据集,用于研究。

为了填补这一空白,本研究论文介绍了一个名为LMSYS-Chat-1M的新颖大规模真实数据集。该数据集是从大型语言模型(LLMs)与用户之间广泛收集的真实互动中精心策划而来的。这些互动是通过提供访问25个流行的LLMs的免费在线LLM服务在五个月的时间里收集来的,这些LLMs包括开源和专有模型。该服务产生了大量的计算资源,包括数千个A100小时。

为了保持用户长期参与,作者实施了一个名为“chatbot arena”的竞争要素,并激励用户通过定期更新流行LLMs的排名和排行榜来使用该服务。因此,LMSYS-Chat-1M包括超过一百万个用户对话,展示了多种语言和主题。用户通过数据收集网站上的“使用条款”部分同意将其互动用于该数据集。

该数据集是从2023年4月至8月期间从Vicuna演示和Chatbot Arena网站收集的。该网站为用户提供了三种聊天接口选项:单一模型聊天、聊天机器人竞技场和允许用户并排比较两个聊天机器人的聊天机器人竞技场。该平台完全免费,用户 wu’被补偿,也没有任何费用。

在本文中,作者探讨了LMSYS-Chat-1M在四个不同用例中的潜在应用。他们证明LMSYS-Chat-1M可以有效地微调小型语言模型以作为强大的内容审核员,实现与GPT-4类似的性能。此外,尽管一些服务模型中有安全措施,但LMSYS-Chat-1M仍然包含了可以挑战主流语言模型的保护措施的对话,为研究模型的稳健性和安全性提供了一个新的基准。

此外,该数据集包括适合指令微调的高质量用户-语言模型对话。通过使用这些对话的子集,作者展示了Llama-2模型可以在特定基准上实现与Vicuna和Llama2 Chat类似的性能水平。最后,LMSYS-Chat-1M广泛涵盖的主题和任务使其成为为语言模型生成新的基准问题的有价值资源。