ChatGPT的行为随时间变化吗?研究人员评估了GPT-3.5和GPT-4的2023年3月版和2023年6月版在四个不同任务上的表现
研究人员评估了ChatGPT在2023年3月版和2023年6月版的GPT-3.5和GPT-4在四个任务上的表现
大型语言模型(LLMs)已成功证明是人工智能领域中最好的创新。从BERT、PaLM和GPT到LLaMa DALL-E,这些模型在理解和生成语言以模仿人类方面表现出了令人难以置信的性能。这些模型根据新鲜信息、用户输入和设计修改不断进行改进。然而,GPT-3.5和GPT-4的更新频率仍存在不确定性,这使得将这些LLMs整合到更广泛的工作流程中变得困难。
如果LLM的行为(例如响应提示的正确性或格式)突然发生变化,这种不稳定性可能会破坏下游流程。这种不可预测性可能会使开发人员和用户难以信任常规结果,这可能限制了LLMs在当前系统和工作流程中的稳定集成。为了研究不同大型语言模型(LLMs)的行为随时间变化的情况,斯坦福大学和加州大学伯克利分校的研究人员评估了GPT-3.5和GPT-4在2023年3月和2023年6月的版本的行为。
为了量化这些变化,研究人员使用了三个关键要素,包括要监测的LLM服务、要关注的应用场景以及用于衡量每个场景中LLM漂移的指标。本研究中监测的LLM服务的核心组成部分是ChatGPT、GPT-4和GPT-3.5。鉴于ChatGPT在企业和个人中的接受度以及其受欢迎程度,对这两个服务进行系统而及时的监测可以帮助用户更好地理解和使用LLMs来满足其特定的用例需求。
研究使用了通过OpenAI的API获取的GPT-4和GPT-3.5的2023年3月和2023年6月的快照,主要目的是检查两个日期之间的变化或“漂移”。研究团队选择了四个常见的LLM任务进行评估,这些任务被用作性能和安全性基准。这些任务包括:
- 解决数学问题-准确性衡量LLM服务生成正确答案的频率。
- 回答敏感问题-回答率显示LLM服务提供直接答案的频率。
- 代码生成-生成的代码可以在编程环境中立即执行并通过单元测试的百分比。
- 视觉推理-精确匹配,评估创建的视觉对象是否与源材料完全匹配。
总之,该研究聚焦于GPT-4和GPT-3.5,在四个选择的任务上进行评估,并使用专门的性能评估指标和其他常见指标来量化和衡量每个场景中LLM的漂移,以探究不同LLMs的行为随时间的变化。该研究的结果可以帮助用户更好地理解LLM的行为并将这些模型应用于各种应用领域。