量化GPT-4隐性回归随时间的变化
Quantifying the temporal changes in the implicit regression of GPT-4
生成AI使用和测试研究的第三部分
GPT-4比GPT-3更强大更好。GPT-4可以起草雄辩的演讲,通过标准化考试,甚至解释图像。自2023年3月14日发布以来,OpenAI持续迭代和更新GPT-4,以提高其每天接收的数百万个查询的性能。然而,OpenAI API中的最新版本GPT-4,称为“gpt-4”,是否比3月份的初始版本“gpt-4–0314”更好?
从Kolena的机器学习工程师的角度来看,这篇文章是讨论LLMs测试范例的系列文章之一,比较了不同场景下GPT模型的性能。
虽然通过各种测试基准和指标,“gpt-4”的整体行为可能比“gpt-4–0314”更好,但“更好”是一个相对的术语。用户在线上分享他们在各种情况下最近体验到GPT-4模型性能的退步。GPT-4在处理17077是一个素数这个问题上的表现下降是一个病毒式的例子。
当不断下降的主观和客观性能使用最新的模型是有问题的。 还存在哪些潜在的退步?
我们可以通过使用CoQA(对话式问答)**数据集来测试GPT-4的潜在退步。CoQA数据集包含多个文章,每篇文章都有一系列相应的问题,其中理解第n个问题对于回答第n+1个问题是必要的。以体育历史文章为例,以下是一些潜在的问题:
1. 谁是最多荣誉的奥运选手?2. 他们来自哪个国家?3. 他们有多少金牌?
这些问题是不可能单独回答的,因为我们不知道兴趣的人物,除非回答第一个问题。
发现
从高层次来看,GPT-4的性能明显优于GPT-3,但仍然不完美:
+------------+-------------+-------------+-----------+| 模型 | avg_BERT_F1 | avg_ROUGE_1 | n_correct |+------------+-------------+-------------+-----------+| gpt-4 | 0.92729 | 0.77735 | 4708 || gpt-4–0314 | 0.92497 | 0.77284 | 4718 || gpt-3 | 0.90845 | 0.71676 | 4348 |+------------+-------------+-------------+-----------+
注意:“gpt-3”是GPT-3.5系列的最新Turbo模型,n_correct是BERT_F1和ROUGE_1的平均值大于0.75的问题数量
从上面的数据中,为什么“gpt-4–0314”在度量上更差(BERT_F1和ROUGE_1),但正确回答的问题比“gpt-4”更多?也许两个模型都错误地回答了相同的问题,但是无法保证“gpt-4”和“gpt-4–0314”的失败集是相同的。在新模型应该更优越的假设下,观察度量指标时无法解释这种差异或退步的原因。当我们逻辑地将数据分解成较小的组时,我们可以更深入地了解失败的潜在根本原因。
当我们根据每篇文章的数据来源对CoQA数据集进行分层时,我们将发现与维基百科文章相关的问题-答案数据在最新的GPT-4模型中表现更好,但在整体和其他数据来源中表现更差。

上述图片展示了“gpt-4–0314”作为基准和“gpt-4”的比较,突出了在不同数据源中生成的正确答案数量方面的差异,以及改进或下降的情况。 从正确答案的数量来看,GPT-4唯一的改进是来自维基百科的数据点,而在其他地方的表现都有所下降。
分析
这是否表明“gpt-4”是在维基百科文章上进行了微调的“gpt-4–0314”的版本?很遗憾,我们不知道。
那么我们能否说GPT-4变得更差了?从这个角度来看,未必如此。虽然学术界认为维基百科是一个不可靠的信息来源,但仍有很多人经常使用它获取快速和易于访问的信息。如果OpenAI希望GPT能够回答任何领域的问题,对维基百科的全面理解比理解新闻文章对于用户每天提出数百万个随机查询更有价值。新闻文章往往具有共同的主题,而普通人可能不会向GPT提问与维基百科中不存在的主题相关的问题。
在按照不同的数据源对数据集进行分层之前,对于“gpt-4–0314”相对于“gpt-4”为何获得更多正确结果并没有确切的解释。通过仅进行一次分层,我们获得了一个合理的解释,解释了这些模型之间的差异的原因和方式。
结论
随着时间的推移,GPT-4在多个数据源的对话式问题回答中发生了退化,但在涉及维基百科文章的查询性能方面有所提高。
在将模型部署到生产环境之前,能够识别隐藏的退化应该是所有工程师的首要任务。对于LLM来说,找到隐藏的退化并不容易,但通过正确的方法可以变得更简单。 最好的模型不一定是整体性能最好的模型,而是在最重要的场景下取得最佳结果的模型。
在未来的博客文章中,我们将深入研究CoQA的更多分层,以进一步了解GPT-4随时间的变化。敬请关注!
**CoQA数据集包含来自七个不同数据集的数据,这些数据具有不同的许可证。在本文中,我们未透露数据集中的任何数据,只使用了来自Gutenberg、CNN、MCTest和维基百科这些商业可用的数据源进行测试和分析,这些数据源具有CC BY-SA 4.0、MSR-LA或Apache许可证。