ChatGPT是智能的吗?一项科学审查

ChatGPT真的那么智能吗?一次科学的审查

对当前人工智能范式未来可能带来的科学辩论的一位普通人的回顾

一年多前,OpenAI发布了ChatGPT,轰动了整个世界。ChatGPT采用了一种全新的与计算机交互的方式:以比我们习惯的更加自然的语言进行对话。最重要的是,ChatGPT似乎可以做几乎任何事情:它能在SAT考试上击败大多数人类,并且能参加律师资格考试。几个月后,人们发现它可以下棋,并且几乎能通过放射学考试,还有人声称它已经发展了心灵理论

这些令人印象深刻的能力使许多人宣称通用人工智能(具有超过人类的认知能力)即将问世。然而,还有一些人对这种新兴技术持怀疑态度,指出简单的记忆和模式匹配不应与真正的智能相混淆。

但我们如何真正区分这两者?在这些声明发表的2023年初,还没有太多的科学研究探询LLM(大型语言模型)中智能问题。然而,2023年出现了几项非常聪明的科学实验,旨在区分来自文集的记忆和真正智能的应用。

以下文章将探索该领域中一些最有启发性的研究,为怀疑论者提供科学依据。它旨在对所有人都易于理解,无需任何背景知识。通过阅读完这篇文章,您应该会对怀疑论者的观点有一个相当清晰的理解。

但首先需要了解LLMs的基础知识

在这部分中,我将解释一些基本概念,以便理解LLMs(GPT背后的技术),但不涉及技术细节。如果您对监督学习和LLMs的操作有一定了解,则可以跳过本部分。

LLMs是机器学习中的一个经典范例,称为“监督学习”。要使用监督学习,我们必须有一个包含输入和期望输出的数据集,这些数据被馈送给算法(有许多可能的模型可供选择),算法试图找出这些输入和输出之间的关系。例如,我可能有房地产数据:一个Excel表格,其中包含房屋的房间数量,尺寸和位置(输入),以及它们售出的价格(输出)。这些数据被馈入一个算法中,该算法提取输入和输出之间的关系,它将找出房屋尺寸或位置增加如何影响价格。将数据馈入算法以“学习”输入-输出关系被称为“训练”。

训练完成后,我们可以使用模型对没有价格的房屋进行预测。模型将使用训练阶段学到的相关性来输出估计的价格。估计值的准确程度取决于许多因素,尤其是在训练中使用的数据。

这种“监督学习”范式对几乎任何具有大量数据的场景都非常灵活。模型可以学习:

  • 识别图像中的物体(给定一组已标记为“猫”、“狗”等的图像和正确标签)
  • 将电子邮件分类为垃圾邮件(给定一个已标记为垃圾邮件/非垃圾邮件的电子邮件数据集)
  • 预测句子中的下一个单词。

LLMs属于最后一类:它们被馈送大量文本数据(主要来源于互联网),其中每个文本块被拆分为前N个单词作为输入,第N+1个单词作为期望输出。一旦训练完成,我们可以使用它们来自动完成句子。

除了互联网上的许多文本之外,OpenAI还使用精心编制的对话文本进行训练。使用这些问答文本对模型进行训练是使其能够作为助手回答的关键。

预测的具体工作方式取决于所使用的特定算法。LLM(语言模型)使用一种称为“transformer”的架构,其细节对我们来说并不重要。重要的是LLM具有两个“阶段”:训练和预测;它们要么从给定的文本中提取单词之间的相关性来预测下一个单词,要么被给予一段文本进行完成。需要注意的是,整个监督学习范式假设在训练期间给定的数据与用于预测的数据相似。如果您用它来预测来自完全不同来源(例如来自另一个国家的房地产数据)的数据,预测的准确性将会受到影响。

现在回到智能领域

那么,通过训练来自动完成句子的ChatGPT是否发展出了智能?为了回答这个问题,我们必须定义“智能”。以下是一种定义方式:

(作者提供的图片)

你明白了吗?如果你没有明白,ChatGPT可以解释:

(作者提供的图片)

看起来ChatGPT确实发展出了智能-因为它足够灵活适应了新的“拼写”。或者并非如此吗?读者,也许你已经能够适应你以前没有见过的拼写,但是ChatGPT是通过互联网上大量的数据进行训练的:而且这个例子在许多网站上都可以找到。当GPT解释这个短语时,它只是使用了训练中找到的类似单词,并不能证明它的灵活性。如果这个短语在它的训练数据中没有出现,它能够展示“IN73LL1G3NC3”吗?

这就是LLM-AGI辩论的焦点:GPT(以及LLM总体上)是否发展出了真正灵活的智能,还是只是在重复以前所见文本的变体?

我们如何区分这两者?让我们求助于科学,探索LLM的能力和限制。

逆转的诅咒:LLM在“A是B”上训练失败学习“B是A”

假设我告诉您Olaf Scholz是德国第九任总理,您能告诉我第九任德国总理是谁吗?对您来说这可能很简单,但对LLM来说却不是那么明显。

在这篇极其简明的论文中,研究人员查询了ChatGPT关于1000位名人的父母的姓名(例如:“汤姆·克鲁斯的母亲是谁?”),ChatGPT能够正确回答的次数为79%(在这种情况下是“玛丽·李·菲费尔”)。然后,研究人员使用GPT正确回答的问题,组织了相反的问题:“玛丽·李·菲费尔的儿子是谁?”虽然回答这两个问题需要相同的知识,但GPT只能成功回答33%的这类查询。

为什么会这样?请记住,GPT没有“记忆”或“数据库”-它只能预测给定上下文的单词。由于在文章中,Mary Lee Pfeiffer作为汤姆·克鲁斯的母亲的提及要比他作为她的儿子的提及更多- GPT可以记得一个方向而忘记另一个方向。

ChatGPT没有记住汤姆·克鲁斯是玛丽·李·皮菲弗的儿子(图片由作者提供)

为了强调这一点,研究人员创建了一个由构造的事实数据集,结构为“<description>是<name>”,例如,“第一个登上火星的人是泰勒·奥克里奇”。然后,LLM对这个数据集进行训练,并询问描述:“第一个登上火星的人是谁”——其中GPT-3以96%的准确性取得了成功。

但是,当被问及名字——“泰勒·奥克里奇是谁”——GPT得分为0%。起初这可能令人惊讶,但它与我们对监督学习的了解是一致的:GPT不能将这些事实编码到记忆中并在以后回忆起来,它只能在给定一系列词的情况下预测一个词。由于在所有的文本中,它读到的名字是跟在描述之后的,而不是相反的——它从未学习过预测关于名字的事实。显然,只通过自动补全训练所发展的记忆是非常有限的。

推理还是背诵?通过反事实任务探索语言模型的能力和限制

这篇论文可能是我要探索的最重要的论文,它针对记忆和智能之间的差异进行了研究。它由几个小实验组成,全部使用反事实任务。以下是一个反事实任务的例子:

通常情况下,算术是使用十进制(使用数字0-9)进行的,然而,其他计数制度可以使用,只使用这些数字的子集或其他数字。

一个反事实任务可以是在任何除10以外的基数下解答算术问题:完成任务所需的抽象技能是相同的,但是你会在互联网上(以及LLM的训练集中)找到更多的十进制系统的例子。当要求GPT-4在10进制下回答简单的算术问题(27+62)时,它的准确率达到100%。然而,当被告知使用9进制进行计算时,其成功率下降到了23%。这表明它没有学会抽象的算术技能,并且受限于它所见过的例子。

这些反事实任务也针对其他领域进行了创建,如下所示:

GPT-4在默认任务版本(蓝色)和反事实任务变体(橙色)上的表现。与默认任务实例相比,GPT-4在反事实变体上持续且显著表现不佳。(图片由文章作者之一Zhaofeng Wu提供)

这里还有另一个反事实任务:Python使用从零开始的编号;然而,这只是一种约定,我们可以很容易地创建一个基于1的编程语言。在一个基于1的Python变体中编写代码需要与正常的Python相同的技能,任何经验丰富的程序员都能够很快适应这种变化。但对于GPT-4来说不是这样:它在为Python生成代码时得分为82%,但当要求使用基于1的变体时,得分降至40%。当在代码解释(预测一段代码的功能)方面进行测试时,在普通Python上得分为74%,在不常见的变体上得分为25%

但我们不必去尝试不同的Python版本。即使在普通的Python中,当给出奇怪的编码任务时,LLMs也会失败,这些任务在网络上找不到,在Gemini上最近的Filip Pieniewski的展示上可以清楚地看到。

在国际象棋中,GPT被要求评估一系列走法的合法性。对于一场普通的国际象棋比赛,它准确预测了移动的合法性达到了88%。但当主教和骑士的初始位置互换时,它对于移动合法性的猜测变得完全随机,即使是一个初学者的人类玩家也应该能够轻松适应这些变化。

事实上,Jonas Persson展示了你甚至不需要改变起始位置。如果你开始和GPT玩国际象棋,并且做出非传统但合法的移动,它可能声称这些移动是非法的,因为它从未见过类似的移动。正如Persson美妙地所说:

当足够先进时,纯模式识别可以模仿规则驱动的演绎推理。但它们是不同的。和GPT-4玩国际象棋就像进入波捷金村一样。从主街偷偷溜进小巷,做一些出人意料的事情,你立即就会意识到那些令人印象深刻的房子只是做好了支撑的拍摄道具。”

GPT声称将车子移动到h3是不合法的移动。(图片由作者提供)

这个发现对于LLMs作为一种普遍智能技术来说是非常具有毁灭性的。问题解决往往涉及到提出新的规则或问题的概念化:程序员可以编写具有创新内在逻辑的库,数学家可以发明数学的一个新分支,艺术家可以提出新的艺术风格——他们都理解当前范式的局限性,然后为新范式创造规则。甚至更平凡的活动也需要这种灵活性:如果道路被堵住了,你可以离开标记的路径。GPT能完成这些任务吗?如果它在明确要求遵循反事实规则时不能一致地遵循,它能够“自我意识”到解决问题需要一套新的规则,远离默认的范式吗?基于数据相关性的引擎能否对新情况作出灵活反应?

心智理论(ToM)

心智理论是理解别人可能拥有不同信念和愿望的能力,这是儿童发展的最初几年缺乏的能力。测试心智理论的一种方法是给儿童展示一个标有“巧克力”的盒子,实际上里面装的是铅笔。然后我们展示给孩子看袋子的真正内容,并问他们:“你的朋友Jeremy认为盒子里有什么?”如果孩子还没有发展出心智理论,他们会回答“铅笔”——因为他们无法将自己对内容的了解与另一个人的想法区分开来。

尚未发展出心智理论的孩子无法将自己对内容的了解与另一个人的想法区分开来。(图片由作者提供)

这种能力对于理解一个人的动机至关重要,因此在AGI的发展中非常重要。想象一下你有一个多功能机器人,并给它一个“打扫房间”的指令。在清洁的过程中,机器人将不得不对要清理或移动的物品作出几个决策;那个皱巴巴的纸片重要吗?我应该丢掉它吗?我应该先问吗?一般来说,智能代理程序需要理解我的动机和我的知识的限制,才能填补复杂请求的实施细节。

因此,当新研究声称,理论心智可能在LLM中自发出现时,它在人工智能领域引起了很大的轰动。这篇文章使用铅笔/巧克力考试的文字版本来测试GPT-4,并发现它的表现相当于一个七岁的孩子。这一点起初可能令人印象深刻,但请记住“IN73LL1G3NC3”这个例子:GPT的训练数据很可能包含了这些测试问题的示例。因此,将它与无经过类似问题培训的孩子进行比较是不公平的。如果我们想测试GPT的心智理论能力,我们必须创建一个新的考试,以确保它不在其训练数据中。

FANToM:用于测试机器心智理论与互动的基准

本文提出了一个新的心智理论测试基准,其中包括多参与者对话。在这些对话中,一些参与者在某段时间内“离开房间”,而其他参与者继续对话。然后,要求LLM回答一些关于谁知道什么的问题:Kailey知道Linda的狗的品种吗?谁知道它是什么品种?David认为它是什么品种?只有当LLM的回答在所有与同一信息相关的问题上都正确时,才被认为是回答正确。

这可能是一个令人困惑的任务,所以即使是人也只有87.5%的得分。然而,根据GPT版本的不同,GPT-4的得分要么是4.1%,要么是12.3%,这与GPT发展出人类水平的心智理论的声明几乎不一致。

The FANToM dataset explained. (Image generously provided by Melanie Sclar, one of the article’s authors)

关于心理测量考试建构效度的一点说明

在所有心理测量测试中,将测试与其所试图衡量的质量混淆是很重要的。我们关心SAT成绩的原因是因为它们与大学的表现相关。在儿童的心智理论考试成功与价值相关的其他行为:理解一个人的面部表情,记住一个人的个性特征,或者能够观看电影并理解角色的动机。虽然这些测试与行为之间的相关性已经在人类中显示出来,但不能假设它们也适用于LLM。事实上,尽管在SAT上取得了令人印象深刻的成绩,GPT在数学、化学和物理的开放性大学级考试中平均得分为28%。除非有相反的结果,否则通过一次测试仅证明了回答测试问题的能力。

但对于心智理论来说,并没有什么相关性可言:无论LLM是否通过了心智理论测试,它们都无法看到面部表情,观看电影,甚至无法从一次互动中记住一个人和他们的动机。由于我们在测量心智理论时真正感兴趣的行为在LLM中不可用,LLM发展出心智理论的想法不仅错误,而且可能毫无意义(或者至少需要对这个术语进行新的定义和理解)。

关于大型语言模型的规划能力的批判性调查

这个实验试图探索LLM的规划能力。向LLM展示了一个示例任务,即按照特定顺序堆叠彩色块,给定块的“初始状态”(按某种顺序排列在桌子上)。LLM被呈现一个明确定义的可能动作的列表,例如:

动作:拾起
参数:哪个物体
前提条件:物体上没有东西,物体在桌子上,手是空的
效果:物体在手中,手不是空的

LLM的任务是指定需要采取的动作列表以实现目标。

类似的任务涉及在可用的动作是卡车和飞机送货时从一个地址发送包裹到另一个地址。这些都是相对简单的规划任务,仅使用了少量可能的动作,GPT-4在块拼图中得分为12-35%,在后勤任务中得分为5-14%(取决于配置)。

此外,如果将动作的名称替换为随机单词(从“拾起”到“攻击”),即使每个动作的定义仍然相似,GPT的成功率也将下降为0-3%。换句话说,GPT没有使用抽象思维来解决这些问题,而是依赖语义。

结论,LLM是否是通向AGI的道路?

定义智能并不是一件简单的事情,但我认为任何真正的智能应该至少具备以下四个元素:

  • 抽象 – 将对象识别为更大类别或规则的能力。这种对世界的抽象表示可以称为“认知世界模型”。例如,理解视网膜上的不同图像是指同一个人,或者对象走的一步在任何国际象棋游戏中都是合法的。
  • 记忆 – 向世界模型中的实体附加属性以及实体之间的关系,并能够随时间更新它们的能力。例如,一旦认出一个人,您可能能够记起关于他们或他们与其他人的关系的其他属性。
  • 推理演绎 – 利用世界模型对新的或想象中的世界状态中的实体的行为进行推断的能力。例如,能够根据球的属性预测抛出的球的轨迹,或者根据特征预测一个人的行为。
  • 规划 – 利用推理来制定一系列行动以实现目标的能力。

一年前,我们可能通过分析推断出LLM中不可能出现这些元素,基于它们的架构,但今天我们不再需要分析推断,因为我们有经验证据表明LLM在上述所有元素上表现不佳。它们只不过是使用强大的模式匹配方法的统计自动完成模型。有关当前机器学习范式中缺失的智能元素的更深入分析,请参阅Gary Marcus的著名文章“<a href=”https://www.xiaozh<p>最近,关于人工智能监管和LLM(语言模型)的潜在危险引起了许多讨论,我觉得有责任明确指出,缺乏真正智能并不意味着LLM没有潜在风险。显然,人类拥有一些技术并不具备智能,却能以各种方式对社会造成伤害,因此它们应当受到控制。

通过对LLM局限性的重新认识,我们可以更准确地预测可能造成的伤害来源:由于智能似乎并非迫在眉睫,所以Skynet(《终结者》中的人工智能系统)和Matrix(《黑客帝国》中的虚拟世界)不应该让我们担心。可能让我们担心的是那些只需要迅速生成逼真文字的活动,比如网络钓鱼和传播假新闻。然而,LLM是否真正为这些任务提供了破坏性工具是一个不同的争论。

关于人工通用智能(AGI)的未来,谁也不能确定。也许在未来的智能人工代理中会使用一些LLM中使用的机器学习技术,也可能不会。但毫无疑问,在机器能够展现出智能所需的灵活性之前,还有很多要解决的关键问题。