人工智能的类比推理能力:挑战人类智能?

AI's analogical reasoning ability challenging human intelligence?

类比推理是人类独有的能力,通过将未知问题与已知问题进行类比来解决,长期以来一直被视为一种独特的人类认知功能。然而,由加州大学洛杉矶分校的心理学家进行的一项开创性研究提出了令人信服的发现,这可能使我们重新思考这个问题。

GPT-3:接近人类智力的水平?

加州大学洛杉矶分校的研究发现,由OpenAI开发的AI语言模型GPT-3在解决类似智力测试和SAT等标准化考试中出现的问题时,展示出与大学本科生几乎相当的推理能力。这一发现发表在《自然·人类行为》杂志上,引发了一个有趣的问题:GPT-3之所以能够模拟人类推理,是因为它的广泛语言训练数据集,还是它正在利用一种全新的认知过程?

GPT-3的确切工作方式仍然被OpenAI保密,这让加州大学洛杉矶分校的研究人员对其类比推理能力的机制产生了好奇。尽管GPT-3在某些推理任务上表现出色,但这个工具并非没有缺陷。该研究的主要作者、加州大学洛杉矶分校的博士后研究员泰勒·韦伯(Taylor Webb)指出:“尽管我们的发现令人印象深刻,但必须强调这个系统有着显著的限制。GPT-3可以进行类比推理,但在人类来说微不足道的任务,例如利用工具进行物理任务,它却很困难。”

通过将图像转换为GPT-3能够解读的文本格式,韦伯利用了受《雷文渐进矩阵》启发的问题进行了测试,这是一个涉及复杂形状序列的测试。与40名加州大学洛杉矶分校的本科生相比,GPT-3不仅与人类表现相当,而且还出现了与人类一样的错误。这个AI模型准确解决了80%的问题,超过了人类平均分数,但仍在顶级人类表现者的范围内。

该团队还使用未发布的SAT类比问题进一步探索了GPT-3的能力,结果发现AI的表现超过了人类平均水平。然而,在尝试从短篇故事中进行类比时,它稍微有些困难,尽管更新的GPT-4模型显示出改进的结果。

弥合AI与人类认知的鸿沟

加州大学洛杉矶分校的研究人员并不满足于仅仅进行比较。他们正致力于开发一种受人类认知启发的计算机模型,并不断将其能力与商用AI模型进行对比。加州大学洛杉矶分校心理学教授兼合著者基思·霍利奥克(Keith Holyoak)表示:“我们的心理学AI模型在类比问题上超过了其他模型,直到GPT-3最新的升级显示出更强或相当的能力。”

然而,该团队确定了GPT-3滞后的一些领域,尤其是在需要理解物理空间的任务中。在涉及工具使用的挑战中,GPT-3的解决方案明显偏离了正确答案。

该研究的高级作者洛洪静(Hongjing Lu)对过去两年技术的飞跃,尤其是AI的推理能力的提升感到惊讶。然而,这些模型是否真正像人类一样“思考”,还是仅仅模仿人类思维,仍然有待讨论。对AI认知过程的洞察的追求需要访问AI模型的后端,这是一次可能塑造AI未来发展轨迹的飞跃。

韦伯总结道:“访问GPT模型的后端将极大地有益于AI和认知研究人员。目前,我们只能访问输入和输出,而缺乏我们所期望的决定性深度。”