图灵测试、中文房间和大语言模型
'Turing test, Chinese room, and large language models'
图灵测试是人工智能领域的一个经典概念。最初被称为模仿游戏,艾伦·图灵在1950年提出了这个测试,发表在他的论文《计算机器和智能》中。测试的目标是确定一台机器是否表现出与人类相当(甚至难以区分)的智能行为。
测试的流程如下:一个询问者(玩家C)独自坐在一个房间里,房间里连接着另外两个房间,分别是玩家A和玩家B。玩家A是一台计算机,玩家B是一个人类。询问者的任务是确定哪个玩家——A还是B——是一台计算机,哪个是一个人类。询问者只能通过电脑键入问题并接收书面回答。
测试并不涉及玩家的硬件或大脑工作原理,而是旨在测试智能行为。据说,一台足够智能的计算机将能够让人误以为它是一个人类。
图灵测试在过去的几十年里引发了许多争论和争议,而现在的大型语言模型(LLM),如ChatGPT,可能会使我们将这个测试置于核心位置。
LLM是否通过了图灵测试?
在解答这个问题之前,我想指出我们是自然的生物(有时我们会忘记这一点),通过自然选择的演化而来。这意味着我们有一整套因为进化历史而产生的怪癖。
其中一个怪癖是我们很容易将无生命的物体赋予主动性。你是否曾经踢了一下你的汽车并对它大喊:“你到底能不能启动?!”再考虑一下ChatGPT的许多用户是如何以“请”开始他们的提示的。为什么?毕竟,这只是一个程序,我并不在乎你是以“请告诉我谁是艾伦·图灵?”还是“告诉我谁是艾伦·图灵?”开头。
但这是我们。我们在世界中漫游,给我们遇到的各种物体赋予各种属性。为什么?基本上,这可能对我们应对自然有益。
1980年,哲学家约翰·塞尔提出了一个巧妙的论据,反驳了图灵测试作为衡量智能的可行性。中国屋论证(思想、大脑和程序)认为,一台运行程序的计算机实际上无法拥有思想或理解,无论它的行为有多么智能或类似人类。
论证的内容如下:假设有人创造了一台人工智能——运行在计算机上的——它的行为就好像它能够理解中文(也许是LLM?)。
该程序以中文字符作为输入,按照计算机代码运行,并以中文字符作为输出。而且计算机的表现是如此令人信服,以至于它通过了图灵测试:人们相信这台计算机是一个活生生的中文讲者。它对一切都有答案——用中文。
塞尔问道:这台机器真的理解中文吗,还是它只是模拟理解中文的能力?
嗯……
现在假设我走进了房间,取代了计算机。
我向你保证我不会说中文(唉)。但是,我拿到了一本书,基本上是计算机程序的英文版本(是的,它是一本厚厚的书)。我还拿到了很多草稿纸——还有很多铅笔。门上有一个槽,人们可以通过纸张将他们的问题发送给我,问题用中文书写。
根据我得到的指示书,我处理这些中文字符——这需要一些时间——但是,通过纯粹的耐心展示,我会在一张纸上用中文提供一个答案。然后,我将答复通过槽口发送出去。
外面的人们在想,“嘿,里面的那个人会说中文。”再说一遍——我绝对不会。
塞尔尔争论说,我和计算机之间实际上没有任何区别。我们都只是按照一个逐步的手册进行操作,产生被解释为中文智能对话的行为。但是,我和计算机都不会真正说中文,更不用说理解中文了。
塞尔尔认为,没有理解,就没有思考。他巧妙的论证引起了激烈的辩论:“嗯,整个系统——我、书、铅笔——都能理解中文”;“不同意,系统只是一个人和一堆物体”;“但是……”等等。
如ChatGPT等今天的LLM非常擅长进行对话。它们通过了图灵测试吗?这是一个意见问题,我怀疑这些意见从“当然不行”到“当然可以”各种各样。我个人有限的LLM使用经验表明,它们很接近——但还差一点。在对话的某个时刻,我通常会意识到这是一种人工智能,而不是人类。
但是,即使LLM通过了图灵测试,我仍然不能不想起塞尔尔的房间。
我怀疑我们现在看到的并不是一个真正的思维。
至于未来?我会选择管理顾问彼得·德鲁克的话:“试图预测未来就像在夜晚没有灯光的乡间小路上开车,同时还要向后看”。
(如果它们以后真的有一个真正的思维——它不会像我们的……)
我看到死人,或者说,这是智能,吉姆,但不是我们所熟悉的智能
来看看这幅画,这是著名的格兰特·伍德的画作“美国哥特式”:
VoAGI.com