聊天机器人会说什么? (Liáotiān jīqìrén huì shuō shénme?)
聊天机器人会说些什么有趣的事情呢?(Liáotiān jīqìrén huì shuō xiē shénme yǒuqù de shìqing ne?)

Sebastien Bubeck 是微软研究院机器学习基础组的高级首席研究经理。Bubeck经常使用由OpenAI提供支持的GPT-4聊天机器人为他的年幼女儿创作关于独角兽的故事,该机器人可以在用户提示时产生复杂的文本回应。这使他好奇系统认为独角兽是什么样子,所以他让它用TikZ绘制了一只独角兽,TikZ是一种通过绘制点、线和图形等特征来创建矢量图形的编程语言。然后Bubeck编译出了一些代码。
结果是一幅简单的描绘独角兽的图画。
“我(差点)从椅子上摔下来,”Bubeck在9月份在德国海德堡举行的数学和计算机科学研究人员的交流会议“海德堡拉奥勒特论坛”上的一个座谈会上说。“看起来很糟糕,但这正是重点:它没有从互联网上抄袭。”
这只独角兽是许多人工智能(AI)研究人员所称的新兴行为的一个例子:出人意料的能力,其来源和机制难以辨别,并且超出了大型语言模型(LLM)的训练能力。例如,尽管只是从文本中学习,GPT-4能够跨模态,并且对独角兽的样子有一种“心理形象”。在其他情况下,它还能够解决数学、编码和医学等领域中的困难任务,这些任务不仅仅需要记忆,还需要将多个领域的技能和概念相结合。
研究人员现在正试图探索LLM中出现新能力的原因。自从转换器模型出现以来,这种行为就被观察到了,转换器模型可以通过学习语言中的模式(如语法和句法)来预测句子中的下一个单词或问题的答案。它们学习了单词之间的连接强度,例如,“耳朵”这个词更有可能后面跟着“电话”或“插头”,而不是“快乐”这个词。与之前的架构(如递归神经网络)相比,转换器模型更复杂,因为它们一次处理一句话的单词,而不考虑上下文。
转换器模型通常也是在大量数据上训练的,这通常被认为是它们性能提升和出人意料行为的原因之一。“这些大型语言模型已经在互联网公共领域中的无数文档、记录和几乎任何内容的数据集上训练,”Rensselaer Polytechnic Institute(RPI)的计算机、网络和认知科学Tetherless World教授及ACM人工智能专业兴趣小组的咨询委员会成员James Hendler在纽约特洛伊表示。“这涵盖了比任何人意识到的还要多的信息(并引发了)人们所说的新兴属性。”
与模型大小相关的其他因素可能有助于解释出人意料的能力。在最近的一项工作中,Colin Raffel,现为加拿大多伦多大学副教授兼Vector Institute副研究总监,以及他的同事,研究了新兴行为与模型的训练计算量和参数数量之间的关系(这两个因素可以调整来控制生成文本的质量和创造性),这两个因素与模型的复杂性有关。他们比较了不同模型(如GPT-3和PaLM)在各种任务上的表现,如解决基于单词的数学问题或改变名言引用中的一个词。如果模型表现在某个复杂度尺度以下具有随机性能力,并在该尺度以上展示良好的随机性能力,他们会认为完成任务的能力是新兴的。“出现了许多新兴行为的任务,”Raffel说。“(这篇论文)指出了这种现象有多么普遍。”
拉菲尔和他的同事承认存在一些混杂因素。如果一个模型能够成功地对一个之前规模较小的模型无法正确回答的提示做出正确回答,那么通常认为这个模型具有新出现的能力。例如,如果 GPT-4 被要求对一对具有许多位数的数字进行乘法运算,其能力将根据其生成的乘积来衡量。然而,即使一个之前的模型的最终答案是错误的,但如果它在某种程度上已经在正确的轨道上,这意味着随着规模的增加可能会存在逐渐改进的情况。拉菲尔说:“我不认为这意味着新出现的能力不存在。基本上这意味着(在某些情况下)模型突然能够在对任务的自然定义下执行该任务。”
提示策略,例如问题的提问方式或任务的描述方式,也可以影响模型生成的答案。如果一个规模较小的模型无法执行一个任务,而一个较大的模型突然能够执行该任务,这可能不一定是新出现行为的迹象,而可能是对它被要求做的事情有了更好的理解。拉菲尔说:“我们无法真正分离一个模型的能力和模型理解提示的能力。也许在将来我们会能够做到这一点。”
然而,当前的类似语言模型(LLM)如GPT-4似乎能够产生出意料之外的新颖创作,这可能表明新出现是某种智能的结果。在最新的工作中,Bubeck和他的同事们调查了GPT-4的早期版本在各种任务上的表现,从画一只独角兽到创作一首简短的曲子。他们发现,在所有任务中,而且无需特殊提示,其表现与人类相似,并且通常比之前的模型(如ChatGPT)要好得多。Bubeck说:“GPT-4证明了当你用大量的数据训练一个巨大的神经网络时,可以实现某种形式的智能。”
尽管类似语言模型(LLM)可能能够像人类一样回应某些提示,但许多研究人员认为它们只能满足某些智能的定义。Hendler说:“从人类的角度来看,这些系统并不具备智能。它们在某些能力上仍然有限制,但更重要的是,它们没有意识和目的。”
我们仍然有很多关于类似语言模型(LLM)智能的方面需要更好地理解。Bubeck希望弄清楚这些模型需要多么巨大才能展示出智能行为,同样,哪些最低要求能够使某种形式的智能出现。Bubeck说:“对我来说,这是一个定义时代的问题,我比以往更加关注它。我相信我们需要真正进行实验,并尝试构建这样的最低要素。”
Bubeck和他的同事们是其中一些团队之一,他们正在建造规模较小但性能与较大模型相似的类似语言模型(LLM),并且需要更少的训练时间和成本。他们最近一直在开发一系列这样的模型,称为phi,这些模型正在接受高质量的合成数据(例如课本中可能找到的信息)的训练。Bubeck说:“我们最近公开发布了phi-1.5,这是一个具有10亿参数的模型,展示了许多我们在规模更大的模型中看到的新出现能力。”这个模型在常识和逻辑推理任务上也超过了一些较大的模型。
随着越来越复杂的类似语言模型(LLM)的新版本的创建,新出现的能力也可能变得更加复杂和普遍。然而,并不是每个人都同意。
微软前首席执行官兼董事长比尔·盖茨最近在一次采访中说,他认为这些系统的能力已经达到了顶峰,GPT-5将不会超越GPT-4。相反,他认为它们在可靠性和可解释性方面会有所提高。
Hendler持有类似的观点。他说:“我认为我们不会看到重大的惊喜。我认为LLM会更多地发展为解决特定问题和特定领域的专用系统,而不是不断泛化。”
Sandrine Ceurstemont 是一位英国伦敦的自由科学作家。



