思考,快与慢 + 人工智能

思考与人工智能

通过利用人类心理学,AI纠正数学

图片来源:必应图片创作者

“人类大脑中有一种机制被设计成优先考虑坏消息。” — 丹尼尔·卡尼曼

《思考,快与慢》是由心理学家和诺贝尔奖得主丹尼尔·卡尼曼所著的畅销书。该书提出了他关于我们的思维方式及其驱动力的假设。

目前,像谷歌的Bard这样的AI聊天机器人正在利用他的假设来提高自己的效率和准确性。

但是丹尼尔·卡尼曼在书中提出的假设究竟如何帮助开发AI聊天机器人呢?

这正是我们将在本文中讨论的内容。

驱动思维的两个系统

图片作者:作者本人

卡尼曼的书探讨了两种思维方式:

  • 直觉思维(也称为系统1思维)
  • 慢思维(也称为系统2思维)

卡尼曼认为,系统1是快速的、本能的和情绪化的;而系统2则是慢速的、深思熟虑的和逻辑性的。虽然这两个系统在决策过程中都起着关键作用,但根据情况的不同,其中一个系统往往比另一个系统更活跃。

系统1工作快速而毫不费力。在该系统下的行动几乎没有任何努力,并且没有自愿控制的感觉。

这包括阅读海报上的文字,判断一个物体与另一个物体的远近,识别你听到的声音等。

而系统2则更加自觉和逻辑。在该系统下的行动需要很长时间,并具有自愿控制能力。当你进行抽象和逻辑思维时,该系统被激活。

这包括在人群中识别某人,进行脑力计算,下国际象棋等。

最近,谷歌的AI聊天机器人Bard利用这个心理学概念来改进其数学和字符串操作,使其响应更加灵活和准确。

但是Bard如何利用这个心理学概念来增强自己的AI系统呢?

思维原理如何帮助AI

图片作者:作者本人

在我们深入讨论之前,让我们了解每个系统的主要优势和劣势。

该书指出,系统1思维占据了我们所有思维的98%,而系统2思维则占据了剩余的2%,并且是系统1的奴隶。

但是两个系统都有其优缺点,并且它们对我们的决策能力产生重大影响。

每个系统的缺点

过度依赖系统1思维可能导致偏见和错误。系统1思维的一些注意事项包括:

  • 过于迷信确认偏见
  • 倾向忽视具体和重要的细节
  • 忽略我们不喜欢的证据,导致无知
  • 对看似简单或无关紧要的决策过度思考
  • 为糟糕的决策提供可疑的理由

等等。

大家好!希望你们喜欢这篇文章。这篇文章是我创意障碍通讯的一部分 —— 这是一份关于科技和人工智能的每周通讯。

如果你想阅读更多类似的内容,请访问创意障碍。

另一方面,过分依赖第二系统思维也会导致错误和负面后果。这些包括:

  • 过度思考简单的决策,浪费大量时间
  • 无法做出快速决策
  • 过分怀疑和过多保留判断
  • 经历决策疲劳和认知过载
  • 做出过于逻辑的决策,不考虑情感因素

思维的两种系统:应用于人工智能

当这个概念应用于人工智能和计算时,情况变得非常有趣。

LLMs(像Bard和CHatGPT这样的聊天机器人的AI模型)可以被认为是运行在第一系统中。

为什么?

LLMs(运行这些聊天机器人的AI模型)通过在之前的数十亿个训练数据中找到模式,并生成与常见模式匹配的响应来工作。例如,当你告诉一个聊天机器人“写一篇关于气候变化的文章”时,后台的过程如下:

  1. 在其庞大的训练数据库中查找匹配的查询。聊天机器人试图找到一个包括关键词“气候变化”和“文章”的常见查询。
  2. 查找趋势或模式。然后,聊天机器人试图在所有选定的数据中找到一个常见的趋势或模式。例如,模式可能是几乎所有数据都必须提到“碳排放”、“碳足迹”、“塑料污染”、“全球变暖”等。此外,文章的标题和段落格式也是一种模式(与诗歌、博客等其他格式相对比)。
  3. 根据模式生成文本。这是一个有趣的过程。将这个过程想象成解决拼图游戏。聊天机器人试图使用数据片段(拼图碎片)生成文本,并尝试使其类似于类似文章的模式(最终图片),在这种情况下是关于气候变化的文章。它创建了几个迭代(即输出),然后将其与参考数据进行比较,参考数据可以是关于气候变化的已经写好的文章。
  4. 给出输出。选择与期望结果最接近的迭代,并在屏幕上打印出来。

这个过程可能看起来很冗长,但在传统LLMs中只需要几秒钟。第一步在LLMs的开发和训练阶段中早就完成了,这个阶段包括将AI模型训练在包含数十亿个数据的数据集上。从这个庞大的数据集中学习并找到所有数据的模式后,LLM过程中的繁琐和困难部分就完成了。

图片来源:ithome.com.tw

其余的步骤相对较快,这在很大程度上要归功于模型训练的数据质量。通常情况下,提供的训练数据越好,预测和生成的结果就越好。

因此,LLM在没有“思考”太多的情况下轻松生成文本。它只是找到模式并将输出与参考进行比较。

因此,LLMs位于第一系统中——快速高效。然而,这样做的缺点是LLMs可能会生成不正确和有偏见的输出,甚至可以捏造事实和数据(AI幻觉)。

这就是下面的案例的原因,有时候Bard在难题上显示出轻松的结果,但在像下面这样的简单任务中却失败了:

图片来源:Reddit

这是因为解决某个数学问题时,按照特定步骤的顺序进行更加高效,而不是依赖于类似数学问题的“模式”。

这就是传统计算方法更好的地方。例如,你电脑上的计算器的工作方式。

传统计算遵循一种顺序或结构,其形式为代码或简单算法。在这方面,传统计算更适用于执行诸如解决数学问题、操作字符串、进行转换等任务。缺点是,由于其遵循指定的格式,它可能并不总是快速或高效。传统计算机可以找到问题的答案,比如12*24 = 288,但在处理与微积分相关的问题时需要更长的时间。

然而,这里的优点是大部分时候几乎可以确定得到正确答案。

观察到与LLMs相比,传统计算相对较慢、更逻辑和结构化。

因此,传统计算属于系统2。它相对较慢,更系统和逻辑。它包括算法、代码或任何其他硬编码执行系统。

谷歌的Bard非常有趣地尝试使用这两种系统来使其聊天机器人的回答更加优化。

Bard如何使用它

Bard在推出时遇到了困难。最初展示Bard能力的宣传视频在回答中包含错误信息后面临巨大的批评。

因此,对于Bard来说,使其AI机器人更准确、包含更少的偏见或错误信息非常重要。减少错误信息并提高几乎所有AI工具的效率是一个具有挑战性的目标。

因此,谷歌在6月7日发布了一篇名为“Bard在逻辑和推理方面变得更好了”的博客。

博客中提到了Bard的两个新功能。

其中之一是导出到Google Sheets的功能,允许用户将包含表格的输出导出到Google Sheets中。

另一个功能允许Bard在他们自己的话中“在数学任务、编码问题和字符串操作方面变得更好”。

Bard以前在数学问题上有困难,现在仍然偶尔会遇到问题。但是使用我上面提到的结合这两个系统的方法,Bard现在的目标是变得更好,纠正其愚蠢的数学错误。

Bard使用的这种新技术被称为“隐式代码执行”。

当LLMs(系统1,包含快速和基于模式的响应)接收到提示时,隐式代码执行允许Bard检测到计算提示(系统2,包含逻辑和系统执行)并在后台运行代码。

这有助于Bard更轻松地对数学和基于字符串的提示进行回复。

在博客中提到的示例中,谷歌表示Bard将在以下提示回答方面变得更好:

  • 15683615的质数因子是什么?
  • 计算我的储蓄增长率
  • 帮我翻转单词“Lollipop”

博客中的下面摘录捕捉到了使用这种思维方法的本质和动机:

“因此,它们在语言和创造性任务上非常有能力,但在推理和数学等领域上较弱。

为了帮助解决更复杂的具有高级推理和逻辑能力的问题,仅依靠LLM的输出是不够的。

LLM可以被视为纯粹在系统1下操作-快速生成文本,但没有深入思考…传统计算与系统2思维紧密结合:它是公式化和不灵活的,但正确的步骤序列可以产生令人印象深刻的结果,如长除法的解决方案。”

——谷歌在博客中

将LLMs和传统计算保持在系统1和系统2上的这种方法确保了回答的准确性和效率更高。

根据博客所述,使用这种方法,Bard在处理单词和数学问题方面显示了近30%的准确性。

这种新方法的可靠性如何

虽然这在处理数学和文字问题时提高了Bard的准确性,但这可能不是使聊天机器人高效的最佳方法。

虽然在处理数学和文字问题时显示出了显着的准确性,但在处理与代码相关的问题时仍然存在困难。

即使有了这些改进,Bard也不总能做到完美 – 例如,Bard可能无法生成帮助提示响应的代码,它生成的代码可能是错误的,或者Bard可能没有在其响应中包含执行的代码

谷歌在博客的最后这样说。

因此,虽然这是一个重大的改变,但Bard仍然需要走更长的路才能完全可靠。

减少误导和提高效率是几乎所有聊天机器人面临的挑战。

虽然已经取得了进展,但还有很长的路要走。

今天就到这里,希望你觉得这篇文章有帮助

下一篇见👋

你是否对科技、科学和人工智能的最新事件保持兴趣?

那么你不能错过我在substack上的免费每周通讯,我在那里分享与科技和人工智能相关的见解、新闻和分析。

Creative Block | Aditya Anil | Substack

The weekly newsletter about AI, Technology and Science that matters to you. Click to read Creative Block, by Aditya…

creativeblock.substack.com