巴德在逻辑和推理方面越来越好了
今天我们推出了两个 Bard 改进。首先,Bard 在数学任务、编码问题和字符串操作方面变得更加出色。其次,它还具有新的导出到 Google Sheets 的操作:因此,当 Bard 在其响应中生成一个表格(例如,如果您要求它“为我的动物收容所创建志愿者注册表格”),您现在可以将其直接导出到 Sheets。
更好的高级推理和数学提示响应
一种称为“隐式代码执行”的新技术帮助 Bard 检测计算提示并在后台运行代码。因此,它可以更准确地回答数学任务、编码问题和字符串操作提示。因此,Bard 将变得更擅长回答以下提示:
- 15683615 的质因数是什么?
- 计算我的储蓄增长率
- 将单词“Lollipop”反转给我
让我们深入了解这种新能力以及它如何帮助 Bard 提高响应能力。
改进的逻辑和推理技能
大型语言模型(LLMs)就像预测引擎一样-当给出提示时,它们通过预测下一个可能出现的单词来生成响应。因此,它们在语言和创意任务上非常有能力,但在推理和数学等领域上较弱。为了通过高级推理和逻辑能力解决更复杂的问题,仅依靠 LLM 的输出是不够的。
我们的新方法允许 Bard 生成和执行代码以增强其推理和数学能力。这种方法从人类智力中一种被广泛研究的二分法中获得灵感,尤其是在丹尼尔·卡尼曼的书《思考,快与慢》中涵盖的“系统1”和“系统2”思维的分离。
- 系统1思考是快速、直观和轻松的。当爵士音乐家即兴演奏或打字员想到一个单词并看到它出现在屏幕上时,他们正在使用系统1思考。
- 相比之下,系统2思考是缓慢、深思熟虑和费力的。当您进行长除法或学习演奏乐器时,您正在使用系统2思考。
在这个类比中,LLMs 可以被认为是纯粹运行在系统1下的-快速生成文本但没有深思熟虑。这导致了一些令人难以置信的能力,但在某些意想不到的方式下可能会失灵。(想象一下仅使用系统1解决数学问题:您不能停下来做算术,您只能吐出脑海中的第一个答案。)传统计算与系统2思考紧密相连:它是公式化和不灵活的,但正确的步骤序列可以产生令人印象深刻的结果,例如长除法的解决方案。
通过隐式代码执行,我们结合了LLMs(系统1)和传统代码(系统2)的能力,以帮助改善Bard响应的准确性。到目前为止,我们已经看到这种方法通过我们的内部挑战数据集,将 Bard 的响应准确性提高了约30%,改进了对基于计算的单词和数学问题的响应。
即使有了这些改进,Bard 也不总是正确的-例如,Bard 可能不会生成代码来帮助提示响应,它生成的代码可能是错误的,或者Bard可能不会在其响应中包含执行的代码。尽管如此,这种改进的带有结构化、逻辑驱动能力的响应能力是使 Bard 更加有帮助的重要一步。请继续关注更多信息。