AI是否变得太人类化了?谷歌AI的研究人员发现,LLMs现在可以仅通过工具文档使用ML模型和APIs!

谷歌AI研究人员发现,LLMs现在可以仅通过工具文档使用ML模型和APIs!

在这个人工智能似乎正在接管地球的时代,大型语言模型比以往更接近人类大脑。谷歌的研究人员证明了大型语言模型可以以零样本的方式使用未被发现的工具,只需向语言模型呈现每个工具的文档。

我们可以将整个解决方案看作是教四岁的Audrey骑自行车。最初,我们向她展示了如何骑自行车并帮助她学习(我们进行演示)。我们向她展示了如何骑上车并在有训练轮和无训练轮的情况下骑行。也就是说,我们向她展示了所有不同的场景。这个解决方案最终涉及到她从书(文档)中阅读关于骑车的内容,了解自行车的各种功能,并且可以在没有我们帮助的情况下骑车,而且她做得相当出色。她可以漂移,可以骑带或不带训练轮的自行车。看起来我们的Audrey已经长大了吗?

演示(demos)通过少量示例向语言模型教授如何使用工具。我们可能需要大量示例来涵盖所有现有的工具计划。而文档(docs)则通过描述工具的功能来教授语言模型如何使用工具。

通过包含/排除文档和演示在提示中的组合,以及不同数量的演示,对模型的结果和性能进行了分析。在多个模态的六个任务上进行了实验,使用的LLM规划器是ChatGPT(gpt-3.5-turbo),六个任务分别是:ScienceQA上的多模态问题回答,TabMWTabMWP上的表格数学推理(一个数学推理数据集),NLVRv2上的多模态推理,对一个新收集的数据集进行未见API使用,使用自然语言进行图像编辑和视频跟踪。

他们评估了模型的性能,有无工具文档,并对每个数据集进行了不同数量的演示。研究结果显示,工具文档减少了对演示的需求。有了工具文档,即使演示的数量减少,模型的性能似乎仍然保持稳定。但是没有工具文档,模型的性能对使用的演示数量非常敏感。

通过定性比较,他们发现相比于演示,依赖文档提供了一种更可扩展的解决方案,可以为大型语言模型提供大量可用的工具。此外,仅通过工具文档,LLM能够理解和利用最新的视觉模型,在图像编辑和视频跟踪任务上取得令人印象深刻的结果,而无需任何新的演示。研究人员发现,尽管结果非常令人印象深刻并且暗示了又一次突破,但在文档长度超过600个单词后,性能会有所下降。

因此,这篇论文不仅讨论了LLMs如何通过文档学习工具的问题,还展示了能够在没有额外演示的情况下复制‘Grounded SAM’和‘Track Anything’等热门项目的结果,表明通过工具文档可能实现自动知识发现的潜力。这在工具使用的观点上为LLMs开辟了新的方向,并努力揭示模型的推理能力。