GopherCite:教授语言模型使用验证过的引用来支持答案
GopherCite Prof uses validated citations to support answers.
去年,DeepMind 发表了一系列关于大型语言模型(LLM)的论文,其中包括对我们的大型语言模型 Gopher 进行的分析。语言建模技术目前在其他几个实验室和公司也在研发中,它承诺可以加强许多应用领域,从搜索引擎到新一波类似聊天机器人的对话助手等等。这系列论文中的一篇阐述了许多原因,解释了为什么像 Gopher 这样的“原始”语言模型不符合我们在用户界面应用中安全部署这项技术的标准,尤其是如果没有设定管理问题和潜在有害行为的防护措施。
我们最新的工作关注其中一个问题:像 Gopher 这样的语言模型可能会“产生幻觉”,即提供看似合理但实际上是虚假的事实。熟悉这个问题的人知道要自己核实事实,而不是相信语言模型所说的话。而那些不熟悉的人可能会相信一些不真实的内容。本文描述了 GopherCite,这是一个旨在解决语言模型幻觉问题的模型。GopherCite 试图通过来自网络的证据来支持其所有的事实性主张。它使用谷歌搜索在互联网上找到相关网页,并引用其中的一段文字,试图证明其回答是正确的。如果系统无法形成一个能够被证据很好支持的答案,它会告诉用户“我不知道”,而不是提供一个没有依据的答案。
用易于验证的证据支持简单事实性主张是使语言模型更加可信赖的一步,无论是对于与其交互的用户,还是对于评估样本质量的注释者而言。通过比较“原始”Gopher和我们的新模型的行为,可以很好地说明这种改变。
根据 GopherCite 的回答,您会注意到 Gopher 虚构了一个事实(“Lake Placid 在1936年举办了冬季奥运会”)而没有提醒。当 GopherCite 展示了来自相关维基百科页面的验证片段时,我们可以确认 Lake Placid 只在1932年和1980年举办了两次奥运会。
为了改变 Gopher 的行为,我们根据人类偏好对 Gopher 进行了训练。我们在用户研究中要求参与者从一对候选答案中选择他们偏好的答案,根据的标准包括证据对答案的支持程度。这些标签被用作高评分样本的监督学习和从人类偏好中进行强化学习(RLHP)的训练数据。我们在最近的红队工作中也采用了这种方法。
对于语言模型中事实准确性的问题,我们并不是唯一感兴趣的人。我们在谷歌的同事最近在他们最新的 LaMDA 系统中取得了关于事实基础的进展,该系统使对话模型与谷歌搜索进行互动,并有时共享相关的 URL。事实上,GopherCite 的训练方法与 LaMDA 相似,但一个关键的区别在于我们的目标是提供一个具体的相关证据片段,而不仅仅是指向一个 URL。根据我们自己的动机,OpenAI 最近宣布了开发一个名为 WebGPT 的密切相关系统的工作,该系统也应用了 RLHP 来对齐他们的 GPT-3 语言模型。GopherCite 专注于读取长文档输入,而 WebGPT 通过多次与 web 浏览器的交互精心策划呈现给语言模型的上下文。它还引用证据来支持其回答。我们的论文中讨论了这些系统与我们自己的相似之处和不同之处,并且我们还证明了 GopherCite 往往为其主张提供了令人信服的证据。
我们进行了一项有付费参与者的用户研究,以评估模型在两类问题上的表现:通过谷歌搜索输入的寻求事实的问题(由谷歌发布的一个名为“自然问题”的数据集),以及 Reddit 用户在名为“/r/eli5”的论坛上提出的寻求解释的问题(“用五岁的方式解释”)。我们研究中的参与者认为 GopherCite 在寻求事实的问题上正确回答的时间约为80%,并且对于寻求解释的问题,大约有67%的时间提供了令人满意的证据支持。当我们允许 GopherCite 不回答一些问题时,它在选择回答的问题中的表现有了显著提高(详见论文)。这种明确的避免回答机制是我们工作的核心贡献。
但是,当我们在一组“对抗性”问题上评估模型时,这些问题试图诱使模型模仿互联网上陈述的虚构或误解,GopherCite 往往会陷入陷阱。例如,当问到“红牛给你什么?”时,它的回答如下:
我们认为通过丰富设置,从“单次”回答用户问题的方式转为模型可以向用户提问澄清问题并进行对话的方式,可以避免这种失败模式和我们论文中讨论的其他失败模式。例如,我们可以让未来的模型询问用户是否需要一个真实的回答,还是一个在红牛广告的虚构世界中为真实的回答。
总之,我们认为GopherCite是一个重要的进展,但构建它使我们认识到证据引用只是安全性和可信度整体策略的一部分。更重要的是,并非所有主张都需要引用证据,正如我们上面所证明的,不是所有由证据支持的主张都是真实的。一些主张需要多个证据以及解释为什么该主张成立的逻辑论证。我们将继续在这个领域进行研究和开发,以及进行专门的社会技术研究,以克服所提出的问题。
我们的论文详细介绍了我们的方法、实验和研究文献中的相关背景。我们还创建了一个关于GopherCite的常见问题解答,由模型本身在阅读论文介绍后回答(使用作者策划的候选样本):