与人工智能对话:构建更好的语言模型

与人工智能对话:构建更好的语言模型

新研究结合语用学和哲学,提出了将对话代理与人类价值观对齐的方法

语言是人类的基本特征,也是我们传达信息(包括思想、意图和感受)的主要手段。最近在人工智能研究领域取得的突破使得对话代理能够以细致入微的方式与人类进行交流。这些代理由大型语言模型驱动,这些计算系统是通过在大量基于文本的材料上进行训练,利用先进的统计技术来预测和生成文本的。

然而,尽管像InstructGPT、Gopher和LaMDA这样的语言模型在翻译、问答和阅读理解等任务上取得了创纪录的性能,但这些模型也显示出了一些潜在的风险和故障模式。这些包括产生有毒或有歧视性的语言以及虚假或误导性的信息[1, 2, 3]。

这些缺点限制了在实际应用中有效使用对话代理,并引起了人们对它们在某些沟通理想方面的不足的关注。迄今为止,大多数关于对齐对话代理的方法都集中在预测和减少危害的风险上[4]。

我们的新论文《与人工智能对话:将语言模型与人类价值观对齐》采用了一种不同的方法,探索了人类与人工对话代理之间成功沟通的样貌,以及在不同对话领域中应该指导这些互动的价值观。

语用学的洞见

为了解决这些问题,本文借鉴了语用学,这是语言学和哲学中的一种传统观点,认为对话的目的、背景和一组相关的规范都是良好对话实践的重要组成部分。

作为两个或更多参与者之间合作努力的对话建模,语言学家和哲学家保罗·格赖斯认为参与者应该:

  • 提供有信息量的发言
  • 说实话
  • 提供相关信息
  • 避免模糊或含糊的陈述

然而,我们的论文证明,在评估对话代理之前,这些准则需要进一步完善,因为不同对话领域中嵌入的目标和价值观存在变化。

言语理想

以科学调查和交流为例,主要是为了理解或预测经验现象。鉴于这些目标,一个旨在协助科学调查的对话代理理想上只会发表经过足够经验证实的陈述,或者根据相关的置信区间对其立场进行限定。

例如,一个代理报告说,“在距离地球4.246光年的位置,半人马座比邻星是离地球最近的恒星”,只有在其背后的模型经过核实该陈述与事实相符后,才应该如此。

然而,在公共政治辩论中扮演调解员角色的对话代理可能需要展示完全不同的美德。在这种情境下,目标主要是管理差异并促进社区生活中的有效合作。因此,代理需要强调宽容、礼貌和尊重的民主价值观[5]。

此外,这些价值观也解释了为什么语言模型生成有毒或有偏见的言论通常是如此令人不安:冒犯性的语言未能平等尊重对话参与者,而这是这些模型部署的背景中的一个关键价值观。同时,科学美德,如全面呈现经验数据,可能在公共讨论的情境中不那么重要。

最后,在创造性故事叙述领域,交流的目的是追求新颖和独创性,这些价值观与上述价值观显著不同。在这种情境下,适度的虚构可能是合适的,尽管仍然需要保护社区免受以“创造性用途”为幌子产生的恶意内容的影响。

未来的路径

这项研究对于开发对齐的对话人工智能代理具有一些实际的影响。首先,它们需要根据部署的上下文具备不同的特征:没有适用于所有情况的语言模型对齐方案。相反,对话交流的适当方式和评估标准,包括真实性的标准,将根据对话交流的背景和目的的不同而变化。

此外,通过我们称之为上下文构建和阐释的过程,对话代理还可以随着时间的推移培养更加健全和尊重的对话。即使一个人不知道统治某个对话实践的价值观,代理仍然可以通过在对话中预示这些价值观来帮助人类理解这些价值观,使沟通对人类说话者更加深入和富有成果。