“LLMs反映的是谁的观点?这篇来自斯坦福大学的人工智能论文通过公众舆论调查的视角,研究了语言模型LMs所反映的观点”

The paper from Stanford University researches the perspectives reflected by language models (LMs) through a public opinion survey perspective.

在过去的几年里,人们观察到语言模型(或称为LM)在各行各业中加速自然语言处理应用的步伐非常关键,例如医疗保健、软件开发、金融等等。在写软件代码、帮助作者改善写作风格和故事情节等方面,使用LM在变压器模型中的应用是最成功和最受欢迎的。然而,研究表明,当LM在开放性背景下应用于与其主观性问题相对应的聊天机器人和对话助手时,它们的应用越来越多。例如,一些此类主观查询的例子包括询问对话代理AI是否会在未来几年内接管世界,或者合法化安乐死是否是一个好主意。在这种情况下,LM对主观问题的回答所表达的观点不仅可以显著影响确定LM是否屈从于特定偏见和偏见,还可以塑造社会的整体观点。

目前,准确预测LM对此类主观查询的响应以评估其在开放性任务中的性能是非常具有挑战性的。这背后的主要原因是负责设计和微调这些模型的人来自不同的生活领域并持有不同的观点。此外,当涉及到主观查询时,没有可以用来判断模型的“正确”响应。因此,模型所展示的任何观点都可能会显著影响用户的满意度和他们形成观点的方式。因此,为了正确评估LM在开放性任务中的性能,至关重要的是准确确定LM反映的是谁的观点,以及它们如何与广大人口的观点保持一致。为此,斯坦福大学和哥伦比亚大学的一组博士后研究人员开发了一个广泛的定量框架,用于研究由LM生成的观点谱以及它们与不同人口群体的一致性。为了分析人类观点,该团队利用专家选择的公共舆论调查及其从属于不同人口群体的个体收集的回答。此外,该团队还开发了一个名为OpinionQA的新数据集,以评估一个LM的观点在一系列问题上与其他人口群体的观点有多接近,包括堕胎和枪支暴力等问题。

对于他们的用例,研究人员依赖于经过精心设计的公共舆论调查,这些调查的主题由专家选择。此外,问题采用多项选择格式设计,以克服开放性回答所带来的挑战,并便于适应LM提示。这些调查收集了美国不同民主团体的个人意见,并帮助斯坦福和哥伦比亚的研究人员创建了用于量化LM观点一致性的评估指标。研究人员提出的框架的基本基础是将多项选择的公共舆论调查转化为用于评估LM观点的数据集。每个调查包含多个问题,每个问题可能有多个可能的回答,涵盖了各种主题范围。作为研究的一部分,研究人员首先要创建一个人类观点分布,以便将LM的响应与之进行比较。然后,团队将该方法应用于Pew Research的美国趋势小组调查,以构建OpinionQA数据集。该调查包括1498个多项选择问题及其从美国不同人口群体中收集的回答,涵盖了科学、政治、个人关系、医疗保健等各种主题。

该团队使用了AI21 Labs和OpenAI的9个LM,其参数范围从350M到178B,并使用所得到的OpinionQA数据集对它们进行评估,将模型的观点与整个美国人口和60个不同的人口群体(包括民主党人、65岁以上的人、丧偶者等)进行对比。研究人员主要关注研究结果的三个方面:代表性、可操控性和一致性。所谓“代表性”是指默认的LM观点与整个美国人口或特定群体的观点有多么接近。研究发现,当涉及到诸如气候变化等各种主题时,现代LM的观点与美国不同人口群体的观点存在明显分歧。此外,使用基于人类反馈的微调方法使模型更加与人类观点一致后,这种不一致似乎变得更加明显。同样,发现当前的LM没有充分代表一些群体的观点,例如65岁以上的人和丧偶者。在可操控性方面(即LM是否在适当的提示下遵循一个群体的观点分布),发现大多数LM在被鼓励以某种方式行动时,往往会更加符合该群体的观点。研究人员非常重视确定各种民主团体的观点在各种问题上是否与LM保持一致。在这方面,发现虽然一些LM与特定群体的观点相一致,但这种分布在所有主题上并不一致。

简而言之,斯坦福大学和哥伦比亚大学的一组研究人员提出了一个引人注目的框架,可以通过民意调查来分析语言模型反映的观点。他们的框架产生了一个新颖的数据集,名为OpinionQA,帮助识别语言模型在许多方面与人类观点不一致的方式,包括整体代表性与美国大多数人口的关系,不同群体(包括65岁以上和丧偶者)的代表性以及可操控性。研究人员还指出,尽管OpinionQA数据集以美国为中心,但他们的框架使用了一种通用方法,并且可以扩展到其他地区的数据集。团队坚信他们的工作将推动对开放性任务中语言模型的评估研究,并帮助打造没有偏见和刻板印象的语言模型。有关OpinionQA数据集的更多详细信息可以在此处获取。