大型语言模型存在偏见逻辑能帮助拯救它们吗?
MIT的研究人员训练了具备逻辑意识的语言模型,以减少有害的刻板印象,如性别和种族偏见
事实证明,即使是语言模型“认为”它们也存在偏见。当在ChatGPT中提示时,回答如下:“是的,语言模型可能存在偏见,因为训练数据反映了收集该数据的社会中存在的偏见。例如,性别和种族偏见在许多现实世界的数据集中普遍存在,如果语言模型在此基础上进行训练,它可能会在其预测中持续并放大这些偏见。”这是一个众所周知但危险的问题。
人类(通常)可以在学习时涉足逻辑和刻板思维。然而,语言模型主要模仿后者,这是我们已经见过的不幸叙述,当无法运用推理和批判性思维时,这种叙述会一再出现。那么,将逻辑注入混乱中是否足以缓解这种行为呢?
麻省理工学院计算机科学和人工智能实验室(CSAIL)的科学家们认为可能会,因此他们着手研究了逻辑感知的语言模型是否可以显着避免更有害的刻板印象。他们训练了一个语言模型,根据上下文和语义含义预测两个句子之间的关系,使用一个具有标签的数据集,该数据集详细说明文本片段是否对第一个句子“蕴含”,“矛盾”或是中性。使用这个数据集——自然语言推理——他们发现,新训练的模型在没有任何额外数据、数据编辑或额外训练算法的情况下比其他基准模型更不偏见。
例如,对于前提“这个人是医生”和假设“这个人是男性”,使用这些逻辑训练模型,关系将被归类为“中性”,因为没有逻辑表明这个人是男人。使用更常见的语言模型,两个句子可能会因为训练数据中的一些偏见而似乎相关,比如“医生”可能会与“男性”联系起来,即使没有证据表明这个陈述是正确的。
此时,语言模型的无所不在是众所周知的:自然语言处理、语音识别、对话式人工智能和生成任务的应用层出不穷。虽然不是一个新兴的研究领域,但随着复杂性和能力的增加,成长的烦恼可能会占据主导地位。
“目前的语言模型存在公平性、计算资源和隐私方面的问题,”麻省理工学院CSAIL博士后罗鸿印说,“许多估计称,训练语言模型的CO2排放量可能高于汽车的终身排放。由于参数量和计算资源的需求,运行这些大型语言模型也非常昂贵。在隐私方面,由ChatGPT或GPT-3等地方开发的最先进的语言模型有其API,你必须上传你的语言,但没有地方存放有关像医疗保健或金融等敏感信息的内容。为了解决这些挑战,我们提出了一个逻辑语言模型,我们定性地衡量为公平,比最先进的模型小500倍,可以在本地部署,并且对于下游任务没有人工注释的训练样本。与最大的语言模型相比,我们的模型使用了1/400的参数,对某些任务有更好的性能,并显著节省了计算资源。”
这个模型有3.5亿个参数,表现出色,超过了拥有1000亿个参数的大规模语言模型在逻辑语言理解任务上的表现。例如,团队评估了预先训练的BERT语言模型与它们的“文本蕴含”模型在刻板印象、职业和情感偏见测试上的表现。后者的表现优于其他模型,偏见明显较低,同时保持了语言建模能力。使用理想的上下文关联(iCAT)测试评估了“公平性”,其中更高的iCAT分数意味着更少的刻板印象。该模型的iCAT得分高于90%,而其他强大的语言理解模型的分数在40到80之间。
罗鸿印与麻省理工学院高级研究科学家詹姆斯·格拉斯一起撰写了这篇论文。他们将在克罗地亚的欧洲计算语言学协会会议上介绍这项工作。
毫不奇怪,团队检查的原始预训练语言模型充斥着偏见,这得到了一系列推理测试的确认,这些测试展示了专业术语和情感术语在性别词汇中明显偏向女性或男性。
关于职业,语言模型(存在偏见)认为“空中小姐”、“秘书”和“医生助理”是女性工作,而“渔夫”、“律师”和“法官”是男性工作。关于情感,语言模型认为“焦虑”、“沮丧”和“毁灭性的”是女性情感。
虽然我们可能离中立语言模型乌托邦还有很远的路要走,但这项研究正在追求这一目标。目前,该模型仅用于语言理解,因此它是基于现有句子之间的推理。不幸的是,它目前无法生成句子,因此研究人员的下一步将是针对基于逻辑学习构建的极其流行的生成模型,以确保计算效率更加公平。
“虽然刻板印象推理是人类识别的自然部分,但有意识的公平人在必要时会进行逻辑推理而不是刻板印象推理,”罗说。“我们表明,语言模型具有类似的属性。一个没有显式逻辑学习的语言模型会进行大量有偏见的推理,但添加逻辑学习可以显著减轻这种行为。此外,通过证明了鲁棒的零-shot自适应能力,该模型可以直接部署到不同任务,具有更公平、更隐私和更快的速度。”