研究:人工智能模型无法复制人类对规则违规的判断

研究人员报告称,使用常见的数据收集技术训练的模型比人类更严厉地判断违规行为

Image: MIT News with figures from iStock

为了提高公平性或减少积压,机器学习模型有时会被设计成模仿人类的决策,例如决定社交媒体帖子是否违反有毒内容政策。

但来自麻省理工学院和其他机构的研究人员发现,这些模型通常无法复制人类对违规行为的决策。如果模型没有使用正确的数据进行训练,它们很可能会做出不同的、通常更严厉的判断。

在这种情况下,“正确”的数据是由明确要求是否违反某个规则的人类标记的数据。训练涉及向机器学习模型展示数百万个这种“规范数据”的示例,以便它可以学习一个任务。

但用于训练机器学习模型的数据通常是描述性标记的,这意味着人类被要求识别事实上的特征,例如照片中是否有油炸食品。如果用于训练判断违规行为的模型的是“描述性数据”,例如判断一顿饭是否违反禁止油炸食品的学校政策,这些模型往往会预测违规行为。

这种准确度下降可能会在现实世界中产生严重的影响。例如,如果使用描述性模型来决定一个人是否有可能再次犯罪,研究人员的发现表明,它可能会比人类做出更严格的判断,这可能会导致更高的保释金额或更长的刑期。

麻省理工学院计算机科学与人工智能实验室(CSAIL)的健康ML组助理教授和负责人Marzyeh Ghassemi说:“我认为大多数人工智能/机器学习研究人员都认为数据和标签中的人类判断是有偏见的,但这个结果说明了更糟糕的情况。这些模型甚至无法复制已经有偏见的人类判断,因为它们所接受的培训数据有缺陷:如果人类知道这些特征将被用于判断,他们会以不同的方式标记图像和文本的特征。这对于人类流程中的机器学习系统有巨大的影响。”

Ghassemi是一篇新论文的高级作者,该论文详细介绍了这些发现,该论文于今天在《科学进展》上发表。该论文的作者还包括首席作者Aparna Balagopalan,电气工程和计算机科学研究生;多伦多大学的研究生David Madras;现任ML估计联合创始人的前研究生David H. Yang;麻省理工学院助理教授Dylan Hadfield-Menell;以及多伦多大学技术与社会Schwartz Reisman讲席教授、法律教授Gillian K. Hadfield。

标记差异

这项研究起源于一个不同的项目,该项目探讨了机器学习模型如何证明其预测的原因。当他们收集该研究的数据时,研究人员注意到,如果要求人们对同一数据提供描述性或规范标签,他们有时会给出不同的答案。

为了收集描述性标签,研究人员要求标注者识别事实上的特征 – 这段文本是否包含淫秽语言?为了收集规范标签,研究人员给标注者一个规则,并询问数据是否违反该规则 – 这段文本是否违反了平台的明确语言政策?

研究人员惊讶地发现,人类在描述性环境下更有可能将对象标记为违规行为。他们使用平均标签的绝对差异计算出的差异在各个数据集上范围从对着装规定违规的图像的数据集的8%到对狗图像的数据集的20%。

“虽然我们没有明确测试为什么会发生这种情况,但一个假设是,人们思考违规行为的方式可能与他们思考描述性数据的方式不同。一般来说,规范决策更加宽松,”Balagopalan说。

然而,数据通常是使用描述性标签收集的,以训练特定机器学习任务的模型。这些数据通常会被重新用于训练执行规则违反等规范判断的不同模型。

培训问题

为了研究重新用途描述性数据的潜在影响,研究人员使用四种数据设置之一训练了两个模型,用于对规则违反进行判断。他们使用描述性数据训练了一个模型,使用规范数据训练了另一个模型,然后比较了它们的性能。

他们发现,如果使用描述性数据来训练模型,它将表现不如使用规范数据来执行相同判断的模型。具体来说,描述性模型更有可能通过错误预测规则违反来对输入进行错误分类。当分类人员对对象存在分歧时,描述性模型的准确性甚至更低。

“这表明了数据确实很重要。如果您正在训练模型以检测是否违反规则,则重要的是将训练上下文与部署上下文相匹配,”Balagopalan说。

用户很难确定数据是如何收集的;这些信息可能被埋藏在研究论文的附录中,或者可能不被私人公司披露,Ghassemi说。

提高数据集透明度是缓解此问题的一种方法。如果研究人员知道数据是如何收集的,那么就知道这些数据应该如何使用。另一个可能的策略是在少量规范数据上微调描述性训练模型。这个被称为转移学习的想法是研究人员未来要探索的。

他们还想与专家标注人员进行类似的研究,如医生或律师,以查看是否会导致相同的标签差异。

“解决这个问题的方法是公开透明地承认,如果我们想要重现人类判断,我们必须仅使用在该设置中收集的数据。否则,我们将得到比人类更严格的系统。人类会看到细微差别或进行其他区分,而这些模型不会,”Ghassemi说。

这项研究部分资助来自Schwartz Reisman技术与社会研究所,微软研究,Vector研究所和加拿大研究理事会Chain。