新工具帮助人们选择正确的方法来评估AI模型

选择合适的方法可以让用户更准确地了解他们的模型行为,因此他们能够更好地理解其预测

Image: iStock

当机器学习模型在现实世界中被部署,例如用于标记潜在的X射线疾病供放射科医师审查时,人类用户需要知道何时信任模型的预测。

 

但是,机器学习模型如此庞大而复杂,以至于即使设计它们的科学家也不完全了解模型如何进行预测。因此,他们创建了称为显著性方法的技术,旨在解释模型的行为。

 

随着新方法不断发布,麻省理工学院和IBM Research的研究人员创建了一种工具,以帮助用户选择最适合其特定任务的显著性方法。他们开发了显著性卡片,提供了关于方法操作方式的标准化文档,包括其优点和缺点以及解释,以帮助用户正确解释它。

 

他们希望,凭借这些信息,用户可以有意识地选择适当的显著性方法,无论是他们正在使用哪种类型的机器学习模型以及该模型正在执行的任务,解释共同作者Angie Boggust解释说,她是麻省理工学院电气工程和计算机科学研究生,是麻省理工学院计算机科学和人工智能实验室(CSAIL)的可视化小组的成员。

 

与AI研究人员和其他领域的专家的访谈表明,这些卡片有助于人们快速比较不同方法并选择适合任务的技术。选择正确的方法可以使用户更准确地了解其模型的行为,因此他们可以更好地解释其预测。

 

“显著性卡片旨在快速提供显著性方法的摘要,并将其分解为最关键的、以人为中心的属性。他们真的是为每个人设计的,从机器学习研究人员到试图了解使用哪种方法并选择第一次的普通用户,” Boggust说。

 

除了共同作者Boggust外,论文的共同作者还有麻省理工学院博士后Harini Suresh、IBM Research的高级研究科学家Hendrik Strobelt、麻省理工学院计算机科学和电气工程学院Dugald C. Jackson教授John Guttag以及麻省理工学院计算机科学副教授、CSAIL的可视化小组负责人Arvind Satyanarayan。这项研究将在ACM公正、问责和透明度会议上展示。

 

选择正确的方法

 

研究人员先前已经使用忠实度的概念评估了显著性方法。在这种情况下,忠实度捕捉方法如何准确地反映模型的决策过程。

 

但是,Boggust解释说,忠实度并不是非黑即白的。一种方法可能在忠实度的一种测试下表现良好,但在另一种测试下失败。由于有如此多的显著性方法和许多可能的评估,用户通常选择一种方法,因为它很受欢迎或同事曾经使用过。

 

然而,选择“错误”的方法可能会产生严重后果。例如,一种称为综合梯度的显著性方法将图像中特征的重要性与无意义的基线进行比较。与基线相比,具有最大重要性的特征对模型的预测最有意义。该方法通常使用所有0作为基线,但是如果应用于图像,则所有0等同于黑色。

 

“它会告诉您,您图像中的任何黑色像素都不重要,即使它们很重要,因为它们与那个无意义的基线相同。如果您正在查看X射线图像,这可能是一个大问题,因为黑色对临床医生来说可能是有意义的,” Boggust说。

 

显著性卡片可以通过总结10个以用户为中心的属性来帮助用户避免这些问题。这些属性捕捉显著性的计算方式,显著性方法和模型之间的关系以及用户如何感知其输出。

 

例如,一个属性是超参数依赖性,它测量该显著性方法对用户指定的参数的敏感性。综合梯度的显著性卡片将描述其参数以及它们如何影响其性能。有了卡片,用户可以快速看到默认参数(所有0的基线)可能会在评估X射线时生成误导性结果。

 

这些卡片还可以帮助科学家揭示研究空间中的差距。例如,麻省理工学院的研究人员无法确定一种计算效率高、适用于任何机器学习模型的显著性方法。

 

“我们能填补这个空缺吗?有没有一种显著性方法可以同时做到这两件事?或者也许这两个想法在理论上是相互冲突的,”Boggust说。

 

展示他们的牌

 

一旦他们创建了几张卡片,团队就与八名领域专家进行了用户研究,从计算机科学家到不熟悉机器学习的放射科医师。在访谈中,所有参与者都表示简洁的描述帮助他们优先考虑属性并比较方法。并且尽管放射科医师不熟悉机器学习,他仍能理解这些卡片并使用它们参与选择显著性方法的过程,Boggust说。

 

访谈还揭示了一些惊喜。研究人员经常期望临床医生希望一种尖锐的方法,即它集中于医学图像中的一个特定对象。但是在这项研究中,临床医生实际上更喜欢在医学图像中加入一些噪声,以帮助他们减弱不确定性。

 

“当我们将其分解为这些不同的属性并询问人们时,即使他们扮演相同的角色,也没有一个人与研究中的其他人有相同的优先级,”她说。

 

未来,研究人员希望探索一些更少被评估的属性,并可能设计特定任务的显著性方法。他们还希望更好地了解人们如何感知显著性方法的输出,这可能会导致更好的可视化。此外,他们正在将他们的工作发布在公共存储库上,以便其他人可以提供反馈,推动未来的工作,Boggust说。

 

“我们真的希望这些将成为不断增长的文档,随着新的显著性方法和评估的发展。最终,这只是围绕显著性方法的属性以及这些属性如何在不同任务中发挥作用的更大对话的开端,”她说。

 

这项研究在一定程度上获得了MIT-IBM Watson人工智能实验室,美国空军研究实验室和美国空军人工智能加速器的支持。