提升机器学习的可靠性:如何通过异类性改善模型性能和不确定性量化

如何提高机器学习的可靠性:通过异类性改善模型性能和量化不确定性

如果一个对象类似于其所属类别中的其他物品,则被认为是典型的。例如,企鹅是一种不寻常的鸟,而鸽子和麻雀是普通的鸟。几项认知科学研究表明,对于类别知识,典型性至关重要。例如,人类已被证明更快地学习、回忆和与常见物体相关联。同样,典型性启发法指的是人们基于事件的常见程度进行判断的倾向。尽管这种认知偏差有助于快速决策,但可能导致不准确的不确定性评估。例如,人们可能会高估普通事件的发生可能性,或低估对于不寻常事件的判断中的不确定性程度。

尽管测量人类判断的不确定性程度具有挑战性,但机器学习方法在其预测中提供了保证。然而,仅仅信心可能并不总能足够确定预测的可靠性。例如,低信心的预测可能来自明确陈述的不确定性或训练分布中样本的不充分代表性。同样,高信心的预测可能是准确的,也可能是不准确的。他们的主要建议是,在了解训练分布的非典型性和预测的可预测性方面,模型应该同时衡量非典型性和置信度。然而,许多机器学习应用使用的预训练模型不提供任何非典型性的衡量,而只提供置信度水平。

斯坦福大学和罗格斯大学的研究团队研究了样本或类别的非典型性(稀缺性)与模型预测准确性之间的关联。以下是他们的贡献:

1. 辨认预测质量:通过这项研究,研究团队证明,通过基本的非典型性,估计器可以评估模型的预测概率与实际发生几率的匹配程度。即使是逻辑回归和神经网络也可能具有错误的校准。在这里,非典型性可以提供关于模型置信度是否可信的信息。通过严格的测试和理论研究,研究团队表明,非典型性会导致质量较低的预测。特别是,研究团队证明,对于非典型的输入和来自非典型类别的样本,会做出更高程度的过度自信和质量较差的预测。

2. 提升准确性和校准性:通过修改概率模型,校准技术可以减轻校准不准确的问题。研究团队证明,模型需要针对非典型输入和类别进行各种修正,而非典型性在重新校准中发挥了重要作用。基于这些发现,研究团队提出了一种称为非典型性感知校准的简单技术。他们的重新校准技术易于实现,可以考虑输入和类别的非典型性。研究团队证明,将非典型性添加到重新校准技术中可以提高预测准确性和不确定性量化。此外,研究团队还在一个将皮肤病变分类的案例研究中展示了非典型性意识如何在几个肤色亚组中提高性能,而无需获取组注释。

3. 提升预测集:具有标签高概率包含的预测集是评估不确定性的另一种方法。在这里,研究团队考察了当前方法的非典型性,并阐述了低置信度或非典型样本可能导致预测集性能下降的可能性。研究团队说明了通过使用非典型性可以提升预测集的可能性。

总的来说,研究团队建议模型应考虑非典型性,并且研究团队证明,简单易用的非典型性估计器可能非常有价值。