提升机器学习的可靠性:如何通过异类性改善模型性能和不确定性量化
如何提高机器学习的可靠性:通过异类性改善模型性能和量化不确定性
如果一个对象类似于其所属类别中的其他物品,则被认为是典型的。例如,企鹅是一种不寻常的鸟,而鸽子和麻雀是普通的鸟。几项认知科学研究表明,对于类别知识,典型性至关重要。例如,人类已被证明更快地学习、回忆和与常见物体相关联。同样,典型性启发法指的是人们基于事件的常见程度进行判断的倾向。尽管这种认知偏差有助于快速决策,但可能导致不准确的不确定性评估。例如,人们可能会高估普通事件的发生可能性,或低估对于不寻常事件的判断中的不确定性程度。
尽管测量人类判断的不确定性程度具有挑战性,但机器学习方法在其预测中提供了保证。然而,仅仅信心可能并不总能足够确定预测的可靠性。例如,低信心的预测可能来自明确陈述的不确定性或训练分布中样本的不充分代表性。同样,高信心的预测可能是准确的,也可能是不准确的。他们的主要建议是,在了解训练分布的非典型性和预测的可预测性方面,模型应该同时衡量非典型性和置信度。然而,许多机器学习应用使用的预训练模型不提供任何非典型性的衡量,而只提供置信度水平。
斯坦福大学和罗格斯大学的研究团队研究了样本或类别的非典型性(稀缺性)与模型预测准确性之间的关联。以下是他们的贡献:
- 欢迎来到Mixtral – Hugging Face上的一群卓越专家们的最新创作
- 专家混合是指将多个专家的意见或知识混合在一起来解决问题或提供建议的方法在美容和时尚领域,专家混合特别有用因为每个专家都有自己独特的见解和技巧,将他们的知识结合起来可以得出全面而丰富的建议或解决方案专家混合也可以用来解决看似矛盾的问题,因为不同的专家可能有不同的观点这种方法不仅能够提供更全面的解决方案,还可以鼓励创新和多样性在美容和时尚领域,专家混合也可以用来解决复杂的问题,如肤色不均匀、发型不适合等通过将多个专家的意见和建议综合起来,可以找到适合每个人的个性化解决方案所以在追求美丽和时尚的道路上,
- “NVIDIA如何通过对变革者和市场领先者的投资推动人工智能革命”
1. 辨认预测质量:通过这项研究,研究团队证明,通过基本的非典型性,估计器可以评估模型的预测概率与实际发生几率的匹配程度。即使是逻辑回归和神经网络也可能具有错误的校准。在这里,非典型性可以提供关于模型置信度是否可信的信息。通过严格的测试和理论研究,研究团队表明,非典型性会导致质量较低的预测。特别是,研究团队证明,对于非典型的输入和来自非典型类别的样本,会做出更高程度的过度自信和质量较差的预测。
2. 提升准确性和校准性:通过修改概率模型,校准技术可以减轻校准不准确的问题。研究团队证明,模型需要针对非典型输入和类别进行各种修正,而非典型性在重新校准中发挥了重要作用。基于这些发现,研究团队提出了一种称为非典型性感知校准的简单技术。他们的重新校准技术易于实现,可以考虑输入和类别的非典型性。研究团队证明,将非典型性添加到重新校准技术中可以提高预测准确性和不确定性量化。此外,研究团队还在一个将皮肤病变分类的案例研究中展示了非典型性意识如何在几个肤色亚组中提高性能,而无需获取组注释。
3. 提升预测集:具有标签高概率包含的预测集是评估不确定性的另一种方法。在这里,研究团队考察了当前方法的非典型性,并阐述了低置信度或非典型样本可能导致预测集性能下降的可能性。研究团队说明了通过使用非典型性可以提升预测集的可能性。
总的来说,研究团队建议模型应考虑非典型性,并且研究团队证明,简单易用的非典型性估计器可能非常有价值。