超越精确度和召回率：深入探讨Tversky指数

超越精确度和召回率：Tversky指数探讨

在数据科学领域，指标是引导我们模型成功的指南。虽然很多人熟悉精确率和召回率这些经典指标，但实际上还有很多其他值得探索的选择。

在本文中，我们将深入探讨Tversky指数。这个指标是Dice系数和Jaccard系数的一般化，当试图平衡精确率和召回率时，它可以非常有用。当作为神经网络的损失函数实现时，它可以有效处理类别不平衡问题。

想象一下，你是一个负责抓捕镇上罪犯的侦探。实际上，镇上有10名罪犯在街上游荡。

在你的第一个月，你抓到了8名你认为是罪犯的嫌疑人。其中只有4人是有罪的，而其他4人是无辜的。

如果你是一个机器学习模型，你将根据你的精确率和召回率进行评估。

精确率的问题是：“在你抓到的人中，有多少是罪犯？”

召回率的问题是：“在镇上的所有罪犯中，你抓到了多少人？”

精确率是一个捕捉你预测的准确性的指标，不计算你错过的真正阳性（假阴性）的数量。 召回率衡量你捕捉到的真正阳性的数量，而不考虑你得到的假阳性的数量。

你的侦探技能在这些指标下得分如何？

在理想情况下，你的分类器既具有高精确率又具有高召回率。作为评估分类器在这两个方面表现如何的指标，F1统计量衡量了二者之间的调和平均数：

这个指标有时也被称为Dice相似系数（DSC）。