公平分类与对抗去偏差
打破偏见:公正分类与抗拒偏见的策略
在本文中,我们将开发和分析一个关于收入预测的二元分类问题,涉及分类和公平指标,并提出了基于对抗去偏的公平分类器,以及超参数优化(HPO)。
Git:https://github.com/LorenzoPastore/Adversarial-Fair-Classification
算法决策过程在信用评级、司法或房屋分配等敏感领域的广泛应用引发了许多关于透明性、问责性和公平性的问题。
机器学习文献中现有的公平概念在很大程度上受到社会科学和法律中的歧视理念的启发。这些概念要求在对待、影响或两者方面实现平等[1]。如果决策过程的决策 (部分) 基于主体的敏感属性信息,就会导致不公平待遇。如果其结果对具有特定敏感属性值的人造成不成比例的伤害或利益,就会产生不对称的影响[2]。
同时处理这两种不公平是非常复杂的:从学习阶段排除敏感属性可能避免不公平待遇。然而,如果这些属性与其他特征强相关,结果仍然取决于敏感属性,这可能导致不对称的影响。此外,由于自动化决策系统是基于历史数据进行训练的,如果某个具有特定敏感属性的群体在过去受到不公平待遇,这种不公平可能通过间接歧视在未来的预测中持续存在[3]。另一方面,使用敏感属性以避免不对称的影响将构成不公平待遇,可能导致逆向歧视[4]。
这些公平的定义可以涉及群体的人(群体公平),也可以涉及单个的人(个体公平)。群体公平不考虑个人的优点,可能导致选择群体中资历较差的成员,而个体公平则假定在手头的分类任务中有一种难以找到的个体相似性度量[5]。