MIT研究人员在概率近似正确(PAC)隐私保护方面取得突破,为机器学习模型的隐私保护提供了解决方案
MIT研究人员在PAC隐私保护方面取得突破,为机器学习模型提供了解决方案
麻省理工学院的研究人员在解决保护机器学习模型中编码的敏感数据的挑战方面取得了显著进展。科学家团队开发了一种机器学习模型,可以准确预测患者是否患有肺部扫描图像中的癌症。然而,将该模型与全球医院共享存在潜在的数据提取风险。为了解决这个问题,研究人员引入了一种名为“可能近似正确(PAC)隐私”的新型隐私度量标准,并提出了一个框架,确定保护敏感数据所需的最小噪声量。
传统的隐私方法,如差分隐私,侧重于通过添加大量噪声来防止对手区分特定数据的使用情况,从而降低模型的准确性。PAC隐私从不同的角度评估对手在添加噪声后重建敏感数据的困难程度。例如,如果敏感数据是人脸,差分隐私将防止对手确定数据集中是否有特定个体的脸。相比之下,PAC隐私探索的是对手是否能够提取出一个可以被识别为特定个体脸的近似轮廓。
为了实现PAC隐私,研究人员开发了一种算法,确定向模型中添加的最佳噪声量,以确保即使对手拥有无限计算能力,也能保证隐私。该算法依赖于对手从原始数据的不确定性或熵的视角。通过对数据进行子采样并多次运行机器学习训练算法,算法比较不同输出之间的方差,以确定所需的噪声量。较小的方差表示需要较少的噪声。
PAC隐私算法的一个关键优点是,它不需要对模型的内部工作过程或训练过程进行了解。用户可以指定他们对对手重构敏感数据能力的期望置信水平,算法会提供实现该目标所需的最佳噪声量。然而,需要注意的是,该算法不会估计由于向模型添加噪声而产生的准确性损失。此外,由于需要对多个子采样数据集上的机器学习模型进行重复训练,实施PAC隐私可能计算上昂贵。
为了增强PAC隐私,研究人员建议修改机器学习训练过程以增加稳定性,从而减少子采样输出之间的方差。这种方法将减轻算法的计算负担并最小化所需的噪声量。此外,更稳定的模型通常表现出更低的泛化误差,从而在新数据上进行更准确的预测。
尽管研究人员承认稳定性、隐私和泛化误差之间的关系需要进一步探索,但他们的工作在保护机器学习模型中的敏感数据方面迈出了一大步。借助PAC隐私,工程师可以开发能在真实应用中保护训练数据同时保持准确性的模型。这种技术有可能大幅减少所需的噪声量,为医疗领域和其他领域的安全数据共享开辟了新的可能性。