贝利·卡斯马尔,滑铁卢大学博士候选人 – 访谈系列

贝利·卡斯马尔,滑铁卢大学博士候选人

贝利·卡克斯马尔(Bailey Kacsmar)是滑铁卢大学(University of Waterloo)计算机科学学院的博士候选人,也是阿尔伯塔大学(University of Alberta)即将加入的教职成员。她的研究兴趣主要集中在开发用户意识的隐私增强技术上,通过同时研究私密计算的技术方法以及用户对这些技术的认知、关注和理解来实现。她的工作旨在识别机器学习应用中隐私的潜力和限制。

您的研究兴趣主要集中在开发用户意识的隐私增强技术上,为什么隐私在人工智能中如此重要?

隐私在人工智能中非常重要,主要因为我们的世界中的人工智能离不开数据。尽管数据是一个有用的抽象概念,但它最终描述的是人们及其行为。我们很少处理关于树木种群和水位的数据;因此,每当我们处理可能影响真实人们的事物时,我们需要意识到这一点,并了解我们的系统如何能够产生积极的影响或危害。对于人工智能来说,这一点尤为重要,因为许多系统从大量数据中受益,或希望使用高度敏感的数据(如健康数据)来尝试对我们的世界进行新的认识。

您看到过哪些机器学习如何背叛用户隐私的方式?

“背叛”是一个强烈的词。然而,每当一个系统在未经用户同意、未告知他们并且不考虑潜在危害的情况下使用关于人们的信息时,它就有可能背离个人或社会的隐私规范。实质上,这会导致无数微小伤害的背叛。这样的做法可能包括在用户的电子邮件收件箱、短信或健康数据上训练模型,而没有告知数据的主体。

您能定义一下什么是差分隐私,并且您对它有什么看法?

差分隐私是一种被广泛使用于实现技术隐私的定义或技术。从技术隐私的角度来看,隐私保证是在满足一系列假设的情况下实现的保护措施。这些假设可能涉及潜在对手、系统复杂性或统计学。差分隐私是一种非常有用的技术,具有广泛的应用范围。然而,需要记住的重要一点是,差分隐私并不等同于隐私。

隐私不仅限于一个定义或概念,了解其他概念也很重要。例如,上下文完整性是一种概念性的隐私概念,它考虑了不同应用程序或不同组织对个体在特定情况下的隐私感知的影响。还有法律上的隐私概念,如加拿大的PIPEDA、欧洲的GDPR和加利福尼亚的消费者保护法(CCPA)所涵盖的隐私概念。这些都表明,即使使用了差分隐私,我们也不能将技术系统视为与其他隐私因素无关的真空存在。

另一种增强隐私的机器学习方法是联邦学习,您如何定义联邦学习,以及您对它的看法?

联邦学习是一种在模型需要在分布在几个所有者或位置上的数据集上进行训练时进行机器学习的方式。它本质上不是一种增强隐私的机器学习方法。增强隐私的机器学习方法需要正式定义被保护的对象、受保护的对象以及必须满足的条件。例如,当我们考虑简单的差分隐私计算时,它保证查看输出结果的人无法确定某个特定的数据点是否被贡献。

此外,如果数据点之间存在相关性,差分隐私就无法提供这种保证。联邦学习没有这个特性;它只是在一组数据上训练模型,而无需要求那些数据的持有者直接向彼此或第三方提供数据。尽管这听起来像是一种保护隐私的功能,但需要一种正式的保证,即在不可信方观察到的中介和输出情况下,无法获取受保护信息。在联邦设置中,这种形式尤为重要,因为不可信方包括为训练集体模型提供数据的所有人。

这些方法目前存在哪些局限性?

当前的局限性可以最好地描述为隐私-效用权衡的本质。即使您在其他方面做了一切,向受影响的人传达了隐私影响,针对您所尝试的任务评估了系统等等,但最终仍然需要在完全保护隐私和实现完全效用之间进行权衡。因此,问题是我们如何确定“理想”权衡点。我们如何找到正确的平衡点,并在提供所需隐私保护的同时实现所需的功能。

您目前的目标是通过平行研究私有计算的技术解决方案来开发用户意识的隐私技术。您可以详细介绍一些这些解决方案吗?

我所说的解决方案是指,我们可以松散地开发任意数量的技术隐私系统。然而,在这样做时,重要的是确定隐私保证是否达到了受影响者的要求。这可以意味着在了解人群所重视的保护方式后开发系统。这可以意味着在了解人们在现实威胁和风险考虑下实际使用系统的情况后更新系统。一个技术解决方案可以是一个满足我之前提到的定义的正确系统。一个用户意识的解决方案将根据用户和其他受影响者在预期应用领域中的输入来设计其系统。

您目前正在寻找有兴趣的研究生,计划于2024年9月开始入学,为什么您认为学生应该对AI隐私感兴趣?

我认为学生应该对此感兴趣,因为这是在我们社会中只会越来越普遍的事物。要对这些系统的快速发展有一些了解,只需看看最近Chat-GPT通过新闻文章、社交媒体和对其影响的辩论的扩大。我们生活在一个数据收集和使用如此深入嵌入我们日常生活的社会中,我们几乎不断地向各种公司和组织提供关于自己的信息。这些公司希望使用这些数据,有些是为了改进他们的服务,有些是为了盈利。在这一点上,认为这些企业的数据使用惯例会改变似乎是不现实的。然而,存在着保护用户隐私的系统,可以在满足公司所需的某些分析的同时平衡风险和回报的权衡,这已成为我们社会的一部分。

感谢您的精彩访谈,有兴趣了解更多的读者应该访问Bailey Kacsmar的Github页面。