我们需要多少数据?在机器学习和安全考虑中保持平衡
机器学习与安全考虑:我们需要多少数据才能保持平衡?
对于数据科学家来说,没有所谓的数据过多。但是当我们更广泛地看待组织背景时,我们必须在目标与其他考虑因素之间取得平衡。
数据科学与安全/IT:一个世纪之战
作为数据科学家,获取和保留数据是我们的心力之所在。如果你问一个数据科学家“我们能解决这个问题吗?”我们大多数人会问的第一个问题是“你有数据吗?”接下来会问“你有多少数据?”我们想要收集数据,因为这是我们想要做的大多数工作的前提,以产生有价值的模型和有益的结果。我们喜欢研究数据,了解其中的真实内容和含义,了解其生成或收集方式,并从中得出可推广的结论。
然而,深入研究数据隐私将使我们的习惯和选择置于不同的背景之中。数据科学家的本能和愿望常常与数据隐私和安全的需求产生紧张关系。任何曾为了建模而争取访问数据库或数据仓库的人都能有所体会。感觉就像我们在工作中被堆积如山的过于谨慎的障碍所困扰。毕竟,我们有数据的原因不就是为了从中学习和建模吗?即使是我们中最好的一些人有时也会将我们组织中的一些主要目标定位在隐私和安全领域,与我们在数据湖中探索的愿望发生冲突。
事实上,数据科学家并不总是英雄,IT和安全团队也不是恶棍。我们都在为重要目标而努力工作,都可能在追求目标时出现一点眼界狭窄。了解两者角色的不同观点有助于理解所处的紧张局势和相互竞争的利益。
数据科学的观点
从数据科学的角度来看,拥有大量数据经常是满足我们工作目标的必要条件。要构建一个可推广的模型,您需要有大量关于模型在生产中需要回应的各种数据的示例。数十万甚至数百万个案例绝对不是什么过分的数量。然而,要真正做到这一点,数据科学家必须花费大量时间和精力来审视这些数据。拥有大量数据很好,但如果您不知道它真正代表什么和其来源,进行有效的数据科学将非常困难。
安全角度
从安全角度来看,当然,我们必须承认,拥有更多的数据量 – 尤其是如果有多个存储系统或影响数据的过程 – 数据违规的风险就越大。基本上,我们拥有的数据越多,就越有可能有一部分数据丢失或被不适当地访问。此外,更多人可以访问数据意味着违规或数据丢失的机会越多,因为人类是技术领域中最大的风险向量。我们是链条中的薄弱环节。
所有这一切意味着什么?我认为这带领我们需要找到一个折衷方案。首先,我们拥有越多的数据存储,我们真正理解这些数据的深度和能力就越低,无论是在我们的时间和工具方面。如果我们只是随意地囤积一切,我们实际上陷入一种无法理解所有数据的境地,同时我们的违规风险也处于顶峰。如果我们什么都不存储,或者存储不够,那就无法利用数据科学所提供的巨大价值。
所以,我们需要找到这个折衷方案的所在地。数据工程和数据保留的最佳实践确实存在,但我们也必须做出很多即时决策。对于我们如何考虑数据保留和使用,拥有原则非常重要,可以帮助我们在这些情况下进行指导。
机构考虑因素
当我谈到数据管理这个话题时,我应该提一下—最近我开始了一份新工作!我是DataGrail的首位高级机器学习工程师,这家公司提供一套B2B服务,帮助公司安全地管理他们的客户数据。这自然将数据存储和隐私问题置于我的重要工作任务之首,也让我回顾起自己在不同程度成熟的公司中的职业经历,以及它们是如何处理数据的。
一个公司变成数据收集者是很容易的。起初你可能很缺乏数据,没有依据进行决策和策略制定,所以在进行业务交易等方面逐渐收集数据。也许你还没有进行机器学习,但是你可以看到未来的潜力,并且想要为它做好准备。因此,你开始建立数据系统,并填充这些表格或主题。
然而,这种方式并不可持续—至少不能永远这样下去。几年过去了,你可能积累了大量的数据。也许你需要扩展到像Snowflake或AWS这样的云存储供应商,以保持数据的实时访问速度。当然你在使用这些数据!也许你已经开始实施机器学习项目,或者仅仅是进行高级分析和商业智能,如果做得好,这将极大地提升你企业的效益。但即便如此,你也需要考虑基础设施的成本,更何况可能还需要雇佣数据工程人员来管理这个庞然大物。
不幸的是,你开始获取一些你无法很好管理的数据。文档可能已经过时了,如果曾经有的话,参与建立原始系统的员工可能已经离职。这张表格意味着什么?该列的来源是什么?无法解释的数据几乎毫无价值,因为你无法从你不理解的数据中有效地学习。
此时你需要做出决策。你要如何战略性地规划你的数据系统的未来?你可能需要关注数据架构,以尝试控制成本上升,但是数据保留又如何?你是将所有数据永远保留吗?如果不是,你在什么时候进行清理?请记住,如果你的业务需要有效的机器学习和/或分析功能来支持决策制定和产品设计,保留相当大量的数据是一个必须满足的要求。“全部扔掉,避免这种麻烦”的选择是不存在的。
同时,你还需要考虑适用于所有这些数据的监管和法律框架。如果一些司法管辖区允许客户要求你删除关于他们的所有数据,你该怎么办?许多组织在明确要求之前都不会认真对待这个问题。如果你想要保持领先,并且你没有从一开始就做好准备,你将面临对你的数据架构进行改进以满足监管要求的艰巨任务。
关于监管的旁白
近年来,数据安全法规的增加增加了企业面临的挑战。某种程度上,这是我们自己造成的—近年来,众多公司的数据泄露、安全松懈和不透明的同意政策引发了公众对更好数据保护的需求,政府填补了这一空白。显然,品牌信任和安全性自身并不足以激励很多企业在数据保护方面收紧措施。如果需要法律来确保我们个人数据和敏感记录得到负责和保护,那么我个人是完全支持的。
然而,作为一个数据科学家,我不得不承认本文开头所提到的紧张感。我想要所有的数据,我希望能够无限制地挖掘其中,因为这是我有效开展工作的方式。但是,我也是一个客户和一个公民,我希望我的数据能够得到仔细的保护。我知道机器学习的承诺和力量依赖于可用的数据,但当你考虑到这些数据是关于你和你的习惯时,这显然变得不太明晰。相较于“安全”本身,我觉得担任这个角色要容易一些,因为我不是一个受过专门数据安全培训的专业人士,但我作为一个消费者对我的偏好有着很强的感觉。
我的建议是我们要保持我们的消费者/安全帽和数据科学家帽子的近旁。我们必须在数据积累用于机器学习和限制数据保留以保护客户隐私和数据安全之间保持平衡。对于“我们应该保留多少”的问题,没有银弹式答案,所以唯一的选择是在我们对数据存储的每个决定中权衡两者的利益。
我将在假期期间暂时中断我的专栏,将于一月中旬回归并发布我的下一篇文章。
查看更多我的作品,请点击 www.stephaniekirmer.com。