什么是合成数据?它们的类型、用例和在机器学习和隐私方面的应用

数据科学和机器学习领域每天都在不断发展。随着时间的推移,新的模型和算法被提出,这些新的算法和模型需要大量的数据进行训练和测试。深度学习模型如今越来越受欢迎,而这些模型同样需要大量的数据。在不同问题陈述的背景下获取如此大量的数据是相当麻烦、耗时和昂贵的过程。数据是从现实生活场景中收集而来,这引起了安全责任和隐私问题。大部分数据是私有的,受到隐私法律和法规的保护,这阻碍了数据在组织之间或者有时在单个组织的不同部门之间的共享和流动,从而延迟了实验和产品测试。那么问题来了,如何解决这个问题?如何使数据更加可访问和开放,而不会引起对某个人隐私的担忧呢?

解决这个问题的方法是使用所谓的合成数据。

那么,什么是合成数据?

按照定义,合成数据是人工或算法生成的数据,其结构和属性与实际数据非常相似。如果生成的合成数据很好,那么它与真实数据是无法区分的。

合成数据有多少种不同类型?

这个问题的答案非常开放,因为数据可以采取许多形式,但主要有以下三种:

  1. 文本数据
  2. 音频或视觉数据(例如图像、视频和音频
  3. 表格数据

合成数据在机器学习中的应用

我们只会讨论以上三种合成数据的应用。

  • 使用合成文本数据训练NLP模型

合成数据在自然语言处理领域有应用。例如,亚马逊的Alexa AI团队使用合成数据完成其NLU系统(自然语言理解)的训练集。这为他们提供了一个坚实的基础,用于训练新的语言,而不需要现有的或足够的消费者交互数据。

  • 使用合成数据训练视觉算法

让我们在这里讨论一个广泛的用例。假设我们想开发一个算法来检测或计算图像中的人脸数量。我们可以使用GAN或其他生成网络生成逼真的人脸,即不存在于现实世界中的人脸,来训练模型。另一个好处是我们可以从这些算法生成尽可能多的数据,而不会侵犯任何人的隐私。但我们不能使用真实数据,因为它包含某些个人的脸,因此某些隐私政策限制使用该数据。

另一个用例是在模拟环境中进行强化学习。假设我们想测试一个设计用于抓取物体并将其放入盒子中的机械臂。为此目的设计了一个强化学习算法。我们需要进行实验来测试它,因为这就是强化学习算法学习的方式。在现实生活场景中设置实验相当昂贵和耗时,限制了我们可以执行的不同实验数量。但如果我们在模拟环境中进行实验,那么设置实验相对便宜,因为它不需要机械臂原型。

  • 表格数据的用途

合成表格数据是人工生成的数据,模拟存储在表格中的现实世界数据。这些数据以行和列的形式结构化。这些表可以包含任何数据,例如音乐播放列表。对于每首歌曲,您的音乐播放器都会维护一些信息:它的名称、歌手、长度、流派等等。它也可以是金融记录,例如银行交易、股票价格等等。

与银行交易相关的合成表格数据用于训练模型和设计算法来检测欺诈交易。过去的股票价格数据可以用于训练和测试预测股票未来价格的模型。

在机器学习中使用合成数据的一个重要优势是,开发人员对数据具有控制权;他可以根据需要更改数据来测试任何想法并对其进行实验。同时,开发人员可以在合成数据上测试模型,这将清楚地说明模型在实际数据上的表现。如果开发人员想尝试一个模型并等待真实数据,那么获取数据可能需要数周甚至数月。因此,延迟了技术的发展和创新。

现在我们准备讨论合成数据如何帮助解决与数据隐私相关的问题。

许多行业依赖其客户生成的数据进行创新和发展,但这些数据包含个人身份信息(PII),隐私法严格规定了此类数据的处理。例如,通用数据保护条例(GDPR)禁止在组织收集数据时未明确同意的用途。由于合成数据非常接近真实数据的基础结构,并同时确保真实数据中的任何个人都无法从合成数据中被重新识别,因此合成数据的处理和共享具有更少的法规限制,从而加快了发展和创新,更容易获得数据。

结论

合成数据具有许多重要优点。它使ML开发人员对实验有更好的控制,并增加了数据的可访问性,从而提高了开发速度。它促进了更大规模的协作,因为数据是自由共享的。此外,合成数据保证保护真实数据中个人的隐私。

2022年机器学习模型的顶级合成数据工具/创业公司

本文来源于MarkTechPost,介绍了什么是合成数据,包括其类型、用例和应用于机器学习和隐私的情况。