大多数公司在数据访问方面严重不足,71%的人认为合成数据可以提供帮助

大多数公司数据访问不足,71%认为合成数据可帮助

赞助帖

 

MOSTLY AI 在数据科学 AI/ML 社区进行了有史以来的首次合成数据调查。我们的目标是了解2023年合成数据的现状。仍然有哪些因素阻止公司成功采用和扩展 AI/ML?AI 生成的合成数据概念理解如何?AI/ML 构建者需要在哪些确切的数据挑战上寻求帮助?2023年的数据访问是如何运作的?合成数据如何填补数据差距,工程师们多久以后会采用这项技术?

该调查是在2023年上半年与 VoAGI 数据科学、机器学习、人工智能和分析社区合作进行的,共有300多名参与者。

 

数据访问和2023年合成数据的现状

   

总结:平均而言,只有15%的 AI/ML 模型处于生产状态。对于 AI/ML 项目失败的原因,35%的人认为是缺乏 AI/ML 人才,而28%的人认为是缺乏数据访问。61%的受访者指出,获取高质量数据需要数月时间,71%的人认为合成数据是使 AI/ML 项目成功所需的缺失环节。

2023年合成数据的现状受到生成式人工智能的炒作和AI驱动技术的普及热潮的影响,这得益于最近的LLM突破。自从ChatGPT成为主流以来,我们在MOSTLY AI这里收到了大量的请求和一般性询问。

人们对于利用AI在日常工作中的应用感到兴奋,并通过生成式AI技术寻求结构化数据的替代方案。虽然LLMs是完全不同的一种东西,具有预训练模型和监督学习的特点,但是AI驱动的合成数据生成器可以提供代表性合成数据的数据访问,这些数据可以直接用作原始数据的替代品。合成数据提供了一种安全保护隐私的方式来使数据访问更加民主化,并扩充数据集以适应特定目的。结果是更短的数据获取时间、更容易的数据访问以及数据科学任务的自动化。

合成数据生成器已经帮助那些使用结构化数据的人,从数据科学家到AI/ML工程师。但是人们对这个类别的理解程度如何,以及我们离全面采用还有多远?

MOSTLY AI 的首席执行官 Tobi Hann 表示:

合成数据平台正在改变我们处理数据的方式,也正在改变我们在各个行业开发数据中心的 AI/ML 的方式。我们发现,当今最高采用率的领域是处理大量敏感和业务关键数据的领域,如银行、保险和医疗保健。今年迄今为止,对合成数据领域的兴趣进一步扩大,我认为,至少部分原因是ChatGPT引起了对生成式AI场景的广泛关注。

 

然而,数据访问仍然是大多数组织面临的问题,隐私问题比以往任何时候都更加紧迫。尽管各行业都明显感受到采用和扩展 AI 的紧迫性,但数据隐私问题以及对提高隐私的技术(如合成数据)的认识不足,阻止了大多数公司从AI支持的工作和服务转变中获益。

 

为什么 AI/ML 项目无法实现

  尽管越来越多的人在技术堆栈中采用AI驱动的工具,但大规模部署AI/ML模型仍然是一种有限的特权。进展是可见的,但将AI/ML投入生产仍然很困难。然而,公司们比以往任何时候都更加努力地使其成为现实。尽管多年前开发和扩展AI或复杂的ML项目很少,但现在每个人都在努力实现这些项目,并且急切地想要实现这一目标。尽管有雄心壮志,但令人满意的结果仍然很难实现。

我们向调查受访者询问了AI/ML项目无法实现的原因。在受访者中,35%的人认为是缺乏AI/ML人才,而28%的人认为是缺乏数据访问。解决这些问题并不容易,我们坚信,AI生成的合成数据可以在这两个方面帮助解决。

数据访问:最大的瓶颈

在调查中收集到的最令人震惊的数据是:只有18%的受访者表示对高质量数据的访问不是一个问题。对于20%的人来说,需要几周的时间,而对于61%的受访者来说,需要几个月的时间才能获取数据访问权限。难怪以数据为中心的项目无法起步。

对于OpenAI来说,他们可以轻松地在公开可用的语料库上训练LLMs(当然,版权问题仍待解决),但对于普通的数据团队来说,即使是他们的内部数据资产也被内部政策所限制,被数据遮蔽破坏,并且只能用于特定的用例。如果企业想在人工智能竞赛中保持竞争力,这种情况必须迅速改变。人工智能/机器学习人才也需要数据访问权限,以便能够不断成长和发展专业知识以及领域知识。

仅凭玩具数据集只能走得很远,特别是当您开始进行数据科学探索并想要测试您的假设时。培养内部人才和公民数据科学家的崛起无法在没有有意义的数据民主化努力的情况下实现,这也是一个数据访问问题。

人工智能/机器学习拼图中的缺失部分

332名受访者中的72%计划在未来几年内使用基于人工智能的合成数据生成器,而近40%计划在未来三个月内使用,大多数人将数据增强作为他们的主要用例(46%)。尽管人们对此充满期待,但调查还突显了对合成数据的好处、限制和用例的教育需求增加。

误解在人工智能/机器学习专家中普遍存在

仍然对”合成数据”一词存在很多困惑,59%的受访者不知道基于规则和基于人工智能生成的合成数据之间的区别。这表明合成数据公司有责任教育数据消费者并亲身了解使用合成版本的真实数据集以及如何进行良好的工作。易于使用的用户界面和API选项的免费、强大的合成数据生成器,如MOSTLY AI的合成数据平台,最有可能成功地教育公众。

“我们必须大力教育人们。由于我们每天都与合成数据一起工作,我们很容易对相关知识视为理所当然,只有当对话达到更深层次时,我们才意识到有时甚至工程师对合成数据生成的工作方式和它能够解决的用例都有根本性的误解。我们的首要任务是让人们亲自体验合成数据技术,以便他们真正了解如何在日常任务中利用其能力,甚至可能发现我们没有考虑到的新的使用合成数据的方式,” Tobi Hann 补充道。

合成数据的潜力

当被问及最常使用的数据匿名化工具和技术时,49%的受访者表示他们使用数据遮蔽来匿名化数据。20%的人表示他们只是从数据集中删除PII(个人身份信息)- 这种方法不仅从隐私角度来看不安全,还可能破坏高质量训练数据所需的数据效用。隐私增强技术,如同态加密、基于人工智能的合成数据等,占31%。

在数据匿名化和数据准备方面,确实有改进和改变习惯的空间。MOSTLY AI的团队将继续关注合成数据的趋势,并将在明年重复进行调查。如果您想及时了解合成数据的最新新闻-无论是最新的研究结果、法规还是业务方面的事宜-请订阅每月合成数据通讯!

如果您准备加速公司的数据访问,或者想要尝试我们先进的数据增强功能,请注册免费永久账户,亲自体验MOSTLY AI易于使用和安全的合成数据平台。我们的团队可以直接从应用程序中提供支持,帮助您充分利用合成数据生成的优势。