人工智能:如何以更快速、更好的结果和更低的成本合成数据1000倍以上
人工智能:如何以更快速、更好的方式、更低的成本合成数据1000倍以上
编辑注:Vincent Granville将在今年10月30日至11月2日的ODSC West发表演讲。务必参加他的演讲,“GenAI突破:快速、高质量的表格数据合成”。
解决数据合成问题有两个方面。首先,如何评估结果并比较合成器?然后,如何本质上消除训练,从而将算法加速数个数量级?这反过来会导致大幅节省成本,因为不需要GPU,并且云计算时间大大缩短。我首先关注评估,然后是快速架构。我只提供简要概述,完整细节请参阅我的新书《生成AI和机器学习的统计优化》,可在此处获得。新的评估指标和新的数据合成器现已作为开源库提供,分别是“GenAI评估”和“NoGAN合成器”。这个背景是表格数据生成。
大会 – ODSC West 2023
线下以及线上会议
10月30日至11月2日
- 我们能把文本转化为科学矢量图吗?这篇人工智能论文介绍了AutomaTikZ并解释了TikZ的力量
- 掌握NLP:深度学习模型的深入Python编程
- 我如何利用我的第一个#30DayChartChallenge来学习Observable Plot
加入我们深入研究最新的数据科学和人工智能趋势、工具和技术,从LLM到数据分析,从机器学习到负责任的人工智能。
评估合成数据
有许多度量标准可用于评估表格合成数据的质量。这些度量标准衡量原始数据和合成数据在统计分布方面的相似程度。目标是最小化两个联合经验分布(ECDF)之间的距离:一个计算在真实数据上,另一个计算在生成数据上。与基于经验分布函数(EPDF)的距离相比,ECDF具有以下优点:
- ECDF始终存在。
- 作为一个积分,它对错误不太敏感。
- 它轻松处理混合的分类、序数和连续特征。
联合(多变量)ECDF之间的距离,在学术界已经研究了一段时间,重点是收敛问题。然而,我还没有看到在高于3维的真实数据上测试过其实际实现的实现,结合了数值特征和分类特征。我的NoGAN算法可能是第一次提供了完整的多元KS距离来评估结果。它根据维度进行调整。此外,它返回一个介于0(最佳拟合)和1(最差拟合)之间的值。这里使用的近似KS的收敛性,在所有测试中都是显而易见的,但仍然是一个未解决的理论问题。
尽管它的复杂性,实施这个距离的原因是避免错误的负面影响。供应商经常使用的度量标准常常将质量较差的合成评为优秀,原因是缺乏深度。与标准技术不同,多元ECDF捕获跨多个维度的所有线性和非线性特征依赖关系,从而消除了这个问题。此外,所有评估都是使用交叉验证进行的:将真实数据拆分为训练集和验证集,仅使用训练数据进行合成,使用验证集评估性能。
生成合成数据
NoGAN是一系列高性能、快速的合成器算法中的第一个,它不基于GAN等神经网络。它仅浏览输入数据一次,通过有效地覆盖特征空间中稀疏的工作区域,创建最小数量的多元箱或超矩形。这些静态箱的形状是基于特征分位数预先确定的。总的箱子数量最多等于观测值的数量。所有分类特征都使用一种高效的方案(“智能编码”)进行联合编码。
为了生成合成数据,我使用多项式分布来抽样箱子的计数,以复制在真实数据中观察到的计数分布。在每个箱子内,使用均匀或截断高斯分布生成合成观测,其中均值是在真实数据上估计得到的。
图1:合成数据(左)与真实数据(右),电信数据集
主要超参数向量指定每个特征要使用的分位数间隔数量(每个特征一个)。它很容易进行微调,允许进行自动调优。事实上,整个技术体现了可解释的人工智能。例如,如果一个分类特征只占观测值的1%,那么相应的超参数值必须至少为100(1%的倒数)以确保在合成中不会被忽略。
大的超参数值总是有效,但可能会导致过拟合和其他问题,特别是在将合成数据与验证集进行比较时。经验法则是,最好使用最小可能的值来实现所期望的质量。较小的值还会导致更丰富的合成数据;在使用增强数据来提高预测算法性能时是有益的。
关于GenAI上的作者:
Vincent Granville是一位开创性的GenAI科学家和机器学习专家,Data Science Central的联合创始人(在2020年被一家上市公司收购),MLTechniques.com的首席人工智能科学家,前风险投资支持的高管,作者和专利持有人,其中一个专利与LLM相关。Vincent过去的公司经验包括Visa,富国银行,eBay,NBC,微软和CNET。
Vincent还是剑桥大学和国家统计科学研究所(NISS)的前博士后。他在《数论杂志》、《皇家统计学会杂志》(B系列)和《IEEE模式分析与机器智能交易》上发表了论文。他是多本书的作者,包括《合成数据与生成AI》(Elsevier,2024年)。Vincent居住在华盛顿州,并且喜欢研究随机过程、动力系统、实验数学和概率数论。他最近推出了一项GenAI认证计划,为参与者提供最先进的企业级项目。