剑桥大学和加州大学洛杉矶分校的研究人员推出了DC-Check:一种新的数据中心人工智能检查清单式框架,用于指导可靠机器学习系统的开发
Researchers from the University of Cambridge and the University of California, Los Angeles, have launched DC-Check a new checklist-style framework for artificial intelligence in data centers, designed to guide the development of reliable machine learning systems.
机器学习(ML)算法的革命性进展已经赋予了各个行业中许多人工智能应用以强大的能力,例如电子商务、金融、制造和医药。然而,在复杂的数据环境中开发真实世界的ML系统可能是具有挑战性的,这一点由许多数据或算法中存在的偏见所导致的高调失败案例所证明。
为了解决这个问题,剑桥大学和加州大学洛杉矶分校的研究团队引入了一种名为DC-Check的新型以数据为中心的AI框架,旨在强调对训练机器学习算法所使用的数据的重要性。DC-Check是一个可操作的检查清单式框架,提供了一系列问题和实用工具,以引导从业者和研究人员对ML流程的每个阶段(数据、训练、测试和部署)中数据的影响进行批判性思考。

研究人员表示,当前的机器学习方法是以模型为中心的,重点在于模型的迭代和改进,以实现更好的预测性能。然而,这种方法往往低估了数据在ML生命周期中的重要性。相比之下,以数据为中心的AI将数据视为构建可靠ML系统的关键,并力图系统地改进这些系统所使用的数据。他们在论文中将数据为中心的AI定义为:“数据为中心的AI包括系统地表征、评估和监控用于训练和评估模型的基础数据的方法和工具”。研究人员在论文中写道:“通过关注数据,我们的目标是创造出既具有高度预测性又可靠且值得信赖的AI系统。”
- 大型语言模型(LLM)(如ChatGPT)为何在微调时使用强化学习而不是监督学习的5个原因
- 揭示物理感知神经网络的设计模式:第07部分
- “利用MySQL的JSON_ARRAYAGG函数进行黑客攻击,创建动态的多值维度”
研究人员指出,尽管对于以数据为中心的AI存在很大的兴趣,但目前在设计以数据为中心的AI系统时还没有标准化的流程,这使得从业者很难将其应用于他们的工作中。
DC-Check作为第一个与数据为中心的AI进行互动的标准化框架解决了这个挑战。DC-Check检查清单提供了一系列问题,引导用户对流程的每个阶段中数据的影响进行批判性思考,并提供实用工具和技术。它还强调了研究界需要解决的开放性挑战。
DC-Check涵盖了机器学习流程的四个关键阶段:数据、训练、测试和部署。在数据阶段,DC-Check鼓励从业者考虑主动数据选择、数据整理、数据质量评估和合成数据,以改善用于模型训练的数据质量。在训练阶段,DC-Check推广了以数据为基础的模型设计、领域适应和群组鲁棒训练。测试考虑因素包括明智的数据划分、有针对性的度量和压力测试,以及对子群体进行评估。最后,部署考虑因素包括数据监控、反馈循环和诸如不确定性估计等可信度方法。
尽管这个检查清单的目标受众是从业者和研究人员,但同时提到DC-Check也可以被组织决策者、监管机构和政策制定者用于对AI系统做出明智决策。
DC-Check团队希望这个检查清单能够促进以数据为中心的AI的广泛采用,并为更可靠和值得信赖的机器学习系统铺平道路。除了DC-Check论文外,他们还提供了一个伴随网站,其中包含了DC-Check检查清单和工具,以及其他额外资源。
这篇文章最初发表在MarkTechPost上。