“人工智能将如何影响数据专业人员的角色?”
人工智能对数据专业人员的角色的影响如何?
编辑注:Alan是ODSC Europe今年6月14日至15日的演讲嘉宾。请务必参加他的主题演讲“人工智能时代的数据沟通”!
写2023年人工智能和LLMs的潜在影响,是在寻找麻烦。预测从末日论(著名专家发出的有关人类生存威胁的公开信)到怀疑论(有趣的可能性,但目前存在太多缺陷)不一而足。
即使我们假设现实将介于两个极端之间,至少在VoAGI这个术语中,生成式人工智能对许多行业的就业影响将是深远的。大多数讨论都集中在对作家、设计师、软件工程师、研究人员、律师和行政工作人员的影响上。对数据专业人士的影响则少有人提及。
- ODSC Europe 2023 主题演讲 微软的 Henk Boelman 讲解如何在 Azure 上部署 PyTorch 模型
- 格莱美首席执行官发布新的人工智能政策
- “生成式人工智能在隐私和安全领域的现状”
人类和机器
数据科学家和分析师需要意识到这项技术将如何影响他们的角色、流程和与其他利益相关者的关系。每个人都知道社交媒体上经常重复的警告:人工智能不会夺走你的工作,但使用人工智能的人会。
人工智能显然会在数据处理的某些方面表现出色。识别特征和关系,帮助清洁和结构化数据,筛选庞大的数据集-这些都是机器特别擅长的领域。而且这些能力已经被应用到数据密集型产品和流程中。
但是,人工智能的应用可能会更进一步。对于数据专业人士来说,最终需要为他们的企业或组织提供价值。这涉及建立关系、解释概念和与他人进行清晰沟通-特别是非数据专家。
像ChatGPT这样的模型至少可以表现得像人类一样,因此更适合人类专业人士的任务可能会交给人工智能处理。
对话界面
抽象性是有用的,因为它将用户不需要了解的细节隐藏起来。编程人员不想使用机器码进行工作,因此编程语言提供了一个可读的人机翻译层。
对话界面可以被视为抽象性的另一层次。例如,业务用户将能够使用自然语言查询数据库。ChatGPT已经被用于以正确的语法输出SQL查询。
这引出了“提示工程”作为一种特定的技能,甚至是角色-但这略微偏离了重点。通过对话界面,模型不需要依赖专家用户的单个提示。它可以提出一系列问题,以从用户那里获取所需的信息。可以将其视为医生在给出诊断之前向患者提问。
模型还可以记住关于特定用户的关键信息(对于他们的工作最有用的数据类型,提供上下文的季节性或特定于数据的业务周期,用户在阅读图表或图形方面的偏好)。
在扮演这种“个人助理”的角色时,可以想象一下,一位首席营销官在周一早上到达办公桌时只需问:“今天我需要了解什么?”然后,人工智能可以尝试预测对这位特定用户重要的数据,检索并可视化它。
除了为用户个性化服务外,这些模型还可以根据特定的领域或专有数据集进行训练,使它们更加专业。Bloomberg GPT是一个定制的、5000万参数的LLM,使用了深层次的金融信息。
自动化数据叙述
作为探索性数据分析过程的一部分,已经可以使用几行代码生成一堆图表和图形。但是,当涉及将数据洞察力传达给其他利益相关者时,事情变得更具挑战性。
演示、报告或仪表板的受众对数据素养的水平各不相同。他们也对数据的不同部分感兴趣。为特定受众提炼复杂数据集仍然是一项非常人类的技能。用塞斯·戈丁的话来说:“在向非科学家(或对科学感到厌倦的科学家)做演示时,图表或图形的目的是生动地传达一个观点。”
ODSC对25000个数据分析师职位描述进行的分析发现,沟通和数据可视化是这些角色的前十项技能。能够将数据洞察力传达给各种受众的能力是有需求的。
Alteryx的Magic Documents是使用生成式AI来自动化部分故事讲述过程的一个例子。除了将数据可视化作为演示的一部分,其Auto Insights功能可以提取出描述性的叙述,以增加数字的背景。
解释模型
对话界面和自动化数据叙事都依赖于简化。为业务用户提供特定的洞察力固有地需要忽略一些内容-从噪音中过滤出信号。
但是,任何直接与数据工作的人都知道,这个简化过程可能会丢失重要的警告和细微差别。为了理解我们可以信任由AI生成的预测和洞察力的程度,我们需要了解底层数据的质量。到目前为止,ChatGPT和类似的模型并不擅长说“我不知道”。相反,它们会发明(或产生幻觉)答案。人类数据专家在解释模型和数据的限制方面将发挥更加重要的作用。
对于培训数据中的偏见也是如此。虽然人们普遍意识到数据偏见是一个潜在的问题,但当他们看到可能有利于组织的竞争优势时,过于热衷的高管往往会忘记这一点。数据专业人员需要成为审核源材料的倡导者。在AI项目从试验阶段到部署到生产之间的某个地方,这些数据集需要进行审计。
如果您的非专业用户使用自己的术语查询数据集,那么谦卑的数据字典也将变得更加重要。即使像“当前公司人数”这样看似简单的数据点也可能因提问者的不同和计算方法的不同而有所不同。财务部门倾向于使用“全职当量”数字,而人力资源则统计人数(实际上是公司的人数)。
对于从数据角色中的人来说,他们不仅需要解释模型生成的输出是什么,还需要解释它们是如何生成的以及为什么生成的。这不仅仅是一个道德问题(尽管这需要从一开始就纳入AI项目中)。美国、欧盟、英国和许多其他国家正在积极审视围绕AI模型部署的法律和监管框架。
未来的数据专业人员
这是在以数据为重点的职位上工作的激动人心的时刻。但是,当我们看着AI对其他职业的影响时,我们也应该考虑它对我们自己的意义。作为对这项新技术有最深刻理解的人,我们需要既成为其可能性的传道者,又要成为其风险的法医批评者。
要了解更多关于AI革命对数据专业人员角色的潜在影响,请参加我在ODSC Europe会议上的演讲。
关于作者
Alan Rutter是咨询公司Fire Plus Algebra的创始人,专门通过数据可视化、写作和设计来传达复杂主题。他曾在Guardian Masterclasses、WIRED、Riskified、内政部、生物技术和生物科学研究委员会以及利物浦热带医学院等品牌和机构担任记者、产品负责人和培训师。