机器学习洞察总监

'机器学习洞察总监' can be condensed to '机器学习洞察总监' in English.

机器学习领域的主管具备技术技能、问题解决能力和商业眼光,这些技能很少能同时具备。

机器学习和/或数据科学主管通常被要求设计机器学习系统,具有深入的数学知识,熟悉机器学习框架,对数据架构有深入的了解,有将机器学习应用于实际应用的经验,良好的沟通能力,并且通常被要求紧跟行业发展。这是一项艰巨的任务!

出于这些原因,我们与这个独特的机器学习主管群体合作,撰写了一系列文章,重点介绍他们对当前机器学习见解和行业趋势的看法,涵盖医疗保健、金融、电子商务、软件即服务、研究、媒体等领域。例如,一位主管将指出如何使用机器学习将卡车空驶时间(约占20%)减少到仅19%,这将减少大约10万美国人的碳排放。请注意:这是一项通过一个前火箭科学家进行的粗略估算,所以我们会接受它。

在这个系列的第一部分中,你将听到一个研究者(他使用地下探地雷达来探测埋藏的地雷),一个前火箭科学家,一个会说宗喀语的业余游戏玩家(Kuzu = 你好!),一个曾经住在货车里的科学家,一个高效率的数据科学团队教练,他仍然非常亲自动手,一个重视人际关系、家庭、狗和披萨的数据从业者。——他们都是具有丰富领域见解的机器学习主管。

🚀 让我们认识一些顶级机器学习主管,并听听他们对机器学习对各自行业的影响的看法:

Archi Mitra – Buzzfeed的机器学习总监

背景:为业务带来机器学习的承诺。以人为本,以策略为重,以AI伦理为重,纽约布朗人。

有趣的事实:我会说宗喀语(谷歌一下!),并支持Youth for Seva。

Buzzfeed:一家专注于数字媒体的美国互联网媒体、新闻和娱乐公司。

1. 机器学习如何对媒体产生积极影响?

为用户提供隐私优先的个性化服务:每个用户都是独一无二的,尽管他们的长期兴趣是稳定的,但他们的短期兴趣是随机的。他们希望他们与媒体的关系能够反映这一点。硬件加速和深度学习在推荐方面的进步使我们能够开始解密这种微妙之处,并在正确的时间、正确的接触点向用户提供合适的内容。

辅助工具为创作者提供帮助:创作者是媒体中的有限资源,通过机器学习驱动的人机协作辅助工具,可以节省他们的创造力。例如,自动建议适当的标题、图片、视频和/或产品与他们正在创建的内容配合使用,可以释放出协作的机器-人动力。

加强测试:在资本密集型的媒体企业中,需要缩短收集用户共鸣信息和立即采取行动之间的时间。借助各种贝叶斯技术和强化学习的进展,我们不仅能够大大减少时间,还能够减少与此相关的成本。

2. 媒体领域的最大机器学习挑战是什么?

隐私、编辑声音和公平报道:媒体在现代民主世界中是一个关键支柱。机器学习需要尊重这一点,并在其他领域或行业通常不被严格考虑的约束条件下运作。在编辑策划内容和编程与机器学习驱动的推荐之间找到平衡仍然是一个挑战。BuzzFeed面临的另一个独特挑战是,我们相信互联网应该是自由的,这意味着我们不追踪我们的用户,就像其他公司一样。

3. 您认为人们在将机器学习整合到媒体中时常犯的一个错误是什么?

忽视媒体的“创作者”:媒体之所以流行,是因为它拥有对人们有深刻影响的声音。编辑、内容创作者、作家和制作者是这个声音的发声器官,建立支持他们、扩大他们影响力并与他们和谐共处的机器学习是成功的关键要素。

4. 你对机器学习的未来最感兴奋的是什么?

希望未来能够出现小型数据驱动的通用多模态多任务实时机器学习系统,能够在药物发现、高精度手术、气候控制系统和沉浸式元宇宙体验方面实现跨越式的进步。现实情况是,更加易于使用、低投入的元学习技术,以实现高精度的文本和图像生成。

李坦 – 强生公司的机器学习与人工智能总监

背景:李坦是一位拥有15年以上经验的人工智能/机器学习专家,在强生公司、微软和亚马逊等行业领导者的数据科学团队中担任重要职位。

趣闻:李坦继续保持好奇心,不断学习,并且喜欢亲自进行编程。

强生公司:一家开发医疗设备、制药产品和消费品的跨国公司。

1. 机器学习对制药业有何积极影响?

人工智能/机器学习在制药领域的应用在过去几年中蓬勃发展,并产生了许多长期积极的影响。制药和医疗领域有很多用例可以利用人工智能/机器学习。

应用范围从研究和真实世界的证据,到智能制造和质量保证。使用的技术也非常广泛:自然语言处理/理解、计算机视觉、人工智能物联网、强化学习等,甚至包括AlphaFold等。

2. 制药领域的最大机器学习挑战是什么?

制药和医疗领域中最大的机器学习挑战是如何确保人工智能应用的平等性和多样性。例如,如何确保训练集对所有种族群体都有良好的代表性。由于医疗和制药的性质,这个问题的影响可能比其他领域的应用更大。

3. 您看到的将机器学习整合到制药领域常见的错误是什么?

不敢说这是一个错误,但我看到很多人在医疗保健中的人工智能应用方面倾向于极端的观点,要么过于保守,要么过于激进。

有些人因为高度的监管要求而持怀疑态度。我们必须对许多人工智能应用进行严格的GxP验证。这可能需要相当多的工作,但我们认为这样的努力是值得的。在另一方面,有很多人认为人工智能/深度学习模型可以在许多应用中超越人类,并完全自主运行。

作为实践者,我们知道目前两种观点都不是真实的。

机器学习模型可以极大地价值,但仍然会犯错误。因此,我建议采取更加进步的方式。关键是要建立一个能够利用人工智能的力量的框架,并设立守门员。FDA已经采取行动,规范了人工智能/机器学习在医疗软件中的使用,我认为这对我们行业是一个积极的步骤。

4. 你对机器学习的未来最感兴奋的是什么?

人工智能/机器学习与其他硬科学和技术之间的交叉点。我对未来的发展充满期待。

Alina Zare – 佛罗里达大学机器学习与感知实验室主任

背景:Alina Zare是佛罗里达大学电气与计算机工程系教授,机器学习与感知实验室主任,从事机器学习和人工智能领域的教学和研究工作。Zare博士的研究主要集中在开发新的机器学习算法,自动理解和处理数据和图像。

她的研究工作包括自动植物根表型分析、亚像素高光谱图像分析、目标检测、利用合成孔径声纳进行水下场景理解、激光雷达数据分析、地面探地雷达分析以及埋藏地雷和爆炸物探测。

趣闻:Alina 是一名划船手。她在高中就加入了划船队,大学和研究生期间一直划船,在担任助理教授时还曾担任密苏里大学队的主教练,后来加入UF后成为了一名大师级划船手。

机器学习与传感实验室:佛罗里达大学的一个实验室,致力于开发机器学习方法,以自动分析和理解传感器数据。

1. 机器学习对科学有何积极影响

机器学习在许多方面产生了积极的影响,例如帮助自动化繁琐和/或缓慢的任务,或提供了新的方式来审查和研究各种问题。我在植物科学的机器学习领域的一个例子是,我们开发了机器学习方法来自动化植物根系图像的分割和表征。这个任务在以前是植物科学家研究根系图像时的一个瓶颈。通过机器学习自动化这一步骤,我们可以以更高的吞吐量进行这些分析,并开始使用这些数据来研究植物生物学问题。

2. 科学研究中最大的机器学习挑战是什么?

有很多挑战。一个例子是在科学研究中使用机器学习时,我们必须仔细考虑数据采集和整理协议。在某些情况下,我们用于非机器学习分析的协议可能不合适或不有效。数据的质量以及它是否代表我们在应用中希望看到的内容对基于机器学习的系统的性能、可靠性和可信度会产生巨大影响。

3. 在将机器学习与科学整合时,你看到人们常犯的一个常见错误是什么?

与上面的问题相关,一个常见的错误是错误地解释结果或性能,认为这只是机器学习系统的功能,而不考虑数据采集、整理、校准和规范化协议。

4. 你对机器学习的未来最感兴奋的是什么?

有很多非常令人兴奋的方向。目前我的研究主要集中在我们拥有大量先前知识和经验模型的领域。例如,我正在使用机器学习进行森林生态学研究。林业界拥有丰富的先前知识,而当前纯粹基于数据驱动的机器学习系统并没有充分利用。我认为将先前知识与机器学习方法无缝融合的混合方法将是一条有趣且令人兴奋的前进道路。一个例子可能是了解两个物种在某个区域中的共存可能性,或者在给定某些环境条件的情况下我们可以期望什么样的物种分布。这些可能可以与数据驱动的方法结合使用,以预测不断变化的条件下的结果。

Nathan Cahill博士 – Xpress Technologies的机器学习主任

背景:Nathan是一位充满激情的机器学习领导者,拥有7年的研究和开发经验,以及三年将机器学习模型投入生产并创造商业价值的经验。他专注于找到并战略性地优先解决业务中最大的痛点:在增长过程中尽早发挥数据的力量。

趣闻:在从事运输和物流工作之前,我曾在诺斯罗普·格鲁曼公司从事火箭工程。#火箭科学

Xpress Technologies:一种数字货运配对技术,将货主、经纪人和承运商联系起来,为运输行业带来效率和自动化。

1. 机器学习对物流/运输业有何积极影响?

运输行业非常分散。行业中的头部企业份额不到1%。因此,存在可以通过数字化解决的低效率问题。

例如,当您看到一辆卡车在路上行驶时,目前有20%的几率该卡车是空载行驶的。是的,卡车牵引车行驶里程的20%是从上一次卸货到下一次装货的路程。很有可能还有另一辆卡车在另一个方向上空载行驶。

通过机器学习和优化,可以显著降低这种死头百分比,仅将该数字从20%降低到19%将会减少等效于10万美国人的碳排放。

注:10万美国人的碳排放是我自己估算的。

2. 物流领域最大的机器学习挑战是什么?

物流领域的一个大挑战是由于行业碎片化:没有共享的数据池,这使得技术解决方案无法“看到”整体情况。例如,大部分经纪货物的成本是基于货物逐一协商的,使得成本变动非常大。这使得定价成为一个非常棘手的问题。如果行业更加透明,能够更自由地共享数据,那么更多的事情将变得可能。

3. 在物流领域,你看到人们在整合机器学习方面常犯的错误是什么?

我认为我看到的最常见的错误是人们独立进行机器学习和数据科学。

在物流领域,如果使用机器学习应用,将会显著改变问题的动态,因此重要的是与业务一起迭代地开发模型,并确保实际表现与训练中预期的一致。

一个例子是定价,如果你稍微低估了某个路线的价格,你的价格可能会过于有竞争力,从而导致该路线上货物的涌入。这反过来会导致经纪商为这些货物寻找运力而导致成本上升,加剧了问题。

4. 你对机器学习未来最激动的是什么?

我认为我最激动的是机器学习能够使人们的工作变得更好的机会。

随着机器学习在业务中变得普遍,它将能够帮助加速决策并自动化冗余工作。这将加快创新的速度并创造巨大的经济价值。我迫不及待地想看到在接下来的10年中,数据科学和机器学习将帮助我们解决哪些问题!

Nicolas Bertagnolli – BEN的机器学习总监

背景:Nic是一位科学家和工程师,致力于通过机器学习改善人类沟通。过去十年中,他在医疗领域应用机器学习和自然语言处理解决数据问题,从发现癌症基因组中的新模式到利用数十亿个临床笔记来降低成本和改善结果。

在BEN,Nic创新智能技术,扩大人类的能力以接触人们。在这里查看他的简历、研究和VoAGI文章。

有趣的事实:Nic在开始在BEN工作之前,在美国西部的一辆货车里旅行了三年。

BEN:一家娱乐人工智能公司,将品牌置于影响者、流媒体、电视和电影内容中,以与观众建立联系,这是广告无法做到的。

1. 机器学习对市场营销产生了哪些积极影响?

有很多方面!它完全改变了市场营销的格局。市场营销是一门基于直觉的传统领域。在过去的20年中,市场营销决策越来越多地依赖统计数据,但许多品牌仍然依赖于其营销部门的直觉。机器学习正在革命化这一过程。通过分析广告表现良好的数据,我们可以对如何以及向谁进行营销做出真正明智的决策。

在BEN,机器学习在处理影响者营销时帮助我们消除了很多猜测。数据能够帮助我们穿透偏见和主观性的迷雾,以便我们能够做出明智的决策。

这只是显而易见的部分!机器学习还使得为品牌做出更安全的营销决策成为可能。例如,向21岁以下的人群广告宣传酒精是违法的。通过机器学习,我们可以确定其受众主要是21岁以上的影响者,这使得我们能够更好地帮助酒精品牌,同时也帮助那些担心与酒精有关联的形象的品牌。

2. 在营销领域中,最大的机器学习挑战是什么?

与大多数机器学习的问题一样,问题通常并不在于模型本身。有了像Hugging Face、torch hub等工具,可以使用很多出色而灵活的模型。

真正的挑战在于收集、清理和管理数据。如果我们想讨论工作中最困难的机器学习方面,其中一些问题在于人们所关注和喜欢的内容中存在很多噪音。理解像病毒传播这样的事物非常非常困难。

理解创作者/影响者在长期内取得成功的原因非常困难。在一些相当嘈杂且难以获取的数据中,存在许多奇怪的偏好信息。这些问题归结为在数据、机器学习和业务团队之间建立真正稳固的沟通,并构建增强和与人类合作而不是完全自动化他们角色的模型。

3. 你认为人们在将机器学习融入营销中常犯的一个错误是什么?

我认为这不仅仅是营销领域的问题,将机器学习和数据科学优先于良好基础设施是一个常见的错误。组织听说了机器学习,想要分一杯羹,于是他们雇佣了一些数据科学家,结果发现他们没有任何基础设施来支持他们的新模型。机器学习的价值很大程度上在于模型周围的基础设施,如果你有训练好的模型但没有基础设施,那就没用了。

BEN的一个非常好的地方是我们在数据基础设施上投入了大量精力,并在设置模型之前构建了相应的基础设施。现在,数据科学家可以快速构建模型并提供给我们的最终用户,而不必自己解决每个步骤的问题。在雇佣大量机器学习人员之前,先投资数据工程。

4. 你对机器学习的未来最感兴奋的是什么?

目前有很多令人兴奋的事情正在进行中。我认为该领域的发展速度和民主化可能是我最感兴奋的。我记得将近10年前我写了我的第一个用于语言翻译的seq2seq模型。当时代码有上百行,训练时间很长,非常具有挑战性。现在你基本上可以用不到100行的Python代码构建一个将任何语言翻译为其他任何语言的系统。这太疯狂了!这个趋势很可能会继续下去,随着机器学习基础设施的不断改善,人们将越来越容易地部署和提供模型,而无需深入领域专业知识。

就像互联网初期一样,软件开发人员很少,需要一个技术娴熟的团队来建立网站。然后出现了Django、Rails等工具,使得网站构建变得容易,但服务仍然很难。我们现在正处于这样一个阶段,模型的构建很容易,但可靠地提供服务、可靠地监控等仍然具有挑战性。我认为在未来几年,进入门槛将大大降低,基本上任何一名高中生都可以将深度转换器部署到某个云基础设施上,并开始向大众提供有用的结果。这非常令人兴奋,因为这意味着我们将开始看到越来越多的切实创新,就像在线服务的爆发一样。太多酷炫的东西!

Eric Golinko – E Source 机器学习主管

背景:经验丰富的数据从业者和团队建设者。我在不同规模的公司和各个行业工作过。我是一个问题解决者,通过培训成为了数学家和计算机科学家。但最重要的是,我重视人际关系、家庭、狗、旅行和披萨。

有趣的事实:Eric 非常喜欢玉米片!

E Source:为公用事业、主要能源用户和零售能源市场的其他关键参与者提供独立的市场情报、咨询和预测数据科学服务。

1. 机器学习如何对能源/公用事业行业产生积极影响?

提供业务洞察。前提是具备优质数据。公用事业在其数据组合中有许多数据关系,从客户到设备,更具体地说,这涉及月度账单金额和参与节能项目的情况。这样的数据可以存储在关系数据库中,而设备或资产数据可以看作是构成我们电网的机械设备。桥接这些类型的数据并不容易。

此外,第三方数据空间/地理信息系统和天气数据非常重要。通过机器学习的视角,我们能够发现和探索具有真正影响力的特征和结果。

2. 电力行业中最大的机器学习挑战是什么?

需要进行一种揭秘的过程。机器学习能做什么以及在哪些方面需要监控或可能存在不足之处。电力行业已经建立了一套运营方式,机器学习可能被视为一种颠覆者。因此,部门可能会对任何新技术或范式的采用持保守态度。然而,如果从业者能够证明结果,那么结果将产生影响,并且更有意愿进行采用。其他挑战包括本地数据和云和基础设施的访问。这是一个逐步的过程,并且需要耐心的学习曲线。

3. 在将机器学习整合到公共事业中时,你看到人们常犯的一个常见错误是什么?

这不仅仅是公用事业的问题,过于急于行动而忽视数据质量和简单的质量检查。除此之外,机器学习在许多团队中以某种直接或间接的方式被实践。一个挑战是在团队之间整合最佳的开发实践。这也意味着模型跟踪和能够持久化实验和持续探索。

4. 你对机器学习的未来最感兴趣的是什么?

我已经从事这个领域十多年了,但我仍然觉得自己是个新手。我很幸运能够成为团队中的一员,被称为平均水平已经很幸运了。我的感觉是接下来的十年甚至更长时间将更加专注于数据工程,以涵盖更多机器学习的用例。


🤗 感谢您参加此次 ML 主管见解的第一期。敬请期待来自 SaaS、金融和电子商务领域的更多见解。

特别感谢 Eric Golinko、Nicolas Bertagnolli、Nathan Cahill、Alina Zare、Li Tan 和 Archi Mitra 对此文章的精彩见解和参与。我们期待见证你们每个人的持续成功,并将为你们的每一步加油助威。🎉

最后,如果您或您的团队有兴趣加速您的机器学习路线图,请访问 hf.co/support 了解更多信息。