机器学习代码时代已经到来

The era of machine learning code has arrived.

2021年版的AI现状报告上周发布。Kaggle机器学习与数据科学调查报告也同样发布了。这些报告中有很多值得学习和讨论的内容,其中有几个要点引起了我的注意。

“人工智能越来越多地被应用于像国家电网和自动化超市仓储计算等关键基础设施。然而,业界的成熟度是否已经赶上了其不断增长的应用规模,还存在疑问。”

毋庸置疑,机器学习驱动的应用正在渗透到IT的各个角落。但这对于公司和组织意味着什么?我们如何构建坚实的机器学习工作流程?我们应该都雇佣100名数据科学家吗?还是100名DevOps工程师?

“Transformer架构已经成为通用的机器学习架构。不仅适用于自然语言处理,还适用于语音、计算机视觉,甚至蛋白质结构预测。”

老前辈们通过艰难的方式学到了IT中没有银弹这个道理。然而,Transformer架构在各种机器学习任务上确实非常高效。但我们如何跟上机器学习创新的疯狂步伐?我们是否真的需要专家技能来利用这些最先进的模型?还是说有一条更短的路径可以在更短的时间内创造业务价值?

好了,这就是我的想法。

面向大众的机器学习!

机器学习无处不在,或者至少正在努力如此。几年前,福布斯曾写道“软件吞噬了世界,现在人工智能正在吞噬软件”,但这到底意味着什么?如果意味着机器学习模型应该取代成千上万行僵化的遗留代码,那我完全赞成。邪恶的业务规则,死吧!

那么,这是否意味着机器学习实际上将取代软件工程?目前确实有很多对AI生成代码的幻想,而且一些技术确实很有趣,比如发现错误和性能问题。然而,我们不仅不应该考虑摆脱开发人员,而且应该努力赋能尽可能多的开发人员,使得机器学习成为另一个乏味的IT工作负载(乏味的技术是伟大的)。换句话说,我们真正需要的是让软件吞噬机器学习!

这次情况并不不同

多年来,我一直主张并奋斗着,认为十年前的软件工程最佳实践同样适用于数据科学和机器学习:版本控制、可重用性、可测试性、自动化、部署、监控、性能优化等等。有一段时间我感觉很孤单,然后谷歌的骑兵意外地出现了:

“像伟大的工程师一样进行机器学习,而不是像你不是伟大的机器学习专家一样。” – 机器学习规则,谷歌

也没有必要重新发明轮子。DevOps运动在10多年前就解决了这些问题。现在,数据科学和机器学习社区应该采用和调整这些经过验证的工具和流程,毫不拖延。这是我们唯一能够构建出强大、可扩展和可重复的机器学习系统的方式。如果称之为MLOps有所帮助,那就没问题:我不会对另一个时髦词汇争论。

现在是时候停止将概念验证和沙盒A/B测试视为值得称道的成就了。它们只是通向生产的一个小台阶,只有在那里才能验证假设和业务影响。每个数据科学家和机器学习工程师都应该着迷于尽快、尽可能频繁地将他们的模型投入生产。一个合格的生产模型每次都胜过一个出色的沙盒模型

基础设施?那又怎样?

现在是2021年了。IT基础设施不应再成为阻碍。软件早就吞噬了它,通过云API、基础设施即代码、Kubeflow等进行了抽象。是的,即使在本地也是如此。

机器学习基础设施也在迅速发生变化。根据Kaggle的调查,75%的受访者使用云服务,超过45%使用企业级ML平台,其中亚马逊SageMaker、Databricks和Azure ML Studio位居前三。

借助MLOps、软件定义的基础设施和平台,我们可以轻松地将所有这些伟大的想法从沙盒中拉出来并移至生产环境。回答我最初的问题,我相当确定你需要雇佣更多精通机器学习的软件和DevOps工程师,而不是更多的数据科学家。但在内心深处,你应该已经知道这一点了,对吧?

现在,让我们来谈谈Transformer。


变形金刚!变形金刚!变形金刚!(鲍尔默风格)

AI报告称:“Transformer架构已远远超出了自然语言处理(NLP)的范畴,并逐渐成为机器学习的通用架构”。例如,最近的模型如Google的Vision Transformer(一种无卷积的Transformer架构)和CoAtNet(结合了Transformer和卷积的架构),在ImageNet上的图像分类设置了新的基准,同时对训练所需的计算资源要求更少。

Transformer在音频(如语音识别)和点云(用于建模自动驾驶场景等3D环境的技术)方面也表现出色。

Kaggle的调查也反映了Transformer的崛起。它们的使用量逐年增长,而循环神经网络(RNNs)、卷积神经网络(CNNs)和梯度提升算法则逐渐退缩。

除了提高准确性,Transformer还实现了迁移学习的承诺,使团队能够节省训练时间和计算成本,并更快地提供商业价值。

有了Transformer,机器学习领域逐渐从“耶哈!让我们从头开始构建和训练自己的深度学习模型”转变为“让我们选择一个经过验证的现成模型,在我们自己的数据上进行微调,然后早点回家吃晚饭。”

从多个方面来看,这都是好事。最先进的技术不断推进,几乎没有人能跟上其不懈的步伐。还记得我之前提到的Google Vision Transformer模型吗?你想在这里现在测试一下吗?使用Hugging Face,这是最简单的事情。

还想了解Big Science项目的最新零-shot文本生成模型吗?

您可以使用另外16000多个模型和1600多个数据集进行相同的操作,还可以使用额外的推理工具、AutoNLP、延迟优化和硬件加速。我们还可以帮助您从建模到生产启动项目。

Hugging Face的使命是使机器学习对初学者和专家都更友好、更高效。

我们相信尽量少写代码来训练、优化和部署模型。

我们相信内置的最佳实践。

我们相信尽可能让基础设施透明。

我们相信在生产中没有什么能比高质量的模型更好。

机器学习作为代码,就在这里,就现在!

很多人似乎都同意。我们在Github上有超过52000个星标。对于第一年来说,Hugging Face也在Kaggle的调查中亮相,使用率已经超过10%。

谢谢大家。是的,我们刚刚开始。


想知道Hugging Face如何帮助您的组织构建和部署生产级的机器学习解决方案吗?请联系[email protected](请勿招聘人员,也请勿进行销售推销)。