亚马逊网络服务(AWS)的艾米丽·韦伯关于预训练大型语言模型的讲座

AWS艾米丽·韦伯关于预训练大型语言模型的讲座

随着数据科学中出现了新的领域,研究仍然难以理解,有时与该领域的专家和先驱进行交流可能是最好的选择。最近,我们与亚马逊AWS的首席机器学习专家解决方案架构师Emily Webber进行了交谈。她是《Python中的预训练视觉和大型语言模型:在AWS上构建和部署基础模型的端到端技术》一书的作者。在采访中,我们讨论了如何在Python中预训练视觉和大型语言模型(LLMs)。您可以在此处收听完整的闪电采访,并阅读以下Emily Webber的两个有趣问题的文字记录。

问:直到2022年末,LLM才开始流行起来。你在LLM兴起之前开始写这本书的想法是什么?

Emily Webber:对我来说,令人兴奋的时刻是规模定律,而不仅仅是其他方面。显然,我们关心与LLM的交互,并能看到模型产生的高性能语言,但对我来说,最令我感动的是规模定律。

在机器学习中,我们的工作很大程度上是实验性的。我们尝试一种方法,获得准确性,评估结果,然后不断尝试。这是一个非常迭代和实验性的过程,但也存在着一定的不确定性,即在一定时间后,很难知道您的模型表现如何。

所以当我在2020年初看到Jared Kaplan提出的规模定律时,对我来说,那才是转折点,因为规模定律实际上为我们提供了估计模型性能的方法。它是一个方程,您可以说“噢,这是我有多少加速器,这是我的数据集有多大,这是我的模型,那么我的准确性会是多少?”当您有了这个方程后,您就可以更容易地进行实验并量化您的模型的好坏。

基本上,我看到了这一点,这促使我重新评估我的机器学习之旅和我对机器学习的看法。随着模型变得越来越大,优化技术变得更好,这一点一再出现在各种方式中。然后,我花了很多年与客户合作。在AWS,我与那些在这种技术流行之前就开始进行自己的大规模建模项目的客户合作,但因为他们看到了好处,他们也能看到这种趋势,所以这让我相信这确实是未来。

问:还有哪些值得关注的AI进展?

Emily Webber:从某种意义上说,如果您回顾过去十年中最有趣和最先进的AI性能,很多都与规模有关。很大程度上取决于构建一个真正优秀的分布式系统,使用技术在非常大的规模上优化数据集、神经网络和模型。

Richard Sutton,被认为是强化学习之父,于2019年写了一篇著名的博文,称之为“痛苦的教训”。所以Richard Sutton的痛苦教训,我在书中与规模定律一起详细讨论了,他实际上是举起双手说:“哦,我们在过去70年的AI研究中学到的是,最有影响力的是使用计算资源最多的东西。”

对我来说,最重要的是效率。基础模型之所以强大,是因为它们更高效;与其追求数百个、数千个微小的树、逻辑回归、Adaboost或者RNN、CNN,不如创建一个能完成所有任务、拥有所有用例和高准确性的巨型模型,让我们大力发展这个模型,然后我们可以用它来实现一切。

通过在亚马逊工作并与客户合作,将一个机器学习项目从构思、扩展、运营到产品生命周期和管理,这本来就是很困难的。基础模型之所以强大,是因为它们高效,并且它们是资源使用的更高效和更流畅的方式。当我通过在AWS的工作中看到这一点变为现实后,我确信这无疑是未来的方向。

了解更多关于大型语言模型的信息

如果您尚未开始使用大型语言模型,或者想进一步提升现有的专业知识,那么ODSC West是适合您的会议。今年10月30日至11月2日,您可以参加数十个与NLP、大型语言模型等相关的会议。以下是一些已确认的会议,还有更多会议将陆续发布:

  • 使用特征库个性化LLMs:Jim Dowling | CEO | Hopsworks
  • 大型语言模型的评估技术:Rajiv Shah, PhD | 机器学习工程师 | Hugging Face
  • 了解大模型的发展趋势:Lukas Biewald | CEO兼联合创始人 | Weights & Biases

别错过购票的机会!6折优惠即将结束!在这里注册。