选择你的武器:抑郁的AI咨询师的生存策略

抑郁AI咨询师的生存策略

Sepehr Samavati在Unsplash上的照片

最近推出了一部新的终结者电影。在这一集中,未来的人类抵抗组织派遣一个机器人回到过去,摧毁OpenAI的服务器农场,以防止ChatGPT和AGI的出现。虽然这是不真实的,但听起来如何?

作为一名AI从业者,你对最近的AI发展有何感受?除了对其新的能力感到兴奋之外,你是否想过如何在快速发展的AI领域中保持自己的位置?

ChatGPT的诞生引起了轰动。人们对其能力着迷,但也对其未知的未来感到恐惧。这种迷惑的爱恨情感不仅让普通公众困惑,也让AI专业人士感到困惑。

最近我读到一篇非常有启发性且独一无二的论文[1]。作者不是关注技术方面的内容,而是探索研究人员在快速发展的AI带来的挑战下所面临的焦虑。

有趣的是,顶尖研究机构的学术研究人员也担心“无法跟上当前AI进展的步伐”。该论文揭示了研究人员面临与行业专业人士相同的资源限制,这并不令人意外,因为模型训练变得越来越昂贵。作者提出了如何在有限资源下开展研究的策略。

尽管我欣赏作者的坦诚,但他们的建议主要针对AI研究人员而非实践者。在本文中,我将探讨作为AI从业者如何应对这一挑战。由于这个话题很少被讨论,我希望成为开创者。我希望您会对这次讨论感到启发;不过请注意这些是我的个人观点,欢迎其他视角。

目录

· 为什么重要· 第一原则· 了解局限性· 把握整体情况· 责任 ∘ 可解释性 ∘ 公平性 ∘ 安全性 ∘ 隐私和数据安全· 工程是我们的主场· 结语· 参考文献

为什么重要

过去,人们对于使用哪些技术和工具进行机器学习任务有清晰的认识。他们熟悉主题建模和情感分析的流程;他们了解使用的所有库;他们感觉自己像交响乐团的指挥。然而,随着大型语言模型(LLM)的出现,一切都发生了变化。LLM似乎统治了一切,有趣的是,没有人知道LLM是如何工作的。现在,人们开始质疑是否还应该开发除LLM之外的解决方案,却对如何使基于LLM的解决方案负责任知之甚少。

学术研究人员、机器学习从业者和他们的客户之间存在明显的区别。研究人员专注于开发新概念,展现他们迷人的学术魔力;而客户则意识到机器学习顾问具备他们和团队所缺乏的专业知识,机器学习顾问则以提供独特贡献而自豪。每个人都很满意。然而,新兴的大型语言模型已经显著改变了世界。

如今,生成式人工智能使高级AI能力更加易于终端用户使用,而大多数学术研究人员无法研究新的基础模型,因为训练一个新模型太昂贵了。所有人使用LLM的方式都相同:主要是提示,很少进行微调。他们都被幻觉问题困扰,解决方案都是试验性的。在LLM的开发中,高级数学技能并不是非常重要。因此,所有LLM用户都在使用同样的技术解决同样的问题并取得相同的结果。因此,LLM让学术研究人员、从业者和最终客户更加紧密地联系在一起。

提供机器学习服务谋生的机器学习顾问可能会问:在这种情况下,如果研究人员正在解决实际问题,而客户可以自己使用最前沿的AI工具,我们如何证明我们的专业性?

Gioele Fazzeri在Unsplash上的照片

第一原则

生成式人工智能是一个充满活力的领域,每一两周就会有新的模型、新的产品和新的理论宣布问世。跟上这个步伐并不容易。但首先,我们需要回到第一原则,思考这项技术要解决的问题是什么。这是一个简单而有效的策略。有这么多新发展,每一个都试图帮助特定的人群。如果我们应用这个策略,就可以更加专注于与我们目标相关的技术。

一个例子是提示工程。提示工程已被证明非常有用。许多技术已经被开发出来,例如上下文学习、思维链、思维树等等。有些人预见到提示工程师将成为一种新的职业称号。这是机器学习工程师的未来吗?

让我们思考一下为什么会出现提示工程。然后我们会意识到,人们开发了指令跟踪的语言模型来允许用户用人类语言与其交互。提示工程主要是关于以一种更好地被生成式人工智能模型解释和理解的方式来组织文本。尽管提示工程有一些被证明有用的模式,使其看起来更加技术导向,但它主要是为了帮助缺乏经验的用户。当前提示工程的复杂性是因为我们还没有学会如何使语言模型可靠地理解提示。随着进一步的发展,提示工程可能会变得非常成熟,每个人都可以通过简短的训练获得满意的结果。机器学习专业人员应该学习提示工程的技能,但不幸的是,提示工程并不能提供强大的工作保障,因为它的主要目标是降低门槛,而不是维持门槛。如果你认为提示工程是你的核心能力,那么你和你的客户之间的知识差距正在缩小。

除了命令行界面和图形用户界面,有人提出了自然语言用户界面(NLI)的概念。我确实认为这是一个好主意。如果你也持有同样的观点,你会同意提示必须对每个人都可用。它不应该是一个守口如瓶的秘密。

了解限制

生成式人工智能受到了很多赞扬,但它也有自己的限制。模型很容易产生幻觉,不擅长逻辑推理,且很难控制。所有这些特点使得生成式语言模型的应用难以开发,并为我们提供了向商业价值交付提供专业服务的机会。为了实现这一目标,除了了解生成式人工智能的优点,还需要了解生成式人工智能的短板,如何评估其性能以及如何解决这些问题。建立这种专业知识将在长期内非常宝贵。

让我们以RAG应用为例。RAG是生成式人工智能生态系统中的一个重要构建模块。当我们希望让语言模型的推理基于本地数据时,RAG是我们的首选;当我们希望处理比提示窗口更大的内容时,RAG也是正确的选择。已经开发了许多RAG系统,并创建了许多向量数据库来跟上这一趋势。然而,RAG也有它自己的缺点。事实上,构建一个令人印象深刻的RAG演示相当容易,但将其转化为一个可以投入生产的系统却相当具有挑战性。了解这些限制将帮助我们成为负责任的顾问。

如果你想了解更多关于RAG应用的讨论,请参考以下帖子:RAG的缺点[2],应用向量数据库的考虑事项[3],如何选择和托管嵌入模型[4],以及如何对嵌入式语言模型进行微调[5]。

除了RAG的例子,你知道如何评估语言模型的性能吗?你知道什么是提示注入和提示泄露吗?你可能已经注意到,在实践中,提示对微妙之处很敏感,但你有兴趣衡量你的提示的鲁棒性吗?这些都是实际问题,也是许多研究人员关注的焦点。虽然目前还没有完美的解决方案,但了解这些问题和解决方法仍然可以在我们的解决方案设计中起到很大的帮助。我希望这些问题能激发你看到我们可以做的事情有很多。所有这些问题和解决方案将使我们成为强大的人工智能专业人士。

把握全局

另一个重要的策略是将生成式人工智能应用视为一个整体系统,而不是单个模型。我们知道语言模型有很多缺陷。其中一些缺陷是当前语言模型结构固有的问题。只有突破性的新结构才能解决这些问题。正如Yann Lecun所说,“语言模型不是未来”。虽然研究人员正忙于寻找替代的语言模型架构,但我们需要知道其中很多问题必须通过工程解决方案来解决。

麻省理工科技评论(MIT Technology Review)有一篇有趣的文章,讲述了Meta去年LLM项目的失败[6]。Meta发布了一款新的LLM来生成科学洞见。然而,这个模型只在线上存在了3天就被下线了。发生了什么事情呢?

在经过4800万篇科学文章、教科书和讲义的训练后,该模型可以制造“科学深度伪造”。它产生了虚假的科学论文,并错误地将它们归属于真实的研究人员。它产生了虚构的维基百科文章,比如“太空熊的历史”。想象一下,如果一位勤奋的科学家使用了LLM提供的虚假参考文献。

毫无疑问,这是一个非常常见的LLM幻觉问题。消除LLM的幻觉是一场艰苦的战斗。即使应用了所有已知的补救措施,我们仍然需要知道我们能达到什么水平的准确性。如果项目对错误答案不能容忍,单个LLM可能不是一个好的选择。根据需求的不同,像基于知识图谱的高级解决方案会表现得更好。回答将更可靠和可追溯,整个解决方案将更易于管理。

查看以下排行榜,以了解单个模型的实际准确性[8]。

责任

大家都会认同LLM最大的问题是幻觉。人们已经开发了许多策略来控制这个问题。除了幻觉之外,还有其他问题使决策者犹豫不决是否将生成式人工智能应用于他们的系统中吗?让我们来看看其中几个问题:

可解释性

无论我们查询什么,LLM总是给我们一个答案。但是模型是如何得出这个答案的并不清楚。我们怎么确定模型是如何得出答案的呢?它是否参考了其他可靠的信息,还是仅仅是编造出来的?再次提到RAG:我们怎么知道答案是否包含了所有重要的信息或者是不完整的?

公平性

所有的LLM都是在大型数据集上进行训练的。它们被设计用来发现数据中的模式。在这个背景下,LLM只是统计模型。而所有的统计模型都对最流行的模式有偏见。一个常见的问题是它们在长尾数据上表现不佳。

以澳大利亚的人口统计数据为例,80%的人口居住在前8个主要城市。它可以产生良好的整体性能;然而,它忽视了地区人民和原住民的利益。在某些情况下,这些偏见可能导致项目失败,而这种情况最近因对人工智能安全的担忧而变得更加重要。

安全性

从头开始训练一个新的LLM需要大量的训练数据和大量的资金。除了那些资金充足的公司以外,大部分LLM应用开发都必须基于预训练的基础模型。这就带来了两个固有的风险:

  1. 我们怎么知道训练数据是安全的?很容易通过插入恶意数据来创建后门。
  2. 我们怎么确定生成的模型是安全的?即使训练数据是干净的和清晰的,生成的模型可能对对抗性攻击很敏感。您可能已经知道,计算机视觉模型可以通过向输入图像添加不可见的噪声来欺骗。LLM也对攻击很敏感。

如果我们必须假设训练数据和模型都是不安全的,我们如何检测、控制和管理风险,以防止它们造成危害?

隐私和数据安全

LLM只是机器学习模型,它们的知识是建立在大型训练数据集上的。它们没有意识到什么样的数据应该无限制地披露,哪些数据只能提供给特定的用户群体,或者哪些数据根本不应该披露。那么,我们如何保护应用程序?我们如何审计训练数据的隐私和安全性?我们如何指示LLM忘记我们不希望它记住的东西?

工程是我们的专业领域

对上述所有问题的认识将使我们知道知识库和项目提案应该包含什么。没有坚实的工程基础,我们的构思无法实现。

生成式人工智能生产中有许多空白领域。相当多的方面要么是新概念,要么需要从旧的MLOps实践中升级。传统的MLOps更注重确保模型的性能符合预期,以及训练和运行环境的效率。LLM应用确实需要高效的模型托管、微调和运行时性能提升。除此之外,我们还需要针对上述问题提供一个工程解决方案。这些独特的挑战使LLM运营比传统的MLOps更难以维护。

以LLM模型管理为例:我们需要学习如何高效地将模型托管在GPU集群上,这是一项MLOps技能。我们还需要了解LLM模型评估、模型调优的所有技能,以及如何有效准备训练数据,如何通过人在循环中的帮助来控制模型偏差,如何通过RLHF来控制模型风险等等。任务清单非常长,技术栈也更加复杂。我们需要亲自动手掌握所有这些。这些是我们能帮助客户的方式。

软件开发人员花费了几十年的时间来寻找最佳的项目管理模型。基于无数项目失败,已经开发出了众多的方法论。最终,人们意识到沟通是项目成功的关键。他们发现敏捷模型是最有效的方法,Scrum成为事实上的标准。

机器学习项目要更加复杂的沟通,并且更难以让所有人保持同一页面;然而,目前还没有机器学习项目特定的最佳实践。我的理解是这表明了机器学习应用的初期阶段。我看到沟通再次成为项目的制约因素。我期待会有人提出新的Scrum调整,使机器学习项目运行更加顺利。

我们如何应对这个挑战?我的建议是尽可能突破界限。不要将自己局限在某个范围内。你的项目将受益于你能够弥合利益相关者之间的差距。

结束语

新兴的生成式人工智能将我们带入了一个无限挑战和机遇的蓝海。目前,一切都显得模糊而快速移动。每天都有很多东西需要学习、尝试和解决。好消息是,在下一次突破性创新出现之前,主要的生成式人工智能挑战是实践性的。其中大部分都是解决现实世界的问题,不需要高级数学技能。如果我们能为自己制定一个计划,有计划地建立自己的专业知识,我们将发现跟上最新发展变得更容易。我们可以继续成为有资源的机器学习顾问,并有机会将我们的实践贡献给机器学习社区。我不确定这个机会会持续多久,但这真是太棒了!

正如你所理解的,这是一个漫长的旅程。如果你同意我的愿景,请通过订阅和点赞来支持我,我可以与你分享我的进展。

参考资料

选择你的武器:抑郁的AI学者的生存策略

你是一名在学术机构从事人工智能研究的人吗?你是否对自己无法应对当前人工智能的步伐感到焦虑…

arxiv.org

RAG的缺点

最近,大型语言模型(LLM)的崛起在RAG系统中引起了很多兴趣。许多从业者…

VoAGI.com

在采用向量数据库之前需要了解的内容

为了继续我们朝着应用型生成式人工智能的旅程,我想讨论一些…

VoAGI.com

托管比OpenAI的解决方案更好、更便宜、更快的文本嵌入模型

通过一点技术努力,我们可以获得一个比OpenAI解决方案更好的文本嵌入模型。

VoAGI.com

使用PEFT和LoRA对嵌入模型进行微调

在我们之前的讨论中,我们探讨了嵌入模型的评估以及托管这些模型可能带来的潜在好处…

VoAGI.com

为什么Meta的最新大型语言模型只在线上存活了三天

Galactica本应该帮助科学家,而不是毫无思考地喷出有偏见和错误的胡言乱语。

www.technologyreview.com

Daliana Liu在LinkedIn上:我们对150多名数据科学家、机器学习工程师、高管和产品经理进行了调研

我们对29个国家的150多名数据科学家、机器学习工程师、高管和产品经理对LLM的使用进行了调查。以下是其中的3个

www.linkedin.com