生成式人工智能中的LLM代理解码机会和挑战
LLM代理解码机会和挑战' in English means 'Opportunities and Challenges of LLM Agent Decoding in Generative Artificial Intelligence'.
我们正在看到一系列由大型语言模型(LLM)驱动的生成式AI应用程序的发展,从提示到检索增强生成(RAG),再到代理。代理在工业和研究圈子中被广泛讨论,主要是因为这项技术能够改变企业应用程序并提供卓越的客户体验。建立代理的常见模式可以为实现人工通用智能(AGI)迈出第一步。
在我之前的文章中,我们看到了构建LLM驱动应用程序的智能模式的阶梯。从捕获问题域并使用LLM内部存储器生成输出的提示开始。通过RAG,我们使用从向量数据库中搜索的外部知识来增强提示,以控制输出。接下来,通过链接LLM调用,我们可以构建工作流程来实现复杂的应用程序。代理通过自动确定如何形成这些LLM链条将其提升到一个新的水平。让我们详细了解一下。
代理 – 内部机制
代理的一个关键模式是利用LLM的语言理解能力制定解决给定问题的计划。LLM理解问题并给出解决问题的一系列步骤。然而,它并不止于此。代理不仅仅是一个纯粹的支持系统,会为您提供解决问题的建议,然后将棒接过来让您采取建议的步骤。代理还具备工具来继续采取行动。很可怕,对吧!
如果我们向代理问一个基本问题,例如:
人类:发明电话的人创办了哪家公司?
以下是代理可能采取的思考步骤的示例。
代理(思考):
- 思考:我需要搜索发明电话的人。
- 行动:搜索[发明电话的人]
- 观察:亚历山大·格雷厄姆·贝尔
- 思考:我需要搜索由亚历山大·格雷厄姆·贝尔创办的公司。
- 行动:搜索[由亚历山大·格雷厄姆·贝尔创办的公司]
- 观察:亚历山大·格雷厄姆·贝尔于1885年共同创办了美国电话电报公司(AT&T)
- 思考:我已经找到了答案。我将返回。
代理(响应):亚历山大·格雷厄姆·贝尔于1885年与AT&T共同创办了公司
您可以看到,代理以一种有条理的方式将问题分解为可以通过采取特定行动解决的子问题。这些行动是由LLM推荐的,我们可以将其映射到具体的工具以实现这些行动。我们可以为代理启用一个搜索工具,这样当它意识到LLM已经提供了搜索作为一个行动时,它将使用LLM提供的参数调用这个工具。这里的搜索是在互联网上进行的,但也可以重定向到搜索内部知识库,如向量数据库。系统现在变得自给自足,并且可以通过一系列步骤解决复杂的问题。像LangChain和LLaMAIndex这样的框架为您提供了一种简单的方式来构建这些代理并连接到工具和API。亚马逊最近推出了他们的Bedrock代理框架,提供了一个可视化界面来设计代理。
在内部机制方面,代理遵循一种特殊的方式向LLM发送提示,以生成一个行动计划。上述的思考-行动-观察模式在一种名为ReAct(推理和行动)的代理类型中很受欢迎。其他类型的代理包括MRKL和计划与执行,它们的提示风格主要有所不同。
对于更复杂的代理,行动可能与导致源系统变化的工具相关联。例如,我们可以将代理连接到一个工具,该工具检查员工的休假余额并在ERP系统中申请休假。现在我们可以构建一个与用户交互的好用的聊天机器人,并通过聊天命令在系统中申请休假。不再需要复杂的屏幕来申请休假,只需要一个简单统一的聊天界面。听起来很令人兴奋吧!
注意事项和负责任的AI的需求
现在假设我们有一个使用预授权API在股票交易上触发交易的工具。您构建了一个应用程序,其中代理使用工具研究股票变化并为您在购买和出售股票方面做出决策。如果代理因为产生幻觉而做出错误的决策而卖掉了错误的股票怎么办?由于LLM是巨大的模型,很难准确定位它们为什么做出某些决策,因此在没有适当的保护措施的情况下,幻觉是很常见的。
虽然代理人都很有趣,但你可能已经猜到它们有多危险。如果它们产生幻觉并采取错误的行动,可能会造成巨大的财务损失或企业系统的重大问题。因此,在LLM驱动应用程序的时代,负责任的人工智能变得至关重要。负责任的人工智能原则围绕可复现性、透明度和问责制,试图对代理人所做的决策进行监控,并建议进行风险分析,以决定哪些行动需要人类参与。随着越来越复杂的代理人被设计出来,我们需要更多的审查、透明度和问责制,以确保我们知道它们在做什么。
总结
代理人生成具有行动的逻辑步骤的能力使它们接近人类的推理能力。赋予它们更强大的工具可以让它们具备超能力。像ReAct这样的模式试图模拟人类如何解决问题,我们将看到更好的代理人模式,这些模式将与特定的上下文和领域(银行、保险、医疗保健、工业等)相关。未来已经来临,代理人背后的技术已经准备好供我们使用。与此同时,我们需要密切关注负责任的人工智能的监管措施,以确保我们不会建立“天网”!