超越ChatGPT;AI代理:工作者的新世界
超越ChatGPT;AI代理:新世界
随着深度学习、自然语言处理(NLP)和人工智能的进步,我们正处于一个人工智能代理可能占据全球劳动力的重要部分的时期。这些人工智能代理,超越了聊天机器人和语音助手,正在为行业和我们的日常生活塑造一种新的范式。但是,生活在这些“工人”增强的世界中真正意味着什么?本文深入探讨了这个不断演变的领域,评估了前景、潜力和面临的挑战。
简要回顾:AI工人的演变
在理解即将发生的革命之前,要认识到已经发生的以人工智能为驱动的演变是至关重要的。
- 传统计算系统:从基本的计算算法开始,这个旅程就开始了。这些系统可以使用一组固定规则解决预定义的任务。
- 聊天机器人和早期语音助手:随着技术的发展,我们的界面也在不断进化。像Siri、Cortana和早期的聊天机器人简化了用户与人工智能的交互,但理解力和能力有限。
- 神经网络和深度学习:神经网络标志着一个转折点,模仿人脑功能,并通过经验不断进化。深度学习技术进一步增强了这一点,实现了复杂的图像和语音识别。
- Transformer和先进的NLP模型:Transformer架构的引入彻底改变了NLP领域。OpenAI的ChatGPT、BERT和T5等系统实现了人工智能与人类之间的重大突破。凭借对语言和语境的深刻理解,这些模型可以进行有意义的对话、撰写内容,并以前所未有的准确性回答复杂问题。
进入AI代理:不仅仅是对话
今天的人工智能领域暗示着比对话工具更广阔的东西。AI代理不仅仅是简单的聊天功能,现在可以执行任务、从环境中学习、做出决策,甚至展示创造力。它们不仅仅是回答问题;它们正在解决问题。
传统的软件模型按照明确的路径工作。利益相关者向软件经理表达目标,然后设计一个具体的计划。工程师会通过代码来执行这个计划。这种“传统范式”的软件功能是明确的,涉及大量人为干预。
然而,AI代理的运行方式不同。一个代理:
- 有它想要实现的目标。
- 可以与环境进行交互。
- 根据这些观察制定一个计划来实现它的目标。
- 采取必要的行动,根据环境的变化状态调整方法。
真正区别AI代理与传统模型的能力在于它们能够自主地创建一个逐步实现目标的计划。实质上,尽管以前是程序员提供计划,但如今的AI代理制定自己的路线。
考虑一个日常的例子。在传统的软件设计中,一个程序会根据预先确定的条件通知用户有关逾期任务的情况。开发人员会根据产品经理提供的规格设定这些条件。
在AI代理范式中,代理本身决定何时以及如何通知用户。它评估环境(用户的习惯、应用程序状态),并决定最佳行动方案。因此,这个过程变得更加动态、更加即时。
ChatGPT通过集成插件的方式,标志着它在传统用途上的变化,从而使其能够利用外部工具执行多个请求。它成为代理概念的早期体现。如果我们考虑一个简单的例子:一个用户询问纽约市的天气,ChatGPT可以利用插件与外部的天气API进行交互,解释数据,甚至根据收到的响应进行修正。
当前AI代理的现状
AI代理,包括Auto-GPT、AgentGPT和BabyAGI,正在预示着广阔的人工智能宇宙中的一个新时代。虽然ChatGPT通过需要人类输入而推广了生成性人工智能,但AI代理背后的愿景是使人工智能能够独立运行,少或无需人类干预地朝着目标前进。这种变革潜力已经得到了Auto-GPT的迅猛崛起的强调,在其创立仅仅六周之内在GitHub上获得了超过107,000个星标,与数据科学包“pandas”等已经建立的项目相比,这是一种前所未有的增长。
AI代理与ChatGPT
许多先进的AI代理,如Auto-GPT和BabyAGI,利用了GPT架构。它们的主要目标是尽量减少人类干预AI任务完成的需求。像AgentGPT和BabyAGI这样的模型的操作被描述为“GPT循环”。它们通过迭代循环来更好地理解用户请求并改进其输出。与此同时,Auto-GPT通过整合互联网访问和代码执行功能,进一步扩大了其解决问题的范围。
AI代理的创新
- 长期记忆:传统的LLM(长期记忆模型)的记忆能力有限,仅保留最近的交互片段。对于综合任务来说,回忆整个对话甚至以前的对话变得至关重要。为了克服这个问题,AI代理采用了嵌入式工作流程,将文本对话转换为数值数组,提供了解决记忆限制的方法。
- 浏览网页的能力:为了与最新事件保持同步,Auto-GPT配备了浏览能力,使用Google搜索API。这在AI社区引发了关于AI知识范围的争议。
- 运行代码:Auto-GPT不仅可以生成代码,还可以执行Shell和Python代码。这种前所未有的能力使其能够与其他软件进行交互,从而扩大了其操作领域。
该图示了由大型语言模型和代理驱动的AI系统的架构。
- 输入:系统从多种来源接收数据:直接用户命令、结构化数据库、网页内容和实时环境传感器。
- LLM和代理:在核心部分,LLM处理这些输入,并与像
Auto-GPT
进行思维链接,与像AgentGPT
进行特定于网络的任务,与像BabyAGI
进行特定于任务的操作,与像HuggingGPT
进行团队处理的专门代理合作。 - 输出:一旦处理完毕,信息会被转换为用户友好的格式,然后传递给可以对外部环境产生影响或影响的设备。
- 记忆组件:系统通过短期缓存和长期数据库来临时和永久地保存信息。
- 环境:这是外部领域,它影响传感器并受到系统行为的影响。
先进的AI代理:Auto-GPT、BabyAGI等
AutoGPT和AgentGPT
AutoGPT是一个于2023年3月在GitHub上发布的创新性基于Python的应用程序,利用了OpenAI的革命性生成模型GPT。Auto-GPT与其前辈的区别在于其自主性-它被设计为在最小的人类指导下执行任务,并具有自我启动提示的独特能力。用户只需定义一个总体目标,Auto-GPT便会生成必要的提示来实现该目标,使其成为迈向真正人工通用智能(AGI)的潜在革命性飞跃。
借助GPT-3.5的互联网连接、内存管理和文件存储能力,这个工具擅长处理广泛的任务,从传统的电子邮件撰写到通常需要更多人类参与的复杂任务。
另一方面,AgentGPT也是基于GPT框架构建的以用户为中心的界面,不需要广泛的编程专业知识来设置和使用。AgentGPT允许用户定义AI目标,然后将其拆分为可管理的任务。
AgentGPT用户界面
此外,AgentGPT以其多功能性脱颖而出。它不仅局限于创建聊天机器人,还可以扩展其功能,创建各种应用程序,如Discord机器人,甚至与Auto-GPT无缝集成。这种方法确保即使那些没有广泛编码背景的人也能够完成完全自主的编码、文本生成、语言翻译和问题解决等任务。
LangChain是一个框架,它将大型语言模型(LLMs)与各种工具进行了连接,并利用代理人(通常被称为“机器人”)通过选择适当的工具来确定和执行特定任务。这些代理人无缝地与外部资源集成,而LangChain中的向量数据库存储非结构化数据,为LLMs提供快速的信息检索。
BabyAGI
接下来,有BabyAGI,一个简化但功能强大的代理人。要理解BabyAGI的能力,想象一个数字化的项目经理,它可以自主地创建、组织和执行任务,并专注于给定的目标。虽然大多数以人工智能驱动的平台都受限于它们预先训练的知识,但BabyAGI以其能够根据经验进行适应和学习的能力而脱颖而出。它具有深刻的辨别反馈的能力,并且像人类一样基于试错来做出决策。
值得注意的是,BabyAGI的优势不仅在于其适应性,还在于其在特定目标的代码运行方面的熟练程度。它在加密货币交易、机器人技术和自动驾驶等复杂领域表现出色,使其成为众多应用中的多功能工具。
Task-driven Autonomous Agent Utilizing GPT-4, Pinecone, and LangChain for Diverse Applications
该过程可以分为三个代理人:
- 执行代理人:系统的核心,该代理人利用OpenAI的API进行任务处理。给定一个目标和一个任务,它会提示OpenAI的API并获取任务结果。
- 任务创建代理人:此功能根据先前的结果和当前的目标创建新任务。一个提示被发送到OpenAI的API,然后返回潜在的任务,以字典列表的形式组织。
- 任务优先级代理人:最后一个阶段涉及根据优先级对任务进行排序。该代理人使用OpenAI的API重新排序任务,确保最关键的任务先执行。
BabyAGI与OpenAI的语言模型合作,利用Pinecone的能力进行上下文中心的任务结果存储和检索。
以下是使用此链接演示BabyAGI的示例。
要开始,您需要一个有效的OpenAPI密钥。为了方便访问,界面上有一个设置部分,可以在其中输入OpenAPI密钥。另外,如果您希望管理成本,请记得设置迭代次数的限制。
一旦我配置好了应用程序,我进行了一个小实验。我向BabyAGI发布了一个提示:“撰写一个简明的推文系列,重点关注个人成长的旅程,涉及里程碑、挑战和持续学习的变革力量。”
BabyAGI给出了一个经过深思熟虑的计划。它不仅仅是一个通用模板,而是一份全面的路线图,表明底层的人工智能确实理解了请求的细微差别。
Deepnote AI Copilot
Deepnote AI Copilot改变了笔记本中数据探索的动态。但它有什么独特之处呢?
Deepnote AI的核心目标是增强数据科学家的工作流程。一旦您提供了一个基本的指令,人工智能就会立即行动起来,制定策略,执行SQL查询,使用Python可视化数据,并以清晰的方式呈现其发现。
Deepnote AI的一个优势是它对您的工作空间有全面的把握。通过理解集成模式和文件系统,它可以完美地将其执行计划与组织上下文相一致,确保其洞察力始终相关。
人工智能与笔记本VoAGIs的集成创造了一个独特的反馈循环。它积极评估代码输出,使其擅长自我修正,并确保结果与设定的目标一致。
Deepnote AI因其透明的操作而脱颖而出,清晰地展示了其过程。代码和输出的交织确保其行动始终可靠且可重现。
CAMEL
CAMEL是一个旨在促进AI代理之间合作的框架,旨在实现高效的任务完成,减少人工监督。
https://github.com/camel-ai/camel
它将其操作分为两种主要的代理类型:
- AI用户代理布置指令。
- AI助理代理根据提供的指令执行任务。
CAMEL的一个愿景是揭示AI思维过程的复杂性,旨在优化多个代理之间的协同效应。通过角色扮演和激励启示等功能,它确保AI任务与人类目标无缝对接。
西部世界模拟:给AI带来生命
西部世界模拟源于Unity软件等灵感,经过Python改编,是对多个AI代理相互作用的环境进行模拟和优化的一次飞跃,几乎可以视为一个数字社会。
生成式代理
这些代理不仅仅是数字实体。它们模拟逼真的人类行为,从日常例行程序到复杂的社交互动。它们的架构扩展了一个大型语言模型,用于存储经验、反思并将其用于动态行为规划。
西部世界的互动沙盒环境,类似于《模拟人生》,让一个由生成式代理居住的城镇栩栩如生。在这里,用户可以与这些代理互动、观察并引导它们度过一天,观察出现的行为和复杂的社交动态。
西部世界模拟体现了计算能力和类似于人类的复杂性的和谐融合。通过将巨大的语言模型与动态代理模拟相结合,它为打造与现实难以区分的AI体验铺平了道路。
结论
AI代理可以具备非常高的灵活性,它们正在塑造行业,改变工作流程,并实现曾经看似不可能的壮举。但与所有具有突破性创新一样,它们并不完美。
虽然它们有能力重塑我们数字存在的基石,但这些代理仍然面临一些挑战,其中一些挑战是与人类天然相关的,例如在细微情境中理解上下文或处理超出其训练数据集范围的问题。
在下一篇文章中,我们将深入探讨AutoGPT和GPT Engineer,研究如何设置和使用它们。此外,我们还将探讨这些AI代理偶尔出现问题的原因,例如陷入循环等问题。请继续关注!