分享
Agent:AI 智能体的介绍
输入“/”快速插入内容
Agent:AI 智能体的介绍
2024年7月25日修改
作者:
产品经理大群
原文:
https://zhuanlan.zhihu.com/p/659386.
🏖️
什么是Agent?Agent一词起源于拉丁语中的Agere,意思是“to do”。
在LLM语境下,Agent可以理解为在某种能自主理解、规划决策、执行复杂任务的智能体。
近年来,利用大语言模型(LLM)作为核心控制器来构建智能体是一个非常酷的想法。几个概念验证的演示项目,比如 AutoGPT、GPT-Engineer 和 BabyAGI, 都展现了LLM的潜力不仅止于生成高质量的文本,它还可以被塑造成一个强大的通用问题解决者。此外,LLM的应用范围远远超出了编写文本、故事、论文和程序代码,它可以作为智能体思维的大脑,辅以其他关键组件,构成一个功能全面的自治系统。
大模型的下半场,Agent的大爆发,类似寒武纪生命大爆发,BabyGPT、AutoGPT、Generative Agents等实验性产品相继出新。
从进化的角度来看,生命体的发展主要通过单元增强和组织增强两种方式实现。
这两种增强方式相辅相成,使生命具备了更多样复杂的表达形式。如同Agent——我们希望它是在任何系统中能够独立思考并与环境交互的智能体。
现在它已经有了一颗足够智商的“大脑”,如何让Agent像人一样思考和执行——只要给定任何一个目标,它就能自动解决各种问题。是进一步提高智商,增强智能体的“自身”单元;还是借助外部模块,强化“组织”能力?虽然今天的Agent尚无法完成通用任务,也难以如多细胞之间的社会化分工,形成动态稳定体。但在个体Agent的局部模块上,如HuggingGPT,已展示了其使用工具的能力,包括Plug-in成为实际落地的重要里程碑,在大模型的下半场,将是Agent寒武纪落地爆发的时刻。此刻Agent的落地瓶颈在哪里?它能否从专用抵达通用?多模态会为Agent带来什么?未来格局怎样演进?就像地球上诞生的第一个细胞一样,即使目前的Agent尚无法替代我们在实际工作中的角色,但一切的一切都源于这第一个细胞,它是智能体进化的起点。即使对Agent的落地再迷茫,也要继续“涌现”。
因为Agent的成败将是决定这一场GPT革命是否是新一代工业革命的关键。
以下将以结构化的思维来思考,Agent何去何从。
前言 什么是Agent
几天前,拥有25个Agent的AI小镇正式开源,「西部世界」AI Town随之构筑,AI Agents之间的互动,将演绎出整个文明的演化进程。OpenAI联合创始人Andrej Karpathy也高呼:“AI Agent代表着一个疯狂的未来。”
什么是Agent?Agent一词起源于拉丁语中的Agere,意思是“to do”。在LLM语境下,Agent可以理解为在某种能自主理解、规划决策、执行复杂任务的智能体。
Agent并非ChatGPT升级版,它不仅告诉你“如何做”,更会帮你去做。如果CoPilot是副驾驶,那么Agent就是主驾驶。
一个精简的Agent决策流程,用函数表达式:
Agent:P(感知)—> P(规划)—>A(行动)类似人类「做事情」的过程,Agent的核心功能,可以归纳为三个步骤的循环:
感知(Perception)、规划(Planning)和行动(Action)
。感知(Perception)是指Agent从环境中收集信息并从中提取相关知识的能力,规划(Planning)是指Agent为了某一目标而作出的决策过程,行动(Action)是指基于环境和规划做出的动作。其中,Policy是Agent做出Action的核心决策,而行动又通过观察(Observation)成为进一步Perception的前提和基础,形成自主地闭环学习过程。这一过程就像马克思主义的「实践论」:“认识从实践开始,经过实践得到了理论的认识,再回到实践中去。”Agent也在知行合一中进化。
一个更完整的Agent,一定是与环境充分交互的,它包括两部分——一是Agent的部分,二是环境的部分。
此刻的Agent就如同物理世界中的「人类」,物理世界就是人类的「外部环境」。
目前无论是中国还是美国,新的共识正在逐渐形成:第一是Agent需要调用外部工具,第二是调用工具的方式就是输出代码——由LLM大脑输出一种可执行的代码,像是一个语义分析器,由它理解每句话的含义,然后将其转换成一种机器指令,再去调用外部的工具来执行或生成答案。
01
Agent 智能体系统概览
可以想象,人类与外部环境交互的过程
:我们基于对这个世界的全部感知,推导出其隐藏的状态,并结合自己的记忆和对世界的知识理解,进而做出Planning、决策和行动;而行动又会反作用于环境,给我们新的反馈,人类结合对反馈的观察,继而再做决策,以此循环往复。
最直观的公式:Agent = LLM+Planning+Feedback+Tool use
其中,在做 Planning 的过程中,除了基于现在的状态,还有要记忆、经验,一些对过往的反思和总结,同时还有世界知识。对比今天的ChatGPT,它其实并非Agent,而是一个通用的世界知识,即用来做 Planning 的知识源,它没有基于具体的环境状态,也没有Memory,Experience和Reflection。当然,ChatGPT基于自身的知识可以做逻辑推理和一定的规划,也可以加向量数据库解决推理问题,加 Reflection 让过程更丰富,如此看来,可将ChatGPT这个端到端的黑盒子变得显性化一点儿——其实符号就是一个非常显性的系统,基于此可以定向纠错,定向提升。对于Feedback,Agent基于Action得到正向的或试错的反馈、阶段性结果或奖励。Feedback有多种形式,如果将与我们聊天的ChatGPT视为一个Agent,我们在文本框中敲入的回复就是一种Feedback,只不过是一种文本形式的Feedback,此时我们对于ChatGPT来说,就是一种环境。RLHF也是一种环境,一种极度简单的环境。
“人类之所以是人类,因为他会使用工具。 ”
在一个基于LLM的Agent自治智能体系统中,LLM发挥大脑的功能,同时还需要以下几个关键组件的配合:
规划
子目标分解:智能体将复杂的大任务分解成多个较小、可管理的子目标,以便有效处理复杂任务。
反思与优化:智能体可以对过去的行动进行自我批评和反思,从错误中学习,并在未来的步骤中进行改进,以此不断提高最终结果的质量。
记忆
短期记忆:可以考虑模型的上下文学习(Prompt Engineering)就是利用了短期记忆来学习。
长期记忆:提供一个外部向量存储,智能体可以在查询时进行访问,实现快速检索,以获取大量信息。
工具使用
智能体可以调用外部API获得模型权重中所没有的额外信息,包括实时信息、代码执行能力、对专属信息源的访问等。