Agent：AI 智能体的介绍

2024年7月25日修改

原文：https://zhuanlan.zhihu.com/p/659386.

🏖️

什么是Agent？Agent一词起源于拉丁语中的Agere，意思是“to do”。​
在LLM语境下，Agent可以理解为在某种能自主理解、规划决策、执行复杂任务的智能体。​

近年来,利用大语言模型(LLM)作为核心控制器来构建智能体是一个非常酷的想法。几个概念验证的演示项目,比如 AutoGPT、GPT-Engineer 和 BabyAGI, 都展现了LLM的潜力不仅止于生成高质量的文本,它还可以被塑造成一个强大的通用问题解决者。此外，LLM的应用范围远远超出了编写文本、故事、论文和程序代码,它可以作为智能体思维的大脑,辅以其他关键组件,构成一个功能全面的自治系统。​

大模型的下半场，Agent的大爆发，类似寒武纪生命大爆发，BabyGPT、AutoGPT、Generative Agents等实验性产品相继出新。 从进化的角度来看，生命体的发展主要通过单元增强和组织增强两种方式实现。 这两种增强方式相辅相成，使生命具备了更多样复杂的表达形式。如同Agent——我们希望它是在任何系统中能够独立思考并与环境交互的智能体。​

现在它已经有了一颗足够智商的“大脑”，如何让Agent像人一样思考和执行——只要给定任何一个目标，它就能自动解决各种问题。是进一步提高智商，增强智能体的“自身”单元；还是借助外部模块，强化“组织”能力？虽然今天的Agent尚无法完成通用任务，也难以如多细胞之间的社会化分工，形成动态稳定体。但在个体Agent的局部模块上，如HuggingGPT，已展示了其使用工具的能力，包括Plug-in成为实际落地的重要里程碑，在大模型的下半场，将是Agent寒武纪落地爆发的时刻。此刻Agent的落地瓶颈在哪里？它能否从专用抵达通用？多模态会为Agent带来什么？未来格局怎样演进？就像地球上诞生的第一个细胞一样，即使目前的Agent尚无法替代我们在实际工作中的角色，但一切的一切都源于这第一个细胞，它是智能体进化的起点。即使对Agent的落地再迷茫，也要继续“涌现”。 因为Agent的成败将是决定这一场GPT革命是否是新一代工业革命的关键。​

以下将以结构化的思维来思考，Agent何去何从。

前言什么是Agent

几天前，拥有25个Agent的AI小镇正式开源，「西部世界」AI Town随之构筑，AI Agents之间的互动，将演绎出整个文明的演化进程。OpenAI联合创始人Andrej Karpathy也高呼：“AI Agent代表着一个疯狂的未来。”​

什么是Agent？Agent一词起源于拉丁语中的Agere，意思是“to do”。在LLM语境下，Agent可以理解为在某种能自主理解、规划决策、执行复杂任务的智能体。 Agent并非ChatGPT升级版，它不仅告诉你“如何做”，更会帮你去做。如果CoPilot是副驾驶，那么Agent就是主驾驶。​

common.docs_name - LarkCCM_Docs_Menu_Image

一个精简的Agent决策流程，用函数表达式：

Agent：P（感知）—> P（规划）—>A（行动）类似人类「做事情」的过程，Agent的核心功能，可以归纳为三个步骤的循环： 感知(Perception)、规划(Planning)和行动(Action) 。感知(Perception)是指Agent从环境中收集信息并从中提取相关知识的能力，规划(Planning)是指Agent为了某一目标而作出的决策过程，行动(Action)是指基于环境和规划做出的动作。其中，Policy是Agent做出Action的核心决策，而行动又通过观察（Observation）成为进一步Perception的前提和基础，形成自主地闭环学习过程。这一过程就像马克思主义的「实践论」：“认识从实践开始，经过实践得到了理论的认识，再回到实践中去。”Agent也在知行合一中进化。​

一个更完整的Agent，一定是与环境充分交互的，它包括两部分——一是Agent的部分，二是环境的部分。 此刻的Agent就如同物理世界中的「人类」，物理世界就是人类的「外部环境」。​

目前无论是中国还是美国，新的共识正在逐渐形成：第一是Agent需要调用外部工具，第二是调用工具的方式就是输出代码——由LLM大脑输出一种可执行的代码，像是一个语义分析器，由它理解每句话的含义，然后将其转换成一种机器指令，再去调用外部的工具来执行或生成答案。​

01 Agent 智能体系统概览

可以想象，人类与外部环境交互的过程 ：我们基于对这个世界的全部感知，推导出其隐藏的状态，并结合自己的记忆和对世界的知识理解，进而做出Planning、决策和行动；而行动又会反作用于环境，给我们新的反馈，人类结合对反馈的观察，继而再做决策，以此循环往复。 最直观的公式：Agent = LLM+Planning+Feedback+Tool use 其中，在做 Planning 的过程中，除了基于现在的状态，还有要记忆、经验，一些对过往的反思和总结，同时还有世界知识。对比今天的ChatGPT，它其实并非Agent，而是一个通用的世界知识，即用来做 Planning 的知识源，它没有基于具体的环境状态，也没有Memory，Experience和Reflection。当然，ChatGPT基于自身的知识可以做逻辑推理和一定的规划，也可以加向量数据库解决推理问题，加 Reflection 让过程更丰富，如此看来，可将ChatGPT这个端到端的黑盒子变得显性化一点儿——其实符号就是一个非常显性的系统，基于此可以定向纠错，定向提升。对于Feedback，Agent基于Action得到正向的或试错的反馈、阶段性结果或奖励。Feedback有多种形式，如果将与我们聊天的ChatGPT视为一个Agent，我们在文本框中敲入的回复就是一种Feedback，只不过是一种文本形式的Feedback，此时我们对于ChatGPT来说，就是一种环境。RLHF也是一种环境，一种极度简单的环境。 “人类之所以是人类，因为他会使用工具。 ”​

在一个基于LLM的Agent自治智能体系统中,LLM发挥大脑的功能,同时还需要以下几个关键组件的配合:​

规划

子目标分解:智能体将复杂的大任务分解成多个较小、可管理的子目标,以便有效处理复杂任务。​

反思与优化:智能体可以对过去的行动进行自我批评和反思,从错误中学习,并在未来的步骤中进行改进,以此不断提高最终结果的质量。​

记忆

短期记忆:可以考虑模型的上下文学习(Prompt Engineering)就是利用了短期记忆来学习。​

长期记忆:提供一个外部向量存储,智能体可以在查询时进行访问,实现快速检索,以获取大量信息。​

工具使用

智能体可以调用外部API获得模型权重中所没有的额外信息,包括实时信息、代码执行能力、对专属信息源的访问等。​

Agent：AI 智能体的介绍​

Agent：AI 智能体的介绍