什么是 AI Agent?
什么是Agent(智能体)?
Agent(智能体)是一种旨在智能地完成任务的系统,其能力范围可以从实现简单的目标到处理复杂的、开放式的工作流。
构建一个高效的Agent通常涉及将以下几个核心模块结合在一起:
- 核心智能(Core Intelligence): 依赖大语言模型(LLM)提供核心智能,使其具备推理、做出决策以及处理数据的能力。
- 工具与能力(Tools): Agent可以配备多种工具来扩展其能力并执行更广泛的任务。例如,它可以决定并调用网页搜索、代码执行、计算机使用、文件搜索等工具。Agent会自主评估是否有工具可以帮助处理用户的查询,执行工具,并基于工具返回的结果生成最终响应。
- 知识与记忆(Knowledge and memory): 通过向量库(Vector stores)、文件搜索和嵌入(embeddings)等功能,Agent可以访问外部的、持久化的知识,从而获取与特定用例高度相关的信息。
- 控制流逻辑(Control-flow logic): 包含用于处理条件、路由以及多个Agent之间协同工作的自定义逻辑。
根据设计复杂度的不同,Agent通常有三种典型的设计模式:
- FSM Agent(有限状态机Agent): 为Agent的行为定义可预测的状态(例如将不同的ReAct提示当作状态),好处是可预测性强且任务隔离,但可能会陷入循环或偏离原始请求。
- 任务规划Agent(Task-Planner Agent): 专注于拆解和规划特定任务的执行。
- 多智能体(Multi-Agent / Orchestration Agent): 用于协调和管理多个Agent协同工作的模式。
Agent vs Chatbot vs 传统API
- 传统API(如文本生成API、函数调用API等): 传统API提供的是特定的功能端点(Endpoints),如文本生成、代码生成或结构化输出。它们是被动执行的工具。开发者必须在代码中硬编码逻辑,一步步告诉程序何时请求API以及如何处理API的返回值。它缺乏自主规划或主动使用其他工具的能力。
- Chatbot(聊天机器人): Chatbot(例如通过ChatKit嵌入到产品UI中的对话界面)主要侧重于人机对话交互。基础的Chatbot通常依赖于预训练模型的内部知识来一问一答。如果用户的要求超出了它的预训练知识,它无法主动去寻找答案或执行复杂动作。
- Agent(智能体): Agent的核心区别在于**“自主规划”和“工作流执行”**。与传统API的“被动响应”和Chatbot的“单纯对话”不同,Agent拥有控制流逻辑和工具访问权限。当用户提出一个复杂目标时,Agent能够:
- 自主进行逻辑推理。
- 决定是否需要使用外部工具(如自己去查阅文件或调用网络搜索获取最新信息)。
- 获取工具返回的数据后再次进行分析整合,最终给出一个完整的解决方案。
Agent是如何进行决策的?
Agent(智能体)的决策与执行流程主要围绕如何评估用户需求并自主使用工具来解决问题。以Claude工具调用的标准工作流为例,Agent的决策流程通常包含以下几个核心步骤:
1. 接收输入与工具定义 首先,系统会向Agent提供用户的初始提示(例如“旧金山的天气怎么样?”)以及所有可用工具的定义(包括工具名称、描述和输入模式)。
2. 自主评估与决策 Agent的大语言模型(LLM)会发挥其核心智能,进行推理和数据处理。它会自主评估当前提供的工具中是否有能够帮助处理用户查询的工具。
3. 工具调用请求(或直接执行)
- 对于客户端工具(需开发者本地实现的工具): 如果Agent决定使用某个工具,它会构建一个格式正确的工具使用请求,并暂停生成(例如返回的停止原因为
tool_use),以此向系统表达它的意图。 - 对于服务端工具(如官方内置的网页搜索等): Agent在评估确认后,会直接在服务端执行该工具。
4. 执行工具并获取反馈 对于客户端工具,外部系统(开发者的代码)会从Agent的请求中提取工具名称和输入参数,在本地执行工具代码,并将执行结果(如 tool_result)作为新消息返回给Agent。
5. 分析结果并生成最终响应 最后,Agent会接收并分析工具返回的结果。它会将这些外部获取的真实数据或执行结果与原始上下文整合,从而为用户的原始提示生成最终的完整响应。此外,Agent的整体决策链路也会受到其控制流逻辑和设计模式的影响。例如,Agent可能会通过有限状态机(FSM)按照预设的可预测状态进行流转,或者通过任务规划(Task-Planner)模式将复杂目标拆解为多个子步骤进行顺序调用
Agent有哪些设计模式(范式)?
Agent 涉及多个设计模式,主要取决于你指的是什么类型的 Agent。我来为你介绍几种常见的设计模式:
1. Agentic Loop(代理循环)
最基础的 Agent 架构,包含:
- 感知 (Perception):收集环境信息
- 决策 (Decision):根据信息做出决策
- 执行 (Action):执行决策
- 反馈 (Feedback):评估结果,更新状态
2. ReAct(推理+行动)
结合推理和行动的模式:
- Agent 先进行思考/推理(reasoning)
- 然后采取行动(action)
- 观察结果后再次推理,形成闭环
3. Planner-Executor(计划-执行)
- Planner:制定高级计划
- Executor:执行具体步骤
- 适合复杂的多步任务
4. Hierarchical Agent(分层代理)
- 高层 Agent 负责战略决策
- 低层 Agent 执行具体操作
- 形成多层级的控制结构
5. Multi-Agent Collaboration(多代理协作)
多个 Agent 的协作模式:
- Master-Slave:主代理指挥从代理
- Peer-to-Peer:平等的代理相互通信
- 发布-订阅:通过事件进行通信
6. Tool Use / Function Calling
- Agent 可以调用外部工具或函数
- 扩展 Agent 的能力范围
7. Memory Patterns(记忆模式)
- Short-term Memory:当前会话状态
- Long-term Memory:历史经验和知识
- Episodic Memory:事件记忆
8. State Machine(状态机)
- Agent 在不同状态间转换
- 每个状态有明确的进入/退出条件
Agent 开发有哪些步骤?

实施 AI 智能体通常包括以下一系列步骤:
- 目标设定和范围界定
- 设计
- 框架、模型和工具选择
- 构建
- 培训
- 评估
- 部署和监测
目标设定和范围界定
第一步是为 AI 智能体制定明确的目标和范围。以下是一些可以提供帮助的问题:
- 智能体将解决什么问题?
- 智能体需要完成哪些任务?
- AI 智能体需要哪些数据或用户输入?
- 它需要做出哪些决定?
- 决策是自主的吗?还是需要人机回圈方法?
- 用户是谁?他们将如何使用这个 AI 系统?
这些问题的答案有助于指导设计步骤。
设计
智能体蓝图是在设计阶段起草的。该蓝图涵盖了架构、工作流、整合和体验。
对于简单的功能,例如客户支持智能体实时跟踪订单并为客户提供状态更新,单智能体架构可能就足够了。但对于复杂的任务,多智能体系统可能更合适。例如,在医疗保健领域,多智能体系统可以自动执行复杂的药物开发工作流,其中单智能体用于深入了解化合物库和总结医学研究,另一个生成式 AI 智能体用于生成新的分子设计。
架构有助于确定正确的 AI 智能体及其组件。架构还有助于制定智能体工作流,包括边缘案例和错误场景。对于多智能体生态系统,必须考虑通信协议、编排和协作策略。
如果智能体要直接与用户互动,则企业可以选择类似于聊天机器人的 AI 助手界面,例如 OpenAI 的 ChatGPT。智能体还需要制定与其他平台集成的计划,并考虑调用工具以访问应用程序编程接口 (API)、外部插件、客户数据和其他数据源,以便进行实时信息处理和动态决策。
框架、模型和工具选择
设计完成后,下一阶段是选择正确的框架、AI 模型和其他相关的 AI 工具或库。
组织可以使用 Python 或 JavaScript 等编程语言自行构建智能体。对于采用智能体框架的用户,一些常见的选择包括开源框架,如 BeeAI、CrewAI、LangChain、LangGraph 以及 Microsoft 的 AutoGen 和 Semantic Kernel 软件开发工具包 ( SDK )。
要使机器学习算法或大型语言模型 (LLM) 与 AI 智能体的功能和任务相一致,模型选择至关重要。公司还可能会研究专门的工具,例如检索增强生成 (RAG) 系统或 PyTorch、scikit-learn 和 TensorFlow 等库,以进一步增强他们的 AI 智能体。
构建
构建阶段是智能体开发操作发生的地方。为了避免不堪重负,企业可以采用模块化方法,单独制作每个组件,然后将它们组合成一个有效的 AI 智能体。这种模块化策略还便于维护,因为对每个部分的改动只会对整个智能体系统产生最小的影响。
除了构建 AI 智能体本身之外,组织在开发 agentic AI 时还必须考虑以下因素:
- 效率:AI 智能体必须快速处理数据、做出决策、执行操作并生成响应。
- 可扩展性:智能体必须足够强大,才能处理不断增长的数据量,而不会降低性能。
- 安全性:结合访问控制、身份验证和加密等安全防护措施,有助于防止对抗性攻击以及未经授权的访问和交互。
训练
模型训练需要 AI 模型从与智能体的功能和操作相关的示例任务训练数据集中学习。这是一个迭代过程,包括准备数据集,在这些数据上运行模型、通过损失或奖励信号衡量其性能,以及调整模型参数以改进未来的预测。
从头开始训练机器学习模型可能耗时长、成本高且耗费资源。公司可能更倾向于使用预训练模型,并根据特定于 AI 智能体任务的数据集对其微调。
评估
AI 智能体评估是对 AI 智能体进行测试和验证的过程,以确保其实现目标并按预期运行。这需要一个不同于训练数据集的测试或验证数据集,其多样性足以涵盖所有可能的测试案例并反映真实世界的场景。
在沙盒或模拟环境中进行测试,有助于在将智能体部署给真实用户之前,及早发现性能改进点,并识别任何安全问题和伦理风险。
与LLM 基准测试类似,AI 智能体也有一套评估指标。常见的包括成功率或任务完成率、错误率和延迟等功能指标,以及偏见、公平性分数和提示注入漏洞等伦理指标。与用户交互的智能体和机器人则会根据其对话流畅度、参与度和用户满意度得分进行评估。
在评估指标并分析测试结果后,智能体开发团队可以继续调试算法、修改智能体架构、完善逻辑和优化性能。
部署和监测
最后阶段需要将智能体系统部署到实时生产环境中,客户可以在其中与 AI 智能体进行交互并使用 AI 智能体。该阶段还包括持续监控,这对于跟踪和提升智能体性能、确保其适应新情况和挑战至关重要。
