Skip to content

AI Agents

AI Agent(人工智能代理)是能够感知环境、制定计划、使用工具并执行复杂任务的智能系统。与单纯的对话模型不同,Agent 具备自主性(autonomy)、反应性(reactivity)、主动性(proactivity)和社会能力(social ability)。从简单的 ReAct 提示模式到复杂的 Multi-Agent 系统,AI Agent 正在成为 LLM 应用的下一个主战场。

核心特征

与普通 LLM 的区别

特征普通 LLMAI Agent
交互方式单轮对话多轮循环
工具使用可调用外部 API
记忆上下文窗口长期记忆 + 短期记忆
规划即时生成多步骤规划
反馈用户输入环境反馈

Agent 能力栈

感知 (Perception)

思考 (Reasoning) ←→ 记忆 (Memory)

行动 (Action) ←→ 工具 (Tools)

环境反馈 (Observation)

[循环]

架构模式

1. ReAct (Reasoning + Acting)

最基础的 Agent 模式,交替进行推理和行动:

思考 1: 我需要查找某个信息
行动 1: 搜索("query")
观察 1: 搜索结果是 ...
思考 2: 基于这个结果,我需要 ...
行动 2: 计算("expression")
观察 2: 计算结果是 ...
思考 3: 现在我可以给出答案
行动 3: 答复("final answer")

代表: ReAct 论文 (Yao et al., 2022)

2. Plan-and-Execute

先制定计划,再逐步执行:

计划阶段:
1. 分解任务为子任务
2. 确定依赖关系
3. 生成执行计划

执行阶段:
按计划逐步执行,根据反馈调整

代表: Plan-and-Solve, AutoGPT 早期架构

3. Multi-Agent 系统

多个 Agent 协作完成复杂任务:

管理员 Agent: 分配任务、协调进度

研究员 Agent: 搜索信息、分析数据

编码员 Agent: 编写代码、运行测试

审查员 Agent: 评估结果、提出修改意见

代表: MetaGPT, AutoGen, CrewAI

4. Tool Use / Function Calling

Agent 调用外部工具扩展能力:

工具类型例子用途
搜索Google Search, Bing获取实时信息
计算Python, Wolfram精确计算
数据库SQL, 向量数据库检索结构化数据
API天气、股票、地图访问外部服务
文件系统读写文件处理本地数据

记忆系统

短期记忆 (Short-term Memory)

  • 上下文窗口: 当前对话历史
  • 工作记忆: 当前任务的中间状态

长期记忆 (Long-term Memory)

类型存储检索
事实记忆向量数据库语义搜索
程序记忆技能库匹配调用
情境记忆事件日志时间线检索

主流框架与工具

框架特点适用场景
LangChain最早的 Agent 框架,生态丰富快速原型开发
LlamaIndex以 RAG 为中心的 Agent 构建知识密集型应用
AutoGenMicrosoft 开发的 Multi-Agent 框架多 Agent 协作
CrewAI基于角色的 Multi-Agent 框架团队工作流
OpenAI Assistants商业级 API生产环境
Dify可视化 Agent 工作流编排低代码开发
Coze字节跳动的 Bot 开发平台快速搭建
Hermes Agent服务器端自主 Agent,多平台消息网关、持久化记忆、子 Agent 委托24/7 自主 AI 助手
OpenClaw开源多平台 AI Agent 网关,20+ 消息渠道、语音唤醒、配套应用生态个人 AI 助手、团队协作
ClineVS Code 插件形式的自主编码 Agent,human-in-the-loop 设计IDE 内编码协作
Aider终端 AI 结对编程工具,Git 集成、Repo Map、多模态输入终端编码协作

应用场景

场景能力产品例子
自动化研究搜索、总结、分析Perplexity, Glean
代码生成编码、调试、测试Cursor, GitHub Copilot
客服机器人理解、查询、解决智能客服系统
数据分析查询、可视化、报告自动化 BI
内容创作研究、撰写、优化自动化内容工具
任务自动化规划、执行、验证AutoGPT 类工具

挑战与限制

技术挑战

  1. 可靠性: Agent 可能陷入循环或走偏
  2. 成本: 多轮调用 LLM 成本高
  3. 安全: 工具调用可能引入风险
  4. 可解释性: 复杂的决策过程难以追踪

评估难题

  • 确定性 vs 灵活性: 固定流程可靠但不灵活,动态决策灵活但不可控
  • 边界情况: 异常处理能力不足
  • 比较基准: 缺乏标准化的 Agent 评估方法

Synthesis

AI Agent 代表了从"工具"到"伙伴"的跳跃。它不仅仅是 LLM 的一层包装,而是一种新的计算范式——模型可以主动与环境交互、使用工具、完成复杂任务。当前 Agent 技术仍处于早期阶段,但已经在代码生成、自动化研究、客服等领域展现出巨大潜力。未来的关键在于提升可靠性、降低成本和建立标准评估体系。

Sources

  • "ReAct: Synergizing Reasoning and Acting in Language Models" (Yao et al., 2022)

  • "AutoGPT: An Autonomous GPT-4 Experiment" (2023)

  • "MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework" (2023)

  • "AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation" (Microsoft, 2023)

  • Large Language Model (LLM) — 大语言模型的核心定义、技术原理与发展历程

AI Knowledge Base — 持续积累