Appearance
AI Agents
AI Agent(人工智能代理)是能够感知环境、制定计划、使用工具并执行复杂任务的智能系统。与单纯的对话模型不同,Agent 具备自主性(autonomy)、反应性(reactivity)、主动性(proactivity)和社会能力(social ability)。从简单的 ReAct 提示模式到复杂的 Multi-Agent 系统,AI Agent 正在成为 LLM 应用的下一个主战场。
核心特征
与普通 LLM 的区别
| 特征 | 普通 LLM | AI Agent |
|---|---|---|
| 交互方式 | 单轮对话 | 多轮循环 |
| 工具使用 | 无 | 可调用外部 API |
| 记忆 | 上下文窗口 | 长期记忆 + 短期记忆 |
| 规划 | 即时生成 | 多步骤规划 |
| 反馈 | 用户输入 | 环境反馈 |
Agent 能力栈
感知 (Perception)
↓
思考 (Reasoning) ←→ 记忆 (Memory)
↓
行动 (Action) ←→ 工具 (Tools)
↓
环境反馈 (Observation)
↓
[循环]架构模式
1. ReAct (Reasoning + Acting)
最基础的 Agent 模式,交替进行推理和行动:
思考 1: 我需要查找某个信息
行动 1: 搜索("query")
观察 1: 搜索结果是 ...
思考 2: 基于这个结果,我需要 ...
行动 2: 计算("expression")
观察 2: 计算结果是 ...
思考 3: 现在我可以给出答案
行动 3: 答复("final answer")代表: ReAct 论文 (Yao et al., 2022)
2. Plan-and-Execute
先制定计划,再逐步执行:
计划阶段:
1. 分解任务为子任务
2. 确定依赖关系
3. 生成执行计划
执行阶段:
按计划逐步执行,根据反馈调整代表: Plan-and-Solve, AutoGPT 早期架构
3. Multi-Agent 系统
多个 Agent 协作完成复杂任务:
管理员 Agent: 分配任务、协调进度
↓
研究员 Agent: 搜索信息、分析数据
↓
编码员 Agent: 编写代码、运行测试
↓
审查员 Agent: 评估结果、提出修改意见代表: MetaGPT, AutoGen, CrewAI
4. Tool Use / Function Calling
Agent 调用外部工具扩展能力:
| 工具类型 | 例子 | 用途 |
|---|---|---|
| 搜索 | Google Search, Bing | 获取实时信息 |
| 计算 | Python, Wolfram | 精确计算 |
| 数据库 | SQL, 向量数据库 | 检索结构化数据 |
| API | 天气、股票、地图 | 访问外部服务 |
| 文件系统 | 读写文件 | 处理本地数据 |
记忆系统
短期记忆 (Short-term Memory)
- 上下文窗口: 当前对话历史
- 工作记忆: 当前任务的中间状态
长期记忆 (Long-term Memory)
| 类型 | 存储 | 检索 |
|---|---|---|
| 事实记忆 | 向量数据库 | 语义搜索 |
| 程序记忆 | 技能库 | 匹配调用 |
| 情境记忆 | 事件日志 | 时间线检索 |
主流框架与工具
| 框架 | 特点 | 适用场景 |
|---|---|---|
| LangChain | 最早的 Agent 框架,生态丰富 | 快速原型开发 |
| LlamaIndex | 以 RAG 为中心的 Agent 构建 | 知识密集型应用 |
| AutoGen | Microsoft 开发的 Multi-Agent 框架 | 多 Agent 协作 |
| CrewAI | 基于角色的 Multi-Agent 框架 | 团队工作流 |
| OpenAI Assistants | 商业级 API | 生产环境 |
| Dify | 可视化 Agent 工作流编排 | 低代码开发 |
| Coze | 字节跳动的 Bot 开发平台 | 快速搭建 |
| Hermes Agent | 服务器端自主 Agent,多平台消息网关、持久化记忆、子 Agent 委托 | 24/7 自主 AI 助手 |
| OpenClaw | 开源多平台 AI Agent 网关,20+ 消息渠道、语音唤醒、配套应用生态 | 个人 AI 助手、团队协作 |
| Cline | VS Code 插件形式的自主编码 Agent,human-in-the-loop 设计 | IDE 内编码协作 |
| Aider | 终端 AI 结对编程工具,Git 集成、Repo Map、多模态输入 | 终端编码协作 |
应用场景
| 场景 | 能力 | 产品例子 |
|---|---|---|
| 自动化研究 | 搜索、总结、分析 | Perplexity, Glean |
| 代码生成 | 编码、调试、测试 | Cursor, GitHub Copilot |
| 客服机器人 | 理解、查询、解决 | 智能客服系统 |
| 数据分析 | 查询、可视化、报告 | 自动化 BI |
| 内容创作 | 研究、撰写、优化 | 自动化内容工具 |
| 任务自动化 | 规划、执行、验证 | AutoGPT 类工具 |
挑战与限制
技术挑战
- 可靠性: Agent 可能陷入循环或走偏
- 成本: 多轮调用 LLM 成本高
- 安全: 工具调用可能引入风险
- 可解释性: 复杂的决策过程难以追踪
评估难题
- 确定性 vs 灵活性: 固定流程可靠但不灵活,动态决策灵活但不可控
- 边界情况: 异常处理能力不足
- 比较基准: 缺乏标准化的 Agent 评估方法
Synthesis
AI Agent 代表了从"工具"到"伙伴"的跳跃。它不仅仅是 LLM 的一层包装,而是一种新的计算范式——模型可以主动与环境交互、使用工具、完成复杂任务。当前 Agent 技术仍处于早期阶段,但已经在代码生成、自动化研究、客服等领域展现出巨大潜力。未来的关键在于提升可靠性、降低成本和建立标准评估体系。
Related Pages
- Function Calling / Tool Use — 函数调用技术
- Model Context Protocol (MCP) — MCP 协议
- Code Generation / SWE-bench — 代码生成
- Harness Engineering — AI 驱动开发方法论
- Retrieval Augmented Generation — RAG 技术
- Semantic Search — 语义搜索
Sources
"ReAct: Synergizing Reasoning and Acting in Language Models" (Yao et al., 2022)
"AutoGPT: An Autonomous GPT-4 Experiment" (2023)
"MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework" (2023)
"AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation" (Microsoft, 2023)
Large Language Model (LLM) — 大语言模型的核心定义、技术原理与发展历程