Appearance
AI Agents
Definition
AI Agent 指能够把模型推理、工具调用、状态管理与任务执行结合起来的系统形态。它不是单一模型能力的代名词,而是 "模型 + 工具 + 环境 + 任务控制" 的整体设计。Anthropic 给出了一个清晰的区分:Workflow 是由预定义代码路径编排 LLM 与工具的系统,而 Agent 是由 LLM 在执行过程中动态决定如何使用工具与推进流程的系统。
Core Architecture
用户请求
↓
Agent(LLM)→ 推理 → 决策 → 工具调用 → 观察结果 → 推理...
↑ ↓ ↓
状态更新 工具集合 环境反馈
↓
任务完成 → 最终输出关键设计要素
| 要素 | 说明 | 工程要点 |
|---|---|---|
| LLM 核心 | 负责推理、规划、决策的大模型 | 选择指令遵循和工具调用能力强的模型 |
| 工具集合 | 模型可调用的外部能力(API、数据库、文件系统) | 工具描述要清晰、参数要简单、报错要友好 |
| 状态管理 | Agent 维护的当前进度、已尝试方法、结果缓存 | 避免超出模型上下文窗口,需管理对话历史 |
| 循环控制 | 每次迭代:推理→行动→观察→再推理 | 设置最大步数/时间/成本上限 |
| 记忆 | 跨会话的知识保留(长期记忆 + 短期记忆) | 使用向量数据库或结构化存储 |
Agent Framework Comparison
| 框架 | 开发方 | 核心特点 | 适合场景 |
|---|---|---|---|
| LangChain | LangChain | 最成熟的生态,丰富的工具集成 | 快速原型到生产 |
| Semantic Kernel | Microsoft | .NET 生态优先,Azure 集成 | 企业 .NET/Azure 环境 |
| AutoGen | Microsoft | 多 Agent 对话编排 | 多 Agent 协作场景 |
| CrewAI | 社区 | 角色化多 Agent 系统 | 结构化团队分工 |
| Claude Code | Anthropic | 终端原生 Agent,深度代码理解 | 软件开发(代码编写/调试/重构) |
| OpenAI Operators / GPTs | OpenAI | API-less Agent,定制 GPT | 非开发者 Agent 构建 |
| Dify | 开源 | 低代码 Agent 构建平台 | 企业级 RAG + Agent |
| Coze | ByteDance | 插件生态,Bot 商店 | 消费者/轻量 Agent |
Implementation Patterns
Pattern 1: Simple Agent Loop
while not done and steps < MAX_STEPS:
thought = model.reason(current_state, tools)
if thought.action == "finish":
return thought.result
observation = execute_tool(thought.action)
current_state += observationPattern 2: ReAct (Reasoning + Acting)
模型在每个步骤输出显式的推理链:
Thought: 我需要先查询用户的信息
Action: search_user_database(query="username")
Observation: {user_id: 123, ...}
Thought: 找到用户了,接下来查他的订单
Action: query_orders(user_id=123)
...Pattern 3: Plan-then-Execute
Agent 先生成完整计划,再逐步执行:
Plan:
1. 通过用户邮箱查询用户 ID
2. 查询用户最近 30 天订单
3. 筛选出退款状态为 pending 的订单
4. 调用退款 API 处理每个待退款订单Pattern 4: Multi-Agent Orchestration
Orchestrator Agent → 分派任务 → Worker Agent 1, Worker Agent 2, ...
→ 汇总结果 → Evaluator → 最终输出Current Understanding
- Anthropic 的文章给出了一个很实用的区分:
workflows是由预定义代码路径编排 LLM 与工具的系统,而agents是由 LLM 在执行过程中动态决定如何使用工具与推进流程的系统 - 同一来源强调,成功的 agent 实现常常依赖简单、可组合的模式,而不是复杂框架本身
- IBM Research 的 VAKRA 文章说明,真实 Agent 任务往往包含多步推理与工具调用:其 benchmark 中,agent 需要与
8,000+API 和62个领域数据交互,很多任务要完成3–7步推理链
Engineering Pitfalls
| 陷阱 | 后果 | 缓解方案 |
|---|---|---|
| 无限循环 | Agent 反复调用同一工具不前进 | 设置最大步数 + 检测重复模式 |
| 工具选择错误 | 调用错误 API 导致无效操作 | 更清晰、更具区分度的工具描述 |
| 上下文窗口溢出 | Agent 丢失早期推理步骤 | 记忆压缩、滑动窗口、总结中间步骤 |
| 幻觉传递 | 模型幻觉通过下游工具调用变成"事实" | 在每个步骤引入验证/反馈 |
| 过度成本 | Agent 循环多次调用高成本模型 | 设置 cost cap + 使用更便宜模型快速迭代 |
| 安全边界模糊 | Agent 执行了开发者未预期的操作 | 最小权限工具设计 + 敏感操作确认 |
Why It Matters
- Agent 是当前 AI 从"回答问题"走向"执行任务"的关键路径
- 它与 Retrieval Augmented Generation 的关系紧密,因为 Agent 经常需要检索知识与环境状态
- 它也与 DeepSeek、OpenAI、Anthropic 等模型/公司路线强相关,因为这些能力越来越以"可执行性"而不是纯 benchmark 分数来衡量
- Agent 的演进正在重新定义"工具设计"——一个好 Agent 的第一原则是好的工具,而不是好的模型
Related Concepts
- 相关概念:Retrieval Augmented Generation、Mixture of Experts、Transformer Architecture、Workflow vs Agent、Model Inference & Deployment、Harness Engineering
- 相关实体:OpenAI、Anthropic、DeepSeek、Google Gemini & DeepMind
Open Questions
- Agent 的可靠性、可控性和安全性应如何系统评估?
- 什么时候应使用固定 workflow,什么时候应使用更开放的 agent 策略?
- Multi-agent 系统比单一 Agent 在真实收益上是否成立?
- Agent 框架是否会收敛为"最佳实践模式库"而非复杂平台?
Sources
- raw/articles/anthropic-building-effective-agents-2026-04-26.md
- raw/articles/ibm-vakra-benchmark-analysis-2026-04-26.md
- Building Effective Agents (Anthropic, 2024)
- ReAct: Synergizing Reasoning and Acting in Language Models (Yao et al., 2022)