AI Agents

Definition

AI Agent 指能够把模型推理、工具调用、状态管理与任务执行结合起来的系统形态。它不是单一模型能力的代名词，而是 "模型 + 工具 + 环境 + 任务控制" 的整体设计。Anthropic 给出了一个清晰的区分：Workflow 是由预定义代码路径编排 LLM 与工具的系统，而 Agent 是由 LLM 在执行过程中动态决定如何使用工具与推进流程的系统。

Core Architecture

用户请求
  ↓
Agent（LLM）→ 推理 → 决策 → 工具调用 → 观察结果 → 推理...
  ↑                      ↓                ↓
  状态更新              工具集合        环境反馈
  ↓
  任务完成 → 最终输出

关键设计要素

要素	说明	工程要点
LLM 核心	负责推理、规划、决策的大模型	选择指令遵循和工具调用能力强的模型
工具集合	模型可调用的外部能力（API、数据库、文件系统）	工具描述要清晰、参数要简单、报错要友好
状态管理	Agent 维护的当前进度、已尝试方法、结果缓存	避免超出模型上下文窗口，需管理对话历史
循环控制	每次迭代：推理→行动→观察→再推理	设置最大步数/时间/成本上限
记忆	跨会话的知识保留（长期记忆 + 短期记忆）	使用向量数据库或结构化存储

Agent Framework Comparison

框架	开发方	核心特点	适合场景
LangChain	LangChain	最成熟的生态，丰富的工具集成	快速原型到生产
Semantic Kernel	Microsoft	.NET 生态优先，Azure 集成	企业 .NET/Azure 环境
AutoGen	Microsoft	多 Agent 对话编排	多 Agent 协作场景
CrewAI	社区	角色化多 Agent 系统	结构化团队分工
Claude Code	Anthropic	终端原生 Agent，深度代码理解	软件开发（代码编写/调试/重构）
OpenAI Operators / GPTs	OpenAI	API-less Agent，定制 GPT	非开发者 Agent 构建
Dify	开源	低代码 Agent 构建平台	企业级 RAG + Agent
Coze	ByteDance	插件生态，Bot 商店	消费者/轻量 Agent

Implementation Patterns

Pattern 1: Simple Agent Loop

while not done and steps < MAX_STEPS:
    thought = model.reason(current_state, tools)
    if thought.action == "finish":
        return thought.result
    observation = execute_tool(thought.action)
    current_state += observation

Pattern 2: ReAct (Reasoning + Acting)

模型在每个步骤输出显式的推理链：

Thought: 我需要先查询用户的信息
Action: search_user_database(query="username")
Observation: {user_id: 123, ...}
Thought: 找到用户了，接下来查他的订单
Action: query_orders(user_id=123)
...

Pattern 3: Plan-then-Execute

Agent 先生成完整计划，再逐步执行：

Plan:
1. 通过用户邮箱查询用户 ID
2. 查询用户最近 30 天订单
3. 筛选出退款状态为 pending 的订单
4. 调用退款 API 处理每个待退款订单

Pattern 4: Multi-Agent Orchestration

Orchestrator Agent → 分派任务 → Worker Agent 1, Worker Agent 2, ...
                  → 汇总结果 → Evaluator → 最终输出

Current Understanding

Anthropic 的文章给出了一个很实用的区分：workflows 是由预定义代码路径编排 LLM 与工具的系统，而 agents 是由 LLM 在执行过程中动态决定如何使用工具与推进流程的系统
同一来源强调，成功的 agent 实现常常依赖简单、可组合的模式，而不是复杂框架本身
IBM Research 的 VAKRA 文章说明，真实 Agent 任务往往包含多步推理与工具调用：其 benchmark 中，agent 需要与 8,000+ API 和 62 个领域数据交互，很多任务要完成 3–7 步推理链

Engineering Pitfalls

陷阱	后果	缓解方案
无限循环	Agent 反复调用同一工具不前进	设置最大步数 + 检测重复模式
工具选择错误	调用错误 API 导致无效操作	更清晰、更具区分度的工具描述
上下文窗口溢出	Agent 丢失早期推理步骤	记忆压缩、滑动窗口、总结中间步骤
幻觉传递	模型幻觉通过下游工具调用变成"事实"	在每个步骤引入验证/反馈
过度成本	Agent 循环多次调用高成本模型	设置 cost cap + 使用更便宜模型快速迭代
安全边界模糊	Agent 执行了开发者未预期的操作	最小权限工具设计 + 敏感操作确认

Why It Matters

Agent 是当前 AI 从"回答问题"走向"执行任务"的关键路径
它与 Retrieval Augmented Generation 的关系紧密，因为 Agent 经常需要检索知识与环境状态
它也与 DeepSeek、OpenAI、Anthropic 等模型/公司路线强相关，因为这些能力越来越以"可执行性"而不是纯 benchmark 分数来衡量
Agent 的演进正在重新定义"工具设计"——一个好 Agent 的第一原则是好的工具，而不是好的模型

相关概念：Retrieval Augmented Generation、Mixture of Experts、Transformer Architecture、Workflow vs Agent、Model Inference & Deployment、Harness Engineering
相关实体：OpenAI、Anthropic、DeepSeek、Google Gemini & DeepMind

Open Questions

Agent 的可靠性、可控性和安全性应如何系统评估？
什么时候应使用固定 workflow，什么时候应使用更开放的 agent 策略？
Multi-agent 系统比单一 Agent 在真实收益上是否成立？
Agent 框架是否会收敛为"最佳实践模式库"而非复杂平台？

Sources

raw/articles/anthropic-building-effective-agents-2026-04-26.md
raw/articles/ibm-vakra-benchmark-analysis-2026-04-26.md
Building Effective Agents (Anthropic, 2024)
ReAct: Synergizing Reasoning and Acting in Language Models (Yao et al., 2022)

AI Agents ​

Definition ​

Core Architecture ​

关键设计要素 ​

Agent Framework Comparison ​

Implementation Patterns ​

Pattern 1: Simple Agent Loop ​

Pattern 2: ReAct (Reasoning + Acting) ​

Pattern 3: Plan-then-Execute ​

Pattern 4: Multi-Agent Orchestration ​

Current Understanding ​

Engineering Pitfalls ​

Why It Matters ​

Related Concepts ​

Open Questions ​

Sources ​