Appearance
AI API 路由与网关
当你同时使用多个 LLM 提供商时,统一的 API 管理、路由和可观测性成为必需。本页汇总 AI API 网关、路由器与可视化工具。
统一 API 调用
开源路由库
| 工具 | 支持模型 | 核心特点 | 最佳场景 | 链接 |
|---|---|---|---|---|
| LiteLLM | 100+ | 统一接口、内置代理、成本优化 | 中大型项目、多模型管理 | GitHub |
| OpenRouter | 200+ | 统一 API、竞价排序、免费层级 | 快速上线、成本敏感 | openrouter.ai |
| AI Gateway (Cloudflare) | 多家 | 边缘部署、低延迟、统一缓存 | 全球部署、边缘优化 | Cloudflare |
商业网关平台
| 平台 | 特点 | 定价 | 链接 |
|---|---|---|---|
| Portkey | 路由、可观测性、缓存、成本控制 | 按请求 | portkey.ai |
| Helicone | 开源可观测性、提供商中立 | 按请求 | helicone.ai |
| Kong AI Gateway | 企业级 API 网关、原生 AI 支持 | 企业定价 | konghq.com |
| Traefik AI Gateway | 云原生、动态路由 | 开源/企业 | traefik.io |
可观测性与监控
LLM 可视化工具
| 工具 | 功能 | 开源 | 链接 |
|---|---|---|---|
| LangSmith | 追踪、评估、监控、Prompt 管理 | 部分 | smith.langchain.com |
| Langfuse | 开源 LLM 工程平台、自托管 | 是 | langfuse.com |
| Phoenix (Arize) | 开源可观测性、评估、探索 | 是 | GitHub |
| Weights & Biases | 实验跟踪、模型版本管理 | 部分 | wandb.ai |
| Promptlayer | Prompt 版本、性能追踪 | 部分 | promptlayer.com |
监控指标
markdown
## LLM API 监控指标体系
### 性能
- 响应时间 (TTFT / TPOT)
- 吞吐量 (tokens/s)
- 成功率 / 错误率
- 缓存命中率
### 成本
- 每百万 token 成本
- 每用户成本
- 模型分布成本
### 质量
- Token 使用效率
- 重试率
- 用户反馈成本优化策略
智能路由
| 策略 | 原理 | 效果 |
|---|---|---|
| Fallback 路由 | 主模型故障时自动切换 | 提高可用性 |
| 成本优先 | 按价格排序选择 | 降低开销 |
| 质量优先 | 按性能排序选择 | 保证输出 |
| 负载均衡 | 按容量分配 | 避免单点瓶颈 |
| 缓存复用 | 相似请求直接返回 | 减少 API 调用 |
批量处理优化
| 技术 | 描述 | 工具 |
|---|---|---|
| 请求合并 | 将多个请求合并为一次调用 | LiteLLM, Portkey |
| 流式处理 | 边接收边返回 | 所有网关 |
| 异步队列 | 非阻塞调用 | LiteLLM, 自实现 |
API 管理最佳实践
安全配置清单
markdown
## AI API 安全配置清单
### 认证
- [ ] API Key 管理(分离、轮换)
- [ ] 请求签名验证
- [ ] IP 白名单
### 限流
- [ ] 分钟级 QPS 限制
- [ ] Token 消耗限额
- [ ] 用户级配额
### 审计
- [ ] 请求/响应日志
- [ ] 敏感内容过滤
- [ ] 异常行为检测
### 监控
- [ ] 实时预警
- [ ] 成本漩漏检测
- [ ] 模型偏离监控相关页面
- Model Inference & Deployment — 模型推理与部署
- AI 开发工具箱 — AI 开发工具
- AI 推理部署与 Serving — 推理部署与 Serving
- Structured Output / JSON Mode — 结构化输出
- Function Calling / Tool Use — 函数调用
参考来源
- LiteLLM 官方文档
- OpenRouter API 文档
- Portkey 文档
- Helicone 文档
- LangSmith 文档