Appearance
格局概览
每个 AI 应用都面临同一个根本的部署决策:按 token 计费的 API 还是 自托管开放权重推理。一方面,OpenAI、Anthropic 等托管 API 提供即时接入前沿模型的能力,无需任何基础设施。另一方面,Llama、Qwen、Mistral AI 等开放权重模型可以通过 [[vllm|vLLM]] 等工具自托管,边际成本大幅降低——但代价是运维复杂性。
两端的生态都在爆发式增长。托管 API 提供商现已覆盖三个不同层级,而自托管工具已从实验性脚本进化为生产级推理引擎,具备 continuous batching、prefix caching 和 speculative decoding 等能力。本页面提供所有相关维度的结构化对比。
托管 API 选项
第一层:前沿 API 提供商
OpenAI(GPT-4o、GPT-4o-mini、o1、o3)、Anthropic(Claude 3.5 Sonnet、Claude 3 Opus、Claude 4)、Google(Gemini 2.0 Flash、Gemini 2.0 Pro)——这些提供商提供最高质量模型的访问权限,这些模型不提供开放权重。你无法在任何情况下自托管 GPT-4o 或 Claude 3.5 Sonnet。定价较高(每百万 token $10–$150),但在复杂推理、创意写作和精细指令遵循方面的质量无与伦比。零运维负担。
第二层:托管开放权重提供商
Together AI、Fireworks AI、Groq、DeepInfra——这些提供商托管开放权重模型(Llama 3、Qwen 2.5、DeepSeek、Mistral)并通过 OpenAI 兼容的 API 提供服务。定价比第一层便宜 2–10 倍,因为它们使用高效的推理引擎且没有前沿模型研发成本。Groq 通过 LPU 硬件专攻超低延迟。Together 和 Fireworks 在推理之外还提供微调 API。良好的中间地带:兼具开放权重的灵活性与 API 的便利性。
第三层:云提供商托管推理
AWS Bedrock、GCP Vertex AI、Azure AI Studio——云提供商通过托管端点同时托管前沿模型(Bedrock 上的 Claude、Vertex 上的 Gemini、Azure 上的 GPT-4)和开放权重模型。主要对有合规需求、已有云额度或数据驻留要求的企业有吸引力。由于云服务溢价,通常比直接 API 访问贵 1.5–3 倍,但可与云 IAM、VPC 和审计追踪原生集成。
自托管工具
| 引擎 | 最适合 | 核心创新 |
|---|---|---|
| vLLM | 规模化生产服务 | PagedAttention、continuous batching、prefix caching、multi-LoRA |
| TGI(Hugging Face) | HuggingFace 生态集成 | Messages API、水印、safe tensors |
| llama.cpp | 消费级硬件、边缘设备 | 原生[[量化]](GGUF),可在 CPU/GPU、Apple Silicon 上运行 |
| SGLang | 结构化生成 | constrained decoding、RadixAttention、原生 JSON mode |
| TensorRT-LLM | NVIDIA GPU 极致性能 | TensorRT 图优化、FP4/FP8、inflight batching |
vLLM 是目前最流行的自托管引擎,遥遥领先。其 PagedAttention 机制通过以非连续分页块管理 KV cache,大幅提升 GPU 内存利用率——吞吐量可达简单实现的 24 倍。prefix caching 可复用共享 prompt 前缀的计算,在 chatbot 和 RAG 工作负载中至关重要。对 multi-LoRA 服务的支持使其成为微调模型家族的理想选择。
llama.cpp 占据频谱的另一端:通过 GGUF 量化(Q2–Q8)在 MacBook 或树莓派上运行,无需 GPU 即可本地推理。适合原型开发、注重隐私的演示以及对延迟容忍度较高的边缘部署。
SGLang 在结构化生成工作负载中获得了关注,为 constrained decoding(JSON schema、regex、grammar)提供一流的支持,并通过 RadixAttention 在结构化生成循环内实现高效的 prefix 复用。相关 constrained generation 方案参见 [[outlines]]。
成本对比
API 按 Token 定价(每百万 token)
| 提供商 | 模型 | 输入 | 输出 |
|---|---|---|---|
| OpenAI | GPT-4o | $2.50 | $10.00 |
| OpenAI | GPT-4o-mini | $0.15 | $0.60 |
| Anthropic | Claude 3.5 Sonnet | $3.00 | $15.00 |
| Anthropic | Claude 3 Haiku | $0.25 | $1.25 |
| Gemini 2.0 Flash | $0.10 | $0.40 | |
| Together | Llama 3.1 405B | $2.50 | $2.50 |
| Together | Llama 3.3 70B | $0.59 | $0.59 |
| Together | Qwen 2.5 32B | $0.36 | $0.36 |
| Groq | Llama 3.3 70B | $0.59 | $0.79 |
自托管 GPU 成本
| GPU | 租赁(每小时) | 显存 | 典型模型 |
|---|---|---|---|
| A100 80GB | $1.50–$3.00 | 80 GB HBM2e | Llama 3 70B (FP16) |
| H100 80GB | $3.00–$5.00 | 80 GB HBM3 | Llama 3 70B (FP8) |
| H200 141GB | $4.00–$7.00 | 141 GB HBM3e | Llama 3 405B (int4) |
| L40S 48GB | $0.75–$1.50 | 48 GB GDDR6 | Qwen 2.5 32B (FP16) |
盈亏平衡分析
托管 API 和自托管之间的盈亏平衡点取决于单位时间内的 token 量。以 Llama 3 70B 等效工作负载为例:
- 低量(< 100 万 token/天):托管 API 更便宜。无需 GPU 固定成本,按用量付费。
- 中量(100 万–1000 万 token/天):在单张 A100 上自托管开始回本。在 500 万 token/天并使用 vLLM continuous batching 的情况下,每 token 成本降至约 $0.15/百万——比 Together 便宜约 4 倍,比 GPT-4o 便宜约 40 倍。
- 高量(> 1000 万 token/天):自托管成本优势极为显著。在 5000 万 token/天(中等生产规模的工作负载)下,自托管成本约为每百万 token $0.03——比 GPT-4o 输出定价便宜约 200 倍。
核心洞察: 自托管是固定成本模型(GPU 租赁 + 电力),而 API 是可变成本。如果你的负载可预测且容量大,自托管在成本上胜出。如果负载有突发性或不稳定,API 在灵活性上胜出。许多团队采用混合方案:API 用于原型开发,自托管用于生产服务。
延迟与吞吐量
API 的不确定性
托管 API 本质上是多租户的。延迟随提供商负载、时间段和速率限制等级而变化。在正常负载下,OpenAI 和 Anthropic 的 TTFT(首 token 延迟) 为 200–800ms,但在高峰时段可能飙升至 3–5 秒。速率限制(每分钟请求数、每分钟 token 数)限制了吞吐量,除非你支付更高的层级。像 Groq 这样的开放权重提供商通过定制硬件实现了出色的延迟(70B 模型 TTFT 约 ~100ms),但仍受限于提供商设定的速率限制。
自托管的可预测性
自托管推理让你完全掌控延迟。在 H100 上使用 vLLM,Llama 3 70B 可实现:
- TTFT: 100–300ms(取决于 prompt 长度和 prefix cache 命中率)
- TPOT(每输出 token 时间): batch size 为 1 时 10–25ms/token
- 吞吐量: continuous batching 下 1000–4000 token/秒
核心优势是可预测性——没有容量争用,没有速率限制。冷启动延迟(空闲后的首次请求)需要模型加载到 GPU 内存,根据模型大小和量化程度需要 5–30 秒。始终保持热状态的 API 提供商完全避免了这一点,使其更适合偶发性工作负载。
吞吐量:vLLM 的优势
vLLM 的 continuous batching 是一场变革。传统推理引擎以固定批次处理请求,当某些请求提前完成时会浪费 GPU 周期。vLLM 动态地向运行中的批次添加/移除请求,使 GPU 利用率接近 100%。这带来了相比 static batching 4–8 倍的吞吐量提升——这是 vLLM 主导自托管服务的主要原因。
质量与模型选择
托管 API 在质量上胜出。 最好的模型仅以托管 API 形式提供:GPT-4o、Claude 3.5/4、Gemini 2.0 Pro、o1、o3。这些模型代表了推理、创意、指令遵循和事实准确性方面的技术水平(截至 2026 年初,尚无开放权重模型在广泛基准测试中全面匹敌 GPT-4o 或 Claude 3.5 Sonnet)。
自托管在灵活性上胜出。 你可以服务任何开放权重模型——而且关键是任何微调过的模型。特定领域的微调模型通常在狭窄任务上以极低成本超越通用前沿模型。借助 vLLM 的 multi-LoRA 支持,你可以从单个 base model 服务数百个微调 adapter,以几乎可忽略的开销在它们之间切换。
开放权重模型与前沿模型之间的差距正在迅速缩小。DeepSeek V3、Llama 4 和 Qwen 3 在众多 LLM Evaluation 基准测试上已经大幅缩小差距,趋势强烈倾向于开放权重迎头赶上。对于许多生产场景(分类、抽取、摘要、RAG),当前开放权重模型的质量已经匹敌甚至超越 GPT-4o。
可控性与隐私
| 维度 | 托管 API | 自托管 |
|---|---|---|
| 数据隐私 | 数据离开基础设施;提供商政策各不相同 | 完全——数据不离开你的网络 |
| 模型版本控制 | 由提供商控制;可能不通知即变更 | 锁定——你决定何时更新 |
| 采样参数 | 受限于 API 表面(temperature、top_p、max_tokens) | 完全访问:logprobs、logit bias、repetition penalty、自定义停止条件 |
| 自定义修改 | 无(除非使用微调 API,但那是独立的) | 任意:量化、剪枝、speculative decoding、LoRA adapter |
| 审计/合规 | SOC2、HIPAA 可在更高定价层级获得 | 全面——VPC、私有网络、审计日志、气隔离运行 |
隐私是自托管最强的理由。 如果你的应用处理医疗记录、金融数据、法律文件或商业机密,将这些数据发送到第三方 API 可能违反合规要求(HIPAA、GDPR、SOC2)或公司数据治理政策。自托管消除所有数据外流。
对于企业,托管推理层(Bedrock、Vertex AI)提供了中间方案——VPC 边界:模型在云基础设施上运行,但在你的账户边界内,数据不会离开你的云租户。但这仍然意味着云提供商可以访问你的推理数据。
运维复杂性
API:零运维。 注册账户,获取 API key,发送 HTTP 请求。无需 GPU,无需服务器,无需扩缩容,无需监控,无需故障转移,无需更新。这是希望在不雇佣基础设施工程师的情况下交付 AI 功能的团队的默认选择。
自托管:运维负担重。 运营自托管推理栈需要:
- GPU 管理: 采购、配置、驱动版本管理、CUDA 兼容性、多 GPU 的网络连接
- 扩缩容: 基于队列深度自动扩缩 GPU 节点、负载卸载、请求路由
- 监控: GPU 利用率、内存使用、TTFT、TPOT、队列深度、错误率、OOM 预防
- 部署: 容器化(Docker + NVIDIA container toolkit)、Kubernetes Helm charts、模型存储(S3/HuggingFace)、模型加载时间管理
- 更新: 引擎升级(vLLM 每月发布新功能)、模型更新、安全补丁
- 故障转移: 多节点冗余、GPU 故障时优雅降级、负载均衡器健康检查
托管推理(Together、Fireworks、Groq)处于中间地带——你获得开放权重模型的灵活性,同时享受 API 式的零运维便利。提供商管理 GPU 集群;你按 token 付费。这越来越成为想要开放权重模型的经济性但不想承担运维负担的团队的最佳选择。
决策矩阵
| 场景 | 推荐方案 | 理由 |
|---|---|---|
| 原型开发/研究 | 托管 API(第一层) | 零运维,即时接入最佳模型,按需付费 |
| 大规模生产 | 自托管(vLLM) | 每 token 便宜 50–200 倍,延迟可预测,完全可控 |
| 敏感/受监管数据 | 自托管(vLLM/TensorRT-LLM) | 数据不离开基础设施;合规驱动 |
| 可变/突发负载 | 托管 API(第二层) | 无 GPU 空闲成本;内置弹性扩缩容 |
| 固定预算、高容量 | 自托管(vLLM) | 成本确定;可预测的月度 GPU 支出 |
| 延迟关键(< 200ms) | Groq(API)或 TensorRT-LLM(自托管) | 定制硬件或优化的图执行 |
| 始终需要前沿质量 | 托管 API(第一层) | GPT-4o 和 Claude 3.5/4 无法自托管 |
| 生产中的微调模型 | 自托管(vLLM) | Multi-LoRA 服务;微调 adapter 需要自定义权重 |
| 无基础设施团队 | 托管 API(第二层) | 零运维,开放权重定价,API 便利性 |
| 混合策略 | API + 自托管 | 复杂任务用前沿 API;高容量窄任务用自托管微调模型 |
新兴趋势
推理即服务(Inference-as-a-Service)的成熟
Together AI、Fireworks 和 Groq 已在托管开放权重模型模式上建立了十亿美元级别的业务。它们提供两全其美的方案——开放权重定价与 API 便利性。竞争正推动每 token 价格逐年下降 30–50%,缩小与自托管的成本差距。
提供商套利
新工具(OpenRouter、Portkey、LiteLLM)使得将每个请求路由到最便宜或最快的提供商变得轻而易举。这创造了一种市场动态,API 定价向边际 GPU 成本趋近,使能够接受提供商切换的消费者受益。
混合策略
最成熟的机构两者兼用:前沿模型任务(复杂推理、创意工作、agent 编排)使用托管 API,高容量窄任务(分类、抽取、RAG、微调模型)使用自托管推理。这同时最大化了质量和成本效率。
边缘推理
llama.cpp 和[[量化]]技术的进步使得在笔记本和手机上运行有能力的 LLM 变得可行。Ollama、LM Studio 和 MLX 将本地推理带给消费者。对于企业边缘场景(离线处理、数据本地合规),这一趋势将继续加速。
Speculative Decoding
draft-model 技术(speculative decoding、Medusa、Eagle)正在缩小自托管与 API 提供商推理之间的延迟差距。通过使用小型"草稿"模型生成候选 token 并由目标模型验证,延迟敏感工作负载的吞吐量可提升 2–3 倍——使自托管在延迟维度上越来越有竞争力。
参考来源
- Kwon et al., Efficient Memory Management for Large Language Model Serving with PagedAttention (SOSP 2023) — vLLM 基础论文
- Hugging Face, Text Generation Inference — TGI 文档
- Gerganov et al., llama.cpp — GitHub 仓库
- Zheng et al., SGLang: Efficient Execution of Structured Language Model Programs (2024) — 结构化生成引擎
- NVIDIA, TensorRT-LLM — 文档
- Stern et al., Blockwise Parallel Decoding for Deep Autoregressive Models (NeurIPS 2018) — speculative decoding 起源
- Leviathan et al., Fast Inference from Transformers via Speculative Decoding (ICML 2023) — speculative decoding 理论
- artefact.com — GPU 定价基准和推理成本分析
- lmsys.org — Chatbot Arena 排行榜模型质量对比