Skip to content

AI 推理部署与 Serving

模型训练完成只是起点,高效、低成本地将模型部署到生产环境才是真正的工程挑战。本页汇总主流的推理引擎、部署工具与优化方案。

核心推理引擎

高吞吐生产级引擎

工具开发者核心特性适用场景链接
vLLMBerkeleyPagedAttention、连续批处理、OpenAI 兼容 API高并发 API 服务、生产部署GitHub
TGI (Text Generation Inference)Hugging FaceRust 核心、Safetensors、FlashAttention、流式生成HF 生态生产部署GitHub
TensorRT-LLMNVIDIAFP8/INT8 量化、 inflight batching、多 GPU 并行NVIDIA GPU 极致优化GitHub
SGLangBerkeley结构化生成优化、RadixAttention 缓存复用复杂结构化输出场景GitHub
llama.cppGeorgi GerganovC/C++ 实现、GGUF 格式、CPU/GPU 混合推理端侧部署、本地运行、嵌入式GitHub

轻量级与快速部署

工具特点适用场景链接
Ollama一行命令运行、自动下载、Modelfile 自定义本地原型、个人使用ollama.com
OpenLLM (BentoML)支持多种后端、Bento 打包、云端部署企业级模型服务GitHub
MLC LLM机器学习编译、多平台部署(iOS/Android/Web)移动端/边缘端部署GitHub
llamafile单文件可执行、跨平台、零依赖快速分发、离线运行GitHub

部署架构方案

方案选型决策树

部署场景
├── 高并发 API 服务
│   ├── GPU 充足 → vLLM / TGI / TensorRT-LLM
│   └── 需要多模型路由 → vLLM + LiteLLM Proxy
├── 端侧/本地运行
│   ├── 有 GPU → llama.cpp (CUDA) / Ollama
│   ├── 纯 CPU → llama.cpp (AVX/NEON) / llamafile
│   └── 移动端 → MLC LLM
├── 云端 Serverless
│   ├── AWS → SageMaker / Bedrock
│   ├── GCP → Vertex AI
│   └── 多云 → Together AI / Replicate / fal.ai
└── 边缘设备
    ├── 树莓派/Jetson → llama.cpp (量化)
    └── 浏览器 → WebLLM / Transformers.js

量化与压缩工具

工具量化类型特点链接
GGUF (llama.cpp)Q4_0 / Q5_K_M / Q8_0社区标准,广泛兼容GitHub
AutoAWQAWQ 4-bit速度优先,显存节省GitHub
AutoGPTQGPTQ 4-bit成熟稳定,模型丰富GitHub
bitsandbytesNF4 / QLoRA训练+推理一体化GitHub
TensorRT-LLMFP8 / INT8 / INT4NVIDIA 官方,性能极致Docs

性能优化技术

关键优化手段

技术原理效果支持工具
PagedAttention将 KV Cache 分页管理,减少内存碎片2-4x 吞吐提升vLLM, SGLang
Continuous Batching动态拼接请求,GPU 利用率最大化3-10x 吞吐提升vLLM, TGI, TensorRT-LLM
Speculative Decoding小模型草稿 + 大模型验证1.5-2.5x 加速vLLM, TGI, TensorRT-LLM
FlashAttentionIO-aware Attention 计算优化2-4x 速度,更少显存主流框架均支持
KV Cache 复用前缀缓存,避免重复计算首 token 延迟大幅降低SGLang (RadixAttention)
量化推理低精度权重与激活2-4x 显存节省,轻微速度提升所有主流工具

性能基准参考

markdown
## 单卡 A100 推理性能参考 (Llama-3-70B)

| 配置 | 吞吐 (tokens/s) | 延迟 (ms/token) | 显存占用 |
|------|----------------|-----------------|----------|
| FP16 全精度 | ~30 | ~33 | ~140GB |
| AWQ 4-bit | ~45 | ~22 | ~40GB |
| TensorRT-LLM FP8 | ~60 | ~17 | ~75GB |
| vLLM + PagedAttention | ~80 | ~12 | ~40GB (AWQ) |
| + Speculative Decoding | ~120 | ~8 | ~45GB |

云端推理平台

平台模式特点定价模式
Together AIServerless / 专用开源模型为主,价格优按 token
ReplicateServerless模型丰富,快速启动按秒计费
fal.aiServerless图像/视频生成强按请求
Fireworks AIServerless / 专用快速、低成本按 token
Baseten专用部署企业级,自定义强按资源
Groq专用芯片 (LPU)极致低延迟按 token

部署检查清单

markdown
## 生产部署检查清单

### 性能
- [ ] 选择合适的量化方案(精度 vs 速度 vs 显存)
- [ ] 配置 Continuous Batching 参数
- [ ] 启用 KV Cache 优化(如 Prefix Caching)
- [ ] 测试 Speculative Decoding 收益
- [ ] 设定合理的 max_tokens 和并发限制

### 稳定性
- [ ] 配置健康检查和自动重启
- [ ] 设置请求超时和优雅降级
- [ ] 监控 GPU 显存和利用率
- [ ] 准备模型热更新方案

### 安全
- [ ] 配置 API 认证和限流
- [ ] 过滤敏感输入/输出
- [ ] 日志脱敏处理
- [ ] 模型权重访问控制

### 成本
- [ ] 评估自托管 vs 云 API 成本
- [ ] 配置自动扩缩容
- [ ] 监控每 token 成本
- [ ] 优化批处理大小

相关页面

参考来源

  • vLLM 官方文档
  • Hugging Face TGI 文档
  • NVIDIA TensorRT-LLM 文档
  • llama.cpp GitHub Wiki
  • SGLang 官方文档

AI Knowledge Base — 持续积累