Appearance
Model Inference & Deployment
模型推理与部署是连接 AI 研究与企业级应用的关键桥梁。理解推理优化技术(KV cache、量化、投机解码)和部署框架(vLLM、TGI、TensorRT-LLM、llama.cpp)是让知识从论文走向产品的前提。
Definition
推理(Inference)是训练好的模型对新输入生成输出的过程;部署(Deployment)是将模型以可靠、高效、可扩展的方式服务于生产环境。两者共同构成从"我会写模型"到"我的模型正在被使用"的完整路径。
Current Understanding
核心推理技术
| 技术 | 作用 | 关键受益 |
|---|---|---|
| KV Cache | 缓存自注意力中的 Key/Value 张量,避免重复计算 | 自回归生成速度提升 10-100x |
| Continuous Batching | 动态往 GPU 批次中增删请求 | 推理吞吐量提升 2-5x |
| Speculative Decoding | 小草稿模型快速生成 → 大模型并行验证 | 无质量损失的 2-3x 加速 |
| PagedAttention | 类似操作系统的分页式 KV cache 管理 | 消除显存碎片,提升批处理能力 |
量化方法
| 方法 | 原理 | 典型精度 | 适用场景 |
|---|---|---|---|
| GPTQ | 基于 Hessian 矩阵的后训练量化 | 4-bit, 3-bit | 服务端离线量化的首选 |
| AWQ | 激活感知的权重量化,保护重要通道 | 4-bit | 精度保持最佳的低比特方案 |
| GGUF | llama.cpp 的量化格式族 | Q4_K_M, Q5_K_S 等 | CPU/边缘推理的标准选择 |
部署框架
| 框架 | 开发者 | 核心优势 | 典型场景 |
|---|---|---|---|
| vLLM | UC Berkeley | PagedAttention + Continuous Batching | 生产环境最高吞吐,社区标准 |
| TGI | Hugging Face | Hugging Face 生态 + SSE 流式 | Hugging Face 模型一站式部署 |
| TensorRT-LLM | NVIDIA | NVIDIA GPU 上最低延迟 | 企业级 NVIDIA 集群 |
| llama.cpp | 社区 | CPU 优先 + GPU 卸载,GGUF 格式 | 边缘设备、本地运行、隐私场景 |
Why It Matters
- 模型质量只是成功部署的一半——一个 GPT-4 级模型如果用裸的 PyTorch 部署,推理成本可能高出 10-100 倍
- DeepSeek 的 1.6T MoE 模型之所以能在实际中使用,正是得益于推理优化(MoE 稀疏激活 + 长上下文 KV cache 优化)
- 量化技术使 Mistral AI 的 7B 模型能在手机/笔记本上运行——将开源的优势从"免费"扩展为"随处可用"
- 持续批处理(Continuous Batching)是 2023-2024 年部署框架最大的工程突破,它让多用户并发推理的经济性发生了质变
Related Concepts
- 相关概念:Fine-tuning、Mixture of Experts、Transformer Architecture、Retrieval Augmented Generation、Hosted API vs Self-Hosted (vLLM)
- 相关实体:DeepSeek、Llama、Mistral AI
Open Questions
- 投机解码对草稿模型的质量要求如何与加速收益平衡?
- CPU 推理能否通过硬件进步(高核心数、高内存带宽)缩小与 GPU 的差距?
- 多模态模型的推理优化(特别是视频场景)是否有不同于纯文本的新框架需求?
Sources
- raw/articles/inference-deployment-research-2026-04-26.md