Model Inference & Deployment

模型推理与部署是连接 AI 研究与企业级应用的关键桥梁。理解推理优化技术（KV cache、量化、投机解码）和部署框架（vLLM、TGI、TensorRT-LLM、llama.cpp）是让知识从论文走向产品的前提。

Definition

推理（Inference）是训练好的模型对新输入生成输出的过程；部署（Deployment）是将模型以可靠、高效、可扩展的方式服务于生产环境。两者共同构成从"我会写模型"到"我的模型正在被使用"的完整路径。

Current Understanding

核心推理技术

技术	作用	关键受益
KV Cache	缓存自注意力中的 Key/Value 张量，避免重复计算	自回归生成速度提升 10-100x
Continuous Batching	动态往 GPU 批次中增删请求	推理吞吐量提升 2-5x
Speculative Decoding	小草稿模型快速生成 → 大模型并行验证	无质量损失的 2-3x 加速
PagedAttention	类似操作系统的分页式 KV cache 管理	消除显存碎片，提升批处理能力

量化方法

方法	原理	典型精度	适用场景
GPTQ	基于 Hessian 矩阵的后训练量化	4-bit, 3-bit	服务端离线量化的首选
AWQ	激活感知的权重量化，保护重要通道	4-bit	精度保持最佳的低比特方案
GGUF	llama.cpp 的量化格式族	Q4_K_M, Q5_K_S 等	CPU/边缘推理的标准选择

部署框架

框架	开发者	核心优势	典型场景
vLLM	UC Berkeley	PagedAttention + Continuous Batching	生产环境最高吞吐，社区标准
TGI	Hugging Face	Hugging Face 生态 + SSE 流式	Hugging Face 模型一站式部署
TensorRT-LLM	NVIDIA	NVIDIA GPU 上最低延迟	企业级 NVIDIA 集群
llama.cpp	社区	CPU 优先 + GPU 卸载，GGUF 格式	边缘设备、本地运行、隐私场景

Why It Matters

模型质量只是成功部署的一半——一个 GPT-4 级模型如果用裸的 PyTorch 部署，推理成本可能高出 10-100 倍
DeepSeek 的 1.6T MoE 模型之所以能在实际中使用，正是得益于推理优化（MoE 稀疏激活 + 长上下文 KV cache 优化）
量化技术使 Mistral AI 的 7B 模型能在手机/笔记本上运行——将开源的优势从"免费"扩展为"随处可用"
持续批处理（Continuous Batching）是 2023-2024 年部署框架最大的工程突破，它让多用户并发推理的经济性发生了质变

相关概念：Fine-tuning、Mixture of Experts、Transformer Architecture、Retrieval Augmented Generation、Hosted API vs Self-Hosted (vLLM)
相关实体：DeepSeek、Llama、Mistral AI

Open Questions

投机解码对草稿模型的质量要求如何与加速收益平衡？
CPU 推理能否通过硬件进步（高核心数、高内存带宽）缩小与 GPU 的差距？
多模态模型的推理优化（特别是视频场景）是否有不同于纯文本的新框架需求？

Sources

raw/articles/inference-deployment-research-2026-04-26.md