Skip to content

Model Inference & Deployment

模型推理与部署是连接 AI 研究与企业级应用的关键桥梁。理解推理优化技术(KV cache、量化、投机解码)和部署框架(vLLM、TGI、TensorRT-LLM、llama.cpp)是让知识从论文走向产品的前提。

Definition

推理(Inference)是训练好的模型对新输入生成输出的过程;部署(Deployment)是将模型以可靠、高效、可扩展的方式服务于生产环境。两者共同构成从"我会写模型"到"我的模型正在被使用"的完整路径。

Current Understanding

核心推理技术

技术作用关键受益
KV Cache缓存自注意力中的 Key/Value 张量,避免重复计算自回归生成速度提升 10-100x
Continuous Batching动态往 GPU 批次中增删请求推理吞吐量提升 2-5x
Speculative Decoding小草稿模型快速生成 → 大模型并行验证无质量损失的 2-3x 加速
PagedAttention类似操作系统的分页式 KV cache 管理消除显存碎片,提升批处理能力

量化方法

方法原理典型精度适用场景
GPTQ基于 Hessian 矩阵的后训练量化4-bit, 3-bit服务端离线量化的首选
AWQ激活感知的权重量化,保护重要通道4-bit精度保持最佳的低比特方案
GGUFllama.cpp 的量化格式族Q4_K_M, Q5_K_S 等CPU/边缘推理的标准选择

部署框架

框架开发者核心优势典型场景
vLLMUC BerkeleyPagedAttention + Continuous Batching生产环境最高吞吐,社区标准
TGIHugging FaceHugging Face 生态 + SSE 流式Hugging Face 模型一站式部署
TensorRT-LLMNVIDIANVIDIA GPU 上最低延迟企业级 NVIDIA 集群
llama.cpp社区CPU 优先 + GPU 卸载,GGUF 格式边缘设备、本地运行、隐私场景

Why It Matters

  • 模型质量只是成功部署的一半——一个 GPT-4 级模型如果用裸的 PyTorch 部署,推理成本可能高出 10-100 倍
  • DeepSeek 的 1.6T MoE 模型之所以能在实际中使用,正是得益于推理优化(MoE 稀疏激活 + 长上下文 KV cache 优化)
  • 量化技术使 Mistral AI 的 7B 模型能在手机/笔记本上运行——将开源的优势从"免费"扩展为"随处可用"
  • 持续批处理(Continuous Batching)是 2023-2024 年部署框架最大的工程突破,它让多用户并发推理的经济性发生了质变

Open Questions

  • 投机解码对草稿模型的质量要求如何与加速收益平衡?
  • CPU 推理能否通过硬件进步(高核心数、高内存带宽)缩小与 GPU 的差距?
  • 多模态模型的推理优化(特别是视频场景)是否有不同于纯文本的新框架需求?

Sources

  • raw/articles/inference-deployment-research-2026-04-26.md

AI Knowledge Base — 持续积累