Appearance
Edge vs Cloud Inference
随着 LLM 缩小技术(如 Model Quantization、Knowledge Distillation)的进步和端侧芯片算力的提升,在本地设备上运行大模型已从科幻变为现实。端侧推理(Edge Inference)与云端推理(Cloud Inference)之间的权衡,正在重塑 AI 应用的设计范式。
Landscape Overview
云端推理是当前主流:将模型部署在数据中心的 GPU 服务器上(或通过 API 调用),用户设备通过网络请求服务。
端侧推理是快速兴起的新范式:将经过压缩的小型模型直接运行在用户设备上(手机、笔记本、IoT 设备),无需网络连接。
云端推理: 用户设备 → 网络 → 云端 GPU → 模型推理 → 网络 → 用户设备
端侧推理: 用户设备 → 本地 NPU/GPU → 缩小模型推理 → 直接输出对比维度
1. 隐私与数据安全
| 维度 | Edge | Cloud |
|---|---|---|
| 数据离境 | 数据从不离开设备 | 数据必须传输到云端 |
| 隐私风险 | 极低 | 依赖供应商隐私政策 |
| 合规性 | 内置合规(HIPAA/GDPR) | 需要隐私协议和审计 |
| 最佳场景 | 医疗记录、法律文件、生物识别、个人助手 | 非敏感任务、公开信息处理 |
关键观点:端侧是唯一能实现 "零数据出境"的方案。对于处理医疗记录、金融交易、生物特征等敏感数据,端侧推理是不二之选。
2. 延迟与响应速度
| 维度 | Edge | Cloud |
|---|---|---|
| TTFT (首 token 延迟) | 10–50ms(本地处理) | 100–1000ms+(网络传输) |
| 生成速度 | 受算力限制,通常 5–20 tokens/s | GPU 加速,可达 50–200 tokens/s |
| 网络依赖 | 可离线运行 | 必须保持连接 |
| 最佳场景 | 实时交互、离线助手、语音对话 | 批量处理、复杂分析、非实时任务 |
关键观点:端侧在首次响应上有明显优势,但在生成长文本时速度远不及云端。对于语音对话等对延迟极敏感的场景,7B 级本地模型的延迟优势可能抵消质量差距。
3. 模型能力与任务复杂度
| 能力维度 | Edge | Cloud |
|---|---|---|
| 参数规模 | 1B–8B 主流,最多 13B | 可达 400B+(多机分布) |
| 上下文窗口 | 2K–32K tokens | 128K–2M tokens |
| 复杂推理 | 有限(基础逻辑、简单数学) | 高级(深度分析、研究、创作) |
| 代码能力 | 简单补全,基础调试 | 复杂系统开发、架构设计 |
| 多模态 | 图像理解可行,视频受限 | 全面多模态、跨模态推理 |
关键观点:端侧模型的能力天花板是最大限制。虽然 Knowledge Distillation 和 Model Quantization 不断推进,但 7B 端侧模型在复杂任务上仍无法匹配 70B+的云端模型。
4. 成本结构
| 成本类型 | Edge | Cloud |
|---|---|---|
| 硬件投入 | 用户已拥有(手机/PC) | GPU 服务器或 API 费用 |
| 运营成本 | 电池耗电 | 云服务费、网络费用 |
| 边际成本 | 零(无额外请求时不产生成本) | 按每次请求付费 |
| 总体 | 低到中等(一次性硬件投入) | 中到高(持续运营费用) |
关键观点:端侧在边际成本上有绝对优势——不用不花钱。对于高频率低复杂度的任务(如每天几十次的文本分类、摘要),端侧更划算。
5. 部署与运维复杂度
| 维度 | Edge | Cloud |
|---|---|---|
| 模型分发 | 需要应用内置或应用商店更新 | 服务端立即更新 |
| 多平台适配 | iOS/Android/macOS/Windows 分别适配 | 统一 API,客户端无感 |
| 模型保护 | 模型文件可能被提取 | 模型不离开服务器 |
| 监控与调试 | 受限于设备能力 | 完整的监控和日志 |
端侧推理技术栈
端侧运行框架
| 框架 | 特点 | 支持平台 |
|---|---|---|
| llama.cpp | C++ 实现,GGUF 格式,支持 CPU/GPU | 全平台 |
| Ollama | 一键运行本地模型,用户友好 | macOS/Linux/Windows |
| MLX | Apple Silicon 优化,性能极高 | Apple Silicon |
| MLC LLM | TVM 编译,支持多种端侧硬件 | iOS/Android/Web/GPU |
| TensorFlow Lite / ExecuTorch | 移动端模型部署标准 | 移动设备 |
| Qualcomm AI Stack | Snapdragon NPU 优化 | Android |
端侧芯片能力
| 芯片 | NPU/AI 加速 | 可运行模型 | 代表设备 |
|---|---|---|---|
| Apple A17 Pro | 35 TOPS | 3–7B INT4 | iPhone 15 Pro |
| Apple M4 | 38 TOPS | 7–13B INT4 | iPad Pro / Mac |
| Snapdragon 8 Gen 3 | 45 TOPS | 7B INT4 | 高端 Android |
| Intel Core Ultra (Meteor Lake) | 34 TOPS | 7B INT4 | Windows 笔记本 |
| NVIDIA Jetson Orin | 275 TOPS | 13–70B | 边缘 AI 设备 |
| Raspberry Pi 5 | 无专用 NPU | < 1B (CPU) | 树莓派 |
压缩技术
端侧推理依赖极致的 Model Quantization:
| 技术 | 压缩比 | 质量损失 | 适用 |
|---|---|---|---|
| Q4_0 / Q4_K_M (GGUF) | 4x | 低 | 通用端侧 |
| Q3_K_M | 5.3x | 中等 | 内存极度受限 |
| INT8/INT4 | 2–4x | 低 | NPU 硬件加速 |
| AWQ / GPTQ | 4x | 低 | GPU 端侧 |
混合架构:最佳实践
大多数成熟的 AI 应用并非纯粹的端侧或纯粹的云端,而是采用 混合架构(Hybrid Architecture):
┌─────────────────────────────────────────┐
│ Edge (1B–8B 模型) │
│ • 简单文本分类、标签、摘要 │
│ • 实时语音对话转文本 │
│ • 个人化推荐和过滤 │
│ • 离线文本生成和编辑 │
├─────────────────────────────────────────┤
│ Cloud (70B+ 或 API) │
│ • 复杂推理和分析 │
│ • 长文本处理和研究 │
│ • 创意内容生成 │
│ • 多模态理解和生成 │
│ • 需要最新知识的任务 │
└─────────────────────────────────────────┘典型混合架构案例
Apple Intelligence 是混合架构的典范:
- 端侧:3B 本地模型处理写作工具、智能回复、摘要
- 私有云:Private Cloud Compute 处理复杂任务
- 外部云:ChatGPT 接入处理最复杂的情感和创意任务
决策矩阵
| 场景 | 推荐方案 | 理由 |
|---|---|---|
| 处理敏感个人数据 | Edge | 隐私合规,数据不出境 |
| 实时语音助手 | Edge / Hybrid | 低延迟,离线可用 |
| 智能手机相机 | Edge | 本地图像分析,无需上传 |
| 复杂推理/研究 | Cloud | 需要 70B+ 模型能力 |
| 企业级 RAG | Cloud / Hybrid | 知识库规模大,需要强大检索 |
| 离线/网络不稳定场景 | Edge | 无网络依赖 |
| IoT / 工业检测 | Edge | 低延迟、数据局部处理 |
| 创意内容平台 | Cloud | 需要最强多模态能力 |
未来趋势
端侧能力持续提升
- 芯片 NPU 算力每年翻倍(受益于摩尔定律的端侧版本)
- 模型压缩技术(如 Model Quantization 和 Knowledge Distillation)不断精进
- 2025-2026 年可行的端侧模型从 3B 增长到 13B+
端云融合
- 模型切换(model routing)自动根据任务复杂度选择端侧或云端
- 增量推理:端侧生成草稿,云端精修
- 协同推理:端侧模型做起始处理,云端模型做深度分析
新的端侧形态
- AI Pin / Rabbit R1 等端侧 AI 设备尝试(虽然初期产品不成功)
- AR/VR 眼镜:Apple Vision Pro、Meta Quest 等设备的本地 AI 处理需求
- 智能汽车:车载 NPU 处理驾驶辅助和语音交互
Relationships
- 相关概念:Model Quantization、Knowledge Distillation、Model Inference & Deployment、AI Agents
- 相关实体:Apple(Apple Intelligence)、OpenAI、Google Gemini & DeepMind
- 工具链:llama.cpp、Ollama、MLX、MLC LLM、vLLM
Open Questions
- 端侧模型的能力天花板在哪里?13B INT4 端侧模型能否接近 70B 云端模型的通用能力?
- 混合架构中的端云切换策略如何设计才能保持用户体验的一致性?
- 当端侧模型足够强大时,是否会冲击云端 API 市场?云端供应商如何转型?
- 未来 5 年内,普通用户的日常 AI 交互有多大比例会在端侧完成?