Skip to content

Edge vs Cloud Inference

随着 LLM 缩小技术(如 Model QuantizationKnowledge Distillation)的进步和端侧芯片算力的提升,在本地设备上运行大模型已从科幻变为现实。端侧推理(Edge Inference)与云端推理(Cloud Inference)之间的权衡,正在重塑 AI 应用的设计范式。

Landscape Overview

云端推理是当前主流:将模型部署在数据中心的 GPU 服务器上(或通过 API 调用),用户设备通过网络请求服务。

端侧推理是快速兴起的新范式:将经过压缩的小型模型直接运行在用户设备上(手机、笔记本、IoT 设备),无需网络连接。

云端推理:  用户设备 → 网络 → 云端 GPU → 模型推理 → 网络 → 用户设备
端侧推理:  用户设备 → 本地 NPU/GPU → 缩小模型推理 → 直接输出

对比维度

1. 隐私与数据安全

维度EdgeCloud
数据离境数据从不离开设备数据必须传输到云端
隐私风险极低依赖供应商隐私政策
合规性内置合规(HIPAA/GDPR)需要隐私协议和审计
最佳场景医疗记录、法律文件、生物识别、个人助手非敏感任务、公开信息处理

关键观点:端侧是唯一能实现 "零数据出境"的方案。对于处理医疗记录、金融交易、生物特征等敏感数据,端侧推理是不二之选。

2. 延迟与响应速度

维度EdgeCloud
TTFT (首 token 延迟)10–50ms(本地处理)100–1000ms+(网络传输)
生成速度受算力限制,通常 5–20 tokens/sGPU 加速,可达 50–200 tokens/s
网络依赖可离线运行必须保持连接
最佳场景实时交互、离线助手、语音对话批量处理、复杂分析、非实时任务

关键观点:端侧在首次响应上有明显优势,但在生成长文本时速度远不及云端。对于语音对话等对延迟极敏感的场景,7B 级本地模型的延迟优势可能抵消质量差距。

3. 模型能力与任务复杂度

能力维度EdgeCloud
参数规模1B–8B 主流,最多 13B可达 400B+(多机分布)
上下文窗口2K–32K tokens128K–2M tokens
复杂推理有限(基础逻辑、简单数学)高级(深度分析、研究、创作)
代码能力简单补全,基础调试复杂系统开发、架构设计
多模态图像理解可行,视频受限全面多模态、跨模态推理

关键观点:端侧模型的能力天花板是最大限制。虽然 Knowledge DistillationModel Quantization 不断推进,但 7B 端侧模型在复杂任务上仍无法匹配 70B+的云端模型。

4. 成本结构

成本类型EdgeCloud
硬件投入用户已拥有(手机/PC)GPU 服务器或 API 费用
运营成本电池耗电云服务费、网络费用
边际成本零(无额外请求时不产生成本)按每次请求付费
总体低到中等(一次性硬件投入)中到高(持续运营费用)

关键观点:端侧在边际成本上有绝对优势——不用不花钱。对于高频率低复杂度的任务(如每天几十次的文本分类、摘要),端侧更划算。

5. 部署与运维复杂度

维度EdgeCloud
模型分发需要应用内置或应用商店更新服务端立即更新
多平台适配iOS/Android/macOS/Windows 分别适配统一 API,客户端无感
模型保护模型文件可能被提取模型不离开服务器
监控与调试受限于设备能力完整的监控和日志

端侧推理技术栈

端侧运行框架

框架特点支持平台
llama.cppC++ 实现,GGUF 格式,支持 CPU/GPU全平台
Ollama一键运行本地模型,用户友好macOS/Linux/Windows
MLXApple Silicon 优化,性能极高Apple Silicon
MLC LLMTVM 编译,支持多种端侧硬件iOS/Android/Web/GPU
TensorFlow Lite / ExecuTorch移动端模型部署标准移动设备
Qualcomm AI StackSnapdragon NPU 优化Android

端侧芯片能力

芯片NPU/AI 加速可运行模型代表设备
Apple A17 Pro35 TOPS3–7B INT4iPhone 15 Pro
Apple M438 TOPS7–13B INT4iPad Pro / Mac
Snapdragon 8 Gen 345 TOPS7B INT4高端 Android
Intel Core Ultra (Meteor Lake)34 TOPS7B INT4Windows 笔记本
NVIDIA Jetson Orin275 TOPS13–70B边缘 AI 设备
Raspberry Pi 5无专用 NPU< 1B (CPU)树莓派

压缩技术

端侧推理依赖极致的 Model Quantization

技术压缩比质量损失适用
Q4_0 / Q4_K_M (GGUF)4x通用端侧
Q3_K_M5.3x中等内存极度受限
INT8/INT42–4xNPU 硬件加速
AWQ / GPTQ4xGPU 端侧

混合架构:最佳实践

大多数成熟的 AI 应用并非纯粹的端侧或纯粹的云端,而是采用 混合架构(Hybrid Architecture)

┌─────────────────────────────────────────┐
│  Edge (1B–8B 模型)              │
│  • 简单文本分类、标签、摘要       │
│  • 实时语音对话转文本            │
│  • 个人化推荐和过滤            │
│  • 离线文本生成和编辑          │
├─────────────────────────────────────────┤
│  Cloud (70B+ 或 API)              │
│  • 复杂推理和分析              │
│  • 长文本处理和研究              │
│  • 创意内容生成                │
│  • 多模态理解和生成            │
│  • 需要最新知识的任务          │
└─────────────────────────────────────────┘

典型混合架构案例

Apple Intelligence 是混合架构的典范:

  • 端侧:3B 本地模型处理写作工具、智能回复、摘要
  • 私有云:Private Cloud Compute 处理复杂任务
  • 外部云:ChatGPT 接入处理最复杂的情感和创意任务

决策矩阵

场景推荐方案理由
处理敏感个人数据Edge隐私合规,数据不出境
实时语音助手Edge / Hybrid低延迟,离线可用
智能手机相机Edge本地图像分析,无需上传
复杂推理/研究Cloud需要 70B+ 模型能力
企业级 RAGCloud / Hybrid知识库规模大,需要强大检索
离线/网络不稳定场景Edge无网络依赖
IoT / 工业检测Edge低延迟、数据局部处理
创意内容平台Cloud需要最强多模态能力

未来趋势

端侧能力持续提升

  • 芯片 NPU 算力每年翻倍(受益于摩尔定律的端侧版本)
  • 模型压缩技术(如 Model QuantizationKnowledge Distillation)不断精进
  • 2025-2026 年可行的端侧模型从 3B 增长到 13B+

端云融合

  • 模型切换(model routing)自动根据任务复杂度选择端侧或云端
  • 增量推理:端侧生成草稿,云端精修
  • 协同推理:端侧模型做起始处理,云端模型做深度分析

新的端侧形态

  • AI Pin / Rabbit R1 等端侧 AI 设备尝试(虽然初期产品不成功)
  • AR/VR 眼镜:Apple Vision Pro、Meta Quest 等设备的本地 AI 处理需求
  • 智能汽车:车载 NPU 处理驾驶辅助和语音交互

Relationships

Open Questions

  • 端侧模型的能力天花板在哪里?13B INT4 端侧模型能否接近 70B 云端模型的通用能力?
  • 混合架构中的端云切换策略如何设计才能保持用户体验的一致性?
  • 当端侧模型足够强大时,是否会冲击云端 API 市场?云端供应商如何转型?
  • 未来 5 年内,普通用户的日常 AI 交互有多大比例会在端侧完成?

AI Knowledge Base — 持续积累