Appearance
AI 硬件与算力资源
算力是 AI 发展的基础设施。本页汇总 GPU/TPU/NPU 选型、本地部署配置、云端算力平台与成本优化策略,帮助你在有限预算内最大化算力效率。
GPU 选型指南
消费级 GPU(本地开发/小规模训练)
| GPU | 显存 | 性能特点 | 适用场景 | 参考价格 |
|---|---|---|---|---|
| RTX 4090 | 24GB | 最快消费级、支持 FP8 | 本地开发、小模型微调 | ¥15,000-18,000 |
| RTX 3090 | 24GB | 性价比高、二手市场充足 | 入门训练、实验 | ¥5,000-8,000 |
| RTX 4080 | 16GB | 功耗低、性能不错 | 推理部署、小模型 | ¥9,000-11,000 |
| RTX 4070 Ti | 12GB | 性价比之选 | 轻量级开发 | ¥6,000-7,000 |
专业级 GPU(数据中心/大规模训练)
| GPU | 显存 | 性能特点 | 适用场景 | 参考价格 |
|---|---|---|---|---|
| H100 | 80GB | 最强训练性能、Transformer Engine | 大规模训练 | ¥200,000+ |
| H200 | 141GB | 更大显存、同样训练性能 | 超大模型训练 | ¥250,000+ |
| A100 | 40/80GB | 成熟、生态完善 | 生产级部署 | ¥80,000-120,000 |
| L40S | 48GB | 推理优化、性价比 | 推理服务 | ¥40,000-50,000 |
| L4 | 24GB | 低功耗、推理专用 | 边缘推理、视频 | ¥15,000-20,000 |
对比选择建议
markdown
## GPU 选型决策树
### 预算 < ¥10,000
- 推理为主: RTX 4070 Ti (12GB)
- 微调为主: RTX 3090 二手 (24GB)
### 预算 ¥10,000-20,000
- 综合性能: RTX 4090 (24GB)
- 多卡方案: 2x RTX 3090
### 预算 ¥20,000-50,000
- 专业级入门: L40S 或 A100 40GB
- 多卡服务器: 2x RTX 4090 + NVLink
### 预算 > ¥50,000
- 数据中心级: A100 80GB 或 H100
- 超大规模: H200 或 DGX 系统云端算力平台
主流云厂 GPU 实例
| 平台 | 实例类型 | 特点 | 定价模式 | 链接 |
|---|---|---|---|---|
| AWS EC2 | P4d/P5 (A100/H100) | 生态完善、预付/现付 | 按小时/预约 | aws.amazon.com/ec2 |
| Google Cloud | A2/A3 (A100/H100) | TPU 可用、预体价 | 按小时 | cloud.google.com/compute |
| Azure | NC/ND 系列 | 企业级、与 Office 集成 | 按小时 | azure.microsoft.com |
| 阿里云 | GN7/GN10 | 国内访问快、A100/V100 | 按小时 | aliyun.com |
| 腾讯云 | GN10/GN8 | 国内优惠、A100/V100 | 按小时 | cloud.tencent.com |
GPU 算力租赁平台
| 平台 | 特点 | 定价 | 链接 |
|---|---|---|---|
| Vast.ai | P2P 算力市场、最便宜 | 按小时 | vast.ai |
| RunPod | Serverless + 云服务器 | 按秒/按小时 | runpod.io |
| Lambda Labs | 高性价比、研究友好 | 按小时 | lambdalabs.com |
| CoreWeave | 企业级、大规模 | 企业定价 | coreweave.com |
| TensorDock | 低价 GPU 云 | 按小时 | tensordock.com |
| FluidStack | 游戏 GPU 利用 | 按小时 | fluidstack.io |
TPU 与专用芯片
Google TPU
| 型号 | 性能 | 适用场景 | 链接 |
|---|---|---|---|
| TPU v4 | 高性能训练 | 大规模训练 | cloud.google.com/tpu |
| TPU v5e | 推理优化 | 推理部署 | cloud.google.com/tpu |
| TPU v5p | 训练+推理 | 超大模型 | cloud.google.com/tpu |
| Cloud TPU VM | 便捷访问 | 快速开始 | cloud.google.com/tpu |
其他专用芯片
| 芯片 | 厂商 | 特点 | 链接 |
|---|---|---|---|
| Trainium2 | AWS | 成本优化、大规模训练 | aws.amazon.com/machine-learning/trainium |
| Inferentia2 | AWS | 推理优化、低延迟 | aws.amazon.com/machine-learning/inferentia |
| Gaudi | Intel | 竞争价格、PyTorch 支持 | habana.ai |
| MTIA | Meta | 自研、推理优化 | 内部使用 |
| Apple Neural Engine | Apple | 边缘推理、Core ML | Apple 设备 |
本地部署配置建议
单机配置
| 配置 | 组件 | 估算成本 | 适用场景 |
|---|---|---|---|
| 入门级 | RTX 4070 Ti + 64GB RAM + 2TB SSD | ¥15,000 | 推理 7B 模型 |
| 中端 | RTX 4090 + 128GB RAM + 4TB SSD | ¥30,000 | 微调 13B 模型 |
| 高端 | 2x RTX 4090 + 256GB RAM + 8TB SSD | ¥60,000 | 微调 70B 模型 |
| 工作站 | RTX 6000 Ada + 512GB RAM | ¥150,000 | 专业开发 |
多卡配置注意事项
- NVLink/SLI: 确保卡间通信带宽
- PCIe 通道: x16 优于 x8
- 电源: 预留 30% 余量
- 散热: 高端配置需要风道/水冷
算力成本优化
训练成本估算
| 模型规模 | 方法 | GPU 需求 | 时间 | 估算成本 |
|---|---|---|---|---|
| 7B | QLoRA | 1x RTX 4090 | 2h | ¥50 |
| 13B | QLoRA | 1x RTX 4090 | 4h | ¥100 |
| 70B | QLoRA | 1x A100 80GB | 8h | ¥500 |
| 70B | Full FT | 8x A100 | 24h | ¥12,000 |
| 405B | Full FT | 64x H100 | 数天 | ¥100,000+ |
推理成本优化
| 技术 | 效果 | 工具 |
|---|---|---|
| 量化 (INT8/INT4) | 2-4x 减少显存 | llama.cpp, AutoGPTQ |
| 模型合并 | 减少请求次数 | MergeKit |
| 动态批次 | 提高吞吐量 | vLLM, TensorRT-LLM |
| 缓存优化 | 减少重复计算 | KV Cache, Prompt Caching |
硬件监控工具
| 工具 | 功能 | 链接 |
|---|---|---|
| nvidia-smi | GPU 状态监控 | 内置 |
| nvitop | 增强版 nvidia-smi | GitHub |
| gpustat | 简洁 GPU 状态 | GitHub |
| PyTorch Profiler | 训练性能分析 | PyTorch 内置 |
| Weights & Biases | 实验跟踪 | wandb.ai |
相关页面
- AI 训练与微调平台 — AI 训练与微调平台
- AI 推理部署与 Serving — 推理部署与 Serving
- Model Quantization — 模型量化
- Cloud AI 平台对比 — Cloud AI 平台对比
- Edge vs Cloud Inference — 边缘 vs 云端推理
参考来源
- NVIDIA 官方产品页
- Google Cloud TPU 文档
- AWS Trainium/Inferentia 文档
- Lambda Labs 定价页
- Vast.ai 市场数据