AI 硬件与算力资源

算力是 AI 发展的基础设施。本页汇总 GPU/TPU/NPU 选型、本地部署配置、云端算力平台与成本优化策略，帮助你在有限预算内最大化算力效率。

GPU 选型指南

消费级 GPU（本地开发/小规模训练）

GPU	显存	性能特点	适用场景	参考价格
RTX 4090	24GB	最快消费级、支持 FP8	本地开发、小模型微调	￥15,000-18,000
RTX 3090	24GB	性价比高、二手市场充足	入门训练、实验	￥5,000-8,000
RTX 4080	16GB	功耗低、性能不错	推理部署、小模型	￥9,000-11,000
RTX 4070 Ti	12GB	性价比之选	轻量级开发	￥6,000-7,000

专业级 GPU（数据中心/大规模训练）

GPU	显存	性能特点	适用场景	参考价格
H100	80GB	最强训练性能、Transformer Engine	大规模训练	￥200,000+
H200	141GB	更大显存、同样训练性能	超大模型训练	￥250,000+
A100	40/80GB	成熟、生态完善	生产级部署	￥80,000-120,000
L40S	48GB	推理优化、性价比	推理服务	￥40,000-50,000
L4	24GB	低功耗、推理专用	边缘推理、视频	￥15,000-20,000

对比选择建议

markdown

## GPU 选型决策树

### 预算 < ￥10,000
- 推理为主: RTX 4070 Ti (12GB)
- 微调为主: RTX 3090 二手 (24GB)

### 预算 ￥10,000-20,000
- 综合性能: RTX 4090 (24GB)
- 多卡方案: 2x RTX 3090

### 预算 ￥20,000-50,000
- 专业级入门: L40S 或 A100 40GB
- 多卡服务器: 2x RTX 4090 + NVLink

### 预算 > ￥50,000
- 数据中心级: A100 80GB 或 H100
- 超大规模: H200 或 DGX 系统

云端算力平台

主流云厂 GPU 实例

平台	实例类型	特点	定价模式	链接
AWS EC2	P4d/P5 (A100/H100)	生态完善、预付/现付	按小时/预约	aws.amazon.com/ec2
Google Cloud	A2/A3 (A100/H100)	TPU 可用、预体价	按小时	cloud.google.com/compute
Azure	NC/ND 系列	企业级、与 Office 集成	按小时	azure.microsoft.com
阿里云	GN7/GN10	国内访问快、A100/V100	按小时	aliyun.com
腾讯云	GN10/GN8	国内优惠、A100/V100	按小时	cloud.tencent.com

GPU 算力租赁平台

平台	特点	定价	链接
Vast.ai	P2P 算力市场、最便宜	按小时	vast.ai
RunPod	Serverless + 云服务器	按秒/按小时	runpod.io
Lambda Labs	高性价比、研究友好	按小时	lambdalabs.com
CoreWeave	企业级、大规模	企业定价	coreweave.com
TensorDock	低价 GPU 云	按小时	tensordock.com
FluidStack	游戏 GPU 利用	按小时	fluidstack.io

TPU 与专用芯片

Google TPU

型号	性能	适用场景	链接
TPU v4	高性能训练	大规模训练	cloud.google.com/tpu
TPU v5e	推理优化	推理部署	cloud.google.com/tpu
TPU v5p	训练+推理	超大模型	cloud.google.com/tpu
Cloud TPU VM	便捷访问	快速开始	cloud.google.com/tpu

其他专用芯片

芯片	厂商	特点	链接
Trainium2	AWS	成本优化、大规模训练	aws.amazon.com/machine-learning/trainium
Inferentia2	AWS	推理优化、低延迟	aws.amazon.com/machine-learning/inferentia
Gaudi	Intel	竞争价格、PyTorch 支持	habana.ai
MTIA	Meta	自研、推理优化	内部使用
Apple Neural Engine	Apple	边缘推理、Core ML	Apple 设备

本地部署配置建议

单机配置

配置	组件	估算成本	适用场景
入门级	RTX 4070 Ti + 64GB RAM + 2TB SSD	￥15,000	推理 7B 模型
中端	RTX 4090 + 128GB RAM + 4TB SSD	￥30,000	微调 13B 模型
高端	2x RTX 4090 + 256GB RAM + 8TB SSD	￥60,000	微调 70B 模型
工作站	RTX 6000 Ada + 512GB RAM	￥150,000	专业开发

多卡配置注意事项

NVLink/SLI: 确保卡间通信带宽
PCIe 通道: x16 优于 x8
电源: 预留 30% 余量
散热: 高端配置需要风道/水冷

算力成本优化

训练成本估算

模型规模	方法	GPU 需求	时间	估算成本
7B	QLoRA	1x RTX 4090	2h	￥50
13B	QLoRA	1x RTX 4090	4h	￥100
70B	QLoRA	1x A100 80GB	8h	￥500
70B	Full FT	8x A100	24h	￥12,000
405B	Full FT	64x H100	数天	￥100,000+

推理成本优化

技术	效果	工具
量化 (INT8/INT4)	2-4x 减少显存	llama.cpp, AutoGPTQ
模型合并	减少请求次数	MergeKit
动态批次	提高吞吐量	vLLM, TensorRT-LLM
缓存优化	减少重复计算	KV Cache, Prompt Caching

硬件监控工具

工具	功能	链接
nvidia-smi	GPU 状态监控	内置
nvitop	增强版 nvidia-smi	GitHub
gpustat	简洁 GPU 状态	GitHub
PyTorch Profiler	训练性能分析	PyTorch 内置
Weights & Biases	实验跟踪	wandb.ai

参考来源

NVIDIA 官方产品页
Google Cloud TPU 文档
AWS Trainium/Inferentia 文档
Lambda Labs 定价页
Vast.ai 市场数据

AI 硬件与算力资源 ​

GPU 选型指南 ​

消费级 GPU（本地开发/小规模训练） ​

专业级 GPU（数据中心/大规模训练） ​

对比选择建议 ​

云端算力平台 ​

主流云厂 GPU 实例 ​

GPU 算力租赁平台 ​

TPU 与专用芯片 ​

Google TPU ​

其他专用芯片 ​

本地部署配置建议 ​

单机配置 ​

多卡配置注意事项 ​

算力成本优化 ​

训练成本估算 ​

推理成本优化 ​

硬件监控工具 ​

相关页面 ​

参考来源 ​

AI 硬件与算力资源

GPU 选型指南

消费级 GPU（本地开发/小规模训练）

专业级 GPU（数据中心/大规模训练）

对比选择建议

云端算力平台

主流云厂 GPU 实例

GPU 算力租赁平台

TPU 与专用芯片

Google TPU

其他专用芯片

本地部署配置建议

单机配置

多卡配置注意事项

算力成本优化

训练成本估算

推理成本优化

硬件监控工具

相关页面

参考来源