Skip to content

NVIDIA

NVIDIA (纳达) 是全球领先的 GPU 设计与计算平台公司,由 Jensen Huang (黄仁勋)、Chris Malachowsky 和 Curtis Priem 于 1993 年在美国加州创立。NVIDIA 从游戏图形卡起家,如今已成为 NVIDIANVIDIA 领域的核心供应商,其 GPU 是训练和部署大型 Large Language Model (LLM) 的主流硬件平台。

概览

NVIDIA 的数据中心 GPU (以 NVIDIANVIDIANVIDIA 和最新的 NVIDIA 为代表) 已成为 Large Language Model (LLM) 训练的事实标准。除硬件外,NVIDIA 还提供了完整的软件生态系统,包括 NVIDIA 并行计算平台、NVIDIA 推理加速器、NVIDIA 等,构建了从训练到部署的全栈 AI 解决方案。

核心产品

数据中心 GPU

产品架构内存主要用途
A100 (2020)Ampere40/80 GB HBM2e训练与推理
H100 (2022)Hopper80 GB HBM3大型模型训练
H200 (2024)Hopper141 GB HBM3e大内存推理
B200 (2024)Blackwell192 GB HBM3e下一代 AI 训练
GB200 (2024)Blackwell384 GB (双芯片)超大模型训练

AI 软件栈

  • NVIDIA: 并行计算平台和编程模型,NVIDIA 生态的核心壁垒
  • NVIDIA: 深度学习推理优化器,支持 INT8/FP16 量化
  • Triton Inference Server: 开源推理服务器,支持多框架后端
  • NeMo: 大语言模型训练与定制框架
  • RAPIDS: 数据科学和机器学习库的 GPU 加速

DGX 系统

DGX 是 NVIDIA 的一体化 AI 超级计算机系列:

  • DGX A100/H100: 8-GPU 机柜,适合企业数据中心
  • DGX B200: 基于 Blackwell 架构的最新一代
  • DGX GB200 NVL72: 72 GPU 液冷机柜,专为超大模型设计
  • DGX Cloud: 云端 DGX 服务,合作云厂商提供

技术亮点

  • CUDA 生态: 20 年积累的软件生态构建了极高的用户粘性,算法库、框架和开发者工具全面依赖 CUDA
  • NVLink & NVSwitch: GPU 间高速互联技术,支持超大规模并行训练
  • Tensor Core: 专用矩阵运算单元,为 Transformer Architecture 架构优化
  • 液冷技术: 数据中心级液冷解决方案,支持更高功耗密度

生态定位

NVIDIA 在 AI 产业链中处于"卖铲子"的核心位置:

定价

NVIDIA 不直接向终端用户提供 API 服务,主要通过硬件销售和软件授权获利:

  • A100: 约 $10,000-$15,000/卡
  • H100: 约 $25,000-$40,000/卡
  • DGX H100: 约 $400,000/台
  • DGX Cloud: 约 $37,000/月 (单节点)

竞争格局

竞争对手产品差异化
AMD (MI300X)GPU更大内存,开放生态
Intel (Gaudi)AI 加速器性价比优势
Google (TPU)专用 AI 芯片与自有模型深度集成
Amazon (Trainium/Inferentia)自研芯片云端优化

相关实体

  • OpenAI: 使用 NVIDIA GPU 训练 GPT 系列
  • Meta: 使用 NVIDIA 基础设施训练 Llama
  • Zhipu AI: 国产 AI 芯片厂商
  • NVIDIA: NVIDIA 的并行计算平台
  • NVIDIA: Hopper 架构数据中心 GPU

AI Knowledge Base — 持续积累