Groq

Groq 是一家专注于 AI 推理加速的芯片与云服务公司，其核心产品 LPU（Language Processing Unit） 采用独特的 Tensor Streaming Processor 架构，在 LLM 推理延迟方面处于行业领先地位。

LPU 架构

Tensor Streaming Processor (TSP)

确定性执行：编译时确定所有指令时序，无运行时调度开销
大规模片上 SRAM：减少对外部 HBM 的依赖，降低内存瓶颈
单核性能：每个 TSP 核心具有极高的单线程吞吐量
横向扩展：多芯片通过专有互联实现线性扩展

性能特点

超低延迟：Llama 2 70B 可达 300+ tokens/秒
确定性延迟：无 jitter，适合实时交互场景
成本效率：推理成本显著低于 GPU 方案

产品与服务

GroqCloud：公有云 API 服务，支持主流开源模型
GroqChip：自研推理芯片，第三代已发布
企业部署：私有云与本地部署方案

关键里程碑

时间	事件
2016	公司成立，Jonathan Ross 创立（前 Google TPU 核心设计者）
2020	发布第一代 GroqChip
2024	GroqCloud 上线，引发行业对推理速度的关注
2025+	持续扩展模型支持与企业客户

生态定位

推理专用：专注推理而非训练，与 GPU 形成互补
实时交互：对话、Agent、流式生成等低延迟场景
开源模型友好：快速支持最新开源模型发布

相关页面

NVIDIA — GPU 推理对比
Cerebras — 另一推理加速路线
SambaNova — 数据流架构 AI 芯片
推理框架对比 — 软件层对比
Model Inference & Deployment — 模型推理与部署
AI 基础设施与算力市场趋势 — AI 基础设施与算力市场趋势