Appearance
Groq
Groq 是一家专注于 AI 推理加速的芯片与云服务公司,其核心产品 LPU(Language Processing Unit) 采用独特的 Tensor Streaming Processor 架构,在 LLM 推理延迟方面处于行业领先地位。
LPU 架构
Tensor Streaming Processor (TSP)
- 确定性执行:编译时确定所有指令时序,无运行时调度开销
- 大规模片上 SRAM:减少对外部 HBM 的依赖,降低内存瓶颈
- 单核性能:每个 TSP 核心具有极高的单线程吞吐量
- 横向扩展:多芯片通过专有互联实现线性扩展
性能特点
- 超低延迟:Llama 2 70B 可达 300+ tokens/秒
- 确定性延迟:无 jitter,适合实时交互场景
- 成本效率:推理成本显著低于 GPU 方案
产品与服务
- GroqCloud:公有云 API 服务,支持主流开源模型
- GroqChip:自研推理芯片,第三代已发布
- 企业部署:私有云与本地部署方案
关键里程碑
| 时间 | 事件 |
|---|---|
| 2016 | 公司成立,Jonathan Ross 创立(前 Google TPU 核心设计者) |
| 2020 | 发布第一代 GroqChip |
| 2024 | GroqCloud 上线,引发行业对推理速度的关注 |
| 2025+ | 持续扩展模型支持与企业客户 |
生态定位
- 推理专用:专注推理而非训练,与 GPU 形成互补
- 实时交互:对话、Agent、流式生成等低延迟场景
- 开源模型友好:快速支持最新开源模型发布
相关页面
NVIDIA — GPU 推理对比
Cerebras — 另一推理加速路线
SambaNova — 数据流架构 AI 芯片
推理框架对比 — 软件层对比
Model Inference & Deployment — 模型推理与部署
AI 基础设施与算力市场趋势 — AI 基础设施与算力市场趋势