Skip to content

Groq

Groq 是一家专注于 AI 推理加速的芯片与云服务公司,其核心产品 LPU(Language Processing Unit) 采用独特的 Tensor Streaming Processor 架构,在 LLM 推理延迟方面处于行业领先地位。

LPU 架构

Tensor Streaming Processor (TSP)

  • 确定性执行:编译时确定所有指令时序,无运行时调度开销
  • 大规模片上 SRAM:减少对外部 HBM 的依赖,降低内存瓶颈
  • 单核性能:每个 TSP 核心具有极高的单线程吞吐量
  • 横向扩展:多芯片通过专有互联实现线性扩展

性能特点

  • 超低延迟:Llama 2 70B 可达 300+ tokens/秒
  • 确定性延迟:无 jitter,适合实时交互场景
  • 成本效率:推理成本显著低于 GPU 方案

产品与服务

  • GroqCloud:公有云 API 服务,支持主流开源模型
  • GroqChip:自研推理芯片,第三代已发布
  • 企业部署:私有云与本地部署方案

关键里程碑

时间事件
2016公司成立,Jonathan Ross 创立(前 Google TPU 核心设计者)
2020发布第一代 GroqChip
2024GroqCloud 上线,引发行业对推理速度的关注
2025+持续扩展模型支持与企业客户

生态定位

  • 推理专用:专注推理而非训练,与 GPU 形成互补
  • 实时交互:对话、Agent、流式生成等低延迟场景
  • 开源模型友好:快速支持最新开源模型发布

相关页面

AI Knowledge Base — 持续积累