Skip to content

Stability AI

开源图像生成领域的革命性公司,以 Stable Diffusion 系列模型重新定义创意产业。尽管经历创始人与管理层的剧烈动荡,Stability AI 仍是开源生成式 AI 生态中不可替代的关键力量——旗下模型覆盖图像、视频、音频、3D 等全模态生成。

Overview

Stability AI 成立于 2019 年,由 Emad Mostaque 在英国伦敦创办。公司最初定位为"开源 AI 的基础设施层",在 2022 年 8 月发布 Stable Diffusion 1.4 后一夜成名——这是第一个在消费级 GPU 上可运行的高质量文生图模型,直接点燃了全球 AI 图像生成热潮。

2022 年 10 月,Stability AI 以 $1B 估值完成 $101M 融资(Coatue + Lightspeed),进入独角兽行列。然而,商业变现困难导致资金紧张:Emad Mostaque 于 2024 年 3 月辞去 CEO 职务并退出董事会,由视觉特效行业资深人士 Prem Akkaraju(前 Wētā Digital)接任。2024 年 6 月完成新一轮约 $80M 融资,但估值大幅下降。

Model Timeline

图像生成(核心产品线)

模型发布时间参数规模特点
Stable Diffusion 1.4/1.52022-08/10860M UNet开源文生图的里程碑,ComfyUI/Automatic1111 生态基石
Stable Diffusion 2.0/2.12022-11860M UNet升级文本编码器(OpenCLIP),移除 NSFW 内容
SDXL 0.9 / 1.02023-06/072.6B UNet + 双文本编码器重大架构升级,原生 1024×1024 分辨率
Stable Diffusion 3 (SD3)2024-02~06800M–8B引入 MMDiT 架构(Diffusion Transformer),文本渲染质变
Stable Diffusion 3.52024-102.5B (Medium) / 8B (Large)SD3 改良版,修复许可证争议
Stable Cascade2024-023.6B (Würstchen 架构)三阶段级联扩散,更高效的压缩生成

视频、音频与 3D

模型发布时间模态特点
Stable Video Diffusion (SVD)2023-11图片→视频首个开源视频生成基座模型
Stable Video 3D (SV3D)2024-03图片→3D从单张图片生成多视角 3D 模型
Stable Audio 1.0/2.02023-09 / 2024-04文本→音频/音乐44.1kHz 立体声,最长 3 分钟
Stable Audio Open2024-06文本→音频开源版本,允许商用

代码与文本(非核心但值得记录)

模型发布时间参数特点
Stable Code2023-083B代码补全模型
Stable Code Instruct2024-023B代码指令微调版
StableLM2023-043B/7BLLM 文本模型(影响力有限,已被社区淡忘)
Stable Beluga2023-077B/13B基于 Llama 2 微调,Orca 风格

Architecture Innovation

Stability AI 及合作团队在扩散模型架构上的核心贡献:

  • Latent Diffusion Models (LDM):在 VAE 压缩的潜在空间中进行扩散,大幅降低计算需求——这是 SD 能在消费级 GPU 运行的根本原因
  • MMDiT (Multimodal Diffusion Transformer):SD3 引入的架构,用 Diffusion Transformer 替代 UNet,在文本渲染和理解复杂 Prompt 上有质的飞跃
  • Flow Matching:SD3 采用的训练方法,将扩散过程重新理解为从噪声到数据的连续流,训练更稳定
  • Rectified Flow:SD3.5 的推理加速方法,用更少的采样步数生成更高质量的图像

API Pricing(Stability API,截至 2026 年 4 月)

模型定价模式价格
SD3.5 Largeper image~$0.06/image
SD3.5 Mediumper image~$0.03/image
SDXLper image~$0.02/image
SVD (视频)per second~$0.15/second
Stable Audioper 15s clip~$0.03/clip

注:Stability API 采用 Credit 系统(1 Credit ≈ $0.01),不同模型消耗不同 Credits。会员制($20/月 含 3000 Credits)降低高频用户成本。

Leadership Crisis & Financial Context

Stability AI 的商业化困境是生成式 AI 行业的重要案例:

时间事件
2022-10$101M A 轮融资,$1B 估值
2023烧钱速度过快(月支出 $8M+),收入几乎为零
2023-11传闻寻求出售,与多家公司接洽未果
2024-03Emad Mostaque 辞去 CEO 和董事会职务
2024-06新管理层融资 $80M,估值大降至 ~$500M
2024-07SD3 许可证争议(限制性条款惹怒社区)
2024-10SD3.5 发布,恢复更开放的许可证

教训:开源模型社区的影响力难以在短时间内转化为可持续的商业收入——这是所有开源 AI 公司面临的共性难题。

Why It Matters

  • 定义了开源文生图的标准:Stable Diffusion 的开放策略让数百万创作者、开发者能免费在本地运行高质量图像生成,极大促进了全球 AI 创意生态
  • ComfyUI/Automatic1111 生态的基石:基于 SD 构建的节点式工作流编辑器(ComfyUI)和 WebUI 已成为 AI 图像生成的事实标准工具
  • 架构演进的风向标:从 LDM 到 MMDiT,Stability AI 的架构演进反映了扩散模型从实验到商用的完整路径
  • 开源商业化的试金石:Stability AI 的困境揭示了"开源模型+API 服务"商业模式的核心矛盾——当用户可以在本地免费运行时,为什么还要付费?
  • 创意产业的搅局者:SD 永久改变了插画、设计、广告等行业的成本结构和创作流程

Relationships

Open Questions

  • Stability AI 能否在 Black Forest Labs(原 SD 核心团队创办)发布 Flux 后保持竞争力?Flux 在质量上已超越 SD3
  • 新管理层 Prem Akkaraju 能否将视觉特效行业的变现经验转化为 AI 商业模式的突破?
  • 开源图像生成市场是否会继续 fragment,还是最终由 1-2 家主导?
  • 视频/音频/3D 等新模态能否成为 Stability AI 突破依赖图像的商业瓶颈?

Sources

AI Knowledge Base — 持续积累