Stability AI

开源图像生成领域的革命性公司，以 Stable Diffusion 系列模型重新定义创意产业。尽管经历创始人与管理层的剧烈动荡，Stability AI 仍是开源生成式 AI 生态中不可替代的关键力量——旗下模型覆盖图像、视频、音频、3D 等全模态生成。

Overview

Stability AI 成立于 2019 年，由 Emad Mostaque 在英国伦敦创办。公司最初定位为"开源 AI 的基础设施层"，在 2022 年 8 月发布 Stable Diffusion 1.4 后一夜成名——这是第一个在消费级 GPU 上可运行的高质量文生图模型，直接点燃了全球 AI 图像生成热潮。

2022 年 10 月，Stability AI 以 $1B 估值完成 $101M 融资（Coatue + Lightspeed），进入独角兽行列。然而，商业变现困难导致资金紧张：Emad Mostaque 于 2024 年 3 月辞去 CEO 职务并退出董事会，由视觉特效行业资深人士 Prem Akkaraju（前 Wētā Digital）接任。2024 年 6 月完成新一轮约 $80M 融资，但估值大幅下降。

Model Timeline

图像生成（核心产品线）

模型	发布时间	参数规模	特点
Stable Diffusion 1.4/1.5	2022-08/10	860M UNet	开源文生图的里程碑，ComfyUI/Automatic1111 生态基石
Stable Diffusion 2.0/2.1	2022-11	860M UNet	升级文本编码器（OpenCLIP），移除 NSFW 内容
SDXL 0.9 / 1.0	2023-06/07	2.6B UNet + 双文本编码器	重大架构升级，原生 1024×1024 分辨率
Stable Diffusion 3 (SD3)	2024-02~06	800M–8B	引入 MMDiT 架构（Diffusion Transformer），文本渲染质变
Stable Diffusion 3.5	2024-10	2.5B (Medium) / 8B (Large)	SD3 改良版，修复许可证争议
Stable Cascade	2024-02	3.6B (Würstchen 架构)	三阶段级联扩散，更高效的压缩生成

视频、音频与 3D

模型	发布时间	模态	特点
Stable Video Diffusion (SVD)	2023-11	图片→视频	首个开源视频生成基座模型
Stable Video 3D (SV3D)	2024-03	图片→3D	从单张图片生成多视角 3D 模型
Stable Audio 1.0/2.0	2023-09 / 2024-04	文本→音频/音乐	44.1kHz 立体声，最长 3 分钟
Stable Audio Open	2024-06	文本→音频	开源版本，允许商用

代码与文本（非核心但值得记录）

模型	发布时间	参数	特点
Stable Code	2023-08	3B	代码补全模型
Stable Code Instruct	2024-02	3B	代码指令微调版
StableLM	2023-04	3B/7B	LLM 文本模型（影响力有限，已被社区淡忘）
Stable Beluga	2023-07	7B/13B	基于 Llama 2 微调，Orca 风格

Architecture Innovation

Stability AI 及合作团队在扩散模型架构上的核心贡献：

Latent Diffusion Models (LDM)：在 VAE 压缩的潜在空间中进行扩散，大幅降低计算需求——这是 SD 能在消费级 GPU 运行的根本原因
MMDiT (Multimodal Diffusion Transformer)：SD3 引入的架构，用 Diffusion Transformer 替代 UNet，在文本渲染和理解复杂 Prompt 上有质的飞跃
Flow Matching：SD3 采用的训练方法，将扩散过程重新理解为从噪声到数据的连续流，训练更稳定
Rectified Flow：SD3.5 的推理加速方法，用更少的采样步数生成更高质量的图像

API Pricing（Stability API，截至 2026 年 4 月）

模型	定价模式	价格
SD3.5 Large	per image	~$0.06/image
SD3.5 Medium	per image	~$0.03/image
SDXL	per image	~$0.02/image
SVD (视频)	per second	~$0.15/second
Stable Audio	per 15s clip	~$0.03/clip

注：Stability API 采用 Credit 系统（1 Credit ≈ $0.01），不同模型消耗不同 Credits。会员制（$20/月含 3000 Credits）降低高频用户成本。

Leadership Crisis & Financial Context

Stability AI 的商业化困境是生成式 AI 行业的重要案例：

时间	事件
2022-10	$101M A 轮融资，$1B 估值
2023	烧钱速度过快（月支出 $8M+），收入几乎为零
2023-11	传闻寻求出售，与多家公司接洽未果
2024-03	Emad Mostaque 辞去 CEO 和董事会职务
2024-06	新管理层融资 $80M，估值大降至 ~$500M
2024-07	SD3 许可证争议（限制性条款惹怒社区）
2024-10	SD3.5 发布，恢复更开放的许可证

教训：开源模型社区的影响力难以在短时间内转化为可持续的商业收入——这是所有开源 AI 公司面临的共性难题。

Why It Matters

定义了开源文生图的标准：Stable Diffusion 的开放策略让数百万创作者、开发者能免费在本地运行高质量图像生成，极大促进了全球 AI 创意生态
ComfyUI/Automatic1111 生态的基石：基于 SD 构建的节点式工作流编辑器（ComfyUI）和 WebUI 已成为 AI 图像生成的事实标准工具
架构演进的风向标：从 LDM 到 MMDiT，Stability AI 的架构演进反映了扩散模型从实验到商用的完整路径
开源商业化的试金石：Stability AI 的困境揭示了"开源模型+API 服务"商业模式的核心矛盾——当用户可以在本地免费运行时，为什么还要付费？
创意产业的搅局者：SD 永久改变了插画、设计、广告等行业的成本结构和创作流程

Relationships

竞争关系：OpenAI（DALL·E）、Midjourney、Black Forest Labs（Flux）、Ideogram、fal.ai
生态伙伴：Runway（SVD 合作方）、ComfyUI 社区
相关概念：Diffusion Models、Multimodal Models、Synthetic Data
对比参考：与 OpenAI 的闭源 API 策略形成鲜明对照

Open Questions

Stability AI 能否在 Black Forest Labs（原 SD 核心团队创办）发布 Flux 后保持竞争力？Flux 在质量上已超越 SD3
新管理层 Prem Akkaraju 能否将视觉特效行业的变现经验转化为 AI 商业模式的突破？
开源图像生成市场是否会继续 fragment，还是最终由 1-2 家主导？
视频/音频/3D 等新模态能否成为 Stability AI 突破依赖图像的商业瓶颈？

Sources

Stability AI 官方网站
Stability API 平台
Stable Diffusion GitHub
SD3 Research Paper (MMDiT)
媒体公开报道（TechCrunch、The Verge 等）
Large Language Model (LLM) — 大语言模型的核心定义、技术原理与发展历程

Stability AI ​

Overview ​

Model Timeline ​

图像生成（核心产品线） ​

视频、音频与 3D ​

代码与文本（非核心但值得记录） ​

Architecture Innovation ​

API Pricing（Stability API，截至 2026 年 4 月） ​

Leadership Crisis & Financial Context ​

Why It Matters ​

Relationships ​

Open Questions ​

Sources ​