Appearance
Stability AI
开源图像生成领域的革命性公司,以 Stable Diffusion 系列模型重新定义创意产业。尽管经历创始人与管理层的剧烈动荡,Stability AI 仍是开源生成式 AI 生态中不可替代的关键力量——旗下模型覆盖图像、视频、音频、3D 等全模态生成。
Overview
Stability AI 成立于 2019 年,由 Emad Mostaque 在英国伦敦创办。公司最初定位为"开源 AI 的基础设施层",在 2022 年 8 月发布 Stable Diffusion 1.4 后一夜成名——这是第一个在消费级 GPU 上可运行的高质量文生图模型,直接点燃了全球 AI 图像生成热潮。
2022 年 10 月,Stability AI 以 $1B 估值完成 $101M 融资(Coatue + Lightspeed),进入独角兽行列。然而,商业变现困难导致资金紧张:Emad Mostaque 于 2024 年 3 月辞去 CEO 职务并退出董事会,由视觉特效行业资深人士 Prem Akkaraju(前 Wētā Digital)接任。2024 年 6 月完成新一轮约 $80M 融资,但估值大幅下降。
Model Timeline
图像生成(核心产品线)
| 模型 | 发布时间 | 参数规模 | 特点 |
|---|---|---|---|
| Stable Diffusion 1.4/1.5 | 2022-08/10 | 860M UNet | 开源文生图的里程碑,ComfyUI/Automatic1111 生态基石 |
| Stable Diffusion 2.0/2.1 | 2022-11 | 860M UNet | 升级文本编码器(OpenCLIP),移除 NSFW 内容 |
| SDXL 0.9 / 1.0 | 2023-06/07 | 2.6B UNet + 双文本编码器 | 重大架构升级,原生 1024×1024 分辨率 |
| Stable Diffusion 3 (SD3) | 2024-02~06 | 800M–8B | 引入 MMDiT 架构(Diffusion Transformer),文本渲染质变 |
| Stable Diffusion 3.5 | 2024-10 | 2.5B (Medium) / 8B (Large) | SD3 改良版,修复许可证争议 |
| Stable Cascade | 2024-02 | 3.6B (Würstchen 架构) | 三阶段级联扩散,更高效的压缩生成 |
视频、音频与 3D
| 模型 | 发布时间 | 模态 | 特点 |
|---|---|---|---|
| Stable Video Diffusion (SVD) | 2023-11 | 图片→视频 | 首个开源视频生成基座模型 |
| Stable Video 3D (SV3D) | 2024-03 | 图片→3D | 从单张图片生成多视角 3D 模型 |
| Stable Audio 1.0/2.0 | 2023-09 / 2024-04 | 文本→音频/音乐 | 44.1kHz 立体声,最长 3 分钟 |
| Stable Audio Open | 2024-06 | 文本→音频 | 开源版本,允许商用 |
代码与文本(非核心但值得记录)
| 模型 | 发布时间 | 参数 | 特点 |
|---|---|---|---|
| Stable Code | 2023-08 | 3B | 代码补全模型 |
| Stable Code Instruct | 2024-02 | 3B | 代码指令微调版 |
| StableLM | 2023-04 | 3B/7B | LLM 文本模型(影响力有限,已被社区淡忘) |
| Stable Beluga | 2023-07 | 7B/13B | 基于 Llama 2 微调,Orca 风格 |
Architecture Innovation
Stability AI 及合作团队在扩散模型架构上的核心贡献:
- Latent Diffusion Models (LDM):在 VAE 压缩的潜在空间中进行扩散,大幅降低计算需求——这是 SD 能在消费级 GPU 运行的根本原因
- MMDiT (Multimodal Diffusion Transformer):SD3 引入的架构,用 Diffusion Transformer 替代 UNet,在文本渲染和理解复杂 Prompt 上有质的飞跃
- Flow Matching:SD3 采用的训练方法,将扩散过程重新理解为从噪声到数据的连续流,训练更稳定
- Rectified Flow:SD3.5 的推理加速方法,用更少的采样步数生成更高质量的图像
API Pricing(Stability API,截至 2026 年 4 月)
| 模型 | 定价模式 | 价格 |
|---|---|---|
| SD3.5 Large | per image | ~$0.06/image |
| SD3.5 Medium | per image | ~$0.03/image |
| SDXL | per image | ~$0.02/image |
| SVD (视频) | per second | ~$0.15/second |
| Stable Audio | per 15s clip | ~$0.03/clip |
注:Stability API 采用 Credit 系统(1 Credit ≈ $0.01),不同模型消耗不同 Credits。会员制($20/月 含 3000 Credits)降低高频用户成本。
Leadership Crisis & Financial Context
Stability AI 的商业化困境是生成式 AI 行业的重要案例:
| 时间 | 事件 |
|---|---|
| 2022-10 | $101M A 轮融资,$1B 估值 |
| 2023 | 烧钱速度过快(月支出 $8M+),收入几乎为零 |
| 2023-11 | 传闻寻求出售,与多家公司接洽未果 |
| 2024-03 | Emad Mostaque 辞去 CEO 和董事会职务 |
| 2024-06 | 新管理层融资 $80M,估值大降至 ~$500M |
| 2024-07 | SD3 许可证争议(限制性条款惹怒社区) |
| 2024-10 | SD3.5 发布,恢复更开放的许可证 |
教训:开源模型社区的影响力难以在短时间内转化为可持续的商业收入——这是所有开源 AI 公司面临的共性难题。
Why It Matters
- 定义了开源文生图的标准:Stable Diffusion 的开放策略让数百万创作者、开发者能免费在本地运行高质量图像生成,极大促进了全球 AI 创意生态
- ComfyUI/Automatic1111 生态的基石:基于 SD 构建的节点式工作流编辑器(ComfyUI)和 WebUI 已成为 AI 图像生成的事实标准工具
- 架构演进的风向标:从 LDM 到 MMDiT,Stability AI 的架构演进反映了扩散模型从实验到商用的完整路径
- 开源商业化的试金石:Stability AI 的困境揭示了"开源模型+API 服务"商业模式的核心矛盾——当用户可以在本地免费运行时,为什么还要付费?
- 创意产业的搅局者:SD 永久改变了插画、设计、广告等行业的成本结构和创作流程
Relationships
- 竞争关系:OpenAI(DALL·E)、Midjourney、Black Forest Labs(Flux)、Ideogram、fal.ai
- 生态伙伴:Runway(SVD 合作方)、ComfyUI 社区
- 相关概念:Diffusion Models、Multimodal Models、Synthetic Data
- 对比参考:与 OpenAI 的闭源 API 策略形成鲜明对照
Open Questions
- Stability AI 能否在 Black Forest Labs(原 SD 核心团队创办)发布 Flux 后保持竞争力?Flux 在质量上已超越 SD3
- 新管理层 Prem Akkaraju 能否将视觉特效行业的变现经验转化为 AI 商业模式的突破?
- 开源图像生成市场是否会继续 fragment,还是最终由 1-2 家主导?
- 视频/音频/3D 等新模态能否成为 Stability AI 突破依赖图像的商业瓶颈?
Sources
媒体公开报道(TechCrunch、The Verge 等)
Large Language Model (LLM) — 大语言模型的核心定义、技术原理与发展历程