Skip to content

Midjourney

Midjourney 是 AI 图像生成领域的艺术品质天花板。从 2022 年的 V1 到 2026 年的 V8,它用极致的美学表现定义了"AI 艺术"的审美标准——即使最简单的 prompt,也能产出具有商业插画质量的图像。其独特的 Discord 社区驱动模式和订阅制商业路径,成为生成式 AI 产品化的标杆案例。

Overview

Midjourney 是由 Midjourney, Inc. 开发的生成式 AI 图像服务,总部位于美国旧金山。公司自定位为"独立研究实验室"(independent research lab),由 David Holz 于 2022 年创立。Holz 此前联合创立了 Leap Motion(手势追踪技术公司,2019 年被 Ultrahaptics 以 $3000 万收购),在计算机视觉和交互技术领域有深厚积累。

Midjourney 于 2022 年 7 月 12 日 进入公开测试(open beta),迅速成为 AI 图像生成热潮中最具影响力的产品之一。与 DALL·E 的"实用主义"和 Stable Diffusion 的"开源民主化"不同,Midjourney 的核心差异化在于**"默认好看"**——它擅长捕捉艺术意图、氛围和风格,即使简单 prompt 也能产出高质量图像。

值得注意的是,Holz 在 2022 年 8 月即向 The Register 表示公司已经盈利,这在当时烧钱成风的 AI 初创公司中极为罕见。

模型版本演进

主版本线

版本发布时间核心改进
V12022-02内部测试版,奠定扩散模型基础
V22022-04-12公开测试前版本,图像质量大幅提升
V32022-07-25首个广泛使用的版本,细节和连贯性改善
V42022-11-05 (alpha)架构重大升级,美学质量飞跃,"Midjourney 风格"确立
V52023-03-15 (alpha)写实摄影风格质变,手部生成改善,分辨率提升
V5.12023-05-03更强的 prompt 理解,更自然的图像
V5.22023-06-22引入 Zoom Out、Pan 等构图控制功能
V62023-12-21 (alpha)文本渲染能力首次引入,更精确的细节控制
V6.12024-07-31人物一致性提升,皮肤纹理和光线更真实
V72025-04-04 (alpha)架构再次升级,理解复杂场景和风格混合
V82026-03-17 (alpha)最新版本,进一步提升真实感和艺术表现力
V8.12026-04-14 (alpha)当前稳定版本

Niji 动漫专线

版本发布时间定位
Niji2022-12-20与 Spellbrush 合作,专注动漫/插画风格
Niji 52023-04-02动漫风格质变,更精细的角色表现
Niji 62024-01-29更强的场景理解和动态构图
Niji 72026-01-09最新动漫专线版本

Niji 系列是 Midjourney 与 Spellbrush 合作的产物,专注东亚动漫和插画美学,在动漫创作者社区中有极高人气。

产品模式与用户体验

Discord 社区驱动

Midjourney 最独特的产品决策是完全基于 Discord 提供服务:

  • 用户通过 Discord bot 命令(/imagine)生成图像
  • 生成过程公开可见,形成独特的"集体创作"氛围
  • 社区成员可以互相看到、评价、学习他人的 prompt
  • 这种透明性催生了 prompt 工程学的快速传播和演化

2024 年,Midjourney 推出了独立的网页版界面,但 Discord 仍是核心交互渠道。

参数化控制

Midjourney 提供丰富的命令行风格参数控制:

参数功能
--ar宽高比(aspect ratio)
--style风格强度
--chaos结果多样性(0-100)
--stylize美学强度
--seed固定随机种子,实现可复现
--iw图像权重(image prompt)
--no负面提示
--v指定模型版本
--niji使用动漫专线

订阅定价

计划月费年费等价快速 GPU 时间特点
Basic$10~$8/月3.3 hr入门级,约 200 张图
Standard$30~$24/月15 hr休闲模式无限生成
Pro$60~$48/月30 hr隐身模式,12 并发
Mega$120~$96/月60 hr最高 tier,商业用途

注:Midjourney 所有计划均允许商业使用,但 Mega 计划提供最完整的商业权利。

技术特点

自研扩散架构

Midjourney 从未公开其具体架构细节,但业界推测:

  • 基于扩散模型(Diffusion Model),但进行了大量自研优化
  • 可能采用类似 Latent Diffusion 的架构,但在美学训练上有独特方法
  • 训练数据可能包含大量高质量艺术作品,这是其美学优势的关键来源

"默认好看"的秘密

Midjourney 的核心竞争力在于美学训练的优先级

  • 相比 DALL·E 追求"准确还原 prompt",Midjourney 更追求"让结果好看"
  • 模型内部似乎有强化的美学评估机制,自动选择更美观的生成方向
  • 对光影、材质、构图的理解深度超过其他模型
  • 这种"艺术意图优先"的策略使其成为创意工作者的首选工具

局限性

维度表现说明
文本渲染差(V6 前)/ 中等(V6+)长期弱项,V6 后改善但仍不如 Ideogram
精确控制无法像 Stable Diffusion + ControlNet 那样精确控制姿势、构图
本地部署不可完全云端服务,无法本地运行
Prompt 遵循中等偏向"艺术意图"而非"精确描述"
开源性完全闭源模型权重、训练数据、架构均不公开

市场影响与争议

艺术界的冲击

Midjourney 的崛起引发了艺术界的激烈争论:

  • 2022 年 8 月:Jason Allen 使用 Midjourney 创作的作品《Théâtre D'opéra Spatial》在科罗拉多州博览会美术比赛中获得一等奖,引发全球关于"AI 艺术是否为真正艺术"的辩论
  • 大量插画师和概念设计师表示 Midjourney 正在侵蚀其生计
  • 2023 年,美国版权局裁定 AI 生成图像不受版权保护,进一步复杂化了商业使用场景

训练数据争议

Midjourney 的训练数据来源一直不透明,面临多项法律挑战:

  • 2023 年,艺术家对 Midjourney、Stability AI 和 DeviantArt 提起集体诉讼,指控未经授权使用受版权保护的作品训练
  • Midjourney 从未公开训练数据集的具体构成
  • 这种不透明性是其闭源策略的一部分,也是法律风险的主要来源

竞争格局中的定位

维度MidjourneyDALL·E 3Stable DiffusionFluxIdeogram
图像质量⭐⭐⭐⭐⭐ 极高⭐⭐⭐⭐ 高⭐⭐⭐⭐ 高(需调参)⭐⭐⭐⭐⭐ 极高⭐⭐⭐⭐ 高
艺术感⭐⭐⭐⭐⭐ 标杆⭐⭐⭐ 实用主义⭐⭐⭐⭐ 依赖微调⭐⭐⭐⭐⭐ 极高⭐⭐⭐ 中等
文本渲染⭐⭐⭐ 中等⭐⭐⭐⭐ 好⭐⭐ 差⭐⭐⭐⭐ 好⭐⭐⭐⭐⭐ 极好
可控性⭐⭐ 弱⭐⭐⭐ 中等⭐⭐⭐⭐⭐ 极强⭐⭐⭐⭐ 强⭐⭐⭐ 中等
开源性❌ 完全闭源❌ 闭源✅ 开源⚠️ 部分开源❌ 闭源
本地部署❌ 不可❌ 不可✅ 可以✅ 可以❌ 不可

Synthesis

Midjourney 是生成式 AI 产品化的经典案例:没有开源、没有 API(早期)、没有本地部署,仅凭极致的产品体验和社区运营,就成为图像生成领域最赚钱的公司之一。它的成功证明了:

  1. 美学可以是一种技术壁垒 —— 在扩散模型架构趋于同质化的时代,训练数据的选择和美学优化策略成为核心竞争力
  2. 社区即产品 —— Discord 的公开生成模式不仅降低了成本,更创造了独特的学习网络和病毒传播效应
  3. 闭源也能成功 —— 与 Stability AI 的困境形成对照,Midjourney 证明闭源 + 订阅制在消费级 AI 产品中可以跑通

然而,Midjourney 也面临挑战:Flux 在质量上已接近甚至部分超越 Midjourney,且开源可本地部署;Ideogram 在文本渲染上遥遥领先;OpenAI 的 DALL·E 3 与 ChatGPT 深度整合带来流量优势。Midjourney 能否在 V8 及以后版本继续保持艺术品质的领先地位,将是观察图像生成市场格局演变的关键指标。

Sources

相关页面

AI Knowledge Base — 持续积累