World Models（世界模型）

让 AI 不仅能理解语言，还能理解物理世界——从像素到 3D 空间，从预测到交互。

World Models（世界模型） 是一类能够学习并模拟环境动态规律的生成式 AI 模型。与Transformer Architecture主要处理符号序列不同，世界模型的核心目标是构建对物理或虚拟世界的内部表征，使其能够预测未来状态、理解因果关系，并在生成的环境中进行交互。

核心定义

世界模型（World Model）的概念最早源于认知科学——人类大脑并非直接处理全部感官输入，而是构建一个压缩的、预测性的内部表征来理解世界。AI 领域的世界模型继承了这一思想：

"The image of the world around us, which we carry in our head, is just a model."
— Jay Wright Forrester (1971)

在机器学习中，世界模型通常指能够：

感知（Perceive）：从原始感官输入（图像、视频、传感器数据）中提取压缩表征
预测（Predict）：基于当前状态和行动，预测未来的环境状态
生成（Generate）：创建符合物理规律的新场景或环境
交互（Interact）：支持在生成环境中进行实时控制和探索

技术演进

早期探索：Ha & Schmidhuber (2018)

2018 年，David Ha 和 Jürgen Schmidhuber 发表了里程碑论文 "World Models"（arXiv:1803.10122），首次将世界模型概念系统性地应用于深度强化学习：

VAE（Vision）：将高维视觉输入压缩为低维隐向量 $z$
MDN-RNN（Memory）：基于循环神经网络预测下一时刻的隐状态
Controller（C）：基于当前表征做出行动决策

关键洞察：智能体可以在自己的"梦境"（由世界模型生成的环境）中训练策略，然后将策略迁移回真实环境。这一工作启发了后续大量研究。

视频生成作为世界模型：Sora (2024)

OpenAI 的 Sora 展示了世界模型的另一个方向——通过大规模视频生成隐式学习物理规律：

训练于海量互联网视频，Sora 学会了物体持久性、空间一致性、物理交互等基本规律
能够生成长达一分钟的连贯视频，保持角色和场景的一致性
虽然主要定位为视频生成工具，但其对世界动态的理解能力引发了"Sora 是否是世界模型"的广泛讨论

交互式世界模型：Genie (2024)

Google DeepMind 的 Genie（arXiv:2402.15391）代表了世界模型的第三个重要方向——可交互的生成环境：

110 亿参数的基础世界模型
由三个核心组件构成：
- Spatiotemporal Video Tokenizer：将视频压缩为离散的时空 Token
- Autoregressive Dynamics Model：自回归预测下一帧
- Latent Action Model：从视频中学习潜在动作空间（无需人工标注的动作标签）
支持从文本、图像、草图生成可交互的 2D 游戏世界
关键突破：用户可以在生成的世界中逐帧控制行动

空间智能：World Labs (2024)

由斯坦福教授李飞飞（Fei-Fei Li）创立的 World Labs 将世界模型推向 3D 空间：

提出 Spatial Intelligence（空间智能） 概念——将"看见"转化为"理解"，将"想象"转化为"创造"
首款产品 Marble 能从单张图片、视频或文本生成空间一致、高保真、持久的 3D 世界
支持用户在生成的 3D 环境中移动、编辑和交互
多模态输入：文本、图像、视频、360° 全景图
输出格式：2D 和 3D 多种格式，可集成到现有工作流

核心架构对比

模型	年份	核心能力	技术特点	输出形式
Ha & Schmidhuber	2018	强化学习环境模拟	VAE + MDN-RNN + Controller	2D 游戏帧
Sora	2024	视频生成	DiT (Diffusion Transformer)	连续视频
Genie	2024	可交互 2D 世界	Video Tokenizer + AR Dynamics + Latent Actions	可交互 2D 环境
World Labs / Marble	2024-25	3D 世界生成	3D 感知 + 生成 + 推理	可交互 3D 场景

与相关概念的区别

World Models vs LLM

维度	大语言模型 (LLM)	世界模型 (World Model)
输入	文本 Token 序列	图像、视频、传感器、3D 数据
表征	符号/语义空间	物理/空间空间
核心能力	语言理解、推理、生成	物理预测、空间推理、环境模拟
时间维度	序列因果（文本顺序）	物理时间（物体运动、碰撞）
交互性	对话交互	环境交互（控制、导航）

World Models vs Diffusion Models

扩散模型是世界模型的一种实现手段，但并非所有扩散模型都是世界模型：

扩散模型：关注从噪声中生成高质量数据（图像、视频）
世界模型：关注对环境的动态理解和预测，生成只是能力之一
Sora 同时兼具两者特性——使用扩散架构实现世界模拟

World Models vs AI Agents

世界模型可以作为 AI Agent 的"心智模型"：

Agent 需要理解环境才能做出决策
世界模型提供这种理解能力——预测行动后果、规划路径
未来趋势：Agent 在世界模型中"想象"和"规划"，然后在真实世界执行

应用场景

1. 游戏与娱乐

生成无限可探索的虚拟世界（Genie、Minecraft 模拟）
实时生成游戏关卡和剧情
降低 3A 游戏开发成本

2. 机器人与具身智能

机器人在模拟环境中训练，零样本迁移到真实世界
预测行动后果，安全规划路径
World Labs 的空间智能直接服务于机器人导航

3. 自动驾驶

模拟罕见交通场景（corner cases）
预测其他车辆和行人的行为
在"梦境"中测试数百万英里驾驶策略

4. 创意与设计

从概念草图生成可漫游的 3D 建筑空间
电影预可视化（pre-vis）
虚拟制片和场景设计

5. 科学研究

模拟物理、化学、生物实验
在虚拟环境中测试假设
降低实验成本和风险

关键挑战

物理一致性：生成的世界是否符合真实物理规律（重力、碰撞、光影）
长期一致性：长时间模拟中保持场景和物体的一致性
计算成本：高保真 3D 世界生成的计算需求巨大
可交互性：从"观看"到"操控"的技术鸿沟
泛化能力：从训练数据到未见过场景的泛化

前沿趋势

World Models + LLM：将语言理解与空间理解结合，实现真正的多模态推理
实时世界模型：从离线生成到实时交互的演进
物理引擎融合：将神经网络世界模型与传统物理引擎结合
具身智能平台：世界模型成为机器人训练的" gym "

World Models（世界模型） ​

核心定义 ​

技术演进 ​

早期探索：Ha & Schmidhuber (2018) ​

视频生成作为世界模型：Sora (2024) ​

交互式世界模型：Genie (2024) ​

空间智能：World Labs (2024) ​

核心架构对比 ​

与相关概念的区别 ​

World Models vs LLM ​

World Models vs Diffusion Models ​

World Models vs AI Agents ​

应用场景 ​

1. 游戏与娱乐 ​

2. 机器人与具身智能 ​

3. 自动驾驶 ​

4. 创意与设计 ​

5. 科学研究 ​

关键挑战 ​

前沿趋势 ​

延伸阅读 ​