Text-to-Video / Video Generation

文本生成图像只是前奏——视频才是生成式 AI 的下一个主战场。从几秒钟的卡通动画到几分钟的电影级场景，Text-to-Video 正在重新定义视觉内容的创作方式。

Overview

Text-to-Video（文本生成视频，T2V）指通过自然语言描述（和/或参考图像）自动生成连续视频内容的技术。它继承了文本生成图像（T2I）的技术路径，但面临更大的挑战：时间一致性（视频帧之间的连续性）、物理一致性（物体运动符合物理规律）、长时程生成（分钟级视频）。

2024 年被称为"视频生成元年"——Sora、Kling、Luma Dream Machine、Runway Gen-3 等产品集中发布，将视频生成从研究课题推向商用。

Technical Evolution

第一代：扩散模型 + 时间扩展

在图像扩散模型基础上增加时间维度：

图像扩散：空间维度 (H × W) → 空间 + 时间维度 (T × H × W)

代表：Stable Video Diffusion (SVD)、VideoLDM、AnimateDiff

局限：

视频长度通常 < 5 秒
运动不自然、物理不一致
解像度低

第二代：自回归模型（DiT / AR）

用 Transformer 替代 UNet，将视频视为时间上的 token 序列：

视频 → VAE 压缩 → 时空潜在表示 → Transformer 生成 → VAE 解码 → 视频

代表：Sora (DiT)、Kling (DiT)、VideoPoet (AR)

突破：

视频长度达到分钟级
物理一致性显著改善
高分辨率（1080p 甚至 4K）

Key Technical Challenges

挑战	描述	解决方向
时间一致性	视频帧之间的连续性	3D 注意力、时间嵌入
物理一致性	物体运动符合物理规律	物理引擎辅助、大规模视频数据
计算成本	视频数据量是图像的 1000x+	高效 VAE、模型压缩、量化
数据稀缺	高质量视频-文本对数据难获取	合成数据、自动标注、视觉语言模型
评估困难	如何量化评估视频质量？	FVD、CLIPSIM、人类评价

Leading Products

产品	公司	技术路线	特点
Sora	OpenAI	DiT + 大规模数据	最高质量，分钟级视频，物理一致性最好
Kling	快手	DiT	中国领先，运动表现优秀，支持图片到视频
Hailuo Video	MiniMax	自研	免费使用，海外创作者广泛采用
Runway Gen-3	Runway	自研	创意工具集成，影视行业聚焦
Luma Dream Machine	Luma AI	自研	快速生成，创意广告应用
Pika	Pika Labs	自研	创意视频编辑，海外创作者主要工具
Veo 2	Google	自研	高质量，与 YouTube 生态集成

Architecture Deep Dive: Sora

Sora 的核心架构（基于公开信息推测）：

1. Visual Encoder: 视频 → 时空潜在表示（spacetime patches）
2. DiT (Diffusion Transformer): 在潜在空间中进行去噪扩散
3. Text Encoder: CLIP / T5 编码文本提示
4. Decoder: 潜在表示 → 视频帧

关键创新：

Spacetime Patches：将视频视为时间和空间上的 token 序列，统一了图像和视频的表示
可变长度/分辨率：同一个模型可以生成不同时长和分辨率的视频
物理引擎辅助：在数据生成时使用物理引擎确保物理一致性

Applications

应用	说明	成熟度
影视预览	导演用文本描述生成场景预览	中
广告创意	快速生成广告素材	高
教育内容	教学视频、科普动画	中
游戏资产	游戏动画、场景	低
个人创作	社交媒体内容、短视频	高

Open Challenges

问题	现状
计算成本	生成 1 分钟视频需要数分钟到数小时的 GPU 时间
控制精度	精确控制视频中的每个元素仍很困难
版权与合规	训练数据中的版权内容问题
深度伪造	视频深度伪造的风险远超图像
长时程一致性	超过 1 分钟的视频仍然难以保持主题一致性

Why It Matters

视觉内容的下一个阶段：文本→图像→视频→3D，视频是当前最具商业价值的下一个践跃点
影视产业的革命：降低视频制作成本 10-100 倍，让普通人也能创作电影级内容
多模态理解的证明：视频生成需要模型对物理世界有深层理解——这是通用人工智能的重要证明
中国企业的领先：快手（Kling）、MiniMax（Hailuo）、阿里（通义万相）在视频生成上处于全球第一梯队

Relationships

基础技术：Diffusion Models — 扩散模型是视频生成的基础
架构进化：Transformer Architecture — DiT 将 Transformer 应用于视频生成
多模态：Multimodal Models — 视频生成是多模态 AI 的核心能力
开源生态：Stability AI — Stable Video Diffusion 是开源视频生成的先驱
产品实例：MiniMax — Hailuo Video 是 MiniMax 的视频生成产品

Open Questions

视频生成的"杂交魔呢"在哪？当前还有哪些根本性的技术瓶颈需要突破？
如何实现精细的视频编辑（如修改视频中的某个物体而保持其余不变）？
视频生成的评估标准如何建立？目前主要依赖人类评价，自动化评估方法不成熟
视频生成对影视产业的冲击有多大？何时会出现第一部完全由 AI 生成的商业电影？

Sources

Sora: Video Generation Models as World Simulators (OpenAI, 2024)
Stable Video Diffusion (Blattmann et al., Stability AI, 2023)
VideoPoet: A Large Language Model for Zero-Shot Video Generation (Kondratyuk et al., Google, 2023)
Kling AI Official
Runway Gen-3 Alpha
Hailuo AI
Large Language Model (LLM) — 大语言模型的核心定义、技术原理与发展历程

Text-to-Video / Video Generation ​

Overview ​

Technical Evolution ​

第一代：扩散模型 + 时间扩展 ​

第二代：自回归模型（DiT / AR） ​

Key Technical Challenges ​

Leading Products ​

Architecture Deep Dive: Sora ​

Applications ​

Open Challenges ​

Why It Matters ​

Relationships ​

Open Questions ​

Sources ​