Skip to content

Text-to-Video / Video Generation

文本生成图像只是前奏——视频才是生成式 AI 的下一个主战场。从几秒钟的卡通动画到几分钟的电影级场景,Text-to-Video 正在重新定义视觉内容的创作方式。

Overview

Text-to-Video(文本生成视频,T2V)指通过自然语言描述(和/或参考图像)自动生成连续视频内容的技术。它继承了文本生成图像(T2I)的技术路径,但面临更大的挑战:时间一致性(视频帧之间的连续性)、物理一致性(物体运动符合物理规律)、长时程生成(分钟级视频)。

2024 年被称为"视频生成元年"——Sora、Kling、Luma Dream Machine、Runway Gen-3 等产品集中发布,将视频生成从研究课题推向商用。

Technical Evolution

第一代:扩散模型 + 时间扩展

在图像扩散模型基础上增加时间维度:

图像扩散:空间维度 (H × W) → 空间 + 时间维度 (T × H × W)

代表:Stable Video Diffusion (SVD)、VideoLDM、AnimateDiff

局限

  • 视频长度通常 < 5 秒
  • 运动不自然、物理不一致
  • 解像度低

第二代:自回归模型(DiT / AR)

用 Transformer 替代 UNet,将视频视为时间上的 token 序列:

视频 → VAE 压缩 → 时空潜在表示 → Transformer 生成 → VAE 解码 → 视频

代表:Sora (DiT)、Kling (DiT)、VideoPoet (AR)

突破

  • 视频长度达到分钟级
  • 物理一致性显著改善
  • 高分辨率(1080p 甚至 4K)

Key Technical Challenges

挑战描述解决方向
时间一致性视频帧之间的连续性3D 注意力、时间嵌入
物理一致性物体运动符合物理规律物理引擎辅助、大规模视频数据
计算成本视频数据量是图像的 1000x+高效 VAE、模型压缩、量化
数据稀缺高质量视频-文本对数据难获取合成数据、自动标注、视觉语言模型
评估困难如何量化评估视频质量?FVD、CLIPSIM、人类评价

Leading Products

产品公司技术路线特点
SoraOpenAIDiT + 大规模数据最高质量,分钟级视频,物理一致性最好
Kling快手DiT中国领先,运动表现优秀,支持图片到视频
Hailuo VideoMiniMax自研免费使用,海外创作者广泛采用
Runway Gen-3Runway自研创意工具集成,影视行业聚焦
Luma Dream MachineLuma AI自研快速生成,创意广告应用
PikaPika Labs自研创意视频编辑,海外创作者主要工具
Veo 2Google自研高质量,与 YouTube 生态集成

Architecture Deep Dive: Sora

Sora 的核心架构(基于公开信息推测):

1. Visual Encoder: 视频 → 时空潜在表示(spacetime patches)
2. DiT (Diffusion Transformer): 在潜在空间中进行去噪扩散
3. Text Encoder: CLIP / T5 编码文本提示
4. Decoder: 潜在表示 → 视频帧

关键创新

  • Spacetime Patches:将视频视为时间和空间上的 token 序列,统一了图像和视频的表示
  • 可变长度/分辨率:同一个模型可以生成不同时长和分辨率的视频
  • 物理引擎辅助:在数据生成时使用物理引擎确保物理一致性

Applications

应用说明成熟度
影视预览导演用文本描述生成场景预览
广告创意快速生成广告素材
教育内容教学视频、科普动画
游戏资产游戏动画、场景
个人创作社交媒体内容、短视频

Open Challenges

问题现状
计算成本生成 1 分钟视频需要数分钟到数小时的 GPU 时间
控制精度精确控制视频中的每个元素仍很困难
版权与合规训练数据中的版权内容问题
深度伪造视频深度伪造的风险远超图像
长时程一致性超过 1 分钟的视频仍然难以保持主题一致性

Why It Matters

  • 视觉内容的下一个阶段:文本→图像→视频→3D,视频是当前最具商业价值的下一个践跃点
  • 影视产业的革命:降低视频制作成本 10-100 倍,让普通人也能创作电影级内容
  • 多模态理解的证明:视频生成需要模型对物理世界有深层理解——这是通用人工智能的重要证明
  • 中国企业的领先:快手(Kling)、MiniMax(Hailuo)、阿里(通义万相)在视频生成上处于全球第一梯队

Relationships

  • 基础技术:Diffusion Models — 扩散模型是视频生成的基础
  • 架构进化:Transformer Architecture — DiT 将 Transformer 应用于视频生成
  • 多模态:Multimodal Models — 视频生成是多模态 AI 的核心能力
  • 开源生态:Stability AI — Stable Video Diffusion 是开源视频生成的先驱
  • 产品实例:MiniMax — Hailuo Video 是 MiniMax 的视频生成产品

Open Questions

  • 视频生成的"杂交魔呢"在哪?当前还有哪些根本性的技术瓶颈需要突破?
  • 如何实现精细的视频编辑(如修改视频中的某个物体而保持其余不变)?
  • 视频生成的评估标准如何建立?目前主要依赖人类评价,自动化评估方法不成熟
  • 视频生成对影视产业的冲击有多大?何时会出现第一部完全由 AI 生成的商业电影?

Sources

AI Knowledge Base — 持续积累