Skip to content

NeRF / 3D Gaussian Splatting

从隐式神经表示到显式高斯点云的 3D 重建与新视角合成技术演进,是空间智能与 World Models 的核心视觉基础。

概述

NeRF (Neural Radiance Fields) 和 3D Gaussian Splatting (3DGS) 代表了 3D 场景表示与渲染的两大范式。前者使用隐式神经网络编码连续体积场,后者使用显式 3D 高斯点云实现实时渲染。两者共同构成了现代空间智能、数字孪生和生成式 3D 世界的核心技术栈。

NeRF: 神经辐射场

核心思想

NeRF 将场景表示为一个连续的 5D 函数:输入空间位置 $(x, y, z)$ 和视角方向 $(\theta, \phi)$,输出体积密度 $\sigma$ 和视角相关的 RGB 颜色。通过沿相机光线进行体积渲染积分,合成新视角图像。

关键技术

  • 位置编码 (Positional Encoding): 将低维坐标映射到高频空间,使 MLP 能够学习细节丰富的场景表示
  • 体积渲染方程: 沿光线累积颜色和密度,实现可微分渲染
  • 分层采样: 粗网络 + 细网络的两阶段采样策略,提高渲染效率

局限

  • 训练时间长(数小时到数天)
  • 渲染速度慢(每帧需数万次 MLP 查询)
  • 静态场景假设,难以处理动态物体
  • 空区域浪费计算

3D Gaussian Splatting: 实时辐射场渲染

核心思想

与 NeRF 的隐式表示不同,3DGS 使用显式的 3D 高斯集合来表示场景。每个高斯由位置、协方差矩阵、不透明度和球谐系数(SH)颜色定义。通过可微分光栅化实现实时渲染。

关键技术

  • 3D 高斯表示: 各向异性协方差矩阵精确捕捉几何细节
  • 交错优化与密度控制: 自适应克隆、分裂和剪枝高斯点
  • Tile-based 光栅化: 快速可见性感知的渲染管线,支持实时 $\ge 30$ fps @ 1080p

优势

维度NeRF3D Gaussian Splatting
训练时间数小时~数天数分钟
渲染速度~0.1 fps$\ge 30$ fps (1080p)
表示方式隐式 MLP显式高斯点云
编辑性困难相对容易
内存占用较小较大

与 World Models / 空间智能的关联

World Labs 与空间智能

李飞飞 (Fei-Fei Li) 于 2024 年创立 World Labs,提出 "空间智能" (Spatial Intelligence) 概念——让 AI 理解三维物理空间并在其中推理和行动。NeRF/3DGS 是这一愿景的基础技术:

  • 从 2D 到 3D: LLM 理解文本,视觉模型理解 2D 图像,空间智能理解 3D 世界
  • 可交互世界模型: 不仅生成静态场景,还要支持物理推理、物体操作和动态交互
  • 与现有 world-models 概念呼应: 从像素预测到 3D 空间建模,world models 的表征从隐式走向显式

技术演进路线

NeRF (2020) —— 隐式神经表示,照片级真实感

3D Gaussian Splatting (2023) —— 显式表示,实时渲染

空间智能 / World Labs (2024+) —— 可交互、可推理的动态 3D 世界

应用场景

  • 数字孪生: 城市、工厂、文化遗产的 3D 数字化
  • 自动驾驶: 高精度场景重建与仿真
  • AR/VR: 实时沉浸式环境渲染
  • 影视制作: 虚拟制片与视觉特效
  • 机器人: 3D 场景理解与导航

关键论文

论文作者年份链接
NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisMildenhall et al.2020 (ECCV)arXiv
3D Gaussian Splatting for Real-Time Radiance Field RenderingKerbl et al.2023 (SIGGRAPH)arXiv

相关概念

AI Knowledge Base — 持续积累