模块变化标签
Enc(·) 编码器 Pred(·) 预测器 P(z) 信念/未知 s(t) 隐状态定义 Arch 架构创新 ↗ 跨流派借鉴
2018
2019
2021
2022
2023
2024
2025
2026 Q1
2026 Q2+
推理派 · Latent
PlaNet
PredP(z)
RSSM 诞生
h+z 首次分离
DreamerV1
Pred
潜空间
Actor-Critic
DreamerV2
P(z) 离散化
z: 连续→32×32
离散类别分布
DreamerV3
s(t)Arch
150+ 任务
固定超参
C-RSSM / HiP
P(z) 分层
z_t + c_t
上下文分离
Dreamer 4
PredArch
RNN→Transformer
离线挖钻石
LeWorldModel
P(z)Arch
SIGReg 正则
AMI Labs
ThinkJEPA
P(z)↗语言
VLM 引导
语义注入 z
生成派 · Generative
Ha & Schmidhuber
s = x
VAE+MDN-RNN
s≈浅层像素
GAIA-1
Preds=帧
多模态 token
自回归驾驶
Genie 1
P(z) latent act
无监督动作
空间涌现
GameNGen
Pred=扩散
实时帧生成
首次验证
Genie 2
Archs=帧
单图→3D 可交互
一致性涌现
Genie 3
P(z)Pred
实时 720p
语言可控
Waymo WM
↗结构Pred
Genie3 骨干
LiDAR 输出
Happy Oyster
Pred
阿里 ATH
音视频联合
结构派 · Structural
NeRF
Encs=辐射场
隐式几何
无预测/时序
BEVFormer
Encs=BEV
多相机→BEV
无 Pred(·)
MILE
Pred 初现
BEV→策略
首接 Pred(·)
OccWorld
s=4D占据Pred
Transformer
自回归预测
LatentDriver
P(z) ↗推理
首次引入
概率决策
BEVWorld
↗推理
BEV 潜变量
生成预测
World Labs Marble
s=3DGSEnc
持久 3D 世界
可编辑导出
GAIA-2
↗生成P(z)
潜扩散+多相机
CLIP 意图注入
HY-World 2.0
s=真实3D
开源 SOTA
可导入引擎
InSpatio-World
P(z) ↗推理STAR
时空缓存
+几何约束
仿真派 · Simulation
Neural ODE
Pred=方程
x 由仿真生成
守恒定律嵌入
Hamiltonian NN
PredP(z)
能量守恒
辛结构建模
MuJoCo+残差
PredP(z)
物理引擎+神经网络
贝叶斯参数更新
Genesis
Pred
统一物理框架
刚体+流体+软体
NVIDIA Cosmos
↗生成P(z)
仿真+扩散
Sim-to-Real
Cosmos 2.5
Pred↗推理
物理常识 VLM
flow-based 统一
FieldAI BWM
↗推理 P(z)
完整 POMDP
信念状态
关键模块变化
能力突破 / 瓶颈
跨流派借鉴关系
三条收敛轨迹(2025–2026)
生成派 + 结构需求对接
生成派架构(像素/帧预测)开始满足结构派的多传感器、几何输出需求。Pred(·) 本质仍是自回归视频生成,s 仍是像素——并非真正的架构融合,而是功能层面的对接。
Waymo WM Genie 3 骨干后训练 → 输出 camera + LiDAR
InSpatio-World 隐式时空缓存 + 显式几何约束
结构派 + 推理派能力补齐
结构派正在补齐长期缺失的 P(z)——从纯几何预测走向对智能体意图、遮挡物体的信念建模。这是目前结构派最活跃的演化方向,2024–2026 年论文最集中的方向。
LatentDriver 多概率决策引入不确定性
BEVWorld s 从显式几何向潜变量迁移
GAIA-2 CLIP embedding 注入意图 P(z)
仿真派 + 生成派弥合 sim-to-real
仿真派核心瓶颈(x 由仿真生成)正通过引入扩散模型来弥合与真实感知的 gap,P(z) 同步从物理参数不确定性扩展为完整信念状态。目前工业落地最成熟的融合路径。
Cosmos Transfer 仿真→扩散→真实感输出
FieldAI BWM P(z) 演进为完整 POMDP 信念
Cosmos-Reason2 物理常识 VLM 引入语义推理
尚未发生的融合 · 核心分歧
s(t) 的语义鸿沟
推理派的 s(神经网络学出的抽象潜变量)与结构派的 s(可解释 3D 几何)之间尚无统一方案。将二者合并意味着既要物理可解释,又要支持梯度流动的不确定性推理——表示层面存在根本张力。
推理派 s:高维、不可解释、可微
结构派 s:低维、几何可解释、离散
生成派的 P(z) 结构性缺失
生成派(s=x)在架构层面几乎没有真正的 P(z) 信念建模——语言条件注入只是软性约束,而非对未知信息的后验推断。只要 s=x 的设定不变,完整的 POMDP 信念框架就难以实现。
Genie 3 语言=软约束,非后验信念
Happy Oyster P(z) 结构性缺失
终极开放问题 · 2026
是否存在一个统一的 s(t),使得 x→s 的对齐既保留几何可解释性,又具备物理精确性,又能在 P(z) 下进行完整的不确定性推理?
结构派 贡献几何可解释性 · 仿真派 贡献物理精确性 · 推理派 贡献完整 P(z) 信念推理 · 生成派 贡献视觉真实性与规模

目前最接近这一统一的系统:Waymo World Model(生成+结构需求)和 FieldAI BWM(仿真+推理派 P(z))——但两者都只是局部融合,不是全局统一。
人才流动时间轴(2012–2026)
每人独占一行,色块颜色代表流派归属,色块文字为所在机构。括号弧线表示长期合著关系,悬停任意元素查看详情。
算法合著关系网络
节点 = 研究者,大小代表算法参与度;连线代表合著关系,线宽代表合作深度。悬停节点或连线查看详情。