生成派 + 结构需求对接
生成派架构(像素/帧预测)开始满足结构派的多传感器、几何输出需求。Pred(·) 本质仍是自回归视频生成,s 仍是像素——并非真正的架构融合,而是功能层面的对接。
Waymo WM Genie 3 骨干后训练 → 输出 camera + LiDAR
InSpatio-World 隐式时空缓存 + 显式几何约束
结构派 + 推理派能力补齐
结构派正在补齐长期缺失的 P(z)——从纯几何预测走向对智能体意图、遮挡物体的信念建模。这是目前结构派最活跃的演化方向,2024–2026 年论文最集中的方向。
LatentDriver 多概率决策引入不确定性
BEVWorld s 从显式几何向潜变量迁移
GAIA-2 CLIP embedding 注入意图 P(z)
仿真派 + 生成派弥合 sim-to-real
仿真派核心瓶颈(x 由仿真生成)正通过引入扩散模型来弥合与真实感知的 gap,P(z) 同步从物理参数不确定性扩展为完整信念状态。目前工业落地最成熟的融合路径。
Cosmos Transfer 仿真→扩散→真实感输出
FieldAI BWM P(z) 演进为完整 POMDP 信念
Cosmos-Reason2 物理常识 VLM 引入语义推理
s(t) 的语义鸿沟
推理派的 s(神经网络学出的抽象潜变量)与结构派的 s(可解释 3D 几何)之间尚无统一方案。将二者合并意味着既要物理可解释,又要支持梯度流动的不确定性推理——表示层面存在根本张力。
推理派 s:高维、不可解释、可微
结构派 s:低维、几何可解释、离散
生成派的 P(z) 结构性缺失
生成派(s=x)在架构层面几乎没有真正的 P(z) 信念建模——语言条件注入只是软性约束,而非对未知信息的后验推断。只要 s=x 的设定不变,完整的 POMDP 信念框架就难以实现。
Genie 3 语言=软约束,非后验信念
Happy Oyster P(z) 结构性缺失
终极开放问题 · 2026
是否存在一个统一的 s(t),使得 x→s 的对齐既保留几何可解释性,又具备物理精确性,又能在 P(z) 下进行完整的不确定性推理?
结构派 贡献几何可解释性 ·
仿真派 贡献物理精确性 ·
推理派 贡献完整 P(z) 信念推理 ·
生成派 贡献视觉真实性与规模
目前最接近这一统一的系统:Waymo World Model(生成+结构需求)和 FieldAI BWM(仿真+推理派 P(z))——但两者都只是局部融合,不是全局统一。