中文 EN

MVISTA-4D: View-Consistent 4D World Model with Test-Time Action Inference for Robotic Manipulation

arXiv: 2602.09878

作者: Jiaxu Wang, Yicheng Jiang, Tianlun He, Jingkai Sun, Qiang Zhang, Junhao He, Jiahang Cao, Zesen Gan, Mingyuan Sun, Qiming Shao, Xiangyu Yue

机构: MMLab, CUHK; HKUST; HKU; X-Humanoid Robots; Tsinghua University

报告定位: 面向 junior PhD 组会准备的中文精读报告,覆盖正文、附录实现细节、主实验表格、消融与失败案例。

1. 论文速览

MVISTA-4D 的核心想法是:机器人 world model 不应只从单视角想象 RGB 或 RGB-D 未来,而要从一个单视角 RGB-D 输入出发,生成几何一致的多视角 RGB-D 动态场景;之后通过轨迹 latent 的 test-time optimization 反推出动作,再用 residual inverse dynamics model 做执行级修正。
论文要解决什么 解决 imagine-then-act 机器人框架中的两个瓶颈:第一,现有世界模型多为 2D 或单视角 RGB-D,无法得到完整、跨视角一致的 4D 场景,遇到遮挡和接触操作时几何不稳;第二,把生成的未来转成动作通常依赖 inverse dynamics,但同一视觉转移可由多种动作解释,逐步 IDM 天然 ill-posed。
作者的方法抓手 抓手是同时改 world model 和 act stage。世界模型侧,基于 WAN2.2 TI2V 5B DiT,设计 RGB/depth 的 cross-modality fusion、球坐标 camera embedding、epipolar-line constrained deformable cross-view attention,生成多视角 RGB-D。动作侧,把整段动作序列压缩成 TCN-VAE trajectory latent/style code,测试时通过反向传播优化 latent 使生成结果匹配 imagined future,再由 residual IDM 做局部动作修正。
最重要的结果 4D 生成上,方法在 RLBench、RoboTwin 和真实数据的 FVD、depth、point cloud CD/EMD 等几何指标上多数最优;例如真实数据 CD 从 4DGen 的 17.32 降到 13.06,EMD 从 15.61 降到 14.37。操作成功率上,RLBench 72.6、RoboTwin 43.0,均高于 P-ACT、UniPi*、4DGen、TesserAct;真实机器人 6 个任务中 5 个任务超过 TesserAct。
阅读时要注意的点 重点不是“又一个 4D 生成模型”,而是三个接口是否真的闭合:多视角 RGB-D 生成是否提升可融合几何;trajectory latent 是否比逐步 action conditioning 更稳定;test-time latent optimization + residual IDM 是否缓解了 inverse dynamics 的多解性。读表时也要注意作者常在 RGB 指标和几何指标之间取舍,主张主要建立在几何一致性和下游 manipulation 成功率上。
MVISTA-4D overview
Figure 1. 主 pipeline:单视角 RGB-D 输入和指令进入多视角 4D world model,生成未来多视角 RGB-D,再融合为 point cloud sequence;动作通过 trajectory latent optimization 和 residual IDM 得到。

一句话贡献

论文把多视角几何一致的 RGB-D 4D 生成和测试时轨迹 latent 反推动作结合起来,用更完整的动态几何支撑机器人 manipulation。

关键词

4D World Model Multi-view RGB-D Generation Cross-view Attention Trajectory Latent Residual IDM

2. 研究问题与动机

2.1 为什么需要多视角 4D world model

world-model-based manipulation 通常先预测未来观察,再从未来观察中推动作。这种 imagine-then-act 范式的关键是:想象出来的未来必须足够接近物理可执行场景。仅生成 RGB 视频时,画面可以看起来合理,但深度、遮挡、物体相对位置和接触几何可能不一致;这会让后续动作推理建立在错误几何上。

TesserAct 这类方法已经把 RGB-DN/RGB-D 引入 world model,但很多仍是单视角输出。单视角会导致隐藏面和遮挡区域缺失,融合出的 3D 结构不完整。MVISTA-4D 的目标是让模型从单个 RGB-D observation 出发,“补想象”其他视角,并在时间上保持同一个动态场景。

2.2 为什么 inverse dynamics 不够

从生成未来到动作的常见方式是 inverse dynamics:给定 \(\hat{o}_t,\hat{o}_{t+1}\) 预测 \(a_t\)。但在机器人操作中,同样的视觉变化可能由多个动作产生,局部观察还可能缺失接触信息;因此逐步 IDM 容易不适定。作者认为动作轨迹本身具有低维结构和强时间相关性,应该用 trajectory-level latent 表达,而不是把每个 action step 硬对齐到每个视频帧。

4. 方法详解

4.1 问题定义与 diffusion 基础

输入为参考视角 RGB-D observation \(\mathbf{o}_0=(\mathbf{I}_0,\mathbf{D}_0)\)、参考相机外参 \(\mathbf{T}_0\)、目标视角外参 \(\{\mathbf{T}_i\}_{i=1}^{N}\) 和语言指令 \(l\)。模型输出参考视角与所有目标视角同步的未来 RGB-D 序列。生成后可用 camera intrinsics/extrinsics back-project 并 fuse 成动态 point cloud sequence。

扩散模型使用 latent video diffusion / flow matching。Forward path 为:

$$z_t=(1-t)z_0+t\epsilon,\qquad \epsilon\sim\mathcal{N}(0,I),\quad t\in[0,1]$$ $$\mathcal{L}_{diff}=\mathbb{E}_{t,z_0,\epsilon}\left\|v_{\Theta}(z_t,t)-(\epsilon-z_0)\right\|_2^2$$

推理时从高斯噪声出发,用 Euler steps 解 probability flow ODE,并通过 VAE decoder 得到 RGB-D 视频。

4.2 输入格式策略

作者采用结构化 tokenization:同一视角内部 RGB 和 depth 按 width-wise concatenation 放在相邻 token 位置,鼓励同一空间位置的 appearance/geometry 交互;不同视角按 height-wise concatenation 组织,促进结构级跨视角信息交换。因为视角间像素级对齐受 parallax/occlusion 影响,真正的几何对应由 cross-view module 处理。

4.3 Feature Integration Across Modalities

为了让共享 backbone 区分 RGB appearance token 和 depth geometry token,作者为两个模态加入 learnable modality token:

$$\tilde{\mathbf{X}}^{app}=\mathbf{X}^{app}+\mathbf{1}(\mathbf{m}^{app})^\top,\qquad \tilde{\mathbf{X}}^{geo}=\mathbf{X}^{geo}+\mathbf{1}(\mathbf{m}^{geo})^\top$$

在每个 DiT block 的标准 self-attention 之前,插入 local cross-modality attention。对位置 \(i\),只在几何 token grid 的局部邻域 \(\mathcal{N}_r(i)\) 中做 appearance-to-geometry attention,反向也对称执行:

$$\mathbf{y}_i^{a\leftarrow g}=\mathrm{Attn}\left( \tilde{\mathbf{x}}_i^{app}\mathbf{W}_Q^{app}, \tilde{\mathbf{X}}_{\mathcal{N}_r(i)}^{geo}\mathbf{W}_K^{geo}, \tilde{\mathbf{X}}_{\mathcal{N}_r(i)}^{geo}\mathbf{W}_V^{geo} \right)$$ $$\hat{\mathbf{x}}_i^{app}=\tilde{\mathbf{x}}_i^{app}+\gamma_{app}\mathbf{y}_i^{a\leftarrow g},\qquad \hat{\mathbf{x}}_i^{geo}=\tilde{\mathbf{x}}_i^{geo}+\gamma_{geo}\mathbf{y}_i^{g\leftarrow a}$$

局部窗口降低了全局 cross-attention 的匹配成本,也给 RGB-depth 对齐提供局部几何先验;gated residual 则避免在噪声或错位时强行融合坏信息。

Cross-modality modeling
Figure 2. Cross-modality modeling 的效果:显式 RGB-depth 交互改善 appearance 和 geometry 对齐,减少跨模态漂移。

4.4 Learning Geometric Consistency Across Views

视角 token 不用普通可学习 embedding,而是直接由 camera embedding 提供。作者没有 flatten \(3\times4\) extrinsic matrix,而是围绕共同 look-at point \(\mathbf{p}\) 用球坐标表示相机。首先估计所有相机 optical axes 最近的点:

$$\mathbf{p}=\arg\min_{\mathbf{x}\in\mathbb{R}^3}\sum_v\left\| (\mathbf{I}_{3\times3}-\mathbf{d}_v\mathbf{d}_v^\top)(\mathbf{x}-\mathbf{c}_v) \right\|_2^2$$

然后用 \(\mathbf{r}_v=\mathbf{c}_v-\mathbf{p}\)、\(\rho_v=\|\mathbf{r}_v\|_2\) 计算 yaw、pitch、roll,并对角度使用 \(K=2\) 的 Fourier features,拼接 \(\log(\rho_v)\),得到 13-D camera embedding:

$$\mathbf{e}_v=[\gamma(\psi_v),\gamma(\theta_v),\gamma(\phi_v),\log(\rho_v)]\in\mathbb{R}^{13}$$

跨视角融合使用 geometry-aware deformable cross-view attention。给定 view \(v\) 的 query token,在另一视角 \(u\) 上沿对应 epipolar line 均匀采样 \(K\) 个候选 key/value;再用 MLP 根据 query、初始 key feature 和相似度预测小 offset,修正粗 latent resolution 下的错位:

$$\Delta\mathbf{p}_{i,k}^{u}=\mathrm{clip}\left( \mathrm{MLP}_{off}[\mathbf{q}_i^v,\mathbf{f}_{i,k}^{u,0},s_{i,k}^{u}],\mathrm{max\_offset} \right),\qquad \mathbf{p}_{i,k}^{u}=\mathbf{p}_{i,k}^{u,0}+\Delta\mathbf{p}_{i,k}^{u}$$
Cross-view modeling
Figure 3. Geometry-aware cross-view modeling 的效果:沿 epipolar 约束做稀疏跨视角注意力,提升多视角一致性。

4.5 Trajectory Conditioning as a Style Code

动作轨迹是生成机器人运动的关键条件。逐步把动作序列对齐到视频帧会引入控制频率和视频帧率的脆弱对应,也容易暴露像素中弱可见的高频控制细节。作者改用 TCN-VAE 把整段动作压缩为低维 trajectory latent/style tokens:

$$\mathbf{z}=\mathrm{Enc}_{TCN}(\mathbf{a}_{1:L}),\qquad \hat{\mathbf{a}}_{1:L}=\mathrm{Dec}_{TCN}(\mathbf{z})$$ $$\mathcal{L}_{VAE}=\mathbb{E}_{q_\phi(\mathbf{z}|\mathbf{a})}\|\mathbf{a}-\hat{\mathbf{a}}\|_2^2+ \beta\,\mathrm{KL}(q_\phi(\mathbf{z}|\mathbf{a})\Vert p(\mathbf{z}))$$

论文中 \(\mathbf{z}\in\mathbb{R}^{S\times C=32}\),作为 \(S\) 个 style tokens 通过 cross-attention 注入生成器。为了避免生成器忽略轨迹条件,训练时还加 latent-consistency head,从最后层 hidden tokens 重建 \(\hat{\mathbf{z}}\),并用 \(\mathcal{L}_{traj}=\|\hat{\mathbf{z}}-\mathbf{z}\|_2^2\) 约束;该 head 只训练时使用,推理丢弃。

4.6 Test-time Action Optimization 与 Residual IDM

推理时先用 text-only conditioning 生成一个动态 rollout \(\bar{\mathbf{V}}\)。然后冻结该 rollout,从随机初始化的 trajectory latent \(\mathbf{z}\) 开始,通过反向传播寻找最能复现该 rollout 的条件 latent:

$$\mathbf{z}^{\star}=\arg\min_{\mathbf{z}}\ \mathcal{D}(G(l,\mathbf{z}),\bar{\mathbf{V}})+\lambda\|\mathbf{z}\|_2^2$$ $$\hat{\mathbf{a}}_{1:T}=\mathrm{Dec}_{TCN}(\mathbf{z}^{\star})$$

这比直接优化全长逐步动作更稳定,因为搜索空间是学习到的低维轨迹流形。随后 residual IDM 进一步修正:给定连续点云 \(\mathcal{P}_t,\mathcal{P}_{t+1}\) 和 prior action \(\mathbf{a}_t^{prior}\),预测残差 \(\Delta\mathbf{a}_t\):

$$\mathbf{a}_t=\mathbf{a}_t^{prior}+\Delta\mathbf{a}_t$$

这样 IDM 不再从零解释视觉转移,而是在已有轨迹意图附近做局部调整,缓解 inverse dynamics 的多解性。

5. 实验与结果

5.1 数据集与评估

4D generation 在两个 synthetic 数据集和一个真实数据集上评估。RLBench 收集超过 8,000 条轨迹,RoboTwin2 超过 10,000 条轨迹,各含 10 个任务;每个 episode 有 16 个 RGB-D camera views、已知 camera parameters、文本指令和动作序列。真实数据由 4 个 RGB-D 摄像头和真实机械臂平台采集,包含 14 个 manipulation tasks,并记录对应动作。

指标分为 appearance、depth 和 point cloud:PSNR、SSIM、FVD;AbsRel、RMSE、\(\delta_1\);Chamfer Distance (CD) 和 EMD。主表中的 SSIM、AbsRel、RMSE、CD、EMD 均按 \(10^2\) 缩放。

5.2 4D scene generation 主结果

Dataset Method PSNR ↑ SSIM ↑ FVD ↓ AbsRel ↓ RMSE ↓ CD ↓ EMD ↓
RLBenchUniPi*23.8891.719.94117.943.215.020.6
RLBench4DGen22.2587.120.5191.829.310.916.0
RLBenchTesserAct23.8692.827.7791.829.411.016.3
RLBenchOurs23.3190.818.5790.529.19.615.3
RoboTwinUniPi*22.9889.222.185.5218.139.8820.53
RoboTwin4DGen22.1885.224.613.0013.907.1810.62
RoboTwinTesserAct22.6589.827.293.7115.077.1110.28
RoboTwinOurs22.9190.221.932.6012.306.519.90
RealUniPi*22.5390.6228.6239.9542.6958.4163.22
Real4DGen21.3489.7525.6023.3629.6117.3215.61
RealTesserAct22.2791.5050.7930.5633.1738.4734.65
RealOurs21.8289.9823.0820.7925.1113.0614.37

这张表的关键是几何指标:MVISTA-4D 在 point cloud CD/EMD 和 depth 指标上基本最强,而 RGB PSNR/SSIM 不总是第一。也就是说,作者并不主张它是纯视觉质量最强的视频生成模型,而是几何一致性更适合 manipulation。

RoboTwin qualitative 4D generation
Figure 4. RoboTwin 定性结果:红、绿、蓝框表示不同视角。图中强调多视角生成的一致性和 object placement 稳定性。
Real generated geometries
Figure 5. 真实机器人数据上的生成几何结果。该图支撑真实场景中多视角 RGB-D 融合为 point cloud 的可用性。

5.3 Cross-view / cross-modality 消融

Method PSNR ↑ SSIM ↑ FVD ↓ AbsRel ↓ RMSE ↓ CD ↓ EMD ↓
w/o view21.4788.324.853.3414.308.3417.50
EA22.4389.223.363.0312.707.3312.50
w/o mod20.1683.825.254.0316.777.5116.80
Ours22.9190.221.932.6012.306.519.90

消融说明两个模块都重要:去掉 cross-view 后 point cloud CD/EMD 明显变差;去掉 cross-modality 后 RGB/depth 同步更差,PSNR、SSIM、FVD 和 depth 指标都下降。

5.4 Embodied action planning

Dataset P-ACT UniPi* 4DGen TesserAct Act Head Full IDM w/o R-IDM Full Model
RLBench60.434.647.067.372.568.869.072.6
RoboTwin20.516.340.233.942.541.742.843.0

Full model 的提升相对主 baseline 更明显:RLBench 比 TesserAct 高 5.3,比 P-ACT 高 12.2;RoboTwin 比 4DGen 高 2.8,比 TesserAct 高 9.1。动作侧消融显示 Act Head 很强,但 full model 仍最好;Full IDM 和 w/o R-IDM 低于 full model,说明 trajectory latent optimization 和 residual correction 都有贡献。

Method Arrange Boxes Cap Bottle Open Drawer Place Fruits Put Orange Stack Cubes
TesserAct72737176645
Ours153356236350

真实机器人 6 个任务中,MVISTA-4D 在 5 个任务上超过 TesserAct,尤其 Open Drawer 从 37 提升到 56。Put Orange 略低于 TesserAct,说明多视角几何并非每个任务都一定提升。

5.5 附录:多视角推理模式与 view 数量

[附录 Analysis of two Modes] 作者支持两种多视角生成:Mode-1 一次采样生成所有 view,把 view latents 沿 height 连接;Mode-2 先生成参考 views,再用 masked completion 补全额外 views。论文默认使用 Mode-2,因为更稳定、质量更高。主实验采用 3-view 设置,因为多数 baseline 至多支持两视角,而 3 views 已带来主要收益。

Num Views 1 2 3 4 5
RLBench success68.671.572.672.973.1
Time cost0.780.851.001.201.35

从 1 到 3 views 提升明显,3 到 5 views 边际收益很小但耗时增长,因此 3 views 是本文默认的效率-准确性折中。

RoboTwin multiview generation
附录定性图:RoboTwin 上 Mode-2 多视角生成,与 4DGen 对比。
RLBench multiview generation
附录定性图:RLBench 上 Mode-1 多视角生成,与 4DGen 对比。

5.6 附录:per-task 与失败案例

[附录 Additional Task-Level Details] RLBench per-task 表显示,Ours 在 Unplug Charger 55、Close Drawer 91、Close Microwave 75、Open Drawer 98、Pick Up Cup 62、Play Jenga 97、Push Button 89 等任务上表现强;RoboTwin 中在 Adjust Bottle 69、Beat Hammer 42、Click Bell 38、Grab Roller 68、Lift Pot 42、Place Container 72 上领先。

Open drawer failure
失败案例 1:Open Drawer 中定位到抽屉把手,但拉动方向错误,说明遮挡和有限视角下动作方向仍可能歧义。
RoboTwin failure
失败案例 2:RoboTwin 接触敏感任务中到达目标区域附近,但末端执行器与红色目标块空间错位。

5.7 附录:更多定性生成

RLBench qualitative generation
附录 Figure: RLBench qualitative generation results。
Real place cubes qualitative generation
附录 Figure: 真实机器人 place cubes into cup 任务定性结果。
Real open drawer qualitative generation
附录 Figure: 真实机器人 open drawer 任务定性结果。

6. 复现要点

6.1 训练策略

[附录 Implementation Details] 作者对每个 dataset 训练单独模型。对于同一任务不同操作物体,保持固定 instruction template,只替换 object noun,例如 “pick up the coke bottle” 和 “pick up the can”。

Diffusion input 是 \(B\times T\times C\times h\times w\) 的 noise latent。训练时以 0.5 概率只提供第一视角第一帧作为条件;以 0.5 概率提供第一视角完整 video latent,并随机 mask 任意数量帧。这让模型同时学习从单帧生成 4D dynamics 和补全缺失 timesteps。

Trajectory latent 在早期训练总是提供;后期逐渐增加 mask trajectory latent 并替换为 null trajectory token 的概率。这样模型既能 text-only 生成动态场景,也保留 action-conditioned generation 能力;null token 在测试时可作为可优化变量。

6.2 模型与优化配置

6.3 仿真与真实平台

[附录 Simulation Setup] 仿真中在场景周围均匀放置 12 个相机,相邻水平角间隔 30 度,朝向机器人工作台中心;训练随机采样 3 个 viewpoints,并要求采样视角中至少一个相机角间隔小于 90 度。所有相机分辨率 320 × 240,RLBench FOV 为 40 度,RoboTwin FOVY 为 37 度。

RLBench camera layout
RLBench camera layout。
RoboTwin camera layout
RoboTwin camera layout。

[附录 Real-World Robot Dataset] 真实系统使用 4 个 Orbbec Femto Bolt RGB-D ToF cameras 和 2 个 AgileX Piper robotic arms;采集工作站为 Intel i9-14900K CPU + NVIDIA RTX 4090 GPU。相机外参先用 ChArUco board 粗标定,再将 RGB-D back-project 到点云并对重叠区域做 ICP refinement。遥操作采用 leader-follower,follower 以 200 Hz 直接 joint-space mapping 跟随 leader;相机以 15 FPS、1280 × 720 同步记录,后处理降采样到 320 × 180。

Real camera setup
真实机器人相机布局。
Extrinsic calibration
外参标定与点云对齐示意。
Real manipulation tasks
真实数据集中 manipulation tasks 示例。每个 episode 随机目标物体位姿,并加入任务无关 distractors。

6.4 复现风险清单

7. 分析、局限与边界

7.1 这篇论文最有价值的地方

最有价值的地方是把“4D world model 是否真的能帮助机器人执行”做成了一个相对闭合的系统:不是只展示多视角生成图,也不是只用 IDM 从单视角点云猜动作,而是从多视角 RGB-D 生成、几何融合、轨迹 latent 反推,到 residual IDM 修正和真实机器人执行,形成完整链条。

第二个价值点是动作接口设计。trajectory latent 作为 style code 把动作从逐步控制信号提升为整段轨迹先验;测试时优化该 latent,本质上是在 learned action manifold 上搜索与 imagined future 一致的动作。这比传统 IDM 的逐步多解问题更有结构约束。

7.2 结果为什么站得住

结果站得住主要因为证据覆盖了生成质量、几何质量、下游成功率和关键模块消融。4D 生成表中,方法在三个数据集的 depth/point cloud 指标上稳定领先;action planning 表中,RLBench 和 RoboTwin 都超过强 baseline;真实机器人表明提升不是只在仿真成立;cross-view、cross-modality、camera embedding、view 数量、R-IDM 等消融都能对应到具体设计选择。

同时,附录失败案例并没有回避缺陷:open-drawer 方向错误和 contact-sensitive miss 说明该方法虽然能生成高层意图和更完整几何,但细粒度接触、动作方向和执行闭环仍会放大小误差。

7.3 论文明确局限

7.4 可以追问的边界

8. 组会问答准备

Q1: MVISTA-4D 和 TesserAct 的核心区别是什么?

TesserAct 主要从 RGB-DN/RGB-D video 重建 4D scene,但偏单视角;MVISTA-4D 从单视角输入生成多视角 RGB-D,并显式做 cross-view geometry consistency。同时它还通过 trajectory latent test-time optimization 反推动作,而不是只依赖传统 IDM。

Q2: 为什么要用 trajectory latent,而不是逐步 action conditioning?

逐步 action 和视频帧之间存在控制频率/帧率不匹配,且像素中不一定能看出高频控制细节。trajectory latent 把整段动作压缩到低维流形,表达轨迹节奏、平滑性和阶段结构,更适合生成和测试时优化。

Q3: Cross-view attention 为什么沿 epipolar line 采样?

已知相机参数时,一个视角中的点在另一个视角中应落在对应 epipolar line 上。沿这条线采样能大幅减少候选 token,同时加入 deformable offset 修正 latent resolution 粗和遮挡带来的偏差。

Q4: 最强实验证据是什么?

生成侧是三个数据集上几何指标稳定领先,尤其 point cloud CD/EMD;动作侧是 RLBench 72.6、RoboTwin 43.0 均为最高,真实机器人 6 个任务中 5 个优于 TesserAct。

Q5: 最大短板是什么?

测试时优化带来 latency,系统依赖精确相机/机器人标定,并且在接触敏感或方向歧义任务中仍可能失败。换句话说,它增强了几何和轨迹先验,但还不是完整的实时闭环接触控制系统。