中文 EN

TesserAct: Learning 4D Embodied World Models

arXiv: 2504.20995

作者: Haoyu Zhen, Qiao Sun, Hongxin Zhang, Junyan Li, Siyuan Zhou, Yilun Du, Chuang Gan

机构: UMass Amherst, HKUST, Harvard University

项目页: https://TesserActWorld.github.io

报告定位: 面向 junior PhD 组会准备的中文精读报告,覆盖正文、表格、图像和补充材料实现细节。

1. 论文速览

TesserAct 的核心主张是:机器人 world model 不应只生成 2D RGB 视频,而应生成同时包含外观、深度和法向的 RGB-DN 视频,再把它重建成时空一致的 4D 场景。这个 4D 表示既能做 novel view synthesis,也能给 inverse dynamics policy 提供更强的几何信息。
论文要解决什么 解决 embodied world model 只在 2D pixel space 中预测未来导致的空间关系不完整问题。对于抓取、开抽屉、使用工具等任务,机器人需要深度、表面方向和动态几何;只生成 RGB 视频容易出现物体尺度、形状、位姿和时间一致性错误。
作者的方法抓手 作者不直接预测昂贵的 4D point cloud 或 mesh,而是选择轻量中间表示 RGB-DN video。方法抓手包括:自动构建 RGB、Depth、Normal 标注数据集;修改并微调 CogVideoX 生成 RGB-DN;用 depth-normal integration、optical flow temporal consistency 和 regularization loss 把视频重建成 4D scene;最后用 4D point cloud 训练 inverse dynamics model 做动作规划。
最重要的结果 在 real/synthetic 4D scene generation 上,TesserAct 在 depth、normal 和 reconstructed point cloud Chamfer $L_1$ 上取得最优;在 RLBench action planning 9 个任务中,4DWM 在 7 个任务上超过 UniPi* 和 Image-BC,例如 close box 88、open drawer 80、open jar 44、sweep to dustpan 56、water plants 41。
阅读时要注意的点 这篇论文的关键不是“多预测两个通道”这么简单,而是 RGB-DN 作为 4D world 的低维接口是否足够:它要同时保留视频模型的可训练性、几何重建的可用性、以及下游 action planning 的收益。阅读时应重点追踪:数据标注是否可靠、depth/normal 与 RGB 的联合建模是否真的改善 4D 重建、几何信息何时帮助动作规划、何时 2D 信息已经足够。
TesserAct teaser
Figure 1. TesserAct 总览:输入图像和文本动作指令,生成 RGB、Depth、Normal 视频,进一步重建 4D scene,并支持动作预测。Teaser 同时展示 in-domain、unseen objects/scenes 和 cross-domain 场景。

一句话贡献

论文把机器人视频 world model 从 2D RGB 预测推进到 RGB-DN 条件生成,并提出从生成视频到时空一致 4D scene 的重建和下游控制 pipeline。

关键词

4D Embodied World Model RGB-DN Video CogVideoX Fine-tuning Depth-Normal Integration Inverse Dynamics

2. 研究问题与动机

2.1 为什么 2D world model 不够

Learned world models 的目标是模拟环境动态,用于 policy synthesis、data simulation 和 long-horizon planning。已有视觉 world model 多在 2D pixel space 中生成未来 RGB 视频,但物理世界本质上是三维的。只看 RGB 会让模型缺少深度、6-DoF pose、表面方向和几何约束,对需要精确位置和姿态的机器人操作不够。

作者在 Introduction 中举的核心问题是:2D 模型可能在时间上产生物体尺寸和形状不一致,导致数据驱动仿真和 robust policy learning 受到限制。也就是说,生成视频看起来合理不等于它能支撑机器人对物体几何的判断。

2.2 为什么不直接预测完整 4D 几何

直接生成 3D scene over time 非常昂贵,训练和推理都比 2D 视频复杂。TesserAct 的折中是预测 RGB-DN video:RGB 表示外观,Depth 表示几何距离,Normal 表示表面方向。这个表示比完整 4D scene 低维得多,又比 RGB 多了机器人需要的几何信息,而且可以复用现有视频扩散模型的能力。

2.3 数据瓶颈

训练 4D world model 需要大规模带深度和法向的视频数据,但真实机器人数据通常没有这些标注。作者的解决方案是把现有机器人视频数据扩展成 RGB-DN:仿真数据使用 simulator depth 和 depth2normal,真实数据用 RollingDepth 估计 depth、用 Temporal-Consistent Marigold-LCM-normal 估计 normal。这个自动标注 pipeline 是方法能成立的前提。

4. 方法详解

4.1 任务形式:条件 RGB-DN video diffusion

论文把 RGB \(\mathcal{V}\)、Depth \(\mathcal{D}\)、Normal \(\mathcal{N}\) 视频生成写成条件去噪任务:

$$p(\mathbf{v}, \mathbf{d}, \mathbf{n}\mid \mathbf{v}^0, \mathbf{d}^0, \mathbf{n}^0, \mathcal{T})$$

其中 \(\mathbf{v}, \mathbf{d}, \mathbf{n}\) 是未来 RGB、depth、normal 的 latent 序列,条件 \(\mathbf{v}^0,\mathbf{d}^0,\mathbf{n}^0,\mathcal{T}\) 对应初始图像、初始 depth/normal 和文本动作指令。对任一模态 latent \(\mathbf{z}\in\{\mathbf{v},\mathbf{d},\mathbf{n}\}\),forward diffusion 为:

$$q(\mathbf{z}_t|\mathbf{z}_{t-1})=\mathcal{N}\left(\mathbf{z}_t;\sqrt{\alpha_t}\mathbf{z}_{t-1},(1-\alpha_t)\mathbf{I}\right)$$

把三种模态拼接为 \(\mathbf{x}=[\mathbf{v},\mathbf{n},\mathbf{d}]\),denoising network \(\epsilon_\theta(\mathbf{x}_t,t,\mathbf{x}^0,\mathcal{T})\) 学习反向过程并最终解码到 pixel space。

4.2 RGB-DN 数据集构建

作者构建的 4D embodied video dataset 来自 synthetic 和 real 两类数据。仿真部分从 RLBench 选 20 个较难任务,每个任务生成 1000 个实例,每个实例 4 个视角,总计 80k synthetic 4D embodied videos。RLBench 提供 metric depth,但没有 normal,因此用 DSINE 的 depth2normal 从 depth 估计 normal;为了增强泛化,使用 Colosseum 风格的 scene randomization 改变背景、桌面纹理和光照。

真实数据来自 OpenX 中的 RT1 Fractal 和 Bridge,再加入 SomethingSomethingV2 提高动作/指令多样性。真实数据缺少 depth/normal,作者用 RollingDepth 标注 affine-invariant depth,用 Temporal-Consistent Marigold-LCM-normal 标注 normal。

Dataset Domain Depth Source Normal Source Embodiment # Videos
RLBenchSyntheticSimulatorDepth2NormalFranka Panda80k
RT1 Fractal DataRealRollingDepthMarigoldGoogle Robot80k
BridgeRealRollingDepthMarigoldWidowX25k
SomethingSomethingV2RealRollingDepthMarigoldHuman Hand100k
Dataset examples
Supplementary Figure. 数据样例,展示 Bridge 和 RT-1 中抽取的 RGB、depth、normal 帧及自然语言指令。该图对应补充材料的数据展示。

4.3 模型架构:从 CogVideoX 到 RGB-DN predictor

TesserAct 不从零训练扩散视频模型,而是修改并微调 CogVideoX。RGB、depth、normal 三种视频分别由 CogVideoX 的 3D VAE 编码,VAE 不额外 fine-tune。输入侧为三种模态引入独立 projector:

$$f_{\mathbf{z}}=\texttt{InputProj}(\mathbf{z}_t,\mathbf{z}^0),\qquad \mathbf{z}\in\{\mathbf{v},\mathbf{d},\mathbf{n}\}$$ $$\mathbf{h}=\texttt{DiT}\left(\sum f_{\mathbf{z}},t,\mathcal{T}\right)$$

文本条件 \(\mathcal{T}\) 被定义为动作指令加机器人名称,例如 “pick up apple google robot”,这是为了区分不同 embodiment。输出侧保留原 RGB 输出方式 \(\epsilon^*_\mathbf{v}=\texttt{OutputProj}(h)\),再为 depth/normal 增加模块:用 Conv3D 编码输入 latent 和 RGB denoised output 的拼接,再与 DiT hidden states 结合,经 DNProj 得到 depth/normal 的去噪预测。

$$\epsilon^*_{\mathbf{d},\mathbf{n}}=\texttt{DNProj}\left(h,\texttt{Conv3D}\left(\epsilon^*_\mathbf{v},[\mathbf{z}_t;\mathbf{z}^0]_{\mathbf{z}\in\{\mathbf{v},\mathbf{d},\mathbf{n}\}}\right)\right)$$

为保留 CogVideoX 的 RGB 生成知识,作者用 CogVideoX 权重初始化主干,其他新增模块用 0 初始化,使训练初期 RGB 输出与 CogVideoX 一致。训练损失是三模态噪声预测的 MSE:

$$L=\mathbb{E}_{\mathbf{v}_0,\mathcal{T},t,\epsilon}\left[\left\|[\epsilon_\mathbf{v},\epsilon_\mathbf{d},\epsilon_\mathbf{n}]-\epsilon_\theta(\mathbf{x}_t,t,\mathbf{x}^0,\mathcal{T})\right\|^2\right]$$
TesserAct architecture
Figure 2. TesserAct 架构和训练流程。重点是三模态 latent 输入、DiT backbone 复用、以及 depth/normal 的额外输出分支。

4.4 从 RGB-DN video 重建 4D scene

生成的 depth 是相对 depth,不能直接得到完整尺度一致的 3D scene;而仅逐帧 depth-normal integration 又缺少时间一致性。TesserAct 的重建算法先用 normal map 优化每帧 depth,再用 optical flow 建立跨帧约束。

在 perspective camera 下,pixel \(\boldsymbol{u}=(u,v)^T\)、depth \(d\)、normal \(\boldsymbol{n}=(n_x,n_y,n_z)\) 满足 log-depth \(\tilde{d}=\log(d)\) 的 normal integration 约束。作者采用迭代优化形式:

$$\tilde{d}_{t+1}=\arg\min_{\tilde{d}}(A\tilde{d}-b)^TW(\tilde{d}_t)(A\tilde{d}-b) \stackrel{\mathrm{def}}{=}\arg\min_{\tilde{\mathcal{D}}}\mathcal{L}_s(\tilde{\mathcal{D}},\mathcal{N}^i)$$

然后用 RAFT optical flow \(\mathcal{F}\) 识别 static 和 dynamic regions:\(\mathcal{M}_s^i=\|\mathcal{F}^i\|\le c\),\(\mathcal{M}_d^i=\neg\mathcal{M}_s^i\),背景区域为 \(\mathcal{M}_b^i=\mathcal{M}_s^i\cap\mathcal{M}_s^{i-1}\)。根据 flow 把前一帧 depth warp 到当前帧位置,定义 temporal consistency loss:

$$\mathcal{L}_c= \lambda_{cd}\left\|\tilde{\mathcal{D}}^i\circ\mathcal{M}_d^i-\mathcal{D}^{i\rightarrow(i-1)}\circ\mathcal{M}_d^i\right\|^2+ \lambda_{cb}\left\|\tilde{\mathcal{D}}^i\circ\mathcal{M}_b^i-\mathcal{D}^{i\rightarrow(i-1)}\circ\mathcal{M}_b^i\right\|^2$$

同时加入 regularization loss,让优化后的 depth 不偏离生成 depth 太远:

$$\mathcal{L}_r= \lambda_{rd}\left\|\tilde{\mathcal{D}}^i\circ\mathcal{M}_d^i-\mathcal{D}^{i}\circ\mathcal{M}_d^i\right\|^2+ \lambda_{rb}\left\|\tilde{\mathcal{D}}^i\circ\mathcal{M}_b^i-\mathcal{D}^{i}\circ\mathcal{M}_b^i\right\|^2$$

总目标为:

$$\arg\min_{\tilde{\mathcal{D}}}\ \mathcal{L}_s(\tilde{\mathcal{D}},\mathcal{N}^i)+ \mathcal{L}_c(\tilde{\mathcal{D}},\hat{\mathcal{D}}^{i-1},\mathcal{F}^i,\mathcal{F}^{i-1})+ \mathcal{L}_r(\tilde{\mathcal{D}},\mathcal{D}^i)$$
Consistency and regularization loss effect
Figure 3. Consistency loss 和 regularization loss 对 4D scene reconstruction 的影响。红框标出不一致区域;论文用该图说明跨时间约束和正则项能改善机械臂运动一致性与几何准确性。

4.5 用 4D scene 做 embodied action planning

生成 4D scene 后,作者训练 inverse dynamics model,根据当前状态 \(s_i\)、预测未来状态 \(s_{i+1}\) 和指令 \(\mathcal{T}\) 输出 7-DoF action:

$$a_i=\text{ID}(s_i,s_{i+1},\mathcal{T})$$

具体实现中,PointNet 编码 4D point cloud 的 3D 特征,再与 instruction text embedding 拼接,经 MLP 输出动作。这个下游实验的目标是验证:RGB-DN 重建出的几何信息不只是可视化更漂亮,而能实质帮助机器人动作决策。

5. 实验与结果

5.1 4D scene prediction 设置

4D scene prediction 在 real 和 synthetic 两个域评估。Real domain 使用 RT1 Fractal 和 Bridge 的 400 个 unseen samples,depth/normal 按数据构建流程估计;Synthetic domain 使用 RLBench 的 200 个 unseen samples,depth/normal 可直接从仿真器获得。每个 sample 生成 10 次并报告平均值。

指标分四类:RGB 质量用 FVD、SSIM、PSNR;depth 用 AbsRel、\(\delta_1\)、\(\delta_2\);normal 用 Mean、Median、\(11.25^\circ\);重建 point cloud 用 Chamfer \(L_1\)。Baselines 包括 OpenSora、CogVideoX 和作者实现的 4D Point-E。

5.2 4D scene generation 主结果

Domain Method RGB FVD ↓ RGB SSIM ↑ RGB PSNR ↑ Depth AbsRel ↓ Normal Mean ↓ Chamfer L1 ↓
Real4D Point-E-----0.2211
RealOpenSora23.6771.3119.2531.4141.820.3013
RealCogVideoX20.6479.3822.3926.1719.530.2191
RealTesserAct21.5975.8620.2722.0715.740.2030
Synthetic4D Point-E-----0.1086
SyntheticOpenSora54.1165.9019.2818.4012.940.2570
SyntheticCogVideoX41.2376.6020.8719.8120.360.2884
SyntheticTesserAct40.0177.5919.7316.0214.750.0811

读这张表要分清两个层次:TesserAct 不一定在 RGB 指标上全面压过 CogVideoX,尤其 real domain 的 RGB FVD/SSIM/PSNR 仍是 CogVideoX 最好;但 TesserAct 在 depth、normal 和最终 point cloud Chamfer 上最强。论文的主张正是:牺牲或保持相近 RGB 质量,换来更可靠的 4D 几何。

Qualitative 4D generation results
Figure 4. 定性结果:in-domain 4D generation、unseen scenes/objects generalization 和 novel view synthesis。该图支撑作者关于 4D scene 质量和泛化的主张。

5.3 Novel view synthesis

作者进一步测试 monocular video to 4D 后的 novel view synthesis。在 RLBench 上,输入 front camera monocular video,比较 overhead 和 left shoulder camera 视角。Baseline 是 Shape of Motion,一个基于 Gaussian Splatting 的 video reconstruction 方法。

Method PSNR ↑ SSIM ↑ LPIPS ↓ CLIP Score ↑ CLIP Aesthetic ↑ Time Costs ↓
Shape of Motion10.9424.0273.8266.673.61约 2 hours
TesserAct12.9942.6260.5183.023.731 min

这个结果的要点是速度:TesserAct 的 4D 表示避免了慢速 per-scene optimization,在 PSNR、SSIM、CLIP Score 和 aesthetic 上也更好。不过 LPIPS 这一项表格中 Shape of Motion 更优,说明 TesserAct 的视觉感知距离并非所有指标占优。

5.4 Embodied action planning

Action planning 在 RLBench 的 9 个挑战任务上评估,每个任务报告 100 episodes 平均成功率。Baselines 是 Image-BC 和 UniPi*。UniPi* 由作者重实现,并用 fine-tuned CogVideoX 作为 backbone 以公平比较。

Method close box open drawer open jar open microwave put knife sweep to dustpan lid off weighing off water plants
Image-BC534050012210
UniPi*816738726649706835
4DWM / TesserAct888044707056736241

结果显示几何信息对多数任务有帮助,尤其是 close box、open jar、sweep to dustpan、water plants 等需要物体几何、工具使用或精确空间关系的任务。论文也诚实指出 open microwave 和 weighing off 中 TesserAct 不如 UniPi*,可能因为这些任务的 2D front image 已经提供了足够信息,额外 3D 处理不一定带来收益。

5.5 补充材料定性结果

补充材料增加了数据标注、out-of-domain 生成、各数据集 RGB-DN video generation 和显式 action trajectory 可视化。它们不改变主结论,但帮助判断方法的适用范围和失败风险。

Optimized 3D scene reconstruction
Supplementary Figure. BridgeV2 上优化后 3D robotic scene reconstruction。绿色/红色框展示细节增强、平滑度提升,以及墙和桌面近似垂直对齐。
Data annotation comparison
Supplementary Figure. 与 3D-VLA 数据生成质量对比。作者认为其 point cloud 更真实,3D-VLA 更容易出现形状畸变。
Out-of-domain 4D generation
Supplementary Figure. Out-of-domain 4D generation。作者使用 DALL-E 生成图像并让 4D world model 生成 RGB、depth、normal 和重建 point cloud,用于展示跨视觉风格鲁棒性。
Action trajectory visualization
Supplementary Figure. Bridge 数据集上 robotic arm action trajectory 的显式可视化。红线表示从视频跟踪并提升到 3D 空间的动作轨迹。
Bridge qualitative generation
Supplementary Figure. Bridge 数据集上的 in-domain RGB-DN video generation。
RT1 qualitative generation
Supplementary Figure. RT1 数据集上的 in-domain RGB-DN video generation。
RLBench qualitative generation
Supplementary Figure. RLBench 数据集上的 in-domain RGB-DN video generation。

6. 复现要点

6.1 视频扩散模型训练

[补充材料 Implementation Details] 模型基于 CogVideoX。Depth/normal projector 与 RGB projector 使用相同架构;输出侧 Conv3DNet 有 3 层,MLP 有 2 层,维度均为 1024。模型输出 49 frames,使用 gradient checkpointing、global batch size 16、bf16 precision。采样使用 DDPM scheduler 50 steps,classifier-free guidance scale 为 7.5。

训练 40,000 iterations,初始学习率 \(1\times10^{-4}\),gradient clipping 1.0,warmup 1,000 steps。优化器为 Adam,\(\epsilon=1\times10^{-15}\),EMA decay 0.99。

6.2 4D scene generation 超参数

[补充材料 4D Scene Generation] 重建损失参数按数据集不同调节:

Dataset \(\lambda_d\) \(\lambda_b\) \(\lambda_{g1}\) \(\lambda_{g2}\)
RT-1, Bridge202002020
RLBench2020022

作者明确说这些 \(\lambda\) 会随场景变化,实际最佳性能需要调参。这一点复现时很关键,因为 4D 重建质量不只取决于生成模型,也取决于后处理优化权重。

6.3 Robotics planning 训练

RLBench planning 中,模型主要差异是改为 13 frames 并 fine-tune,固定分辨率 512 × 512。每个任务采集 500 samples 训练 inverse dynamics model。推理时先预测并记录所有 future keyframes,之后只查询 inverse dynamics model,根据当前状态和预测未来状态输出动作。

[补充材料 Implementation Details for Robotics Planning] Action prediction 阶段先过滤背景和地面,只保留桌面与被操作物体相关点云,再采样 8192 points。PointNet 提取点云特征,与 instruction language embedding 拼接后输入 4-layer MLP,输出 7-DoF actions。为适配视频扩散模型输出,作者对 image 和 point cloud coordinates 加入相对幅度 20% 的 Gaussian noise。

6.4 复现风险清单

7. 分析、局限与边界

7.1 这篇论文最有价值的地方

最有价值的地方是提出了一个非常实用的 4D world model 表示:RGB-DN video。它不是最完整的 4D 表示,但很好地卡在了“可由现有视频模型训练”和“足以重建机器人需要的几何”之间。对于 embodied AI,这种中间表示比直接生成 RGB 视频更有几何约束,又比直接生成动态 point cloud 或 mesh 更容易规模化训练。

第二个价值点是论文把 world model 质量和下游动作规划连接起来了。4D scene generation 表格证明 depth/normal/Chamfer 更好,RLBench action planning 表格进一步显示几何提升能在多数任务中转化成成功率收益。这比只展示漂亮 4D 可视化更有说服力。

7.2 结果为什么站得住

结果站得住主要因为证据链较完整。第一,论文同时在 real 和 synthetic domain 上评估 4D scene,synthetic RLBench 有 ground-truth depth/normal,可以较客观地验证几何质量。第二,指标覆盖 RGB、depth、normal 和 point cloud,不只依赖单一视觉指标。第三,novel view synthesis 和 action planning 分别从重建应用和机器人控制应用验证 4D 表示的实用性。第四,补充材料给出了训练超参数、重建权重、点云过滤和动作模型细节,使方法不是完全黑箱。

不过需要谨慎的是:真实数据上的 depth/normal 标注来自估计器,因此 real-domain depth/normal 指标的“真值”也带有估计链条;RLBench action planning 是仿真环境,真实机器人闭环控制还没有形成同等强度的定量证据。

7.3 论文明确局限

作者在 Limitations 中明确指出:RGB-DN 表示便宜且易预测,但只捕获世界的单一表面。要构建更完整的 4D world model,未来可以让生成模型产生多个 RGB-DN views,再整合成更完整的 4D scene。

7.4 额外边界与可能改进

8. 组会问答准备

Q1: TesserAct 和普通视频 world model 的本质区别是什么?

普通视频 world model 主要预测 RGB 未来帧;TesserAct 同时预测 RGB、depth 和 normal,然后重建 4D point clouds。它把 world model 的输出从“看起来像未来”推进到“包含可用于几何推理的未来”。

Q2: 为什么选择 RGB-DN,而不是直接生成 point cloud?

直接生成动态 point cloud 训练和推理都更昂贵,帧数也受限。RGB-DN video 与现有视频扩散模型兼容,数据维度更低,同时保留重建 3D scene 所需的深度和表面方向。

Q3: 这篇论文中最核心的公式是哪一组?

一组是 RGB-DN conditional denoising objective,说明模型如何联合生成三模态视频;另一组是 4D scene reconstruction 的 \(\mathcal{L}_s+\mathcal{L}_c+\mathcal{L}_r\),说明如何用 normal、optical flow 和生成 depth 得到时空一致深度。

Q4: 实验里最有说服力的结果是什么?

4D scene 表格中 Chamfer \(L_1\) 在 real 和 synthetic 上都最优,说明重建几何确实更好;RLBench action planning 中 7/9 任务超过 UniPi*,说明几何优势能转化为控制收益。

Q5: 最应该质疑的地方是什么?

真实数据的 depth/normal 不是 ground truth,而是估计器标注;此外,下游动作规划主要在 RLBench 仿真验证。若要证明它是通用机器人 world model,还需要更强真实机器人闭环实验和多视角/遮挡场景评估。