Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets

作者：Chuning Zhu, Raymond Yu, Siyuan Feng, Benjamin Burchfiel, Paarth Shah, Abhishek Gupta

机构：University of Washington, Toyota Research Institute

版本：arXiv v3, updated 2025-05-23

链接：arXiv:2504.02792 | PDF | Project Page | Code

源码说明：arXiv 源码包含完整 Appendix：实现细节、真实机器人实验细节、模拟实验细节、额外消融和 Internet video cotraining。

1. 论文速览

一句话总结：Unified World Models (UWM) 用一个带独立 action timestep 和 future-observation timestep 的扩散 transformer 同时建模动作与视频，让同一模型可通过设置 timestep 在 policy、forward dynamics、inverse dynamics、video prediction 四种模式之间切换，并能从 action-free 视频中共同训练。

阅读定位项	紧凑结论
论文要解决什么	大规模 imitation learning 依赖高质量带动作演示，而大量视频数据没有 action annotation；传统 policy 也没有显式学习环境动态。
作者的方法抓手	把 action diffusion 和 video diffusion 耦合进同一个 transformer，但让 $t_a$ 和 $t_{o'}$ 独立采样/控制；$t=T$ 近似“mask/marginalize”，$t=0$ 近似“condition”。
最重要的结果	真实机器人五任务中 UWM 在 ID/OOD 均优于 DP、PAD、GR1，并且 action-free DROID video cotraining 进一步提升；LIBERO 平均成功率 0.79，高于 DP 0.71、PAD 0.57、GR1 0.58。
阅读时要注意的点	UWM 不是离散 token 扩散，而是连续 latent image/action diffusion；核心创新是独立 modality timestep 带来的条件/边缘化控制和 action-free video training。

难度评级：★★★★☆。需要理解 DDPM、conditional diffusion、Diffusion Policy、world model、inverse dynamics、latent diffusion 和机器人预训练/微调实验协议。

关键词：Unified World ModelAction DiffusionVideo DiffusionIndependent TimestepsAction-Free Videos

核心贡献清单

统一 policy 与 world modeling。UWM 用一个模型覆盖 $p(a|o)$、$p(o'|o,a)$、$p(a|o,o')$、$p(o'|o)$，把 imitation learning 和 world model 的范式连接起来。
独立 diffusion timesteps。和 PAD 的 shared timestep 不同，UWM 独立采样/设置 $t_a$ 和 $t_{o'}$，从而实现变量的 conditioning 或 marginalization。
利用 action-free video。对无动作视频把 $t_a=T$，用高斯噪声补动作，仍使用同一个训练 objective，使视频数据能进入 policy pretraining。
真实与模拟验证。作者在 DROID setup 的五个真实任务、LIBERO OOD 任务、forward/inverse dynamics、OOD 分类评估、from-scratch vs pretraining 和 Internet video cotraining 上验证设计。

Figure 1. UWM 可以通过控制 action/video diffusion timesteps 在 policy、forward dynamics、inverse dynamics 和 video prediction 之间切换。

2. 动机

2.1 要解决的问题

行为克隆和 Diffusion Policy 已经证明，只要有高质量专家演示，就能学到可靠的 manipulation policy。但机器人数据收集昂贵，且 policy 通常只学习从 observation 到 action 的映射，不显式建模“动作会如何改变未来观测”。另一方面，世界模型和视频模型能学习动态，但视频常没有动作标签，难以直接用来训练 policy。

2.2 已有方法的局限

普通 imitation learning：依赖 action-labeled expert demonstrations，难以利用 action-free videos；OOD 条件下容易脆弱。
单独 world model：可以预测未来图像，但如何转化为更好的 action policy 并不直接。
PAD 类 joint video-action diffusion：共享同一个 timestep 生成 action 和 video，只能从 joint distribution 采样，缺少灵活的 marginal/conditional inference。

2.3 本文解决思路

作者的关键 insight 是把 diffusion timestep 看作连续版 masking：$t$ 越接近 $T$，变量越像被完全 mask；$t$ 越接近 $0$，变量越接近干净输入。于是只要给 action 和 future observation 各自独立 timestep，就能在推理时把某个变量“遮掉”做 marginalization，或固定为干净值做 conditioning。

3. 相关工作脉络

方向	论文中的定位	UWM 的差异
Imitation Learning	BC、BET/VQ-BET、ACT、Diffusion Policy 等方法拟合专家动作分布。	UWM 不只拟合 $p(a\|o)$，还用未来图像预测提供动态监督。
Learning from Videos	从 human videos 或 robot videos 中提取 keypoints、tracks、hand/contact 或做 video pretraining。	UWM 通过 $t_a=T$ 直接把 action-free video 纳入同一个扩散 objective。
Joint video-action models	GR1 回归未来图像与动作，PAD 使用 joint video-action diffusion。	UWM 的核心区别是 action/video timesteps 独立，支持 policy、forward、inverse、video 四种 inference。
Unified Inference	UniMask、UniDiffuser 等展示通过 mask/条件控制一个模型的多种边缘/条件分布。	UWM 把这种思想落到机器人 action + future observation 的连续扩散建模中。

4. 方法详解

4.1 问题设定

有两类数据：带动作专家数据 $\mathcal{D}_e=\{(o_i,a_i,o'_i)\}_{i=1}^N$，以及无动作视频数据 $\mathcal{D}_{af}=\{(o_i,o_{i+1})\}_{i=1}^M$。模型希望从同一套机制中得到四种分布：

模式	分布	用途
Policy	$p(a\|o)$	给定当前观测，采样要执行的动作。
Forward dynamics	$p(o'\|o,a)$	给定动作，预测下一观测。
Inverse dynamics	$p(a\|o,o')$	给定目标下一观测，推断如何到达。
Video prediction	$p(o'\|o)$	不指定动作，预测未来观测。

4.2 Coupled Video-Action Diffusion

UWM 的 score/noise prediction network 输入当前观测 $o$、带噪动作 $a_{t_a}$、带噪下一观测 $o'_{t_{o'}}$、动作 timestep $t_a$ 和下一观测 timestep $t_{o'}$，输出两个噪声预测 $\epsilon_a^\theta,\epsilon_{o'}^\theta$。

训练时让模型见到 action 和 future observation 的所有噪声组合，因此它既会“看图预测动作”，也会“看动作预测未来图像”，还能在两者都带噪时共享信息。

$$\ell(\theta)= \mathbb{E}\left[ w_a\|\epsilon_a^\theta-\epsilon_a\|_2^2+ w_{o'}\|\epsilon_{o'}^\theta-\epsilon_{o'}\|_2^2 \right]$$ $$\epsilon_a^\theta,\epsilon_{o'}^\theta=s_\theta(o,a_{t_a},o'_{t_{o'}},t_a,t_{o'})$$

$a_{t_a}$	动作 chunk 加噪后的版本，$a_{t_a}=\sqrt{\bar\alpha_{t_a}}a+\sqrt{1-\bar\alpha_{t_a}}\epsilon_a$。
$o'_{t_{o'}}$	下一观测 latent 加噪后的版本，$o'_{t_{o'}}=\sqrt{\bar\alpha_{t_{o'}}}o'+\sqrt{1-\bar\alpha_{t_{o'}}}\epsilon_{o'}$。
$w_a,w_{o'}$	动作 loss 和图像 loss 的权重；附录超参表中二者都为 1.0。

Figure 2. UWM 训练和推理流程：robot data 随机采样 $t_a,t_{o'}$；video data 固定 $t_a=T$；推理时用 timestep 控制 marginal/conditional inference。

4.3 四种推理模式

推理模式	timestep 设置	含义
Policy $p(a\|o)$	$t_{o'}=T$，$o'_T\sim\mathcal{N}(0,I)$；对 $a$ 反向扩散。	把未来观测边缘化，只生成动作。
Video prediction $p(o'\|o)$	$t_a=T$，$a_T\sim\mathcal{N}(0,I)$；对 $o'$ 反向扩散。	把动作边缘化，只预测未来视频。
Forward dynamics $p(o'\|o,a)$	$t_a=0$，$a_0=a$；对 $o'$ 反向扩散。	把动作作为干净条件，预测下一观测。
Inverse dynamics $p(a\|o,o')$	$t_{o'}=0$，$o'_0=o'$；对 $a$ 反向扩散。	把目标下一观测作为干净条件，生成动作。

4.4 Architecture

UWM 使用 diffusion transformer + AdaLN conditioning。当前观测由 ResNet-18 编码；$t_a,t_{o'}$ 用 sinusoidal timestep encoder 编码；图像 diffusion 采用 latent diffusion，原始 $224\times224\times3$ 图像经 frozen SDXL VAE 编成 $28\times28\times4$ latent，再用 $(4,4,2)$ spatiotemporal patchifier 切成 patch embeddings。动作 chunk 每步用浅 MLP 编码，和 image patch embeddings、learnable register tokens 拼接后输入 transformer。

Figure 3. UWM block：AdaLN 注入当前观测和两个 timestep；register tokens 用于跨模态信息交换。

Figure 4. Forward dynamics 可视化：给定当前观测和动作，预测下一观测与真实下一观测接近。

4.5 训练与实现细节

附录 Implementation 给出关键超参：observation length $h_o=2$，action length $h_a=16$，rollout length $h'_a=8$，embed dim 768，12 层 transformer，12 heads，8 个 registers；训练 diffusion steps 100，推理 steps 10，DDIM sampler；batch size 为 36×4 pretraining、36×2 finetuning；AdamW，learning rate $10^{-4}$，weight decay $10^{-6}$。

训练 100K steps DROID pretraining 使用 4 张 NVIDIA A100，约 24 小时。部署时执行前 $h'_a=8$ 个动作预测后 replan。

Algorithm: UWM training step Input: robot tuple (o, a, o') or action-free video tuple (o, o') if robot tuple: sample t_a ~ U(0,T), t_o' ~ U(0,T) noise action a -> a[t_a] noise future obs o' -> o'[t_o'] optimize action noise loss + image noise loss if action-free video tuple: set t_a = T impute missing action with Gaussian noise sample t_o' ~ U(0,T) optimize same UWM objective

5. 实验与结果

5.1 实验设置

真实机器人实验使用 Franka Panda 和 DROID manipulation platform。观测包括两个 scene cameras 和一个 wrist camera，另加 overhead evaluation camera 用于对齐初始化；控制频率 10 Hz；动作空间是 delta end-effector pose 加连续 gripper 状态。

Figure 5. 真实机器人预训练/微调数据：DROID 中 2000 条带动作轨迹用于 pretraining，另 2000 条去掉动作作为 cotraining videos。

Figure 6. 真实机器人相机设置：两个 scene cameras、一个 wrist camera、一个 evaluation camera。

五个真实任务分别是 Stack-Bowls、Block-Cabinet、Paper-Towel、Hang-Towel、Rice-Cooker。前四个任务评估 50 个初始化，Rice-Cooker 因难度高只评估 20 个接近数据分布的初始化；每个初始化给每个方法 3 次尝试。

Figure 7. 五个真实任务的 start/end/OOD 设置。OOD 主要加入未见干扰物、打开抽屉/柜门等视觉扰动。

5.2 Real Robot Results

任务	UWM Pretrain / Cotrain	最佳基线表现概览
Stack-Bowls ID / OOD	0.86 / 0.92；0.76 / 0.84	GR1 pretrain 0.66/0.48；DP 0.48/0.36；PAD 很低。
Block-Cabinet ID / OOD	0.76 / 0.84；0.60 / 0.72	GR1 cotrain 0.74/0.64 最接近；DP OOD 0.26。
Paper-Towel ID / OOD	0.78 / 0.86；0.78 / 0.84	GR1 pretrain 0.60/0.60；DP 0.52/0.48。
Hang-Towel ID / OOD	0.82 / 0.86；0.64 / 0.76	GR1 0.66/0.48；DP 0.64/0.28。
Rice-Cooker ID	0.60 / 0.65	GR1 pretrain 0.40，cotrain 0.25；DP 0.35；PAD 0。

Figure 8. 真实机器人平均成功率。UWM pretraining 已优于基线，action-free video cotraining 进一步提升。

论文对真实结果的解释是：UWM 通过 action/video feature sharing 和对不同 conditional/marginal distributions 的训练，学习了动作与图像观测之间的因果关系。GR1 是较强回归式 baseline，但视频 cotraining 有时稀释 action learning signal；PAD 性能差被作者归因于 raw-pixel concatenation conditioning 在同等模型容量下较难。

5.3 LIBERO Simulation

模拟实验使用 LIBERO-100：LIBERO-90 的 4500 条轨迹做预训练，随机选 LIBERO-10 中 5 个任务做评估，每个任务用 50 个 expert demos 微调。作者扩大物体初始化范围 0.03 并移除背景物体制造 OOD。

Figure 9. LIBERO 预训练与微调任务：Book-Caddy、Soup-Cheese、Bowl-Drawer、Moka-Moka、Mug-Mug。

方法	Book-Caddy	Soup-Cheese	Bowl-Drawer	Moka-Moka	Mug-Mug	Average
UWM	0.91 ± 0.07	0.93 ± 0.01	0.80 ± 0.02	0.68 ± 0.02	0.65 ± 0.01	0.79 ± 0.11
DP	0.73 ± 0.10	0.88 ± 0.02	0.77 ± 0.02	0.65 ± 0.03	0.53 ± 0.05	0.71 ± 0.12
PAD	0.78 ± 0.04	0.47 ± 0.04	0.74 ± 0.05	0.59 ± 0.08	0.25 ± 0.04	0.57 ± 0.19
GR1	0.77 ± 0.03	0.65 ± 0.05	0.62 ± 0.03	0.46 ± 0.04	0.38 ± 0.05	0.58 ± 0.14

5.4 Analysis and Ablations

实验	设置	结果/结论
Forward dynamics	固定 $t_a=0$，使用 ground-truth actions，diffuse future observations。	可视化显示 predicted next obs 接近 true next obs，说明条件动态建模有效。
Inverse dynamics tracking	给定专家未来观测，使用 inverse dynamics 生成动作跟踪轨迹。	trajectory length 限制下，Book-Caddy policy 0.47 vs inverse 0.65；Soup-Cheese policy 0.26 vs inverse 0.55。
Categorized OOD	Stack-Bowls / Block-Cabinet 的 lighting、background、clutter。	Stack-Bowls：UWM cotrain 21/30，pre 15/30，DP 12/30；Block-Cabinet：15/30，8/30，6/30。
Registers	8 registers / 4 registers / no registers / cross-attention UWM。	Book-Caddy 0.88 / 0.83 / 0.81 / 0.78；Soup-Cheese 0.90 / 0.86 / 0.85 / 0.86。
Learning objective	future obs reconstruction vs current obs reconstruction vs no reconstruction。	Stack-Bowls 0.86 / 0.70 / 0.48；Block-Cabinet 0.76 / 0.66 / 0.60，证明动态预测比纯当前图像重建更有用。
Internet videos	robot data + robot videos / robot data + Internet videos / robot data only。	Stack-Bowls 0.92 / 0.88 / 0.86；Block-Cabinet 0.84 / 0.80 / 0.76。互联网视频有提升，但不如 in-domain robot videos。

Figure 10. 分类 OOD：lighting、background、clutter。

Figure 11. From scratch vs pretrained：UWM 和 DP 从零训练相近，但 UWM 从预训练中获益更多。

Figure 12. 机器人视角：ID、standard OOD 和 categorized OOD 条件下的相机观测。

Figure 13. Internet video dataset 来自 Kinetics-400 和 Something-Something-v2。

Figure 14. 真实机器人评估 tracker：叠加参考初始帧和当前帧以系统化对齐随机初始化。

6. 论文内分析与讨论

6.1 作者给出的核心解释

额外监督来自同一数据。UWM 不只是从 demonstration 中学动作，还要预测 future observations，因此从同一条轨迹中获得更多动态监督。
独立 timestep 让模型学习因果关系。训练时随机组合 $t_a,t_{o'}$，模型要在不同噪声/遮挡条件下恢复 action 和 future observation，因此接触到不同 marginal/conditional distributions。
视频 cotraining 的自然入口。无动作视频只需把动作 timestep 固定为 $T$，不需要额外架构或专门伪动作标注。
真实世界优于模拟的提升更明显。作者认为当前模拟动态较简单，因此 OOD 改善幅度小于真实世界。

6.2 失败模式

附录 Real-World Failure Modes 指出：多相机仍可能存在某些物体只被一个相机看到的困难视角；物体行为本身也会造成失败，例如 Paper-Towel 放到木平台后角度不好会倒，Stack-Bowls 中基线会在拿起粉色碗后混淆蓝色碗和干扰物。

7. 分析、局限与边界

7.1 这篇论文最有价值的地方

最有价值的是把“用视频学动态”和“用演示学动作”合并成一个可控的连续扩散概率模型，而不是再加一个独立 video predictor。通过独立 $t_a,t_{o'}$，UWM 让 policy、forward dynamics、inverse dynamics、video prediction 都是同一个训练目标的不同推理切片。这直接解释了为什么 action-free video 可以进入训练：缺失动作在扩散意义上就是 $t_a=T$ 的完全噪声变量。

7.2 结果为什么站得住

证据链比较完整：真实机器人任务覆盖刚体、可变形物体和长时序任务；每个任务都有 ID/OOD；DROID robot video cotraining 和 Internet video cotraining 都单独验证；LIBERO 提供标准模拟 benchmark；forward/inverse dynamics 展示 UWM 不是只改善 policy 分数，而确实能在不同 inference mode 下工作。消融进一步表明 future obs reconstruction、registers 和 AdaLN conditioning 都有定量贡献。

7.3 作者自述局限

还没有真正利用大规模人类视频。作者明确说尚未解决 embodiment gap；Internet videos 实验只是 Kinetics-400/SSV2 混合的初步验证。
Forward dynamics reconstruction 有伪影。作者认为这些 artifacts 可能降低用模型做 planning 的效果，需要吸收生成模型领域的新进展。
需要更密集的视频预测。论文预计更 dense 的 video prediction 可能进一步提升性能。
真实任务仍是受控平台。DROID setup、Franka Panda、5 个任务和有限 demo 数支持结论，但不等于已证明跨 embodiment 大规模泛化。

7.4 适用边界

UWM 适合有 action-labeled robot trajectories，并希望同时利用额外 action-free robot/video data 的场景。它假设 observation/action/future observation 能被连续扩散建模，并且未来图像可作为有用动态监督。对于需要长时间规划、多机器人形态迁移、高精度接触力控制或人类视频到机器人动作的大跨度迁移，论文还没有给出充分证据。

8. 可复现性审计

复现要素	论文/项目给出的信息	审计状态
代码	Project page 提供官方 GitHub：WEIRDLabUW/unified-world-model。	已找到
源码和图表	arXiv 提供 LaTeX 源码和 14 张独立 PDF 图；本报告已全部转换为 PNG。	可检查
数据	DROID、LIBERO、Kinetics-400、Something-Something-v2 为公开数据；真实任务 finetuning demos 为作者自采。	部分可复现
模型结构	ResNet-18、SDXL VAE、DiT/AdaLN、12 层 12 heads、8 registers、action/image latent shapes 均给出。	较完整
训练配置	100K pretraining、10K/20K/50K finetuning、DDIM 10 inference steps、AdamW、batch/lr/weight decay 给出。	较完整
真实评估	任务定义、demo 数、评估条件数、3 attempts per initialization、OOD 设置和失败模式给出。	较完整

报告覆盖自检：Abstract、Introduction、Preliminaries、Method、Experiments、Related Work、Discussion、Limitations、Acknowledgements 和四个 Appendix 文件均已覆盖；附录实现细节、真实/模拟设置、额外消融和 Internet video 实验已整合到对应章节。