Fast-WAM: Do World Action Models Need Test-time Future Imagination?

方法名：Fast-WAM

作者：Tianyuan Yuan, Zibin Dong, Yicheng Liu, Hang Zhao

arXiv：2603.16666；v1 提交于 2026-03-17，v2 更新于 2026-03-23；方向：Computer Vision and Pattern Recognition, Artificial Intelligence

链接：arXiv 摘要页 | PDF | HTML | 项目页 | 官方代码

1. 论文速览

一句话总结：Fast-WAM 的结论很尖锐：World Action Model 的主要收益可能不是推理时真的“想象未来视频”，而是训练时做 video co-training 学到了更好的世界表征；因此它保留训练时未来视频建模，但推理时删除未来视频分支，直接从当前观测的 latent world representation 生成动作。

论文要解决什么	现有 WAM 常采用 imagine-then-execute：先迭代生成未来视觉，再根据未来视觉预测动作。这带来很高 test-time latency，但到底是“训练时的视频建模”有用，还是“推理时显式未来想象”有用，并不清楚。
作者的方法抓手	构造 Fast-WAM 和三个受控变体：Fast-WAM-Joint、Fast-WAM-IDM、Fast-WAM w.o. video co-train，在统一 backbone/训练配方下解耦 video co-training 与 test-time future generation。
最重要的结果	Fast-WAM 在 RoboTwin 2.0 达 91.8%，LIBERO 平均 97.6%，无 embodied pretraining；去掉 video co-training 后分别掉到 83.8% 和 93.5%。真实毛巾折叠任务中，Fast-WAM 延迟 190 ms，而 Fast-WAM-IDM 为 810 ms；no-video-co-train 仅 10% 成功率。
阅读时要注意的点	Fast-WAM 不是否定 world model，而是在重新定位 world model 的作用：它也许更像训练阶段的 representation shaping signal，而不是部署时必须显式生成的视频计划。

难度评级：★★★★☆。需要理解 WAM/VLA、video diffusion transformer、flow matching、action chunk diffusion、attention mask 防止 future leakage，以及仿真/真实机器人评估。

关键词：World Action Model, video co-training, test-time future imagination, flow matching, Mixture-of-Transformer, Wan2.2-5B, LIBERO, RoboTwin, towel folding。

Figure 1. 三类 WAM 范式：(A) future video/action joint denoising；(B) 先生成未来视频，再用 inverse dynamics/action predictor；(C) Fast-WAM 训练时保留 video co-training，推理时直接从当前 latent world representation 出动作。

2. 动机

2.1 WAM 的吸引力与代价

标准 VLA 直接把视觉观测和语言映射到动作，主要继承 web-scale 视觉语言预训练的语义先验。但机器人控制还需要理解物理世界如何在动作下演化。WAM 的吸引力在于把未来视觉预测和动作建模放进同一框架，让策略显式接触 task-relevant temporal structure。

问题是，大多数 WAM 在推理时要迭代 denoise 未来视频，再根据这个 imagined future 生成动作。视频 diffusion 的迭代采样非常贵，真实机器人闭环里每多几百毫秒都可能让策略变慢、变钝。

2.2 论文真正问的问题

核心问题：WAM 的收益来自哪里？是训练时预测未来视频让 backbone 学到了物理/运动表征，还是推理时显式生成未来观察真的给了动作预测必要 foresight？

这个问题过去难回答，因为很多 WAM 把两个因素绑在一起：同一个模型既在训练时学视频预测，也在测试时生成未来视频。Fast-WAM 的贡献是把这两件事拆开，用控制变量实验判断谁更重要。

3. 相关工作脉络

技术线	代表思路	Fast-WAM 的定位
Vision-Language-Action policies	OpenVLA、$\pi_0$、$\pi_{0.5}$、GR00T、RDT、SmolVLA 等直接从视觉/语言生成动作。	Fast-WAM 推理接口接近 VLA：不显式生成未来视频；但训练时额外使用 WAM-style future visual prediction。
World Action Models / video-based robot policies	通过未来视频生成、joint video-action modeling 或 inverse dynamics 从视觉预测中得到动作。	本文不提出又一个 imagine-then-execute pipeline，而是问这些 pipeline 的收益到底来自训练目标还是测试时想象。
减少 test-time video synthesis	VPP 用 video diffusion 的 predictive representation；UVA joint modeling 后跳过 decoding。	Fast-WAM 的差异是做受控变体，把 video co-training 和 explicit future imagination 分离，比较二者贡献。

4. 方法详解

4.1 问题形式化

设当前观测为 $o$，任务语言为 $l$，动作 chunk 为 $a_{1:H}$。标准 visuomotor policy 学：

$$p(a_{1:H}\mid o,l).$$

典型 imagine-then-execute WAM 引入未来视觉 $v_{1:T}$，写成：

$$p(a_{1:H}\mid o,l)=\int p(v_{1:T}\mid o,l)\,p(a_{1:H}\mid o,l,v_{1:T})\,dv_{1:T}.$$

直觉：先想象未来，再根据想象生成动作。代价是推理时要采样或 denoise $v_{1:T}$。

Fast-WAM 改成直接策略接口：

$$p_\theta(a_{1:H}\mid o,l)=p_\theta(a_{1:H}\mid z(o,l)),$$

其中 $z(o,l)$ 是 video backbone 对当前 context 单次前向得到的 latent world representation。关键差异：$z(o,l)$ 不是推理时生成的未来视频，而是训练时被 video co-training 塑形过的当前表示。

4.2 架构：Wan2.2 video DiT + action expert DiT

Figure 2a. Fast-WAM 架构：Wan2.2-5B video DiT 作为 world modeling backbone，T5 编码语言，video VAE 编码多相机图像 latent；action expert DiT 生成动作 chunk。

模型输入 token 分三组：

clean first-frame latent tokens：当前观测的干净 latent，是共享视觉锚点。
noisy future video latent tokens：只在训练时存在，用于 future video flow matching。
action tokens：由 action expert 处理，用于动作 chunk generation。

所有 token 通过 cross-attention 接收语言 embedding。视频和动作分支之间采用 Mixture-of-Transformer 结构，并用 structured attention mask 控制信息流。

4.3 注意力 mask：既共享 context，又防止 future leakage

Figure 2b. 训练/推理 mask：action tokens 能看当前 clean first-frame tokens，但不能看未来 noisy video tokens；first-frame tokens 不看其他 token，防止未来信息反向污染当前锚点。

训练时，future video tokens 在 video branch 内双向 attention，并可访问 first-frame tokens；action tokens 在 action branch 内双向 attention，也可访问 first-frame tokens。最关键约束是 action tokens 不能 attend to future video tokens。这样视频建模和动作预测都依赖同一个当前视觉 context，但动作不会偷看 ground-truth future。

推理时，future video branch 被整个删除：只保留 first-frame latent tokens，video backbone 单次前向产生 latent world features，再给 action expert 做 action denoising。

4.4 训练目标：action loss + video co-training loss

Fast-WAM 对动作和视频都使用同一个 flow matching 形式。对任意目标变量 $y$，可以是动作 chunk $a_{1:H}$ 或未来视频 latents $z_{1:T}$，采样噪声 $\epsilon\sim\mathcal{N}(0,I)$ 和时间步 $t\in(0,1)$：

$$y_t=(1-t)y+t\epsilon.$$

训练模型预测从数据到噪声的速度场：

$$\mathcal{L}_{\mathrm{FM}}(y)= \mathbb{E}_{y,\epsilon,t} \left[ \left\|f_\theta(y_t,t,o,l)-(\epsilon-y)\right\|_2^2 \right].$$

动作和视频分别为：

$$\mathcal{L}_{\mathrm{act}}=\mathcal{L}_{\mathrm{FM}}(a_{1:H}),\qquad \mathcal{L}_{\mathrm{vid}}=\mathcal{L}_{\mathrm{FM}}(z_{1:T}).$$

总损失：

$$\mathcal{L}=\mathcal{L}_{\mathrm{act}}+\lambda\mathcal{L}_{\mathrm{vid}}.$$

直觉：$\mathcal{L}_{\mathrm{vid}}$ 不一定为了推理时生成视频，而是作为 world representation regularizer / co-training signal。

4.5 三个受控变体

变体	训练时 video co-training	推理时 future imagination	作用
Fast-WAM	有	无	主方法：保留训练信号，删除推理成本。
Fast-WAM-Joint	有	有，video/action joint denoising	模拟 joint-modeling WAM，让 video 与 action tokens 互相 attention。
Fast-WAM-IDM	有	有，video-then-action	先生成未来 video，再用 future representation 预测动作；按 LingBot-VA 做 ground-truth video token noise augmentation，$p=0.5$。
Fast-WAM w.o. video co-train	无	无	只去掉 $\mathcal{L}_{\mathrm{vid}}$，控制 video co-training 的贡献。

5. 实验

5.1 实现细节

Backbone：Wan2.2-5B，包括 video DiT、T5 text encoder 和 video VAE。
Action expert：与 video branch 同构但 hidden dimension 降到 $d_a=1024$；action expert 约 1B，总模型约 6B 参数。
Action horizon：$h=32$。
Video chunk：视频帧时间下采样 $4\times$，每个 chunk 9 帧；多相机图像先拼成一张图再送入 VAE。
Flow matching：训练/推理使用 logit-normal $t$ schedule；推理 action denoising 10 steps，CFG scale 1.0。
优化：AdamW，learning rate $1\times10^{-4}$，weight decay 0.01，cosine annealing，mixed precision，gradient clipping 1.0。
延迟测量：单张 NVIDIA RTX 5090D V2 32GB。

5.2 Benchmark 设置

Benchmark	数据与训练	评估
LIBERO	四个 suites：Spatial、Object、Goal、Long；每个 suite 10 tasks、500 demos；训练 20k steps。	40 tasks、不同随机种子，总计 2000 trials，报告 success rate。
RoboTwin 2.0	50+ 双臂任务；2500 clean demos + 25000 heavy-randomization demos；训练 30k steps。	每个任务 100 trials，报告 clean 和 randomized 平均成功率。
Real-world towel folding	Galaxea R1 Lite 平台，60 小时 teleoperated demonstrations；训练 30k steps。	报告 success rate 和 average completion time；毛巾折叠考验 deformable object dynamics、长时程规划和闭环操作效率。

Figure 3. 真实毛巾折叠任务。作者强调 completion time 与 success rate 同等重要，因为慢速反复试错的成功并不代表好策略。

5.3 RoboTwin 2.0 主结果

Method	Embodied PT.	Clean	Rand.	Average
$\pi_0$	Yes	65.92	58.40	62.2
$\pi_{0.5}$	Yes	82.74	76.76	79.8
Motus	Yes	88.66	87.02	87.8
Motus from WAN2.2	No	77.56	77.00	77.3
LingBot-VA	Yes	92.90	91.50	92.2
LingBot-VA from WAN2.2	No	80.60	--	80.6
Fast-WAM	No	91.88	91.78	91.8

Fast-WAM 没用 embodied pretraining，却达到 91.8%，明显超过同样无 embodied pretraining 的 Motus from WAN2.2 (77.3) 和 LingBot-VA from WAN2.2 (80.6)，接近带 embodied pretraining 的 LingBot-VA (92.2)。附录 Table 3 给了 RoboTwin 每任务 clean/rand 明细；整体看，Fast-WAM 在许多任务上与最强 baseline 互有胜负，但 no-video-co-train 的平均值显著低附录 Table 3。

5.4 LIBERO 主结果

Method	Embodied PT.	Spatial	Object	Goal	Long	Average
OpenVLA	Yes	84.7	88.4	79.2	53.7	76.5
$\pi_0$	Yes	96.8	98.8	95.8	85.2	94.1
$\pi_{0.5}$	Yes	98.8	98.2	98.0	92.4	96.9
LingBot-VA	Yes	98.5	99.6	97.2	98.5	98.5
Motus	Yes	96.8	99.8	96.6	97.6	97.7
Fast-WAM	No	98.2	100.0	97.0	95.2	97.6

LIBERO 上 Fast-WAM 平均 97.6%，超过 $\pi_{0.5}$ 的 96.9，并接近 Motus/LingBot-VA。它没有 embodied pretraining，这是作者强调的数据效率点。

5.5 控制变量：未来想象 vs video co-training

Variant	RoboTwin Avg.	LIBERO Avg.	解释
Fast-WAM	91.8	97.6	训练有 video co-training，推理无 future imagination。
Fast-WAM-Joint	90.6	98.5	joint denoise future video/action，显式推理想象。
Fast-WAM-IDM	91.3	98.0	先生成 future video，再 action prediction。
Fast-WAM w.o. video co-train	83.8	93.5	推理同 Fast-WAM，但训练去掉 video modeling objective。

这是论文的关键证据：Fast-WAM 与两个 imagine-then-execute 变体的差距很小；但去掉 video co-training 后掉得更明显。RoboTwin 从 91.8 掉到 83.8，LIBERO 从 97.6 掉到 93.5，并且 LIBERO Spatial/Long 掉得尤其明显。作者据此认为，WAM 的主要价值更可能来自训练时的视频预测目标，而不是推理时真的生成未来视频。

5.6 真实毛巾折叠：性能与延迟

Figure 4. 真实毛巾折叠结果：左图越靠左上越好；右图给出推理延迟。Fast-WAM 为 190 ms，Fast-WAM-IDM 为 810 ms，Fast-WAM-Joint 为 580 ms。图中还显示 no-video-co-train 成功率约 10%，且 completion time 最长。

真实任务中，预训练 $\pi_{0.5}$ 仍是最强方法，成功率最高且 completion time 最短。Fast-WAM family 之间性能相近：Fast-WAM-IDM 成功率最高，Fast-WAM completion time 更好。更重要的是，所有带 video co-training 的 Fast-WAM 变体都明显强于无 pretraining 的 $\pi_{0.5}$，而 no-video-co-train 崩到 10% success。这再次支持 video co-training 是主因。

延迟上，Fast-WAM 190 ms，与 no-video-co-train 的 190 ms 相同量级；Fast-WAM-Joint 580 ms，Fast-WAM-IDM 810 ms。Fast-WAM 因此成为一个更好的部署折中点：保留大部分 WAM 性能，但避免显式未来视频采样开销。

6. 可复现审计

6.1 复现所需组件

组件	论文信息	复现注意
Backbone	Wan2.2-5B video DiT + T5 text encoder + video VAE。	需要可加载 Wan2.2-5B；显存/参数规模较高。
Action expert	DiT，同构于 video branch，hidden dim 1024，约 1B。	动作 token、时间步 embedding、cross-attention 与 video branch 对齐要谨慎。
训练目标	$\mathcal{L}_{act}+\lambda\mathcal{L}_{vid}$。	论文未在正文明确给出 $\lambda$ 数值，复现实验需从代码或默认配置确认。
数据	LIBERO、RoboTwin 2.0、真实 Galaxea R1 Lite 毛巾折叠 60 小时数据。	仿真可复现性高；真实数据和硬件更难完全复现。
延迟测量	单张 NVIDIA RTX 5090D V2 32GB。	跨 GPU 延迟不可直接比较；要报告 action denoising steps 和 batch 设置。

6.2 最小复现路线

先在 LIBERO 上实现 Fast-WAM w.o. video co-train：只用当前 first-frame latent + language + action DiT，跑通 action flow matching。
加入 future video latent branch 和 $\mathcal{L}_{vid}$，但保持 action tokens 不能看 future video tokens，验证 Fast-WAM 是否提升。
实现 Fast-WAM-Joint：放开 action/video tokens 的相互 attention，测试是否接近 Fast-WAM。
实现 Fast-WAM-IDM：先生成 future video representation，再 condition action；注意使用 $p=0.5$ ground-truth video token noise augmentation。
复现 LIBERO 表格，再迁移到 RoboTwin 多任务训练；最后才考虑真实毛巾折叠。
延迟评估必须单独做：Fast-WAM 无 future branch，但仍有 action denoising 10 steps；IDM/Joint 的额外开销来自未来视频生成/联合采样。

6.3 复现风险点

风险	为什么重要	建议
$\lambda$ 未在正文给出	video co-training 强弱直接影响结论。	优先查官方代码配置；如果没有，做 $\lambda$ sweep。
mask 实现容易泄漏 future	若 action tokens 能看 ground-truth future video，结果会虚高。	写单元测试检查 attention mask 可达性。
多相机拼图输入细节	多 camera concat 到单图后进 VAE，影响 token layout。	保持相机顺序、分辨率、crop/resize 一致。
真实毛巾数据不可公开验证	60 小时 teleoperation 和硬件平台影响很大。	把真实结果视为部署证据，结构性结论主要看仿真控制变量。
预训练公平性	不同 baseline 使用 embodied pretraining 与否混在同表。	阅读时分组比较：同为 no embodied PT 的方法最公平。

7. 分析、局限与边界

7.1 这篇论文最有价值的地方

最有价值的是问题拆解本身。很多 WAM 论文默认“生成未来视频”是必要步骤，但 Fast-WAM 把它拆成训练目标和推理机制两个因素，并用同一框架里的变体验证。这个实验设计比单纯提出一个新模型更有启发性：它告诉我们 world model 的价值可能主要体现在训练表征，而不是部署时显式想象。

第二个价值点是部署导向。190 ms vs 580/810 ms 的差距对真实机器人很现实。Fast-WAM 让 WAM 接近 VLA 的推理接口，同时保留 WAM 训练信号，这是一个很实用的折中。

7.2 结果为什么站得住

控制变量清楚：Fast-WAM、Joint、IDM、no-co-train 的 backbone 和训练 recipe 尽量对齐。
跨 benchmark 一致：RoboTwin、LIBERO、真实毛巾折叠都显示 video co-training drop 大于 future imagination variant gap。
效率指标明确：真实任务不仅报告 success，也报告 completion time 和 latency。
附录细粒度支持：RoboTwin per-task table 显示提升不是只来自少数任务，no-co-train 的平均下降在 clean/rand 都明显。

7.3 局限与需要追问的点

问题	影响
结论是“future imagination 不那么关键”，不是“完全没用”	LIBERO 上 Joint/IDM 仍略高于 Fast-WAM；真实任务 Fast-WAM-IDM 成功率最高。只是它们的增益是否值得延迟成本，要看部署场景。
只研究 single action chunk	作者为控制变量省略 outer autoregressive rollout；更长任务中显式未来想象是否更有用仍需验证。
真实任务只有毛巾折叠	deformable object 很有挑战，但单一真实任务不足以覆盖全部机器人操作。
模型规模很大	6B 模型 + Wan2.2-5B backbone，复现和部署门槛高。
训练细节仍依赖代码	正文给了大部分优化参数，但 $\lambda$ 等关键配置需要查官方代码。

7.4 组会可追问的问题

如果任务需要显式中间子目标，例如复杂装配或导航，test-time future imagination 是否会重新变得重要？
Fast-WAM 的 video co-training 学到的 representation 到底编码了什么？能否用 probing/attention/feature prediction 证明它捕捉物理动态？
Action tokens 不能看 future video tokens，但 video branch 和 action branch 共享 first-frame anchor；这种 mask 是否是最优，还是有更细的 causal mask？
Wan2.2 是通用视频生成 backbone。换成机器人视频预训练 backbone 后，Fast-WAM 与 Joint/IDM 的差距会变大还是变小？
Fast-WAM 在真实任务中 completion time 优于 IDM，但 success rate 不一定最高。实际系统该如何在延迟、成功率和动作稳定性之间选点？

附：本报告覆盖检查

已覆盖：Abstract、Introduction、Related Work、Method、Experiment、Conclusion，以及 Appendix 的 RoboTwin per-task 结果。

图表处理：使用 arXiv HTML 渲染出的 PNG 图像与源码图片，保存在 figures/；关键表格已重建为 HTML。

残余风险：真实毛巾折叠训练数据不是公开 benchmark；完整复现仍依赖官方代码配置，尤其是 $\lambda$ 和具体数据处理。