中文 EN

Fast-WAM: Do World Action Models Need Test-time Future Imagination?

方法名:Fast-WAM

作者:Tianyuan Yuan, Zibin Dong, Yicheng Liu, Hang Zhao

arXiv:2603.16666;v1 提交于 2026-03-17,v2 更新于 2026-03-23;方向:Computer Vision and Pattern Recognition, Artificial Intelligence

链接:arXiv 摘要页 | PDF | HTML | 项目页 | 官方代码

1. 论文速览

一句话总结:Fast-WAM 的结论很尖锐:World Action Model 的主要收益可能不是推理时真的“想象未来视频”,而是训练时做 video co-training 学到了更好的世界表征;因此它保留训练时未来视频建模,但推理时删除未来视频分支,直接从当前观测的 latent world representation 生成动作。
论文要解决什么现有 WAM 常采用 imagine-then-execute:先迭代生成未来视觉,再根据未来视觉预测动作。这带来很高 test-time latency,但到底是“训练时的视频建模”有用,还是“推理时显式未来想象”有用,并不清楚。
作者的方法抓手构造 Fast-WAM 和三个受控变体:Fast-WAM-Joint、Fast-WAM-IDM、Fast-WAM w.o. video co-train,在统一 backbone/训练配方下解耦 video co-training 与 test-time future generation。
最重要的结果Fast-WAM 在 RoboTwin 2.0 达 91.8%,LIBERO 平均 97.6%,无 embodied pretraining;去掉 video co-training 后分别掉到 83.8% 和 93.5%。真实毛巾折叠任务中,Fast-WAM 延迟 190 ms,而 Fast-WAM-IDM 为 810 ms;no-video-co-train 仅 10% 成功率。
阅读时要注意的点Fast-WAM 不是否定 world model,而是在重新定位 world model 的作用:它也许更像训练阶段的 representation shaping signal,而不是部署时必须显式生成的视频计划。

难度评级:★★★★☆。需要理解 WAM/VLA、video diffusion transformer、flow matching、action chunk diffusion、attention mask 防止 future leakage,以及仿真/真实机器人评估。

关键词:World Action Model, video co-training, test-time future imagination, flow matching, Mixture-of-Transformer, Wan2.2-5B, LIBERO, RoboTwin, towel folding。

Three WAM paradigms
Figure 1. 三类 WAM 范式:(A) future video/action joint denoising;(B) 先生成未来视频,再用 inverse dynamics/action predictor;(C) Fast-WAM 训练时保留 video co-training,推理时直接从当前 latent world representation 出动作。

2. 动机

2.1 WAM 的吸引力与代价

标准 VLA 直接把视觉观测和语言映射到动作,主要继承 web-scale 视觉语言预训练的语义先验。但机器人控制还需要理解物理世界如何在动作下演化。WAM 的吸引力在于把未来视觉预测和动作建模放进同一框架,让策略显式接触 task-relevant temporal structure。

问题是,大多数 WAM 在推理时要迭代 denoise 未来视频,再根据这个 imagined future 生成动作。视频 diffusion 的迭代采样非常贵,真实机器人闭环里每多几百毫秒都可能让策略变慢、变钝。

2.2 论文真正问的问题

核心问题:WAM 的收益来自哪里?是训练时预测未来视频让 backbone 学到了物理/运动表征,还是推理时显式生成未来观察真的给了动作预测必要 foresight?

这个问题过去难回答,因为很多 WAM 把两个因素绑在一起:同一个模型既在训练时学视频预测,也在测试时生成未来视频。Fast-WAM 的贡献是把这两件事拆开,用控制变量实验判断谁更重要。

4. 方法详解

4.1 问题形式化

设当前观测为 $o$,任务语言为 $l$,动作 chunk 为 $a_{1:H}$。标准 visuomotor policy 学:

$$p(a_{1:H}\mid o,l).$$

典型 imagine-then-execute WAM 引入未来视觉 $v_{1:T}$,写成:

$$p(a_{1:H}\mid o,l)=\int p(v_{1:T}\mid o,l)\,p(a_{1:H}\mid o,l,v_{1:T})\,dv_{1:T}.$$

直觉:先想象未来,再根据想象生成动作。代价是推理时要采样或 denoise $v_{1:T}$。

Fast-WAM 改成直接策略接口:

$$p_\theta(a_{1:H}\mid o,l)=p_\theta(a_{1:H}\mid z(o,l)),$$

其中 $z(o,l)$ 是 video backbone 对当前 context 单次前向得到的 latent world representation。关键差异:$z(o,l)$ 不是推理时生成的未来视频,而是训练时被 video co-training 塑形过的当前表示。

4.2 架构:Wan2.2 video DiT + action expert DiT

Fast-WAM architecture
Figure 2a. Fast-WAM 架构:Wan2.2-5B video DiT 作为 world modeling backbone,T5 编码语言,video VAE 编码多相机图像 latent;action expert DiT 生成动作 chunk。

模型输入 token 分三组:

所有 token 通过 cross-attention 接收语言 embedding。视频和动作分支之间采用 Mixture-of-Transformer 结构,并用 structured attention mask 控制信息流。

4.3 注意力 mask:既共享 context,又防止 future leakage

Training and inference masks
Figure 2b. 训练/推理 mask:action tokens 能看当前 clean first-frame tokens,但不能看未来 noisy video tokens;first-frame tokens 不看其他 token,防止未来信息反向污染当前锚点。

训练时,future video tokens 在 video branch 内双向 attention,并可访问 first-frame tokens;action tokens 在 action branch 内双向 attention,也可访问 first-frame tokens。最关键约束是 action tokens 不能 attend to future video tokens。这样视频建模和动作预测都依赖同一个当前视觉 context,但动作不会偷看 ground-truth future。

推理时,future video branch 被整个删除:只保留 first-frame latent tokens,video backbone 单次前向产生 latent world features,再给 action expert 做 action denoising。

4.4 训练目标:action loss + video co-training loss

Fast-WAM 对动作和视频都使用同一个 flow matching 形式。对任意目标变量 $y$,可以是动作 chunk $a_{1:H}$ 或未来视频 latents $z_{1:T}$,采样噪声 $\epsilon\sim\mathcal{N}(0,I)$ 和时间步 $t\in(0,1)$:

$$y_t=(1-t)y+t\epsilon.$$

训练模型预测从数据到噪声的速度场:

$$\mathcal{L}_{\mathrm{FM}}(y)= \mathbb{E}_{y,\epsilon,t} \left[ \left\|f_\theta(y_t,t,o,l)-(\epsilon-y)\right\|_2^2 \right].$$

动作和视频分别为:

$$\mathcal{L}_{\mathrm{act}}=\mathcal{L}_{\mathrm{FM}}(a_{1:H}),\qquad \mathcal{L}_{\mathrm{vid}}=\mathcal{L}_{\mathrm{FM}}(z_{1:T}).$$

总损失:

$$\mathcal{L}=\mathcal{L}_{\mathrm{act}}+\lambda\mathcal{L}_{\mathrm{vid}}.$$

直觉:$\mathcal{L}_{\mathrm{vid}}$ 不一定为了推理时生成视频,而是作为 world representation regularizer / co-training signal。

4.5 三个受控变体

变体训练时 video co-training推理时 future imagination作用
Fast-WAM主方法:保留训练信号,删除推理成本。
Fast-WAM-Joint有,video/action joint denoising模拟 joint-modeling WAM,让 video 与 action tokens 互相 attention。
Fast-WAM-IDM有,video-then-action先生成未来 video,再用 future representation 预测动作;按 LingBot-VA 做 ground-truth video token noise augmentation,$p=0.5$。
Fast-WAM w.o. video co-train只去掉 $\mathcal{L}_{\mathrm{vid}}$,控制 video co-training 的贡献。

5. 实验

5.1 实现细节

5.2 Benchmark 设置

Benchmark数据与训练评估
LIBERO四个 suites:Spatial、Object、Goal、Long;每个 suite 10 tasks、500 demos;训练 20k steps。40 tasks、不同随机种子,总计 2000 trials,报告 success rate。
RoboTwin 2.050+ 双臂任务;2500 clean demos + 25000 heavy-randomization demos;训练 30k steps。每个任务 100 trials,报告 clean 和 randomized 平均成功率。
Real-world towel foldingGalaxea R1 Lite 平台,60 小时 teleoperated demonstrations;训练 30k steps。报告 success rate 和 average completion time;毛巾折叠考验 deformable object dynamics、长时程规划和闭环操作效率。
Real-world towel folding task
Figure 3. 真实毛巾折叠任务。作者强调 completion time 与 success rate 同等重要,因为慢速反复试错的成功并不代表好策略。

5.3 RoboTwin 2.0 主结果

MethodEmbodied PT.CleanRand.Average
$\pi_0$Yes65.9258.4062.2
$\pi_{0.5}$Yes82.7476.7679.8
MotusYes88.6687.0287.8
Motus from WAN2.2No77.5677.0077.3
LingBot-VAYes92.9091.5092.2
LingBot-VA from WAN2.2No80.60--80.6
Fast-WAMNo91.8891.7891.8

Fast-WAM 没用 embodied pretraining,却达到 91.8%,明显超过同样无 embodied pretraining 的 Motus from WAN2.2 (77.3) 和 LingBot-VA from WAN2.2 (80.6),接近带 embodied pretraining 的 LingBot-VA (92.2)。附录 Table 3 给了 RoboTwin 每任务 clean/rand 明细;整体看,Fast-WAM 在许多任务上与最强 baseline 互有胜负,但 no-video-co-train 的平均值显著低 附录 Table 3

5.4 LIBERO 主结果

MethodEmbodied PT.SpatialObjectGoalLongAverage
OpenVLAYes84.788.479.253.776.5
$\pi_0$Yes96.898.895.885.294.1
$\pi_{0.5}$Yes98.898.298.092.496.9
LingBot-VAYes98.599.697.298.598.5
MotusYes96.899.896.697.697.7
Fast-WAMNo98.2100.097.095.297.6

LIBERO 上 Fast-WAM 平均 97.6%,超过 $\pi_{0.5}$ 的 96.9,并接近 Motus/LingBot-VA。它没有 embodied pretraining,这是作者强调的数据效率点。

5.5 控制变量:未来想象 vs video co-training

VariantRoboTwin Avg.LIBERO Avg.解释
Fast-WAM91.897.6训练有 video co-training,推理无 future imagination。
Fast-WAM-Joint90.698.5joint denoise future video/action,显式推理想象。
Fast-WAM-IDM91.398.0先生成 future video,再 action prediction。
Fast-WAM w.o. video co-train83.893.5推理同 Fast-WAM,但训练去掉 video modeling objective。

这是论文的关键证据:Fast-WAM 与两个 imagine-then-execute 变体的差距很小;但去掉 video co-training 后掉得更明显。RoboTwin 从 91.8 掉到 83.8,LIBERO 从 97.6 掉到 93.5,并且 LIBERO Spatial/Long 掉得尤其明显。作者据此认为,WAM 的主要价值更可能来自训练时的视频预测目标,而不是推理时真的生成未来视频。

5.6 真实毛巾折叠:性能与延迟

Real-world results and latency
Figure 4. 真实毛巾折叠结果:左图越靠左上越好;右图给出推理延迟。Fast-WAM 为 190 ms,Fast-WAM-IDM 为 810 ms,Fast-WAM-Joint 为 580 ms。图中还显示 no-video-co-train 成功率约 10%,且 completion time 最长。

真实任务中,预训练 $\pi_{0.5}$ 仍是最强方法,成功率最高且 completion time 最短。Fast-WAM family 之间性能相近:Fast-WAM-IDM 成功率最高,Fast-WAM completion time 更好。更重要的是,所有带 video co-training 的 Fast-WAM 变体都明显强于无 pretraining 的 $\pi_{0.5}$,而 no-video-co-train 崩到 10% success。这再次支持 video co-training 是主因。

延迟上,Fast-WAM 190 ms,与 no-video-co-train 的 190 ms 相同量级;Fast-WAM-Joint 580 ms,Fast-WAM-IDM 810 ms。Fast-WAM 因此成为一个更好的部署折中点:保留大部分 WAM 性能,但避免显式未来视频采样开销。

6. 可复现审计

6.1 复现所需组件

组件论文信息复现注意
BackboneWan2.2-5B video DiT + T5 text encoder + video VAE。需要可加载 Wan2.2-5B;显存/参数规模较高。
Action expertDiT,同构于 video branch,hidden dim 1024,约 1B。动作 token、时间步 embedding、cross-attention 与 video branch 对齐要谨慎。
训练目标$\mathcal{L}_{act}+\lambda\mathcal{L}_{vid}$。论文未在正文明确给出 $\lambda$ 数值,复现实验需从代码或默认配置确认。
数据LIBERO、RoboTwin 2.0、真实 Galaxea R1 Lite 毛巾折叠 60 小时数据。仿真可复现性高;真实数据和硬件更难完全复现。
延迟测量单张 NVIDIA RTX 5090D V2 32GB。跨 GPU 延迟不可直接比较;要报告 action denoising steps 和 batch 设置。

6.2 最小复现路线

  1. 先在 LIBERO 上实现 Fast-WAM w.o. video co-train:只用当前 first-frame latent + language + action DiT,跑通 action flow matching。
  2. 加入 future video latent branch 和 $\mathcal{L}_{vid}$,但保持 action tokens 不能看 future video tokens,验证 Fast-WAM 是否提升。
  3. 实现 Fast-WAM-Joint:放开 action/video tokens 的相互 attention,测试是否接近 Fast-WAM。
  4. 实现 Fast-WAM-IDM:先生成 future video representation,再 condition action;注意使用 $p=0.5$ ground-truth video token noise augmentation。
  5. 复现 LIBERO 表格,再迁移到 RoboTwin 多任务训练;最后才考虑真实毛巾折叠。
  6. 延迟评估必须单独做:Fast-WAM 无 future branch,但仍有 action denoising 10 steps;IDM/Joint 的额外开销来自未来视频生成/联合采样。

6.3 复现风险点

风险为什么重要建议
$\lambda$ 未在正文给出video co-training 强弱直接影响结论。优先查官方代码配置;如果没有,做 $\lambda$ sweep。
mask 实现容易泄漏 future若 action tokens 能看 ground-truth future video,结果会虚高。写单元测试检查 attention mask 可达性。
多相机拼图输入细节多 camera concat 到单图后进 VAE,影响 token layout。保持相机顺序、分辨率、crop/resize 一致。
真实毛巾数据不可公开验证60 小时 teleoperation 和硬件平台影响很大。把真实结果视为部署证据,结构性结论主要看仿真控制变量。
预训练公平性不同 baseline 使用 embodied pretraining 与否混在同表。阅读时分组比较:同为 no embodied PT 的方法最公平。

7. 分析、局限与边界

7.1 这篇论文最有价值的地方

最有价值的是问题拆解本身。很多 WAM 论文默认“生成未来视频”是必要步骤,但 Fast-WAM 把它拆成训练目标和推理机制两个因素,并用同一框架里的变体验证。这个实验设计比单纯提出一个新模型更有启发性:它告诉我们 world model 的价值可能主要体现在训练表征,而不是部署时显式想象。

第二个价值点是部署导向。190 ms vs 580/810 ms 的差距对真实机器人很现实。Fast-WAM 让 WAM 接近 VLA 的推理接口,同时保留 WAM 训练信号,这是一个很实用的折中。

7.2 结果为什么站得住

7.3 局限与需要追问的点

问题影响
结论是“future imagination 不那么关键”,不是“完全没用”LIBERO 上 Joint/IDM 仍略高于 Fast-WAM;真实任务 Fast-WAM-IDM 成功率最高。只是它们的增益是否值得延迟成本,要看部署场景。
只研究 single action chunk作者为控制变量省略 outer autoregressive rollout;更长任务中显式未来想象是否更有用仍需验证。
真实任务只有毛巾折叠deformable object 很有挑战,但单一真实任务不足以覆盖全部机器人操作。
模型规模很大6B 模型 + Wan2.2-5B backbone,复现和部署门槛高。
训练细节仍依赖代码正文给了大部分优化参数,但 $\lambda$ 等关键配置需要查官方代码。

7.4 组会可追问的问题

  1. 如果任务需要显式中间子目标,例如复杂装配或导航,test-time future imagination 是否会重新变得重要?
  2. Fast-WAM 的 video co-training 学到的 representation 到底编码了什么?能否用 probing/attention/feature prediction 证明它捕捉物理动态?
  3. Action tokens 不能看 future video tokens,但 video branch 和 action branch 共享 first-frame anchor;这种 mask 是否是最优,还是有更细的 causal mask?
  4. Wan2.2 是通用视频生成 backbone。换成机器人视频预训练 backbone 后,Fast-WAM 与 Joint/IDM 的差距会变大还是变小?
  5. Fast-WAM 在真实任务中 completion time 优于 IDM,但 success rate 不一定最高。实际系统该如何在延迟、成功率和动作稳定性之间选点?

附:本报告覆盖检查

已覆盖:Abstract、Introduction、Related Work、Method、Experiment、Conclusion,以及 Appendix 的 RoboTwin per-task 结果。

图表处理:使用 arXiv HTML 渲染出的 PNG 图像与源码图片,保存在 figures/;关键表格已重建为 HTML。

残余风险:真实毛巾折叠训练数据不是公开 benchmark;完整复现仍依赖官方代码配置,尤其是 $\lambda$ 和具体数据处理。