World-Value-Action Model: Implicit Planning for Vision-Language-Action Systems
1. 论文速览
难度评级:★★★★☆。需要熟悉 VLA、world model、flow matching、MPC/MPPI、trajectory value,以及基本的 high-dimensional probability/covering argument。
关键词:Vision-Language-Action, World Model, Trajectory Value, Latent Planning, Flow Matching, MPPI-style Inference。
| 阅读定位问题 | 答案 |
|---|---|
| 论文要解决什么 | 现有 VLA 多数直接从当前观察和指令预测动作,缺少对长时域未来轨迹的推理与评估,因此在 compositional / long-horizon manipulation 中容易累积错误。 |
| 作者的方法抓手 | 构造 World-Value-Action 三模块:world/video generator 预测未来视觉特征,value module 评估轨迹长期效用,action decoder 根据优化后的 latent video/value features 生成动作。 |
| 最重要的结果 | LIBERO 平均成功率 98.1;去掉 latent trajectory planning 后降到 96.4,Long suite 从 94.4 降到 91.8。真实机器人任务平均成功率从 GE-ACT 的 35.6% 提升到 WAV 的 75.6%。 |
| 阅读时要注意的点 | 核心不是单纯“多一个 world model”,而是把 action search 移到 learned latent trajectory distribution 中,并用 value/SNR/elite selection 反复重加权。 |
核心贡献清单
- 提出 WAV 框架。把 future visual trajectory generation、trajectory value estimation 和 action decoding 放在一个统一的 VLA 决策框架中。
- 提出 latent trajectory planning。不是显式 rollout 大量动作序列,而是在 video/value latent noise distributions 上做迭代推断。
- 给出理论解释。作者用 feasible trajectory manifold 的概率质量分析说明,直接 action-space search 的可行轨迹采样概率会随 horizon 指数衰减,而 latent generator 可重分配概率质量。
- 给出仿真和真实机器人验证。在 LIBERO 和 Piper 真实双臂机器人任务上与 GE-ACT 等 baseline 比较,并做了 K、M、N、平滑参数、elite count、速度/显存等消融。
2. 动机
2.1 要解决什么问题
论文关注 language-conditioned robotic manipulation。每个时刻模型接收视觉观察 $o_t$、语言指令 $g$,以及可选本体状态 $p_t$,输出动作 $a_t$。已有 VLA 通过预训练 VLM 获得语义泛化能力,但多数方法仍把决策看作直接动作预测:给当前上下文,输出当前或短窗口动作。
这个设置在短任务中可行,但在长时域任务中会出现两个问题:第一,模型没有显式机制评估“当前动作会把未来带向什么状态”;第二,多步任务中的早期小误差会累积成后续失败。真实机器人例子中,drawer task 需要开抽屉、放入物体、再关抽屉;若第一步未对准抽屉把手,后续步骤即使动作形式正确也会失效。
2.2 已有方法的局限
- 直接动作预测:通常把每一步或短动作 chunk 当作 supervised target,缺少长期 trajectory-level evaluation。
- world model-only 路线:能预测未来观察,但不一定提供“哪条未来轨迹更值得执行”的价值判断,也不自动完成动作选择。
- world model 作为 RL simulator:可以生成 synthetic rollouts 或 reward,但论文指出这类方法受 world model generalization 限制,复杂或 OOD 场景中容易出现 compounding errors。
- 显式 action-space planning:随着 horizon $H$ 增长,动作序列空间维度线性增长,而满足物理、接触和语义约束的 feasible trajectories 只占极小概率质量。这个理论动机在正文和附录中被形式化 [附录 A.1]。
2.3 本文的解决思路
WAV 的高层 insight 是:规划可以不作为一个外置 optimizer,而可以作为 structured generative model 内部的 inference process。模型学习一个能产生 plausible future trajectories 的 latent generator,再学习一个 trajectory value function 评估这些未来,推断阶段反复把 latent noise distribution 向高价值、低不确定性的区域移动。
4. 方法详解
4.1 方法概览
WAV 的数据流可以写成:输入多视角观察、语言指令和机器人状态;video generation module 生成候选未来视觉特征;trajectory value module 对每条候选未来估计长期回报和稳定性;latent planning 在 video/value latent distributions 中选择 elite samples 并更新均值方差;action decoder 融合优化后的 video/value features 输出动作。

4.2 方法演变脉络
论文的演变逻辑可以概括为:
| 阶段 | 方法形式 | 改进动机 |
|---|---|---|
| 直接 VLA | $\pi_\theta(a_{t:t+H}\mid o_t,p_t,g)$ 直接预测短动作序列。 | 能利用语言和视觉预训练,但缺少 trajectory-level future evaluation。 |
| MPC/MPPI | 采样候选未来动作序列,rollout 后按 reward/value 选优。 | 具备长时域推理,但 action-space search 在高维长 horizon 中可行轨迹概率很低。 |
| WAV | 在 learned latent trajectory space 中采样和重加权,最后解码动作。 | 利用生成模型把概率质量集中在物理和语义上更可行的未来轨迹附近。 |
4.3 核心设计与数学推导
4.3.1 VLA 与 MPC 基础定义
其中 $o_t$ 是视觉观察,$p_t$ 是 proprioceptive state,$g$ 是语言指令,$a_t$ 是动作。实际实现常预测短窗口 $a_{t:t+H}$。
这解释了本文为什么需要 future prediction 和 trajectory value;但直接在 $\mathcal{A}^H$ 中搜索会遇到 feasibility bottleneck。
4.3.2 为什么 action-space search 难
$\mathcal{M}_{\mathrm{traj}}$ 是 feasible trajectory set;$\mathcal{N}_\epsilon$ 是其 $\epsilon$-neighborhood。结论是:如果随机在整个 trajectory/action space 中找候选,碰到近似可行轨迹的概率会随 $H$ 指数下降。
附录证明整合:covering number 证明思路 [附录 A.1]
作者在附录中把 $\mathcal{M}_{\mathrm{traj}}$ 视为 intrinsic dimension 为 $d$ 的 compact subset。用半径 $\epsilon$ 的球覆盖该集合,覆盖数满足 $N_\epsilon\le C_1\epsilon^{-d}$。每个球在 $D$ 维空间中的体积与 $\epsilon^D$ 成比例,因此邻域体积至多与 $\epsilon^{D-d}$ 同阶。由于 $D=H(\dim\mathcal{S}+\dim\mathcal{A})$,并假设 $d\le\lambda H$ 且 $\lambda<\dim\mathcal{S}+\dim\mathcal{A}$,可得 $D-d\ge\kappa H$,进而 $\epsilon^{D-d}=\exp((D-d)\log\epsilon)\le\exp(-cH)$。
4.3.3 Latent planning 如何重分配概率质量
$\Phi$ 是由系统动力学诱导的 rollout map。该命题不是说 latent planning 保证最优,而是说在“学到的 latent generator 近似覆盖 feasible manifold”的条件下,feasible probability 相对 action-space uniform sampling 指数级更高。
附录证明整合:为什么还需要迭代推断 [附录 A.2]
附录进一步指出,feasible 不等于 high-value。定义轨迹回报 $V(\tau)=\sum_{h=0}^{H-1}\gamma^h r(s_{t+h},a_{t+h})$,以及 $\varepsilon$-optimal set $\mathcal{M}_\varepsilon=\{\tau\in\mathcal{M}_{\mathrm{traj}}\mid V(\tau)\ge V^\star-\varepsilon\}$。即使 $P_{\mathrm{latent}}(\mathcal{M}_{\mathrm{traj}})$ 很大,也不推出 $P_{\mathrm{latent}}(\mathcal{M}_\varepsilon)$ 有常数下界。因此固定 sample budget 的 one-shot latent sampling 不保证找到 near-optimal trajectory。WAV 采用 iterative inference,通过 value/SNR 反馈不断把 latent distribution 推向高价值区域。
4.3.4 三个模块与训练目标
$\mathcal{T}(g)\in\mathbb{R}^{L_g\times d_t}$ 来自 frozen T5-XXL;$i\in\{h,l,r\}$ 表示不同相机视角;$z^{(i)}\sim\mathcal{N}(0,I)$ 是 view-specific latent noise。
$\mathbf{x}_i$ 是第 $i$ 个视觉 transformer block 的 video tokens;$\mathbf{u}_i$ 是 trajectory value embedding。
训练采用三阶段 flow matching:
- Video flow loss:$\mathcal{L}_{\mathrm{vid}}=\mathbb{E}[\|v_\theta(t,l,o,x^t)-(x^1-x^0)\|_2^2]$。
- Value flow loss:$\mathcal{L}_{\mathrm{val}}=\mathbb{E}[\|v_\theta(t,l,o,z_{\mathrm{vid}},v^t)-(v^1-v^0)\|_2^2]$,其中 $v^1=\sum_{i=0}^{H}\gamma^iR(s_{t+i},a_{t+i})$。
- Action flow loss:$\mathcal{L}_{\mathrm{act}}=\mathbb{E}[\|v_\theta(t,l,o,z_{\mathrm{vid}},z_{\mathrm{val}},a^t)-(a^1-a^0)\|_2^2]$。
4.3.5 Iterative latent inference
$k$ 是迭代编号。每轮采样 $M$ 个 video noises,每个 video hypothesis 再采样 $N$ 个 value noises。
$\epsilon$ 是数值稳定常数。每个 video candidate 的分数取其 $N$ 次 value estimates 中最可靠的一个。
value distribution 的更新同理,只是 elite set 是 $\mathcal{E}_{\mathrm{val}}$,从 $M\times N$ 个 value samples 中选 top-$K_2$。
4.4 实现要点
5. 实验
5.1 实验设置
| 项目 | 设置 |
|---|---|
| 仿真数据集 | LIBERO benchmark,包含 Spatial、Object、Goal、Long 四个 suites;分别测试空间泛化、物体泛化、goal-conditioned behavior 和长时域组合任务。 |
| 真实机器人 | Piper 双臂平台;任务包括 bowl organization、towel flattening、long-horizon drawer task。 |
| Baseline | LIBERO 中对比 Diffusion Policy、Octo、OpenVLA、SpatialVLA、$\pi_0$ 系列、OpenVLA-OFT、VLA-Adapter、WorldVLA、CoT-VLA、FlowVLA、DreamVLA、UniVLA、GE-ACT 等;真实机器人主要对比 GE-ACT。 |
| 评价指标 | 成功率。真实机器人采用 strict binary success metric:任务完全完成才算成功,无 partial credit。 |
| 代码/项目页 | 论文源码中给出 project page: https://win-commit.github.io/wavpage/。源码未在正文中给出明确 GitHub URL。 |
训练超参数 [附录 B]
| 模块 | Gradient clip | Steps | Warm-up | Batch | Learning rate | Weight decay | Caption Dropout | Optimizer |
|---|---|---|---|---|---|---|---|---|
| Video Training | 1.0 | 40000 | 1000 | 128 | $3e-4$ | $1e-5$ | 0.06 | Adam ($\beta_1=0.9,\beta_2=0.95,\beta_3=0.999$) |
| Value & Action Training | 1.0 | 30000 | 1000 | 128 | $5e-5$ | $1e-5$ | 0 | Adam ($\beta_1=0.9,\beta_2=0.95,\beta_3=0.999$) |
Dense reward terms [附录 B]
| Reward term | Definition | Weight |
|---|---|---|
| Wrist-view MSE | $c_{1,t}^b=\exp(-0.01\cdot\mathrm{MSE}(I_t^b,I_T^b))$ | $+1/16$ each |
| Wrist-view SSIM | $c_{2,t}^b=\exp(\mathrm{SSIM}(I_t^b,I_T^b)-1)$ | $+1/16$ each |
| Top-view MSE / SSIM | 对应 top camera 的 MSE 和 SSIM 目标相似度 | $+1/16$ each |
| Joint-state proximity | $c_{5,t}^b=\exp(-\|s_t^b-s_T^b\|_2)$ | $+1/16$ each |
| Joint/action velocity & acceleration penalties | $\sum_j|\Delta s_{t,j}^b|$, $\sum_j|\Delta^2s_{t,j}^b|$, $\sum_j|\Delta a_{t,j}^b|$, $\sum_j|\Delta^2a_{t,j}^b|$ | joint penalties $-1/16$ each;action penalties $-0.1/16$ each |
5.2 主要结果
LIBERO
| Model | Params | Spatial | Object | Goal | Long | Avg. |
|---|---|---|---|---|---|---|
| GE-ACT | 2b | 98.2 | 97.6 | 95.8 | 94.4 | 96.5 |
| VLA-Adapter | 0.5b | 97.8 | 99.2 | 97.2 | 95.0 | 97.3 |
| WAV (Ours) | 2.2b | 99.6 | 100.0 | 98.6 | 94.4 | 98.1 |
| WAV w/o Latent Trajectory Planning | - | 99.0 | 99.6 | 95.0 | 91.8 | 96.4 |
论文的关键解读是:平均提升来自多项 suite,而 latent planning 的贡献在 Long suite 上最明显。移除 latent trajectory planning 后,平均分下降 1.7 点,Long 从 94.4 降到 91.8。
真实机器人


5.3 消融实验

- 迭代次数 $K$:增加 $K$ 会让 latent distribution 有更多轮重加权,成功率先明显上升,之后收益递减。
- Video samples $M$:论文认为性能对 $M$ 敏感,说明探索多种未来视觉轨迹假设很重要。
- Value samples $N$:影响相对温和,达到合理估计密度后继续增加收益有限。


5.4 补充实验与附录图



6. 分析与讨论
6.1 论文已给出的结果分析与解释
- 作者把 LIBERO Long suite 上的优势归因于 trajectory-level planning 对 compounding errors 的缓解。
- 真实机器人结果中,作者认为 baseline 的失误来自 inaccurate action execution 和 weak spatial grounding,这些错误在多步任务中会级联放大。
- 消融中,作者解释 $M$ 的敏感性来自未来轨迹假设探索不足;$N$ 较早饱和则说明 value evaluation 达到合理密度后新增样本收益有限。
- 速度/显存实验中,作者认为 $K=3$ 已捕捉大部分 iterative refinement 的收益,继续增大 $K$ 主要增加计算成本。
6.2 作者自述的局限性
Conclusion 中明确写出的主要局限是 deployment time 和 storage overhead。论文没有在正文中展开更多 failure taxonomy 或安全边界,因此本报告不额外补充主观局限。
6.3 适用边界与未来工作
- 适用边界:WAV 依赖 learned latent generator 能近似覆盖 feasible trajectory set;理论命题本身也是 conditional comparison。
- 数据与奖励:真实任务中使用 task-specific successful trajectories 和 rule-based dense rewards,数据集作者称将在发表后公开。
- 未来工作:作者提出扩展到 richer multi-modal instructions,以及实现 real-time closed-loop deployment on physical robotic systems。
6.4 可复现性审计
| 项目 | 状态 | 说明 |
|---|---|---|
| 源码结构 | 已获取 | arXiv e-print 包含主 tex、bib、style 和 figures。 |
| 图表 | 已提取 | PNG 已复制,PDF 图已转换为 PNG 放入本报告 figures/。 |
| 训练超参数 | 较完整 | 附录给出 video 与 value/action training 的主要超参数。 |
| 硬件/训练时长 | 明确 | 8x A100-SXM4-80GB;LIBERO 约 5 天,真实 Piper 每任务约 3 天。 |
| 数据 | 部分待公开 | 真实机器人数据规模和传感器配置明确,但论文称 dataset 将在发表后公开。 |
| 官方代码 | 未在源码正文明确给出 | 源码给出 project page,但没有在 LaTeX 正文中直接提供 GitHub 仓库 URL。 |