中文 EN

World-Value-Action Model: Implicit Planning for Vision-Language-Action Systems

作者:Runze Li, Hongyin Zhang, Junxi Jin, Qixin Zeng, Zifeng Zhuang, Yiqi Tang, Shangke Lyu, Donglin Wang

机构:Westlake University; Nanjing University Suzhou Campus

发表:arXiv preprint, 2026

arXiv:2604.14732 | PDF:下载 | Project Page:win-commit.github.io/wavpage

1. 论文速览

一句话总结:WAV 把 VLA 的动作生成从“直接预测动作”改写为“在未来轨迹 latent space 中做隐式规划”:先生成候选未来视觉轨迹,再用 trajectory value 评估长期收益,最后将高价值且动态可行的 latent trajectory 解码为动作。

难度评级:★★★★☆。需要熟悉 VLA、world model、flow matching、MPC/MPPI、trajectory value,以及基本的 high-dimensional probability/covering argument。

关键词:Vision-Language-Action, World Model, Trajectory Value, Latent Planning, Flow Matching, MPPI-style Inference。

阅读定位问题答案
论文要解决什么现有 VLA 多数直接从当前观察和指令预测动作,缺少对长时域未来轨迹的推理与评估,因此在 compositional / long-horizon manipulation 中容易累积错误。
作者的方法抓手构造 World-Value-Action 三模块:world/video generator 预测未来视觉特征,value module 评估轨迹长期效用,action decoder 根据优化后的 latent video/value features 生成动作。
最重要的结果LIBERO 平均成功率 98.1;去掉 latent trajectory planning 后降到 96.4,Long suite 从 94.4 降到 91.8。真实机器人任务平均成功率从 GE-ACT 的 35.6% 提升到 WAV 的 75.6%。
阅读时要注意的点核心不是单纯“多一个 world model”,而是把 action search 移到 learned latent trajectory distribution 中,并用 value/SNR/elite selection 反复重加权。

核心贡献清单

2. 动机

2.1 要解决什么问题

论文关注 language-conditioned robotic manipulation。每个时刻模型接收视觉观察 $o_t$、语言指令 $g$,以及可选本体状态 $p_t$,输出动作 $a_t$。已有 VLA 通过预训练 VLM 获得语义泛化能力,但多数方法仍把决策看作直接动作预测:给当前上下文,输出当前或短窗口动作。

这个设置在短任务中可行,但在长时域任务中会出现两个问题:第一,模型没有显式机制评估“当前动作会把未来带向什么状态”;第二,多步任务中的早期小误差会累积成后续失败。真实机器人例子中,drawer task 需要开抽屉、放入物体、再关抽屉;若第一步未对准抽屉把手,后续步骤即使动作形式正确也会失效。

2.2 已有方法的局限

2.3 本文的解决思路

WAV 的高层 insight 是:规划可以不作为一个外置 optimizer,而可以作为 structured generative model 内部的 inference process。模型学习一个能产生 plausible future trajectories 的 latent generator,再学习一个 trajectory value function 评估这些未来,推断阶段反复把 latent noise distribution 向高价值、低不确定性的区域移动。

4. 方法详解

4.1 方法概览

WAV 的数据流可以写成:输入多视角观察、语言指令和机器人状态;video generation module 生成候选未来视觉特征;trajectory value module 对每条候选未来估计长期回报和稳定性;latent planning 在 video/value latent distributions 中选择 elite samples 并更新均值方差;action decoder 融合优化后的 video/value features 输出动作。

WAV pipeline
Figure: WAV pipeline。图中对应 video/world module、trajectory value module 和 action decoding module。源码中该图为独立 PNG 文件。
Input: observation o_t, proprioception p_t, language g Encode g with frozen T5-XXL -> T(g) Initialize video latent Gaussian f_vid^(0), value latent Gaussian f_val^(0) for k = 1..K: sample M video noises z_vid ~ f_vid^(k-1) generate future visual features x = W(z_vid, observations, T(g)) for each x: sample N value noises z_val ~ f_val^(k-1) estimate trajectory values v = V(x, z_val) score by SNR(v) update f_vid^(k) from top-K1 video samples update f_val^(k) from top-K2 value samples smooth mean/std with alpha, beta sample optimized z_vid*, z_val* decode action a_t = A(video features, value features)

4.2 方法演变脉络

论文的演变逻辑可以概括为:

阶段方法形式改进动机
直接 VLA$\pi_\theta(a_{t:t+H}\mid o_t,p_t,g)$ 直接预测短动作序列。能利用语言和视觉预训练,但缺少 trajectory-level future evaluation。
MPC/MPPI采样候选未来动作序列,rollout 后按 reward/value 选优。具备长时域推理,但 action-space search 在高维长 horizon 中可行轨迹概率很低。
WAV在 learned latent trajectory space 中采样和重加权,最后解码动作。利用生成模型把概率质量集中在物理和语义上更可行的未来轨迹附近。

4.3 核心设计与数学推导

4.3.1 VLA 与 MPC 基础定义

VLA 直接动作预测:给定历史观察、状态、动作和语言,逐步预测动作。
$$\pi_\theta(a_{1:T}\mid o_{1:T},p_{1:T},g)=\prod_{t=1}^{T}\pi_\theta(a_t\mid o_{1:t},p_{1:t},a_{1:t-1},g).$$

其中 $o_t$ 是视觉观察,$p_t$ 是 proprioceptive state,$g$ 是语言指令,$a_t$ 是动作。实际实现常预测短窗口 $a_{t:t+H}$。

MPC 目标:在有限 horizon 内选择能最大化累计折扣奖励的动作序列。
$$a_{t:t+H}^\star=\arg\max_{a_{t:t+H}}\mathbb{E}\left[\sum_{i=0}^{H}\gamma^iR(s_{t+i},a_{t+i})\right].$$

这解释了本文为什么需要 future prediction 和 trajectory value;但直接在 $\mathcal{A}^H$ 中搜索会遇到 feasibility bottleneck。

4.3.2 为什么 action-space search 难

核心说法:长 horizon 轨迹空间很大,但满足物理、接触、语义约束的可行轨迹只是一条“薄流形”。
$$\mathcal{X}=\mathcal{S}^{H}\times\mathcal{A}^{H},\qquad D=H(\dim\mathcal{S}+\dim\mathcal{A}).$$ $$\frac{\mu(\mathcal{N}_\epsilon(\mathcal{M}_{\mathrm{traj}}))}{\mu(\mathcal{X})}\le \exp(-cH).$$

$\mathcal{M}_{\mathrm{traj}}$ 是 feasible trajectory set;$\mathcal{N}_\epsilon$ 是其 $\epsilon$-neighborhood。结论是:如果随机在整个 trajectory/action space 中找候选,碰到近似可行轨迹的概率会随 $H$ 指数下降。

附录证明整合:covering number 证明思路 [附录 A.1]

作者在附录中把 $\mathcal{M}_{\mathrm{traj}}$ 视为 intrinsic dimension 为 $d$ 的 compact subset。用半径 $\epsilon$ 的球覆盖该集合,覆盖数满足 $N_\epsilon\le C_1\epsilon^{-d}$。每个球在 $D$ 维空间中的体积与 $\epsilon^D$ 成比例,因此邻域体积至多与 $\epsilon^{D-d}$ 同阶。由于 $D=H(\dim\mathcal{S}+\dim\mathcal{A})$,并假设 $d\le\lambda H$ 且 $\lambda<\dim\mathcal{S}+\dim\mathcal{A}$,可得 $D-d\ge\kappa H$,进而 $\epsilon^{D-d}=\exp((D-d)\log\epsilon)\le\exp(-cH)$。

4.3.3 Latent planning 如何重分配概率质量

如果 learned generator 已经倾向于生成可行轨迹,那么在 latent space 中采样比在 action space 中盲采样更容易得到 feasible trajectories。
$$\tau_{t:t+H}=\mathcal{W}_\theta(z),\qquad z\sim f_\theta(s_t),\qquad P_{\mathrm{latent}}=(\mathcal{W}_\theta)_\# f_\theta.$$ $$P_{\mathrm{latent}}(\mathcal{M}_{\mathrm{traj}})=\Pr_{z\sim f_\theta(s_t)}[\mathcal{W}_\theta(z)\in\mathcal{M}_{\mathrm{traj}}]\ge 1-\delta.$$ $$\frac{\Pr_{z\sim f_\theta(s_t)}[\mathcal{W}_\theta(z)\in\mathcal{M}_{\mathrm{traj}}]}{\Pr_{a_{t:t+H}\sim\mathrm{Unif}(\mathcal{A}^{H})}[\Phi(a_{t:t+H})\in\mathcal{M}_{\mathrm{traj}}]}\ge \exp(cH)(1-\delta).$$

$\Phi$ 是由系统动力学诱导的 rollout map。该命题不是说 latent planning 保证最优,而是说在“学到的 latent generator 近似覆盖 feasible manifold”的条件下,feasible probability 相对 action-space uniform sampling 指数级更高。

附录证明整合:为什么还需要迭代推断 [附录 A.2]

附录进一步指出,feasible 不等于 high-value。定义轨迹回报 $V(\tau)=\sum_{h=0}^{H-1}\gamma^h r(s_{t+h},a_{t+h})$,以及 $\varepsilon$-optimal set $\mathcal{M}_\varepsilon=\{\tau\in\mathcal{M}_{\mathrm{traj}}\mid V(\tau)\ge V^\star-\varepsilon\}$。即使 $P_{\mathrm{latent}}(\mathcal{M}_{\mathrm{traj}})$ 很大,也不推出 $P_{\mathrm{latent}}(\mathcal{M}_\varepsilon)$ 有常数下界。因此固定 sample budget 的 one-shot latent sampling 不保证找到 near-optimal trajectory。WAV 采用 iterative inference,通过 value/SNR 反馈不断把 latent distribution 推向高价值区域。

4.3.4 三个模块与训练目标

Video generation module:给语言和多视角历史,生成未来视觉特征 chunk。
$$\hat{x}_{t:t+N}=\mathcal{W}(\{v_0^{(i)},v_{\hat{t}}^{(i)},z^{(i)}\}_{i},\mathcal{T}(g)).$$

$\mathcal{T}(g)\in\mathbb{R}^{L_g\times d_t}$ 来自 frozen T5-XXL;$i\in\{h,l,r\}$ 表示不同相机视角;$z^{(i)}\sim\mathcal{N}(0,I)$ 是 view-specific latent noise。

Action decoder:动作 token 先 attend 到 video features,再 attend 到 value embedding。
$$\mathbf{z}_{\mathrm{act}}^{(i)}=\mathcal{B}_{i}^{\mathrm{act}}(\mathbf{z}_{\mathrm{act}}^{(i-1)},\operatorname{CrossAttn}(\mathbf{z}_{\mathrm{act}}^{(i-1)},\mathbf{x}_i)),$$ $$\mathbf{a}_i=\mathcal{B}_{i}^{\mathrm{act}}(\mathbf{z}_{\mathrm{act}}^{(i)},\operatorname{CrossAttn}(\mathbf{z}_{\mathrm{act}}^{(i)},\mathbf{u}_i)).$$

$\mathbf{x}_i$ 是第 $i$ 个视觉 transformer block 的 video tokens;$\mathbf{u}_i$ 是 trajectory value embedding。

训练采用三阶段 flow matching:

4.3.5 Iterative latent inference

WAV 维护两个 Gaussian:video latent noise distribution 和 value latent noise distribution。
$$f_{\mathrm{vid}}^{(k)}=\mathcal{N}(\boldsymbol{\mu}_{\mathrm{vid}}^{(k)},\operatorname{diag}((\boldsymbol{\sigma}_{\mathrm{vid}}^{(k)})^2)),$$ $$f_{\mathrm{val}}^{(k)}=\mathcal{N}(\boldsymbol{\mu}_{\mathrm{val}}^{(k)},\operatorname{diag}((\boldsymbol{\sigma}_{\mathrm{val}}^{(k)})^2)).$$

$k$ 是迭代编号。每轮采样 $M$ 个 video noises,每个 video hypothesis 再采样 $N$ 个 value noises。

评分函数:用 value prediction 的 signal-to-noise ratio 衡量“高回报且稳定”。
$$\operatorname{SNR}^{(m,n)}=\frac{\mathbb{E}[\mathbf{v}^{(m,n)}]}{\operatorname{Std}[\mathbf{v}^{(m,n)}]+\epsilon},\qquad \phi^{(m)}=\max_{n\in\{1,\dots,N\}}\operatorname{SNR}^{(m,n)}.$$

$\epsilon$ 是数值稳定常数。每个 video candidate 的分数取其 $N$ 次 value estimates 中最可靠的一个。

Elite update:用 top-$K_1$ / top-$K_2$ 的 latent samples 更新均值和方差。
$$\boldsymbol{\mu}_{\mathrm{vid}}^{(k)}=\frac{1}{K_1}\sum_{m\in\mathcal{E}_{\mathrm{vid}}}\mathbf{z}_{\mathrm{vid}}^{(m)},\quad \boldsymbol{\sigma}_{\mathrm{vid}}^{(k)}=\sqrt{\frac{1}{K_1}\sum_{m\in\mathcal{E}_{\mathrm{vid}}}(\mathbf{z}_{\mathrm{vid}}^{(m)}-\boldsymbol{\mu}_{\mathrm{vid}}^{(k)})^2}.$$ $$\boldsymbol{\mu}^{(k)}\leftarrow\alpha\boldsymbol{\mu}^{(k)}+(1-\alpha)\boldsymbol{\mu}^{(k-1)},\quad \boldsymbol{\sigma}^{(k)}\leftarrow\beta\boldsymbol{\sigma}^{(k)}+(1-\beta)\boldsymbol{\sigma}^{(k-1)}.$$

value distribution 的更新同理,只是 elite set 是 $\mathcal{E}_{\mathrm{val}}$,从 $M\times N$ 个 value samples 中选 top-$K_2$。

4.4 实现要点

真实机器人数据:附录说明 drawer-opening 和 bowl-organization 各收集约 300 条成功轨迹,towel-flattening 收集 2,000 条成功轨迹;每条轨迹包含两个 wrist cameras($240\times320\times3$)、一个 third-person top camera($240\times424\times3$)和 14 维 robot joint states [附录 B]
奖励设计:沿用 ReinboT 的 dense reward 思路,但省略 sub-goal achievement term,保留 task progress、behavior smoothness、task completion 相关项;双臂设置中共有 9 类 reward terms、16 个 scalar components [附录 B]
数值稳定性:SNR 分母加 $\epsilon$;latent distribution update 后使用 $\alpha,\beta$ 平滑均值和方差,避免 distribution collapse。
训练资源:论文报告使用 8 NVIDIA A100-SXM4-80GB GPU,CPU 为 Intel Xeon Platinum 8358 @ 2.60GHz。LIBERO full-parameter fine-tuning 约 5 天;真实 Piper 每任务约 3 天 [附录 B]

5. 实验

5.1 实验设置

项目设置
仿真数据集LIBERO benchmark,包含 Spatial、Object、Goal、Long 四个 suites;分别测试空间泛化、物体泛化、goal-conditioned behavior 和长时域组合任务。
真实机器人Piper 双臂平台;任务包括 bowl organization、towel flattening、long-horizon drawer task。
BaselineLIBERO 中对比 Diffusion Policy、Octo、OpenVLA、SpatialVLA、$\pi_0$ 系列、OpenVLA-OFT、VLA-Adapter、WorldVLA、CoT-VLA、FlowVLA、DreamVLA、UniVLA、GE-ACT 等;真实机器人主要对比 GE-ACT。
评价指标成功率。真实机器人采用 strict binary success metric:任务完全完成才算成功,无 partial credit。
代码/项目页论文源码中给出 project page: https://win-commit.github.io/wavpage/。源码未在正文中给出明确 GitHub URL。

训练超参数 [附录 B]

模块Gradient clipStepsWarm-upBatchLearning rateWeight decayCaption DropoutOptimizer
Video Training1.0400001000128$3e-4$$1e-5$0.06Adam ($\beta_1=0.9,\beta_2=0.95,\beta_3=0.999$)
Value & Action Training1.0300001000128$5e-5$$1e-5$0Adam ($\beta_1=0.9,\beta_2=0.95,\beta_3=0.999$)

Dense reward terms [附录 B]

Reward termDefinitionWeight
Wrist-view MSE$c_{1,t}^b=\exp(-0.01\cdot\mathrm{MSE}(I_t^b,I_T^b))$$+1/16$ each
Wrist-view SSIM$c_{2,t}^b=\exp(\mathrm{SSIM}(I_t^b,I_T^b)-1)$$+1/16$ each
Top-view MSE / SSIM对应 top camera 的 MSE 和 SSIM 目标相似度$+1/16$ each
Joint-state proximity$c_{5,t}^b=\exp(-\|s_t^b-s_T^b\|_2)$$+1/16$ each
Joint/action velocity & acceleration penalties$\sum_j|\Delta s_{t,j}^b|$, $\sum_j|\Delta^2s_{t,j}^b|$, $\sum_j|\Delta a_{t,j}^b|$, $\sum_j|\Delta^2a_{t,j}^b|$joint penalties $-1/16$ each;action penalties $-0.1/16$ each

5.2 主要结果

LIBERO

ModelParamsSpatialObjectGoalLongAvg.
GE-ACT2b98.297.695.894.496.5
VLA-Adapter0.5b97.899.297.295.097.3
WAV (Ours)2.2b99.6100.098.694.498.1
WAV w/o Latent Trajectory Planning-99.099.695.091.896.4

论文的关键解读是:平均提升来自多项 suite,而 latent planning 的贡献在 Long suite 上最明显。移除 latent trajectory planning 后,平均分下降 1.7 点,Long 从 94.4 降到 91.8。

真实机器人

real world bar
真实机器人定量结果:WAV 与 GE-ACT 对比,每项结果平均 15 次 trials。论文正文报告平均成功率从 35.6% 提升到 75.6%。
real world tasks
真实任务定性对比:论文指出 GE-ACT 常见失败包括 drawer handle 对齐不准、抓取不稳定、空间 grounding 弱;WAV 的多步行为更连贯。

5.3 消融实验

stage1
K、M、N 消融:K 从 1 到 5 提升明显,继续到 10 收益边际减小;M 对性能影响更强,N 较早饱和。
smoothing elite
左:$\alpha,\beta$ 平滑参数;右:elite counts $K_1,K_2$。过小平滑会导致不稳定,极小 elite count 会降低稳定性。
speed memory
Performance-efficiency trade-off:$K$ 增加会提高成功率但增加推理时间和显存;论文认为 $K=3$ 是较好的折中。

5.4 补充实验与附录图

stage1 appendix
附录补充:不同 $K,M,N$ 下的更多趋势图 [附录 B]
value trajectory
附录补充:真实机器人和 LIBERO 中 inferred state-value trajectories 与 ground truth 的比较 [附录 B]
pred vs gt
附录补充:LIBERO 两个任务中 predicted videos 与 ground truth 的定性比较 [附录 B]

6. 分析与讨论

6.1 论文已给出的结果分析与解释

6.2 作者自述的局限性

Conclusion 中明确写出的主要局限是 deployment time 和 storage overhead。论文没有在正文中展开更多 failure taxonomy 或安全边界,因此本报告不额外补充主观局限。

6.3 适用边界与未来工作

6.4 可复现性审计

项目状态说明
源码结构已获取arXiv e-print 包含主 tex、bib、style 和 figures。
图表已提取PNG 已复制,PDF 图已转换为 PNG 放入本报告 figures/。
训练超参数较完整附录给出 video 与 value/action training 的主要超参数。
硬件/训练时长明确8x A100-SXM4-80GB;LIBERO 约 5 天,真实 Piper 每任务约 3 天。
数据部分待公开真实机器人数据规模和传感器配置明确,但论文称 dataset 将在发表后公开。
官方代码未在源码正文明确给出源码给出 project page,但没有在 LaTeX 正文中直接提供 GitHub 仓库 URL。