World-Value-Action Model: Implicit Planning for Vision-Language-Action Systems

作者：Runze Li, Hongyin Zhang, Junxi Jin, Qixin Zeng, Zifeng Zhuang, Yiqi Tang, Shangke Lyu, Donglin Wang

机构：Westlake University; Nanjing University Suzhou Campus

发表：arXiv preprint, 2026

arXiv：2604.14732 | PDF：下载 | Project Page：win-commit.github.io/wavpage

1. 论文速览

一句话总结：WAV 把 VLA 的动作生成从“直接预测动作”改写为“在未来轨迹 latent space 中做隐式规划”：先生成候选未来视觉轨迹，再用 trajectory value 评估长期收益，最后将高价值且动态可行的 latent trajectory 解码为动作。

难度评级：★★★★☆。需要熟悉 VLA、world model、flow matching、MPC/MPPI、trajectory value，以及基本的 high-dimensional probability/covering argument。

关键词：Vision-Language-Action, World Model, Trajectory Value, Latent Planning, Flow Matching, MPPI-style Inference。

阅读定位问题	答案
论文要解决什么	现有 VLA 多数直接从当前观察和指令预测动作，缺少对长时域未来轨迹的推理与评估，因此在 compositional / long-horizon manipulation 中容易累积错误。
作者的方法抓手	构造 World-Value-Action 三模块：world/video generator 预测未来视觉特征，value module 评估轨迹长期效用，action decoder 根据优化后的 latent video/value features 生成动作。
最重要的结果	LIBERO 平均成功率 98.1；去掉 latent trajectory planning 后降到 96.4，Long suite 从 94.4 降到 91.8。真实机器人任务平均成功率从 GE-ACT 的 35.6% 提升到 WAV 的 75.6%。
阅读时要注意的点	核心不是单纯“多一个 world model”，而是把 action search 移到 learned latent trajectory distribution 中，并用 value/SNR/elite selection 反复重加权。

核心贡献清单

提出 WAV 框架。把 future visual trajectory generation、trajectory value estimation 和 action decoding 放在一个统一的 VLA 决策框架中。
提出 latent trajectory planning。不是显式 rollout 大量动作序列，而是在 video/value latent noise distributions 上做迭代推断。
给出理论解释。作者用 feasible trajectory manifold 的概率质量分析说明，直接 action-space search 的可行轨迹采样概率会随 horizon 指数衰减，而 latent generator 可重分配概率质量。
给出仿真和真实机器人验证。在 LIBERO 和 Piper 真实双臂机器人任务上与 GE-ACT 等 baseline 比较，并做了 K、M、N、平滑参数、elite count、速度/显存等消融。

2. 动机

2.1 要解决什么问题

论文关注 language-conditioned robotic manipulation。每个时刻模型接收视觉观察 $o_t$、语言指令 $g$，以及可选本体状态 $p_t$，输出动作 $a_t$。已有 VLA 通过预训练 VLM 获得语义泛化能力，但多数方法仍把决策看作直接动作预测：给当前上下文，输出当前或短窗口动作。

这个设置在短任务中可行，但在长时域任务中会出现两个问题：第一，模型没有显式机制评估“当前动作会把未来带向什么状态”；第二，多步任务中的早期小误差会累积成后续失败。真实机器人例子中，drawer task 需要开抽屉、放入物体、再关抽屉；若第一步未对准抽屉把手，后续步骤即使动作形式正确也会失效。

2.2 已有方法的局限

直接动作预测：通常把每一步或短动作 chunk 当作 supervised target，缺少长期 trajectory-level evaluation。
world model-only 路线：能预测未来观察，但不一定提供“哪条未来轨迹更值得执行”的价值判断，也不自动完成动作选择。
world model 作为 RL simulator：可以生成 synthetic rollouts 或 reward，但论文指出这类方法受 world model generalization 限制，复杂或 OOD 场景中容易出现 compounding errors。
显式 action-space planning：随着 horizon $H$ 增长，动作序列空间维度线性增长，而满足物理、接触和语义约束的 feasible trajectories 只占极小概率质量。这个理论动机在正文和附录中被形式化 [附录 A.1]。

2.3 本文的解决思路

WAV 的高层 insight 是：规划可以不作为一个外置 optimizer，而可以作为 structured generative model 内部的 inference process。模型学习一个能产生 plausible future trajectories 的 latent generator，再学习一个 trajectory value function 评估这些未来，推断阶段反复把 latent noise distribution 向高价值、低不确定性的区域移动。

3. 相关工作梳理

3.1 论文自述的相关工作

技术线	论文如何组织	与本文关系
World Models for VLA	包括 unified VLA-world-model architectures，以及用 world model 生成 virtual environments、synthetic rewards 或 post-training signals 的路线，如 DreamVLA、GEVRM、WorldVLA、GENIE/GE-ACT 等。	本文不只提高世界模型预测能力，而是把 world prediction 与 trajectory value、action decoding 组合成 latent planning。
RL post-training for VLA	相关工作关注通过 RL、偏好优化、奖励设计来提升 VLA 的任务执行能力。	WAV 使用 rule-based dense reward 来训练 trajectory value，但重点是 inference-time latent planning，而不是只做 policy post-training。
Model-Based RL	从 Dyna、probabilistic dynamics、MPC、latent world models 到 MPPI/Dreamer/MuZero 等，强调通过预测模型和价值评估进行长时域决策。	WAV 借鉴 MPC/MPPI 的“采样-评估-重加权”思想，但把优化变量从 action sequence 换成 learned latent noise distributions。

3.2 直接前作对比

维度	GE-ACT / GENIE 类方法	WorldVLA / DreamVLA 类方法	WAV
核心思路	利用 video pretraining / generative action modeling 改善动作生成。	联合建模策略执行与未来状态预测。	同时生成未来视觉轨迹、估计轨迹价值、解码动作，并在 latent space 中迭代规划。
关键假设	给定当前上下文可直接生成较好动作。	未来预测能增强策略学习或数据增强。	learned latent generator 能覆盖 feasible trajectory manifold，value module 可区分高价值轨迹。
适用场景	可处理多种 manipulation，但长链条误差会累积。	适合需要预测未来动态的 VLA 设置。	特别针对 long-horizon、compositional、需要多步协调的任务。
实验性能	GE-ACT 在 LIBERO 平均 96.5；真实任务平均 35.6%。	WorldVLA 79.1，DreamVLA 92.6，UniVLA 95.5，按论文表格报告。	LIBERO 平均 98.1；真实任务平均 75.6%。

4. 方法详解

4.1 方法概览

WAV 的数据流可以写成：输入多视角观察、语言指令和机器人状态；video generation module 生成候选未来视觉特征；trajectory value module 对每条候选未来估计长期回报和稳定性；latent planning 在 video/value latent distributions 中选择 elite samples 并更新均值方差；action decoder 融合优化后的 video/value features 输出动作。

Figure: WAV pipeline。图中对应 video/world module、trajectory value module 和 action decoding module。源码中该图为独立 PNG 文件。

Input: observation o_t, proprioception p_t, language g Encode g with frozen T5-XXL -> T(g) Initialize video latent Gaussian f_vid^(0), value latent Gaussian f_val^(0) for k = 1..K: sample M video noises z_vid ~ f_vid^(k-1) generate future visual features x = W(z_vid, observations, T(g)) for each x: sample N value noises z_val ~ f_val^(k-1) estimate trajectory values v = V(x, z_val) score by SNR(v) update f_vid^(k) from top-K1 video samples update f_val^(k) from top-K2 value samples smooth mean/std with alpha, beta sample optimized z_vid*, z_val* decode action a_t = A(video features, value features)

4.2 方法演变脉络

论文的演变逻辑可以概括为：

阶段	方法形式	改进动机
直接 VLA	$\pi_\theta(a_{t:t+H}\mid o_t,p_t,g)$ 直接预测短动作序列。	能利用语言和视觉预训练，但缺少 trajectory-level future evaluation。
MPC/MPPI	采样候选未来动作序列，rollout 后按 reward/value 选优。	具备长时域推理，但 action-space search 在高维长 horizon 中可行轨迹概率很低。
WAV	在 learned latent trajectory space 中采样和重加权，最后解码动作。	利用生成模型把概率质量集中在物理和语义上更可行的未来轨迹附近。

4.3 核心设计与数学推导

4.3.1 VLA 与 MPC 基础定义

VLA 直接动作预测：给定历史观察、状态、动作和语言，逐步预测动作。

$$\pi_\theta(a_{1:T}\mid o_{1:T},p_{1:T},g)=\prod_{t=1}^{T}\pi_\theta(a_t\mid o_{1:t},p_{1:t},a_{1:t-1},g).$$

其中 $o_t$ 是视觉观察，$p_t$ 是 proprioceptive state，$g$ 是语言指令，$a_t$ 是动作。实际实现常预测短窗口 $a_{t:t+H}$。

MPC 目标：在有限 horizon 内选择能最大化累计折扣奖励的动作序列。

$$a_{t:t+H}^\star=\arg\max_{a_{t:t+H}}\mathbb{E}\left[\sum_{i=0}^{H}\gamma^iR(s_{t+i},a_{t+i})\right].$$

这解释了本文为什么需要 future prediction 和 trajectory value；但直接在 $\mathcal{A}^H$ 中搜索会遇到 feasibility bottleneck。

4.3.2 为什么 action-space search 难

核心说法：长 horizon 轨迹空间很大，但满足物理、接触、语义约束的可行轨迹只是一条“薄流形”。

$$\mathcal{X}=\mathcal{S}^{H}\times\mathcal{A}^{H},\qquad D=H(\dim\mathcal{S}+\dim\mathcal{A}).$$ $$\frac{\mu(\mathcal{N}_\epsilon(\mathcal{M}_{\mathrm{traj}}))}{\mu(\mathcal{X})}\le \exp(-cH).$$

$\mathcal{M}_{\mathrm{traj}}$ 是 feasible trajectory set；$\mathcal{N}_\epsilon$ 是其 $\epsilon$-neighborhood。结论是：如果随机在整个 trajectory/action space 中找候选，碰到近似可行轨迹的概率会随 $H$ 指数下降。

附录证明整合：covering number 证明思路 [附录 A.1]

作者在附录中把 $\mathcal{M}_{\mathrm{traj}}$ 视为 intrinsic dimension 为 $d$ 的 compact subset。用半径 $\epsilon$ 的球覆盖该集合，覆盖数满足 $N_\epsilon\le C_1\epsilon^{-d}$。每个球在 $D$ 维空间中的体积与 $\epsilon^D$ 成比例，因此邻域体积至多与 $\epsilon^{D-d}$ 同阶。由于 $D=H(\dim\mathcal{S}+\dim\mathcal{A})$，并假设 $d\le\lambda H$ 且 $\lambda<\dim\mathcal{S}+\dim\mathcal{A}$，可得 $D-d\ge\kappa H$，进而 $\epsilon^{D-d}=\exp((D-d)\log\epsilon)\le\exp(-cH)$。

4.3.3 Latent planning 如何重分配概率质量

如果 learned generator 已经倾向于生成可行轨迹，那么在 latent space 中采样比在 action space 中盲采样更容易得到 feasible trajectories。

$$\tau_{t:t+H}=\mathcal{W}_\theta(z),\qquad z\sim f_\theta(s_t),\qquad P_{\mathrm{latent}}=(\mathcal{W}_\theta)_\# f_\theta.$$ $$P_{\mathrm{latent}}(\mathcal{M}_{\mathrm{traj}})=\Pr_{z\sim f_\theta(s_t)}[\mathcal{W}_\theta(z)\in\mathcal{M}_{\mathrm{traj}}]\ge 1-\delta.$$ $$\frac{\Pr_{z\sim f_\theta(s_t)}[\mathcal{W}_\theta(z)\in\mathcal{M}_{\mathrm{traj}}]}{\Pr_{a_{t:t+H}\sim\mathrm{Unif}(\mathcal{A}^{H})}[\Phi(a_{t:t+H})\in\mathcal{M}_{\mathrm{traj}}]}\ge \exp(cH)(1-\delta).$$

$\Phi$ 是由系统动力学诱导的 rollout map。该命题不是说 latent planning 保证最优，而是说在“学到的 latent generator 近似覆盖 feasible manifold”的条件下，feasible probability 相对 action-space uniform sampling 指数级更高。

附录证明整合：为什么还需要迭代推断 [附录 A.2]

附录进一步指出，feasible 不等于 high-value。定义轨迹回报 $V(\tau)=\sum_{h=0}^{H-1}\gamma^h r(s_{t+h},a_{t+h})$，以及 $\varepsilon$-optimal set $\mathcal{M}_\varepsilon=\{\tau\in\mathcal{M}_{\mathrm{traj}}\mid V(\tau)\ge V^\star-\varepsilon\}$。即使 $P_{\mathrm{latent}}(\mathcal{M}_{\mathrm{traj}})$ 很大，也不推出 $P_{\mathrm{latent}}(\mathcal{M}_\varepsilon)$ 有常数下界。因此固定 sample budget 的 one-shot latent sampling 不保证找到 near-optimal trajectory。WAV 采用 iterative inference，通过 value/SNR 反馈不断把 latent distribution 推向高价值区域。

4.3.4 三个模块与训练目标

Video generation module：给语言和多视角历史，生成未来视觉特征 chunk。

$$\hat{x}_{t:t+N}=\mathcal{W}(\{v_0^{(i)},v_{\hat{t}}^{(i)},z^{(i)}\}_{i},\mathcal{T}(g)).$$

$\mathcal{T}(g)\in\mathbb{R}^{L_g\times d_t}$ 来自 frozen T5-XXL；$i\in\{h,l,r\}$ 表示不同相机视角；$z^{(i)}\sim\mathcal{N}(0,I)$ 是 view-specific latent noise。

Action decoder：动作 token 先 attend 到 video features，再 attend 到 value embedding。

$$\mathbf{z}_{\mathrm{act}}^{(i)}=\mathcal{B}_{i}^{\mathrm{act}}(\mathbf{z}_{\mathrm{act}}^{(i-1)},\operatorname{CrossAttn}(\mathbf{z}_{\mathrm{act}}^{(i-1)},\mathbf{x}_i)),$$ $$\mathbf{a}_i=\mathcal{B}_{i}^{\mathrm{act}}(\mathbf{z}_{\mathrm{act}}^{(i)},\operatorname{CrossAttn}(\mathbf{z}_{\mathrm{act}}^{(i)},\mathbf{u}_i)).$$

$\mathbf{x}_i$ 是第 $i$ 个视觉 transformer block 的 video tokens；$\mathbf{u}_i$ 是 trajectory value embedding。

训练采用三阶段 flow matching：

Video flow loss：$\mathcal{L}_{\mathrm{vid}}=\mathbb{E}[\|v_\theta(t,l,o,x^t)-(x^1-x^0)\|_2^2]$。
Value flow loss：$\mathcal{L}_{\mathrm{val}}=\mathbb{E}[\|v_\theta(t,l,o,z_{\mathrm{vid}},v^t)-(v^1-v^0)\|_2^2]$，其中 $v^1=\sum_{i=0}^{H}\gamma^iR(s_{t+i},a_{t+i})$。
Action flow loss：$\mathcal{L}_{\mathrm{act}}=\mathbb{E}[\|v_\theta(t,l,o,z_{\mathrm{vid}},z_{\mathrm{val}},a^t)-(a^1-a^0)\|_2^2]$。

4.3.5 Iterative latent inference

WAV 维护两个 Gaussian：video latent noise distribution 和 value latent noise distribution。

$$f_{\mathrm{vid}}^{(k)}=\mathcal{N}(\boldsymbol{\mu}_{\mathrm{vid}}^{(k)},\operatorname{diag}((\boldsymbol{\sigma}_{\mathrm{vid}}^{(k)})^2)),$$ $$f_{\mathrm{val}}^{(k)}=\mathcal{N}(\boldsymbol{\mu}_{\mathrm{val}}^{(k)},\operatorname{diag}((\boldsymbol{\sigma}_{\mathrm{val}}^{(k)})^2)).$$

$k$ 是迭代编号。每轮采样 $M$ 个 video noises，每个 video hypothesis 再采样 $N$ 个 value noises。

评分函数：用 value prediction 的 signal-to-noise ratio 衡量“高回报且稳定”。

$$\operatorname{SNR}^{(m,n)}=\frac{\mathbb{E}[\mathbf{v}^{(m,n)}]}{\operatorname{Std}[\mathbf{v}^{(m,n)}]+\epsilon},\qquad \phi^{(m)}=\max_{n\in\{1,\dots,N\}}\operatorname{SNR}^{(m,n)}.$$

$\epsilon$ 是数值稳定常数。每个 video candidate 的分数取其 $N$ 次 value estimates 中最可靠的一个。

Elite update：用 top-$K_1$ / top-$K_2$ 的 latent samples 更新均值和方差。

$$\boldsymbol{\mu}_{\mathrm{vid}}^{(k)}=\frac{1}{K_1}\sum_{m\in\mathcal{E}_{\mathrm{vid}}}\mathbf{z}_{\mathrm{vid}}^{(m)},\quad \boldsymbol{\sigma}_{\mathrm{vid}}^{(k)}=\sqrt{\frac{1}{K_1}\sum_{m\in\mathcal{E}_{\mathrm{vid}}}(\mathbf{z}_{\mathrm{vid}}^{(m)}-\boldsymbol{\mu}_{\mathrm{vid}}^{(k)})^2}.$$ $$\boldsymbol{\mu}^{(k)}\leftarrow\alpha\boldsymbol{\mu}^{(k)}+(1-\alpha)\boldsymbol{\mu}^{(k-1)},\quad \boldsymbol{\sigma}^{(k)}\leftarrow\beta\boldsymbol{\sigma}^{(k)}+(1-\beta)\boldsymbol{\sigma}^{(k-1)}.$$

value distribution 的更新同理，只是 elite set 是 $\mathcal{E}_{\mathrm{val}}$，从 $M\times N$ 个 value samples 中选 top-$K_2$。

4.4 实现要点

真实机器人数据：附录说明 drawer-opening 和 bowl-organization 各收集约 300 条成功轨迹，towel-flattening 收集 2,000 条成功轨迹；每条轨迹包含两个 wrist cameras（$240\times320\times3$）、一个 third-person top camera（$240\times424\times3$）和 14 维 robot joint states [附录 B]。

奖励设计：沿用 ReinboT 的 dense reward 思路，但省略 sub-goal achievement term，保留 task progress、behavior smoothness、task completion 相关项；双臂设置中共有 9 类 reward terms、16 个 scalar components [附录 B]。

数值稳定性：SNR 分母加 $\epsilon$；latent distribution update 后使用 $\alpha,\beta$ 平滑均值和方差，避免 distribution collapse。

训练资源：论文报告使用 8 NVIDIA A100-SXM4-80GB GPU，CPU 为 Intel Xeon Platinum 8358 @ 2.60GHz。LIBERO full-parameter fine-tuning 约 5 天；真实 Piper 每任务约 3 天 [附录 B]。

5. 实验

5.1 实验设置

项目	设置
仿真数据集	LIBERO benchmark，包含 Spatial、Object、Goal、Long 四个 suites；分别测试空间泛化、物体泛化、goal-conditioned behavior 和长时域组合任务。
真实机器人	Piper 双臂平台；任务包括 bowl organization、towel flattening、long-horizon drawer task。
Baseline	LIBERO 中对比 Diffusion Policy、Octo、OpenVLA、SpatialVLA、$\pi_0$ 系列、OpenVLA-OFT、VLA-Adapter、WorldVLA、CoT-VLA、FlowVLA、DreamVLA、UniVLA、GE-ACT 等；真实机器人主要对比 GE-ACT。
评价指标	成功率。真实机器人采用 strict binary success metric：任务完全完成才算成功，无 partial credit。
代码/项目页	论文源码中给出 project page: https://win-commit.github.io/wavpage/。源码未在正文中给出明确 GitHub URL。

训练超参数 [附录 B]

模块	Gradient clip	Steps	Warm-up	Batch	Learning rate	Weight decay	Caption Dropout	Optimizer
Video Training	1.0	40000	1000	128	$3e-4$	$1e-5$	0.06	Adam ($\beta_1=0.9,\beta_2=0.95,\beta_3=0.999$)
Value & Action Training	1.0	30000	1000	128	$5e-5$	$1e-5$	0	Adam ($\beta_1=0.9,\beta_2=0.95,\beta_3=0.999$)

Dense reward terms [附录 B]

Reward term	Definition	Weight
Wrist-view MSE	$c_{1,t}^b=\exp(-0.01\cdot\mathrm{MSE}(I_t^b,I_T^b))$	$+1/16$ each
Wrist-view SSIM	$c_{2,t}^b=\exp(\mathrm{SSIM}(I_t^b,I_T^b)-1)$	$+1/16$ each
Top-view MSE / SSIM	对应 top camera 的 MSE 和 SSIM 目标相似度	$+1/16$ each
Joint-state proximity	$c_{5,t}^b=\exp(-\\|s_t^b-s_T^b\\|_2)$	$+1/16$ each
Joint/action velocity & acceleration penalties	$\sum_j\|\Delta s_{t,j}^b\|$, $\sum_j\|\Delta^2s_{t,j}^b\|$, $\sum_j\|\Delta a_{t,j}^b\|$, $\sum_j\|\Delta^2a_{t,j}^b\|$	joint penalties $-1/16$ each；action penalties $-0.1/16$ each

5.2 主要结果

LIBERO

Model	Params	Spatial	Object	Goal	Long	Avg.
GE-ACT	2b	98.2	97.6	95.8	94.4	96.5
VLA-Adapter	0.5b	97.8	99.2	97.2	95.0	97.3
WAV (Ours)	2.2b	99.6	100.0	98.6	94.4	98.1
WAV w/o Latent Trajectory Planning	-	99.0	99.6	95.0	91.8	96.4

论文的关键解读是：平均提升来自多项 suite，而 latent planning 的贡献在 Long suite 上最明显。移除 latent trajectory planning 后，平均分下降 1.7 点，Long 从 94.4 降到 91.8。

真实机器人

真实机器人定量结果：WAV 与 GE-ACT 对比，每项结果平均 15 次 trials。论文正文报告平均成功率从 35.6% 提升到 75.6%。

真实任务定性对比：论文指出 GE-ACT 常见失败包括 drawer handle 对齐不准、抓取不稳定、空间 grounding 弱；WAV 的多步行为更连贯。

5.3 消融实验

K、M、N 消融：K 从 1 到 5 提升明显，继续到 10 收益边际减小；M 对性能影响更强，N 较早饱和。

迭代次数 $K$：增加 $K$ 会让 latent distribution 有更多轮重加权，成功率先明显上升，之后收益递减。
Video samples $M$：论文认为性能对 $M$ 敏感，说明探索多种未来视觉轨迹假设很重要。
Value samples $N$：影响相对温和，达到合理估计密度后继续增加收益有限。

左：$\alpha,\beta$ 平滑参数；右：elite counts $K_1,K_2$。过小平滑会导致不稳定，极小 elite count 会降低稳定性。

Performance-efficiency trade-off：$K$ 增加会提高成功率但增加推理时间和显存；论文认为 $K=3$ 是较好的折中。

5.4 补充实验与附录图

附录补充：不同 $K,M,N$ 下的更多趋势图 [附录 B]。

附录补充：真实机器人和 LIBERO 中 inferred state-value trajectories 与 ground truth 的比较 [附录 B]。

附录补充：LIBERO 两个任务中 predicted videos 与 ground truth 的定性比较 [附录 B]。

6. 分析与讨论

6.1 论文已给出的结果分析与解释

作者把 LIBERO Long suite 上的优势归因于 trajectory-level planning 对 compounding errors 的缓解。
真实机器人结果中，作者认为 baseline 的失误来自 inaccurate action execution 和 weak spatial grounding，这些错误在多步任务中会级联放大。
消融中，作者解释 $M$ 的敏感性来自未来轨迹假设探索不足；$N$ 较早饱和则说明 value evaluation 达到合理密度后新增样本收益有限。
速度/显存实验中，作者认为 $K=3$ 已捕捉大部分 iterative refinement 的收益，继续增大 $K$ 主要增加计算成本。

6.2 作者自述的局限性

Conclusion 中明确写出的主要局限是 deployment time 和 storage overhead。论文没有在正文中展开更多 failure taxonomy 或安全边界，因此本报告不额外补充主观局限。

6.3 适用边界与未来工作

适用边界：WAV 依赖 learned latent generator 能近似覆盖 feasible trajectory set；理论命题本身也是 conditional comparison。
数据与奖励：真实任务中使用 task-specific successful trajectories 和 rule-based dense rewards，数据集作者称将在发表后公开。
未来工作：作者提出扩展到 richer multi-modal instructions，以及实现 real-time closed-loop deployment on physical robotic systems。

6.4 可复现性审计

项目	状态	说明
源码结构	已获取	arXiv e-print 包含主 tex、bib、style 和 figures。
图表	已提取	PNG 已复制，PDF 图已转换为 PNG 放入本报告 figures/。
训练超参数	较完整	附录给出 video 与 value/action training 的主要超参数。
硬件/训练时长	明确	8x A100-SXM4-80GB；LIBERO 约 5 天，真实 Piper 每任务约 3 天。
数据	部分待公开	真实机器人数据规模和传感器配置明确，但论文称 dataset 将在发表后公开。
官方代码	未在源码正文明确给出	源码给出 project page，但没有在 LaTeX 正文中直接提供 GitHub 仓库 URL。