中文 EN

VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model

方法名:VLA-JEPA

作者:Jingwen Sun, Wenyao Zhang, Zekun Qi, Shaojie Ren, Zezhi Liu, Hanxin Zhu, Guangzhong Sun, Xin Jin, Zhibo Chen

机构:University of Science and Technology of China;Zhongguancun Academy;Shanghai Jiao Tong University;Tsinghua University;Eastern Institute of Technology, Ningbo;University of Chinese Academy of Sciences;Nankai University

arXiv:v1 提交于 2026-02-10,v2 更新于 2026-02-14

链接:arXiv:2602.10098 | PDF | 项目页 | 官方代码 | Hugging Face

1. 论文速览

一句话总结:VLA-JEPA 用 JEPA-style latent world model 替代像素重建式 latent-action 预训练,让 VLA 从当前观测和语言中预测未来 latent state,并严格避免未来帧进入 student pathway,从而学习更接近可控状态转移的 latent action。
论文要解决什么互联网视频规模大但没有机器人动作标签;已有 latent-action 预训练容易学到像素差异、相机运动和背景变化,而不是对控制有用的状态转移语义。
作者的方法抓手使用 leakage-free state prediction:future frame 只经过 target encoder 产生监督目标,student 只看当前观测和语言;预测目标在 latent space 中对齐,而不是重建像素。
最重要的结果LIBERO 平均成功率 97.2;LIBERO-Plus 在 7 类扰动中 5 类最佳,平均 79.5;SimplerEnv 在 Google Robot 上平均 65.2,在 WidowX 上平均 57.3;真实机器人 ID 与 object-layout OOD 均优于 $\pi_0$ 和 $\pi_{0.5}$。
阅读时要注意的点这篇文章的核心不是“再加一个未来预测头”,而是把未来信息限制为 target,迫使 latent action token 承载从当前状态到未来 latent state 的解释变量;同时 action head 用 conditional flow matching 生成连续动作轨迹。

难度评级:★★★★☆。需要理解 VLA、latent action、JEPA/V-JEPA2、world model、causal attention、conditional flow matching,以及 LIBERO/SimplerEnv 等机器人评测。

关键词:Vision-Language-Action, JEPA, latent world model, latent action, human video pretraining, flow matching, LIBERO, SimplerEnv。

核心贡献清单

VLA-JEPA architecture
Figure 1. VLA-JEPA 架构:target encoder 从未来帧产生 latent target;student pathway 只看当前观测和语言,通过 latent action 与 predictor 预测未来 latent state。

2. 动机

2.1 要解决什么问题

VLA 模型需要大量视觉、语言和动作数据,但 action-labeled robot data 采集昂贵且覆盖窄。相比之下,人类视频和互联网视频规模更大,包含丰富的时间变化。因此近期很多工作希望从无动作标签视频中学习 latent action,再迁移到机器人控制。

论文认为,问题在于很多 latent-action objective 学到的是“视觉变化的压缩表示”,而不是“在交互下可控状态如何演化”。对机器人来说,action 的价值不在于解释每个像素怎么变,而在于解释物体、手、工具、机器人等与任务相关的状态转移。

2.2 已有方法的四个失败模式

  1. Pixel-level objective 偏向外观:未来像素预测或 frame-difference compression 容易被纹理、光照、背景、视角等高方差但低控制因素主导。
  2. 真实世界视频放大噪声运动:human videos 和 in-the-wild footage 中,相机运动和非因果背景变化可能强过交互导致的状态变化。
  3. 信息泄漏导致 latent action 变成 shortcut:如果训练时 latent action module 同时看到当前帧和未来帧,它可能直接编码未来图像,而不是学习解释状态转移的变量。
  4. 多阶段 pipeline 脆弱:表征预训练、latent-action learning/alignment、policy learning 等多阶段流程会引入工程复杂度和阶段间不一致。

2.3 本文的解决思路

VLA-JEPA 的原则是:预测反映 action-relevant transition structure 的未来 latent state,同时禁止 future information 泄漏进 predictor。JEPA 的优势正好契合这一点:不重建像素,而是在 latent representation 层面对齐,从而天然降低低层噪声对目标的支配。

4. 方法详解

4.1 总体框架

VLA-JEPA 由三个主要部分组成:Qwen3-VL-2B VLM backbone、V-JEPA2-based latent world model、conditional flow-matching action head。预训练阶段从 Something-Something-v2 人类视频和 Droid 机器人数据学习 latent action;后训练/微调阶段在 LIBERO、SimplerEnv 或真实机器人数据上训练下游控制。

论文在正文中说采用 Qwen3-VL 作为核心 VLM,视觉编码器是 SigLIP-2;附录明确实现使用 Qwen3-VL-2B。世界状态目标来自 frozen V-JEPA2 encoder,predictor 随机初始化并训练。附录 Implementation Details

4.2 Model Backbone 与 latent tokens

为了让 VLM 输出 time-aware latent action 与 embodied action,作者向 Qwen3-VL 词表加入两类特殊 token:$\langle latent_i \rangle$ 和 $\langle action \rangle$。其中 $\langle latent_0 \rangle$ 表示 $s_0$ 到 $s_1$ 的状态转移;$\langle action \rangle$ 在机器人数据上作为 action head 的条件。

实际生成 latent action token 时,同一个 $\langle latent_i \rangle$ 会重复 $K$ 次,以增强模型对 latent action tokens 的注意力;附录给出 $K = 24/T$,其中 $T$ 是未来视频 horizon,24 是经验最优值。附录 VLA-JEPA Architecture

4.3 从 human videos 学 latent world model

对于无动作标签的人类视频,数据写作 $D=\{(O_0,O_1,\dots,O_v,\ell)\}$,$\ell$ 是语言描述,$O_v$ 是第 $v$ 个视角的视频帧序列。世界状态编码器先对每个视角用 V-JEPA2 encoder $F(\cdot)$ 得到表示,再把多视角表示拼接成统一 world state:

这个公式在做:把同一时刻不同视角的视觉状态合成一个 world-state latent。

$$s_{t_i}=\Vert_v F(I_{v,t_i})$$
$F(\cdot)$单视角视频 encoder,论文采用 V-JEPA2。
$I_{v,t_i}$第 $v$ 个视角在时间 $t_i$ 的图像帧。
$\Vert_v$沿视角维度拼接 representation。

VLM 的 student pathway 只输入初始时刻多视角图像和语言,不输入未来帧。它把 learnable latent token 映射成状态转移表示:

$$z_{t_i}=p_\theta^{VLM}\left(\langle latent_i\rangle \mid \{I_{j,t_0}\}_{j=0}^{v}, \ell\right)$$

这里 $z_{t_i}$ 是第 $i$ 个 latent action token 对应的 latent representation。关键是右侧没有未来帧,未来帧只出现在 target encoder 产生的监督目标里。

随后 world model 用历史 world states 和对应 latent action representations 预测未来状态 chunk:

$$\hat{s}_{t_{1:i+1}} = p_\theta^{WM}(s_{t_{0:i}}, z_{t_{0:i}})$$

world model 采用 time-causal attention:同一时间步内 latent action tokens 与 image latent tokens 双向全注意力;跨时间步严格 causal,只能看当前和过去。

4.4 JEPA 目标和信息泄漏控制

论文把训练目标解释成 semantic space 中 predictive log-likelihood 的 ELBO。由于 frozen V-JEPA2 encoder $F(\cdot)$ 产生 deterministic embeddings,KL 项在实践中消失,目标退化为 latent-space reconstruction/alignment loss。

$$\mathcal{L}_{WM}=\sum_{k=1}^{T}\mathbb{E}_{s_{t_k}\sim F(\cdot)}(\hat{s}_{t_k}-s_{t_k})$$

论文原式没有写范数,结合上下文可理解为在 latent space 中对齐 predicted world state 与 target world state。报告中不额外假定未写明的具体距离形式。

这个设计避免两种常见 shortcut:一是不让模型直接重建像素,从而降低背景和相机 motion 的支配;二是不把未来帧喂给 student,因此 latent action 不会退化成未来图像压缩码。

4.5 机器人数据上的动作预测

在 action-labeled robot data 上,VLA-JEPA 同时保留 world modeling loss,并追加 embodied action token。VLM 输出全局 action-conditioning representation:

$$z_a=p_\theta^{VLM}\left(\langle action\rangle\mid \{I_{i,t_0}\}_{i=0}^{v}, \ell, \langle latent_i\rangle\right)$$

$z_a$ 作为 conditional flow-matching action head 的条件,和初始观测、语言、latent action 一起约束动作生成。

动作头用 DiT-B 风格 Transformer 建模连续动作轨迹分布。给定真实动作序列 $a_{0:H}$ 和高斯噪声 $\epsilon$,定义线性插值:

$$a_t=(1-t)\epsilon+t a_{0:H}, \quad t\sim\mathcal{U}(0,1)$$ $$\mathcal{L}_{FM}=\mathbb{E}_{a_{0:H},\epsilon,t}\left[\left\|v_\theta(a_t,t\mid z_a)-(a_{0:H}-\epsilon)\right\|_2^2\right]$$

训练目标是让模型预测从噪声流向真实动作序列的 velocity field;推理时从噪声积分到动作空间,得到 $\hat{a}_{0:H}$。

机器人数据上的总目标为:

$$\mathcal{L}=\mathcal{L}_{FM}+\beta \mathcal{L}_{WM}$$

4.6 架构与训练超参

Latent World Model 配置
Transformer Layers12
Attention heads8
Image token dimension2048
Number of image tokens per time step256
Action token dimension2048
Number of action tokens per time step3
Number of views2
Future video horizon8
Action Head 配置
Transformer Layers16
Attention heads12
Token dimension1024
State dimension8
Action dimension7
Future action horizon7
Positional encodingLearnable
Denoising timesteps4
训练细节论文/附录信息
图像尺寸VLM 输入 resize 到 224x224;world-state encoder 的 video clips resize 到 256x256。
动作归一化joint-position control 用 joint-space delta positions;end-effector control 用 delta positions 和 delta axis-angle;均 min-max 到 [0,1];gripper binarized 到 {0,1}。
多视角处理少于两个 camera views 时复制 world-state representation;多于两个 views 时选择两个用于 world-state representation。
训练硬件与 batch8 GPUs 并行,batch size 32,global batch size 256。
学习率cosine schedule + linear warmup;VLM 与 latent world model peak LR 1e-5;action head peak LR 1e-4。
训练步数SSv2+Droid 预训练 50K steps;仿真数据继续训练 30K steps;真实数据继续 fine-tune 20K steps。

5. 实验

5.1 实验设置

论文使用三类仿真 benchmark 和一个真实机器人环境:LIBERO 评估仿真 in-distribution manipulation;SimplerEnv 评估 real-to-sim gap;LIBERO-Plus 评估多维扰动鲁棒性;真实机器人使用 Franka Research 3 桌面 pick-and-place。作者比较最新 VLA baselines,包括 latent-action VLA、future-prediction VLA 和开源 VLA。

Experiment setup
Figure 3. 实验覆盖 LIBERO、LIBERO-Plus、SimplerEnv 和真实 Franka robot。
数据/阶段使用方式
Something-Something-v2220K human videos;用于 action-free human video latent world modeling pretraining。
Droid76K high-quality demonstration trajectories;用于 action-labeled robot data pretraining。
LIBERO / LIBERO-Plus只使用 LIBERO 原始约 2K expert demonstrations 微调,不使用 LIBERO-Plus augmented dataset。
SimplerEnv用 Fractal 与 BridgeV2 分别对应 SimplerEnv 的两种 embodiment post-training。
Real-world100 demonstrations,覆盖 3 个 picking-and-placing tasks。

5.2 LIBERO 主结果

LIBERO 每个 task suite 中每个任务评估 50 episodes,每个 suite 500 episodes,报告 success rate。VLA-JEPA 在 4 个 suites 中有 2 个第一,平均成功率最高。

方法SpatialObjectGoalLIBERO-10Avg
LAPA73.874.658.855.465.7
UniVLA96.596.895.692.095.2
OpenVLA-OFT97.698.497.994.597.1
$\pi_0$96.898.895.885.294.2
$\pi_{0.5}$98.898.298.092.496.9
VLA-JEPA96.299.697.295.897.2
VLA-JEPA w/o human videos94.899.695.894.096.1

作者特别指出,OpenVLA-OFT 和 $\pi_{0.5}$ 等强 baseline 依赖大量 robot datasets pretraining;VLA-JEPA 用更少数据达到更高平均值。与 LAPA、UniVLA、villa-X、CoT-VLA 等 latent-action / human-video 方法相比,VLA-JEPA 的结果支持其对 pixel shortcut 与 leakage 的问题判断。

5.3 SimplerEnv 结果

SimplerEnv 包含 Google Robot 与 WidowX Robot 两组 visual matching 设置。VLA-JEPA 在 Google Robot 平均 65.2,为所有列出方法中最高;在 WidowX Robot 平均 57.3,与 LAPA 持平最高。

方法Google PickGoogle MoveGoogle DrawerGoogle PlaceGoogle AvgWidowX SpoonCarrotBlockEggplantWidowX Avg
LAPA*-----70.845.854.258.357.3
villa-X81.755.438.44.244.948.324.219.271.740.8
RoboVLMs77.361.743.524.151.745.820.84.279.237.5
$\pi_0$72.765.338.3--29.1016.662.540.1
VLA-JEPA88.364.159.349.165.275.070.812.570.857.3
VLA-JEPA w/o human videos85.366.775.586.178.475.054.220.879.257.3

这个表也提示一个重要边界:w/o human videos 在 SimplerEnv 的 Google Avg 反而更高。作者解释为 real-to-sim gap 和 ID 场景中,高质量 expert demonstrations 的影响可能大于 human video。

5.4 LIBERO-Plus 鲁棒性

LIBERO-Plus 将原 LIBERO 四个 suites 放入七类扰动:Camera、Robot、Language、Light、Background、Noise、Layout。VLA-JEPA 在 Robot、Language、Light、Background、Layout 五类第一,平均 79.5 第一。

方法CameraRobotLanguageLightBackgroundNoiseLayoutAvg
UniVLA1.846.269.669.081.021.231.942.9
OpenVLA-OFT56.431.979.588.793.375.874.269.6
$\pi_0$13.86.058.885.081.479.068.953.6
$\pi_0$-Fast65.121.661.073.273.274.468.861.6
VLA-JEPA63.367.185.495.693.666.385.179.5
VLA-JEPA w/o human videos40.355.772.988.270.538.274.662.9

这张表是 human video 价值最清楚的证据之一:VLA-JEPA full model 从 w/o human videos 的 62.9 提升到 79.5,尤其在 Background、Noise、Language、Layout 上差距明显。

5.5 真实机器人实验

真实设置使用 Franka Research 3、Robotiq 2F-85 gripper、三个 Intel RealSense D435 摄像头,其中两个第三人称视角和一个 wrist-mounted view。训练专家演示包括把 grapes、apples、mangoes、oranges 从桌上放入 plate 或 bowl。每个任务执行 10 次独立 trials,报告平均成功率。附录 Real-world Experiments Details

Real-world experimental results
Figure 4. 真实机器人 ID、task OOD 与 object-layout OOD 结果;论文说明 VLA-JEPA 在 ID 和 layout OOD 上最佳,在 task OOD 上第二。

task-level OOD 包括:香蕉放入碗、桃子放到盘子、葡萄放到架子顶层。作者观察到:香蕉任务中 $\pi_{0.5}$ 与 VLA-JEPA 约 50% 成功;桃子任务因形状不规则,机器人常违反安全边界;架子任务中没有模型成功把末端放到顶层,但 VLA-JEPA 会从架子后侧接近并抬高末端,而 $\pi_0$ 与 $\pi_{0.5}$ 直接碰撞架子。

layout OOD 中,$\pi_0$ 与 $\pi_{0.5}$ 在抓取失败后不会重新打开 gripper 再抓;VLA-JEPA 会立即打开 gripper 并再次尝试。作者将其归因于 human videos 中存在大量 repeated grasping 行为。附录 Real-world Experiments Details

Real-world frames under object-layout OOD
Figure 7. object-layout OOD 下 $\pi_0$、$\pi_{0.5}$ 与 VLA-JEPA 的执行比较。

5.6 进一步分析与消融

Human video 的影响

论文的分析很克制:human videos 在 LIBERO 和 SimplerEnv 上不一定带来显著提升,甚至 w/o human videos 在 SimplerEnv 某些设置更强;但在 LIBERO-Plus 这类扰动鲁棒性场景中,human videos 明显提升稳定性。作者认为 human videos 主要增强已有技能的 robustness/stability,而不是直接引入新的 action execution capability。

Human video proportion effect
Figure 5. 随 human video proportion 增大,LIBERO-Plus 多类扰动下的成功率变化;作者据此支持 human videos 主要提升鲁棒性。

Unified pretraining 的影响

作者可视化 LAPA、UniVLA、VLA-JEPA 的 latent action token 到 image token 的 attention。论文解释:LAPA 关注过密视觉信息和无关桌面物体,可能来自信息泄漏;UniVLA 借助文本语义缓解但会关注 stationary pen、tablecloth texture 等无关语义背景;VLA-JEPA 更集中于 robotic arm、hand 与 manipulated objects。

Attention map
Figure 6. latent action tokens 对 image tokens 的 attention weight matrix。

Future video horizon

$T$SpatialObjectGoalLIBERO-10Avg
495.099.295.889.094.8
894.899.895.894.096.1
1692.898.898.092.295.5

作者希望 latent action 捕捉相邻帧间动态,latent action token 数始终等于帧数减一。$T=8$ 平均最好,论文解释为它接近预定义 action horizon;$T$ 太小信息不足,$T$ 太大引入冗余。

6. 可复现审计

代码与模型

有官方代码与模型入口:GitHub README 显示 partial training code、LIBERO/LIBERO-Plus/SimplerEnv evaluation code、custom dataset training code 已发布;Hugging Face 提供 checkpoints。README 也列出 Qwen3-VL-2B、V-JEPA2 encoder、SSv2、Droid、LIBERO、BridgeV2、Fractal 等依赖资源。

复现项已给信息状态
模型结构Qwen3-VL-2B;V-JEPA2 encoder;latent world model 与 action head 配置表完整。充分
训练超参图像尺寸、batch、GPU 数、学习率、schedule、训练步数、动作归一化、多视角处理均在附录给出。较充分
数据SSv2、Droid、LIBERO、BridgeV2、Fractal 在 README 中给出下载链接;真实机器人 100 demos 无公开完整数据说明。仿真较充分,真实实验有限
评测README 给出 LIBERO、LIBERO-Plus、SimplerEnv 环境准备、checkpoint 配置和 eval script。充分
硬件论文训练使用 8 NVIDIA A100 GPUs;README 说明 LIBERO 4 GPUs 并行,LIBERO-Plus/SimplerEnv 8 GPUs 并行,可按 GPU 数修改。成本较高
Repository setup skeleton: git clone https://github.com/ginwind/VLA-JEPA conda create -n VLA_JEPA python=3.10 -y conda activate VLA_JEPA pip install -r requirements.txt pip install flash-attn --no-build-isolation pip install -e . Required checkpoints: - Qwen3-VL-2B - V-JEPA2 encoder - VLA-JEPA checkpoints from Hugging Face

7. 分析、局限与边界

7.1 这篇论文最有价值的地方

基于论文自身证据,最有价值的点是把 latent action 的学习目标从“解释像素差异”改成“在无泄漏条件下解释未来 latent state”。这使 human-video pretraining 的作用更接近“提升已有技能的鲁棒性和时序稳定性”,而不是把人类视频误当成可直接执行的机器人动作监督。LIBERO-Plus 和真实机器人 repeated grasping 观察,是这一点最直接的支撑。

7.2 结果为什么站得住

论文不是只报一个平均值,而是在 LIBERO、SimplerEnv、LIBERO-Plus 和真实机器人四类设置上测试,并且把 human videos、future horizon、attention map 做了拆解。尤其是 LIBERO-Plus 中 full model 与 w/o human videos 的差距,和 SimplerEnv 中 w/o human videos 反而更好的现象共同说明:作者没有把 human videos 泛化为万能增益,而是把收益边界定位在 robustness/stability 上。

7.3 论文明确写出的失败现象

7.4 适用边界