中文 EN

VideoVLA: Video Generators Can Be Generalizable Robot Manipulators

方法名:VideoVLA

作者:Yichao Shen, Fangyun Wei, Zhiying Du, Yaobo Liang, Yan Lu, Jiaolong Yang, Nanning Zheng, Baining Guo

机构:IAIR, Xi'an Jiaotong University;Microsoft Research Asia;Fudan University

发表:NeurIPS 2025;arXiv v1 提交于 2025-12-07

链接:arXiv:2512.06963 | PDF | 项目页 | 官方代码 | 模型

1. 论文速览

一句话总结:VideoVLA 把 CogVideoX-5B 这类预训练视频生成器改造成 VLA 机器人策略:给定语言和当前图像,用一个多模态 Diffusion Transformer 同时预测未来动作 chunk 和执行这些动作后的未来视觉结果。
论文要解决什么现有 VLA 多依赖预训练理解模型,能完成训练分布内任务,但对新任务、新物体、新 embodiment skill 的泛化仍有限;作者尝试把视频生成器的物理想象和未来状态预测能力迁移到机器人操作。
作者的方法抓手把视频生成和动作生成统一为一个 diffusion denoising 问题:语言 token 与当前图像 latent 作为条件,未来视频 latent 和 7-D action sequence 作为共同去噪目标。
最重要的结果SIMPLER in-domain 全任务平均 63.0,略高于 CogACT 62.6;SIMPLER novel objects 平均 65.2,new skills 平均 48.6;真实 Realman in-domain 平均 64.6,novel objects 50.6,cross-embodiment skills 58.0,均为表中最佳。
阅读时要注意的点核心不是额外生成一段视频做展示,而是用 video-action dual prediction 作为训练约束。消融显示去掉 video loss 或只预测 action,会让 in-domain 与泛化性能大幅下降。

难度评级:★★★★☆。需要理解 VLA、Diffusion Transformer、CogVideoX/causal video VAE、action chunking、SIMPLER 评测、机器人跨 embodiment 泛化。

关键词:VideoVLA, video generation, VLA, Diffusion Transformer, visual imagination, action chunk, CogVideoX, SIMPLER, Realman robot。

核心贡献清单

VideoVLA illustration
Figure 1. VideoVLA 给定语言指令和当前视觉观测,同时预测下一段动作以及这些动作对环境交互的未来视觉影响。

2. 动机

2.1 要解决什么问题

机器人操作的长期目标是泛化到训练时未见的任务、物体和环境。现有 VLA 通过大规模视觉、语言或视觉语言理解模型减少任务特定机器人数据需求,但作者认为这种路线仍难充分实现 true generalization,尤其是在 novel objects 与 unseen skills 上。

视频生成模型则在 novel text / image condition 下表现出强泛化,并生成具有物理合理性的未来视频。作者观察到这与机器人操作高度对齐:机器人也需要从新指令和新视觉观测中预测物理后果,并据此组织动作。

2.2 关键假设

如果模型能生成与真实执行结果一致的“视觉想象”,那么它更可能预测出能完成任务的动作。换句话说,未来视觉结果不是额外副产物,而是动作可靠性的隐式监督和诊断信号。

4. 方法详解

4.1 问题形式化

输入为文本指令 $\mathcal{T}$ 和当前视觉观测 $\mathcal{O}$,输出两类未来量:

动作输出:未来 $K$ 步可顺序执行的 action chunk。

$$\mathcal{A}=\{\boldsymbol{a}_i\in \mathbb{R}^{7}\}_{i=1}^{K}$$
$\boldsymbol{a}_i[1:3]$wrist rotation。
$\boldsymbol{a}_i[4:6]$wrist translation。
$\boldsymbol{a}_i[7]$gripper state,0 为 closed,1 为 open。

视觉输出:执行动作后预期出现的未来视频帧,但实现中预测的是 latent。

$$\mathcal{F}=\{\boldsymbol{F}_j\}_{j=1}^{N}$$

动作频率和视频帧频率不要求相同:每个 action 可能对应多个 future frames。执行一个 action chunk 后,机器人获得新观测,再重复预测下一段 action chunk。

4.2 总体架构

VideoVLA 主要包含两个 encoder 和一个 DiT backbone。T5 text encoder 将语言指令转为固定长度 226 个 tokens;CogVideoX 的 3D-causal VAE encoder 将视频 clip 编码成 frame latents。由于 VAE 是 causal,第一帧 latent $\boldsymbol{V}_1$ 只编码第一帧,即当前观测。

VideoVLA overview
Figure 2. 语言和视频先被编码成 tokens/latents;DiT 以语言 tokens 和当前帧 latent 为条件,联合预测未来 action chunk 与 future frame latents。粉色 video decoder 只在可视化想象未来时使用。

训练时,完整视频 clip 进入 video encoder,因此模型可以获得当前 latent $\boldsymbol{V}_1$ 与未来目标 latents $\{\boldsymbol{V}_j\}_{j=2}^{n}$;推理时只编码当前观测得到 $\boldsymbol{V}_1$。

4.3 数据预处理与 token 序列

对每个视觉 latent,VideoVLA 按 raster order flatten 空间维度。设 $\boldsymbol{V}'_1$ 是当前观测 latent 的 flattened 版本,$\{\boldsymbol{V}'_j\}_{j=2}^{n}$ 是未来 frame latents 的 flattened 版本。多模态序列由以下部分拼接:

Input/target sequence: T5 language tokens T + current observation latent V'_1 + noisy future frame latents {V'_j}_{j=2..n} + noisy action chunk A Condition: T and V'_1 Diffusion targets: future visual latents and action chunk

所有模态先投影到共同 embedding dimension;future video latents 和 actions 都加高斯噪声,模型用 DDPM diffusion loss 学习 denoise。噪声 timestep embedding 按 DiT 方式通过 adaptive LayerNorm 注入。backbone 初始化自预训练 CogVideoX。

4.4 Unified Future Modeling

VideoVLA 的 unified future modeling 指将“未来动作”和“未来视觉后果”视为同一未来过程的两个模态,在一个 transformer 中同步建模。与模块化视频规划不同,VideoVLA 不先生成视频再通过 inverse dynamics 取动作,而是让动作 token 与视觉 token 在 denoising 中直接交互。

训练目标:对 action 和 future video latent 同时施加 diffusion denoising loss。

$$\mathcal{L}_{dual}=\mathcal{L}_{video\ denoise}+\mathcal{L}_{action\ denoise}$$

论文正文没有把总损失写成单独公式,但在 dual-prediction 消融中明确说明 default 同时对两种模态使用 denoising losses。

附录进一步比较了 attention 方向和 diffusion schedule:默认 bidirectional interaction 与同步 diffusion schedule 都比 causal mask 或 asynchronous schedule 更好。附录 More Analysis

4.5 训练和推理细节

项目论文给出的设置
预训练数据Open X-Embodiment subset,22.5M frames;OXE 原始包含 60 个 datasets、22 个 robot embodiments、超过 1M real-world robot trajectories。
真实机器人微调数据Realman robot teleoperation,5824 samples,覆盖 pick、stack、place 三类任务。
backboneCogVideoX-5B。
默认 horizon推理每步预测 13 个 future frame latents,即 49 frames,并预测 6 个 future actions。
部署执行每次预测 6 个 actions,但只执行前 3 个。
训练预训练 100K iterations;真实微调 15K iterations;32 AMD MI300X GPUs;batch size 256。
优化器AdamW,learning rate 1e-5,weight decay 1e-4。
采样DDIM sampling;正文写 inference 使用 50 denoising steps;附录真实部署限制中写 10 denoising steps,1.1s/H100,约 3Hz。
效率设置仿真预测 13 latents/49 frames;真实实验为效率预测 4 latents/13 frames。

5. 实验

5.1 实验范围和评测协议

论文同时做 simulation 和 real-world,且分别包含 in-domain 与 generalization。泛化重点是两类能力:novel objects 上执行已学技能,以及把其他 embodiment 学到、目标 embodiment 没见过的 skill transfer 到目标机器人。

评测类别任务/试验次数
Google Robot SIMPLER-VMPick Up Coke Can 300;Move Near 240;Open/Close Drawer 216;Open Top Drawer and Place Apple 108。
Google Robot SIMPLER-VAPick Up Coke Can 825;Move Near 600;Open/Close Drawer 378;Open Top Drawer and Place Apple 189。
WidowX SIMPLER-VM四个任务各 24 trials。
Novel objects / new skills simulation每个 novel object 25 trials;每个 new skill 20 trials。
Real-worldPick Up 24;Stack 48;Place 24;每个 novel object 12;每个 new skill 16。

5.2 SIMPLER in-domain

SIMPLER 中 Google robot 有 Visual Matching (VM) 和 Variant Aggregation (VA),WidowX 只有 VM。VideoVLA 在 WidowX VM 平均、Google VA 平均和所有 12 个任务全局平均上最高,Google VM 平均为第二。

方法WidowX VM AvgGoogle VM AvgGoogle VA AvgAvg All
RT-1-X1.142.730.524.8
OpenVLA4.234.339.426.0
SpatialVLA34.454.652.447.1
$\pi_0$53.153.543.450.0
CogACT51.375.261.462.6
VideoVLA53.173.162.863.0

5.3 SIMPLER novel objects

Google robot 的 Pick Up skill 在 10 个未见物体上评测,物体来自 YCB 和 GSO。VideoVLA 平均 65.2,明显高于 SpatialVLA 50.8 和 CogACT 42.4,并在 8/10 个物体上最佳。

方法Avg要点
OpenVLA6.4多个物体接近 0。
SpatialVLA50.8第二高;cleaner bottle 上最高 56.0。
$\pi_0$28.8中等,但 toy airplane 为 0。
CogACT42.4green cube 84.0、carrot 72.0,但多个物体较低。
VideoVLA65.2green cube 96.0、carrot 84.0、eggplant 88.0、plum 80.0、tennis ball 68.0。

5.4 SIMPLER new skills / cross-embodiment transfer

新技能来自 WidowX robot 训练数据,但 Google robot 训练集中没有。VideoVLA 在所有技能上最佳,平均 48.6,比第二名 CogACT 20.4 高 28.2 points。

方法Put SpoonPut CarrotStack BlockTake Out AppleFlip CupPour CokeSlideAvg
OpenVLA0.012.50.026.70.04.00.06.2
CogACT20.841.75.043.84.020.08.020.4
VideoVLA56.358.320.093.820.052.040.048.6

5.5 真实 Realman 实验

真实机器人是 Realman 7-DoF arm + gripper。所有模型先在 OXE 预训练,再用作者收集的 Realman 数据微调。in-domain 包括 pick、stack、place,其中 place 需要先 pick up 再 place,因此分别报两个阶段成功率。

方法Pick Up AvgStack AvgPlace AvgTask Avg
OpenVLA8.36.314.69.7
SpatialVLA37.520.810.422.9
$\pi_0$66.754.231.350.7
CogACT75.064.635.558.4
VideoVLA70.866.756.364.6

真实 novel objects 中,VideoVLA 对 12 个未见物体全部有非零成功率,平均 50.6;CogACT 第二,平均 26.9。真实 cross-embodiment skill transfer 中,VideoVLA 平均 58.0,明显高于 CogACT 35.1。

真实泛化设置OpenVLASpatialVLA$\pi_0$CogACTVideoVLA
Novel objects Avg9.614.121.826.950.6
New skills Avg8.313.528.535.158.0

5.6 消融实验

BackbonePick Up Coke CanMove NearOpen/Close DrawerAvg
OpenSora-1.167.757.125.950.2
CogVideoX-5B trained from scratch18.610.89.212.6
CogVideoX-5B pretrained92.382.966.280.4
Future framesPick Up Coke CanMove NearOpen/Close DrawerAvg
13 frames88.775.461.675.2
25 frames90.079.263.077.4
49 frames92.382.966.280.4
Dual-prediction variantIn-domain AvgNovel ObjectsNew Skills
Default80.465.248.6
No video loss27.012.74.4
Action only25.511.32.1
附录消融Pick UpMoveOpen/CloseAvg
Default bidirectional92.382.966.280.4
Causal mask89.376.261.175.5
Async train, sync inference87.374.160.273.8
Async train, async inference84.770.857.471.0

这些消融支持三点:预训练视频生成 backbone 很关键;更长未来视频 horizon 有利于动作后果推理;动作和视频的双向、同步联合 denoising 比分阶段或单向信息流更好。附录 More Analysis

5.7 Imagination-Execution Correlation

作者记录执行预测动作时的真实视频帧,并将预测 video latents 经 VAE decoder 得到 imagination frames。然后用 SIFT 在首帧抽 keypoints,用 SAM 分割 foreground,只保留机器人和物体区域,再用 SAM-PT 跟踪关键点轨迹。通过 Hungarian matching 对齐 imagination 与 execution 轨迹后,计算 trajectory vectors 的 normalized cosine similarity,平均后得到 robot motion similarity。

Google robot similarity
Figure 3a. Google robot 中,visual imagination 与真实执行的 motion similarity 越高,成功执行概率越高。
WidowX robot similarity
Figure 3b. WidowX robot 中也观察到相同趋势。
MetricNovel ObjectsNew Skills
Visual Imagination Success Rate84.063.4
Actual Execution Success Rate65.248.6

视觉想象由人工判断:成功需满足语义跟随指令,且没有显著几何畸变或物理合理性违背。实际执行低于想象成功率,作者归因于精确 physical grounding、actuation noise 和 perception errors 的额外难度。

VideoVLA visualization
Figure 4. VideoVLA 预测的视觉想象与真实执行过程示例。
Real-world supplementary visualization
Figure 5. 附录真实机器人可视化。
Simulation supplementary visualization
Figure 6. 附录仿真可视化。

6. 可复现审计

代码与模型

有官方代码入口:VideoVLA-Project/VideoVLA。README 提供 `build.sh` 环境准备、CogVideo T5/VAE checkpoint 配置,以及 `sample_video_action.py` 推理命令。项目页提供模型链接到 Hugging Face。

复现项论文/项目给出的信息状态
模型结构CogVideoX-5B backbone;T5 text encoder 226 tokens;3D-causal VAE video encoder;7-D action vector;DiT unified token sequence。较充分
训练超参100K pretraining、15K finetuning、32 AMD MI300X、batch 256、AdamW、LR 1e-5、WD 1e-4、DDIM sampling。较充分
数据OXE subset 22.5M frames;真实 Realman 5824 samples。真实数据是否公开未在 README 中明确给出。公开复现受限
评测协议正文和附录给出 SIMPLER / real-world trial counts,任务列表和主要结果。充分
完整训练成本32 AMD MI300X 和大型 CogVideoX backbone。成本高
Official inference skeleton: bash build.sh # Download CogVideo T5 and VAE checkpoints. # Update paths in: config_use/action_config/videovla_config.yaml python sample_video_action.py \ --base config_use/action_config/videovla_config.yaml \ config_use/action_config/inference_config/inference.yaml

7. 分析、局限与边界

7.1 这篇论文最有价值的地方

基于论文自己的证据,最有价值之处在于把“视频生成器的未来视觉建模能力”转成机器人策略训练信号,而不是把视频生成器当作外部 planner。dual-prediction 消融显示:只保留 action 或去掉 video loss,in-domain 和泛化都大幅下降,这直接支持“视觉想象参与训练”是核心因素。

7.2 结果为什么站得住

结果横跨仿真和真实、in-domain 和 generalization,并且在 novel objects 与 cross-embodiment skill transfer 中都报告了强对比。backbone 消融、future frames 消融、dual-prediction 消融、causal mask 消融、diffusion schedule 消融共同约束了替代解释:不是单纯模型大,也不是单纯 action diffusion,而是预训练视频生成 backbone 加联合未来建模共同起作用。

7.3 作者明确写出的限制

附录指出主要限制是推理速度。真实部署中,VideoVLA 预测 4 个 future latents(13 frames)和 6 个 future actions(执行前 3 个),使用 10 个 DDIM denoising steps,在单张 H100 上约 1.1 秒,因此有效控制频率约 3 Hz。作者认为瓶颈来自大型预训练视频生成器 CogVideoX-5B,并提出未来可通过机器人定向小型视频生成器、one-step denoising(如 ShortCut)和蒸馏加速。附录 Limitations and Broader Impacts

7.4 适用边界