中文 EN

VAG: Dual-Stream Video-Action Generation for Embodied Data Synthesis

arXiv ID:2604.09330v1

作者:Xiaolei Lang, Yang Wang, Yukun Zhou, Chaojun Ni, Kerui Li, Jiagang Zhu, Tianze Liu, Jiajun Lv, Xingxing Zuo, Yun Ye, Guan Huang, Xiaofeng Wang, Zheng Zhu

机构:GigaAI; Zhejiang University; Peking University; Institute of Automation, Chinese Academy of Sciences; Mohamed bin Zayed University of Artificial Intelligence

提交时间:2026-04-10

来源:arXiv abs · PDF · 本地 LaTeX 源码解析

代码/项目页:在 arXiv 页面、源码正文和有限 web 检索中未发现官方公开代码或项目主页链接。

一句话总结:VAG 是一个面向具身数据合成的双流 World-Action 生成模型:视频分支基于 Cosmos-Predict2 做 flow matching 视频生成,动作分支用 1D U-Net 同步去噪,并通过 adaptive 3D pooling 从当前干净视频 latent 获取全局条件,从而生成对齐的视频-动作对,用于训练 VLA 或直接 replay。

1. 阅读定位与组会导读

导读项 这篇论文回答什么 读的时候重点盯哪里
研究对象 给定初始图像和语言指令,同步生成约 10 秒的机器人视频和对应动作轨迹。 它不是主要做在线闭环 policy,而是做可用于 policy 训练的数据合成引擎。
核心问题 World Model 能生成视频但没有动作;两阶段 video-to-action 会产生误差累积和跨模态不一致。 看 VAG 如何让动作生成过程在每个 denoising step 读取视频 latent。
主要贡献 统一 flow-matching 双流框架、同步视频/动作去噪、adaptive 3D pooling 桥接、合成数据提升 VLA 泛化。 重点看方法的方向性:视频 latent 指导动作,但动作还没有反向指导视频。
和 UVA/CoVAR 的关系 UVA 偏统一 latent 与多功能 policy;CoVAR 偏保留 video DiT 并联 action DiT;VAG 偏合成长视频-动作数据。 VAG 的定位更接近“数据引擎”,而不是把生成模型直接作为高频控制器。
组会推荐读法:先看 Fig. 2 的五类 embodied model 架构差异,再看 Fig. 3 的 pipeline。把论文主张压成一句话就是:不要先生成视频再猜动作,而是在同一 flow matching 时间步里让动作分支读视频分支的 clean latent。
VAG capabilities
图 1:VAG 的能力示意。模型从 teleoperation trajectories 学习,输入初始帧和指令后生成对齐的视频-动作对;合成数据可用于训练 policy,动作也可在真实机器人上 replay。

2. 背景:World Model 为什么还不能直接训练 policy

2.1 VLA/VA policy:能执行,但数据贵

Vision-Language-Action 模型通常以闭环方式运行:观察当前图像和状态,预测 1 到 2 秒动作,执行后再用新观测预测。它们已经能完成复杂任务,但训练需要大量人类遥操作数据。每个新场景和新任务都要采集 demonstrations,这正是本文要缓解的数据瓶颈。

2.2 World Model:视频丰富,但没有动作标签

现代视频生成/World Model 可以生成丰富视觉 rollout,提供多样化场景。但如果生成结果只有视频,没有配对 action trajectory,就不能直接当 robot policy 训练数据。对机器人来说,视频里的“看起来发生了什么”和实际电机控制信号之间还隔着一层动作对齐问题。

2.3 两阶段 World-Action:能补动作,但容易错位

两阶段方案先用 World Model 生成视频,再用 IDM、AnyPos 等方法从视频回归动作。这能得到较长 video-action pairs,但会引入异构模型之间的误差传递:视频生成错一点,动作回归再错一点;更麻烦的是视频和动作不是在同一个生成过程中同步决定的,因此容易出现跨模态不一致。

2.4 VAG 的定位

VAG 的目标是作为 World-Action data synthesis engine:它不是只把未来视频作为 action prediction 的辅助监督,而是直接输出可用于 policy training 的 video-action pair。论文强调这种生成数据还能提升下游 VLA 的 OOD 泛化。

Architecture comparison
图 2:五类 embodied model 对比。(a) VLA policy,(b) WM 视频生成,(c) WA model 作为 policy 辅助动作预测,(d) WM + IDM 两阶段数据合成,(e) VAG 的同步 video-action 生成。

3. 方法详解:flow matching、双流同步去噪与 3D pooling

3.1 Flow Matching 基础

VAG 使用 flow matching 而不是传统 diffusion loss 来描述从数据到噪声的路径。给定数据样本 $\mathbf{x}$、高斯噪声 $\boldsymbol{\epsilon}\sim\mathcal{N}(0,I)$ 和 timestep $t\in[0,1]$,插值 latent 为:

$$\mathbf{x}_t=(1-t)\mathbf{x}+t\boldsymbol{\epsilon}.$$

直觉:

当 $t=0$ 时是干净数据,当 $t=1$ 时是纯噪声,中间是直线插值。

对应 ground-truth velocity 是:

$$\mathbf{v}_t=\boldsymbol{\epsilon}-\mathbf{x}.$$

模型预测 velocity,并用 MSE 训练:

$$\mathcal{L}(\theta)=\left\|\mathbf{u}(\mathbf{x}_t,t,\mathbf{c};\theta)-\mathbf{v}_t\right\|^2.$$

阅读提醒:

$\mathbf{c}$ 包括文本、参考图像等条件。VAG 的视频分支和动作分支都套用这个 velocity matching 思想,只是数据空间不同。

3.2 视频分支:Cosmos-Predict2 的 video flow

视频分支继承 Cosmos-Predict2 (2B-Video2World)。输入包括首帧图像和语言指令,输出未来视频 $\mathbf{V}\in\mathbb{R}^{C\times T\times H\times W}$。实验中 $T=93$,视频频率 10 Hz,约等于 10 秒;图像 resize 到 $H=432,W=768$,RGB 所以 $C=3$。

原始视频经 VAE tokenizer 压缩,时间/高度/宽度压缩率分别为 $4\times 8\times 8$,得到: $\mathbf{z}\in\mathbb{R}^{C'\times((T-1)/4+1)\times\lfloor H/8\rfloor\times\lfloor W/8\rfloor}$。 论文设置 $C'=16$。噪声 latent 与首帧 latent prefix 拼接后输入 DiT;文本由 T5-XXL 编码,并通过 cross-attention 注入;推理时使用 classifier-free guidance。

3.3 动作分支:同步去噪 + 全局视频条件

动作分支预测 $\mathbf{A}\in\mathbb{R}^{T\times D}$。AgiBot G1 双臂数据中 $D=16$;LIBERO 单臂仿真中 $D=7$;自采 Agilex 双臂数据中 $D=14$。动作分支从高斯噪声 $\boldsymbol{\epsilon}_a\in\mathbb{R}^{T\times D}$ 开始,用改造自 Diffusion Policy 的 1D U-Net 去噪。

关键设计是:动作分支在每个 denoising step 都接收视频分支预测出的当前 clean latent $\mathbf{z}_0$。VAG 先对 $\mathbf{z}_0$ 做 adaptive 3D pooling,把整个时空 latent 压成 $\mathbb{R}^{C'\times1\times1\times1}$,reshape 成 $\mathbb{R}^{1\times C'}$,再重复/扩展成 $\mathbf{e}\in\mathbb{R}^{1\times C''}$。论文设置 $C''=132$。这个 $\mathbf{e}$ 与 timestep embedding 一起作为 U-Net 的条件。

核心实现点:adaptive 3D pooling 是非学习模块,没有额外线性层。它把视频分支当前认为的全局时空语义压缩成动作条件。优点是简单稳定,缺点是可能丢掉局部接触信息和细粒度空间对应。
VAG pipeline
图 3:VAG 训练和推理 pipeline。视频分支与动作分支都基于 flow matching,同步 denoising;动作分支通过 adaptive 3D pooling 读取当前 clean video latent。

3.4 训练损失

训练时,VAG 使用带动作的视频轨迹和文本指令。对于每条 ground-truth video,论文使用 Qwen2.5-VL 自动抽取描述机器人行为的文本指令,再用 T5-XXL 编码。模型初始化自底层视频生成模型,以保留视觉先验。

视频分支损失:

$$ \mathcal{L}(\theta_1)=\left\|\phi_1(\mathbf{D}(\mathbf{z}';\theta_1))-\mathbf{z}\right\|^2. $$

含义:

$\mathbf{D}$ 是 DiT,$\mathbf{z}'$ 是加噪视频 latent,$\phi_1$ 表示从 DiT 输出重建 clean latent 的过程。

动作分支损失:

$$ \mathcal{L}(\theta_2)=\left\|\phi_2(\mathbf{U}(\mathbf{A}';\theta_2))-\mathbf{A}\right\|^2. $$

含义:

$\mathbf{U}$ 是 1D U-Net,$\mathbf{A}'$ 是同噪声强度扰动后的动作。动作分支条件来自 detached clean video latent,说明训练中动作 loss 不反向驱动视频分支。

3.5 训练/推理伪代码

训练阶段:
for each video-action trajectory:
    use Qwen2.5-VL to obtain text instruction
    encode text with T5-XXL
    encode video V with VAE into latent z
    add flow-matching noise to z -> z'
    video DiT predicts clean latent from z', first-frame prefix, text
    adaptive 3D pool predicted clean video latent into global embedding e
    add matched noise to action sequence A -> A'
    action 1D U-Net predicts clean action from A', timestep, e
    optimize video latent MSE + action MSE

推理阶段:
given initial image and instruction:
    initialize video noise and action noise
    for N = 35 synchronized denoising steps:
        video branch predicts current clean video latent z0
        pool z0 into global condition e
        action branch denoises action with e
    decode final video latent into video
    output synchronized video V and action A

4. 实验结果:生成质量、轨迹 replay、VLA 预训练

4.1 实验设置

项目 设置
视频基础模型Cosmos-Predict2 (2B-Video2World),生成 480P、10 Hz 视频。
生成 horizon$T=93$ video-action frames,约 10 秒。
输入分辨率视频 resize 到 $432\times768$。
latent channel$C'=16$。
动作条件 embedding$C''=132$。
推理 denoising steps$N=35$。
训练资源8 张 NVIDIA H20 GPU,batch size 每 GPU 1,训练 40,000 iterations。

4.2 数据集

数据集 规模与任务 VAG 使用方式
AgiBot 大型真实机器人数据集,1M trajectories、217 tasks、五类部署场景。 只使用 AgiBot G1 双臂 humanoid 数据,1794 个训练 video-action pairs,200 个测试,动作维度 $D=16$。
LIBERO 仿真 manipulation benchmark,含 Spatial/Object/Goal/Long 子集。 选 400 个训练 pairs、50 个测试 pairs;单臂机器人动作维度 $D=7$;使用 head 和 wrist cameras 拼接视频。
Self-collected Agilex Cobot Magic 双臂机器人数据。 动作维度 $D=14$;131 samples 用于 VAG 训练,20 samples 用于 VLA 训练。

4.3 视频生成质量

VAG 与 SVD、Wan2.2、Cosmos-Predict2 (CP2) 比较 AgiBot 上的视频生成质量。VAG 在 FVD、LPIPS、PSNR 上最好,FID 接近 Wan2.2,SSIM 不如 Wan2.2 但优于 SVD/CP2。这个结果说明在机器人数据上 post-training 后,VAG 没有因为加入动作分支而牺牲视频质量。

方法 FVD ↓ FID ↓ LPIPS ↓ SSIM ↑ PSNR ↑
SVD13111500.4210.33912.7
Wan2.211521290.3250.61214.5
CP29881350.3520.42714.2
VAG9651300.3200.51215.1
Qualitative video generation
图 4:不同方法的视频生成可视化。Prompt 为“Use the right hand to pour the water from the gray teapot into the cup.”

4.4 动作生成:对比两阶段回归

动作 baselines 是两阶段方案:先使用 VAG-Video 生成视频,再用 ResNet 或 AnyPos 从视频回归动作。VAG 的同步生成在 AgiBot 和 LIBERO 上都取得最低 Euclidean Distance 和最高 Success Rate。Success Rate 的定义是每个维度误差都低于 0.2 才算成功。

方法 AgiBot ED ↓ AgiBot SR ↑ LIBERO ED ↓ LIBERO SR ↑
VAG-Video + ResNet1.548%0.8737%
VAG-Video + AnyPos0.9829%0.5566%
VAG0.8145%0.3879%
AgiBot action curves
图 5:AgiBot 抓取任务 16 维动作曲线。预测动作与 ground truth 大体贴合。
LIBERO action curves
图 6:LIBERO spatial task 的 7 维动作曲线。蓝色为 GT,黄色为预测。

4.5 LIBERO 轨迹 replay

在 LIBERO benchmark 上,VAG 不只比较动作误差,还把生成动作 replay 到仿真里看任务成功率。VAG 在 Spatial/Object/Goal/Long 四个子集都优于两阶段方法,平均 replay success 从 AnyPos 的 54% 提升到 62%。

方法 Spatial ↑ Object ↑ Goal ↑ Long ↑ Avg ↑
VAG-Video + ResNet3334231025
VAG-Video + AnyPos5962563954
VAG7072644262
LIBERO video and replay
图 7:LIBERO 中生成 head-view/wrist-view 视频,以及使用生成动作进行 replay 的可视化。

4.6 用合成数据提升 VLA 泛化

论文最有应用价值的实验是 VLA pretraining。作者在自采数据上先用 131 个样本训练 VAG,再从首帧和文本 prompt 生成合成 video-action pairs,形成 $\mathcal{X}_{syn}$。下游 VLA 为 $\pi_{0.5}$:baseline 只用 20 个真实 samples $\mathcal{X}_b$ 训练 10,000 iterations;增强版本先在 VAG 合成数据上 pretrain 到收敛,再用同样的 $\mathcal{X}_b$ finetune 10,000 iterations。

真实机器人 tableware pick-and-place 中,20 次 trials 里 baseline $\pi_{0.5}$ 成功 7 次,即 35%;$\pi_{0.5}$-w-VAG-pretrain 成功 11 次,即 55%,绝对提升 20%。作者指出增强模型在物体位置或颜色变化时泛化更好,并且没有出现 baseline 训练 loss 下降但部署过拟合的问题。

VLA demonstrations
图 8:真实 VLA 演示。位置或颜色变化下,VAG-pretrain 版本更稳定。
VLA success rate
图 9:VAG 合成数据使 $\pi_{0.5}$ 成功率从 35% 提升到 55%。

4.7 作为 World-Action policy 直接 replay

VAG 还被用于“像 policy 一样”直接生成动作并部署到 Agilex robot。输入是头部相机图像和文本指令,输出视频与动作;动作轨迹被 replay 到真实机器人上。论文展示左臂、右臂、双臂三类 manipulation,说明 VAG 的动作并非只适合离线训练,也具有一定可执行性。

Agilex replay
图 10:VAG 生成视频与动作在 Agilex robot 上 replay 的示例,包括左臂、右臂和双臂操作。

5. 图表精读

5.1 Fig. 2:这篇论文的位置非常清楚

Fig. 2 把 VAG 和四条路线区分开:VLA 是 policy,WM 是视频生成,WA-policy 是用未来视频辅助动作,WM+IDM 是两阶段合成数据。VAG 的独特定位是“直接合成训练数据”,也就是把 video-action pair 本身作为输出目标。

5.2 Fig. 3:动作分支依赖的是 clean latent,不是最终视频

VAG 与两阶段方法最重要的差异在 Fig. 3:动作不是从 decode 后的 RGB 视频再回归,而是在每个 denoising step 读取视频分支当前预测的 clean latent。这避免了先生成完整视频再反推动作的滞后与误差累积。

5.3 表 2:AnyPos 已经很强,但同步生成仍更好

在动作表中,VAG-Video + AnyPos 已经比 ResNet 强很多,说明强视觉回归器可以缓解两阶段问题。但 VAG 仍在 AgiBot 和 LIBERO 上同时降低 ED、提升 SR,支持“跨模态同步生成比后验动作回归更一致”的主张。

5.4 Fig. 9:VLA 预训练实验很诱人,但样本数还小

35% 到 55% 的提升是论文最亮眼结果之一。不过这个实验使用 131 个 VAG 训练样本和 20 个 VLA 真实训练样本,trial 总数为 20。它证明了方向可行,但还不能说明在更大任务库、更长 horizon 或多机器人上的稳定收益。

5.5 训练 loss 曲线

AgiBot training loss
图 11:AgiBot 上 40,000 iterations 的训练 loss。
LIBERO training loss
图 12:LIBERO 上 20,000 iterations 的训练 loss。论文称 LIBERO 场景和动作模式更单调,收敛更稳定。

6. 复现清单与工程细节

6.1 可直接抽取的超参数

项目
基础视频模型Cosmos-Predict2 (2B-Video2World)
视频帧数$T=93$
视频频率10 Hz
生成时长约 10 秒
视频 resize$432\times768$
VAE 压缩率time/height/width = $4\times8\times8$
视频 latent channel$C'=16$
动作条件 embedding$C''=132$
推理步数$N=35$ denoising steps
文本生成Qwen2.5-VL 从 ground-truth video 抽取 instruction
文本编码T5-XXL
动作 denoiser改造自 Diffusion Policy 的 1D U-Net
训练资源8 NVIDIA H20 GPUs,batch size 1/GPU,40,000 iterations

6.2 复现缺口

6.3 与 UVA/CoVAR 的技术差异

方法 核心结构 主要目标 关键 trade-off
UVA 共享 video-action latent,解耦 video/action diffusion heads。 一个模型支持 policy、video、forward/inverse dynamics。 统一功能强,但不同任务 mask/objective 可能冲突。
CoVAR 保留预训练 video DiT,并联 Action DiT,用 Bridge Attention 交互。 联合生成 video-action,直接作为 policy 或数据源。 更保护视频先验,但参数和同步通信更复杂。
VAG Cosmos-Predict2 video branch + 1D U-Net action branch,同步 flow matching。 生成长 horizon 对齐 video-action pairs,用于数据合成与 replay。 视频指导动作,但动作尚未反向约束视频。

7. 批判性讨论与组会问题

7.1 论文强点

7.2 需要谨慎的点

7.3 组会讨论题 1:3D pooling 是优势还是瓶颈?

VAG 的 adaptive 3D pooling 非常简单,因此训练稳定、参数少。但它把视频 latent 的时空结构压成一个全局向量,可能会丢掉动作生成最需要的局部接触信息。可以讨论一个 follow-up:用 cross-attention、temporal pooling、object-centric tokens 或 contact-aware pooling 替代全局平均,是否能提升细粒度 action alignment。

7.4 组会讨论题 2:合成数据如何证明真的提升泛化?

论文用 VAG-generated data 让 $\pi_{0.5}$ 从 35% 提升到 55%,这是强信号。但为了证明“泛化”而不是“刚好增强了这组场景”,还需要更系统地控制:合成数据数量、真实数据数量、prompt 多样性、生成失败样本过滤、OOD 类型拆分、以及与直接复制/扰动真实轨迹的对比。

7.5 后续研究方向

  1. 双向耦合:让 action branch 也反向指导 video branch,使视觉轨迹更受控制信号约束。
  2. 更强动作分支:按作者建议,用 DiT 替换 1D U-Net,提高动作序列建模能力。
  3. 局部对齐机制:用注意力或 object/contact tokens 替代全局平均 3D pooling。
  4. 数据合成闭环:自动筛选 replay 成功或视频-动作一致性高的合成样本,再训练 VLA。
  5. 大规模评测:在更多机器人、更多任务、更多真实 OOD 设置上验证合成数据收益。
最终判断:VAG 的亮点不是单个指标最高,而是把“视频生成”和“动作轨迹生成”放进同一个同步 denoising 过程里,为 embodied data synthesis 提供了一个清楚可扩展的工程框架。对 junior PhD 来说,最值得学的是它如何把 World Model 的视觉先验转化为可用于 policy training 的动作标注数据。