中文 EN

Veo-Act: How Far Can Frontier Video Models Advance Generalizable Robot Manipulation?

作者:Zhongru Zhang, Chenghan Yang, Qingzhou Lu, Yanjiang Guo, Jianke Zhang, Yucheng Hu, Jianyu Chen

机构:Tsinghua University

发表:arXiv 预印本,2026

arXiv:2604.04502 | PDF:下载

1. 论文速览

一句话总结:本文研究 Veo-3 这类前沿视频生成模型能否作为机器人高层视觉规划器,并提出 Veo-Act:用 Veo-3 生成未来视觉轨迹,用多头逆动力学模型恢复动作与切换信号,再在接触交互阶段切换到 VLA 低层策略。

2. 动机

2.1 要解决什么问题

论文关注的是开放环境中的泛化机器人操作:机器人需要在不同物体几何、语义指令和干扰物场景下完成抓取与放置。现有 VLA 模型依赖大规模机器人数据,并且从 VLM 转成 VLA 时需要引入动作模态;论文指出这会使预训练 VLM 的泛化知识难以完整保留。

论文构造的失败场景包括:目标物体不在腕部相机视野内、存在外观相似的干扰物、以及非目标物体位于机械臂经过路径上。这些场景不是单纯考察“能不能抓”,而是考察策略是否能在视觉、语义和路径干扰下仍然遵循目标指令。

2.2 已有方法的局限

2.3 本文的解决思路

高层由 Veo-3 根据初始图像和语言 prompt 生成完成任务的视频轨迹;中间由多头 IDM 把帧间变化转换为动作片段,并预测交互 gate;低层执行时,系统默认跟随视频规划动作,当 gate 表明进入接触交互阶段时,切换到 VLA 策略执行精细操作,之后可切回剩余规划队列。

三种控制管线对比
Figure 1:VLA、Video model + IDM、Veo-Act 三种控制管线对比。

3. 相关工作梳理

3.1 论文自述的相关工作

相关工作线代表工作论文中的定位
视频生成模型用于策略学习Sora、Veo、V-JEPA 2、Unified World Models、Vidar、VPP、AnyPos、TC-IDM视频模型含有物体持续性、运动连续性和粗粒度碰撞等物理先验,可生成视觉计划;但性能受视频保真度约束,尤其在接触丰富的灵巧操作中不足。
Learning from Observation / IDMLfO、VPT、Vidar、AnyPos、TC-IDMIDM 可把状态或图像转移映射为动作,甚至可用无标签视频或 play data 学习;本文使用自监督 random play 训练多头 IDM。
Vision-Language-Action ModelsRT-2、OpenVLA、$\pi_0$、$\pi_{0.5}$VLA 是当前通用机器人策略的重要路线,但将 VLM 改造成动作输出模型会带来知识保留问题;本文把 $\pi_{0.5}$ 作为 baseline 和低层执行器。

3.2 直接前作对比

维度VLA / $\pi_{0.5}$视频模型 + IDM / VPPVeo-Act
核心思路直接从图像、语言和状态输出动作。生成未来视频,再由 IDM 或逆模型恢复动作。视频模型负责高层轨迹,VLA 负责接触交互,IDM 同时输出动作和切换 gate。
关键假设训练后的动作模态仍保留 VLM/VLA 的语义泛化。视频生成轨迹足够物理一致,IDM 能可靠恢复动作。视频轨迹可作为任务级先验,但接触阶段需要反应式低层策略。
适用场景训练覆盖充分、目标可见、语义混淆较弱的闭环操作。简单交互或粗粒度任务规划。语义或视角 confounder 明显,同时需要灵巧抓取的 pick-and-place。
实验性能所有仿真+真实实验总体 overall success 为 102/228 = 0.45。仿真中作为视频基线 VPP,多个条件低于 Veo-Act。所有仿真+真实实验总体 overall success 为 182/228 = 0.80。

4. 方法详解

4.1 方法概览

Veo-Act 的数据流为:初始观测 $I_0$ 与任务 prompt → Veo-3 生成未来帧序列 $I^{*}_{0:n}$ → 多头 IDM 对相邻帧做逆动力学,输出动作片段 $a^{*}_{0:n-1}$ 与 gate 信号 → smoother 得到 $\bar{a}^{*}_{0:n-1}$ → 执行时从动作队列逐步 pop;如果实时 gate $G_t$ 持续高于阈值 $\tau$,切换到低层 VLA 策略 $\pi_{\mathrm{VLA}}$;gate 降低后,剪掉已过交互区间并恢复规划队列。

Veo-Act pipeline
Figure 2:层级规划与控制 pipeline。原文 PDF 图已转换为 PNG。
三种 inference paradigms
Figure 3:pure IDM、一次切换、完整 Veo-Act 三种执行轨迹对比。

4.2 方法演变脉络

VLA 直接控制 → 输入当前观测和语言,直接输出动作;问题是 confounder 下容易误跟随错误物体或路径。

Video model + IDM → 先生成任务完成视频,再恢复动作;优势是保留视频模型的语义与物理先验,问题是接触控制精度不足。

Veo-Act → 用视频模型规划“到哪里、经过哪里”,用 VLA 完成“接触时如何稳定抓放”,并用 IDM gate 连接两种控制模式。

4.3 核心设计与数学推导

公式 1:视频模型生成未来视觉轨迹。

$$I^{*}_{0:n}=\{I^{*}_1,I^{*}_2,\ldots,I^{*}_n\}$$

这里 $I_0$ 是初始观测,$I^{*}_k$ 是第 $k$ 个合成未来帧,$n$ 是采样帧数。该公式的作用不是直接控制机器人,而是把语言目标转为可被 IDM 消化的视觉运动先验。

公式 2:多头 IDM 同时预测动作和交互 gate。

$$(a_t,G_t)=\pi_{\mathrm{IDM}}(I_{t-1},I_t,s_t)$$

$I_{t-1}, I_t$相邻两帧图像,表示视觉状态变化。
$s_t$机器人状态特征;实验中记录 21 维 single-arm state。
$a_t$恢复出的可执行动作;对生成视频整段运行可得到 $a^{*}_{0:n-1}$。
$G_t\in[0,1]$交互 detector 的输出,表示当前是否应交给低层 VLA。

直觉上,动作头负责“这两帧之间机器人应该怎么动”,gate 头负责“现在是不是进入抓取/接触等需要反应式策略的阶段”。分成两个 MLP head 是因为动作回归与二分类 gate 的数值分布不同。

公式 3:IDM 训练目标。

$$\mathcal{L}=\lambda_{\text{act}}\mathcal{L}_{\text{act}}(a_t,\hat a_t)+\lambda_{\text{gate}}\mathcal{L}_{\text{gate}}(G_t,\hat g_t)$$

正文称动作头使用 Huber loss,gate 头使用 Binary Cross Entropy。附录进一步给出 IDM 训练目标:$\mathcal{L}_{\mathrm{IDM}}=\lambda_{\mathrm{act}}\sum_d d(a_{t,d},\hat a_{t,d})+\lambda_{\mathrm{gate}}\mathrm{BCE}(G_t,\hat g_t)$,其中 $d(\cdot)$ 是加权 Smooth L1。附录:IDM Training

补充推导:为什么 weighted Smooth L1 适合动作回归
当误差 $|x-\hat{x}|<\beta$ 时,Smooth L1 使用二次项 $0.5w(x-\hat{x})^2/\beta$,梯度随误差线性变化,利于小误差精修;当误差较大时,损失变为 $w(|x-\hat{x}|-0.5\beta)$,梯度幅度受控,减少异常动作样本对训练的支配。论文附录将 $\beta$ 设为 0.1,并对维度 4 与 11 赋予权重 2,其余维度权重 1。
公式 4:动作平滑与队列执行。

$$\bar a^{*}_{0:n-1}=\mathrm{Smoother}(a^{*}_{0:n-1}),\qquad \mathcal Q=\{\bar a^{*}_1,\ldots,\bar a^{*}_m\}$$

执行时默认动作是 $a_t=\bar a^{*}_{k+1}$。附录把 smoother 具体化为:对关键维度检测局部极值关键点,在相邻关键点区间内做 centered moving-average;关键点保持不变;关键点动作可额外 hold $H$ 步;最后对指定维度 $d_c=2$ 做下界 clamp,$m=0.13$。附录:Action Smoother

IDM training
Figure 4:多头 IDM 训练流程。
smoother
附录图:smoother 对一个动作维度的处理示例。

4.4 实现要点(面向复现)

模块实现细节来源
Video promptprompt 明确要求机器人区分目标物与相似物、非目标物保持不动、目标在被抓取前保持原位、视角不变、运动平滑自然、容器不移动。附录:Video-Generation Prompt Construction
视觉编码器DINOv3 ViT-B/16,embedding 768,depth 12,heads 12,patch size 16,使用两个帧的 patch token 特征拼接为 1536 维。附录:IDM Training
IDM 数据正文写 300k 仿真 frame-pair,另加 100k 仿真 random-motion 与 150k 真实样本;附录写训练使用 550k frame-pair。正文 §5.1 + 附录
噪声增强对 RGB 轨迹运行 Stem-OB inversion 生成 noisy stem observations:50 denoising steps,10 inversion steps。附录:IDM Training
切换逻辑维护 gate history $\mathcal H_G$;stable_high 后启用 VLA;stable_low 后关闭 VLA,并用 truncate/drop 操作跳过高 gate 对应队列段。附录:Algorithmic Variants
Hierarchical Veo-Act inference
1. reset environment and sample task
2. build video-generation prompt from task
3. generate future frames I*_{0:n} with Veo-3
4. run IDM.action over generated frames to get a*_{0:n-1}
5. smooth actions and enqueue them into Q
6. for each real timestep:
   - observe current image/state
   - compute gate G_t = IDM.gate(I_{t-1}, I_t)
   - if gate stays low: execute next planned action from Q
   - if gate stays high: execute low-level VLA action
   - if gate returns low: prune high-gate queue segment and resume plan

5. 实验

5.1 实验设置

项目内容
平台7-DoF 机械臂 + 12-DoF 灵巧手;两个 RGB 相机:全局相机与腕部相机。视频生成和 IDM 使用全局相机;切换后低层策略可使用腕部相机。
仿真使用 IsaacLab 构建与真实平台对应的高保真仿真环境。
任务指定目标物体抓取并放入指定容器。
仿真 confounder腕部相机不可见、相似物体干扰、pass-by interaction。
真实机器人 confounder相似物体干扰、pass-by interaction、更复杂语义指令。
Baselines$\pi_{0.5}$ 作为 VLA baseline;仿真中还比较视频方法 VPP。Veo-Act 使用 $\pi_{0.5}$ 作为低层策略。
代码仓库按 “Veo-Act code github” 与 “2604.04502 github” 检索,未找到明确官方仓库。

训练配置

超参数/配置来源
IDM 训练样本550k frame-pair samples附录:IDM Training
IDM 训练迭代85,000 iterations附录:IDM Training
IDM 硬件4 NVIDIA Ampere-series 80 GPUs,约 10 小时附录:IDM Training
IDM batch size每 GPU 8,总 batch size 32附录:Table IDM Training
IDM optimizerAdamW,$\beta=(0.9,0.999)$,$\epsilon=0.01$,weight decay 0.01附录:Table IDM Training
IDM learning rateDINO: $5\times10^{-5}$;其余模块: $5\times10^{-4}$附录:Table IDM Training
IDM schedulerCosine scheduler,warmup 8,500 steps附录:Table IDM Training
$\pi_{0.5}$ trainingbatch size 32,初始 LR $2.5\times10^{-5}$,训练 40K iterations,使用官方实现与 LR scheduler附录:Pi0.5 Training

5.2 主要结果

设置Baseline overallVeo-Act overall论文给出的结论
仿真:wrist-camera invisible / Experimental10/30 = 0.3320/30 = 0.67Veo-Act 在目标不在腕部相机视野时提升到约 2 倍。
仿真:similar-object distractors / Experimental12/30 = 0.4028/30 = 0.93Veo-Act 缓解相似物体语义混淆。
仿真:pass-by interaction / Experimental0/30 = 0.0014/30 = 0.47Baseline 几乎失败,Veo-Act 恢复部分任务完成能力。
真实:similar-object distractors8/16 = 0.5012/16 = 0.75真实平台上同样获得提升。
真实:pass-by interaction2/13 = 0.1511/13 = 0.85overall success 提升 5.7 倍。
真实:richer semantics2/19 = 0.1115/19 = 0.79复杂语义指令下 overall success 提升 7.2 倍。

论文汇总:仿真实验的 Experimental 条件下,baseline overall success 为 22/90 = 0.24,Veo-Act 为 62/90 = 0.69;仿真+真实所有 overall success 汇总,baseline 为 102/228 = 0.45,Veo-Act 为 182/228 = 0.80。

simulation results
仿真成功率:黄色为 instruction-following,绿色为 overall。
real robot results
真实机器人成功率。

5.3 消融实验

变体Instruction-followingOverall验证目的
ResNet backbone22/30 = 0.7317/30 = 0.57测试 DINOv3 视觉表征是否重要。
Without noise22/30 = 0.7316/30 = 0.53测试 STEM-OB 噪声增强对鲁棒性的作用。
Single head25/30 = 0.8317/30 = 0.57测试单动作头、不单独学习 interaction detector 的影响。
Ours25/30 = 0.8320/30 = 0.67多头设计在不损害 instruction-following 的同时提高 overall success。
ablation
腕部相机不可见设置上的消融结果。

5.4 补充实验(来自附录)

invisible controlinvisible ours
附录设置 1:invisible object condition 的 control 与 ours。
pass by controlpass by ours
附录设置 2:pass-by interaction。
similar controlsimilar ours
附录设置 3:similar-object distractors。

6. 分析与讨论

6.1 论文已给出的结果分析与解释

6.2 作者自述的局限性

论文正文与结论中明确指出,当前视频模型还不能准确完成多数低层接触丰富的操作:Veo-3 + IDM 可生成大体正确轨迹,但低层控制精度不足,尤其在物理接触阶段。论文也指出这一路线受底层视频生成模型保真度约束,在灵巧操作这种高维动作空间和多点接触动力学场景中限制更明显。

附录 failure analysis 被纳入这里:失败主要对应 confounded 设置中目标辨识、路径干扰、接触执行和低层切换等环节。由于论文没有在正文中把这些失败扩展为新方法建议,本报告只客观记录其作为适用边界。

6.3 论文中明确写出的适用边界与讨论

自验收

已完成:解析标题、作者、摘要、正文结构、方法、实验与附录。

已完成:附录中的 prompt、算法变体、pure IDM、failure analysis、smoother、IDM/$\pi_{0.5}$ 训练细节已整合到对应章节。

已完成:独立 PNG/JPG 图像已复制;主要 PDF 图已转换为 PNG 并嵌入。

注意:未找到明确官方代码仓库;报告中已按检索结果标注。