中文 EN

Gen2Act: Human Video Generation in Novel Scenarios enables Generalizable Robot Manipulation

arXiv:2409.16283 Gen2Act human video generation video-conditioned policy point tracks
作者:Homanga Bharadhwaj, Debidatta Dwibedi, Abhinav Gupta, Shubham Tulsiani, Carl Doersch, Ted Xiao, Dhruv Shah, Fei Xia, Dorsa Sadigh, Sean Kirmani
机构:Google DeepMind; Carnegie Mellon University; Stanford University
项目页:https://homangab.github.io/gen2act/
源码结构:单个 main.tex,含 Appendix;图像 6 张 PNG

1. 论文速览

论文要解决什么 机器人操作策略很难泛化到新物体类型、新动作类型和未见真实场景;直接扩大机器人数据采集成本高,且不现实。论文想解决的问题是:能否利用 web-scale 视频模型已有的人类操作运动知识,让机器人在少量机器人示范下执行训练数据中没有覆盖的新任务?
作者的方法抓手 将语言条件操作拆成两步:先用预训练 VideoPoet 根据场景首帧和语言生成“人类完成任务”的视频,再训练一个闭环机器人策略 $\pi_\theta(\mathbf{I}_{t-k:t},\mathbf{V}_g)$ 把生成的人类视频翻译为机器人动作。训练策略时额外加入点轨迹预测辅助损失,让策略 latent 显式吸收视频里的运动线索。
最重要的结果 Gen2Act 在真实移动机械臂实验中平均成功率达到 60%,高于 RT1 的 22%、RT1-GC 的 26%、Vid2Robot 的 37%、以及不加 track loss 的 49%。在更难的 Object-Type Generalization 和 Motion-Type Generalization 上分别达到 58% 和 30%,相对最强基线有约 30 个百分点的绝对提升。
阅读时要注意的点 这篇论文不是让视频模型生成机器人视频,而是生成人类视频;真正要评估的是“人类视频中的运动 cue 是否能被策略可靠翻译成机器人动作”。重点看三件事:视频生成错误是否导致失败、point track 辅助损失到底贡献多大、以及长程任务链式执行是否只是短任务成功率的乘法累积。
一句话版本:Gen2Act 用现成 web 视频模型先“想象人会怎么做”,再用一个带点轨迹辅助监督的闭环策略把这段人类视频转成机器人动作,从而把非机器人视频里的运动先验迁移到真实机器人操作。
Gen2Act teaser
Figure 1. Gen2Act 的核心流程:生成一段人类操作视频,然后机器人策略依据该视频执行任务。

2. 动机与问题定义

2.1 为什么要绕到“人类视频”

作者观察到,日常操作任务的分布极宽:办公室、厨房、实验室里有不同物体、不同背景、不同动作模式。要为每种任务都采集机器人数据非常昂贵。相比之下,互联网上的人类视频包含大量“如何操作物体”的运动知识,例如打开微波炉、倒水、擦桌子、旋转物体等。

现有视频生成模型由于在海量 web 视频上训练,能够在给定场景图像和文本任务时零样本生成比较合理的人类操作视频。Gen2Act 的核心假设是:这些人类视频虽然不是机器人动作,但它们含有足够的运动线索,可以作为机器人策略的条件输入。

2.2 任务形式化

给定初始场景图像 $\mathbf{I}_0$ 和语言目标 $\mathcal{G}$,目标是让机器人输出动作序列 $\mathbf{a}_{1:H}$ 完成任务。Gen2Act 将其拆为:

$$\mathbf{V}_g = \mathcal{V}(\mathbf{I}_0,\mathcal{G}),$$

其中 $\mathcal{V}$ 是预训练视频生成模型,输出人类操作视频 $\mathbf{V}_g$。再由闭环策略输出机器人动作:

$$\mathbf{a}_{t:t+h} \sim \pi_\theta(\mathbf{I}_{t-k:t},\mathbf{V}_g).$$

注意这里的策略不是开环照抄视频,而是每一步还看最近 $k$ 帧机器人观察,因此可以对真实执行状态做反应。

2.3 论文贡献

4. 方法详解

4.1 总体架构

Gen2Act 有两个阶段。第一阶段用视频模型生成人类视频,第二阶段用闭环策略把生成视频翻译成机器人动作。训练时,策略不仅做行为克隆,还预测点轨迹;推理时,点轨迹预测头不再使用,只保留视频条件策略。

Gen2Act architecture
Figure 2. Gen2Act translation policy 架构:生成视频和机器人观察分别经 ViT 与 Perceiver-Resampler 变成固定数量 tokens;训练时加入 track prediction 辅助损失;推理时只用视频模型和闭环策略。

4.2 Human Video Generation

作者使用 VideoPoet 做 text+image conditioned video generation。输入是场景图像和任务文本,输出是人类完成任务的视频。关键工程选择有三点:

附录给出的 prompt 形式很简单:A person task-name, static camera。例如打开微波炉时输入 A person opening the microwave, static camera。作者还强调首帧中机器人手臂要尽量不遮挡场景,因此机器人在每个任务前会回到固定 reset pose。

Zero-shot human video generations
Figure. 零样本人类视频生成:蓝框为输入图像,黑框为生成视频采样帧。

4.3 Generated Human Video to Robot Action Translation

翻译策略输入两部分:生成的人类视频 $\mathbf{V}_g$ 和最近 $k$ 帧机器人观察 $\mathbf{I}_{t-k:t}$。两者先通过 ViT encoder $\chi$ 提取视觉特征:

$$i_g=\chi(\mathbf{V}_g),\qquad i_r=\chi(\mathbf{I}_{t-k:t}).$$

由于视频 token 数量很大且时间上不够规整,作者用 Perceiver-Resampler 风格的 Transformer encoders $\Phi_g,\Phi_r$ 将它们压缩成固定数量 tokens:

$$z_g=\Phi_g(i_g),\qquad z_r=\Phi_r(i_r),\qquad N=64.$$

附录补充:生成视频 token 和机器人观察 token 都使用 2 层 Perceiver-Resampler;生成视频固定采样 16 帧,并保证包含第一帧和最后一帧;机器人历史使用最近 8 帧;所有图像 resize 到 $224\times224$。

4.4 Point Track Prediction 辅助损失

Gen2Act 不只把生成视频当作视觉特征,还希望 latent tokens 编码“点如何运动”。作者用 TAPIR / BootsTAP 等 off-the-shelf tracker 从生成视频中抽取随机点轨迹 $\tau_g$,从机器人观察视频中抽取 $\tau_r$。

对生成视频,给定第一帧点 $P^0$、第一帧特征 $i_g^0$ 和视频 tokens $z_g$,track prediction transformer $\psi_g$ 预测轨迹:

$$\hat{\tau}_g=\psi_g(P^0,i_g^0,z_g),\qquad \mathcal{L}_{\tau,g}=\|\tau_g-\hat{\tau}_g\|_2.$$

机器人观察侧也类似,只是输入为 chunk 开始时刻 $P^{t-k}$、$i_{t-k}$ 和观察 tokens $z_r$。附录说明 track prediction transformer 有 6 个 self-attention layers、8 个 heads。

为什么这一步重要:如果只用视频视觉特征,策略可能只学到“目标物体是什么”;点轨迹损失要求 latent 能恢复“目标物体或接触区域怎么移动”,这正是新动作类型泛化最需要的运动信息。

4.5 Behavior Cloning 动作预测

动作空间被离散化,每个动作维度有 256 个 bins,动作值在每个维度的上下界内均匀分桶。策略预测未来动作 $\hat a_{t:t+h}$,用 cross-entropy 与 ground-truth 动作 $a_{t:t+h}$ 做行为克隆。动作是 end-effector space,还预测 episode 是否终止、夹爪开合。

整体训练目标可以理解为:

$$\mathcal{L}=\mathcal{L}_{BC}+\lambda_\tau(\mathcal{L}_{\tau,g}+\mathcal{L}_{\tau,r}),$$

其中论文没有强调具体 $\lambda_\tau$ 数值,但清楚说明 track prediction 只用于训练,不增加测试时计算。

4.6 Deployment 与长程任务链式执行

单任务部署:机器人看到当前场景图像,用户给语言任务,VideoPoet 生成一段人类视频,闭环策略根据该视频和机器人近期观察持续输出动作。

长程任务部署:先用 Gemini 将活动分解为若干子任务,例如 “Making Coffee” 分成打开盖子、放入 K-Cup、合上盖子。每完成一个子任务,就用上一个机器人执行后的最后一帧作为下一段视频生成的首帧,而不是从最初图片一次性生成所有子任务视频。附录说 VideoPoet 第一段后续新视频生成时间少于 10 秒。

Long horizon chaining examples
Figure. 长程任务链式执行:上一阶段执行后的最后帧成为下一阶段视频生成输入。

5. 实验与结果

5.1 评估设置

真实实验覆盖厨房、办公室和实验室场景,机器人是带 compliant two-finger gripper 的移动机械臂,右侧安装机械臂,用 end-effector control,操作频率 3Hz。每个任务前机械臂复位到固定姿态,减少对相机视野遮挡。

作者按四级泛化评估:

缩写定义直觉
MGMild Generalization: 已见场景中已见物体实例的新配置,以及光照/背景等自然变化。最接近训练分布。
GStandard Generalization: 已见或未见场景中的未见物体实例。物体实例变了,但类型通常仍熟悉。
OTGObject-Type Generalization: 完全未见物体类型,且在未见场景。测试“新东西怎么操作”。
MTGMotion-Type Generalization: 完全未见动作类型,且在未见场景。测试“新运动模式怎么做”。

5.2 主结果:四级泛化

方法MGGOTGMTGAvg.
RT168180022
RT1-GC75245026
Vid2Robot833825037
Gen2Act w/o track835850549
Gen2Act8367583060

读表重点:MG 上 Vid2Robot 和 Gen2Act 都是 83,说明在接近训练分布时,已有真实人类视频配对方法也很强;真正差异出现在 G/OTG/MTG。尤其 MTG 中,RT1、RT1-GC、Vid2Robot 都为 0,而 Gen2Act 达到 30,说明生成视频确实提供了训练机器人数据中没有的运动模式。

Track loss 的贡献也很直接:Gen2Act w/o track 平均 49,完整模型平均 60;MTG 从 5 到 30,是最能体现“点轨迹辅助监督提供运动信息”的数字。

Qualitative rollouts
Figure. 上排为生成的人类视频,下排为机器人执行。它展示策略是否真的能把人类视频中的运动转换为机器人行为。

5.3 Baselines

RT1-GC 低于 Gen2Act,说明最后一帧 goal image 只表达 what,不足以表达 how。Vid2Robot 在 MG 强但在 MTG 为 0,说明真实配对人类视频如果覆盖不足,也不能给新运动类型提供足够线索。

5.4 Human Video Generation 分析

作者的定性分析显示,VideoPoet 能在未见机器人实验场景中生成与任务文本匹配的人类操作视频:保留背景、操纵对应物体、相机运动较少。这一点是整个系统成立的前提,因为下游策略不是从语言中凭空规划,而是从视频里读出运动方向、接触顺序和目标状态。

5.5 长程任务链式执行

作者用 Gemini 把活动分解为三个子任务,然后按子任务顺序执行 Gen2Act。每个活动 5 次 trial,报告阶段成功率。

ActivityStagesSuccess %: Stage 1, Stage 2, Stage 3
Stowing AppleOpen Drawer; Place Apple in Drawer; Close Drawer80, 60, 60
Making CoffeeOpen Lid; Place K-Cup Pod inside; Close Lid40, 20, 20
Cleaning TablePick Tissues; Press Sanitizer Dispenser; Wipe Table60, 40, 40
Heating SoupOpen Microwave; Put Bowl inside Microwave; Close Microwave40, 20, 20

这些数字说明链式执行可行,但还很脆弱。第三阶段成功率没有进一步从第二阶段下降的两个任务,可能是因为只统计成功完成到该阶段的 trial;但总体来看,单任务成功率一旦不到很高,长程任务会很快受前序错误影响。

5.6 Co-training with 400 Teleop Demonstrations

配置MGGOTGMTGAvg.
Gen2Act w/o co-train8367583060
Gen2Act w/ co-train8575623564

加入约 400 条 diverse tele-operated trajectories 后,平均从 60 提升到 64。提升不巨大,但很有意义:作者的解释是 translation model 在高泛化级别上仍受机器人数据支撑不足限制,少量多样机器人数据能帮助它更好地利用生成视频。

5.7 失败分析

作者观察到,在 MG 和部分 G 中,视频生成不准与策略失败的相关性较弱,因为机器人数据支持较多,策略可能能纠正视频小错误。但在 OTG 和 MTG 中,若生成视频不合理,策略往往失败。这说明高泛化区域更依赖视频先验。

附录 Figure failures 展示了两类失败:前三行多为视频生成本身错了;最后一行视频看起来合理,但机器人在抓取后没有正确跟随物体轨迹。这后一类尤其重要,因为它说明“视频合理”不是充分条件,human-to-robot translation 本身仍会失败。

Failure cases
Appendix. 失败案例:多数高泛化失败与错误视频生成相关,但也存在视频合理而机器人执行失败的情况。

6. 复现要点

6.1 数据准备

6.2 视频生成设置

项目设置
模型VideoPoet,预训练于超过 270M 视频。
微调不对 VideoPoet 做任何 adaptation 或 fine-tuning。
输入square-shaped scene image + language prompt。
PromptA person task-name, static camera
长程任务第一段之后,VideoPoet 生成新视频少于 10 秒;每段用上一段执行最后帧作为输入图。

6.3 策略网络关键超参

组件细节
视觉 encoderViT encoder $\chi$ 提取生成视频和机器人观察特征。
token 压缩$\Phi_g,\Phi_r$ 使用 gated cross-attention / Perceiver-Resampler 架构,输出 $N=64$ tokens。
Perceiver layers生成视频和机器人观察均使用 2 层 Perceiver-Resampler。
生成视频帧训练时固定采样 16 帧,保证包含首帧和末帧。
机器人历史最近 8 帧机器人观察。
图像尺寸全部 resize 到 $224\times224$。
track head6 层 self-attention,8 heads;只训练时使用。
动作end-effector action;每个维度离散为 256 bins;还预测终止和夹爪开合。
动作 losscross-entropy behavior cloning。

6.4 评估复现注意点

7. 分析、局限与边界

7.1 这篇论文最有价值的地方

这篇论文最有价值的地方是它把“web 视频模型能帮机器人什么”说得非常具体:不是拿 web 视频预训练一个抽象 encoder,也不是要求视频模型直接输出机器人动作,而是让视频模型生成一段普通人完成任务的 visual plan,再训练机器人策略做 embodiment translation。这个中间表示很自然,因为人类视频既表达任务目标,也表达动作过程。

第二个价值点是 point track 辅助损失。它把“生成视频里有运动信息”这件事变成训练约束,而不只是希望 Transformer 自己从视频 token 里读懂运动。w/o track 与完整模型的差距,尤其 MTG 从 5 到 30,支持了这个设计。

7.2 结果为什么站得住

7.3 主要局限

7.4 边界条件

适用条件需要谨慎的条件
任务能被普通人类视频清楚表达,且场景中关键物体可见。任务依赖力觉、触觉、隐状态,或人类手部细节非常关键。
机器人动作可以近似模仿视频中的物体运动趋势。机器人形态与人类操作差异太大,例如需要双手灵巧重抓或复杂手指操作。
可接受每个任务先生成视频,再闭环执行。要求毫秒级实时反应或高度安全闭环控制的任务。
有一定离线机器人示范训练 translation policy。完全零机器人数据的新平台;此时人类视频无法直接变成动作。

8. 组会问答准备

Q1: Gen2Act 和 Vid2Robot 最大区别是什么?

Vid2Robot 使用真实配对的人类视频和机器人视频训练策略,因此受限于人类视频数据覆盖。Gen2Act 的人类视频由 VideoPoet 根据场景和语言自动生成,不需要为每个新任务收集真人视频,因而更能利用 web-scale 视频模型的开放世界运动先验。

Q2: 为什么不用视频模型直接生成机器人视频?

作者认为当前 web-scale 视频模型零样本生成机器人视频不可靠,通常需要机器人数据微调;这样会削弱“直接利用 web 模型泛化”的优势。生成人类视频更贴近视频模型训练分布,也更容易覆盖日常操作动作。

Q3: goal image 为什么不够?

goal image 只告诉策略最后应该是什么状态,即 what;生成视频包含中间运动过程,告诉策略 how。RT1-GC 平均 26,而 Gen2Act 60,尤其 MTG 中 RT1-GC 为 0,说明新运动类型需要过程信息。

Q4: track prediction loss 在推理时会增加成本吗?

不会。点追踪和 track prediction head 只在训练中使用,目的是让视频/观察 tokens 编码运动信息。推理时不需要 tracker,也不使用 track head。

Q5: 这篇论文最强的证据是哪一个?

最强证据是 MTG:Gen2Act 从 w/o track 的 5 提升到 30,而 RT1、RT1-GC、Vid2Robot 都为 0。这直接支撑“生成视频 + 运动轨迹辅助监督”能帮助训练数据外的新动作类型。

Q6: 最容易被质疑的地方是什么?

一是 VideoPoet 本身不是论文训练出来的,系统上限强依赖外部模型;二是真实评估规模不算大;三是生成的人类视频与机器人动作之间仍有明显 embodiment gap,失败分析也显示视频正确并不保证执行正确。