GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation

作者：Chi-Lam Cheang, Guangzeng Chen, Ya Jing, Tao Kong, Hang Li, Yifeng Li, Yuxiao Liu, Hongtao Wu, Jiafeng Xu, Yichu Yang, Hanbo Zhang, Minzhao Zhu

机构：ByteDance Research

发表形式：Tech Report, arXiv v1, 2024-10-08

链接：arXiv:2410.06158 | PDF | Project Page

源码结构说明：arXiv LaTeX 源码未提供 Appendix；本报告中凡涉及“附录”的位置均标明为无附录，而不是省略。

1. 论文速览

一句话总结：GR-2 用 3800 万互联网视频做 video-language 生成式预训练，再用机器人轨迹进行 video-language-action 联合微调，使同一个机器人策略能完成 100+ 桌面操作任务、端到端 bin picking，并在未见背景、环境、物体和任务上展示泛化能力。

阅读定位项	紧凑结论
论文要解决什么	在真实机器人数据昂贵、任务和场景变化大的条件下，训练一个能通过语言指令执行多种 manipulation skill，并能迁移到未见场景的通用机器人策略。
作者的方法抓手	先让 GPT-style transformer 在大规模 text-video 数据上预测未来视频，获得环境动态和语义先验；再在机器人轨迹上同时预测未来图像与 action trajectory，并用 WBC 部署到真实机器人。
最重要的结果	在 105 个真实桌面任务 Simple setting 达到 97.7% success rate；bin picking 平均成功率从 GR-1 的 33.3% 提升到 79.0%；CALVIN 5 连任务成功率从 GR-1 的 73.1% 到 85.9%。
阅读时要注意的点	方法的核心不是单纯“用大模型做机器人”，而是把视频生成目标保留下来作为动作预测的伴随任务；同时论文没有公开完整训练超参和代码，复现重点要放在数据规模、tokenization、cVAE action head、WBC 部署接口四处。

难度评级：★★★★☆。需要熟悉 language-conditioned robot policy、VQGAN 离散视觉 token、GPT-style autoregressive modeling、conditional VAE action chunking，以及真实机器人控制中的 Cartesian trajectory 到 joint action 的部署链路。

关键词：generalist robot manipulationvideo generative pre-trainingvideo-language-actionaction trajectory predictionwhole-body control

核心贡献清单

规模化视频预训练。作者将 GR-1 所用的 0.8M 预训练视频扩大到 38M text-video clips，约 50B tokens；这使模型在机器人 fine-tuning 前先学习“给定文本和当前帧，未来视觉状态应该怎样演化”。
Video-language-action 联合策略。GR-2 在机器人数据上不是只预测动作，而是同时预测未来多视角图像和 action trajectory；论文把这作为从视频生成知识无损迁移到机器人动作学习的关键结构设计。
真实机器人多任务和工业化 bin picking 验证。作者用 105 个桌面任务、94K bin-picking 轨迹、122 个评测物体和 CALVIN benchmark 展示模型的多任务学习、泛化和长序列能力。
部署层引入 WBC。模型输出 Cartesian action trajectory，随后通过 trajectory optimization 与 whole-body control 转为 200 Hz low-level joint actions，覆盖真实机器人运行时的平滑、碰撞和 manipulability 约束。

Figure 1. GR-2 的两阶段训练流程：Video-Language Pre-training 先学习互联网视频动态，Video-Language-Action Fine-tuning 再接入机器人多视角图像、状态和动作。

2. 动机

2.1 要解决的问题

论文把目标设定为 language-conditioned visual robot manipulation：人用自然语言给出任务，同一个策略根据语言、历史观测和机器人状态，直接输出未来一段动作轨迹。作者选择语言条件，是因为自然语言是人给机器人指定任务最灵活的接口之一。

现实瓶颈是机器人数据采集成本高、系统扩展慢。一个能做 100 个任务的机器人，如果每个任务都需要大量真实轨迹，数据采集会成为主要限制。论文明确强调 GR-2 在 1/8 数据量，即平均每任务约 50 条轨迹时仍能学习 100+ 任务，这是其“快速适配新任务”的关键动机。

2.2 已有方法的局限

论文从两个方向定位前作局限。第一，许多 generalist robot policy 依赖大规模机器人数据或目标图像、3D 信息、层级规划等专门信号；这些方法能提升任务覆盖，但仍受限于机器人数据规模或部署条件。第二，已有从非机器人域借知识的方法虽然使用 web-scale vision-language 模型或混合数据训练，但作者认为 视频中的环境动态 对 action prediction 尤其重要，因此单纯视觉表征预训练不完全匹配动作学习。

相对于 GR-1，GR-2 的论文内对比更具体：GR-1 已经尝试 video generative pre-training，但预训练视频只有 0.8M；GR-2 扩展到 38M，并且通过新的模型结构让预训练知识在机器人 fine-tuning 时继续参与视频预测和动作预测。

2.3 本文的高层思路

核心 insight 是：如果模型能根据语言和当前视觉状态预测“下一段视觉世界会怎样变化”，那么这个预测出的视觉轨迹可以成为动作生成的隐式计划。GR-2 因此不把视频生成仅当成预训练任务，而是在 robot fine-tuning 阶段继续同时预测未来图像和 action trajectory。

无附录说明：源码中未包含 Appendix 或补充实验文件；本节只基于 Introduction、Methods、Related Work 的正文内容整理。

3. 相关工作脉络

技术线	论文中的定位	GR-2 的差异
语言条件通用机器人操作	RT-1/RT-2、VIMA、HULC、RoboFlamingo、BC-Z、Octo 等工作探索用语言指定任务，训练能覆盖多任务的策略。	GR-2 仍采用语言条件，但强调先通过大规模视频生成预训练学习动态，再微调到动作预测。
机器人学习中的预训练	masked modeling、contrastive learning、world model、inverse dynamics、video prediction 等方式被用于增强泛化。	GR-2 选择 text-video generative pre-training，并在 robot fine-tuning 时保留视频生成目标，使动作预测与视觉未来预测并行。
Web-scale 知识迁移	已有方法通过 web-scale VLM、co-training 或 two-stream 架构把互联网知识转入机器人策略。	GR-2 明确把互联网视频里的 temporal dynamics 作为迁移对象，而不只是静态视觉/语言表征。
GR-1 系列延续	GR-1 已提出用视频生成预训练辅助机器人策略。	GR-2 把预训练视频从 0.8M 扩展到 38M，并扩展真实任务数、bin-picking 物体数与模型规模实验。

4. 方法详解

4.1 问题定义

论文把策略写成一个语言条件的端到端函数。给定语言指令 $l$、过去 $h$ 步环境观测 $\mathbf{o}_{t-h:t}$ 和机器人状态 $\mathbf{s}_{t-h:t}$，策略输出从当前时刻开始的未来 $k$ 步动作轨迹：

这个公式在说：策略不是预测单步动作，而是根据语言、视觉历史和机器人状态一次性生成一段未来动作。

$$\mathbf{a}_{t:t+k} = \pi(l, \mathbf{o}_{t-h:t}, \mathbf{s}_{t-h:t})$$

$l$	自然语言指令，例如 “press the toaster switch”。
$\mathbf{o}_{t-h:t}$	历史视觉观测序列；真实机器人中来自 head camera 和 hand camera 两个视角。
$\mathbf{s}_{t-h:t}$	机器人状态序列，包括末端执行器位置、旋转和二值 gripper state。
$\mathbf{a}_{t:t+k}$	未来一段 Cartesian action trajectory，而不是单个低层关节控制量。

4.2 两阶段训练

阶段一：Video generative pre-training。GR-2 是 GPT-style transformer。预训练输入是 tokenized text 和 image sequence，输出是未来图像的离散 token；这些 token 再由 VQGAN decoder 解码成未来帧。预训练数据由作者整理的 38M video clips 组成，约 50B tokens，来源包括 HowTo100M、Ego4D、Something-Something V2、EPIC-KITCHENS、Kinetics-700，以及 RT-1、Bridge 等公开机器人数据。

Figure 2. 预训练数据示例和动词分布。作者还使用 hand filtering 与 re-captioning 让互联网视频更贴近 manipulation。

阶段二：Robot data fine-tuning。fine-tuning 时，GR-2 的输出变成未来图像和动作轨迹的联合预测：

这个目标把“想象未来视觉状态”和“执行动作”绑定在同一个模型里。

$$\pi(l, \mathbf{o}_{t-h:t}, \mathbf{s}_{t-h:t}) \rightarrow \mathbf{o}_{t+1}, \mathbf{a}_{t:t+k}$$

$\mathbf{o}_{t+1}$	未来图像；在多视角机器人数据中，每个视角都要预测未来图像。
$\mathbf{a}_{t:t+k}$	由 conditional VAE 生成的 action trajectory。论文说经验上轨迹生成比单步动作对平滑性和实时性能更关键。

4.3 输入编码和输出头

语言：使用 frozen text encoder 对指令编码；论文引用 CLIP text encoder。
图像：使用 VQGAN 把每帧图像转换成离散视觉 token；VQGAN 在互联网数据和机器人域数据上训练，并在训练过程中冻结。
机器人状态：末端执行器 position、rotation 和 gripper state 通过可训练 linear layers 编码。
动作：action trajectory 由 conditional VAE 生成，支持动作多模态和 chunked prediction。

Algorithm: GR-2 fine-tuning forward pass Input: language l frames from multiple views o[t-h:t] # head camera + hand camera robot states s[t-h:t] # pose + rotation + gripper 1. text_tokens = FrozenTextEncoder(l) 2. image_tokens = FrozenVQGANEncoder(o[t-h:t]) 3. state_tokens = LinearStateEncoder(s[t-h:t]) 4. hidden = GPTTransformer(text_tokens, image_tokens, state_tokens) 5. future_image_tokens = ImagePredictionHead(hidden) 6. future_frames = FrozenVQGANDecoder(future_image_tokens) 7. action_trajectory = cVAEActionHead(hidden) # Cartesian trajectory chunk Output: future_frames, action_trajectory

4.4 真实机器人部署

硬件系统是 7-DoF Kinova Gen3 机械臂和 Robotiq 2F-85 gripper，配两个相机：静态 head camera 提供工作区整体视角，end-effector camera 提供夹爪附近交互视角。GR-2 输出 Cartesian trajectory 后，作者使用 Whole-Body Control 算法执行轨迹优化和实时运动跟踪。该过程把轨迹平滑性、连续性、collision constraints 和 manipulability 纳入优化，并以 200 Hz 执行低层 joint actions。

5. 实验与结果

5.1 实验设置总览

实验	数据/任务	评估目标	关键数字
Real-world multi-task learning	105 个桌面任务，8 类 skill；约 40K teleoperation trajectories，平均 400 条/任务；另有 1/8 数据版本约 50 条/任务。	多任务学习、干扰物鲁棒性、未见背景/环境/操作泛化。	Simple setting 97.7%；Unseen Backgrounds 71.4%；Unseen Environments 71.7%；Unseen Manipulation 55.8%。
End-to-end bin picking	55 个训练物体，约 94K pick-and-place trajectories；评估 122 个物体，其中 67 个训练未见。	工业式混杂物体抓取，seen/unseen/cluttered 泛化。	平均 success rate 从 GR-1 的 33.3% 到 GR-2 的 79.0%。
CALVIN benchmark	ABCD-D split，34 个任务，20K+ demonstrations；1000 个 5-task instruction chains。	模拟长序列语言条件操作。	1-task success 98.6%；5-task success 85.9%；average length 4.64。
Scaling	GR-2-S/B/L/XL 四种规模。	预训练 video loss 与真实机器人 success rate 是否随模型规模改善。	trainable parameters 为 30M、95M、312M、719M；默认 GR-2 总参数 230M，其中 95M trainable。

Figure 3. 多任务评估设置：Simple、Distractor、Unseen Backgrounds、Unseen Environments、Unseen Manipulation。

5.2 Real-World Multi-Task Learning

任务覆盖 picking、placing、uncapping、capping、opening、closing、pressing、pouring 八类 skill。作者还在 fine-tuning 中做数据增强：插入新物体时训练 diffusion model，并结合自采物体数据和 Open Images；改变背景时用 SAM 分割背景，再用 video generation model 生成保持机器人运动的 augmented video。

Figure 4. 105 个任务中的样例，覆盖 8 类操作 skill。

Figure 5. 多任务真实机器人 rollout 样例。

Figure 6. 多任务 success rate。论文正文给出的关键解读：GR-2 在所有设置中均优于 GR-1；数据增强让 unseen generalization 更强；50 条/任务版本仍能在 Simple setting 达到 73.9%。

论文强调的失败案例主要出现在 Unseen Manipulation：模型可能无法抓取新形状的未见物体，或在指令要求抓取未见物体时选错目标物体。这一失败模式也被作者在未来工作中指向“提升 unseen manipulation 的泛化和鲁棒性”。

5.3 End-to-End Bin Picking

bin picking 任务使用固定语言指令 move any object from the right basket to the left basket.。训练阶段有 55 个物体、约 94K 轨迹；评测阶段包含 122 个物体，分为 Seen、Unseen、Cluttered Seen、Cluttered Unseen 四种设置。Cluttered 设置把源篮中物体数量增加到训练设置约两倍，因此即使物体 seen，也构成分布外密度。

Figure 7. bin picking 环境、物体集合和四种评估设置。

Figure 8. bin picking success rate。正文报告 GR-2 平均 79.0%，GR-1 平均 33.3%。

Figure 9. bin picking rollout，包含透明、可变形、反光等对传统 model-based 方法较难的物体类型。

5.4 CALVIN Benchmark

CALVIN 评估长序列语言条件操作。作者在 ABCD-D split 上测试 1000 条 instruction chain，每条要求连续完成 5 个任务。GR-2 与 RT-1、MT-ACT、HULC、RoboFlamingo、GR-1 对比，论文报告其 1-task success 从 GR-1 的 94.9% 到 98.6%，5-task success 从 73.1% 到 85.9%，average length 从 4.21 到 4.64。

Figure 10. CALVIN benchmark，展示完成连续 1 到 5 个任务的 success rate 和 average length。

5.5 Autoregressive Video Generation

这一实验部分不是只展示“视频好看”，而是用于说明模型输出的 future video 与真实 rollout 对齐。作者给出的解释是：动作预测像是在“replay”模型自己预测的视频轨迹；因此持续改进 video generation 可能成为改进 action prediction 的路径。

Figure 11. Multi-task video prediction 与 GT rollout 对比 I。

Figure 12. Multi-task video prediction 与 GT rollout 对比 II。

Figure 13. Bin picking video prediction 与 GT rollout 对比 I。

Figure 14. Bin picking video prediction 与 GT rollout 对比 II。

Figure 15. CALVIN video prediction 与 GT rollout 对比 I。

Figure 16. CALVIN video prediction 与 GT rollout 对比 II。

5.6 Scaling

作者预训练了四种模型规模：GR-2-S、GR-2-B、GR-2-L、GR-2-XL，对应 trainable parameters 为 30M、95M、312M、719M。Figure 17 显示在 Ego4D、RT-1 和机器人数据验证集上 video prediction validation loss 随模型规模下降；fine-tuning 后真实机器人 success rate 也随规模提升。论文据此说明 GR-2 在 video generation 与 action prediction 两端都有 scaling trend。

Figure 17. Scaling 实验。前三个子图是 video prediction validation loss，第四个子图是真实机器人 success rate。

6. 论文内分析与讨论

6.1 作者给出的结果解释

视频预训练帮助动作预测。作者把视频视为环境动态和文本条件下状态演化的来源；预训练后模型在 robot fine-tuning 中能把这种动态先验迁移到动作预测。
多视角和轨迹输出对真实机器人重要。GR-2 处理 head/hand 两个视角，并输出 action trajectory；论文称轨迹输出相对于 single-step action 对平滑和实时性能更关键。
数据增强改善 unseen generalization。在多任务实验中，GR-2 w/ DA 在 Unseen Environments 达到 87.0%，并在三个 generalization settings 上平均 74.7%。
视频预测与动作预测相关。作者观察到 generated video 与真实 rollout 对齐，并认为动作像是在执行预测视频中的轨迹。

6.2 作者明确写出的失败与未来方向

论文明确指出 Unseen Manipulation 仍然困难。典型失败包括无法抓取新形状的未见物体，以及在指令要求抓取未见物体时错误选择其他物体。Conclusion 中作者把未来方向聚焦在提升 action prediction 对 unseen manipulation 的泛化能力和鲁棒性。

7. 分析、局限与边界

7.1 这篇论文最有价值的地方

从论文自身证据看，最核心价值在于把 web-scale text-video generative pre-training 和 real-robot action trajectory learning 做成同一条训练链路，并且不是只在模拟或小规模任务中验证。作者用 38M 视频预训练、105 个真实桌面任务、94K bin-picking 轨迹、CALVIN 长序列 benchmark 和模型 scaling 共同支撑这一设计。

7.2 结果为什么站得住

论文结果的支撑来自四类互补评估：第一，多任务真实机器人实验覆盖 Simple、Distractor 和三类 OOD setting；第二，bin picking 对 seen/unseen/cluttered 物体做工业式评估；第三，CALVIN 提供公共 benchmark 对比；第四，scaling 曲线同时检查 video generation loss 与 robot success rate。关键数值不是单一指标：97.7%、79.0%、85.9%、4.64、74.7% 分别对应不同任务形态。

7.3 作者自述局限

Unseen Manipulation 仍弱于其他设置。正文报告 GR-2 在 Unseen Manipulation 为 55.8%，并列出抓取新形状物体失败和选错未见目标物体两类失败。
未来仍需提升 action prediction 鲁棒性。Conclusion 明确将未来方向放在更强泛化和更稳健的动作预测，尤其是 unseen manipulation。
论文没有提供附录。无附录因此完整超参、模型层数、loss 权重、cVAE 细节、WBC 优化目标和训练工程细节没有在源码文本中完整展开。

7.4 适用边界

GR-2 的实验边界主要是语言条件视觉操作、桌面真实机器人、bin picking、CALVIN 模拟长序列任务。论文没有证明该方法能直接迁移到不同机械臂形态、移动操作、大范围导航、强接触装配或需要精细力控的任务；WBC 部分说明了真实部署考虑 collision 和 manipulability，但没有给出完整控制算法推导。

8. 可复现性审计

复现要素	论文给出的信息	审计状态
论文源码与图表	arXiv 提供 LaTeX 源码；本报告已从源码提取并转换所有独立图像。	可检查
数据	预训练数据来源和规模给出：HowTo100M、Ego4D、SSV2、EPIC-KITCHENS、Kinetics-700、RT-1、Bridge，总计 38M clips；真实机器人多任务 40K 轨迹，bin picking 94K 轨迹。	部分可复现；自采数据未公开
模型结构	GPT-style transformer、frozen text encoder、frozen VQGAN、state linear layers、cVAE action trajectory head；默认模型 230M 参数，95M trainable。	中等；缺少完整层级配置
训练目标	预训练预测未来图像 token；fine-tuning 同时预测未来图像和 action trajectory。	目标清楚；loss 权重和训练 schedule 缺失
部署	Kinova Gen3 + Robotiq 2F-85，head/hand cameras，WBC 以 200 Hz 执行 joint actions。	系统描述清楚；WBC 公式和工程细节不足
代码	论文和 arXiv 元数据只给 Project Page；本次检索未发现官方 GitHub 代码仓库。	代码不可直接复现

报告覆盖自检：Abstract、Introduction、Methods、Experiments、Related Work、Conclusions、Contributions/Acknowledgements 已全部覆盖；源码未提供 Appendix；所有源码中的独立图像已复制或从 PDF 渲染为 PNG 并嵌入/展示。