中文 EN
ArXiv 2411.18179 · 论文精读报告

Prediction with Action: Visual Policy Learning via Joint Denoising Process

作者:Yanjiang Guo, Yucheng Hu, Jianke Zhang, Yen-Jen Wang, Xiaoyu Chen, Chaochao Lu, Jianyu Chen

机构:Tsinghua / Shanghai Qizhi / Shanghai AI Lab / UC Berkeley

论文链接:arXiv:2411.18179

项目页:PAD Project Page

1. 论文速览

一句话概括:这篇论文提出 PAD,把“未来图像预测”和“机器人动作生成”放进同一个扩散去噪过程里联合学习,不再走“先生成目标图,再训练低层策略”的两阶段路线。

核心结论:联合去噪让动作头直接共享视觉预测模型里的物理表征;再配合 BridgeData-v2 这类大规模视频数据共训练,PAD 在 MetaWorld 和真实 Panda 操作任务上都明显优于 Diffusion Policy、SuSIE、RT-1、RT-2*、GR-1。

论文要解决什么

视觉模仿学习数据昂贵、规模小,而互联网视频包含大量“物体如何运动”的物理先验。问题在于,以往方法通常只把视频生成模型当作一个外部工具,先合成目标图,再交给单独的策略去学动作,预测与控制之间耦合太弱。

作者的方法抓手

用 Diffusion Transformer 把当前 RGB、机器人状态、文本指令,以及可选深度一起编码成 token;模型同时预测未来图像、未来动作、未来深度,在同一个 latent diffusion objective 下训练。

最重要的结果

MetaWorld 50-task 平均成功率达到 72.5%,相对最强基线 GR-1 的 57.4% 有明显提升;真实任务 seen-task 平均成功率 PAD 为 0.72,加入深度后到 0.78

阅读时要注意的点

摘要写“single policy solve 41 tasks”,但正文与表格一直按 MetaWorld 50 tasks 统计;附录又说明 handle-pull-side-v2handle-pull-v2 未列细项,因为原始专家本身成功率低。这是论文内部一个口径不完全一致的地方。

联合去噪 DiT 多模态建模 视频共训练 未来图像辅助控制 RGBD 可扩展
Multi-task comparisons in two domains
图 1:摘要图。PAD 同时在 MetaWorld 和真实 Panda 操作任务上做单策略多任务学习,作者强调它不是单纯提动作头,而是把未来视觉预测一并纳入训练。

2. 动机

作者的出发点很直接:预测与行动本质上共享同一套物理规律。一个能够从图像里预测“接下来会发生什么”的模型,理应也更适合决定“现在该怎么动”。问题是,已有机器人工作大多把这两件事拆开做,预测模型最多给策略提供目标图像,而不会把自己学到的物理表征直接暴露给动作生成过程。

Motivation and joint denoising
图 2:论文的核心动机图。作者把视觉生成模型和 diffusion policy 统一解释成“不同模态上的去噪”,然后提出在统一 token 序列上联合预测未来图像和机器人动作。

为什么两阶段不够

SuSIE、UniPi 一类方法先生成未来图像,再学逆动力学或低层策略。这种接口太窄,动作头只能看到一张中间结果,拿不到扩散模型在中间层里编码的物理先验。

为什么选 DiT

作者认为 U-Net 更偏纯图像生成,而 DiT 用 token 拼接更适合把图像、动作、深度、文本放在一个自注意力序列里做联合建模,也更方便处理模态缺失。

3. 相关工作梳理

论文把相关工作放在实验后面,但逻辑上可以提前整理成三条主线。

方向 代表方法 核心思想 PAD 的区别
预训练模型直接做机器人 RT-1, RT-2* 把视觉语言 backbone 直接适配成动作预测器 PAD 不直接依赖超大 VLM,而是把“未来预测”当作动作学习的结构化辅助信号。
扩散式动作策略 Diffusion Policy 在动作空间上去噪生成控制序列 PAD 不只去噪动作,还同步去噪未来图像和可选深度,监督更强。
未来图像辅助控制 SuSIE, UniPi, GR-1 用生成或自回归预测未来,再间接帮助动作 PAD 不是串行两阶段,而是单个 DiT 内的联合去噪;与 GR-1 相比,作者强调 diffusion 生成图更精细。

作者想占据的技术位置

PAD 试图站在“扩散动作策略”和“未来视觉预测”之间:既保留 diffusion policy 的多模态动作建模能力,又把互联网视频学到的物理变化模式通过联合损失注入策略。

4. 方法详解

PAD framework
图 3:PAD 总体框架。当前观测先被编码成 latent,与未来目标的高斯噪声在通道维拼接,再 token 化后进入 DiT。输出同时对应未来图像、未来动作,以及可选深度。

4.1 问题定义

机器人数据记为 D_robot,每条样本含当前图像序列、语言指令和轨迹;视频数据记为 D_video,只有图像,没有机器人动作。PAD 的目标是在机器人数据稀缺时,通过和视频数据共训练,提升视觉策略学习效果。

4.2 输入、输出与 token 化

符号 含义
$c_I, c_A, c_E, l$ 当前 RGB、当前机器人状态、当前深度、文本指令
$x_I^{1:k}, x_A^{1:k}, x_E^{1:k}$ 未来 $k$ 步的 RGB、动作、深度目标
$\varepsilon_I, \varepsilon_A, \varepsilon_E$ 不同模态编码器;图像是冻结 VAE,动作是 MLP,深度是下采样+tokenize
$t_I, t_A, t_E$ 不同模态映射后的 token 序列

实现层面,PAD-XL/2 对 256×256 图像先用冻结 VAE 编到 32×32×4 latent,再按 2×2 patchify 成 256 个图像 token;动作未来序列被编码成 1 个 action token。如果有深度,则把 32×32×1 深度图按 8×8 切成 16 个深度 token。文本由冻结 CLIP 编码。

4.3 联合条件去噪

PAD 不是先预测一张未来图再去求动作,而是对每种未来模态都构造“条件 latent + 噪声 latent”的拼接输入。例如图像模态里,当前观测 latent εI(cI) 和未来 k 帧噪声 zI_t 在通道维拼接,动作与深度也是同理。

关键数学对象

扩散逆过程按条件分布

$$ p(z_{t-1}\mid z_t, c)=\mathcal{N}\left(z_{t-1}; \sqrt{\bar{\alpha}_{t-1}}\mu_\theta(z_t,t,c),(1-\bar{\alpha}_{t-1})\mathbb{I}\right) $$

其中

$$ \mu_\theta(z_t,t,c)=\frac{z_t-\sqrt{1-\bar{\alpha}_t}\,\epsilon_\theta(z_t,t,c)}{\sqrt{\bar{\alpha}_t}}. $$

训练时同时最小化图像、动作、深度三项扩散损失:

$$ \mathcal{L}(\theta)=\lambda_I\mathcal{L}_{diff}^{I}+\lambda_A\mathcal{L}_{diff}^{A}+\lambda_E\mathcal{L}_{diff}^{E}. $$

直觉上,PAD 逼着同一个 DiT 同时解释“场景接下来长什么样”和“机器人接下来怎么动”,这就是论文的结构性偏置来源。

4.4 DiT 为什么能兼容缺失模态

视频数据没有动作,真实机器人数据可能有深度,MetaWorld 又没有深度。PAD 的做法是把所有模态 token 长度统一到总长度,再用 self-attention mask 把 padding 位置屏蔽掉,只保留有效输出。这样同一套参数就能同时吃 D_videoD_robot

4.5 训练与执行细节

初始化
从 ImageNet 上预训练的 class-conditional DiT 初始化;丢掉类别嵌入,新加文本层,动作相关编码器和解码器零初始化。
预训练
先在 BridgeData-v2 上预训练 200k steps,数据规模约 60,000 trajectories,用来建立未来图像预测先验。
适配
再在具体机器人域上继续训练 100k steps。作者给出的资源消耗是 4 张 A100,预训练约 2 天,适配约 1 天。
损失权重
λI 全程维持 1.0;λAλE 在 100k 步内从 0 线性拉到 2.0,避免刚开始动作头抢跑破坏已有图像先验。
部署
预测 horizon 设为 k=3,相邻未来帧间隔 4;每轮用 75 步 DDIM 采样,同时得到 3 步未来图像和动作,只执行第一步动作,再进入下一轮闭环。

5. 实验

Task setup
图 4:实验域。左边是 MetaWorld 单策略 50 任务,右边是真实 Panda 多任务操作,并额外设计 unseen-object / unseen-background 的泛化测试。

5.1 实验设置

MetaWorld

每个任务收集 50 条轨迹,只用 corner2 视角,状态为 4 维末端位置+夹爪状态;不使用深度。作者强调与此前“每任务一个策略”的设定不同,这里训练的是单个文本条件策略。

真实 Panda

任务涵盖按按钮、理线、抓取、放置、开关抽屉等;每个任务收集 200 条轨迹,使用手腕相机,机器人状态为 7 维。作者还做了 OOD 测试,加入陌生水果蔬菜玩具和新背景。

比较方法包括 Diffusion Policy、SuSIE、RT-1、RT-2*(作者按 InstructBLIP-7B 复现)和 GR-1。所有方法都按“单个文本条件视觉策略覆盖整个任务域”的口径训练。

5.2 主结果

场景 指标 最强基线 PAD 增益解读
MetaWorld 50-task 平均成功率 GR-1: 57.4% 72.5% 比最强基线高 15.1 个点;相对提升约 26.3%
真实 Panda seen tasks 平均成功率 RT-2*: 0.69 0.72 纯 RGB 版本略高于 RT-2*;若加入深度,PAD-Depth 达到 0.78
真实 Panda generalization 未见任务/物体泛化 图示比较 PAD 最强 摘要声称相对最强基线有 28.0% 成功率提升
MetaWorld 代表性难任务 GR-1 RT-2* PAD
assembly-v2 0.64 0.24 0.88
basketball-v2 0.08 0.08 0.84
coffee-pull-v2 0.52 0.68 0.80
stick-push-v2 0.60 0.12 0.96
door-lock-v2 0.60 0.40 0.88

5.3 泛化、共训练和多模态扩展

Generalization test grid
图 5:真实机器人泛化测试样例。作者把 unseen tasks 按 easy / middle / hard 三档设计,包含更多干扰物、陌生物体和新背景。
Generalization bar chart
图 6:泛化柱状图。PAD 在三档难度上都优于基线,难例尤其明显,说明从视频数据学到的物理先验确实迁移到了控制上。
Co-training ablation
图 7:去掉视频共训练后,预测图像质量明显下降,某些关键物体甚至会消失。作者据此把性能提升归因为更好的未来图像预测,而非仅仅更大的模型容量。
Depth modality extension
图 8:PAD 可直接扩展到深度模态。真实任务里 PAD-Depth 平均成功率从 0.72 提到 0.78,说明“多模态联合去噪”的设计并不是 RGB 专用技巧。

5.4 Scaling 分析

模型 参数量 Gflops MetaWorld 平均成功率
PAD-B/2 128M 22.5 62.4%
PAD-L/2 449M 79.1 68.4%
PAD-XL/4 661M 29.5 64.5%
PAD-XL/8 661M 7.7 48.2%
PAD-XL/2 661M 119.1 72.5%
Scaling curve
图 9:Transformer Gflops 与策略成功率基本正相关。这里的提升既来自模型更大,也来自更细 patchify 带来的更长 token 序列。

6. 分析与讨论

6.1 这篇论文最有价值的地方

把“预测”从外部工具变成内部监督

过去很多方法只是把未来图像当作中间产物;PAD 的价值是让动作头在同一个去噪网络里共享视觉未来建模的隐变量。这比“先生成、后控制”更像真正的多任务表征学习。

视频数据终于有了清晰接入口

机器人数据缺动作标签之外的大规模视频,一直很难直接喂给控制模型。PAD 用 attention mask 解决了模态缺失问题,让纯视频也能对策略产生训练价值。

6.2 结果为什么站得住

这篇论文的说服力主要来自三组互相咬合的证据:

证据 观察 支撑的论点
PAD vs 基线 MetaWorld、真实任务都领先 联合去噪结构本身有效
PAD w/o img MetaWorld 平均从 72.5% 掉到 43.6% 未来图像预测不是装饰,而是关键监督源
PAD w/o co-train MetaWorld 平均掉到 59.2% 互联网视频共训练确实提供了额外帮助
PAD vs GR-1 predicted images
图 10:PAD 与 GR-1 的未来图像预测比较。作者借此解释为什么 PAD 在精细操作任务上更强:扩散生成的图像细节更准,动作预测也更稳。
Bridge predictions
图 11:在 BridgeData-v2 上,PAD 的预测既能跟住语言,也会显式暴露不确定性。作者认为这说明模型确实学到了跨域物理动态,而不是死记目标图。

6.3 局限与可疑点

推理开销不低

每次控制要做 75 步 DDIM,同时还要生成未来图像和动作。作者自己也在结论里承认控制频率不高,这对高速闭环控制会是硬约束。

因果链条还不是完全闭合

论文把收益归因于“更好的未来图像预测带来更好的动作”,这个解释合理,但目前证据还是相关性为主。若能进一步做中间表征或 teacher forcing 实验,因果关系会更扎实。

任务口径有轻微不一致

摘要写 41 tasks,主体写 50 tasks,附录又说明有两个 handle-pull 任务没给出详细项。这不影响主要趋势,但会影响读者对“到底统计了多少任务”的第一印象。

真实世界规模仍有限

真实实验是单个 Panda 平台、多类桌面操作。虽然效果不错,但距离开放场景的泛化机器人还差很远,尤其没有测试复杂接触和高频动力学任务。

6.4 附录里值得保留的信息

Appendix 附录没有额外理论推导,但提供了几个对复现实验判断很关键的细节:图像 latent 形状、depth token 数、各种模型大小、完整的 MetaWorld baseline 明细,以及真实任务中 expert / unseen task 的样例图。这些信息已经吸收到上面的“方法细节”和“实验分析”里。

Expert tasks part 1
图 12:附录中的真实任务专家样例 1。
Expert tasks part 2
图 13:附录中的真实任务专家样例 2。
Unseen tasks
图 14:附录中的 unseen-task 样例。测试集里的物体和背景比训练演示更复杂,说明泛化实验不是简单同分布复测。

我的总体判断

PAD 的关键贡献不是“又做了一个更大的 diffusion policy”,而是把未来视觉预测和动作生成绑定进同一个训练目标里,并给视频共训练提供了一个非常自然的接口。对“如何把互联网视频先验注入机器人控制”这个问题,这篇论文给出的结构答案是清晰且有说服力的。它的主要短板则在于推理成本和真实世界验证规模。