Vidar: Embodied Video Diffusion Model for Generalist Manipulation

arXiv:2507.12898 双臂机器人操作视频扩散世界模型低样本迁移 Masked Inverse Dynamics

方法名：Vidar, Video Diffusion for Action Reasoning

作者：Yao Feng, Hengkai Tan, Xinyi Mao, Chendong Xiang, Guodong Liu, Shuhe Huang, Hang Su, Jun Zhu

机构：Tsinghua University; Shengshu Tech

会议格式：NeurIPS 2025 preprint style

1. 论文速览

论文要解决什么	新机器人平台上，双臂操作需要大量与硬件绑定的示范数据；不同机器人动作空间、视角和形态差异又让跨平台迁移很难。论文想回答：能否把互联网上和机器人数据中的视频动态知识变成可迁移先验，让一个未见过的双臂平台只用约 20 分钟示范也能执行多任务操作？
作者的方法抓手	把策略分解成两步：先用视频扩散模型生成“接下来应该发生什么”的多视角视频 rollout，再用 Masked Inverse Dynamics Model, MIDM, 把视频帧转成目标机器人动作。关键抓手是统一观察空间、750K 多视角双臂视频的 embodied pre-training、少量目标平台全参数微调、测试时多采样重排，以及无像素标注的动作相关区域 mask。
最重要的结果	RoboTwin 2.0 多任务设置中，Vidar 在 low data clean 场景达到 60.0% 平均成功率，而 Pi0.5 为 25.0%；standard clean 为 65.8%，Pi0.5 为 44.8%。真实平台上，仅约 20 分钟、232 个 episode 的人类示范，Vidar 在 seen tasks/backgrounds、unseen tasks、unseen backgrounds 上分别达到 68.2%、66.7%、55.6%，显著高于 UniPi 和 VPP。
阅读时要注意的点	这篇论文的重点不只是“视频生成好看”，而是视频是否足够 action-aware。要特别看三处：统一观察空间是否真的缓解 embodiment gap；MIDM 的 mask 是否只是在真实平台分布上有效；TTS 依赖 GPT-4o 重排和云端视频模型，带来延迟、成本和闭环控制缺失。另一个边界是作者强依赖多视角能看到手臂与接触区域。

一句话版本：Vidar 把大视频模型当作机器人操作的可迁移世界先验，用统一多视角观察空间学“视频中的操作动态”，再用一个带隐式 mask 的逆动力学模型把预测视频落到新双臂机器人的动作空间。

Vidar method overview — Figure 2. Vidar 整体流程：外部视频和机器人视频训练视频扩散先验，目标平台少量示范微调，推理时通过 TTS 选择更好的视频，再由 MIDM 输出动作。

2. 动机与问题定义

2.1 为什么不是直接训练 VLA 策略

作者认为双臂操作的难点来自三个耦合因素：动作空间随关节数量膨胀，双臂之间需要精确时间协调，接触动态和长时序规划对数据质量很敏感。VLA 模型虽然可以把视觉、语言和动作端到端连接起来，但动作空间高度依赖机器人形态，跨平台时很难把一个平台的动作标签直接迁移到另一个平台。

因此 Vidar 选择绕开动作空间的异构性：视频扩散模型只学习世界如何演化，不直接学习动作；动作只在目标平台上由轻量逆动力学模型解码。这是论文的基本立场：视频是介于互联网数据、机器人数据和目标平台示范之间的中间模态。

2.2 形式化问题

原始目标是学习条件操作策略：

$$\pi: \mathcal{L} \times \mathcal{O} \rightarrow \mathbb{P}(\mathcal{A}),$$

其中 $\mathcal{L}$ 是语言指令空间，$\mathcal{O}$ 是观察空间，$\mathcal{A}$ 是动作空间。作者将其分解为视频生成模型 $G$ 和逆动力学模型 $I$：

$$\pi = I \circ G,\qquad G:\mathcal{L}\times\mathcal{O}\rightarrow\mathbb{P}(\mathcal{V}),\quad I:\mathcal{V}\rightarrow\mathcal{A}.$$

这意味着大部分跨任务、跨场景的知识由 $G$ 承担；目标机器人相关的动作映射由 $I$ 承担。读这篇论文时要一直问：视频空间是否真的保留了足够动作信息？如果某些关节或接触点不在视野里，$I$ 就无法可靠恢复动作。

2.3 贡献定位

提出用大规模视频扩散模型作为双臂操作的 transferable prior，并通过 embodied pre-training 把互联网视频先验适配到机器人视频域。
提出统一观察空间，把机器人类型、相机布局、任务语言和多视角帧拼接到统一输入格式，降低多平台数据的视角和形态差异。
提出 MIDM，用无像素级监督的 mask 让逆动力学模型关注手臂、工具和接触区域，从而提升背景变化下的动作解码泛化。
在 RoboTwin 和真实 Aloha 双臂平台上展示低样本适配，尤其强调真实平台只用约 20 分钟示范。

4. 方法详解

4.1 三阶段训练管线

Vidar 的训练从大到小分三层数据：

互联网规模视频预训练：直接采用已有视频模型 checkpoint，例如 Wan2.2、Vidu 2.0、HunyuanVideo，获得语义、运动和物理交互先验。
embodied domain pre-training：用约 750K 多视角双臂机器人 episode 继续预训练，让视频模型适配机器人、相机和操作动态。
目标平台 fine-tuning：用目标机器人少量示范做全参数 SFT，同时训练 MIDM 把视频帧映射到动作。

4.2 视频生成模型：rectified flow

作者采用 rectified flow 形式的视频扩散模型。模型学习速度场 $v(x_t,t,c)$，从高斯噪声 $x_0$ 流向目标视频 $x_1$：

$$\frac{d x_t}{d t}=v(x_t,t,c),\quad t\in[0,1].$$

训练时让速度场逼近从 $x_0$ 到 $x_1$ 的常量流：

$$L_G=\mathbb{E}_{c,t,x_0,x_1}\left[\left\|(x_1-x_0)-v(tx_1+(1-t)x_0,t,c)\right\|^2\right].$$

这里的 $c$ 不是只有任务文本，而是统一观察空间里的机器人、相机、任务和多视角图像上下文。这个选择是 Vidar 区别于普通 text-to-video 控制方法的关键。

4.3 统一观察空间

统一观察空间定义为：

$$\mathcal{U}=\{\langle\mathbf{o},\mathbf{l}\rangle\mid \mathbf{o}=\mathrm{aggregate}(\mathbf{I}^{(1)},\ldots,\mathbf{I}^{(V)}),\;\mathbf{l}=\mathrm{concatenate}(l_r,l_c,l_t)\}.$$

其中 $\mathbf{o}$ 是多视角图像聚合，$l_r,l_c,l_t$ 分别描述机器人平台、相机配置和任务指令。对不同数据集，作者给出类似 “fixed high camera, movable left arm camera, movable right arm camera” 的文本描述，作为条件的一部分。

这一步的好处是让模型不需要统一动作空间，只要把不同机器人平台的视频都投到同一种“多视角图像加描述”的格式里。但这也带来一个隐含要求：相机描述要足够稳定且视角能覆盖动作相关区域。

4.4 embodied pre-training 与目标平台微调

预训练数据来自 Agibot-World、RoboMind、RDT，真实实验对应的数据规模为 746,533 episodes；仿真实验额外加入 Egodex。作者过滤掉少于三视角或短于四秒的 episode，并用 Agibot 的 frame-level annotation 把长 episode 切成短 clips。预训练时按数据集大小比例采样。

目标平台的数据既用于 fine-tune 视频扩散模型，也用于训练 MIDM。真实平台数据为 20 分钟人类示范，覆盖 81 个任务、232 个 episodes；仿真 low data 设置为 RoboTwin 每任务 20 episodes，standard 设置为每任务 50 episodes。

4.5 Test-Time Scaling

视频扩散模型的采样有随机性，单次 rollout 可能物理不一致或任务不匹配。Vidar 在推理时生成 $K$ 个候选视频：

$$\{\tilde{\mathbf{v}}^{(i)}_{1:T}\}_{i=1}^{K},$$

然后用 evaluator $q_\eta$ 选择最高分视频：

$$\arg\max_i q_\eta(\tilde{\mathbf{v}}^{(i)}_{1:T}).$$

真实实验中 $K=3$，三条视频并行生成，再由 GPT-4o 依据物理合理性和任务文本一致性重排；仿真实验中为可复现性关闭 TTS，即 $K=1$。附录说明每次 pairwise comparison 约 0.003 美元，$K=3$ 时 GPT-4o 重排约占总延迟的 25%。

4.6 Masked Inverse Dynamics Model

MIDM 包含两个网络：mask prediction network $U$ 和 action regression network $R$。给定帧 $x$，先预测空间 mask：

$$m=U(x),\qquad \hat a=R(\mathrm{Round}(m)\odot x).$$

训练损失为：

$$L_I=\mathbb{E}_{x,a}\left[l(\hat a-a)+\lambda\|m\|_1\right],$$

其中 $l$ 是 Huber loss，$\lambda\|m\|_1$ 鼓励 mask 稀疏，Round 通过 straight-through estimator 训练。直觉是：如果模型必须用尽量少的像素预测动作，它会倾向保留手臂、夹爪、工具和接触点，过滤背景与反光干扰。

MIDM learned masks — Figure. MIDM 学到的 mask：在未见背景和反光表面中，mask 仍主要落在机器人手臂与关键操作区域。

4.7 为什么不用现成分割模型

附录测试了 RoboEngine 分割。作者指出它在双臂场景中经常只识别一只手臂，腕部视角下不稳定，也缺少时间一致性。因此 Vidar 不依赖外部分割标签，而是让动作监督反向塑造 mask。

RoboEngine segmentation results — Appendix. RoboEngine 分割示例：作为对照，说明显式分割在多视角双臂场景里可能漏掉动作相关部位。

5. 实验与结果

5.1 实验假设

Vidar 只用 20 分钟目标域示范也能获得更高成功率。
Vidar 能泛化到未见任务和未见背景。
统一观察空间上的 embodied pre-training 能提升视频生成质量。
MIDM 比普通 ResNet 逆动力学模型更能泛化。

5.2 数据与训练设置

项目	设置
预训练数据	Agibot-World、RoboMind、RDT；真实实验共 746,533 episodes；仿真实验额外加入 Egodex。
目标真实平台数据	20 分钟人类示范，81 个任务，232 episodes；目标平台在预训练中未见。
仿真数据	RoboTwin 2.0；low data 为每任务 20 episodes 且调整相机以完整看到手臂；standard 为每任务 50 episodes、官方视角。
视频模型	仿真使用 Wan2.2；真实主实验使用 Vidu 2.0；附录还复现 Wan2.2 和 HunyuanVideo。
训练步数	Wan2.2: 10K pre-training + 12K fine-tuning；Vidu 2.0: 10K pre-training + 13K fine-tuning；视频降采样到 8 fps。
MIDM	U-Net mask predictor + ResNet-50 action regressor；$\lambda=3\times10^{-3}$；仅用 fine-tuning dataset 训练。

5.3 RoboTwin 2.0 主结果

RoboTwin 结果使用更难的多任务设置：不是每个任务单独训练一个策略，而是 50 个任务平均评估，每个任务 100 episodes。表中 Pi0* 是官方 leaderboard 结果，因为其每任务独立训练，作者说明更容易且不完全可比。

方法	Low Clean	Low Randomized	Standard Clean	Standard Randomized
Pi0*	-	-	46.42%	16.34%
Pi0.5	25.0%	9.2%	44.8%	14.2%
Vidar	60.0%	15.7%	65.8%	17.5%

关键解读：Vidar 在 clean 场景提升最大，说明视频先验和多视角条件对任务执行很有帮助；randomized 场景提升较小，说明背景和物体随机化仍然是瓶颈，但 Vidar 仍超过 Pi0.5。

5.4 真实机器人主结果

真实实验分为 seen tasks/backgrounds、unseen tasks、unseen backgrounds 三类。基线选 UniPi 和 VPP，因为作者认为只有 20 分钟数据时，常规 VLA 很难有效适配。

方法	Seen Tasks & Backgrounds	Unseen Tasks	Unseen Backgrounds
VPP	4.5%	13.3%	0.0%
UniPi	36.4%	6.7%	22.2%
Vidar	68.2%	66.7%	55.6%

这里最强的证据是 unseen tasks 仍有 66.7%，说明视频模型不仅记住示范任务，还能利用语言和视频先验处理语义任务，例如抓最短的面包、用抹布擦桌子等。unseen backgrounds 降到 55.6%，但仍明显高于 UniPi 和 VPP。

Vidar prediction and execution demos — Figure. 真实机器人上，左侧是预测视频，右侧是对应执行，可用于检查视频 rollout 是否和动作执行一致。

5.5 embodied pre-training 的视频质量收益

配置	Subject Consistency	Background Consistency	Imaging Quality
Vidu 2.0	0.565	0.800	0.345
+ Embodied Pre-training	0.855	0.909	0.667

VBench 指标显示，机器人视频预训练显著提升主体一致性、背景一致性和成像质量。对机器人控制来说，subject consistency 不是纯视觉美观指标，它关系到手臂、物体和接触关系是否在整个 rollout 中保持稳定。

5.6 MIDM 泛化结果

逆动力学模型	Training Accuracy	Testing Accuracy	Testing $l_1$ Error
ResNet	99.9%	24.3%	0.0430
MIDM	99.9%	49.0%	0.0308

训练集上两者都几乎满分，但测试集 MIDM 成功率翻倍，说明 ResNet 更容易利用背景或纹理捷径，MIDM 的稀疏 mask 正则有助于把注意力拉回动作相关区域。

5.7 消融实验

配置	Seen Tasks & Backgrounds	Unseen Tasks	Unseen Backgrounds
Vidar w/o TTS	45.5%	33.3%	44.4%
Vidar w/o MIDM	59.1%	26.7%	22.2%
Vidar	68.2%	66.7%	55.6%

TTS 对 unseen tasks 提升很明显，从 33.3% 到 66.7%；MIDM 对 unseen background 尤其关键，从 22.2% 到 55.6%。这与论文叙事一致：TTS 主要筛掉任务不匹配或物理不合理的视频，MIDM 主要抵抗背景干扰。

5.8 附录中的补充结果

MIDM 的 $\lambda$

$\lambda=3\times10^{-3}$ 最好：testing accuracy 49.0%，testing $l_1$ error 0.0308。过大 $\lambda=10^{-1}$ 会 mask 太稀疏，测试准确率只有 7.1%；过小 $\lambda=10^{-4}$ 则约束不足，测试准确率 24.4%。

Wan2.2 附加真实实验

在 14 个真实任务上，Vidar-Wan2.2 的 seen cases 平均 69.3%，Pi0.5 为 34.3%；unseen cases 平均 67.1%，Pi0.5 为 12.9%。这支持方法不完全绑定 Vidu 2.0。

HunyuanVideo 附加实验

六个任务平均成功率 58.3%，其中抓苹果放入蒸锅为 100%，抓杯柄为 25%，堆积木为 20%。说明换 backbone 可行，但不同任务差异仍大。

失败案例

附录额外可视化包含成功和失败案例。报告读者应关注失败是否来自视频预测不合理、TTS 选错、MIDM 动作解码失败，还是开环执行误差累积。

Additional demos and failure cases — Appendix. 更多挑战任务示例，包含成功与失败案例，是理解边界条件的重要图。

6. 复现要点

6.1 数据处理

把每个数据集 episode 转成统一多视角图像布局；腕部或信息较少视角会 resize 后拼接。
给每条数据补充机器人、相机和任务描述，形成 $l_r,l_c,l_t$。
过滤少于三视角或短于四秒的数据；Agibot 用 frame-level annotation 切分短 clips。
RoboTwin low data 特意调整相机，使两只手臂完整可见，以利于 MIDM 学动作。

6.2 训练资源

模块	资源与训练
Vidu 2.0	64 张 NVIDIA Ampere 80GB GPU，23,000 iterations，约 64 小时；10,000 pre-training，其余 fine-tuning。
Wan2.2	5B 参数；pre-train lr $2\times10^{-5}$，fine-tune lr $2\times10^{-5}$，warm-up 200，pre-training 10K，fine-tuning 12K。
HunyuanVideo	13B 参数；64 张 NVIDIA Hopper 80GB GPU，约 54 小时；pre-training 10K，fine-tuning 2K。
MIDM	92M 参数；8 张 NVIDIA Hopper 80GB GPU，60,000 iterations，约 5 小时。

6.3 MIDM 超参数

超参数	值
Mask network	U-Net，5 层 down/up sampling
Action network	ResNet-50
Loss	Huber loss + $\lambda\\|m\\|_1$
Learning rate	$5\times10^{-4}$
Warm-up	6000 steps
AdamW	$\beta=(0.9,0.999)$，$\epsilon=10^{-8}$，weight decay $10^{-2}$
Mask sparsity	$\lambda=3\times10^{-3}$

6.4 推理流程

输入当前多视角观察和任务文本。
视频模型一次性生成 60 frames，8 fps，即 7.5 秒未来视频。
真实实验生成 $K=3$ 条候选，抽取 5 到 7 帧交给 GPT-4o 根据任务与物理合理性排序。
选中视频后，MIDM 在本地运行，把视频帧转换成动作序列。
执行为 open-loop，生成后不再根据执行中观察重新规划。

复现风险：Vidu 2.0 不是完全开源 backbone；TTS 使用 GPT-4o；视频模型部署在云端，单条 60 帧视频约 25 秒。这些因素会影响独立复现和实时部署。

7. 分析、局限与边界

7.1 这篇论文最有价值的地方

最有价值的地方是它给出了一个很清晰的跨 embodiment 迁移拆分：不要强行统一动作空间，而是先统一视频观察空间，让大视频模型学习跨机器人、跨视角的操作动态，再用目标平台少量动作数据训练逆动力学适配器。这个思路把昂贵的机器人动作监督压缩到最后一步，和当前大模型时代“先学通用先验，再低成本对齐”的范式非常一致。

第二个价值点是 MIDM 的设计很朴素但抓住了真实机器人泛化中的痛点：背景、反光、视角变化会让普通图像到动作模型过拟合捷径，而动作监督加稀疏 mask 可以在没有分割标签的情况下逼模型关注手臂和接触区域。

7.2 结果为什么站得住

主结果不是单一场景：同时覆盖 RoboTwin 仿真、真实 seen task、真实 unseen task 和真实 unseen background。
有强基线 Pi0.5、UniPi、VPP，并且作者解释了 Pi0 leaderboard 与多任务设置的可比性问题。
消融直接对应方法组件：w/o TTS 和 w/o MIDM 分别验证推理重排和 masked inverse dynamics 的贡献。
附录提供逐任务表格，不只给平均数；可以看到很多任务的差异，例如 handover、hanging mug、put bottles 等仍然很难。
VBench 和 MIDM 训练/测试对比提供机制证据：embodied pre-training 提升视频一致性，MIDM 提升测试动作预测而非仅训练拟合。

7.3 主要局限

强依赖可观察性：附录硬件部分明确指出，中间视频必须包含动作预测所需信息。Aloha 原始视角中手臂关节常出视野，所以作者调整了中心相机。很多商业平台未必能这样布置相机。
开环执行：真实实验中视频一次生成、动作一次执行，不是闭环视觉反馈控制。长时程任务或扰动场景下，误差可能累积。
推理延迟高：60 帧视频生成约 25 秒，TTS 还要额外 GPT-4o 排序。作者也承认需要蒸馏或量化降低成本。
TTS 依赖外部 evaluator：GPT-4o 排序能提升结果，但 evaluator 的偏差、成本和复现稳定性都要额外考虑。
真实实验规模仍有限：81 个任务、232 episodes 很有说服力，但相比部署级泛化仍不够大，尤其双臂复杂接触任务的失败类型需要更系统分析。
视频可行动性没有完全保证：扩散视频可能看起来合理但在动力学上不可执行，MIDM 只能把已选视频转换为动作，不能保证动作一定完成任务。

7.4 边界条件

适用条件	不适用或需谨慎的条件
有多视角 RGB 视频，且手臂、夹爪、接触物体大多可见。	关键状态在图像外，例如关节角、力、被遮挡接触点，视频无法反推出动作。
任务允许秒级或更长推理延迟，且可以 open-loop 执行一段时间。	高速动态、实时避障、强人机交互安全约束。
目标平台能采少量高质量示范，并能用同样相机布局训练 MIDM。	相机布局频繁变化或示范动作噪声很大。
语义明确、视觉上可判别的视频任务。	需要力控、触觉或隐状态推理的精细装配任务。

8. 组会问答准备

Q1: Vidar 和 UniPi 最大区别是什么？

UniPi 也用视频作为中间规划表示，但 Vidar 更强调大规模 embodied video pre-training、统一多视角观察空间，以及目标平台上的 MIDM 动作解码。真实实验里 UniPi 直接 fine-tune Vidu 2.0 并用 ResNet IDM，缺少异构机器人视频预训练和 mask 机制。

Q2: 为什么视频模型不直接输出动作？

作者想避免动作空间异构带来的 embodiment gap。不同机器人关节、夹爪、控制频率不同，直接统一动作很困难；视频空间更通用，可以承载语义和物理交互，再由每个目标平台训练轻量逆动力学模型。

Q3: MIDM 的 mask 为什么不需要分割标签？

因为监督来自动作预测误差。若某些像素对动作预测有用，保留它们会降低 Huber loss；同时 $\ell_1$ 正则要求 mask 尽量小，模型就倾向只保留动作相关区域。Round 通过 straight-through estimator 训练。

Q4: TTS 的作用和代价是什么？

作用是降低扩散采样的方差，从多条候选中选物理更合理、任务更匹配的视频。代价是多次视频生成和 GPT-4o 排序，真实实验 $K=3$ 时，排序约占总延迟 25%，且引入外部模型依赖。

Q5: 最可能被质疑的点是什么？

第一是可复现性：Vidu 2.0 和 GPT-4o 排序不是完全开源可控。第二是开环控制和高延迟。第三是相机调整让目标平台完整看到双臂，这对方法很关键，但实际部署中未必总能满足。

Q6: 如果继续做这条线，下一步最自然是什么？

把 Vidar 从开环视频执行改成闭环 receding horizon；把 GPT-4o TTS 替换为可本地部署的物理一致性/任务成功 evaluator；进一步把触觉、力或 proprioception 融入视频以外的状态，解决视频不可见信息问题。