中文 EN

Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model

方法名:DUST, DUal-STream diffusion

作者:John Won, Kyungmin Lee, Huiwon Jang, Dongyoung Kim, Jinwoo Shin

机构:KAIST

arXiv:2510.27607;v1 提交于 2025-10-31,v2 更新于 2025-11-04;20 页,10 图

链接:arXiv 摘要页 | PDF | HTML

1. 论文速览

一句话总结:DUST 把 VLA 的动作生成和未来视觉状态预测放进同一个 diffusion/flow-matching 框架里,但不用单一 latent space 硬拼两种模态,而是用 action stream 与 vision stream 分开去噪、共享注意力交换信息,并允许推理时给视觉 token 更多 denoising steps,从而把 world model 作为能反哺动作的显式辅助目标。
论文要解决什么世界模型增强 VLA 往往要同时预测动作序列和下一状态视觉表征。动作是低维、时间平滑的控制序列;未来视觉状态是高维、空间结构化的视觉 token。统一 diffusion 容易产生模态冲突,纯 causal 分离又限制双向信息流。
作者的方法抓手提出 DUST:MMDiT 双流架构、按模态独立采样噪声时间步 $(\tau_A,\tau_o)$、解耦 flow matching 损失,以及推理时 action/vision 异步采样。
最重要的结果在 RoboCasa 和 GR-1 上相对 FLARE/GR00T-N1.5 有稳定增益;真实 Franka Research 3 平均成功率 0.677,高于 GR00T-N1.5 的 0.547 和 FLARE 的 0.557;BridgeV2 action-free video 预训练后 RoboCasa 100 demos 平均成功率从 0.501 提升到 0.585。
阅读时要注意的点这篇文章的核心不是“加一个未来图像预测头”,而是用双时间步和双流结构让动作与未来观测在训练时互相约束,同时避免把两种统计结构差异很大的变量压进一个共享 latent space。

难度评级:★★★★☆。需要理解 diffusion policy、flow matching、VLA、VLM feature conditioning、world modeling、MMDiT/AdaLN,以及机器人 benchmark 的成功率评估。

关键词:Vision-Language-Action, world model, multimodal diffusion transformer, decoupled flow matching, asynchronous sampling, RoboCasa, GR-1, BridgeV2。

核心贡献清单

Unified Joint Diffusion Causal Diffusion Dual-Stream Diffusion
Figure 1. 原文对比三种世界模型增强 VLA 架构:统一联合 diffusion、单向 causal diffusion、以及 DUST 的双流 diffusion。DUST 的关键折中是“流分开、注意力共享”。

2. 动机

2.1 为什么 VLA 需要 world model

标准 VLA 通常把当前图像、机器人状态和语言指令编码成语义条件,再由 action expert 直接生成动作 chunk。它们可以很好地利用 VLM 的视觉和语言理解能力,但弱点是对“动作如何改变环境”没有显式建模。对于机器人控制,这个缺口很重要:抓取是否对齐、夹爪未来会到哪里、目标物是否可能被推开,这些都不是只看当前帧就稳定解决的问题。

世界模型增强 VLA 的想法是同时预测动作和未来视觉状态。这样模型不只拟合专家动作分布,还要解释动作对应的视觉后果。论文把这个目标表述为学习动作 $A_t$ 和未来观测嵌入 $\tilde{o}_{t+k}$ 的联合分布。

2.2 为什么“直接 joint diffusion”不够

已有 unified joint diffusion 把动作 token 和未来视觉 token 拼在一起,用同一个 diffusion model 统一生成。这个设计隐含一个强假设:动作与视觉可以被一个共享 latent space 共同承载。论文指出这会造成模态冲突:动作是低维、连续、平滑的控制轨迹;未来视觉 embedding 是高维、含空间结构的语义对象。它们需要不同的噪声日程、不同的去噪粒度和不同的归一化条件。

另一类 causal design 把两种模态分成不同模型,用单向条件连接。例如先预测未来视觉,再生成动作,或先生成动作,再预测未来状态。这样保留了模态专门性,却牺牲了双向知识传递。DUST 要解决的正是这个 trade-off:既要保留各自结构,又要允许双向交互。

2.3 这篇论文的核心假设

核心假设:动作与未来视觉状态不应该共享同一条去噪路径,但应该共享同一个跨模态注意力接口。训练时,如果动作和视觉被独立加噪,模型就会被迫在不同噪声组合下学习“动作导致什么未来状态”和“什么动作能解释这个未来状态”。

4. 方法详解

4.1 问题设定与 baseline VLA

数据集由专家轨迹组成:$\mathcal{D}=\{T_1,T_2,\ldots\}$。每条轨迹含任务指令 $I$、观察 $O_t=(o_t^v,o_t^s)$ 和动作 chunk $A_t=(a_t,\ldots,a_{t+k-1})$。目标是在当前视觉观察、机器人本体状态和语言指令条件下预测动作 chunk。

标准 diffusion action expert 先构造 noisy action:

$$A_t^\tau = \tau A_t + (1-\tau)\epsilon,\qquad \epsilon\sim\mathcal{N}(0,I).$$

然后训练速度网络预测线性路径的速度:

$$\mathcal{L}_{\mathrm{FM}}(\theta)=\mathbb{E}\left[\left\|V_\theta(\Phi_t,A_t^\tau,o_t^s)-(A_t-\epsilon)\right\|^2\right].$$

直觉:$\tau=0$ 时是纯噪声,$\tau=1$ 时是真实动作;网络学的是“从当前 noisy action 往真实 action 走”的方向。

世界模型目标不是预测像素,而是预测执行动作 chunk 后的未来图像 embedding $\tilde{o}_{t+k}$。这个 embedding 来自 VLM 中的视觉编码器,论文实验中使用 Eagle-2 相关的 SIGLIP-2 表征。

4.2 DUST 架构:双流但共享注意力

DUST architecture
Figure 2. DUST 主架构:冻结 VLM 从当前 observation 和 instruction 产生语义条件 $\Phi_t$;diffusion model $\pi_\theta$ 同时处理机器人状态、noisy action sequence 和 noisy future observation embedding。

DUST 的核心输入是三元组 $(o_t^s,A_t^\tau,\tilde{o}_{t+k}^\tau)$。动作 token 和未来视觉 token 进入 MMDiT block 后,大部分操作保留两条独立通道;只有在 shared cross-modal attention 层中临时合并,以便 action stream 与 vision stream 交换信息,随后立刻分回各自 stream。

每个 stream 有自己的 timestep embedding,并通过 AdaLN 注入。这一点非常关键:如果 action 与 vision 使用同一个 timestep 条件,就没法表达“动作已经很干净但视觉仍很 noisy”这类训练样本。附录进一步说明,论文实现是在原始 MMDiT block 上做轻量修改,让每个模态 stream 的 AdaLN 接受独立时间步 embedding 附录 A.2 / Figure 6

MMDiT block with modality-specific timestep embeddings
Figure 6. 附录中的 MMDiT 细节:两个 stream 的 AdaLN 条件来自各自 timestep embedding,而不是共享全局 timestep。

经过若干 shared MMDiT block 后,DUST 再把两个 stream 分别送入 modality-specific DiT blocks。论文主实验使用 12 个 MMDiT blocks,再接 4 个 action-side DiT blocks 和 4 个 vision-side DiT blocks。这个设计的含义是:前段尽量学习跨模态依赖,后段让每个模态各自完成精细去噪。

4.3 解耦加噪与 flow matching 损失

DUST 训练时不是只采样一个 $\tau$,而是分别采样动作时间步 $\tau_A$ 与视觉时间步 $\tau_o$:

$$A_t^{\tau_A}=\tau_A A_t+(1-\tau_A)\epsilon_A,$$ $$\tilde{o}_{t+k}^{\tau_o}=\tau_o\tilde{o}_{t+k}+(1-\tau_o)\epsilon_o.$$

模型输出两个速度场:

$$V_\theta(\Phi_t,A_t^{\tau_A},\tilde{o}_{t+k}^{\tau_o},o_t^s)=[V_\theta^A,V_\theta^o].$$

对应两个 flow matching loss:

$$\mathcal{L}_{A}=\mathbb{E}\left[\|V_\theta^A-(A_t-\epsilon_A)\|^2\right],$$ $$\mathcal{L}_{\mathrm{WM}}=\mathbb{E}\left[\|V_\theta^o-(\tilde{o}_{t+k}-\epsilon_o)\|^2\right].$$

总损失为:

$$\mathcal{L}_{\mathrm{Joint}}=\mathcal{L}_{A}+\lambda_{\mathrm{WM}}\mathcal{L}_{\mathrm{WM}}.$$

直觉:动作和未来视觉各学自己的“去噪方向”,但网络在 shared attention 中看到彼此的当前 noisy/clean 状态,所以联合关系仍然被学习。

这个设计让训练样本覆盖多种跨模态条件。例如 $\tau_A\approx1,\tau_o\approx0$ 时,模型要根据较干净动作推断未来视觉;$\tau_A\approx0,\tau_o\approx1$ 时,模型要根据较干净未来视觉反推可解释它的动作。这是 DUST 声称能学习 bidirectional joint distribution 的机制基础。

4.4 推理:异步 vision-action joint sampling

Asynchronous joint sampling
Figure 3. 异步采样:视觉 token 每个小步更新,动作 token 每 $q$ 个小步更新一次。默认 $q=1$,test-time scaling 时增大 $q$,也就是增加 $N_o$ 而固定 $N_A$。

推理阶段从两个噪声变量开始:$A_t^0\sim\mathcal{N}(0,I_A)$、$\tilde{o}_{t+k}^0\sim\mathcal{N}(0,I_v)$。设 action diffusion steps 为 $N_A$,vision diffusion steps 为 $N_o=qN_A$。全局小步长为 $\Delta\tau_o=1/N_o$,视觉每一步更新;动作每 $q$ 步更新一次,对应 $\Delta\tau_A=1/N_A=q\Delta\tau_o$。

$$\tilde{o}_{t+k}^{\tau_o+\Delta\tau_o}=\tilde{o}_{t+k}^{\tau_o}+V_\theta^o\Delta\tau_o,$$ $$A_t^{\tau_A+\Delta\tau_A}= \begin{cases} A_t^{\tau_A}+V_\theta^A\Delta\tau_A, & \text{if update step}\\ A_t^{\tau_A}, & \text{otherwise} \end{cases}.$$

直觉:动作低维,过多步数可能过度积分或引入误差;未来视觉 embedding 高维,更多去噪步数通常有利。DUST 的结构把这个不对称性暴露成一个推理时旋钮。

4.5 训练与推理伪代码压缩版

训练 DUST:
1. sample batch (o_t^v, o_t^s, I, A_t, o_{t+k}^v)
2. Phi_t = frozen VLM(o_t^v, I)
3. future embedding tilde{o}_{t+k} = VLM_img(o_{t+k}^v)
4. independently sample tau_A, tau_o and Gaussian noises
5. construct noisy action and noisy future embedding
6. encode action/state tokens and vision tokens separately
7. run MMDiT blocks with shared attention and modality-specific AdaLN
8. run modality-specific DiT blocks
9. decode V_theta^A and V_theta^o
10. optimize L_A + lambda_WM L_WM with AdamW

异步采样:
1. initialize action and vision tokens from Gaussian noise
2. choose N_A and N_o = q N_A
3. update vision every small step
4. update action only every q small steps
5. return final denoised action chunk and future observation embedding

5. 实验

5.1 统一实验设定

5.2 主结果:RoboCasa、GR-1、真实 Franka

RoboCasa100 demos300 demos1000 demos
MethodPnPOP/CLOtherAvg.PnPOP/CLOtherAvg.PnPOP/CLOtherAvg.
GR00T-N1.50.2150.6030.4680.4170.2720.6600.4660.4500.3230.7570.5080.508
+ FLARE0.2300.6480.4980.4460.3800.7670.5620.5530.4590.8370.6820.646
+ DUST0.2950.7600.5100.5010.4230.8070.5810.5850.4830.8630.6860.663

RoboCasa 结果显示,DUST 在 100/300/1000 demos 三个数据规模上都高于 FLARE。尤其 100 demos 场景下,DUST 平均成功率 0.501,相比 GR00T-N1.5 的 0.417 提高 0.084,相比 FLARE 的 0.446 提高 0.055,说明显式 dual-stream world modeling 对低数据量更有帮助。

GR-1300 demos1000 demos
MethodPnPArt.Avg.PnPArt.Avg.
GR00T-N1.50.1760.2830.2030.3070.3100.308
+ FLARE0.3400.3300.3370.3930.3240.363
+ DUST0.3580.3670.3600.4220.4130.420

GR-1 是更高维的 humanoid manipulation 场景,action space 有 29 DoF。DUST 在 1000 demos 平均成功率 0.420,高于 FLARE 的 0.363。论文强调 GR-1 训练对 batch size 敏感,需要较大规模训练 附录 A.2/A.3

Real-world task 1 Real-world task 2 Real-world task 3 Real-world task 4
Figure 4. 真实 Franka Research 3 的四个 pick-and-place task。每个 task 有 cup、doll、cube、sponge 四类物体。
真实 FrankaTask 1Task 2Task 3Task 4Avg.
GR00T-N1.50.5830.7500.5000.3540.547
+ FLARE0.6250.7290.5000.3750.557
+ DUST0.8330.7920.6250.4580.677

真实机实验使用 7-DoF Franka Research 3,两台 ZED 摄像头,一台腕部相机、一台侧视相机 附录 A.4 / Figure 7。训练数据为每个任务 60 条 teleoperation demonstrations。每个 object-task 配置评估 6 次,每个任务共 24 trials;若物体部分进入目标容器但重心在外,计 0.5 success。

Qualitative rollout comparison
Figure 5. 真实 pick-and-place 的定性对比:GR00T-N1.5 能靠近杯子但夹爪对齐失败;DUST 通过内部未来状态预测调整夹爪位置。

5.3 BridgeV2 action-free video 预训练

DUST 的双流结构天然支持只用视频训练 world-modeling stream。预训练阶段使用 BridgeV2 的视频部分,只优化 $\mathcal{L}_{\mathrm{WM}}$,action tokens 随机初始化;然后在 RoboCasa 100 demos 上 finetune。

MethodVideo PretrainPnPOP/CLOtherAvg.
GR00T-N1.5No0.2150.6030.4680.417
DUSTNo0.2950.7600.5100.501
DUSTYes0.4230.8070.5810.585

这个实验是论文最有扩展意义的部分:如果 action-free human/robot videos 可以只训练未来视觉建模,再迁移到少量带动作的 robot demos,那么 DUST 就不仅是一个策略改造,也可以作为大规模 VLA 预训练的接口。

5.4 Test-time scaling:只给 vision 更多步

$N_o$RoboCasa 100 Avg.RoboCasa 1000 Avg.GR-1 1000 Avg.
40.5010.6630.420
160.5040.6680.451
320.5080.6860.471
640.5180.6970.450

异步采样整体有效:RoboCasa 100 demos 从 0.501 到 0.518,RoboCasa 1000 demos 从 0.663 到 0.697,GR-1 1000 demos 在 $N_o=32$ 时达到 0.471。论文解释为视觉 embedding 的高维结构更需要细粒度 refinement。

附录做了关键对照:如果同步增加 $N_A=N_o$,性能会下降。例如 RoboCasa 100 demos 平均成功率从 0.501 降到 0.425/0.424/0.397;GR-1 也从 0.420 降到 0.416/0.406/0.401 附录 A.1 / Table 7。这说明收益不是“更多 diffusion steps”本身,而是“给需要更多步的模态更多步”。

5.5 消融实验:结构和训练都不能少

Arch.NoisePnPOP/CLOtherAvg.
DiTJoint0.2400.6330.3400.380
DiTDecoupled0.2480.6130.4540.425
MMDiTJoint0.1600.6770.3820.382
MMDiTDecoupled0.2950.7600.5100.501

消融结论很干净:只做 decoupled noising 但没有双流 MMDiT,平均成功率 0.425;只做 MMDiT 但使用 joint noise,平均成功率 0.382;两者一起才到 0.501。

MMDiT depth

总层数固定为 16,MMDiT 层数为 6/10/12/14 时平均成功率分别为 0.474/0.483/0.501/0.493。12 MMDiT + 4 DiT 最优。

$\lambda_{\mathrm{WM}}$

$\lambda_{\mathrm{WM}}=0.2/0.5/1.0/2.0$ 时平均成功率为 0.343/0.489/0.501/0.496。动作和世界模型目标需要相对均衡。

6. 可复现审计

6.1 数据与评估任务

Benchmark任务与数据观察/动作空间训练规模
RoboCasa24 个厨房 manipulation tasks:8 个 pick-and-place、6 个 open/close、10 个 miscellaneous;数据由 MimicGen 在 MuJoCo 中生成。3 个视角:left、right、wrist;Franka Panda 7 DoF,包括末端位置/旋转和二值夹爪。每任务 100、300、1000 demos;global batch size 32,2 A100;60k/420k/600k steps。
GR-124 个 tabletop tasks:16 个 pick-and-place、8 个 articulated tasks;数据来自 GR00T-N1.5/DexMimicGen。单个 head egocentric view;GR-1 humanoid + Fourier dexterous hands,总 29 DoF。每任务 300、1000 demos;global batch size 960,8 H200,60k steps。
真实 Franka4 个 pick-and-place 指令模板,每个含 Teddy Bear、Blue Cube、Blue Cup、Sponge。7-DoF Franka Research 3,joint position + binary gripper;两台 ZED 相机。每任务 60 teleop demos;global batch size 32,2 A100,60k steps。
BridgeV2 transfer预训练只用 BridgeV2 的 action-free video component。只优化 future observation embedding 的 world-modeling loss。2 A100,batch size 32,120k pretrain steps;再在 RoboCasa 100 demos 上 finetune 60k steps。

6.2 优化与模型细节

6.3 复现风险点

风险点为什么重要论文给出的缓解信息
GR-1 batch size 敏感作者明确说 GR-1 需要 large-scale training 才有 meaningful results;小 batch 复现可能掉很多。global batch size 960,8 H200,60k steps。
FLARE baseline 非官方实现结果依赖作者复现的对齐模块和 target choice,不能等同于官方 FLARE。作者说明使用同一 VLM backbone、同一 future embedding target,alignment module 是 small MLP。
真实机评估随机性真实桌面场景中物体初始位置、朝向和接触动力学影响很大。作者预先固定 varied configurations;每个 object-task 配置 6 次,半成功计 0.5。
代码可用性论文源码包含 LaTeX 与图表,但未在 arXiv 页面标出官方 GitHub。复现需要依赖 GR00T-N1.5 codebase 和论文附录超参自行实现 DUST。

6.4 最小复现路线

  1. 从 GR00T-N1.5 codebase 启动,冻结 Eagle-2 VLM,并确认能训练原始 diffusion action expert。
  2. 增加 future image embedding target:提取 $o_{t+k}^v$ 的 SIGLIP-2/Eagle-2 image tokens,并做 $2\times2$ average pooling 到 64 tokens。
  3. 实现 action stream 与 vision stream 的 encoder/decoder,以及 MMDiT block 中的双 AdaLN timestep conditioning。
  4. 训练时独立采样 $\tau_A,\tau_o$,分别构造 noisy action 和 noisy future embedding。
  5. 优化 $\mathcal{L}_A+\lambda_{\mathrm{WM}}\mathcal{L}_{\mathrm{WM}}$,先用 $\lambda_{\mathrm{WM}}=1.0$,主实验默认 $N_A=N_o=4$。
  6. 复现实验优先跑 RoboCasa 100 demos:成本最低,且消融和主结果都在这里最有区分度。
  7. 最后评估异步采样,把 $N_A$ 固定为 4,尝试 $N_o=16,32,64$;不要同步增加 $N_A$。

7. 分析、局限与边界

7.1 这篇论文最有价值的地方

我认为最有价值的是它把“世界模型辅助动作生成”拆成了一个很清晰的工程和建模问题:动作和未来视觉确实应该互相约束,但它们不应该被迫使用同一条 diffusion 时间轴。DUST 的双流结构、独立噪声、解耦损失和异步推理四件事互相咬合,形成了一个比“加辅助 loss”更完整的设计。

另一个亮点是 BridgeV2 action-free video 预训练实验。虽然规模不算巨大,但它展示了一个有吸引力的路径:未来视觉 stream 可以从无动作视频中学习环境动力学,再在少量 robot action 数据上迁移成策略。

7.2 结果为什么站得住

7.3 局限与读者应保留的疑问

问题具体影响
未来视觉目标仍是 embedding,而非可解释物理状态SIGLIP-2/Eagle-2 embedding 比像素更贴近语义,但它是否真正捕获可控物理变量,仍需更细分析。
真实机任务范围较窄四个 pick-and-place templates 证明了 sim-to-real 之外的有效性,但不足以说明长时序、多阶段、接触复杂任务的鲁棒性。
计算成本较高GR-1 使用 8 H200、batch size 960;RoboCasa 1000 demos 需 600k steps。DUST 不是轻量小模型改造。
未看到官方代码链接附录给了伪代码和超参,但真正复现还要处理 GR00T-N1.5/Eagle-2 接口、MMDiT 修改、数据 pipeline。
异步采样增加推理开销$N_o=64$ 时成功率更高,但会增加 inference time;实际机器人闭环频率可能限制可用步数。

7.4 组会可追问的问题

  1. 为什么 MMDiT + joint noise 比 DiT + decoupled noise 还差?是否因为双流结构在没有独立时间步时反而更难优化?
  2. future embedding target 选择 SIGLIP-2/Eagle-2 是否最优?换成 DINOv2、V-JEPA 或 robot-specific encoder 会怎样?
  3. BridgeV2 预训练只优化 $\mathcal{L}_{\mathrm{WM}}$,action tokens 随机初始化;是否可以额外加入 latent action 或 inverse dynamics proxy?
  4. 异步采样中 action token 在 inner loop 里保持不变,但 $\tau_A$ 的推进在论文公式与伪代码表述上略有实现细节空间;实际代码中如何同步 condition timestep 需要小心。
  5. 未来状态预测是辅助训练目标,但推理最终执行只依赖 action chunk 还是也用未来 embedding 做闭环检查?论文主要是前者,后者可能是下一步扩展。

附:本报告覆盖检查

已覆盖:Abstract、Introduction、Related Works、Preliminaries、Method、Experiments、Conclusion,以及附录的同步采样消融、实现细节、训练超参、benchmark 细节、真实机设置、伪代码和 rollout 图说明。

图表处理:使用 arXiv HTML 渲染出的 PNG 图像保存在 figures/;关键定量表格已重建为 HTML 表格。

残余风险:arXiv 页面未标注官方代码仓库;报告中的复现路线基于论文附录和源码,不等同于已验证代码运行。