中文 EN

Unified Diffusion VLA: Vision-Language-Action Model via Joint Discrete Denoising Diffusion Process

作者:Jiayi Chen, Wenxuan Song, Pengxiang Ding, Ziyang Zhou, Han Zhao, Feilong Tang, Donglin Wang, Haoang Li

机构:The Hong Kong University of Science and Technology (Guangzhou), Westlake University, Zhejiang University, Monash University

发表形式:ICLR 2026 conference template / arXiv preprint, 2025

链接:arXiv:2511.01718 | PDF | Project Page | Code | CALVIN checkpoint

源码说明:arXiv 源码含完整 Appendix:LLM usage、future image visualization、real-world setup/tasks、loss formulations、training details、baselines、discrete vs continuous diffusion comparison。

1. 论文速览

一句话总结:UD-VLA 把语言、当前图像、未来图像和动作统一到离散 token 空间,用 Joint Discrete Denoising Diffusion Process 在同一个同步去噪轨迹中并行生成未来图像与动作,从而让动作在每一步去噪中持续利用未来视觉信息。
阅读定位项紧凑结论
论文要解决什么已有 unified VLA 要么依赖外部视觉/动作专家,要么虽然把视觉和动作 token 化,却在图像生成和动作预测之间保留分离解码,导致未来图像对动作的引导不足且推理慢。
作者的方法抓手用 VQ visual tokenizer 和 FAST action tokenizer 把图像、动作都转成离散 token;用 hybrid attention 保持跨模态方向性;用 JD3P 让未来图像 token 和动作 token 在同一个离散扩散过程中同步去噪。
最重要的结果CALVIN ABCD->D 平均长度 4.64;LIBERO 平均成功率 92.7%;SimplerEnv-WidowX 表格 overall 62.5%;JD3P 解码速度 219.3 tokens/s,相对 AR 的 50.2 tokens/s 约 4.3 倍。
阅读时要注意的点核心不是“加未来图像”本身,而是让动作 token 在多轮去噪中反复 attend 到中间态未来图像 token;同时注意 SimplerEnv 正文与表格存在数值不一致。

难度评级:★★★★★。需要熟悉 VLA、visual chain-of-thought、VQ tokenization、FAST action tokenization、discrete diffusion / mask-predict、attention mask 设计和机器人 imitation learning benchmark。

关键词:Vision-Language-ActionDiscrete DiffusionJD3PHybrid AttentionFuture Image Generation

核心贡献清单

UD-VLA overview
Figure 1. UD-VLA 总览:架构、两阶段训练和 JD3P 推理。输出端包括固定长度 future image tokens 与可变长度 action tokens。

2. 动机

2.1 要解决的问题

VLA 的任务是读入自然语言指令和视觉观测,并输出能在物理世界中执行的动作。近期 unified VLA 开始把未来图像纳入 understanding-acting loop:先预测未来视觉状态,再把动作预测转化为“怎样达到这个未来状态”的 inverse kinematics 问题。

论文认为真正的统一不只是把输出模态放在同一个序列里,而是让视觉生成和动作生成彼此增益。若未来图像只在训练阶段作为辅助任务,或推理时图像生成和动作生成分开执行,动作 token 只能有限地吸收未来视觉信息。

2.2 已有方法的局限

范式典型做法论文指出的问题
外部专家统一模态GR-1、SEER、DreamVLA、F1、UP-VLA 等使用额外 encoder/decoder 或扩散专家生成视觉/动作。模块分离可能带来 misalignment、复杂度更高,以及视觉生成和动作预测弱耦合。
统一输入输出 token 空间但分离解码CoT-VLA、WorldVLA、UniVLA 等在 token 层统一图像和动作。图像与动作仍不是同一个 joint decoding process;一些方法推理时只解码动作,训练中的图像预测价值没有显式保留。
AR 生成图像与动作按 token 顺序自回归生成 future image/action。每个动作 token 通常只经过一次上下文计算,图像对动作的引导不足;图像 token 本身也不天然适合严格 next-token 顺序。

2.3 本文高层思路

UD-VLA 的核心假设是:生成未来图像与生成动作应该在同一个同步去噪过程中共同优化。随着未来图像从粗到细被恢复,动作 token 也从 mask/噪声状态逐步恢复;每一步动作都能 attend 到当前去噪阶段的未来图像,从而获得持续、充分的视觉指导。

4. 方法详解

4.1 Unified Tokenization

UD-VLA 把语言、视觉、动作转换为离散 token 并拼成单一序列。语言 token 设计跟随 Emu3;当前和未来图像由 VQ tokenizer 离散化;动作由 FAST tokenizer 表示。作者用 <BOI>/<EOI> 标记 image block,用 <BOA>/<EOA> 标记 action block。

这个序列把输入和输出放在同一 token 空间中:前半部分是条件,后半部分是模型要生成的未来视觉和动作。

$$[\;\text{text tokens};\;\text{current image tokens};\;\text{future image tokens};\;\text{action tokens}\;]$$
text tokens语言指令,是理解任务意图的输入。
current image tokens当前观测图像 token,是视觉条件。
future image tokens模型要生成的未来视觉状态,固定长度。
action tokens模型要生成的动作序列,可变长度,由 FAST action tokenizer 得到。

4.2 Hybrid Attention

Hybrid attention 的基本规则是:text/current image 作为理解输入;future image block 和 action block 是输出。块内允许 bidirectional attention,让图像 token 或动作维度之间充分交互;块间保持 causal direction,让 future image 只能看输入,action 能看输入和 future image,但不允许 action 信息回流到 vision。

hybrid attention
Figure 2. Hybrid attention。论文强调 action-to-vision 被禁止,以避免粗动作信息泄露和错误累积。

直观理解:一张图像内部的 patch/token 没有严格先后因果,动作的不同空间维度也没有严格 token 顺序,因此块内 bidirectional 更合适;但“当前观测 - 未来图像 - 动作”之间存在方向性,所以跨块需要 causal。

4.3 Joint Discrete Denoising Diffusion Process

JD3P 把未来图像 tokens $\mathbf{v}_0$ 和动作 tokens $\mathbf{a}_0$ 合成一个序列。前向 noising 不是加高斯噪声,而是以概率 $\beta_t$ 把 token 替换为特殊 mask token $\mathrm{M}$;反向 denoising 则预测被 mask 位置的原始 token。

离散扩散里的“加噪”就是逐步把 token 遮住;“去噪”就是根据上下文把遮住的图像/动作 token 恢复回来。

$$\mathbf{Q}_t\mathbf{e}_{t,r}=(1-\beta_t)\mathbf{e}_{t,r}+\beta_t\mathbf{e}_{\mathrm{M}}$$
$\mathbf{e}_{t,r}$位置 $r$ 的 one-hot token,可能来自 future image 或 action。
$\beta_t$第 $t$ 步被替换成 mask 的概率。
$\mathbf{e}_{\mathrm{M}}$mask token 的 one-hot basis。

反向分解为视觉恢复和动作恢复两部分:

$$p_\theta(\mathbf{v}_{t-1},\mathbf{a}_{t-1}\mid\mathbf{v}_t,\mathbf{a}_t,\mathbf{c}) =p_\theta(\mathbf{v}_{t-1}\mid\mathbf{v}_t,\mathbf{c})\; p_\theta(\mathbf{a}_{t-1}\mid\mathbf{v}_t,\mathbf{a}_t,\mathbf{c})$$

其中 $\mathbf{c}$ 是 text 和 current image。注意动作分布显式以 $\mathbf{v}_t$ 为条件,因此每一步动作恢复都能利用当前阶段的未来视觉 token。

4.4 Loss Function

训练时作者不显式展开完整多步 diffusion chain,而采用 single-step mask-predict objective:随机采样 mask ratio $\rho_t$,遮住 clean future image/action token 的一部分,只在被遮住的位置上计算 cross-entropy。

视觉 token 数量可能远多于动作 token,所以论文用 $\omega$ 降低视觉 loss 权重,避免视觉项支配训练。

$$\mathcal{L}_{\text{CE}}(\theta)= -\omega\sum_j^{L_v}\log p_\theta^{(v)}(v_{0,j}\mid\mathbf{v}_t,\mathbf{c})\mathbb{1}\{v_{t,j}=\mathrm{M}\} -\sum_i^{L_a}\log p_\theta^{(a)}(a_{0,i}\mid\mathbf{v}_t,\mathbf{a}_t,\mathbf{c})\mathbb{1}\{a_{t,i}=\mathrm{M}\}$$

附录 Loss Formulations 还定义了表 1 中用于比较不同 VLA 的 MSE、continuous diffusion、discrete diffusion、next-token prediction 四类 loss。报告中最关键的是 $\mathcal{L}_{\mathrm{Diff\text{-}disc}}$:它是有限词表上的 masked-token prediction,而不是连续空间的 noise prediction。

discrete vs continuous diffusion
Figure 3. 附录中的 discrete diffusion 与 continuous diffusion 对比。UD-VLA 选择离散扩散,因为图像 token 和动作 token 都已经被映射到有限 codebook 中。

4.5 两阶段训练

  1. Stage (i): world-model style post-training。从 pretrained VLM backbone 初始化,在大规模视频数据上训练未来图像预测,序列为 [text; current image; future image],目标是给 VLA 注入建模未来状态的能力。
  2. Stage (ii): robot action fine-tuning。在下游机器人动作数据上使用完整序列 [text; current image; future image; action],按 JD3P 联合训练图像生成与动作生成。

附录 Training Details 给出训练资源:CALVIN-ABCD action chunk 10,8 张 H100 训练约 24 小时;LIBERO 四个 suite 联合训练,action chunk 10,8 张 H100 约 30 小时;SimplerEnv 用 Bridge 数据训练,action chunk 5,8 张 H100 约 30 小时;真实世界实验收集 600+ 轨迹,action chunk 8,8 张 H100 约 8 小时。正文 real-world task 小节还写了另一个配置:4 张 H100 训练 24 小时、9000 steps、batch size 64、learning rate 8e-5、weight decay 0.1。两处 GPU/时长表述存在不完全一致,应复现时以官方代码配置进一步核对。

4.6 推理

推理从全部 mask 的 future image/action token 开始,重复少量迭代。每轮并行预测所有 mask 位置的分布,根据 confidence 选择一部分最可靠的位置填入 token,其余继续 mask。mask ratio 用 cosine schedule 从高到低变化。

Algorithm: UD-VLA inference with JD3P Input: text tokens, current image tokens Initialize: future image tokens = [MASK] * Lv action tokens = [MASK] * La prefill <BOI>, <EOI>, <BOA>; cache prefix KV for t = T ... 1: predict token distribution for masked vision/action positions in parallel restrict vision positions to visual codebook and action positions to action codebook compute confidence = max probability for each masked position fill top (1 - rho_t) masked positions using GumbelMax sampling if <EOA> appears, fix action length and mask later action slots Output: future image tokens, action tokens

5. 实验与结果

5.1 Benchmarks

Benchmark设置指标
CALVIN4 个环境 A/B/C/D,34 个任务,1000 条语言指令;每个模型评估 500 个 rollout,每个 rollout 连续 5 个 sub-task。平均完成长度 avg. len.,最大为 5。
LIBEROSpatial、Object、Goal、Long 四个 suite;每个 suite 10 个任务,每任务 50 次 rollout。各 suite 成功率和平均成功率。
SimplerEnv-WidowXreal-to-sim 环境,任务包括 Put Spoon、Put Carrot、Stack Block、Put Eggplant;变化光照、纹理、颜色、视角。单任务成功率和 overall。
Real-worldUR5e + Inspire RH56E2 hand + D435i wrist camera + Gemini 336L static camera;三类任务:stacking bowls、putting blocks、flipping towers。每个方法每任务评估 30 次,seen/unseen 设置。

5.2 Main Results in Simulation

BenchmarkUD-VLA 结果关键对比
CALVIN ABCD->D1/2/3/4/5 连任务成功率为 0.992/0.968/0.936/0.904/0.840,Avg. Len. 4.64。高于 MDT 4.52、UP-VLA 4.42、MODE 4.39、UniVLA* 4.26、GR-1 4.21。
LIBEROSpatial 94.1%、Object 95.7%、Goal 91.2%、Long 89.6%、Average 92.7%。表格中 Average 高于 DreamVLA 92.6%、FlowVLA 88.1%、$\pi_0$-FAST 85.5%。Long suite 为 89.6%,是表中最高。
SimplerEnv-WidowXPut Spoon 58.3%、Put Carrot 62.5%、Stack Block 54.1%、Put Eggplant 75.0%、Overall 62.5%。表格中 Overall 高于 F1 59.4%、$\pi_0$-FAST 48.3%、SpatialVLA 42.7%。
数值冲突:SimplerEnv 正文写 “UD-VLA achieves an average success rate of 59.4%”,但表格中 UD-VLA overall 为 62.5%,F1 为 59.4%。本报告按表格汇总,并把正文数字视作潜在笔误。

5.3 In-Depth Analysis / Ablation

问题设置结果论文解释
Attention 机制是否关键Causal / Bidirectional / HybridAvg. Len. 4.04 / 4.32 / 4.64块内 bidirectional 适合图像空间一致性和动作维度相关性;跨模态 full bidirectional 会泄露信息,因此 hybrid 最好。
未来图像是否比当前图像重建有用Null / Current Image / Future ImageAvg. Len. 4.21 / 4.39 / 4.64当前图像重建增强细粒度感知,但只学静态信息;未来图像提供时序动态和动作规划线索。
JD3P 是否比其他解码机制好AR / Jacobi / Independent Diffusion / JD3PAvg. Len. 4.18 / 4.16 / 4.35 / 4.64;速度 50.2 / 101.6 / 144.4 / 219.3 tokens/s。joint denoising 让动作从中间图像去噪状态中反复获益;independent diffusion 信息流有限。

5.4 Real-World Experiment

real world setup and results
Figure 4. 真实机器人系统:UR5e、Inspire RH56E2 手、D435i wrist camera、Gemini 336L static camera,以及真实任务结果图。

真实世界数据包括三类任务:stacking bowls、putting blocks into a box、flipping towers/towels。每类任务包含不同颜色和形状物体,数据在三个背景中采集;正文写每类 200 条轨迹、15 Hz,附录写总计 600+ 轨迹。评估包含 seen 和 unseen;unseen 包括新物体和新背景。

real scene details
Figure 5. Appendix 中的 real-world setting:target objects、distractors、seen/unseen object split 和 seen/unseen backgrounds。
real world task demos
Figure 6. 三类真实任务演示:put block into box、stack bowls、fold towel/tower。

论文文字报告 UD-VLA 在所有真实任务上均优于 GR00T N1 和 UniVLA,且各任务成功率超过 80%。作者解释 seen tasks 中 action quantization 改善动作精度,joint denoising 保证动作质量;unseen tasks 中,未来图像生成改善对未见目标和背景的视觉泛化。

5.5 Future Image Generation Visualization

future image generation visualization
Figure 7. 未来图像生成可视化:CALVIN 和真实世界中比较 GT 与 Generation。作者承认像素级 fidelity 不高,但认为任务进展信息足以指导控制。
tiny toy demo
Figure 8. 附录展示半径约 1.5 cm tiny toy 的精细操作示例。

6. 论文内分析与讨论

6.1 作者给出的机制解释

6.2 作者自述的生成局限

论文在可视化分析中明确承认:生成未来帧缺少视觉 fidelity,尤其是机械臂和背景等细粒度细节。这被归因于没有大规模 generative pretraining,以及为了效率使用较少 token 的压缩图像。作者的结论是,尽管像素级准确很难,生成结果仍可靠地表达任务进展,足以服务 action planning。

7. 分析、局限与边界

7.1 这篇论文最有价值的地方

按论文自身证据,最有价值的部分是把 future visual reasoning 从“辅助训练目标”推进到“推理时共同优化的中间结构”。JD3P 让 action token 不是一次性读完 future image 后生成,而是在每一步离散去噪中都接收 future image token 的中间态指导。CALVIN 消融中 Future Image 相比 Null 从 4.21 到 4.64,JD3P 相比 AR 从 4.18 到 4.64,同时速度从 50.2 到 219.3 tokens/s,这是论文最直接支撑该设计的证据。

7.2 结果为什么站得住

结果由三类仿真 benchmark、真实机器人和多组消融共同支撑:CALVIN 检查长序列语言操作,LIBERO 检查 spatial/object/goal/long 泛化,SimplerEnv 检查 real-to-sim transfer;真实实验又覆盖 seen/unseen 物体和背景。消融没有只比较完整模型与弱 baseline,而是分别拆 attention、visual generation target、decoding mechanism,这让“hybrid attention + future image + JD3P”的因果链条更清楚。

7.3 局限

7.4 适用边界

论文证据主要覆盖语言条件 manipulation benchmark 和受控真实桌面任务。尚未证明其适用于长时移动操作、复杂力控装配、高速动态操作、开放环境安全约束,或未见机器人形态。真实硬件使用 UR5e + dexterous hand + RGB-D/静态相机;换到其他 embodiment 时 action tokenizer、chunk、camera views 和 controller 可能需要重调。

8. 可复现性审计

复现要素论文/项目给出的信息审计状态
源码与图表arXiv 提供 LaTeX 源码,所有图为独立 PDF;本报告已转换为 PNG。可检查
代码项目页提供官方 GitHub:OpenHelix-Team/UD-VLA已找到
Checkpoint项目页提供 CALVIN ABCD-D Hugging Face checkpoint:UD-VLA_CALVIN_ABCD_D已找到
Benchmark 协议CALVIN、LIBERO、SimplerEnv 的任务、rollout 和指标在正文给出;基线在附录逐项介绍。较完整
训练细节action chunk、GPU 数、训练时长、真实实验 batch/lr/weight decay 等信息给出。有局部不一致,需代码核对
方法公式JD3P forward mask noising、reverse factorization、masked CE loss、confidence-guided decoding 公式完整。较完整
真实数据真实实验使用自采 600+ 轨迹;论文未说明公开下载。真实实验难完全复现
报告覆盖自检:Abstract、Introduction、Related Works、Methods、Experiments、Conclusion、Acknowledgment、Reproducibility statement、Appendix A-G 均已覆盖;Appendix 中的 loss、training、real-world setup/tasks、baselines 与 visualization 已整合进对应章节。