中文 EN

AdaWorldPolicy: World-Model-Driven Diffusion Policy with Online Adaptive Learning for Robotic Manipulation

作者:Ge Yuan, Qiyuan Qiao, Jing Zhang, Dong Xu

机构:The University of Hong Kong; Beihang University

arXiv:2602.20057,提交日期 2026-02-23;源码使用 CVPR 2026 模板

项目页:https://AdaWorldPolicy.github.io;论文源码未给出 GitHub 仓库或 checkpoint 链接

1. 论文速览

一句话总结:AdaWorldPolicy 把 Cosmos-Predict2 世界模型、轻量 action expert 和 force predictor 组合成统一 Flow Matching DiT 策略,用 world prediction error 与 force prediction error 在测试时做 LoRA 在线更新,从而在视觉和物理 domain shift 下自监督适应。
论文要解决什么机器人在动态真实环境和 contact-rich 任务中会遇到视觉扰动、物体/力学变化和物理接触分布偏移;仅靠离线 imitation 或 VLA-style reactive policy 很难在测试时用真实反馈自我修正。
作者的方法抓手把 world model 从“离线预测器/验证器”变成 active supervisor:先生成动作,再用同一网络的 Future Imagination 模式预测执行后未来观测,把预测和真实反馈的差异作为 test-time adaptation 信号。
最重要的结果LIBERO-10 full multimodal success 0.96;Variant PushT 在 texture / random light / random color OOD 下 AWP(ol) 达 0.51 / 0.77 / 0.66,均高于 AWP;CALVIN ABC→D 平均完成长度 AWP(ol) 为 3.54;真实任务 in-domain 平均 ablation 表中 full method 为 76.3%。
阅读时要注意的点AdaOL 是在线更新 LoRA 参数,不是简单重规划;真实世界结果主要以柱状图呈现,没有逐 trial 表格,但附录补充了评测协议、成功标准、TTA 两阶段流程和关键超参。

World Model Diffusion Policy Flow Matching Test-Time Adaptation Force Feedback LoRA

AdaWorldPolicy teaser
Figure 1。AdaWorldPolicy 的闭环:Mode I 生成动作并执行;Mode II 根据同一观测和动作预测未来;真实未来和 imagined observation 的误差驱动 LoRA online update。

核心贡献

2. 动机与相关工作

2.1 为什么普通 VLA 不够

论文指出,VLA 模型虽然能把语言、视觉和动作结合起来,但通常依赖大量 human demonstrations,并且在未见过或动态变化的 contact-rich 场景中泛化受限。根本原因是它们多半是离线训练的 reactive mapping:当前观测进来,直接输出动作,缺少显式预测物理后果并利用真实反馈修正自身的机制。

2.2 为什么要把 world model 放进闭环

已有 world model 在机器人中常被用作 “digital twin” 或离线 validator;也有 WorldVLA、UVA 等把 action generation 与 world prediction 统一。但作者认为这些方法大多仍是离线训练策略,部署时面对视觉和动力学变化时不能快速适应。AdaWorldPolicy 的核心动机是:world model 的 prediction error 本身就是一个自监督信号,可以在测试时不断校正 action model、world model 和 force predictor。

相关方向已有方法的定位AdaWorldPolicy 的差异
World Models for Robotic ControlDreamer、Cosmos、Dino-WM 等用于 dynamics prediction、planning 或 policy validation。world model 不只是预测或验证,而是主动产生 online adaptation loss。
Diffusion Models for Decision MakingDiffusion Policy 等把动作轨迹建模成扩散过程,擅长多模态动作分布。在 diffusion policy 中加入 future outcome modeling 与 force prediction,以约束动作物理一致性。
Online Adaptation for RoboticsTTA、LoRA、confidence maximization 等在测试时调整模型参数。用 world-model prediction error 和 force discrepancy 作为机器人特定的自监督更新信号。

3. 方法详解

3.1 问题设定

每个时刻输入多模态历史观测 $o=\{x_{\text{static}}, x_{\text{gripper}}, f\}$,包括静态相机序列、gripper camera 序列和 force-torque 读数,三者共享 context length $T_c$。模型输出未来 action sequence $a=a_{t:t+T_a-1}$,目标是在不新增人工标注或 demonstration 的测试环境中,利用自身交互数据 $\{(o_t,a_t,o_{t+1})\}_{t=0}^{T}$ 从参数 $\theta_t$ 更新到 $\theta_{t+1}$。

AdaWorldPolicy architecture
Figure 2。网络架构:World Model 基于 Cosmos-Predict2 2B;Force Predictor 和 Action Model 是 0.4B Flow DiT;三者通过 Multi-modal Self-Attention 交换特征,并由 LoRA 支持在线更新。

3.2 三个模块

模块输入/输出作用规模
World Model输入当前静态/夹爪视角、动作条件;输出未来视觉状态 $x'_{\text{static}}, x'_{\text{gripper}}$。预测动作造成的视觉后果,并提供 AdaOL 自监督信号。Cosmos-Predict2 2B。
Force Predictor输入当前状态与动作;输出未来 force-torque 读数 $f'$。补充视觉世界模型看不到的 contact dynamics,减轻 force shift。真实世界 0.4B;仿真无 force 时移除。
Action ModelMode I 输入噪声 action token 并 denoise;Mode II 输入已知 action 作为条件。生成动作;或在 Future Imagination 中成为 action-conditioned 条件。真实世界 0.4B;仿真可增至 0.6B。

3.3 双模式:同一网络,两个角色

Two modes
Figure 3。Mode I 生成动作序列;Mode II 条件化已执行动作,预测未来观测。这个可切换模式是 AdaOL 的基础。
Mode I: Action Generation input: observation history o, noisy action token a_k mask: action token is target (mask = 0) output: action sequence a loss: L1, flow matching on action vector field Mode II: Future Imagination input: observation history o, concrete action a, noised future observation o'_k mask: action is condition (mask = 1) output: imagined future observation o_hat' loss: L2, flow matching on future observation vector field

3.4 World Model 的多视角扩展

论文把 Cosmos-Predict2 从单视角视频预测扩展到多视角输入:每个相机视角先经过 Cosmos VAE 得到 token,再沿 temporal dimension 拼接;不同视角使用独立 RoPE,以保持跨视角的空间和时间结构。输入 token 还配有 binary mask,1 表示已知条件,0 表示预测目标;最终 denoising 后,条件部分会被原始输入替换,以保证条件观测不被模型生成结果污染。

3.5 Multi-modal Self-Attention

MMSA 是三个模块之间的桥。它不是简单 concat,也不是单向 cross-attention,而是让 world / force / action 各自生成 QKV,再在 token 维度拼接后进行 self-attention。这样三者可以互相查询信息,同时保留各自专用表示空间。

MMSA 在做:把世界、力、动作三个专家的注意力请求放到同一个注意力场里互相通信。

$$\text{MMSA}(Q,K,V)=A([Q_x,Q_f,Q_a],[K_x,K_f,K_a],[V_x,V_f,V_a])$$
$x$World Model / visual tokens。
$f$Force Predictor / force tokens。
$a$Action Model / action tokens。
$A$标准 self-attention 操作。

3.6 AdaOL 在线适应循环

AdaOL 在每次执行后运行一个闭环:生成动作、执行、接收真实反馈、想象同一动作的未来结果、计算误差、用 LoRA 更新少量参数。作者强调只更新低秩矩阵,比例低于 0.1%,在线更新开销可控。

AdaOL loss 比较的是:模型以为动作会造成什么结果,真实世界实际发生了什么。

$$\mathcal{L}_{\text{AdaOL}}=\|E(o_{t+1})-E(\hat{o}_{t+1})\|_2^2$$

$E(\cdot)$ 是 Cosmos VAE encoder。该误差产生校正梯度 $\Delta w$,用于 LoRA 在线更新。

4. 数学形式与训练目标

4.1 Action Generation loss

$$\mathcal{L}_{1}(\theta)= \mathbb{E}\left[ \left\|\mathbf{u}_{\theta}(a_k,k,o;\theta)-\mathbf{v}_k(a_k,a)\right\|^2 \right]$$

这里 $a_k$ 是 noised action,$\mathbf{u}_\theta$ 是模型预测的 flow vector field,$\mathbf{v}_k$ 是 Flow Matching 目标向量场。这个 loss 训练模型从当前观测 $o$ denoise 出动作 $a$。

4.2 Future Imagination loss

$$\mathcal{L}_{2}(\theta)= \mathbb{E}\left[ \left\|\mathbf{u}_{\theta}(o'_k,k,o,a;\theta)-\mathbf{v}_k(o'_k,o')\right\|^2 \right]$$

$o'_k$ 是 noised future observation;这里动作 $a$ 是已知条件。它训练 world/force/action 共享系统预测“执行该动作之后会发生什么”。

4.3 Joint objective

$$\mathcal{L}_{\text{total}}(\theta)=p_a L_1+(1-p_a)L_2$$

训练时随机切换两种模式:以概率 $p_a$ 训练动作生成,否则训练未来想象。这个设计使模型同时学会当 policy 和当 action-conditioned world model。

5. 实验与结果

5.1 实验设置

设置内容
仿真 benchmarkLIBERO-10 测长程组合技能;Variant PushT 测 texture、随机光照、随机颜色 OOD;CALVIN 使用 ABC→D cross-domain protocol,每条序列连续完成 5 个任务。
真实机器人6-DoF 机械臂,gripper camera、wrist-mounted force-torque sensor 和 third-person static camera;任务包括 Sweep Beans、Pick-and-Place Eggs、Pour Water、Wipe Whiteboard。
离线训练PyTorch + Cosmos-Predict2;8 张 A100 80GB;AdamW;global batch size 64 到 256;LR $1\times10^{-4}$,loss plateau 后最多 20k steps 线性衰减到 1%。
在线学习单张 NVIDIA RTX 5880 48GB;LoRA rank 16,只放在每个 backbone 前 4 层;每个 incoming sample 做 2 个梯度步,LR $5\times10^{-7}$;平均 TTA 推理速度仅比无适应慢约 5%。
Benchmarks
Figure 4。三个仿真 benchmark:Variant PushT、LIBERO、CALVIN。

5.2 LIBERO-10

SettingMethodStatic CameraGripper CameraJoint StatesSuccess
Static onlyUVAYesNoNo0.89
Static onlyAWPYesNoNo0.91
Full multimodalOpenVLAYesYesYes0.54
Full multimodalMODEYesYesYes0.94
Full multimodalOpenVLA-OFTYesYesYes0.94
Full multimodalAWPYesYesYes0.96

LIBERO-10 结果证明 AWP 架构本身在无在线适应时已较强:static-only 超 UVA,full multimodal 超 MODE 与 OpenVLA-OFT。

5.3 Variant PushT:OOD robustness

MethodOriginalTextureRand LightRand Color
Diffusion Policy0.780.180.140.11
OpenVLA0.350.220.200.14
UniPi0.420.350.330.18
UVA0.940.110.540.13
AWP0.970.470.710.61
AWP (ol)0.980.510.770.66

这里最能体现 AdaOL:AWP 已经强于大多数基线,但 online learning 在所有 OOD 变体上继续带来提升,尤其随机光照从 0.71 到 0.77,随机颜色从 0.61 到 0.66。

5.4 CALVIN ABC→D

MethodLen 1Len 2Len 3Len 4Len 5Avg. Len.
OpenVLA91.377.862.052.143.53.27
MoDE91.579.267.355.845.33.39
GR-MG91.079.167.856.947.73.42
AWP91.879.268.562.848.03.51 ± 0.03
AWP (ol)92.079.668.663.048.03.54 ± 0.04

CALVIN 上 online learning 的增量较小但一致:平均长度 3.51 到 3.54,长度 5 保持 48.0。作者将其解释为 TTA 能微调已经泛化较好的 policy。

5.5 真实机器人任务

Real-robot setup
Figure 5。真实机器人设置:INOVO 机械臂,静态/夹爪相机与力传感器;任务包括扫豆、放鸡蛋、倒水、擦白板;右侧展示 tablecloth、distractor、object、lighting 等 domain shift。
Real-world results
Figure 6。真实世界结果:in-domain 下 AWP 已优于 DP-Force 和 UVA 多数任务;domain shift 下 AWP(ol) 相对 AWP 有稳定提升。图中 Pour 在 Object Change 下从 80% 到 90%,与正文例子一致。

附录补充了真实世界协议:每个任务 in-domain 收集 150 条专家 demonstrations;每个模型配置在每个任务/分布下做 30 trials,最多 1500 execution steps。AdaOL 测试分两阶段:Trials 1-15 持续在线更新,Trials 16-30 冻结更新后的模型,以评估 adapted policy 的稳定性。

5.6 Ablation

ConfigurationSuccess Rate含义
AdaWorldPolicy w/ AdaOL76.3完整方法,真实 in-domain 四任务平均。
AdaWorldPolicy w/o AdaOL72.5无测试时在线更新,下降 3.8。
w/o Force Predictor53.8去掉力预测,contact-rich 任务显著退化。
w/o World Model Supervision46.3退化成行为克隆式策略,说明 world supervision 是核心。
MMSA → Concatenation36.3简单拼接无法有效整合模块。
MMSA → Cross-Attention50.0普通 cross-attention 仍弱于 MMSA。

5.7 附录补充:sampling steps、imagined future 和超参

附录实验关键结果整合位置
Sampling steps on LIBEROAWP 20/10/5/2 steps 分别为 96.33 / 95.53 / 94.67 / 94.00;减少 steps 仅小幅降低性能。复现时可权衡速度和精度。
AdaOL on LIBERO10 steps 下从 95.53 提升到 96.05。说明 AdaOL 在轻微分布差异上也有小幅收益。
MMSA fusionMMSA 95.53,Concat 89.67,Cross-Attention 91.21。补强主文 ablation 中 MMSA 的必要性。
Imagined future visualizationPushT、CALVIN、LIBERO 的 imagined future 与 real observation 基本一致;真实场景中复杂背景和鸡蛋任务会有模糊/伪影。支持 world model 可提供监督,但也揭示视觉生成局限。
Simulation imagined future
Appendix Figure。仿真中的 imagined future 与 real observation 对比:PushT、CALVIN 和 LIBERO10。
Real imagined future
Appendix Figure。真实场景中的 imagined future;作者指出复杂背景和小物体场景中会出现 artifacts 和 blur,但结构一致性仍足够用于 policy。

6. 复现审计

6.1 公开资源状态

源码未随 arXiv 提供完整训练代码。论文只在摘要中给出项目主页 AdaWorldPolicy.github.io,LaTeX 源码里没有 GitHub 或 checkpoint 链接。附录提到 supplementary zip 中包含本地视频网页 `AdaWorldPolicy_Homepage/index.html`,但 arXiv e-print 里没有该文件夹。

6.2 关键超参

BenchmarkImage SizeHistory LengthAction Horizon# Imagined Frames
LIBERO10128 × 12852020
PushT256 × 25652020
CALVIN192 × 19211212
Real-world112 × 1601324

真实世界使用 sparse prediction:imagined frames 只有 4,而 action horizon 是 32,用稀疏未来帧覆盖动作时间跨度,以降低视频生成延迟。

6.3 数据处理与力数据

6.4 复现缺口

7. 分析、局限与边界

7.1 这篇论文最有价值的地方

最有价值的点在于把 world model 的误差变成在线学习信号,而不是只把 world model 当作 rollout visualizer 或离线 evaluator。主文的 PushT OOD 表、真实世界 domain shift 图和 ablation 都指向同一个机制:当视觉或物理条件变化时,AWP(ol) 通过真实反馈持续修正,比固定离线 policy 更稳。

7.2 结果为什么站得住

论文的证据链覆盖了“离线能力”和“在线适应”两个层面:LIBERO/CALVIN 表明 base AWP 架构本身强;PushT OOD 和真实 domain shift 展示 AdaOL 带来的增量;ablation 显示去掉 world supervision、force predictor 或 MMSA 都大幅下降。附录中的 sampling-step 和 imagined-future 可视化进一步说明,世界模型生成的未来虽然并非完美照片,但在结构上可用作监督。

7.3 作者自述的局限与未来方向

7.4 适用边界

AdaWorldPolicy 适合有持续观测反馈、能承受少量测试时更新开销、并且 world prediction error 与任务成败相关的场景。对于需要严格安全约束、不能在线更新参数、或视觉未来预测与真实控制目标弱相关的场景,论文没有给出充分验证。