中文 EN

MotuBrain: An Advanced World Action Model for Robot Control

arXiv ID:2604.27792v2

作者:MotuBrain Team; Chendong Xiang; Fan Bao; Haitian Liu; Hengkai Tan; Hongzhe Bi; James Li; Jiabao Liu; Jingrui Pang; Kiro Jing; Louis Liu; Mengchen Cai; Rongxu Cui; Ruowen Zhao; Runqing Wang; Shuhe Huang; Yao Feng; Yinze Rong; Zeyuan Wang; Jun Zhu

官方页面:ShengShu MotuBrain

提交/修订:2026-04-30 v1;2026-05-01 v2

来源:arXiv abs · PDF · 本地 LaTeX 源码解析 · 官方页面核对

代码:arXiv、源码和有限 web 检索中未发现官方 GitHub 或模型下载链接。

一句话总结:MotuBrain 是 Motus 路线的升级版统一 World Action Model:用 UniDiffuser 同时建模视频和动作,用三流 Mixture-of-Transformers 融合 text/video/action,通过多视角表示、跨 embodiment action 表示和 50x+ 推理加速,把 WAM 从“能预测世界”推进到“能实时控制机器人”。

1. 阅读定位与组会导读

导读项 这篇论文回答什么 读的时候重点盯哪里
研究对象 一个统一模型同时做 policy、world modeling、video generation、inverse dynamics、joint video-action prediction。 它不是单一 policy head,而是一个可按条件切换分布的 multimodal generative model。
核心动机 VLA 语义泛化强,但缺少细粒度世界动态;WAM 将未来视觉预测和动作生成一起学。 看 action learning 如何从孤立 imitation 变成和 predictive world modeling 联合训练。
主要贡献 三流 MoT、H-bridge attention、多视角 3D RoPE、统一相对 EEF 动作、后训练与实时部署加速栈。 最值得细读的是 Method 的 inference optimization 和 real-time chunk fusion。
实验定位 RoboTwin 2.0 到 95.8/96.1;WorldArena EWMScore 63.77;真实长程家务任务少样本适配。 注意区分公开 benchmark、官方页面榜单和论文自设真实机器人评分。
组会推荐读法:先把 Table 1 的五种分布写在白板上,再读 Fig. 1 的三流架构。然后重点讨论:MotuBrain 的“强”到底来自 world-action 统一建模、预训练数据金字塔,还是系统级推理加速让它能闭环部署。

2. 背景:为什么 VLA 还不够,为什么 WAM 有意义

2.1 VLA 的短板

VLA 模型把视觉观测和语言指令映射到机器人动作,继承 VLM 的语义先验,因此在物体和指令泛化上很强。但作者认为,VLA 的预训练主要来自静态 image-text 数据,缺少对细粒度世界动态的预测:接触、惯性、时序变化、失败后的状态更新等都不是静态语义能直接覆盖的。

2.2 从 video generation 到 world model

视频生成模型在大规模 web video 上学习时空先验,天然适合预测未来视觉状态。将它用于机器人 world modeling 的直觉很强:如果模型能根据当前观测和动作预测未来画面,就可能学到物体持久性、手物交互和物理转移。

2.3 VGM + IDM 与 WAM

早期路线是先用 video generation model 预测未来视觉,再用 inverse dynamics model 推动作。这个两阶段方法能利用视频先验,但会累积误差。WAM 则把视觉动态和动作预测放在同一个生成目标下,让 future visual state 和 action 在训练中对齐。

2.4 MotuBrain 相对 Motus 的升级

Motus 已经提出统一 world-action formulation,让同一模型支持五种推理模式。MotuBrain 继续沿用 UniDiffuser 和 Mixture-of-Transformers,但加入更面向部署的设计:多视角输入、独立 text stream、跨 embodiment 动作表示、AR/Non-AR post-training、V2A-style action-only inference 和实时 chunked closed-loop execution。

3. 方法详解:UniDiffuser、三流 MoT、预训练与部署栈

MotuBrain architecture
图 1:MotuBrain 架构。模型包含 text/video/action 三个 Transformer stream,并用 H-bridge attention 控制跨模态交互层数;多视角输入通过 view-dependent 3D RoPE offsets 统一编码。

3.1 五种预测分布

MotuBrain 用 UniDiffuser 同时调度 video 和 action 两个连续模态,让同一个模型支持多种条件分布。论文 Table 1 中给出非自回归模式下的五个目标:

模式 预测目标 直觉
VLA$p(\bm{a}_{t+1:t+k}\mid \bm{o}_t,\ell)$给当前观测和语言,预测未来动作。
WM$p(\bm{o}_{t+1:t+k}\mid \bm{o}_t,\bm{a}_{t+1:t+k})$给当前观测和动作,预测未来视觉。
IDM$p(\bm{a}_{t+1:t+k}\mid \bm{o}_{t:t+k})$给视觉轨迹,反推动作。
VGM$p(\bm{o}_{t+1:t+k}\mid \bm{o}_t,\ell)$给当前观测和语言,生成未来视频。
Joint$p(\bm{o}_{t+1:t+k},\bm{a}_{t+1:t+k}\mid \bm{o}_t,\ell)$同时生成未来视频和动作。

3.2 三流 Mixture-of-Transformers

模型包含 text stream、video stream、action stream。Text stream 是条件分支,其 hidden states 参与 attention,但没有 text output head;video/action streams 都用 flow matching 训练,分别预测 video latents 和 action tokens 的 velocity fields。

输入包括 text tokens、由 Vidu VAE 编码的 condition-image latents、noisy future video latents 和 noisy action tokens。condition image 被表示为第一个 video latent frame,并在 video stream 中 teacher-forced;剩余 future video latents 和 action tokens 由各自 stream 去噪。

3.3 H-bridge attention

全层 full video-action joint attention 成本高,也可能在浅层/深层注入过多无关模态信息。因此 MotuBrain 采用 H-bridge:中间 50% Transformer layers 使用完整 V-A joint attention,底部 25% 和顶部 25% 使用 decoupled attention,让 video tokens 和 action tokens 独立处理。直觉上,浅层保留模态特征,中层做语义/动作对齐,深层回到模态特定输出。

3.4 多视角 3D RoPE

对 multiview inputs,每个 camera view 独立经 Vidu VAE 编码,然后在 token level 拼接。由于视频模型使用 3D RoPE,论文只在空间维度加 view-dependent offsets,时间维保持不变。这相当于把不同视角映射到共享空间位置编码中的不同区域,使任意数量 camera views 可以共用同一个 backbone。

3.5 预训练数据金字塔

MotuBrain 的数据组织沿用 Motus 的四层金字塔,从宽泛视觉到目标 embodiment 控制逐步收窄:

  1. Internet videos:训练 Vidu 视频生成基础模型。
  2. Egocentric videos:提供第一视角 hand-object interaction dynamics。
  3. Heterogeneous-embodiment data:不同机器人平台、任务和场景;本文设置里只用 dual-arm robot data。
  4. Specific-embodiment data:目标机器人动作空间、相机配置和部署分布。

3.6 两阶段预训练

从 Vidu 预训练权重开始,stage 1 只训练 video branch,action branch 随机初始化但不更新,目标是把 Internet video prior 适配到 embodied manipulation。为了增强对 imperfect conditioning 的鲁棒性,论文使用 noisy-conditioning 策略:以概率 0.5 扰动 condition-frame latent:

$$\tilde{z}_0=s_{\mathrm{aug}}z_0+(1-s_{\mathrm{aug}})\epsilon,\quad s_{\mathrm{aug}}\sim\mathcal{U}[0.3,0.7],\quad \epsilon\sim\mathcal{N}(0,I).$$

含义:

condition frame 不总是干净输入,模型被迫学习从不完美视觉条件中恢复未来动态。

Stage 2 从 stage 1 checkpoint 初始化,只训练 action branch,冻结 video branch,在 heterogeneous-embodiment data 上学习统一动作表示。虽然只更新 action branch,目标仍然包含 video/action 两项:

$$\mathcal{L}=\lambda_v\mathcal{L}_v+\lambda_a\mathcal{L}_a,$$ $$\mathcal{L}_v=\mathrm{MSE}(v_{\mathrm{out}},v_{\mathrm{target}}),\quad \mathcal{L}_a=\mathrm{MSE}(a_{\mathrm{out}},a_{\mathrm{target}}).$$

3.7 跨 embodiment 相对 EEF 动作

令绝对 end-effector chunk 为 $E^{abs}=\{e^{abs}_1,\ldots,e^{abs}_n\}$,conditioned frame 的 end-effector state 为 $s$。相对动作定义为:

$$e_i^{rel}=e_i^{abs}\ominus s.$$

若 $e=(p,R,g)$,其中 $p$ 是位置、$R$ 是旋转、$g$ 是 gripper state,则:

$$e_i^{rel}=(p_i-p_s,\;R_s^{-1}R_i,\;g_i).$$

原始 pose 以 quaternion 输入,训练 target 使用 6D rotation representation。每个 end-effector action 维度为 10:位置、旋转和 gripper state。作者只把 gripper 归一化到 $[-1,1]$,其余维度保持物理尺度。这使不同 robot embodiments 和初始位姿之间更容易共享动作规律。

Attention masks
图 2:训练和 post-training 的 attention masks。Stage 1 只更新 video branch;stage 2 full joint attention;Non-AR 禁用 video-to-action attention;AR 使用 chunk-level causal mask。

3.8 后训练:Non-AR 与 AR

Post-training 适配目标 embodiment,包含 Non-AR 和 AR 两种设置。Non-AR 一次 forward denoise 整个观察窗口中的 video/action tokens,适合较短 horizon 高效执行。AR 则按 chunk-level factorization 处理长程任务:训练时并行处理 chunks,但用 block-causal mask;部署时顺序 rollout,用新观测帧作为下一个 chunk 的 clean context。

关键部署技巧是 V2A-style attention:action tokens 可以 attend 到 video/language tokens,但 video tokens 不 attend action tokens。这样推理时可以先进行短 joint denoising prefix,再冻结 video stream,只继续更新 action stream。

3.9 推理加速栈

技术 Steps Latency Frequency Speedup
Baseline504.90s0.20 Hz1.00x
+ Noise sampling302.90s0.34 Hz1.69x
+ torch.compile300.98s1.02 Hz5.00x
+ FP8 quantization300.88s1.14 Hz5.57x
+ DiT cache300.20s5.00 Hz24.5x
+ V2A-style30 action-only0.09s11.11 Hz54.4x

3.10 实时 chunk 融合

为了闭环控制,MotuBrain 将模型推理 loop 和 robot action execution loop 解耦:控制器执行当前 action chunk,模型异步根据最新观测生成下一 chunk。问题是 chunk 切换会产生跳变。论文用当前 chunk 未执行部分约束下一 chunk:推理延迟 $\delta$ 和控制周期 $\Delta t$ 定义冻结步数:

$$d=\left\lceil\frac{\delta}{\Delta t}\right\rceil.$$

前 $d$ 步完全由上一 chunk 剩余动作约束;之后使用指数衰减权重:

$$g(\rho_i)=\frac{\rho_i(e^{\rho_i}-1)}{e-1},$$ $$w_i=\begin{cases}1,&0\le i

系统维护 delay queue $Q$,用 $\hat{d}_{t+1}=\max(Q)$ 作为保守估计,适应网络和模型 latency 波动。这一段很工程,但对真实机器人非常关键。

4. 实验结果:RoboTwin、WorldArena、真实长程控制

4.1 RoboTwin 2.0

按 RoboTwin 2.0 协议,模型使用 2,500 条 clean demonstrations(50 tasks,每 task 50 条)和 25,000 条 randomized demonstrations(每 task 500 条)。视频下采样到 5 Hz,动作到 10 Hz。MotuBrain fine-tuned from pretrained weights,在 clean 和 randomized 两个设置分别达到 95.8 和 96.1。

模型CleanRandomized
$\pi_0$65.958.4
X-VLA72.972.8
$\pi_{0.5}$82.776.8
starVLA88.288.3
LingBot-VLA86.585.3
Motus88.787.0
LingBot-VA92.991.5
Fast-WAM91.991.8
MotuBrain w/o Pretrain91.591.3
MotuBrain-Non-AR91.992.3
MotuBrain95.896.1

论文进一步报告:MotuBrain 在 clean 设置有 24 个任务满分,在 randomized 设置有 25 个任务满分,19 个任务两种设置都 100%。超过 90% 成功率的任务数分别为 42 个 clean tasks 和 44 个 randomized tasks。提升集中在多阶段协调、接触丰富、空间排列、随机视觉扰动下的任务。

Task scaling
图 3:任务数量 scaling。训练任务越多,MotuBrain 平均成功率持续上升,说明任务多样性带来可复用 world knowledge。
Data scaling
图 4:数据量 scaling。每个数据预算下均匀 subsample demonstrations,MotuBrain 仍能从更多数据中获益。

4.2 WorldArena

WorldArena 从 visual quality、motion quality、content consistency、physics adherence、3D accuracy、controllability 六个子维度的 16 个指标评估 embodied world models。MotuBrain 在 forward-dynamics mode 下参评,使用 5 Hz video 和 10 Hz actions,EWMScore 为 63.77,论文称在比较表中最高。

模型EWMScore ↑备注
MotuBrain63.77motion quality 指标尤其强。
Veo3.157.77instruction following 高,但 motion metrics 较低。
Wan2.659.80visual quality 强。
Ctrl-World59.98subject/background consistency 竞争力强。
ABot-PW62.63interaction quality 高。
GigaWorld-162.34JEPA similarity/depth/trajectory 竞争力强。

MotuBrain 在 Dynamic Degree、Flow Score、Motion Smoothness 三个 motion quality 指标上领先。论文强调这说明模型没有生成接近静止的漂亮视频,而是在 embodied-relevant regions 上产生持续、平滑、局部集中的运动。

WorldArena leaderboard
图 5:WorldArena public leaderboard。官方页面也列出 MotuBrain 63.77 EWMScore 与 RoboTwin 95.8/96.1。

4.3 真实机器人:少样本适配

真实实验从 pretrained model 出发,用 50 到 100 条 same-embodiment trajectories 适配新 humanoid platforms。论文强调不依赖 VLM planner、dual-system decomposition、external memory 或 retry-specific data。

任务评测规模原子动作数平均执行时间总分
Making Oden5 trials733 s98.54
Mixing Cocktails7 trials15124 s97.34
Flower Arrangement10 trials10138 s83.30

评分满分 100,每个 sub-task step 等权。如果第一次完成给满分,一次 retry 给 80%,两次 retry 给 50%,三次及以上为 0。Flower Arrangement 中作者特别强调模型在没有显式 recovery supervision 的情况下表现出一定在线自我修正能力。

4.4 真实任务定性结果

Bathroom demo
浴室整理:把牙刷放入杯子,把肥皂放回原位。
Cocktail demo
调制鸡尾酒:取瓶、倒液体、放托盘并递给顾客。
Oden demo
关东煮/饮料双臂任务:右手倒果汁,左手舀食物。
Flower demo
插花并喷水:长程细粒度操控。

5. 图表精读

5.1 Fig. 1:架构图里的三件事

这张图要看三层:第一,text/video/action 是独立 streams,而不是简单拼接 token;第二,H-bridge 只在中间层做 full cross-modal attention;第三,multiview 通过 position offsets 进入统一 RoPE 空间。这三件事分别对应语义控制、跨模态对齐和真实机器人多相机输入。

5.2 Table 1:五种分布是统一建模的核心

MotuBrain 的统一性不是“一个模型输出很多东西”这么简单,而是把条件分布写成同一个 multimodal diffusion/flow family 下的不同条件化问题。报告组会时建议把 Table 1 作为主线,后面的 architecture、training masks 和 V2A inference 都是为了高效支持这些分布。

5.3 Speedup 表:部署贡献很重

如果只看模型结构,MotuBrain 可能像 Motus 的自然延伸;但 54.4x speedup 是这篇论文的关键工程贡献。没有 V2A-style action-only inference、DiT cache 和 chunk fusion,这类 WAM 很难在真实机器人上接近实时闭环。

5.4 Real-world 表:强但要看口径

真实任务分数很高,但它不是和外部 baseline 做同协议对比,而是论文自定义 step scoring。它有价值,因为展示了少样本长程控制的可行性;但严格比较不同方法时,还需要公开任务定义、评测脚本、完整失败样例和多环境统计。

6. 复现清单与工程细节

6.1 可抽取的关键配置

项目论文信息
基础模型Vidu video generation model 作为 foundation。
建模框架UniDiffuser,连续 video/action modalities。
结构Text/video/action 三流 Mixture-of-Transformers。
跨模态注意力H-bridge:中间 50% layers full V-A attention;底/顶各 25% decoupled。
多视角每个 view 独立 Vidu VAE 编码,空间维 3D RoPE offsets。
动作表示relative EEF action;position direct subtraction,rotation $R_s^{-1}R_i$,gripper unchanged。
动作维度每个 end-effector action 10 维:position + 6D rotation + gripper。
RoboTwin 数据2,500 clean demos + 25,000 randomized demos;50 tasks。
频率RoboTwin videos 5 Hz,actions 10 Hz。
推理优化step reduction, torch.compile, FP8, DiT cache, V2A action-only, action smoothing, frequency-aware interpolation。

6.2 复现缺口

7. 批判性讨论与组会问题

7.1 论文强点

7.2 需要谨慎的点

7.3 组会讨论题 1:WAM 的能力来自“预测世界”还是“部署优化”?

MotuBrain 同时提出了模型结构、预训练金字塔、post-training、action-only inference 和实时控制融合。要判断科学贡献,需要拆开:固定推理栈比较不同 architecture,固定 architecture 比较有无 world modeling,固定数据比较 VLA vs WAM。否则很难知道 95.8/96.1 的核心来源。

7.4 组会讨论题 2:统一五种分布会不会互相牵制?

一个模型同时做 VLA、WM、IDM、VGM、joint prediction 很优雅,但不同任务对 attention mask、timestep sampling、loss weight 和数据分布的需求可能冲突。MotuBrain 用 stage-wise training 和 V2A mask 缓解这个问题,但未来是否需要 routing、task-specific adapters 或动态 loss balancing,值得深入讨论。

7.5 后续研究方向

  1. 公开可复现套件:发布模型卡、推理栈代码、benchmark configs 和失败案例。
  2. 精细 ablation:分离 H-bridge、text stream、多视角 RoPE、relative EEF、V2A inference 的独立贡献。
  3. 不确定性与安全:在 WAM 生成动作时估计风险,并接入安全约束/在线纠错。
  4. 更强开放世界测试:移动操作、动态人类环境、触觉丰富任务、长时间任务中验证 world prior。
  5. 跨 embodiment 更极端迁移:从双臂 humanoid 到单臂、移动底盘、夹爪形态差异大的平台。
最终判断:MotuBrain 是一篇更像“系统型技术报告”的 WAM 论文。它最有价值的地方不是单个公式,而是把统一 world-action 建模、跨 embodiment 数据、实时推理优化和真实长程控制放在同一条工程链路里。组会里可以把它当作当前 WAM 路线走向可部署机器人的一个清晰样本来读。