中文 EN
Junior PhD 组会精读报告

GigaWorld-Policy: An Efficient Action-Centered World--Action Model

Angen Ye 等,GigaAI。arXiv:2603.17240v2,2026-03-21 更新。本文提出一种以动作为中心的 World--Action Model:训练时让动作预测受到未来视频动态监督,推理时可以关闭视频分支,只做低延迟动作解码。
主题:World--Action Model 骨干:Wan 2.2 5B diffusion Transformer 关键指标:0.36 s / step 官方代码:open-gigaai/giga-world-policy

1. 论文速览

论文要解决什么现有 VLA 只靠稀疏动作标签学习,监督密度不足;现有 WAM 又常把“未来视频生成”和“动作预测”强耦合,推理时必须采样大量视频 token,导致高延迟,并且动作质量容易受未来视频预测误差拖累。
作者的方法抓手把 WAM 改成 action-centered:模型先预测动作 chunk 和动作 latent,再用这些动作条件去预测未来视频。通过 causal attention mask 保证动作 token 不能看未来视频 token,因此推理时可以只采样动作分支,视频分支只是训练时的动态约束和可选诊断输出。
最重要的结果在 RoboTwin 2.0 上,GigaWorld-Policy 平均成功率 Clean/Rand 为 0.87/0.85,接近 Motus 的 0.89/0.87,但推理从 Motus 的 3231 ms 降到 360 ms;真实四任务平均成功率 0.83,高于 Motus 0.76、$\pi_{0.5}$ 0.69 和 GigaBrain-0 0.68。
阅读时要注意的点这篇的主张不是“视频预测在推理时一定要做”,而是“训练时用未来视频作为高密度物理监督,推理时动作路径独立可用”。因此 causal mask 的信息流设计是全文最关键的可复现细节。
一句话版贡献。 它把“世界模型提供 dense visual dynamics supervision”和“部署时低延迟闭环控制”拆开了:视频生成帮助训练,但不绑架推理。
版本/表述差异。 arXiv 摘要强调相对 Motus $9\times$ 加速、真实任务成功率 +7%;项目页有“10x/35%”的营销化表述。报告中以论文表格和正文数值为主。

2. 问题背景与动机

2.1 为什么只做 VLA 不够

VLA 模型通常学习 $a_{t:t+p-1}\sim q_{\Theta}(\cdot\mid o_t,s_t,l)$,输入是当前图像、机器人状态和语言,输出未来一段动作。作者认为这类范式的弱点是动作监督稀疏:动作是低维且模式重复的,而观测和语言很高维。模型可能学到浅层上下文到动作模板的映射,却没有被强迫理解“动作执行后世界会怎样变化”。

2.2 为什么普通 WAM 也不够

近期 WAM 用视频生成模型引入时序密集监督,理论上能让策略学到物理动态。但很多方法把动作和未来视频强耦合:joint action-video prediction 要在推理时生成未来视觉轨迹,两阶段方法则先生成未来视频再用 IDM 解码动作。这带来两个风险:第一,扩散式视频 token 采样很慢;第二,视频预测误差会传递到动作,长时序中小误差会累积。

Comparison of VLA, joint WAM, two-stage WAM, and GigaWorld-Policy
Figure 1:作者把前作分成 VLA 辅助未来监督、joint action-video WAM、两阶段 video-to-action,以及本文 action-centered WAM 四类。

2.3 本文的核心转向

本文不否认未来视频监督的价值,而是改变它在系统中的角色:未来视频是训练时正则化动作合理性的辅助任务,不是推理时必须完成的中间产物。动作 token 被设计成只依赖当前观测、状态和语言,未来视频 token 只能在动作之后生成,因此视频预测可以被关掉。

4. 方法详解

GigaWorld-Policy pipeline
Figure 2:整体训练流程。先把通用视频生成模型转成机器人相关的视频动态模型,再在目标机器人轨迹上联合训练动作预测和未来视频预测。

4.1 任务形式化

每个时刻 $t$,机器人接收多视角 RGB 观测 $o_t=\{o_t^v\}_{v\in S}$,其中 $S=\{left,front,right\}$,还有语言指令 $l$ 和本体状态 $s_t$。策略输出长度为 $p$ 的动作 chunk:

$$a_{t:t+p-1}=(a_t,a_{t+1},\ldots,a_{t+p-1}).$$

传统 VLA 学的是:

$$a_{t:t+p-1}\sim q_\Theta(\cdot\mid o_t,s_t,l).$$

GigaWorld-Policy 则让统一模型 $g_\Theta$ 同时参数化两个条件分布。动作侧:

$$\big(a_{t:t+p-1},c_t\big)\sim g_\Theta(\cdot\mid o_t,s_t,l),$$

其中 $c_t$ 是用于视觉预测的动作 latent conditioning signal。视觉动态侧:

$$ (o_{t+\Delta},o_{t+2\Delta},\ldots,o_{t+K\Delta}) \sim g_\Theta(\cdot\mid o_t,s_t,l,c_t), \quad K=\lfloor p/\Delta\rfloor. $$

这个分解很关键:动作先被建模,未来视频是被动作条件化的后续预测,而不是动作必须依赖的前置预测。

4.2 输入 token 与多视角拼接

为了在不改动视频生成 backbone 的前提下处理三路相机,作者把 left/front/right 三个视角拼成一张 composite image:

$$o_t^{comp}=\mathrm{Compose}(o_t^{left},o_t^{front},o_t^{right}).$$

当前观测和未来观测都通过同一个预训练 VAE 编码成视觉 latent,再切成 spatiotemporal visual tokens:当前观测 token 记为 $T_o$,未来视频 token 记为 $T_f$。本体状态和动作通过线性层映射到 hidden dimension,分别得到 $T_s$ 和 $T_a$。语言指令由预训练语言编码器得到 $T_l$,以 cross-attention 方式注入。

4.3 共享 Transformer 与 causal mask

与 MoE 或多分支专家不同,本文把所有 token 放进同一组 Transformer blocks,共享 Q/K/V 投影。统一序列写成:

$$T_t=[\,T_o;\,T_s;\,T_a;\,T_f\,].$$

Causal attention mask
Figure 3:Causal attention mask。动作 token 不允许看未来视频 token,未来视频 token 可以看动作 token。

这个 mask 施加三条依赖关系:$T_s$ 与 $T_o$ 可互相注意,但不能看动作或未来;$T_a$ 可看 $T_s,T_o$,不能看 $T_f$;$T_f$ 可看 $T_s,T_o,T_a$。它的含义是:动作预测只由当前上下文决定,未来视频预测则由当前上下文和动作决定。这样训练时的视觉动态监督不会通过信息泄漏“作弊”进入动作 token,也为推理时关闭未来视频分支提供结构保证。

4.4 训练目标:两个 flow-matching loss

对动作 token 或未来视频 latent 任一模态 $x$,采样 flow time $s\sim U(0,1)$ 和噪声 $\epsilon\sim\mathcal N(0,I)$,构造:

$$x^{(s)}=(1-s)\epsilon+s x,\qquad \dot{x}^{(s)}=x-\epsilon.$$

未来视频 loss 在 VAE latent $z_f$ 上定义:

$$ \mathcal L_{video}= \mathbb E_{s,\epsilon}\left[ \left\| g_\Theta(z_f^{(s)},s\mid T_s,T_o,T_a,T_l)-\dot z_f^{(s)} \right\|^2 \right]. $$

动作 loss 只条件于历史上下文和语言,不条件于未来视频:

$$ \mathcal L_{action}= \mathbb E_{s,\epsilon}\left[ \left\| g_\Theta(a^{(s)},s\mid T_s,T_o,T_l)-\dot a^{(s)} \right\|^2 \right]. $$

预训练阶段只优化 video flow matching;post-training 阶段联合优化:

$$\mathcal L_{all}=\lambda_{video}\mathcal L_{video}+\lambda_{action}\mathcal L_{action}.$$

4.5 推理:action-only decoding

推理时上下文为 $w_t=(T_l,T_s,T_o)$。模型只初始化和采样动作 token:

$$a^{(0)}\sim\mathcal N(0,I),\qquad \frac{d a^{(s)}}{ds}=g_\Theta(a^{(s)},s\mid w_t),\ s\in[0,1].$$

积分得到 $a^{(1)}$ 后解码为连续动作 chunk $\hat a_{t:t+p-1}$,执行后再用新观测闭环。若需要可视化或诊断,也能打开视频分支:要么联合 denoise 未来视频 token,要么复用动作 denoising 时的 KV cache 再生成视频。但控制本身不依赖这一步。

5. 数据、训练与复现要点

5.1 预训练数据

作者用约 10,000 小时 embodied data 进行预训练,来源覆盖真实机器人视频、egocentric human videos 和通用交互视频。表格中的估计小时数如下:

数据源小时数作用
EgoDex800手部/物体交互、日常操作 primitive
Agibot2,500机器人真实操作与 workspace 视觉分布
EGO4D3,500长时序人类第一视角活动结构
RoboMind300机器人操作视频
RDT25机器人操作视频
Open X-Embodiment3,500跨机器人/跨任务视觉覆盖
DROID350真实机器人 manipulation
ATARA10机器人任务视频
Something-Something V2200物体交互动态先验

5.2 训练配方

复现成本判断。 论文给出了关键超参和数据规模,但没有把完整训练代码、数据清洗细节、multi-view compose 具体布局、动作归一化、采样步数等全部写清。官方项目页提供代码链接,但实际复现还需要检查仓库发布内容与权重/数据可用性。

6. 实验结果解析

6.1 推理速度与成功率

Latency versus success comparison
Figure 4:真实任务和 A100 上的推理频率/成功率对比。GigaWorld-Policy 的卖点是位于较高成功率且低延迟的区域。
方法Time (ms)Simulation SRReal-world SR
$\pi_{0.5}$2250.480.69
GigaBrain-0452--0.68
Motus32310.880.76
Cosmos-Policy1413--0.58
GigaWorld-Policy3600.860.83

相比 Motus,GigaWorld-Policy 的仿真成功率略低 0.02,但延迟从 3231 ms 降至 360 ms,并且真实成功率更高。这个结果支撑了作者的核心论点:世界模型训练信号有用,但推理时不必完整生成未来视频。

6.2 RoboTwin 2.0 仿真

RoboTwin 2.0 包含 50 个代表性 manipulation tasks,评估 clean 与 randomized scenes。主表的平均值为:$\pi_{0.5}$ 0.43/0.44,X-VLA 0.73/0.73,Motus 0.89/0.87,GigaWorld-Policy 0.87/0.85。也就是说,本文方法与最强 WAM baseline 接近,但在实时性上大幅领先。

6.3 真实机器人任务

真实平台为 AgileX PiPER 6-DoF robotic arm。四个任务来自附录的定义:

方法Clean DeskScan QRSweep TrashStack BowlsAvg.
$\pi_{0.5}$0.750.550.650.800.69
GigaBrain-00.700.650.600.750.68
Motus0.800.750.700.800.76
Cosmos-Policy0.650.500.450.700.58
GigaWorld-Policy0.900.750.750.900.83
QR scanning task
真实任务:QR code scanning。
Trash sweeping task
真实任务:sweeping trash。
Stacking bowls and cleaning desk tasks
附录补充图:stack bowls 与 clean desk 的真实部署场景。

6.4 数据效率与消融

Data efficiency curve
Figure 5:训练数据比例变化下的真实任务成功率。作者声称 GigaWorld-Policy 用 10% 数据即可达到 VLA 的最大成功率。
Embodied pretraining data fraction
Figure 6:embodied pre-training 数据比例越高,真实任务成功率越高。
消融项设置结果解释
预训练组合scratch / video init / embodied pretraining / bothSR: 0.45 / 0.57 / 0.73 / 0.83通用视频先验和 embodied data pretraining 互补。
未来帧数量$\Delta=0,4,8,12,24,48$SR: 0.60 / 0.76 / 0.78 / 0.83 / 0.80 / 0.76适量未来建模有帮助,过密预测收益递减。
Causal maskSelf-Attn vs OursSR 0.81 vs 0.83;PSNR 27.87 vs 28.41;SSIM 0.892 vs 0.901避免未来 token 泄漏,同时改善动作条件视频预测质量。
Qualitative video prediction comparison
Figure 7:causal mask 相比 self-attention 更准确预测物体状态变化,红框为作者强调区域。

7. 讨论:价值、可信度与局限

7.1 这篇论文最有价值的地方

最大价值是给 WAM 的部署瓶颈提出了一个干净的结构性解法。过去很多“用世界模型做策略”的方法把推理链路做重了:既要想象未来,又要从想象里提取动作。本文把未来动态作为训练信号保留,把动作推理路径从视频推理路径中解耦出来。这一点对真实机器人很重要,因为 3 秒级推理即使成功率不错,也会破坏闭环控制频率;360 ms 虽然还不是高频伺服,但已经进入可部署策略层的范围。

另一个价值是它没有把 future video prediction 简化成“无用的可视化”。消融显示 $K=0$ 时成功率显著下降,说明未来动态监督确实提供了动作学习信号;但 $\Delta=12$ 最优也说明 dense video prediction 不是越多越好。这个结果比“世界模型一定要 rollout”更细腻。

7.2 结果为什么站得住

证据链有三层。第一,速度表直接比较 action-only path 与需要视频推理的 WAM baseline,数值差距很大。第二,RoboTwin 2.0 与真实平台都做了对比,说明不是只在仿真有效。第三,消融把预训练、未来帧数量和 causal mask 分别拆开,能对应到方法的三个主要 claim:大规模 embodied pretraining 有用、未来动态监督有用、mask 让视频分支可选且减少泄漏。

特别是 causal mask 消融,虽然 SR 只从 0.81 到 0.83,但 PSNR/SSIM 和可视化一起说明 mask 改善了 action-conditioned dynamics 的建模质量。这和方法假设一致:动作不应从未来帧偷信息,未来帧应该由动作解释。

7.3 主要局限

8. 组会可追问问题

  1. 如果推理时完全不生成未来视频,训练时的 $\mathcal L_{video}$ 究竟通过哪些参数路径影响动作预测?共享 Transformer blocks 是否足够解释这种迁移?
  2. Causal mask 让动作 token 不能看未来视频 token,但 action loss 和 video loss 仍共享 backbone。是否可能存在梯度层面的冲突,$\lambda_{action}=5,\lambda_{video}=1$ 是否对不同任务敏感?
  3. $\Delta=12$ 最优是否与动作 chunk 长度 $p=48$、机器人控制频率和任务时长有关?换机器人或更快任务时该如何设定?
  4. Composite multi-view image 会牺牲相机间几何结构显式性。相比独立 view token + view embedding,它的优势是否主要来自兼容视频 backbone?
  5. 未来视频预测质量指标 PSNR/SSIM 与真实控制成功率的相关性有多强?是否存在视频看起来差但动作仍对,或视频好但动作失败的案例?
  6. 真实任务每任务 50 demos,模型又有大规模预训练。若只允许少量下游 demos,性能瓶颈更多来自 action head 适配还是视觉动态 prior 不够贴近?

9. 复现清单

模块必须确认的内容论文给出的信息
代码/权重官方仓库、模型权重、推理脚本、训练配置github.com/open-gigaai/giga-world-policy
输入处理三视角 compose 规则、图像分辨率、VAE latent shape三视角拼成同分辨率 composite image;视觉 token 用 VAE 编码。
模型Wan 2.2 5B 接入方式、state/action projection、language cross-attention共享 Transformer blocks,视觉 2D PE,状态/动作 1D temporal PE。
训练flow steps、batching、loss 权重、optimizer、数据采样比例AdamW,batch 256,lr 1e-4 到 1e-6;post-training $\lambda_a=5,\lambda_v=1$。
评估RoboTwin 2.0 任务列表、随机化设置、真实机器人 trial protocol50 tasks;clean/randomized;真实任务 20 trials,每 trial 最多 5 attempts。
推理action-only sampling steps、是否使用 KV cache、控制频率默认关闭未来视频,只 denoise action tokens;可选开启视频分支或复用 KV cache。

论文页:arXiv:2603.17240; PDF:arxiv.org/pdf/2603.17240; 项目页:GigaWorld-Policy Project