中文 EN

FLARE: Robot Learning with Implicit World Modeling

作者:Ruijie Zheng, Jing Wang, Scott Reed, Johan Bjorck, Yu Fang, Fengyuan Hu, Joel Jang, Kaushil Kundalia, Zongyu Lin, Loic Magne, Avnish Narayan, You Liang Tan, Guanzhi Wang, Qi Wang, Jiannan Xiang, Yinzhen Xu, Seonghyeon Ye, Jan Kautz, Furong Huang, Yuke Zhu, Linxi Fan

机构:NVIDIA, University of Maryland, College Park, Nanyang Technological University, University of Texas at Austin

发表状态:arXiv v1 submitted on 2025-05-21;论文模板为 CoRL 2025 preprint

链接:arXiv:2505.15659 | PDF | 项目页

1. 论文速览

一句话总结:FLARE 给 flow-matching / diffusion VLA policy 加入少量可学习 future tokens,让 DiT 中间层的 future-token 表征对齐未来观测的视觉-语言 latent embedding,从而在不生成未来图像的情况下,把“预测未来”作为辅助监督注入动作生成网络。
阅读定位项内容
论文要解决什么显式生成未来图像/视频的 world model 计算昂贵,而且 pixel-level reconstruction 与动作控制所需的紧凑任务表征存在目标冲突;作者希望把未来建模变成轻量、可与高频控制兼容的 latent 对齐目标。
作者的方法抓手在 DiT policy 输入序列中加入 $M$ 个 learnable future tokens,在内部第 $L$ 层取出这些 token 的激活,经 MLP 后与未来观测 embedding 对齐;总损失为 action flow-matching loss 加上 $\lambda$ 倍 future latent alignment loss。
最重要的结果RoboCasa 24 任务平均 70.1%,GR1 仿真 24 任务平均 55.0%,均高于 policy-only、UWM、GR00T N1 scratch 和 Diffusion Policy;真实 GR1 在 100 trajectories/task 设置下最高 95.1%,比 baseline 平均高 14%。
阅读时要注意的点FLARE 不是 CoT-VLA 那类“生成未来图像再行动”的方法;它预测的是未来观测的 control-centric latent representation,推理时不需要生成未来 embedding,训练时也能利用无动作标签的人类第一视角视频。

难度评级

4/5。需要熟悉 flow matching / diffusion policy、DiT、VLA、representation alignment、Q-former 和 imitation learning benchmark。公式不多,但要真正复现,需要理解 embedding target、future token stream、EMA target update 和多数据源训练。

关键词

Implicit World Modeling;Future Latent Representation Alignment;Flow Matching Policy;Diffusion Transformer;Vision-Language-Action;Q-former;Human Egocentric Videos

核心贡献清单

FLARE concept
Figure 1:FLARE 与常规 flow-matching/diffusion policy 的对比。常规 policy 只做 action flow matching;FLARE 额外引入 future latent alignment,因此可以从 action-labeled robot data 和 video-only human ego-view demonstrations 中共同学习。

2. 动机

2.1 要解决什么问题

论文从一个直觉出发:人类行动时会隐式预测未来状态,例如伸手拿桌上的杯子时,会预判手的路径、障碍物、抓取后的触感。机器人 policy 也需要类似的 predictive capability,尤其是在多步操控、遮挡、物体几何复杂或双臂 humanoid 任务中。

但已有把 world model 接入 policy 的方式经常要求预测未来图像或视频帧。作者认为这种做法有两个问题:第一,高保真视觉生成需要大模型,带来训练和推理开销;第二,像素重建关心纹理和空间细节,而动作控制关心任务相关的抽象信息,两者对模型容量的需求并不完全一致。

2.2 已有方法的局限

GR1、GR2、UWM、UVA 等路线显式预测未来图像 token 或 VAE latent,同时学习动作。它们直观,但仍要处理未来视觉重建问题。论文指出,控制任务并不一定需要“预测每个像素”,例如抓水瓶放进容器时,关键是水瓶和目标容器的位置、朝向和几何关系,而不是背景中无关细节。

此外,若未来预测目标是通用视觉 embedding,它不一定包含动作相关信息;若直接使用 pixel / VAE latent,又可能过于昂贵。因此 FLARE 的核心折中是:学习一个 compact 且 action-aware 的未来观测 embedding,并把 policy 内部表征往这个 embedding 对齐。

2.3 本文的解决思路

FLARE 把 world modeling 放在 policy 的 latent space 中。训练时,当前观测和动作 chunk 仍通过 flow matching 学动作;同时,在 DiT 输入序列中加入 learnable future tokens,让这些 token 在中间层形成对未来观测 embedding 的预测。这个预测不要求生成图像,只需要 cosine alignment。

这带来一个重要结果:对于没有 action labels 的人类第一视角视频,虽然不能计算 action flow-matching loss,但仍可以计算 future alignment loss,因此它们可以参与训练 latent dynamics。

4. 方法详解

4.1 Background: Flow Matching Policy

论文沿用 $\pi_0$ 和 GR00T N1 的 flow-matching 动作学习。令 $o_t$ 是当前观测,包含图像和语言;$q_t$ 是 proprioceptive state;$A_t=(a_t,\dots,a_{t+H})$ 是专家动作 chunk;$\phi_t=VL(o_t)$ 是视觉语言 embedding。

训练时先把真实动作 chunk 与高斯噪声混合,得到一个带噪动作;模型学习从带噪动作指向真实动作的速度场。

$$A_t^\tau = \tau A_t + (1-\tau)\epsilon,\quad \epsilon\sim\mathcal{N}(0,I)$$ $$\mathcal{L}_{fm}(\theta)=\mathbb{E}_{\tau}\left[\left\|V_\theta(\phi_t,A_t^\tau,q_t)-(\epsilon-A_t)\right\|^2\right]$$
$A_t$专家 demonstration 中的动作 chunk。
$A_t^\tau$flow-matching timestep $\tau$ 下的 noisy action chunk。
$V_\theta$DiT policy 预测的 denoising direction。
$\tau$从 Beta 分布采样,论文沿用 GR00T N1 的 $s=0.999$ 设置。

推理时,从 $A_t^0\sim\mathcal{N}(0,I)$ 开始,用 $K$ 步 Euler integration 得到动作 chunk;所有实验中 $K=4$。

4.2 FLARE 架构

FLARE architecture
Figure 2:FLARE 架构。state token、noisy action tokens 和 future tokens 被拼接送入 DiT;当前视觉语言 embedding 通过 cross-attention 条件化 DiT;中间层 future-token activations 用于对齐未来 observation embedding。

FLARE 的输入序列包含三部分:

  1. 当前 proprioceptive state $q_t$ 经 state encoder 得到的 state token。
  2. noised action chunk $A_t^\tau=\{\tau a_t+(1-\tau)\epsilon\}_{t}^{t+H}$ 经 action encoder 得到的 action tokens。
  3. $M$ 个 learnable future token embeddings。

在 DiT 的内部第 $L$ 层,模型取出 future tokens 对应的 hidden states,经 MLP 投影后,与未来观测 $\phi_{t+H}$ 的 embedding 对齐。

4.3 Future Latent Representation Alignment

FLARE loss 的意思是:让 action denoising network 内部的 future-token 表征,接近未来观测的视觉语言 embedding。

$$\mathcal{L}_{align}(\theta)=-\mathbb{E}_{\tau}\left[\cos\left(f_\theta(\phi_t,A_t^\tau,q_t),g(\phi_{t+H})\right)\right]$$ $$\mathcal{L}=\mathcal{L}_{fm}+\lambda\mathcal{L}_{align}$$
$f_\theta$从 DiT 第 $L$ 层取出的 future-token activations,经 projection 后输出 $B\times M\times D$ 表征。
$g$未来观测 embedding encoder,输出同样形状的 $B\times M\times D$ target。
$M$future / embedding token 数;主设计中 Q-former 压缩为 $M=32$ tokens。
$\lambda$alignment loss 系数;主实验中 $\lambda=0.2$,消融显示该值效果最好。

它与 REPA 的关系是:REPA 对齐图像 diffusion transformer 与视觉表征以加速图像生成;FLARE 则对齐 policy DiT 与 future observation embedding,用于机器人动作学习。

4.4 Action-aware Future Embedding Model

作者发现,target embedding 的选择很重要。直接使用通用视觉 encoder 的 tokens 可行,但更好的做法是训练一个 action-aware vision-language embedding model,使它既紧凑又含有控制相关信息。

Q-former embedding module
Appendix Figure:Q-former based vision-language embedding module。SigLIP2 编码视觉和语言,4 层 self-attention 融合,再用 32 个 query tokens 经 Q-former 压缩。

附录 A 具体结构如下:采用 siglip2-large-patch16-256 作为 vision 和 language encoder;每张 $256\times256$ 图像产生 256 个 patch tokens;语言指令 padded 后产生 32 个 language tokens;两者拼接为 288 个 tokens,经 4 层 self-attention transformer 融合;最后用 Q-former 的 32 个 learnable query tokens 压缩成 32 个 vision-language tokens。

实现要点:embedding model 不是冻结的通用视觉模型。作者给它接 8 个 DiT blocks,用常规 action flow-matching objective 端到端训练,使 embedding 中保留对动作预测有用的信息。

4.5 EMA Target Update

在下游 post-training 中,target embedding model 与 policy encoder 存在 distribution shift。论文不是完全冻结 target embedding,而是用 EMA 让 target 慢速跟随 policy 的视觉语言 encoder。

$$\theta_{\text{target\_vl\_embedding}}\leftarrow \rho\theta_{\text{target\_embedding}}+(1-\rho)\theta_{\text{policy\_vl\_embedding}}$$

作者测试 $\rho\in\{0.99,0.995,0.999,1.0\}$,最终使用 $\rho=0.995$;即便 $\rho=1.0$ 不做 EMA,FLARE 仍超过 policy-only baseline,但 $\rho=0.995$ 最好。

4.6 训练伪代码

附录 D 给出 Python-style pseudocode。核心流程可浓缩为:

future_tokens = nn.Embedding(M, hidden_dim) target_vl_embedding.requires_grad = False for each gradient step: obs, proprio, actions, future_obs = dataset.next() noise = gaussian.sample() timestep = beta.sample() noisy_action = timestep * actions + (1 - timestep) * noise velocity = actions - noise action_tokens = action_embed(noisy_action, timestep) state_token = state_embed(proprio) vl_tokens = vl_embedding(obs) sa_tokens = concat([state_token, action_tokens, future_tokens]) policy_outputs = dit(sa_tokens, vl_tokens) action_outputs = action_decoder(policy_outputs[:, action_token_slice]) action_loss = MSE(action_outputs, velocity) embedding_to_align = target_vl_embedding(future_obs) # no grad predict_embedding = decode_embedding(policy_outputs[:, -M:]) flare_loss = 1 - cosine_similarity(predict_embedding, embedding_to_align) loss = action_loss + lambda * flare_loss optimize(loss)

5. 实验与结果

5.1 Multitask Simulation Benchmarks

Multitask simulation tasks
Figure 4:两个 multitask simulation benchmarks:24 个 RoboCasa 单臂厨房任务,以及 24 个 GR-1 humanoid tabletop manipulation 任务。

RoboCasa 包含 pick-and-place、door manipulation、faucet operation 等厨房任务,观测为 left/right/wrist 三路 RGB。GR-1 仿真包含 18 个 object rearrangement 任务和 6 个 articulated object 任务,观测为头部第一视角 RGB。

为公平比较,主 benchmark 不使用跨 embodiment 预训练 embedding model,而是在同一 in-domain multitask dataset 上预训练 embedding model 80,000 gradient steps。除 UWM 外,所有方法训练 80k steps;UWM 因 80k 结束仍在提升,延长到 400k steps。

5.2 主结果表

MethodsFLAREPolicy OnlyUWMGR00T N1 ScratchDiffusion Policy
Pick and Place53.2%43.8%35.6%44.1%29.2%
Open & Close Doors / Drawers88.8%78.7%82.0%80.0%78.7%
Others80.0%75.2%74.2%69.6%61.3%
24 RoboCasa Tasks Average70.1%61.9%60.8%60.6%51.7%
Pick and Place Tasks58.2%46.6%30.1%51.8%40.4%
Articulated Tasks51.3%47.4%38.4%42.8%50.1%
24 GR1 Tasks Average55.0%44.0%29.5%45.1%40.9%

结果表显示 FLARE 在两个 benchmark 的所有汇总类别上均最高。与 policy-only 相比,RoboCasa 平均从 61.9% 提升到 70.1%,GR1 平均从 44.0% 提升到 55.0%。与 UWM 相比,FLARE 避开显式未来 VAE latent 生成,在 RoboCasa 和 GR1 上均显著更高。

5.3 Data-efficient Post-training

Real GR1 task setup
Figure 5:真实 GR1 humanoid 的四个 tabletop manipulation tasks。
Posttraining results
Figure 6:RoboCasa 和真实 GR1 的 post-training 结果。论文称在 RoboCasa 100 trajectories/task 时 FLARE 有 10% gain;真实 GR1 最高达到 95.1%,平均高于 baseline 14%。

这一节评估跨 embodiment 预训练 embedding model 在未见过的 embodiment / task 上的作用。policy-only baseline 同时初始化 Q-former embedding 和 DiT weights;FLARE 只 warm start vision-language embedding,并用 pretrained embedding model 作为 future prediction target。

论文报告:在 RoboCasa 100 trajectories/task 的数据受限设置下,FLARE 比 policy-only 高 10%;在真实 GR1 上,FLARE 最高成功率 95.1%,平均比 baseline 高 14%。定性观察中,baseline 常在水瓶或易拉罐靠近手时碰倒物体,而 FLARE 学到绕过或越过物体再抓取。

5.4 Human Egocentric Videos without Action Labels

Novel object setup
Figure 7a:五个 novel objects,具有训练集中未出现的几何形状,需要新的抓取策略。
Novel object results
Figure 7b:human egocentric videos + few-shot real robot demos 的 novel object 泛化结果。

作者选取 5 个 novel objects,每个物体收集 150 条人类第一视角 demonstrations,方式是示范者头戴 GoPro 执行类似任务;机器人侧每个物体只收集最多 10 条 teleoperated demonstrations。对于 robot demos,训练时同时使用 action flow-matching loss 和 future alignment objective;对于 human egocentric videos,因为没有 action labels,只使用 future alignment loss。

论文报告:每个物体只有 1 条 teleoperated trajectory 时,FLARE 已可达到最高 60% 成功率;每个物体 10 条机器人轨迹并联合 human videos 时,成功率提升到 80%,约为仅用 action-labeled data baseline 的两倍。项目页进一步给出一个具体数值:1-shot 不加 human video 为 37.5%,加 human egocentric videos 后为 60%。

5.5 Ablations

Target embedding modelSuccess Rate
No FLARE loss43.9%
SigLIP249.6%
SigLIP2 average pooled50.9%
Action-aware Embedding55.0%

这个表说明 FLARE 兼容通用视觉 encoder target:即使用 SigLIP2 也比 no-FLARE 高约 7%;但 action-aware embedding 最好,说明 target embedding 与控制任务对齐很重要。

FLARE ablations
Figure 8:alignment layer index 和 loss coefficient $\lambda$ 的消融。主实验在 8-layer DiT 的 layer 6 施加 FLARE loss,并使用 $\lambda=0.2$。

作者指出:施加 FLARE loss 的层过早,例如 layer 4,会明显下降;原因可能是 early layer 还在处理低层 action denoising 表征,过早对齐未来 embedding 会与动作预测冲突。较深层能让更多模型权重从未来监督中受益,但也要避免过强冲突。

EMA coefficient
Figure 9:EMA coefficient $\rho$ 消融。所有 EMA variants 都超过 no-FLARE baseline,$\rho=0.995$ 最好。

6. 复现审计

6.1 预训练数据 mixture

附录 B 给出了 action-aware vision-language embedding pretraining 的数据统计,总计 169.5M frames、2,989.5 小时。

DatasetFramesDurationFPSCamera ViewCategory
GR-1 In-house6.4M88.4 hr20EgocentricReal robot
DROID (OXE)23.1M428.3 hr15Left, Right, WristReal robot
RT-1 (OXE)3.7M338.4 hr3EgocentricReal robot
Language Table (OXE)7.0M195.7 hr10Front-facingReal robot
Bridge-v2 (OXE)2.0M111.1 hr5Shoulder, left, right, wristReal robot
MUTEX (OXE)362K5.0 hr20WristReal robot
Plex (OXE)77K1.1 hr20WristReal robot
RoboSet (OXE)1.4M78.9 hr5Left, Right, WristReal robot
GR-1 Simulation125.5M1,742.6 hr20EgocentricSimulation
Total169.5M2,989.5 hr------
Pretraining data mixture
Figure 3:action-aware vision-language embedding model 的预训练数据混合。

6.2 训练超参

阶段设置
Embedding model pretraining256 NVIDIA H100 GPUs;batch size 8192;150,000 gradient steps。
OptimizerAdamW;$\beta_1=0.95,\beta_2=0.999,\epsilon=1e-8$;weight decay 1e-5。
Learning rate scheduleCosine schedule;warmup ratio 0.05。
Flow-matching timestep$p(\tau)=\text{Beta}((s-\tau)/s;1.5,1)$,$s=0.999$。
Multitask experiments32 NVIDIA H100 GPUs;batch size 1024;80,000 gradient steps;其余超参与预训练一致。
Inference denoising$K=4$ Euler integration steps。
FLARE loss$M=32$ future/embedding tokens;主实验 layer 6 / 8;$\lambda=0.2$;EMA $\rho=0.995$。

6.3 复现 checklist

论文给得比较充分的信息

充分:核心公式、DiT token 结构、Q-former embedding 结构、主要 loss、主实验 benchmark、baseline、训练步数、GPU 规模、batch size、optimizer、数据表、伪代码、关键超参消融。

仍需补充:GitHub 在项目页显示 coming soon;完整数据预处理脚本、真实 GR1 控制接口、每个 benchmark 的任务配置文件、精确 model config、checkpoint、human video 对齐/采样细节没有在源码中完整开放。

最小复现路径

  1. 实现 SigLIP2 + 4-layer fusion transformer + Q-former 的 action-aware VL embedding module,输出 32 tokens。
  2. 用 GR-1/OXE/RoboSet 等 mixture 做 embedding model 预训练,并用 action flow-matching objective 保证 action-awareness。
  3. 实现 GR00T N1 风格 DiT flow-matching policy,输入 state token、noisy action tokens 和 future tokens。
  4. 在第 6 层取 future-token activations,与 target future observation embedding 做 cosine alignment。
  5. 训练总损失 $\mathcal{L}_{fm}+0.2\mathcal{L}_{align}$,post-training 时用 $\rho=0.995$ 的 EMA target embedding。
  6. 在 RoboCasa / GR1 上按 50 episodes/task 评估,每 1000 steps 评估 checkpoint,并报告最后五个 checkpoints 的最大成功率。

7. 分析、局限与边界

7.1 这篇论文最有价值的地方

从论文自己的问题设定和实验看,最有价值的地方是把 world modeling 的监督从“预测可视未来”降维成“对齐控制相关未来 latent”。这样既保留了未来预测作为 auxiliary signal 的好处,又避免 pixel/frame generation 的计算负担。它还自然解释了为什么 video-only human demonstrations 可用:无动作数据无法训练 action flow matching,但可以提供当前/未来观测对来训练 latent dynamics。

7.2 结果为什么站得住

结果的支撑来自四类证据:第一,两个 multitask simulation benchmark 覆盖单臂和 humanoid tabletop manipulation,且 FLARE 在所有主汇总指标上最高;第二,UWM 被训练到 400k steps 后仍低于 FLARE,降低了“只是训练更久”的解释;第三,target embedding、loss layer、$\lambda$、EMA 都做了消融;第四,真实 GR1 和 novel objects + human egocentric videos 说明方法不是只在仿真中有效。

7.3 作者自述局限

7.4 适用边界

FLARE 适合当前观测到未来观测存在可学习 latent dynamics、且未来视觉语言 embedding 能表达任务进展的 manipulation 任务。它不直接提供显式 planning rollout,也不生成可检查的未来图像;因此若用户需要可解释的视觉预测轨迹,FLARE 的 latent world model 不如显式图像生成方法直观。

另外,FLARE 的收益依赖 target embedding 质量。通用 SigLIP2 target 可以带来提升,但 action-aware embedding 明显更好;这意味着在新领域复现时,embedding model 的数据覆盖和 action-awareness 可能成为主要瓶颈。

7.5 附录 rollout 信息

Real GR1 rollouts
Appendix Figure:真实 GR1 四个 pick-and-place tasks 的 rollout。作者定性指出 FLARE policy 学会绕过或越过易倒物体再抓取。
Novel object rollouts
Appendix Figure:五个 novel objects 的 rollout,用于补充说明 human egocentric co-training 后的抓取泛化。