中文 EN

FRAPPE: Infusing World Modeling into Generalist Policies via Multiple Future Representation Alignment

作者:Han Zhao, Jingbo Wang, Wenxuan Song, Shuai Chen, Yang Liu, Yan Wang, Haoang Li, Donglin Wang

机构:Zhejiang University, Westlake University, HKUST (GZ), South China University of Technology, ShanghaiTech University, Tsinghua University

发表状态:arXiv v1 submitted on 2026-02-19

链接:arXiv:2602.17259 | PDF | 项目页 | 代码 | 模型

1. 论文速览

一句话总结:FRAPPE 在 RDT 这类 diffusion-based VLA 上加入可学习 future prefixes,并通过两阶段训练让它先适配未来表示对齐,再并行扩展成多个 Prefix+LoRA 专家,分别对齐 CLIP、DINOv2、ViT 等未来视觉表示,从而提升隐式 world modeling、泛化和数据效率。
阅读定位项内容
论文要解决什么显式 world model 需要预测未来像素,容易过度关注 pixel-level reconstruction,并且推理时依赖预测未来观测会累积误差;单一 latent alignment 又可能受单个视觉任务的归纳偏置限制。
作者的方法抓手用 learnable future prefix 对齐未来 observation 的 VFM embedding;mid-training 用 Theia-style distilled encoder 单流全参适配,post-training 用 Mixture-of-Prefix-and-LoRA 并行对齐多个 VFM,再由 router 聚合动作。
最重要的结果RoboTwin 2.0 八任务平均:Easy 57.5%、Hard 25.5%,均为最高;真实双臂 AgileX 任务中 unseen settings 表现强,长程三阶段任务 RDT 为 0%,FRAPPE 为 20%。
阅读时要注意的点FRAPPE 与 FLARE 相近但更强调 multiple future representation alignment 与 parallel progressive expansion;它训练时使用多个 teacher VFM,推理时不再调用这些 VFMs,而保留并行专家计算图。

难度评级

4/5。需要理解 diffusion/DiT policy、RDT、LoRA、MoE/router、future representation alignment、visual foundation model teacher,以及 robot data 与 human egocentric data 的混合训练。

关键词

VLA;RDT;Implicit World Modeling;Future Representation Alignment;Prefix Tuning;LoRA;Mixture of Experts;Human Egocentric Videos;RoboTwin

核心贡献清单

FRAPPE teaser
Figure 1:FRAPPE 在仿真、真实复杂场景,以及不同层级 training data pyramid 上展示性能提升。

2. 动机

2.1 要解决什么问题

VLA 和 diffusion policy 已经能学习多模态动作分布,但机器人执行复杂任务时仍需要理解环境动态,也就是 world modeling。已有方法常把 world modeling 具体化为“预测未来图像”,再把该预测用于动作生成或辅助训练。

论文指出这条路有两个问题:第一,未来像素预测把大量计算花在冗余纹理和背景细节上,而不是任务相关物体信息;第二,推理阶段依赖模型生成的未来观测,若预测错误会沿时间累积,影响动作。

2.2 已有方法的局限

显式未来图像方法,如联合生成 future frames/actions 的模型,在 OOD 场景中可能图像生成质量差。隐式 alignment 方法,如 FLARE/VPP/representation alignment,避免了显式生成,但如果只对齐单一视觉 representation,就可能继承该视觉任务的偏置,不一定适配所有机器人任务。

FRAPPE 的核心动机是:world modeling 不必预测图像本身,也不应被单一 representation 限死;模型可以同时向多个视觉基础模型的未来 representation 对齐,并在推理时通过多流并行计算获得 scaling benefit。

2.3 本文的解决思路

FRAPPE 使用两阶段 recipe:

  1. Mid-training:单流、全参数 fine-tuning,加入 future prefix,对齐一个由多 VFM 蒸馏得到的 Theia-style tiny teacher encoder,使 RDT 适配 world-modeling 目标。
  2. Post-training:冻结共享 backbone,只训练多个 future prefix 和对应 LoRA;每个专家对齐一个独立 teacher encoder,最后由 router 聚合专家输出生成动作。

4. 方法详解

FRAPPE overview
Figure 2:训练和推理总览。训练时逐步对齐多个 VFM representation;推理时保留并行专家计算图,不使用 VFM teacher 监督。

4.1 Preliminaries: RDT

RDT 建模条件动作序列分布 $p_\theta(\mathbf{a}_t|\mathbf{o}_t,l)$。给定语言 $l$、观测 $\mathbf{o}_t$、带噪动作 $\tilde{\mathbf{a}}_t$ 和 diffusion timestep $k$,DiT 去噪网络 $f_\theta$ 预测 clean action chunk。

RDT 原始目标:把 noisy action chunk 去噪成真实动作 chunk。

$$\mathcal{L}_{action}=\mathrm{MSE}\left(\mathbf{a}_t,f_\theta(l,\mathbf{o}_t,\tilde{\mathbf{a}}_t,k)\right)$$ $$\tilde{\mathbf{a}}_t=\sqrt{\bar{\alpha}_k}\mathbf{a}_t+\sqrt{1-\bar{\alpha}_k}\epsilon,\quad \epsilon\sim\mathcal{N}(0,I)$$
$\mathbf{o}_t$当前视觉观测。
$l$语言指令。
$\tilde{\mathbf{a}}_t$diffusion timestep $k$ 下的 noisy action chunk。
$f_\theta$RDT 的 DiT backbone,条件化 SigLIP 视觉 tokens 和 T5 语言 tokens。

4.2 Future Prefix Alignment

FRAPPE 在 RDT 输入序列中加入 learnable future prefix $\mathbf{p}\in\mathbb{R}^{n\times d}$。模型不仅输出动作,还输出 prefix 对应的未来表示预测:

future prefix 让原本只负责动作去噪的 RDT,同时在内部学习未来状态 representation。

$$\mathbf{a}_t,\mathbf{p}_t=f_\theta(l,\mathbf{o}_t,\tilde{\mathbf{a}}_t,k)$$ $$\mathbf{e}_{t+h}=\Phi(o_{t+h}),\quad \mathcal{L}_\Phi=\cos(\mathbf{p}_t,\mathrm{sg}(\mathbf{e}_{t+h}))$$
$\Phi$pretrained VFM teacher encoder。
$h$future horizon;附录消融最优为 $h=8$。
$\mathrm{sg}$stop-gradient,不更新 teacher encoder。
$\mathbf{p}_t$RDT 输出的 future-prefix representation,用于对齐未来 observation embedding。

4.3 Parallel Scaling: Mixture-of-Prefix-and-LoRA

为了利用多个视觉基础模型的知识,FRAPPE 在共享 RDT backbone 上构建多个 future-prefix + LoRA 专家。每个专家对应一个 teacher encoder,论文设置 $M=3$,teacher 分别是 CLIP 400M、DINOv2 142M、ViT 300M。

$$\mathcal{L}_{align}=\sum_{i=1}^{M}\mathcal{L}_{\Phi_i}$$

其中 $\mathcal{L}_{\Phi_i}$ 是第 $i$ 个 VFM teacher 的 future representation alignment loss。

推理时,多个专家都会给出 latent action representation,router 产生 gating weights,再聚合输出。

$$\mathbf{a}_t=\mathrm{MLP}\left(\sum_{i=1}^{M}w_i\cdot z_i\right),\quad \sum_i w_i=1$$
$z_i$第 $i$ 个专家输出的 latent action representation。
$w_i$router 给第 $i$ 个专家的权重。
MLP共享 action head,把加权 latent 表示映射成可执行 action chunk。

4.4 Load Balance 与 Label Smoothing

作者观察到 mode collapse:某个 stream 可能主导学习,其他专家几乎不更新。为此加入 load-balancing loss 和 gating label smoothing。

$$\mathcal{L}_{balance}=\frac{1}{B}\sum_{j=1}^{B}\left(\log\sum_{i=1}^{M}e^{\mathbf{g}_{i,j}}\right)^2$$ $$w'_i=w_i(1-\epsilon)+\frac{\epsilon}{M},\quad \epsilon=0.1$$ $$\mathcal{L}_{total}=\mathcal{L}_{action}+\lambda_1\mathcal{L}_{align}+\lambda_2\mathcal{L}_{balance}$$

附录 A 中 $\lambda_1$ 消融显示,$\lambda_1=0.05$ 最优;若过大,会干扰动作预测这个主任务。

4.5 Mid-training 与 Post-training 为什么分开

论文强调不能直接在 base RDT 上做并行 post-training,因为架构和目标都偏离原始 RDT 预训练分布太多。Mid-training 先用单流 future prefix 和 Theia-style 86M distilled encoder 做全参数 fine-tuning,让模型适配 world-modeling objective;之后 post-training 再冻结 backbone,用 LoRA/prefix 高效对齐多个 teacher。

实现要点:主实验从官方 RDT-1B pretrained weights 出发,总训练 20k steps:15k mid-training + 5k post-training;训练数据只有 Easy setting 中每个任务 50 条 task-specific trajectories。

5. 实验与结果

5.1 Simulation Setup

仿真实验使用 RoboTwin 2.0,这是 real-to-sim bimanual benchmark。每个任务有 Easy 和 Hard 两种设置;Hard 包含场景杂物、背景纹理、光照、桌面高度等 domain randomization。所有仿真实验覆盖 8 个任务,每个模型用 100 evaluation trials 报告平均表现。

训练设置:从 RDT-1B official pretrained weights 开始;训练数据限制为 Easy setting 的每任务 50 条轨迹;两张 H100 训练 20,000 steps,batch size 32。

5.2 RoboTwin 2.0 主结果

MethodAverage EasyAverage Hard备注
DP31.3%0.0%train-from-scratch visuomotor baseline。
VPP35.8%4.0%implicit world model baseline。
RDT47.4%15.1%FRAPPE 的 base model。
$\pi_0$57.1%14.1%RoboTwin SOTA baseline。
$\pi_{0.5}$45.4%13.3%$\pi_0$ successor。
FRAPPE57.5%25.5%Easy 平均最高,Hard 平均明显最高。

Hard setting 的提升更关键:FRAPPE 从 RDT 的 15.1% 提升到 25.5%,也超过 $\pi_{0.5}$。作者解释为模型更好学习了多视觉观察背后的低层 dynamics,而不是依赖 spurious visual correlations。

5.3 Training Paradigm 消融

No.MethodStepsEasyHardAverage
0RDT20k59.020.539.8
1mid-train full ft20k63.027.545.3
2mid-train prefix & LoRA ft20k48.08.528.3
3post-train prefix ft20k25.04.014.5
4post-train prefix & LoRA ft20k46.09.027.5
5mid full ft + post prefix ft15k + 5k68.021.544.8
6mid full ft + post prefix & LoRA ft15k + 5k73.532.052.3

结论很清楚:mid-training 必须先做,而且需要 full-parameter fine-tuning;post-training 单独做效果很差;最终最佳 recipe 是 15k 全参 mid-training + 5k prefix&LoRA post-training。

5.4 Inference Efficiency

MetricRDT 5 stepsmid-train 5 stepspost-train 5 stepspost-train 3 steps
Inference Memory3.7 GB3.7 GB8.0 GB8.0 GB
Latency0.214 s0.228 s0.235 s0.173 s
Success Rate39.8%45.3%52.3%48.5%

post-training 并行专家把显存从 3.7GB 提到 8.0GB,但同样 5 steps 的延迟只增加约 20ms。减少到 3 denoising steps 后,延迟低于 RDT 5 steps,成功率仍高于 baseline。

5.5 Smaller-scale Policy Model

RDT-130M results
Figure 3:RDT-130M 上的验证。FRAPPE recipe 在小模型上也能提升性能,LoRA post-training 与全参 post-training 的差距只有约 2-3%。

作者用 RDT-130M 说明该训练范式不只依赖 1B 参数规模。RDT-130M 原始 hard-task 泛化弱,但 FRAPPE 对 hard tasks 提升明显,并能接近 naive RDT-1B fine-tuning 的水平。

5.6 Real-world Experiments

真实实验使用 bimanual AgileX mobile manipulator,每个机械臂 6-DoF 和 parallel gripper。视觉系统包括一个高位第三人称主相机,以及两个 wrist-mounted ego-centric cameras。训练数据:basic tasks 每个 variation 25 demonstrations,long-horizon tasks 100 demonstrations。评估:basic tasks 每个 40 trials,long-horizon tasks 每个 20 trials。

Real-world seen unseen
Figure 4:真实任务 seen/unseen 设置。FRAPPE 在 lighting、height、pose、object variations 上均表现强,尤其 unseen settings。
Long horizon
Figure 5:长程任务包含三个时间依赖子任务和四个交互物体。RDT 在 trial 中无法完成,FRAPPE 达到 20% 完整成功率。

5.7 Human Egocentric Co-training

FRAPPE 提出 data pyramid:底层是大规模 action-free human egocentric data,中层是 task-specific human egocentric data,顶层是 task-specific robot teleoperation data。作者强调 task-specific human data 不用 GoPro/VR,而使用与 robot data 一致的静态第三人称相机;这样新手人类操作者可以超过 360 trajectories/hour,而熟练 robot teleoperation 通常约 120 trajectories/hour。

co-training 实验使用每个物体 5 条 robot action trajectories、50 条 task-specific human egocentric trajectories、10k task-irrelevant human egocentric videos。对 action-free samples,省略 action loss,只优化 alignment loss。

Ego data results
Figure 6:human egocentric data without action labels。大规模 Ego(web) 对 novel objects 提供强 inductive prior,Ego(task) 改善 spatial generalization,两者合用效果最好。

6. 复现审计

6.1 关键训练配置

项目配置
Base modelofficial RDT-1B pretrained weights;小模型验证为 RDT-130M。
Simulation dataRoboTwin Easy setting,每个任务 50 task-specific trajectories。
Training budget2 NVIDIA H100 GPUs;20,000 steps;batch size 32。
FRAPPE schedule15,000 mid-training steps + 5,000 post-training steps。
Post-training trainable paramsfuture prefixes + LoRA + router/action aggregation 相关轻量模块;共享 RDT backbone frozen。
Teacher encodersMid-training: 86M Theia-style distilled encoder;Post-training: CLIP 400M, DINOv2 142M, ViT 300M。
EvaluationRoboTwin 每项 100 trials;真实 basic tasks 每项 40 trials;真实 long-horizon 每项 20 trials。

6.2 附录超参消融

$\lambda_1$00.0010.020.050.10.5
SR14.0%18.5%26.4%32.5%22.0%23.5%
Alignment depth7142128
SR14.5%18.0%23.5%16.0%
Future horizon $h$81632
SR35.3%35.0%29.7%

附录 A 使用 RDT-1B 28 层 DiT 的第 21 层做 future prefix alignment,约为总深度的 3/4;这与 FLARE 中较深层 alignment 更有效的观察一致。

6.3 Human Egocentric Co-training 细节

附录 B 使用 TASTE-Rob 作为 Ego(web):100,856 video sequences,约 9M frames,并带高质量语言对齐。该阶段训练 1 epoch,在 8 张 H100 上约 96 小时。作者选择 TASTE-Rob 的理由是固定 egocentric viewpoint 与主流 VLA camera setting 更接近,有助于迁移到下游 robot action prediction。

6.4 复现 checklist

论文与资源给得比较充分的信息

充分:代码和模型链接已公开;核心公式、teacher encoders、两阶段训练步数、batch size/GPU、RoboTwin 数据量、真实机器人数据量、超参消融、推理效率表都比较明确。

仍需实操确认:具体 LoRA target modules/rank、future prefix token length $n$、router 架构细节、Theia variant 的具体 checkpoint、RoboTwin task 配置和真实 robot control stack 需要从代码仓库进一步确认。

最小复现路径

  1. 加载 RDT-1B pretrained weights,保持原始 SigLIP/T5 条件化接口和 action decoder。
  2. 在 DiT 输入中加入 future prefix,并在第 21 层取 prefix representation。
  3. 用 Theia-style 86M distilled encoder 的未来 observation embedding 做单流全参数 mid-training,15k steps。
  4. 构建 3 个 Prefix+LoRA expert,分别对齐 CLIP、DINOv2、ViT,冻结 shared backbone,训练 5k steps。
  5. 实现 router 聚合 latent action representation,并加 load balance loss 与 $\epsilon=0.1$ gating smoothing。
  6. 按 $\lambda_1=0.05$、$h=8$、batch size 32、2 H100 训练,并在 RoboTwin Easy/Hard 8 tasks 上用 100 trials/task 评估。

7. 分析、局限与边界

7.1 这篇论文最有价值的地方

从论文自身主张看,FRAPPE 最有价值之处在于把“隐式 world modeling + parallel scaling + 参数高效 finetuning”组合成一个明确 recipe。它不是简单地加一个未来表示 loss,而是用 mid-training 先解决目标分布突变,再用 MiPA 并行吸收多个 VFM teacher 的 future representations。训练范式表说明,如果直接跳过 mid-training 或只用 prefix post-training,性能会明显下降。

7.2 结果为什么站得住

证据链较完整:RoboTwin 表格覆盖 8 个任务、Easy/Hard 两种设置和多个 SOTA baseline;训练范式消融直接比较 mid/post/full/LoRA/prefix 的组合;效率表显示并行扩展没有导致不可接受延迟;RDT-130M 实验说明方法不只适用于大模型;真实双臂任务和 human egocentric co-training 进一步支撑数据效率与泛化主张。

7.3 作者显式或间接呈现的局限

7.4 适用边界

FRAPPE 适合已有 pretrained diffusion/VLA backbone、希望用少量机器人数据和大量无动作视频提升泛化的场景,尤其是双臂 manipulation、视觉扰动、物体变化和小数据 fine-tuning。它较不适合需要显式可视化未来轨迹供人审查的系统,因为它学习的是 latent future representation,而不是生成未来图像。

另一个边界是 teacher 表示选择。FRAPPE 的核心收益来自多 VFM 对齐;若任务领域与 CLIP/DINOv2/ViT 的视觉语义覆盖差异很大,teacher selection 和 mid-training teacher distillation 可能成为关键瓶颈。