中文 EN

LDA-1B: Scaling Latent Dynamics Action Model via Universal Embodied Data Ingestion

arXiv:2602.12215 中文精读报告 - 面向 junior PhD 组会准备

Jiangran Lyu, Kai Liu, Xuheng Zhang et al. Peking University / Galbot / CASIA / BAAI / Tsinghua / Sun Yat-sen / NVIDIA Robot Foundation Model Latent Dynamics + Diffusion Transformer EI-30K, 30k+ hours

1. 论文速览

这篇论文的核心主张是:机器人基础模型不应该只把大规模数据当作行为克隆样本,而应该把不同质量、不同模态、甚至没有动作标注的具身数据,按其可提供的监督信号分配给 policy、forward dynamics、inverse dynamics 和 visual forecasting。LDA-1B 用 DINO latent 预测未来视觉状态,并用 MM-DiT 统一建模动作和视觉 latent,从而让 30k+ 小时混合数据真正参与训练。

论文要解决什么现有 robot foundation model 主要扩展 behavior cloning,通常只吃高质量机器人示教;大量低质量轨迹、人类视频、无动作视频要么被过滤掉,要么只被粗糙使用。作者想解决“异构具身数据如何被规模化利用”的问题。
作者的方法抓手提出 LDA-1B:用 Universal Embodied Data Ingestion 给不同数据分配不同训练目标;用 DINOv3 latent 作为未来视觉预测目标;用 multi-modal diffusion transformer 在动作 token 与视觉 token 间共享注意力但保留模态专家;构建 EI-30K 数据集。
最重要的结果RoboCasa-GR1 平均成功率 55.4%,高于 GR00T-N1.6 的 47.6% 和 GR00T-EI10k 的 51.3%;真实机器人中 contact-rich、dexterous、long-horizon 场景有明显增益;低质量轨迹加入后 LDA 提升 10%,而 $\pi_{0.5}$ 下降。
阅读时要注意的点“1B”不是唯一关键,关键是 DINO latent + 数据角色分工 + 四任务联合训练。实验中许多提升来自数据、latent 表征、架构三者耦合,不能只归因于参数量。
30k+
小时 EI-30K 异构具身数据
55.4%
RoboCasa-GR1 平均成功率
+10%
混合质量数据微调收益
LDA-1B teaser
论文主图:LDA-1B 把 policy、dynamics、visual forecasting 统一到结构化 DINO latent 空间,并让不同数据源承担互补角色。

2. 问题背景

2.1 为什么“只做 BC 扩展”不够

现有机器人基础模型大多把训练目标压成一个形式:给定当前观察和语言,预测下一段动作。这个范式在高质量机器人示教充足时很直接,但有三个瓶颈。

  • 数据浪费:低质量轨迹、探索轨迹、失败重试、人类视频和无动作视频不适合直接 BC,却包含环境 dynamics、物体 affordance、接触后果等信息。
  • 目标错配:BC 惩罚“动作不像专家”,但不显式要求模型理解动作会怎样改变世界状态。接触丰富、长时序任务尤其容易累积错误。
  • 表征过载:如果用 pixel 或 VAE latent 预测未来图像,模型会被纹理、光照、背景等 appearance 细节拖住,难以把容量用于可控动力学。

2.2 LDA 的基本假设

LDA 的隐含假设可以概括为:异构数据并不是统一质量的 BC 数据,而是一组带有不同监督价值的 dynamics 数据。高质量机器人/人类示教可以训练 policy 和 dynamics;低质量动作轨迹虽然不适合 imitation,却仍可训练 forward/inverse dynamics;无动作视频至少可以训练视觉时间演化和物体状态变化。

组会里可以这样说:LDA 不是简单把数据“越多越好”地堆起来,而是把数据按可监督的条件分布拆开使用。它试图回答的是:当动作标注质量不均、机器人 embodiment 不同、甚至没有动作时,哪些任务还能从这些数据中学到东西?

4. 方法详解

LDA architecture
LDA 架构:动作块和未来 DINO latent 被联合去噪;VLM token、diffusion timestep、task embedding 作为条件;动作与视觉模态有各自专家层,并在共享 self-attention 中交互。

4.1 从 Unified World Model 到 LDA

论文先把机器人学习写成四类条件分布。设当前观测为 $o_t$,未来动作块为 $a_{t+1:t+k}$,未来观测为 $o_{t+1:t+k}$:

  • Policy: $p(a_{t+1:t+k}\mid o_t)$,给当前状态预测动作。
  • Forward Dynamics: $p(o_{t+1:t+k}\mid o_t, a_{t+1:t+k})$,给动作预测未来状态。
  • Inverse Dynamics: $p(a_{t+1:t+k}\mid o_{t:t+k})$,给状态变化反推出动作。
  • Visual Planning / Forecasting: $p(o_{t+1:t+k}\mid o_t)$,不依赖动作标签,只预测视觉演化。

UWM 把动作和未来观测都当作扩散变量,噪声预测器可写为:

$$ (\epsilon_a^\theta,\epsilon_o^\theta)=s_\theta(o,a_{t_a},o'_{t_o},t_a,t_{o'}) $$

LDA 在此基础上加入语言指令 $\ell$,并把未来观测从 pixel/VAE latent 换成 DINO latent。

4.2 Universal Embodied Data Ingestion

这一节是论文最核心的训练设计。LDA 不把所有数据都送进同一个 BC loss,而是用任务 specification 和 task embedding 决定激活哪些监督项。

数据类型能提供什么监督不能硬做什么LDA 中的使用方式
高质量机器人/人类示教动作决策、动作导致的状态转移、视觉未来-policy、forward dynamics、inverse dynamics、visual forecasting 都可用
低质量/非专家轨迹真实接触、失败恢复、环境转移、物体响应不适合直接当 expert action 模仿主要训练 dynamics 与 visual forecasting;有条件地参与 policy 后训练
无动作第一视角视频物体状态变化、视觉时间结构、可供性先验无法监督动作预测或 inverse dynamics用于 visual forecasting,补充 10k 小时视觉经验

模型使用四个可学习 task embedding 表示当前任务:policy、forward dynamics、inverse dynamics、visual forecasting。缺失模态用两个 register token 作为占位,一个对应动作,一个对应视觉状态。这一点很重要:它让同一个 transformer 在不同条件缺失模式下仍看到结构一致的 token 序列。

4.3 Flow Matching 目标

论文用 flow-matching 形式训练动作与观测 latent 的速度场。动作目标与视觉目标分别为:

$$ \mathcal{L}_{action}= \mathbb{E}\left\|v_a^\theta-(\epsilon_a-a_{t+1:t+k})\right\|_2^2 $$

$$ \mathcal{L}_{obs}= \mathbb{E}\left\|v_o^\theta-(\epsilon_o-o_{t+1:t+k})\right\|_2^2 $$

总损失是 $\mathcal{L}=\mathcal{L}_{action}+\mathcal{L}_{obs}$,但实际训练时会根据任务 specification 选择性打开 action loss 或 observation loss。比如无动作视频没有 action supervision,只激活视觉预测;低质量轨迹可更多用于 dynamics,而不是强行把动作当专家示教。

4.4 为什么预测 DINO latent 而不是像素

这篇论文最关键的工程判断之一是:未来视觉状态不以 RGB 或 VAE latent 为目标,而以 DINOv3-ViT-s 的 latent feature 为目标。DINO latent 的优势是保留对象语义、空间结构和可供性,同时弱化纹理、光照、背景等控制无关因素。

如果组会有人问“DINO 不是静态图像 encoder,为什么适合 dynamics?”可以回答:作者并不是让 DINO 自己建模时间,而是把 DINO 作为结构化状态空间;时间演化由 LDA 的 MM-DiT 学。DINO 的作用是减少未来预测中的外观重建负担,让 dynamics 学习聚焦于对象和接触相关 latent。
DINO feature prediction
附录 DINO 预测可视化:左为 RGB,中为真实 DINO feature,右为模型预测的 DINO feature。它说明 LDA 预测的是语义结构化的未来状态,而不是逐像素重建。

4.5 动作空间与时间频率

LDA 使用 hand-centric action space 来统一机器人和人类数据。动作包括 delta wrist pose 和手指配置。平行夹爪用单自由度 gripper width;灵巧手用 wrist 坐标系下的 keypoints 或关节配置。视觉观测按 3 Hz 采样,动作按 10 Hz 采样,action chunk 长度为 16。

Unified end effector coordinates
不同机器人和人类手的末端坐标系被手工对齐到共享表示。这个细节支撑了跨 embodiment 的联合训练。

4.6 MM-DiT 架构

MM-DiT 接收动作 token、视觉 latent token、当前观测、语言指令、diffusion timestep 和 task embedding。论文强调两点:

  • 共享注意力:动作和视觉 token 在 self-attention 中交互,使模型能学习“动作导致哪些视觉区域变化”。
  • 模态专家:动作与视觉模态保留各自的 QKV projection、FFN 和 output head,避免把数值结构完全不同的 token 压成同一套线性变换。

VLM 使用 Qwen3-VL 作为语言和视觉条件 encoder;附录说明预训练阶段冻结 VLM 与 DINO encoder,主要训练 MM-DiT 和动作 encoder/decoder。微调阶段 VLM 会被解冻以做端到端适配。MM-DiT 还条件化一个两步历史窗口,包括过去 DINO 观测和动作,用于捕捉短时 dynamics。

配置项数值
VLMQwen3-VL
Observation EncoderDINOv3-ViT-s
Hidden Size / Layers / Heads1536 / 16 / 32
Image / Latent Image Shape$(224,224,3)$ / $(14,14,384)$
Action Chunk16
Batch Sizepretraining: $32\times48$;finetuning: $12\times8$
OptimizerAdamW, lr $10^{-4}$, weight decay $10^{-5}$, betas [0.9, 0.95], eps $10^{-8}$
Schedulecosine, minimum lr $5\times10^{-7}$
Pretraining Cost48 NVIDIA H800 GPUs, 400k iterations, 4,608 GPU hours

5. 数据与预处理

EI-30K 是论文方法成立的重要支点。它不是单一机器人数据集,而是把真实机器人、仿真机器人、带动作人类第一视角数据、无动作人类第一视角视频统一起来。

EI-30K dataset statistics
EI-30K 统计图:覆盖超过 30k 小时的人类与机器人交互数据,包含不同 episode 长度和丰富 manipulation 任务。
类别小时数主要数据源角色
Real-world Robot8.03k hOpen X-Embodiment 3000h, Agibot World 3276h, RoboMIND 305h, Humanoid Everyday 30h, RoboCOIN 500h, Galaxea 500h, LET 1000h真实机器人动作、接触、失败与恢复模式
Simulated Robot8.6k hInternData-A1 7433h, Behavior-1k 1200h高密度、噪声低的动作监督和长时序任务结构
Ego Human with Action7.2k hEgo4D, EPIC-KITCHENS, Ego-Exo4D, SSV2, EgoDex, HOT3D, HoloAssist, OAKINK2, TACO, HOI4D, ARCTIC人类意图、手部动作、细粒度 dexterity 先验
Ego Human Actionless10k hEgocentric-10k, RH20T-human, EgoMe, Taste-Rob视觉 affordance、时间结构、无动作 visual forecasting

5.1 标准化 pipeline

附录给出了更细的数据处理流程,可拆成三层。

  1. 格式标准化:所有原始数据转换为 LeRobot 2.1 风格格式,包含 end-effector poses、hand articulation、camera intrinsic/extrinsic、task metadata、episode boundary 和 timestamps。所有序列统一重采样到 10 Hz。
  2. 坐标对齐与清洗:为每个数据集定义 canonical EEF frame,用 rigid offset 统一腕部或夹爪中心;对移动相机序列进行 camera motion decoupling;将人手转换为 21-point MANO 表示;丢弃遮挡、截断或运动学无效帧。
  3. 训练后处理:VLM 统一语言标注,补全缺失描述;移除没有有效 hand-object interaction 的片段;保留但标注低质量轨迹;按 human/robot、task、quality 组织 metadata。
可复现关键:论文不是只说“收集了 30k 小时数据”,而是强调 action frame、camera frame、language instruction 和 quality label 的统一。没有这些对齐,Universal Data Ingestion 很难稳定工作。

6. 实验复现要点

6.1 RoboCasa-GR1 仿真实验

RoboCasa-GR1 包含 24 个 tabletop rearrangement 和 articulated-object manipulation 任务,使用 GR-1 humanoid robot 与 Fourier dexterous hands。输入是头戴相机的 egocentric RGB。所有模型按 GR00T 协议每任务微调 1,000 条轨迹,每任务评估 51 次,报告平均成功率。

模型状态表征MM-DiTVLM成功率
GR00T-N1.6---47.6
StarVLA--Qwen3-VL47.8
GR00T-EI10k--Qwen3-VL51.3
UWM-0.1BVAENoNo14.2
UWM-1BVAENoQwen3-VL19.3
UWM + MM-DiTVAEYesQwen3-VL20.0
LDA (DiT)DINONoQwen3-VL48.9
LDA-0.5BDINOYesQwen3-VL50.7
LDA-1BDINOYesQwen3-VL55.4

这个表最值得讲的不是“LDA 比 GR00T 高 7.8 个点”,而是消融逻辑:UWM 从 0.1B 扩到 1B、换 MM-DiT,都仍停在 20 左右;一旦换成 DINO latent,成功率跳到 55.4。这强烈支持作者关于结构化 latent state 的论点。

RoboCasa qualitative comparison
RoboCasa 质性对比:GR00T 的失败包括 grasp slippage、放置不准、操作中碰撞;LDA 更能预测动作后的物体状态,从而避免后续轨迹破坏已完成子目标。

6.2 真实机器人实验

真实实验覆盖 Galbot G1 和 Unitree G1。Galbot G1 使用双 7-DoF 手臂,可安装两指夹爪或 22-DoF SharpaWave 灵巧手;Unitree G1 使用 10-DoF BrainCo hand。所有配置只用头戴相机 egocentric RGB。

Real robot setup
真实机器人平台:Galbot G1 两指夹爪、Galbot G1 + SharpaWave 22-DoF 灵巧手、Unitree G1 + BrainCo 10-DoF 手。
任务类别代表任务为什么难
Pick and PlacePick Vegetable, Handover新机器人 embodiment 的少样本适配、物体位置随机
Contact-richFlip Box, Beat Block接触力、碰撞、物体翻转后状态变化
Fine ManipulationWater Flower, Wipe Board连续闭环控制、姿态精度、工具接触
Long-horizonSweep Table, Clean/Throw Rubbish多阶段流程,早期误差会累积到后续子任务
DexterousPull Nail, Flip Bread高维手指控制、稳定接触、工具使用和力方向

每个任务收集 100 条 teleoperation 轨迹,不强制全为专家演示;大约 50-80% 是专家行为,其余包含暂停、重试、低效动作。基线 $\pi_{0.5}$ 和 GR00T 只用过滤出的专家子集微调;LDA 用全部轨迹,通过 Universal Embodied Data Ingestion 吸收低质量数据的 dynamics 信息。

Galbot real-world task success
Galbot 真实两指夹爪任务结果:LDA 在 Pick & Place、Contact-rich、Fine、Long-horizon 四类任务中整体领先。Clean Rubbish 中 LDA 为 35%,两个基线为 0%。
Dexterous manipulation results
真实灵巧手任务结果:Pull Nail 中 LDA 达到 80%,Flip Bread 中 LDA 达到 90%,显著高于 $\pi_{0.5}$ 和 GR00T-N1.6。

6.3 泛化与混合质量微调

模型Novel ObjectUnseen BackgroundOOD Position
$\pi_{0.5}$26.720.06.7
GR00T40.040.020.0
LDA-1B60.060.040.0
任务模型High onlyHigh + Low变化
Place pen into box$\pi_{0.5}$6040-20
Place pen into boxLDA7080+10
Bimanually remove lid$\pi_{0.5}$5040-10
Bimanually remove lidLDA5060+10

这个实验直接验证了论文最中心的 claim:低质量数据对普通 BC 基线有害,但对 LDA 可以有益,因为 LDA 不把这些轨迹等价当作专家动作,而是从中学习 dynamics 和视觉状态转移。

6.4 Scaling 分析

作者在 held-out Agibot World 上用 action prediction L1 error 作为可复现 proxy,比较模型容量、数据规模和训练目标。训练配置包括 Policy Only、Policy + Visual Forecasting、Policy with Forward/Inverse Dynamics,以及 full co-training。

Scaling analysis
Scaling 分析:完整 co-training 随数据从 5k 到 30k 小时扩展持续降低 action prediction error;action-labeled 数据用尽后,继续加入 10k 无动作视频仍带来收益。

7. 结果分析与讨论

7.1 这篇论文最有价值的地方

最有价值的不是单个 benchmark 数字,而是提出了一个比较清晰的数据利用范式:把异构具身数据拆成可监督的条件分布,而不是统一塞进 BC。这个范式对机器人学习很实际,因为真实数据永远不是干净的 expert-only demo。人类视频、失败轨迹、半成功轨迹、低质量 teleop、仿真数据各自都“不完美”,但它们可以分别服务于 dynamics、visual forecasting 或 policy。

第二个价值是把未来视觉预测从像素空间转移到 DINO latent。很多 robot world model 之所以不稳定,是因为预测目标太像视频生成任务;LDA 则把未来状态表征为更接近控制相关语义的 latent,从而让 dynamics 学习更有针对性。

7.2 结果为什么站得住

论文的证据链比较完整,原因有三点。

  • 消融能隔离关键组件:UWM 扩大到 1B 或加入 MM-DiT 后仍只有 19.3/20.0,而 DINO latent LDA 达 55.4,说明表征空间是主要因素之一;去掉 MM-DiT 从 55.4 降到 48.9,说明架构也有贡献。
  • 数据角色 claim 有直接实验:混合质量微调里,加入低质量数据使 $\pi_{0.5}$ 下降而使 LDA 上升,正好对应 Universal Data Ingestion 的核心论点。
  • 真实机器人任务覆盖多种失败模式:从简单 pick-and-place 到 long-horizon rubbish cleaning、pull nail、flip bread,任务难点不只是视觉识别,而是接触、工具、力方向、时序误差恢复。

7.3 Dynamics 学到了什么

论文用两类可视化支持“模型真的在学动作条件化状态转移”。第一类是 DINO latent forward dynamics 的 PCA 可视化,显示预测未来特征能保持 object permanence、contact continuity 和 motion consistency。第二类是 action-conditioned attention:对同一观察,比较 active action 与 No-Op 条件下的 attention,取差值 $\Delta A = |A_1-A_2|$,从而消除静态视觉显著性,突出动作引起的因果相关区域。

Latent forward dynamics
latent forward dynamics 可视化:模型预测的未来 DINO 特征与 ground truth 在对象结构和运动趋势上对齐。
Action conditioned attention
action-conditioned attention:Push Right 时注意 mug 的 leading edge 和运动方向;Push Close 时集中在接触表面,背景 clutter 被抑制。

7.4 局限与风险

固定 DINO 表征的上限:DINO 是通用视觉表征,不一定为机器人接触、力学、可操作性最优。作者也承认未来需要联合学习 visual representation 和 latent dynamics。

视角偏置:数据和实验主要是 egocentric camera,迁移到外部多视角、触觉、力觉或事件相机等多模态设置仍未充分验证。

数据工程门槛高:EI-30K 的坐标对齐、语言标准化、质量标注和清洗是巨大工程。若这些过程不可复现或不开源不足,方法的“普适”会打折。

action prediction L1 只是 proxy:scaling 曲线很有说服力,但最终仍需更多真实部署任务验证 proxy 与实际成功率的相关性。

8. 组会追问清单

Q1: LDA 和普通 diffusion policy 的本质区别是什么?

普通 diffusion policy 主要去噪动作;LDA 同时去噪动作和未来 DINO latent,并通过 task embedding 切换 policy、forward dynamics、inverse dynamics、visual forecasting。因此它不仅学“该怎么做”,还学“做了之后世界怎样变”。

Q2: 为什么低质量数据对 LDA 有用,对 $\pi_{0.5}$ 有害?

如果直接 BC,低质量动作会污染 policy target;LDA 可以把低质量轨迹更多用于 dynamics 或视觉预测,让模型学习接触、状态转移、失败恢复等非专家但真实的环境信息。微调实验中 LDA +10%,$\pi_{0.5}$ 下降,正是这个机制的证据。

Q3: DINO latent 会不会丢掉机器人控制需要的细粒度几何?

这是合理担忧。作者的实验证据表明 DINO latent 比 VAE/pixel-space UWM 更适合当前任务,尤其 RoboCasa 从 20.0 到 55.4 的差距很大。但 DINO 是否足够表达精细接触、力觉和不可见状态仍是限制,论文结论也提出未来要 joint representation learning。

Q4: 1B 参数为什么能比 3B GR00T 更好?

论文的解释不是“参数更多”,而是“训练目标和状态空间更对”。LDA 用 1B 参数同时学习动作和 latent dynamics;GR00T-N1.6 虽为强基线,但主要还是 policy-centric。RoboCasa 里 LDA-1B 55.4,高于 3B GR00T-N1.6 的 47.6。

Q5: 如果我想复现,最难的部分在哪里?

模型结构不是唯一难点。更难的是 EI-30K 风格的数据统一:action frame 对齐、camera frame 解耦、MANO/robot gripper 表示统一、语言重标注、质量标签,以及不同任务 loss 的正确激活。

9. 复现信息

9.1 资源链接

9.2 训练设置速记

VLM: Qwen3-VL
Observation encoder: DINOv3-ViT-s
MM-DiT: hidden 1536, layers 16, heads 32
Image: 224x224x3
DINO latent: 14x14x384
Action chunk: 16
Pretraining batch: 32 * 48
Finetuning batch: 12 * 8
Optimizer: AdamW, lr 1e-4, wd 1e-5, betas [0.9, 0.95]
Schedule: cosine, min lr 5e-7
Compute: 48 H800 GPUs, 400k iterations, 4,608 GPU hours

9.3 本报告的覆盖检查

本报告已覆盖 Abstract、Introduction、Related Work、Latent Dynamics Action Model、EI-30K、Experiments、Conclusion,以及附录中的模型超参、RoboCasa 逐任务结果、真实机器人任务协议、EI-30K 数据处理 pipeline、action-conditioned attention 和 latent dynamics 可视化。附录内容已按主题整合进方法、数据、实验和讨论章节。

生成日期:2026-05-08。源码、PDF 和解压目录已保留,便于后续补读或核查。