Latent Action Pretraining From Videos

arXiv: 2410.11758v2

发表: ICLR 2025 conference paper

作者: Seonghyeon Ye, Joel Jang, Byeongguk Jeon, Sejune Joo, Jianwei Yang, Baolin Peng, Ajay Mandlekar, Reuben Tan, Yu-Wei Chao, Yuchen Lin, Lars Liden, Kimin Lee, Jianfeng Gao, Luke Zettlemoyer, Dieter Fox, Minjoon Seo

机构: KAIST, University of Washington, Microsoft Research, NVIDIA, Allen Institute for AI

项目页: latentactionpretraining.github.io

报告定位: 面向 junior PhD 组会准备的中文精读报告，覆盖正文、附录 A-G、主要表格和图像。

1. 论文速览

这篇论文提出 Latent Action Pretraining, LAPA：先从没有机器人动作标签的视频中学习离散 latent action，再训练 VLA 预测这些 latent action，最后用少量真实机器人动作数据把 latent action 映射到可执行动作。它的核心目标是让机器人基础模型能利用互联网级视频，而不被昂贵的人工遥操作动作标签卡住。

论文要解决什么	现有 VLA 预训练通常依赖机器人动作标签，这些标签需要真人遥操作采集，规模化困难。互联网视频和人类操作视频规模巨大，但没有机器人 action labels，且和机器人 embodiment / environment 分布不同。论文要解决的是：如何不用 ground-truth robot action labels，也能从视频中学习对机器人策略有用的动作先验。
作者的方法抓手	抓手是把动作“tokenize”。第一阶段训练 VQ-VAE 风格的 latent action quantization model，从当前帧 $x_t$ 和未来帧 $x_{t+H}$ 学离散 latent action $z_t$。第二阶段用这些 $z_t$ 作为伪标签，让 VLM 依据当前观察和语言指令预测 latent action。第三阶段只用小规模 action-labeled robot trajectories 做 action finetuning，把 latent action 迁移到真实 7-DoF end-effector delta action。
最重要的结果	在真实桌面操作中，LAPA(Open-X) 总成功率 50.09%，高于 OpenVLA(Open-X) 的 43.87%，论文总结为相对 OpenVLA 提升 +6.22%；同时 LAPA 预训练仅用 8×H100 训练 34 小时，约 272 H100-hours，而 OpenVLA 约 21,500 A100-hours。LAPA 还显示出只用 Something-Something V2 人类操作视频预训练也能正迁移，在真实机器人平均表现超过 OpenVLA(Bridge)。
阅读时要注意的点	重点不是“用视频预训练 VLA”本身，而是 latent action 是否真正成为跨 embodiment、跨环境的共享动作表示。阅读时要盯住三件事：量化模型学到的 token 是否语义可解释；latent pretraining 是否比 VPT/UniPi 这类无动作标签 baseline 更稳；最后少量 action finetuning 是否足以补齐从 latent action 到真实机器人动作的落差，尤其是细粒度 grasping。

Problem formulation — Figure 1. 问题设定：大型机器人数据有动作标签但昂贵，互联网/人类视频规模大但没有机器人动作标签且存在 human-to-robot gap。LAPA 的目标是在无 action label 视频上预训练机器人基础模型。

一句话贡献

LAPA 用离散 latent action 把无动作标签视频变成可训练 VLA 的动作伪标签，从而把互联网/人类视频接入机器人策略预训练。

关键词

Vision-Language-Action Latent Action VQ-VAE Actionless Video Pretraining Cross-Embodiment Transfer

2. 研究问题与动机

2.1 为什么 action labels 是 VLA 的瓶颈

VLA 模型通常把 VLM 与 action head 连接起来，并在真实机器人轨迹上训练。问题是机器人动作标签来自遥操作，采集成本高、硬件依赖强、数据规模有限。OpenVLA 这类模型已经证明 action-labeled robot data 有价值，但它们仍受限于“必须有机器人动作”的数据来源。

相比之下，互联网视频和人类操作视频包含大量物理交互和任务行为。它们没有机器人 end-effector action、joint position 或 torque 标签，且 embodiment 与机器人不同。LAPA 的基本判断是：如果能从纯视觉变化中学出离散动作 token，就可以把这些视频变成 VLA 预训练数据。

2.2 为什么不是直接做 world model 或 IDM

视频 world model 路线可以生成未来帧，再用 inverse dynamics model 转动作，但论文认为这种方法在长 horizon 和精确 7-DoF 动作上容易受扩散规划和 IDM 误差影响。VPT 路线依赖 action-labeled 数据训练 IDM，再给视频打伪标签；这在跨环境时 IDM 不稳。LAPA 的区别是 latent action quantization 不需要真实动作标签，直接从两个视觉状态间的变化学习离散动作表示。

2.3 论文的核心假设

核心假设是：不同 embodiment 和环境中的可见状态变化，可以通过一个共享 latent action space 表达。这个空间不一定等价于真实机器人动作，但足够承载“向左、向下、靠近、抓取相关视觉变化”等粗粒度行为先验。后续少量 labeled robot data 再把这种先验对齐到具体机器人的动作空间。

4. 方法详解

4.1 总体流程

Latent Action Pretraining 包含两个顺序学习的模型和一个微调阶段：

Latent Action Quantization。训练一个 encoder-decoder，用 $x_t$ 和 $x_{t+H}$ 学离散 latent action $z_t$。
Latent Pretraining。用量化模型 encoder 给无动作标签视频打 latent action 伪标签，训练 VLM 从当前图像和语言指令预测 $z_t$。
Action Finetuning。丢掉 latent action head，换成真实动作 head，用少量 robot action labels 学到可执行的 end-effector delta action。

Overview of Latent Action Pretraining — Figure 2. LAPA 总览：先无监督学习离散 latent actions，再让 VLM 做 latent action behavior cloning，最后用小规模带动作标签数据微调到真实机器人动作空间。

4.2 Latent Action Quantization

量化模型输入当前帧 $x_t$ 和未来帧 $x_{t+H}$，输出 latent action $z_t$。Encoder 同时看两帧，用 spatial transformer 和 temporal/causal transformer 得到连续 embedding；Decoder 输入 $x_t$ 和 $z_t$，重建 $x_{t+H}$。直觉上，$z_t$ 被迫编码从当前观察到未来观察的“动作变化”。

论文基于 VQ-VAE objective，把连续差分 embedding 离散化到 codebook。附录 A 给出更具体的形式：两帧 patch embedding 后经 spatial transformer，再经 causal transformer 得到 $e_1,e_2$，令 $d_1=e_2-e_1$，并选最近 codebook token：

$$z_1=\arg\min_{z_k}\|d_1-z_k\|_2$$

为避免 VQ-VAE 中常见的 codebook / representation collapse，作者采用 NSVQ，并在 decoder 中对当前帧 patch embedding $p_1$ 施加 stop gradient。Decoder 使用 cross attention，让量化后的动作表示 attend 当前帧：

$$\hat{x}_2=D(\mathrm{Attn}(\mathrm{sg}[p_1],\tilde{d}_1,\tilde{d}_1)),\qquad L=\|x_2-\hat{x}_2\|_2^2$$

论文还说明，与 GENIE 式 additive embedding 相比，使用 cross attention empirically 更容易捕获语义上有意义的 latent actions。

Latent action quantization architecture — Figure 8. 附录 A 的 latent action quantization model 架构：C-ViViT 风格 encoder-decoder，从两帧中抽取离散 latent action，并通过 decoder 重建未来帧。

4.3 Latent Pretraining

训练好量化模型后，用其 encoder 作为 inverse dynamics model：给定 $x_t$ 和未来帧，标出 latent action $z_t$。然后训练预训练 VLM，输入当前图像 $x_t$ 和视频语言指令，预测 $z_t$。这里使用单独的 latent action head，一个 MLP，输出 codebook vocabulary $|C|$ 上的 token 分布。

默认训练设置中，vision encoder 冻结，language model 解冻。这个设计让预训练不依赖任何机器人动作标签，也不需要预设动作粒度，如 end-effector position、joint position 或 torque；动作粒度由观察变化本身决定。

4.4 Action Finetuning

latent action 不是可直接执行的机器人动作，所以最后需要少量 labeled trajectories。作者把连续机器人动作的每个维度按等频 bin 离散化，做类似 RT-2/OpenVLA 的 action token prediction。微调时丢掉 latent action head，重新初始化真实 action head；vision encoder 仍冻结，language model 解冻。

作者还尝试过保留 latent action head 再加额外 head 解码到真实动作，但效果不如重新初始化 action head。论文推测原因可能是底层 policy model 很大，直接微调新 action head 更容易适配真实机器人动作空间。

5. 实验与结果

5.1 实验设置

论文在 2 个仿真环境和 3 个真实机器人任务上评估，共覆盖 9 类任务。核心问题包括：跨任务、跨环境、跨 embodiment 是否正迁移；LAPA 是否能比 ground-truth action pretraining 更适合多 embodiment；仅用 human manipulation videos 是否也有效。

环境	类别	预训练数据	预训练轨迹	微调数据	微调轨迹
LangTable	In-domain	Sim 5 tasks	181k	5 tasks, MT/MI	1k
LangTable	Cross-task	Sim 5 tasks	181k	1 task, MI	7k
LangTable	Cross-env	Real 5 tasks	442k	5 tasks, MT/MI	1k
SIMPLER	In-domain	Bridgev2	60k	4 tasks, MT	100
SIMPLER	Cross-emb	Something v2	200k	4 tasks, MT	100
Real-world	Cross-emb	Bridgev2	60k	3 tasks, MI	450
Real-world	Multi-emb	Open-X	970k	3 tasks, MI	450
Real-world	Cross-emb	Something v2	200k	3 tasks, MI	450

Figure 9(a). Language Table setup：2-DoF 推块仿真，评估 seen/unseen object 和组合。

Figure 9(b). SIMPLER setup：7-DoF WidowX 仿真任务，作者额外筛选 100 条成功轨迹用于微调。

Real-world setup — Figure 9(c). 真实桌面操作 setup：Franka Emika Panda，三类多指令任务，每个模型总计 54 次真实机器人 rollout。

5.2 Baselines

底层 VLM 使用 7B Large World Model (LWM-Chat-1M)。主要 baseline 包括：SCRATCH，只在下游任务微调；UNIPI，用视频扩散模型生成 video rollouts，再用 IDM 转动作；VPT，用 action-labeled 数据训练 IDM，再给原始视频打 pseudo actions；ACTIONVLA，用 ground-truth robot action labels 预训练，可视作有标签上界；OpenVLA，现有 7B VLA baseline。

[附录 C] UNIPI diffusion model 用 batch 128 训练，推理时每执行两步重新规划；VPT 的 IDM 是 ResNet18 + MLP，用 Adam、学习率 $10^{-4}$ 在单张 A6000 上训练；OpenVLA fine-tuning 默认 LoRA，batch size 32，直到 action accuracy 达到 95%。ACTIONVLA 和 LAPA 使用 batch size 128，并在真实机器人微调时使用 image augmentation。

5.3 Language Table 结果

方法	In-domain Seen	In-domain Unseen	Cross-task Seen	Cross-task Unseen	Cross-env Seen	Cross-env Unseen
SCRATCH	15.6 ± 9.2	15.2 ± 8.3	27.2 ± 13.6	22.4 ± 11.0	15.6 ± 9.2	15.2 ± 8.3
UNIPI	22.0 ± 12.5	13.2 ± 7.7	20.8 ± 12.0	16.0 ± 9.1	13.6 ± 8.6	12.0 ± 7.5
VPT	44.0 ± 7.5	32.8 ± 4.6	72.0 ± 6.8	60.8 ± 6.6	18.0 ± 7.7	18.4 ± 9.7
LAPA	62.0 ± 8.7	49.6 ± 9.5	73.2 ± 6.8	54.8 ± 9.1	33.6 ± 12.7	29.6 ± 12.0
ACTIONVLA	77.0 ± 3.5	58.8 ± 6.6	77.0 ± 3.5	58.8 ± 6.6	64.8 ± 5.2	54.0 ± 7.0

这个表的读法：LAPA 不用 action labels 预训练，但大幅超过 SCRATCH、UNIPI 和 VPT。在 in-domain 和 cross-env 中优势明显；cross-task unseen 中 VPT 稍高，作者解释 VPT 使用更多 labeled data 训练 IDM，伪标签可能更准。ACTIONVLA 用真实动作标签预训练，所以仍是强上界，尤其 cross-env。

5.4 真实机器人结果

Real-world tabletop manipulation results — Figure 3. 真实桌面操作平均成功率。任务覆盖 unseen object combinations、unseen objects 和 unseen instructions，共 54 rollouts/model。

方法	Seen Obj. Unseen Combo	Unseen Obj.	Seen Obj. Unseen Instr.	AVG
SCRATCH	18.0	20.3	25.4	21.2
ACTIONVLA (Bridge)	38.3	31.8	27.7	32.6
OPENVLA (Bridge)	35.6	34.6	22.1	30.8
LAPA (Bridge)	43.4	31.4	35.6	36.8
OPENVLA (Open-X)	46.2	42.1	43.4	43.9
LAPA (Open-X)	57.8	43.9	48.5	50.1
LAPA (Human Videos)	36.5	37.4	28.1	34.0

最关键的比较是 LAPA(Open-X) vs OpenVLA(Open-X)：LAPA 在三类泛化设置上都更高，AVG 50.1 vs 43.9。附录 G.3 的总表给出的 total success rate 更精确为 50.09% vs 43.87%。作者还指出在 pick-and-place 中 LAPA 不如 OpenVLA，主要失败来自 early grasping；但 LAPA 的 reaching success 高于 OpenVLA，说明它的语言条件和粗粒度规划更强，细粒度 grasping 仍需改进。

Real-world tabletop examples — Figure 10. 真实桌面操作样例：Knock object down、Cover object with towel、Pick up object and put it in sink，覆盖 seen/unseen objects。

5.5 Human manipulation videos

作者用 Something-Something V2 的 220k 人类操作视频测试极端 embodiment gap。因为人类视频没有机器人动作标签，ACTIONVLA 不可训练；LAPA 仍能从视觉变化中学习 latent actions。

Human video pretraining SIMPLER — Figure 4(a). Human video pretraining 在 SIMPLER 上的结果。LAPA 优于 SCRATCH、UNIPI 和 VPT。

Human video pretraining real robot — Figure 4(b). Human video pretraining 在真实机器人上的结果。LAPA(Human Videos) 平均上超过 OpenVLA(Bridge)。

[附录 G.2] SIMPLER human-video 表格中，Success AVG：VPT 45.8，UNIPI 0.7，LAPA 52.1，LAPA(10%) 50.0；Moving AVG：VPT 66.6，UNIPI 27.1，LAPA 72.9，LAPA(10%) 62.5。这支持“人类视频也能正迁移”的主张，但也说明 10% 数据已经很接近完整数据，后续还需要更系统 scaling law。

5.6 SIMPLER 和效率

[附录 G.2] Bridgev2 pretraining 的 SIMPLER 表格显示，Success AVG：SCRATCH 34.4，UNIPI 1.3，VPT 51.0，LAPA 57.3，ACTIONVLA 63.5，OpenVLA 36.4。LAPA 明显优于无动作标签 baseline，并接近使用全 Bridgev2 action labels 的 ACTIONVLA。

效率方面，LAPA(Open-X) 使用 8 张 H100 训练 34 小时，batch size 128，总计约 272 H100-hours；OpenVLA 需要约 21,500 A100-hours，batch size 2048。作者据此认为 LAPA 预训练效率高约 30-40 倍，同时真实机器人结果仍优于 OpenVLA。

5.7 Scaling 和 latent action 分析

消融显示 LAPA 随模型大小、数据量和 latent action space 增大而改善。论文指出主实验中除了 Language Table 外，LAPA 的 generation space 维持在 $8^4$。对于视觉简单的 Language Table，增加 vocabulary 比增加 sequence length 更有效；对于更复杂操作，sequence length 和 vocab 都可能需要随动作维度扩展。

Model scaling — Figure 5(a). Latent action quantization model size scaling。

Data scaling — Figure 5(b). Bridgev2 数据比例 scaling。

Latent action length — Figure 5(c). Latent action sequence length scaling。

Figure 5(d). Latent action vocabulary scaling。

Latent action semantic analysis — Figure 6. Open-X 多 embodiment 上的 latent action analysis：相同 latent action 在不同 embodiment/environment 中对应相似语义动作，如向下向左或向上。

Closed loop rollout — Figure 7. 闭环 rollout：未经过 action finetuning 的 LAPA 预测 latent actions，再由 quantization model decoder 生成未来帧，展示其作为粗粒度 world model / neural simulator 的潜力。

5.8 附录补充图表

Pairwise win rate without ties — Figure 11(a). LAPA(Open-X) vs OpenVLA(Open-X) pairwise win rate，不计 ties 时 LAPA 胜率 65.4%。

Pairwise win rate with ties — Figure 11(b). 计入 ties 时 LAPA 胜 31.5%，OpenVLA 胜 16.7%，ties 51.9%。

Language Table latent actions — Figure 12. Language Table latent action 语义：0-7 分别对应前左、后左、后右、右移、不动等动作。

Latent action map — Figure 13. latent action 与 ground-truth 2-DoF actions 的聚类关系。

Human video latent actions — Figure 14. Human manipulation videos 中 latent action 不只捕获手部动作，也捕获相机视角移动。

UNIPI failure case — Figure 17. UNIPI 成功/失败案例：短任务可生成正确计划，长 horizon 指令可能生成错误计划。

6. 复现要点

6.1 Latent action quantization

[附录 A] 量化模型使用 C-ViViT 风格架构复现 GENIE 的 latent action model。输入两帧 $x_1,x_2$，经过 patch embedding、spatial transformer、causal transformer 得到 $e_1,e_2$，再对 $d_1=e_2-e_1$ 做 codebook 最近邻量化。decoder 只含 spatial transformer，并用 cross attention 和 stop-gradient 的当前帧 embedding 重建未来帧。

窗口大小 $H$ 按视频 fps 设定：机器人操作视频默认让未来帧约为当前帧后 0.6 秒；human manipulation videos 因帧间动态更慢，设置为约 2.4 秒。附录 F 显示 Bridgev2 上默认 $H=3$，窗口过大性能下降。

6.2 Pretraining / finetuning 配置

Backbone: 7B LWM-Chat-1M。
Latent pretraining: 冻结 vision encoder，解冻 language model，新增 latent action MLP head。
Action finetuning: 丢弃 latent head，重新初始化 action head；连续动作各维按等频 bin 离散化。
LAPA(Open-X) 预训练: 8×H100，34 小时，batch size 128，约 272 H100-hours。
OpenVLA 对比: 约 21,500 A100-hours，batch size 2048。
真实机器人微调: ACTIONVLA 和 LAPA 使用 batch size 128，并使用 image augmentation。

6.3 评估协议

[附录 B] Language Table 每个 subtask category 评估 50 rollouts，5 类任务总计 250 rollouts/model/table。SIMPLER 每个任务评估 24 rollouts，随机化初始物体位置。真实机器人每个任务有 3 类评估能力：seen objects unseen combinations、unseen objects、seen objects unseen instructions；每类 6 rollouts，3 个任务合计 54 rollouts/model。

真实机器人部分使用 partial success：knocking 达到正确物体给 0.5，打倒给 1；covering 拿起毛巾 0.33，接触/部分覆盖 0.66，完全覆盖 1；pick-and-place 到达 0.25，抓取 0.5，移动到 sink 方向 0.75，放入 sink 1。

6.4 复现风险清单

arXiv 源码限制: 这篇本地源码包只有一个 PDF 图源，报告图像主要从 arXiv HTML 渲染图下载；复现图表时建议以 PDF/HTML 交叉核对。
latent action 空间超参: sequence length、vocab size、窗口 $H$ 会影响动作粒度；不同环境最优值不同。
人类视频标注: LAPA 需要视频语言指令或描述；web 视频规模化时，视频文本质量会影响 latent pretraining。
真实机器人方差: 54 rollouts/model 不算大，论文用 pairwise win rate 补充统计，但真实机器人评测仍可能受初始位置、物体属性、grasp 难度影响。
细粒度动作: grasping 是 LAPA 的主要短板，少量 finetuning data 可能不足以学好物体物理属性相关的抓取。

7. 分析、局限与边界

7.1 这篇论文最有价值的地方

最有价值的地方是把“没有动作标签的视频”变成了 VLA 可消费的动作预训练信号。相比只学视觉表征或生成未来视频，LAPA 明确学习离散 latent action token，并把它接到 monolithic VLA 的 action prediction 训练目标上。这使得互联网视频、人类操作视频和多 embodiment 机器人视频都可能进入同一个预训练范式。

第二个价值点是证据链覆盖了跨任务、跨环境、跨 embodiment 和 human-to-robot 场景。论文不仅在 Language Table / SIMPLER 中比较无标签预训练 baseline，还在真实机器人上与 OpenVLA 对比，并分析预训练任务分布与下游任务的关系。这让“latent action 是共享动作空间”这个主张不只停留在方法直觉上。

7.2 结果为什么站得住

结果相对站得住，首先因为 baseline 设计比较有针对性：SCRATCH 衡量没有预训练，UNIPI 衡量视频生成式规划，VPT 衡量 IDM 伪标签，ACTIONVLA 衡量有真实动作标签的上界，OpenVLA 衡量现有 VLA。LAPA 在多个无动作标签 baseline 之上有稳定提升，并在真实机器人 Open-X 设置中超过 OpenVLA。

其次，附录补充了大量分解证据：Language Table 每类任务详细表格、SIMPLER success/grasping/moving 分解、真实机器人三类能力分解、pairwise win rate、latent action 语义可视化和 scaling 消融。这些证据共同说明 LAPA 的提升不是单一表格偶然现象，而是来自可解释的 latent action 表示和数据规模/动作空间扩展。

7.3 论文明确局限

细粒度动作不足: LAPA 在 grasping 等 fine-grained motion generation 上不如 action-labeled pretraining，作者认为扩大 latent action generation space 可能有帮助。
实时推理延迟: 与其他 VLA 类似，LAPA 也有 real-time inference latency 问题。作者建议未来使用 hierarchical architecture，让小 head 高频预测动作。
应用范围尚窄: 虽然 latent action 捕获了 camera movements，但论文还没有探索自动驾驶、导航、景观视频等非 manipulation 视频。

7.4 额外边界与可追问点

latent action 与真实控制不是同构: 它从视觉变化中学习，可能混合相机运动、物体运动和机器人动作；这对人类视频有用，但也可能让真实动作解码更难。
少量 action finetuning 仍不可省: LAPA 降低了对 action labels 的依赖，但并没有完全消除真实机器人动作数据需求。
任务分布很重要: 附录 D 显示 Sthv2 在 knocking/covering 相关轨迹多，Bridgev2 在 pick-and-place 多；预训练数据是否包含相似技能仍强烈影响下游。
世界模型能力仍是定性展示: Figure 7 展示 latent decoder 闭环 rollout，但这还不是严格的可交互物理仿真评测。

8. 组会问答准备

Q1: LAPA 和 VPT 都用伪动作标签，区别是什么？

VPT 先用 action-labeled 数据训练 IDM，再用 IDM 给视频打 pseudo actions；所以 IDM 质量和环境迁移很关键。LAPA 的 latent action quantization 不需要真实动作标签，直接从两个视觉状态间的变化学离散 token，因此更适合 actionless videos 和跨 embodiment 数据。

Q2: latent action 是不是可以直接执行？

不能。latent action 是视觉变化 token，不是 end-effector delta action。LAPA 必须经过 action finetuning，使用少量带真实动作标签轨迹，把预训练先验映射到具体机器人动作空间。

Q3: 为什么 LAPA 可能比 action-labeled pretraining 更适合多 embodiment？

真实动作标签在不同机器人中坐标、关节、控制频率和动作空间都不同，直接混合可能引入 representation mismatch。LAPA 学的是观察变化的 latent token，更像语言/图像表示那样跨数据集共享，因此在 Open-X multi-embodiment 设置中有正迁移。

Q4: 论文中最强的定量证据是什么？

真实机器人总成功率：LAPA(Open-X) 50.09%，OpenVLA(Open-X) 43.87%；同时 LAPA 预训练约 272 H100-hours，OpenVLA 约 21,500 A100-hours。这个结果同时支持性能和效率两个主张。

Q5: 最需要质疑的地方是什么？

主要是细粒度动作和真实机器人统计量。LAPA 在 pick-and-place 的 grasping 上仍弱于 OpenVLA，说明 latent action 的粗粒度先验不等于精确控制；真实机器人 54 rollouts/model 也仍有限，需要更多任务和更大规模真实评测来确认泛化。