Video Language Planning

中文精读报告：面向 junior PhD 组会准备，重点解释方法、公式、实现与实验复现细节。

作者：Yilun Du, Mengjiao Yang, Pete Florence, Fei Xia, Ayzaan Wahid, Brian Ichter, Pierre Sermanet, Tianhe Yu, Pieter Abbeel, Joshua B. Tenenbaum, Leslie Kaelbling, Andy Zeng, Jonathan Tompson

机构：Google DeepMind, MIT, UC Berkeley

arXiv：2310.10625；项目页：video-language-planning.github.io

1. 论文速览

一句话总结：VLP 把长程机器人任务分解成“VLM 提议语言子动作、视频模型模拟未来、VLM heuristic 评估进展、树搜索选择计划”，最后用 goal-conditioned policy 把生成的视频计划执行到机器人上。

速览问题	简明回答
论文要解决什么	LLM/VLM 擅长长程语义规划但缺少细粒度物理动态推理；视频模型能表达动态但短 horizon 容易退化。论文要解决的是：如何把二者组合起来，为复杂长程机器人任务生成可执行的多模态视频语言计划。
作者的方法抓手	用 forward tree search 组合三个模块：$\pi_{\text{VLM}}(x,g)$ 生成候选文本动作，$f_{\text{VM}}(x,a)$ 生成该动作的短视频 rollout，$H_{\text{VLM}}(x,g)$ 估计离目标还剩多少步并剪枝。
最重要的结果	在 Language Table 长程执行任务中，VLP 在 Move to Area / Group by Color / Make Line 上分别达到 64% / 92% / 16% completion，显著高于 UniPi、LAVA、RT-2 和 PaLM-E；生成视频计划准确率在 sim/real 多任务上也明显高于无 value function 的组合和 UniPi。
阅读时要注意的点	不要把 VLP 理解成一个端到端 policy。它的核心是 test-time composition 与 search：视频模型不是直接控制器，而是 dynamics-like rollout model；真正执行依赖 goal-conditioned policy，并且规划质量用更多推理计算换来。

难度评级：★★★★☆。需要理解 VLM/LLM planning、text-to-video diffusion、tree search、goal-conditioned policy、长程机器人评估。

关键词：video language planning, VLM, text-to-video dynamics model, forward search, heuristic function, goal-conditioned policy, long-horizon manipulation。

核心贡献清单

提出 Video Language Planning (VLP)。将 VLM 与视频模型通过树搜索组合，用语言和视频共同表达长程计划。
把 VLM 同时用作 policy 和 heuristic。policy 产生下一步文本动作，heuristic 预测离目标完成还剩多少动作，从而评估视频 rollout。
把 text-to-video model 用作 dynamics model。给定当前图像和短文本动作，预测未来短视频，递归拼成长程视频计划。
展示推理预算可扩展性。增加 language branch、video branch 和 beam 数能提升视频计划成功率。
在三类机器人平台上展示执行。包括 Language Table、7DoF mobile manipulator、14DoF bi-manual ALOHA。

Video Language Planning teaser — **Figure: Video Language Planning.**VLM policy 产生文本动作，视频模型生成未来状态，VLM heuristic 评估进展，树搜索递归扩展计划，最后由 goal-conditioned policy 执行。

2. 动机

2.1 长程任务为什么难

真实机器人长程任务同时需要两类能力：一是高层语义规划，即知道下一步应该做什么；二是低层动态预测，即知道执行某个动作后世界会如何变化。经典 task and motion planning 就长期依赖这种分解，但大模型时代的问题是：能不能用预训练 VLM/视频模型来替代手写 symbolic model 与动力学模型。

2.2 单独使用 LLM/VLM 的局限

LLM 可以生成 step-by-step 文本计划，VLM 可以把图像观察纳入计划；但它们主要受静态图文/问答数据训练，容易缺少动态推理能力。例如只看当前图像和目标，模型可能知道“把碗叠起来”这个语义步骤，却不一定能预测移动、碰撞、遮挡、物体是否可达等视觉动态。

2.3 单独使用视频模型的局限

Text-to-video model 能生成丰富的未来视觉状态，承载比文本更细的物理和空间信息；但生成高质量长视频很难，直接给一个长程 instruction 要求模型一次生成几百帧计划，容易失去一致性或没法完成最终目标。

2.4 本文的高层思路

VLP 的抓手是组合：VLM 负责抽象动作候选和进度评估，视频模型负责短程动态 rollout，树搜索把多个短程 rollout 串成长期计划。这样既不用 VLM 单独想象物理动态，也不用视频模型单独承担完整长程规划。

3. 相关工作脉络

方向	已有工作做什么	VLP 的区别
LLM/VLM for decision making	LLM 生成高层文本步骤；VLM 把视觉输入接入文本计划。	VLP 不只输出文本步骤，还用视频模型模拟动作后果，并用搜索选择 rollout。
Video models as dynamics	视频预测模型用于预测未来图像状态，近期 text-to-video 模型提升了视觉质量。	VLP 将短程视频 rollout 嵌入长程 forward tree search，目标是生成数百帧计划。
Video-based control / UniPi	UniPi 直接由长程文本目标生成视频，再转动作。	VLP 显式引入语言子动作、value/heuristic 和 branching search，避免一次性长视频生成。
Composable foundation models	组合多个生成模型带来新能力，如图像、视频、3D、轨迹规划等。	VLP 的组合机制是 forward search，能在未来视频状态上做长程推理；论文特别对比 HiP，指出 HiP 一步一步生成并执行，而 VLP 模拟长 horizon 后再选计划。

4. 问题形式化

输入是当前视觉观察 $x_0$ 和自然语言长程目标 $g$。输出是长视频计划 $\{x_t\}_{1:T}$，其中每个图像 $x_t$ 都可以被视为一个视觉子目标。论文假设图像可作为世界状态表示，并用 image goal-conditioned policy 将视觉子目标转成低层动作。

4.1 三个核心函数

函数	输入输出	角色
$\pi_{\text{VLM}}(x,g)\rightarrow a$	当前图像 $x$ 与目标 $g$，输出文本动作 $a$。	高层 policy，提出下一步应该尝试的抽象动作。
$f_{\text{VM}}(x,a)\rightarrow x_{1:S}$	当前图像 $x$ 与短文本动作 $a$，输出短程未来视频。	dynamics-like video model，模拟执行动作后的视觉状态。
$H_{\text{VLM}}(x,g)\rightarrow \mathbb{R}$	某个未来图像状态 $x$ 与目标 $g$，输出 heuristic score。	value/heuristic，评估状态离目标完成还有多近。

4.2 优化目标

VLP 搜索的是：由 VLM policy 和视频模型能采样出来的长视频计划中，哪一个最终状态最接近任务完成。

$$x_{1:H}^{*}=\arg\max_{x_{1:H}\sim f_{\text{VM}},\pi_{\text{VLM}}} H_{\text{VLM}}(x_H,g)$$

$x_{1:H}$	通过多个短视频 rollout 拼接得到的长程视频计划。
$x_H$	长视频计划的最终图像状态。
$H_{\text{VLM}}(x_H,g)$	VLM heuristic 对最终状态是否接近目标的估计。
$f_{\text{VM}},\pi_{\text{VLM}}$	限定候选计划必须由文本动作 policy 和视频模型共同生成。

注意这里不是传统 RL 里对真实环境 reward 求最优，而是在模型生成的未来视频树中搜索最有希望完成任务的计划。

5. 方法详解

5.1 VLM as Policy

VLM policy 负责从当前图像和目标中生成候选文本动作。论文实现上遵循 PaLM-E 思路，将自然语言目标与当前图像 token embedding 作为上下文。作者尝试两种构造方式：一种是提供示例 text action labels 后让 VLM 预测动作；另一种是用长轨迹中的随机短片段 $x_{1:S}$ 及其 abstract action labels 微调 PaLM-E。

5.2 Video Model as Dynamics Model

给定当前图像 $x$ 和抽象文本动作 $a$，视频模型 $f_{\text{VM}}(x,a)$ 生成短视频 $x_{1:S}$。这段视频同时提供两个东西：一是动作执行后的可能结果状态，二是从当前状态过渡到结果状态的低层视觉路径。训练数据是短 image trajectory snippets 及对应 language labels。

5.3 VLM as Heuristic Function

VLP 需要在很多候选 rollout 中选一个。为此作者训练 $H_{\text{VLM}}(x,g)$，输入未来图像和长程目标，输出从当前状态到目标完成还需要多少步。训练方式是：从能完成长程目标 $g$ 的 trajectory snippets $x_{1:H}$ 中取某个 $x_t$，让 PaLM-E 预测离 trajectory 结束还剩多少步。实际用于搜索时取预测步数的负值，因此值越高表示越接近完成。

5.4 Tree Search 过程

算法维护 $B$ 条 parallel video plan beams。每个 planning step，对每条 beam：

Input: 当前图像 x0, 长程目标 g Initialize B beams: [[x0], ..., [x0]] For h = 1 ... H: For each beam b: x = 当前 beam 的最后一帧 sample A text actions: a1 ... aA = pi_VLM(x, g) for each action ai, sample D videos: f_VM(x, ai) 用 H_VLM 选最高分 video，接到 beam 后面每 5 步：丢弃最低分 beam，用最高分 beam 替换 Return: 最终 H_VLM 分数最高的 long-horizon video plan

这里的计算预算由三个超参控制：language branching factor $A$、video branching factor $D$、planning beams $B$。更多预算会生成更多候选文本动作和视频 rollout，因此可能找到更好的计划，但推理时间也更长。

5.5 防止 exploitative model dynamics

当搜索直接优化 $H_{\text{VLM}}$ 时，可能 exploit 视频模型的伪动态。例如物体突然瞬移到目标位置，或最终帧遮挡了未完成部分，heuristic 却给高分。论文因此加入阈值过滤：如果一个 rollout 让 heuristic estimate 的提升超过固定 threshold，就丢弃该视频，避免用不物理的模型漏洞换高分。

Long horizon video plans — **Long Horizon Video Plan.**VLP 只给定初始图像和长程语言目标，语言子计划和中间视觉帧都由模型直接合成。

5.6 从视频计划到动作执行

与上一篇 UniPi 中逐帧 inverse dynamics 不同，这篇论文强调许多相邻视频帧之间不是单个动作能到达的，因此用短程 goal-conditioned policy：

$$\pi_{\text{control}}(x,x_g)\rightarrow u$$

它输入当前图像 $x$ 和视频计划中的目标帧 $x_g$，输出让机器人朝 $x_g$ 前进的低层控制 $u$。训练时从控制轨迹中随机采样 $x_t$ 与未来状态 $x_{t+h}$，用 $\pi_{\text{control}}(x_t,x_{t+h})$ 预测 $u_t$。

长程执行还会使用 receding horizon control：固定 horizon 生成计划，执行一段后重新观测并 replanning，减轻执行误差累积。

5.7 附录中的实现细节

模块	配置	来源
视频模型训练	沿用 UniPi / text-to-video diffusion 架构；base text-conditioned video generation at $24\times40$，再 super-resolve 到 $48\times80$ 与 $192\times320$；每个分辨率生成 16 帧。	附录 Training Details
视频模型资源	base text-conditioned video model 用 64 TPUv3 pods 训练 3 天，高分辨率 super-resolution models 训练 1 天；不同 domain 训练 separate text-to-video models。	附录 Training Details
VLM models	跟随 PaLM-E 架构和代码库；fine-tune single 12B PaLM-E 同时预测 heuristics 和 policies；每个 domain 用 64 TPUv3 pods 训练 1 天。	附录 Training Details
Goal-conditioned policy	使用 LAVA 架构，将 CLIP text encoder 替换成 goal image 的 ResNet encoder；每个 domain 用 16 TPUv3 pods 训练 1 天。	附录 Training Details
Language Table planning	horizon 16、beam width 2、language branching factor 4、video branching factor 4；DDIM sampler，base resolution 64 sampling steps，高分辨率 4 sampling steps；classifier-free guidance scale 5。	附录 Planning Details
7DoF mobile manipulator planning	用 PaLM-E 生成 scene captions，用 few-shot prompted PaLM 按 SayCan prompts 生成计划；beam width 3；base resolution $64\times80$，super-resolution $256\times320$；goal policy 使用 generated video segment 的最后一帧。	附录 Planning Details
14DoF bi-manual planning	沿用 Language Table planning setup；heuristic clipping threshold 设为 15。	附录 Planning Details

6. 实验与结果

实验分三类：长程视频合成、长程执行、泛化。论文覆盖 simulated Language Table、真实 Language Table、7DoF mobile manipulator、14DoF bi-manual ALOHA。

6.1 Long-Horizon Video Synthesis

评估生成的视频计划是否完成长程目标。附录说明评估方式是人工判断生成视频中是否在任意时刻满足 long-horizon goal；每个 goal、每个方法生成 50 个视频。由于长程视频生成慢，每个视频约 30 分钟。

Model	Sim Environment			Real Environment
Model	Move Area	Group Color	Make Line	Move Area	Group Color	Make Line
UniPi	2%	4%	2%	4%	12%	4%
VLP (No Value Function)	10%	42%	8%	20%	64%	4%
VLP (Ours)	58%	98%	66%	78%	100%	56%

该表直接支持 VLP 的两个核心设计：比 UniPi 直接长程视频生成好，说明层级/搜索结构重要；比 no value function 好，说明 heuristic pruning 不只是装饰。

6.2 Search Budget 对视频计划的影响

Beams	Language Branch	Video Branch	Make Line Performance
1	1	1	4%
1	1	4	10%
1	4	4	22%
2	4	4	56%

随着 video branching、language branching、beam 增加，Make Line 视频计划成功率从 4% 到 56%。这说明 VLP 的能力具有 test-time compute scaling：更多候选 rollout 能显著改善长程计划质量。

Planning budget ablation — **Video Accuracy vs Planning Budget.**右侧 qualitative comparison 展示较小 branching 与更大 branching 下生成计划的差异。

6.3 Long-Horizon Execution

执行评估使用 Language Table 的 ground-truth simulation state 计算 reward 与完成阈值。每个方法每个任务评估 50 个环境，每个环境最多 1500 timesteps；若中途完成则提前停止。论文说明 VLP 每个环境约 1 小时，RT-2 baseline 约 0.5 小时。

Model	Move to Area		Group by Color		Make Line
Model	Reward	Completion	Reward	Completion	Reward	Completion
UniPi	30.8	0%	44.0	4%	44.0	4%
LAVA	59.8	22%	50.0	2%	33.5	0%
RT-2	18.5	0%	46.0	26%	36.5	2%
PaLM-E	36.5	0%	43.5	2%	26.2	0%
VLP (Ours)	87.3	64%	95.8	92%	65.0	16%

作者指出这些任务 horizon 很长，许多 baseline 会“stuck”并停止有效行动。VLP 的执行优势来自反复规划视觉子目标，并用 goal-conditioned policy 执行中间帧。

Simulation execution — **Simulation Execution.**VLP 在模拟 Language Table 环境中执行不同长程目标。

6.4 Execution Budget 与 Action Extraction Ablation

Beams	Planning Horizon	Branching Factor	Line Score	Line Completion
1	1	4	48.9	0%
1	1	16	53.3	2%
1	2	16	58.1	8%
2	2	16	65.0	16%

执行成功率也随 planning horizon 与 branching factor 增加而提升，再次说明 test-time planning compute 是方法的一部分。

Action Inference	Group Color Score	Group Color Completion
Inverse Dynamics	89.7	80%
Goal Policy (Last)	85.0	66%
Goal Policy (Every)	95.8	92%

逐帧使用 goal-conditioned policy 最好，说明视频计划中的中间帧本身是有价值的 dense subgoals；只看短视频最后一帧会损失执行引导。

6.5 Real Robot 与 Multi-Platform Planning

VLP 还展示了真实机器人执行与多平台视频计划：Language Table real robot、7DoF mobile manipulator、14DoF bi-manual ALOHA。ALOHA 设置中，视频模型同时输出 4 个 camera views，做法是 channel-wise concatenation；VLM policy 和 heuristic 使用 top/side views。

Real execution — **Real Execution.**真实 Language Table 机器人上执行长程任务。

7DoF mobile manipulator execution — **7DoF Mobile Robot Execution.**VLP 生成的视频计划可由 goal-conditioned policy 在移动机器人上执行。

ALOHA multiview plans — **Multiview Video Plans for Dexterous Manipulation.**VLP 为 14DoF bi-manual ALOHA 合成 4-camera consistent video plans 和语言子目标。

6.6 Generalization

论文报告了对象、光照和新任务泛化。核心解释是：执行被拆成 visual goal generation 与 goal-conditioned controller 后，视频模型负责生成视觉目标，控制策略只需关注到达附近视觉目标所需的局部信息。

Generalization to objects and lighting — **Generalization to Objects and Lighting.**VLP 泛化到新物体、不同光照和不同办公室位置中的机器人。

Task generalization — **Task Generalization.**当 VLM 和 text-to-video models 使用大规模混合数据训练时，VLP 可在 unseen objects 上执行新任务。

6.7 附录补充结果

附录补充三类结果：失败案例、goal-conditioned policy 对 noisy synthesized goals 的鲁棒性、额外长程视频计划。

Failure in transferring web knowledge — **Failure in Transferring Web Knowledge.**在低数据或无数据 regime 中，模型可能错误迁移 web knowledge，例如把 gripper 生成成 octopus arms。

Failure in physics — **Failure in Physics.**长视频生成中可能出现物体消失、重现或瞬移，说明 object permanence 仍是限制。

Goal policy robustness — **Goal Policy Robustness to Synthesized Goals.**即使生成目标图像带有 artifacts，goal-conditioned policy 仍能关注执行所需的局部视觉信息。

7. 分析、局限与边界

7.1 这篇论文最有价值的地方

这篇论文最有价值的地方是把“基础模型组合”落成了一个可操作的长程规划算法。它没有要求单个 VLM 同时理解语义、物理、动态和控制，也没有要求单个视频模型一次生成完整长程计划；而是让每个模型做相对擅长的部分，再用 test-time search 把能力组合起来。

从方法视角看，VLP 的价值在于重新打开了 visual planning 这条路线：视频不是展示结果的附属物，而是搜索空间中的状态轨迹；VLM heuristic 也不是只做 caption，而是作为 value-like pruning signal。这个组合让推理计算成为可调资源，更多 search budget 可以换更好计划。

7.2 结果为什么站得住

首先，论文的主结果和方法主张对齐：VLP 声称 tree search 组合 VLM 与视频模型能改善长程计划，因此实验同时评估视频计划质量和真实执行成功率。视频计划表中，VLP 在 sim/real 的 Move、Group、Make 三类任务上均明显高于 UniPi 和 no-value-function ablation。

其次，对照项覆盖了几个关键替代方案：直接长程视频生成的 UniPi、直接语言/行为克隆的 LAVA、直接 VLM planning 的 PaLM-E、视觉语言动作模型 RT-2，以及去掉 heuristic 的 VLP ablation。VLP 的优势不是只相对一个弱 baseline，而是在不同范式上都更好。

第三，ablation 证明提升与搜索机制相关：视频计划成功率随 beam/language branch/video branch 从 4% 到 56%；执行成功率也随 planning horizon 和 branching factor 增大而提升。action extraction ablation 又说明逐帧 goal policy 是把视频计划转为动作的关键。

7.3 论文明确给出的结果解释

VLM policy 单独不足以做长程规划，因为它缺少准确动态预测；视频 rollout 可以补足低层视觉动态。
视频模型单独直接生成长程计划不足，因为长视频容易失真；语言子动作和树搜索提供层级结构。
VLM heuristic 的 value-like 作用能过滤掉不利 rollout，no-value-function ablation 明显更差。
goal-conditioned policy 对生成目标的噪声有一定鲁棒性，因为它可以忽略大部分无关视觉细节，专注局部可执行目标。

7.4 作者自述局限

局限	论文中的说明	影响范围
图像状态不完整	VLP 用 images 作为 world state representation，但很多任务中图像无法捕捉完整 3D 状态、隐藏物理因素或质量。	遮挡、接触力、物体重量、不可见状态相关任务。
视频动态不总准确	作者观察到 synthesized videos 中物体可能 spontaneous appear 或 teleport。	搜索可能 exploit 不物理的 rollout，需要阈值过滤但不能根治。
规划推理成本高	Language Table 长程规划约 30 分钟；VLP 执行每个环境约 1 小时。	实时机器人应用、交互式闭环任务。
依赖 domain-specific training	论文训练 separate text-to-video models、separate VLM models per domain，goal-conditioned policy 也按 domain 训练。	跨平台泛化仍需要数据与适配训练。

7.5 适用边界

VLP 最适合目标可以由语言分解、状态变化可由图像/视频表达、短程 goal-conditioned policy 可学到、并且允许较高推理计算预算的长程机器人任务。它不适合要求高频实时反应、强隐状态推理、精确接触力控制，或视频模型不能可靠模拟关键动态的任务。

8. 可复现性审计

8.1 数据与任务

已给出：Language Table 约 10000 long-horizon trajectories，覆盖模拟和真实，几百个 long-horizon goals；实验选 3 个便于自动评估的 goal，约 20000 trajectories 和 400000 short-horizon text labels。
已给出：7DoF mobile manipulator 使用 RT-1 dataset；generalization experiments 混合 7DoF、Bridge、RT-2、Ego4D、EPIC-KITCHEN、LAION-400M。
已给出：14DoF ALOHA 使用约 1200 teleoped demonstrations，每个约 20 language instructions，总约 25k short-horizon text labels。

8.2 评估细节

视频评估：每个 goal、每个方法生成 50 个视频，人工判断是否满足 long-horizon goal。
执行评估：Language Table 使用 ground-truth simulation state 计算 reward；每个方法每个任务 50 environments；每个环境最多 1500 timesteps，完成则提前停止。
VLP 执行设置：planning horizon 2、beam width 2、branching factor 16；模拟中对视频计划前 16 帧每帧调用 goal-conditioned policy 4 次；真实环境中对前 10 帧调用。

8.3 训练与算力

复现门槛很高：视频模型使用 64 TPUv3 pods 训练数天，VLM 是 12B PaLM-E，goal-conditioned policy 也用 16 TPUv3 pods。论文提供了方向性配置，但普通实验室很难等规模复现。

8.4 最小复现路径

更现实的复现路线是先缩小到 Language Table simulation：训练一个小型 VLM/action-label predictor 或固定 action proposal 集合，训练低分辨率短程视频模型，训练 goal-conditioned policy，然后比较 UniPi-style direct long-video generation、no-value-function VLP 和 full VLP。关键不是复现 12B PaLM-E，而是验证“视频 rollout + heuristic search”是否优于直接长程视频生成。