中文 EN

Act2Goal: From World Model To General Goal-conditioned Policy

方法名:Act2Goal

作者:Pengfei Zhou, Liliang Chen, Shengcong Chen, Di Chen, Wenzhi Zhao, Rongjun Jin, Guanghui Ren, Jianlan Luo

机构:AgiBot Research

arXiv:2512.23541;v1 提交于 2025-12-29;方向:Robotics, Artificial Intelligence

链接:arXiv 摘要页 | PDF | HTML | 项目页

1. 论文速览

一句话总结:Act2Goal 把视觉目标条件策略从“当前图像 + 目标图像直接出动作”改成“先用 goal-conditioned world model 想象通往目标的中间视觉状态,再用 Multi-Scale Temporal Hashing 把近端细节和远端目标锚点一起喂给动作专家”,并用 HER + LoRA 做无奖励在线自我改进。
论文要解决什么视觉目标能比语言更精确地表达物体布局和终态约束,但现有 goal-conditioned policies 常直接做单步动作预测,缺少显式任务进展表示,长时程任务和 OOD 场景容易偏离目标。
作者的方法抓手Act2Goal 引入 Goal-Conditioned World Model (GCWM) 生成从当前观测到目标图像的中间视觉轨迹;提出 Multi-Scale Temporal Hashing (MSTH),把轨迹拆成近端密集帧和远端稀疏帧;动作 DiT 通过逐层 cross-attention 使用 world-model features。
最重要的结果Robotwin 2.0 和真实 AgiBot Genie-01 任务中,Act2Goal 在大多数 ID/OOD 设置上显著高于 DP-GC、$\pi_{0.5}$-GC 和 HyperGoalNet;真实 OOD Plug-In 从离线 0.30 通过在线自改进提升到 0.90;MSTH 在白板写字长词/OOD 长词上从接近失败提升到 0.88-0.90。
阅读时要注意的点这篇的关键不是“world model 生成视频很好看”,而是 generated visual trajectory 如何被时间抽样成控制可用的 representation:近端帧用于闭环精细控制,远端帧用于保持长程目标一致性。

难度评级:★★★★☆。需要理解 visual goal-conditioned policy、flow matching、Video DiT/3D VAE world model、action expert、hindsight goal relabeling、LoRA finetuning,以及真实机器人评估。

关键词:Goal-conditioned policy, visual world model, Multi-Scale Temporal Hashing, flow matching, action expert, HER, LoRA, online autonomous improvement。

Act2Goal teaser
Figure 1. 方法概览:输入视觉目标,goal-conditioned world model 先生成通向目标的视觉想象轨迹,再由策略在真实世界中执行。

2. 动机

2.1 为什么用视觉目标而不是语言目标

机器人操作需要任务描述既灵活又精确。语言能表达多样任务,但在细粒度操作里经常不够具体:比如“把甜点摆成这样”“写出这个词”“把插入件放到孔里”,目标的空间关系、形状、朝向和终态细节很难完全用自然语言无歧义描述。视觉目标图像直接编码物体配置、空间关系和终态约束,因此更适合 goal-conditioned manipulation。

2.2 现有 GCP 的核心短板

许多 visual goal-conditioned policies 把当前观察和目标图像直接映射到动作。短时程任务中这可行,但长时程任务要求策略持续知道“我现在离目标进展到哪一步”。如果模型没有中间进展表示,就容易只匹配训练数据中的局部 state-action pattern,在 OOD 物体、布局或长控制链中累积偏差。

论文的诊断是:GCP 需要一个显式视觉动力学模型,去预测从当前状态到目标状态之间的 plausible intermediate states。这样 action expert 不只是看终点,而是得到一条粗到细的视觉路线。

2.3 为什么还需要 MSTH

只生成一整段未来视频仍不够。长轨迹如果全都密集预测,计算成本高且远端细节未必可靠;如果只看短期,策略会反应灵敏但容易迷失远期目标。MSTH 的作用就是把时间尺度拆开:近端用 dense frames 提供局部闭环控制,远端用 logarithmic sparse frames 维持全局方向。

Act2Goal system overview
Figure 2. 系统概览:离线 imitation learning 后,模型可在 ID/OOD 场景零样本泛化;在线阶段通过 rollout-goal relabel-optimize 循环继续提升。

4. 方法详解

4.1 总体流程:三阶段学习

Act2Goal 的学习流程分三段:

  1. Stage 1 joint training:微调预训练 world model,使其在当前观测和目标图像条件下生成 MSTH 分布的多视角过渡视频,同时联合训练动作生成任务。
  2. Stage 2 action adaptation:用行为克隆端到端微调完整模型,只使用 action flow matching loss,让视觉表示更贴合动作规划。
  3. Stage 3 online autonomous improvement:部署后收集自身 rollout,把实际到达的下一观测 relabel 成 goal,只更新 LoRA 层。

4.2 模型架构:GCWM + Action DiT

Act2Goal architecture
Figure 3. 架构图:左侧 GCWM 使用当前多视角图像和目标图像的 VAE latents 作为条件,经 Video DiT 生成 MSTH latent frames;右侧 Action DiT 接收机器人状态和 world model 多尺度 features,通过 cross-attention 生成 MSTH-structured actions。

Goal-Conditioned World Model 基于 Genie Envisioner 改造:保留视频生成能力,移除语言条件,加入视觉目标条件。当前 observation latent 记为 $z_t$,目标图像 latent 记为 $z_g$,随机噪声为 $\epsilon$,world model 生成中间 latent frames:

$$z_{\mathrm{pred}} = f_{\theta}(z_t,z_g,\epsilon).$$

推理时用 flow matching 的确定性积分更新:

$$z^{(n+1)} = z^{(n)} + \frac{1}{N}v_{\theta}(z^{(n)},z_t,z_g).$$

直觉:GCWM 学的是“从当前画面走向目标画面,视觉上应该经过哪些中间状态”。这些中间状态不是直接执行的动作,但会成为动作专家的条件。

Action expert 与 world model 架构同构,但宽度更小。它接收 proprioceptive state $c_p$ 和 world model 的层级 transition features $c_w=\{h_{\mathrm{world}}^1,\ldots,h_{\mathrm{world}}^L\}$,生成动作:

$$a_{\mathrm{pred}} = g_{\phi}(c_w,c_p,\zeta),$$ $$a^{(n+1)} = a^{(n)} + \frac{1}{N}u_{\phi}(a^{(n)},c_w,c_p).$$

直觉:动作不是从目标图像单独解码出来,而是从 world model 的多层中间特征里“读出”可执行控制。

4.3 Multi-Scale Temporal Hashing (MSTH)

MSTH 是这篇论文最核心的机制。给定总想象轨迹长度 $K$、近端 horizon $P$、视觉采样 stride $r$,MSTH 把未来视觉状态拆成两段。

近端 dense segment:

$$\{s_{t+kr}\}_{k=1}^{P/r}.$$

远端 sparse segment:

$$\{s_{t+d_m}\}_{m=1}^{M},\quad d_m = P + \left\lfloor \frac{K-P}{\log(M+1)}\log(m+1)\right\rfloor.$$

直觉:越靠近当前,越需要高频细节;越接近远端目标,越需要粗粒度目标锚点。log spacing 让远端帧间隔逐渐增大。

动作也采用同样的多尺度结构,但有一个关键差异:近端动作是每个时间步都预测,$\{a_{t+1},\ldots,a_{t+P}\}$,用于实际执行;远端动作 $\{a_{t+d_m}\}_{m=1}^M$ 只用于长程指导,不在部署时执行。附录给出具体实现:world model 预测 4 个 latent frames,含 2 个 proximal 和 2 个 distal,经 3D VAE 解码成 9 个 proximal 和 9 个 distal visual frames;action expert 输出 54 个 proximal actions,其中执行 50 个,另输出 9 个 distal actions 仅作 guidance 附录 A.1

MSTH generated videos
Figure 8. GCWM 生成的视频示例:proximal frames 更贴近局部动作细节,distal frames 对应更长时间跨度,承担目标一致性约束。

4.4 两阶段离线训练目标

Stage 1 联合优化视觉生成和动作生成。视觉部分使用 flow matching loss:

$$\mathcal{L}_v = \mathbb{E}_{t,z_0,z_1,z_t,z_g} \left[\left\|v_{\theta}(t,\phi_t(z),z_t,z_g)-(z_1-z_0)\right\|^2\right].$$

动作部分为:

$$\mathcal{L}_a = \mathbb{E}_{t,a_0,a_1,c_w,c_p} \left[\left\|u_{\phi}(t,\psi_t(a),c_w,c_p)-(a_1-a_0)\right\|^2\right].$$

联合目标:

$$\mathcal{L}_{\mathrm{stage1}}=\mathcal{L}_v+\lambda\mathcal{L}_a,\quad \lambda=0.1.$$

Stage 2 只用 $\mathcal{L}_{\mathrm{stage2}}=\mathcal{L}_a$ 做端到端行为克隆。

这种设计的含义是:第一阶段让生成的视觉轨迹“看起来合理且对动作有用”;第二阶段把整个 pipeline 对齐到专家动作。

4.5 在线自我改进:HER + LoRA

在线阶段不需要外部 reward,也不需要人工标注成功/失败。机器人执行策略并把每一步 transition 存入 replay buffer:$(o,c_p,a,o')$。随后把实际到达的 $o'$ 作为新的 goal $g'$,构造成“在 $o$ 下执行 $a$ 可以到达 $g'$”的监督样本。buffer 达到阈值后,用这些 relabeled transitions 只微调 LoRA 层,base model 冻结。

Act2Goal online autonomous improvement:
1. initialize replay buffer B and LoRA parameters
2. execute policy for one episode and store transitions (o, c_p, a, o')
3. for each transition, relabel achieved observation o' as goal g'
4. when B reaches threshold:
   sample batches from B
   optimize action prediction toward stored action a under relabeled goal g'
   update only LoRA parameters
   clear B
5. repeat rollout -> relabel -> optimize until performance converges

附录实现细节:部署在 AgiBot Genie-01 + NVIDIA RTX 4090;LoRA rank 64;replay buffer size 20;每轮 10 epochs,包含 rollout、反传和环境 reset 约 5 分钟;50 个可执行动作的推理延迟约 200 ms 附录 A.1

5. 实验

5.1 实验问题

实验围绕三个问题展开:离线 imitation training 后能否泛化到 ID/OOD 场景;在线 autonomous improvement 是否有效;MSTH 是否是长时程任务的关键组件。

5.2 Robotwin 2.0 仿真泛化

作者从 Robotwin 2.0 选择四个任务:Move Can Pot、Pick Dual Bottles、Place Empty Cup、Place Shoe。Easy mode 是 seen/no-noise 设置,Hard mode 是 unseen/noisy 设置。目标图像通过固定环境 seed,从成功轨迹中提取终态作为 goal condition。

ModeModelMove CanPick BottlesPlace CupPlace Shoe
EasyDP-GC0.180.040.030.04
$\pi_{0.5}$-GC0.540.130.160.30
HyperGoalNet0.110.080.080.01
Act2Goal0.620.800.640.52
HardDP-GC0.000.000.000.00
$\pi_{0.5}$-GC0.420.060.040.06
HyperGoalNet0.000.000.000.00
Act2Goal0.130.430.130.15

Act2Goal 在所有 Easy 任务最佳;Hard mode 中除 Move Can 外都最佳。这个结果支持论文主张:world model + MSTH 对 OOD 长时程场景有帮助,但也显示并非所有 hard scenario 都赢过 $\pi_{0.5}$-GC。

5.3 真实机器人泛化

Real world task configurations
Figure 4. 真实评估任务:Whiteboard Word Writing、Dessert Plating、Plug-In Operation,每个任务都有 ID 和 OOD 配置。
SettingModelWhiteboard Word WritingDessert PlatingPlug-In Operation
IDDP-GC0.000.100.00
$\pi_{0.5}$-GC0.230.180.00
HyperGoalNet0.000.080.00
Act2Goal0.930.750.45
OODDP-GC0.000.000.00
$\pi_{0.5}$-GC0.200.050.00
HyperGoalNet0.000.000.00
Act2Goal0.900.480.30

三类任务分别考察不同能力:白板写字要求长程笔画组合,OOD 是训练未见词;甜点摆盘要求按目标图像进行细粒度空间布置,OOD 引入甜点类型、盘子样式和背景变化;Plug-In ID 是插入训练见过的金属工件,OOD 是把圆柱饮料瓶插入杯架。

附录补充真实任务细节:写字/绘画时先人工把 marker 放到夹爪中,长写字 trials 中 marker 会滑动,因此用胶带固定;bearing insertion 中 bearing 超过 2 kg,底部直径约 1 cm,孔直径约 1.5 cm;甜点摆盘使用硅胶玩具甜点以保证可重复性 附录 A.2

5.4 在线自我改进

Online improvement scenarios
Figure 5. Robotwin 2.0 中用于在线自改进的四个 OOD hard scenarios。
Robotwin online training performance
Figure 6. 仿真在线训练:多轮训练后成功率持续提升,约 3 轮后收敛;对 replay buffer 的数据选择策略比较显示,使用所有 rollouts 最好,failed-only rollouts 也能带来提升。

仿真中,作者从四个 hard-mode 任务各选一个 scenario 做多轮在线训练。论文正文给出定性结论:约 3 轮后收敛,最大成功率提升可达预训练 baseline 的 8 倍;使用所有 rollouts 优于只用 successful 或 failed rollouts。这个结果与 HER 逻辑一致:失败轨迹也含有可学习的 achieved-goal transition。

Real world online drawing improvement
Figure 7. 真实白板 unseen pattern 在线训练:从较差初始绘制逐步改善。正文还报告 OOD Plug-In 成功率随在线训练从 0.30 提升到 0.90。

5.5 MSTH 消融

SettingModelShort (≤3 letters)Medium (4-6 letters)Long (≥7 letters)
IDw/o MSTH0.950.350.10
w/ MSTH0.950.900.90
OODw/o MSTH0.600.200.00
w/ MSTH0.930.900.88

这个表是支撑 MSTH 的最强证据:短词上固定 horizon chunking 还可以,但词变长后迅速崩溃,尤其 OOD 长词为 0.00;MSTH 则在 ID/OOD 中长词仍保持 0.90/0.88。解释是固定 horizon 更容易随着序列变长发生 goal confusion,而 MSTH 的远端稀疏锚点维持了目标方向。

6. 可复现审计

6.1 数据、训练资源与模型规模

项目论文/附录信息复现含义
训练数据AgiBot World dataset + small proprietary dataset。核心真实数据不完全公开,严格复现实验难度高。
world model 初始化预训练 1.6B 参数 Genie Envisioner。需要可用的 Genie Envisioner 权重或等价视频 world model。
Stage 1微调预训练 world model,7×24 hours,16×A800。计算量很大,不是单卡可轻松复现。
Stage 2端到端 behavioral cloning,48 hours,16×A800。离线训练资源仍然高。
部署AgiBot Genie-01 + RTX 4090;50 executable actions 延迟 200 ms。推理部署给出较清晰硬件口径。
在线学习LoRA rank 64,buffer size 20,每轮 10 epochs,约 5 分钟。在线阶段相对轻量,可作为最先复现的模块。

6.2 评估口径

6.3 最小复现路线

  1. 先在仿真中实现视觉 goal-conditioned policy baseline:当前图像 + goal image + proprio state → action chunk。
  2. 接入一个预训练 video/world model,改成 current observation + goal image condition,输出过渡 latent frames。
  3. 实现 MSTH:近端 dense frames、远端 log-spaced distal frames;动作端预测 dense proximal actions + sparse distal guidance actions。
  4. 用 Stage 1 的 $\mathcal{L}_v + 0.1\mathcal{L}_a$ 联合训练,再用 Stage 2 的 $\mathcal{L}_a$ 做动作适配。
  5. 先复现 Robotwin 2.0 的四个任务;真实机复现需要机器人平台、目标图像采集和安全 reset pipeline。
  6. 最后实现在线 HER + LoRA:buffer 到 20 后训练 10 epochs,只更新 LoRA,比较 all/success/failure rollout 策略。

6.4 主要复现风险

风险原因建议
数据不可完全获得训练依赖 AgiBot World 和 proprietary data。先用公开仿真数据验证 MSTH/online adaptation,而不是追求绝对数值。
world model 成本高1.6B Genie Envisioner + 16×A800 训练。用更小视频 latent diffusion/world model 做结构复现。
真实机 setup 细节影响结果marker 固定、bearing 尺寸、硅胶甜点都影响实验可重复性。记录 end-effector/tool mounting、物体材质、初始位置和 reset 策略。
在线学习安全自收集 rollouts 可能产生碰撞或错误动作。先在仿真部署 replay relabeling,再迁移到低风险真实任务。

7. 分析、局限与边界

7.1 这篇论文最有价值的地方

这篇最有价值的地方在于把视觉目标策略的长时程问题具体化了:不是只让 policy 看 goal image,而是先构造一条“朝 goal 演化”的视觉中间路线,再把这条路线压缩成控制友好的多尺度表示。MSTH 的想法朴素但有效:近处要密,远处要稀;近端动作执行,远端动作只做约束。

第二个价值点是在线自我改进流程足够工程化。HER-style relabeling + LoRA 在真实机器人上很实用:不需要 reward function,也不需要每一步人工打标签,失败轨迹也可以通过 achieved-goal relabeling 转为训练信号。

7.2 结果为什么站得住

7.3 局限与需要追问的点

问题影响
训练数据和代码可用性不足论文给项目页但 arXiv/项目页未显示公开代码;核心训练数据含 proprietary dataset,完全复现困难。
部分源码仍含作者内部注释LaTeX 源码里有较多修改意见和注释,说明论文可能仍处于快速迭代状态;读者应以最终 PDF 结果为准。
真实世界评估样本量有限每个真实实验 40 rollouts,足够展示趋势,但对高方差真实机任务仍需更多统计置信区间。
world model 是否真正因果可控仍未完全证明生成的中间视觉轨迹看起来合理,但它对动作成功的具体贡献主要通过整体消融体现,缺少更细的 representation/attention 分析。
在线自改进依赖环境 reset每轮约 5 分钟包含 rollout、反传和 reset;真实开放环境中 reset 成本可能成为瓶颈。

7.4 组会可追问的问题

  1. MSTH 的 $K,P,r,M$ 如何选择?不同任务是否需要自适应时间尺度,而不是固定 log spacing?
  2. 远端 actions 不执行,只作为 guidance。它们的 supervision 来自哪里,是否可能和近端执行动作产生冲突?
  3. Stage 2 只优化 action loss,但梯度也回传到 world model。这会不会降低 world model 生成视频的真实性,只保留 action-useful features?这是优点还是风险?
  4. HER relabeling 把 $o'$ 当 goal,但如果动作导致了碰撞或无意义状态,这种 relabeling 是否会强化坏行为?all rollouts 最好说明模型可能能吸收噪声,但边界在哪里?
  5. 相比直接用 goal image + transformer memory 做长上下文控制,GCWM 的额外生成成本是否在所有任务上都必要?

附:本报告覆盖检查

已覆盖:Abstract、Introduction、Related Works、Method、Experiments、Conclusion,以及附录中的实现细节、真实任务设置和测试指标。

图表处理:使用 arXiv HTML 渲染出的 PNG 图像保存在 figures/;关键表格已重建为 HTML。

残余风险:未发现官方代码仓库;训练数据部分为 proprietary,报告中的复现路线是结构级复现建议,不等价于完整数值复现。