从人类视频中学习机器人动作:人工设计与潜在动作

  1. 机器人策略的学习依赖大量机器人动作数据,而机器人数据收集成本极高
  2. 另一方面,人类动作视频中存在大量与机器人操作相似的规律
  3. 如何从人类视频中提供迁移到机器人的通用动作信息,成为重要问题

人工设计阶段

人工设计:图像编辑

LuciBot|1000 LuciBot通过密集的检测、分割、跟踪等方法,得到人手和操作物体的位置和运动轨迹,之后通过图像编辑将人手替换为机械臂,从而迁移到机器人数据

这种方法往往针对特定任务,且生成的视频不一定符合物理规律

人工设计:中间表示

Track2Act|1000 ATM/Track2Act/General Flow等方法提出了一种中间表示:点跟踪轨迹/任务流,即视频中任务目标上随机点的运动轨迹,模型学习预测该轨迹之后预测动作

人工设计表示缺乏3D手部姿势等信息,不可能面面俱到

潜在动作

人工设计存在各种缺陷,而潜在动作有希望学到与动作有关的各种规律,因此最近成为研究重点。为什么需要潜在动作

  1. 学习跨不同环境、任务、智能体的动作表示能力。人工设计的方法不一定满足所有场景,如2D视频中难以标注3D空间信息,也难以满足形状各异的机器人
  2. 人工设计和标注问题。为特定任务设计特定监督需要大量成本,另外自动化标注也需要成本,且可能存在误差
  3. 学习更潜在规律的潜力。人工设计难以表示深层规律,如机械臂与物体的最佳相对角度和位置关系,物体操作的有关物体属性等,这些规律有可能在潜在动作中学到

Latent Action Pretraining from Videos (ICLR 24,微软/NVIDIA/Allen AI)

LAPA|1000

LAPA学习视频前后帧间的潜在关系作为潜在动作,具体步骤: 1. 学习人类视频潜在编码。设计一个VQ-VAE,encoder根据视频前后帧编码latent code,decoder依靠latent code预测未来帧 2. 预测潜在编码。VLM接收图像观察和文本,预测latent code 3. 预测动作。添加动作头,在机器人动作数据上微调,预测action

CoMo: Learning Continuous Latent Motion from Internet Videos for Scalable Robot Learning (25, 上海AI Lab)

CoMo|1000

核心:从帧间特征差异中显式学习连续的潜在动作

CLAM: Continuous Latent Action Models for Robot Learning from Unlabeled Demonstrations (25, USC)

CLAM|1400

核心:学习动作相关连续动作表示,利用大量非专家轨迹学习动作

CLAM|1400
  1. 从非专家标注数据中学习。给定有标注的非专家轨迹(可以是随机运动),编码器学习连续的latent action,FDM/动作解码器基于latent action预测未来帧和动作(如果有标注)
  2. 从无标注专家数据中学习。为无标注专家轨迹打上latent action标签,学习预测latent action的policy,通过非专家轨迹上训练的动作解码器得到动作

UniVLA: Learning to Act Anywhere with Task-centric Latent Actions (RSS 25,OpenDriveLab/AgiBot)

UniVLA|1200

问题:视频中相机抖动、背景干扰等噪声淹没任务关键动态,LAPA虽尝试学习潜在动作,但未解耦任务相关/无关动态

核心以任务为中心的潜在动作学习

UniVLA|1200
  1. 任务无关表征学习。语言指令与任务无关token共同编码为latent,latent与语言指令一起预测未来帧。由于任务指令与任务的强相关性和任务无关token的有限容量,后者会倾向于学习跨任务不变的通用表征
  2. 任务特定表征学习。冻结任务无关token,加入新的可学习token,与任务无关token共同编码为latent action之后用于预测未来帧,这样可学习token专注于学习任务相关信息
UniVLA|1000

预测动作。下游policy学习预测任务相关latent action,预测的latent action与图像embedding一起通过交叉注意力预测action

潜在动作的下游应用

Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos (25, Tencent/Berkeley)

Moto|1200

潜在动作用于中间监督,模型先预测latent action,再预测动作。latent action是更紧凑和通用的表示,因此可以作为到最终动作之前的过渡

DreamGen: Unlocking Generalization in Robot Learning through Neural Trajectories (25, NVIDIA/UCSD/Caltech)

DreamGen|800

潜在动作用于数据标注

DreamGen|800
  1. 通过世界模型生成机器人操作视频
  2. 通过LAPA为相邻帧间生成伪动作标签
  3. 生成视频+伪标签与真机数据一起联合训练下游policy

Unified Video Action Model (25, Stanford)

UVAM|1000

潜在动作用于学习世界模型。latent不仅可以编码视频,也可以编码动作,最终实现未来视频和动作的协同预测

总结

​类别​ ​代表工作​ ​核心思想​ ​关键特点​
​人工设计​ LuciBot 视频编辑 ⚠️ 特定任务|物理不合理
Track2Act 点轨迹作为动作 ⚠️ 缺失3D信息|依赖标注
​潜在动作​ LAPA 学习帧间变化 🔄 跨域迁移|细节不足
CoMo ​连续向量​​编码运动差异 ✅ 精细动作|连续控制
UniVLA 分离​​任务相关/无关​​动态 ✅ 抗干扰|强泛化
CLAM ​非专家数据​​学习动作 ✅ 降低标注依赖
​应用扩展​ DreamGen 生成视频+伪动作标签 💡 扩增数据|成本低
UVAM 统一预测未来帧+动作 💡 支持长时序规划

人工设计 vs 潜在动作

方法 思想 表示方式 完备性 泛化性
人工设计 人工定义表示 轨迹、光流等 缺失3D、物理等信息 局限于特定任务和智能体
潜在动作 可学习的表示 离散Token或连续向量 自主学习物理属性等深层规律 可在不同智能体、环境间泛化
作者

Koorye

发布于

2025-07-14

更新于

2026-03-17

许可协议