2025-07-14发表2026-03-17更新深度学习12 分钟读完 (大约1780个字)

从人类视频中学习机器人动作：人工设计与潜在动作

机器人策略的学习依赖大量机器人动作数据，而机器人数据收集成本极高
另一方面，人类动作视频中存在大量与机器人操作相似的规律
如何从人类视频中提供迁移到机器人的通用动作信息，成为重要问题

人工设计阶段

人工设计：图像编辑

LuciBot|1000 LuciBot通过密集的检测、分割、跟踪等方法，得到人手和操作物体的位置和运动轨迹，之后通过图像编辑将人手替换为机械臂，从而迁移到机器人数据

这种方法往往针对特定任务，且生成的视频不一定符合物理规律

人工设计：中间表示

Track2Act|1000 ATM/Track2Act/General Flow等方法提出了一种中间表示：点跟踪轨迹/任务流，即视频中任务目标上随机点的运动轨迹，模型学习预测该轨迹之后预测动作

人工设计表示缺乏3D、手部姿势等信息，不可能面面俱到

潜在动作

人工设计存在各种缺陷，而潜在动作有希望学到与动作有关的各种规律，因此最近成为研究重点。为什么需要潜在动作？

学习跨不同环境、任务、智能体的动作表示能力。人工设计的方法不一定满足所有场景，如2D视频中难以标注3D空间信息，也难以满足形状各异的机器人
人工设计和标注问题。为特定任务设计特定监督需要大量成本，另外自动化标注也需要成本，且可能存在误差
学习更潜在规律的潜力。人工设计难以表示深层规律，如机械臂与物体的最佳相对角度和位置关系，物体操作的有关物体属性等，这些规律有可能在潜在动作中学到

Latent Action Pretraining from Videos (ICLR 24，微软/NVIDIA/Allen AI)

LAPA学习视频前后帧间的潜在关系作为潜在动作，具体步骤： 1. 学习人类视频潜在编码。设计一个VQ-VAE，encoder根据视频前后帧编码latent code，decoder依靠latent code预测未来帧 2. 预测潜在编码。VLM接收图像观察和文本，预测latent code 3. 预测动作。添加动作头，在机器人动作数据上微调，预测action

CoMo: Learning Continuous Latent Motion from Internet Videos for Scalable Robot Learning (25, 上海AI Lab)

核心：从帧间特征差异中显式学习连续的潜在动作

CLAM: Continuous Latent Action Models for Robot Learning from Unlabeled Demonstrations (25, USC)

核心：学习动作相关的连续动作表示，利用大量非专家轨迹学习动作

从非专家标注数据中学习。给定有标注的非专家轨迹（可以是随机运动），编码器学习连续的latent action，FDM/动作解码器基于latent action预测未来帧和动作（如果有标注）
从无标注专家数据中学习。为无标注专家轨迹打上latent action标签，学习预测latent action的policy，通过非专家轨迹上训练的动作解码器得到动作

UniVLA: Learning to Act Anywhere with Task-centric Latent Actions (RSS 25，OpenDriveLab/AgiBot)

问题：视频中相机抖动、背景干扰等噪声淹没任务关键动态，LAPA虽尝试学习潜在动作，但未解耦任务相关/无关动态

核心：以任务为中心的潜在动作学习

任务无关表征学习。语言指令与任务无关token共同编码为latent，latent与语言指令一起预测未来帧。由于任务指令与任务的强相关性和任务无关token的有限容量，后者会倾向于学习跨任务不变的通用表征
任务特定表征学习。冻结任务无关token，加入新的可学习token，与任务无关token共同编码为latent action之后用于预测未来帧，这样可学习token专注于学习任务相关信息

预测动作。下游policy学习预测任务相关latent action，预测的latent action与图像embedding一起通过交叉注意力预测action

潜在动作的下游应用

Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos (25, Tencent/Berkeley)

潜在动作用于中间监督，模型先预测latent action，再预测动作。latent action是更紧凑和通用的表示，因此可以作为到最终动作之前的过渡

DreamGen: Unlocking Generalization in Robot Learning through Neural Trajectories (25, NVIDIA/UCSD/Caltech)

潜在动作用于数据标注

通过世界模型生成机器人操作视频
通过LAPA为相邻帧间生成伪动作标签
生成视频+伪标签与真机数据一起联合训练下游policy

Unified Video Action Model (25, Stanford)

潜在动作用于学习世界模型。latent不仅可以编码视频，也可以编码动作，最终实现未来视频和动作的协同预测

总结

类别	代表工作	核心思想	关键特点
人工设计	LuciBot	视频编辑	⚠️ 特定任务｜物理不合理
	Track2Act	点轨迹作为动作	⚠️ 缺失3D信息｜依赖标注
潜在动作	LAPA	学习帧间变化	🔄 跨域迁移｜细节不足
	CoMo	连续向量编码运动差异	✅ 精细动作｜连续控制
	UniVLA	分离任务相关/无关动态	✅ 抗干扰｜强泛化
	CLAM	非专家数据学习动作	✅ 降低标注依赖
应用扩展	DreamGen	生成视频+伪动作标签	💡 扩增数据｜成本低
	UVAM	统一预测未来帧+动作	💡 支持长时序规划

人工设计 vs 潜在动作

方法	思想	表示方式	完备性	泛化性
人工设计	人工定义表示	轨迹、光流等	缺失3D、物理等信息	局限于特定任务和智能体
潜在动作	可学习的表示	离散Token或连续向量	自主学习物理属性等深层规律	可在不同智能体、环境间泛化

从人类视频中学习机器人动作：人工设计与潜在动作

https://koorye.github.io/blog/2025/07/14/从人类视频中学习机器人动作：人工设计与潜在动作/

作者

Koorye

发布于

2025-07-14

更新于

2026-03-17

许可协议

#深度学习具身智能世界模型

从人类视频中学习机器人动作：人工设计与潜在动作

人工设计阶段

人工设计：图像编辑

人工设计：中间表示

潜在动作

Latent Action Pretraining from Videos (ICLR 24，微软/NVIDIA/Allen AI)

CoMo: Learning Continuous Latent Motion from Internet Videos for Scalable Robot Learning (25, 上海AI Lab)

CLAM: Continuous Latent Action Models for Robot Learning from Unlabeled Demonstrations (25, USC)

UniVLA: Learning to Act Anywhere with Task-centric Latent Actions (RSS 25，OpenDriveLab/AgiBot)

潜在动作的下游应用

Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos (25, Tencent/Berkeley)

DreamGen: Unlocking Generalization in Robot Learning through Neural Trajectories (25, NVIDIA/UCSD/Caltech)

Unified Video Action Model (25, Stanford)

总结

人工设计 vs 潜在动作

作者

发布于

更新于

许可协议

分类

最新文章

标签

归档