标签: 世界模型 - Koorye's Blog

2025-11-07发表2026-03-17更新深度学习3 分钟读完 (大约484个字)

Latent Action调研

Object-Centric Latent Action Learning (2025.6)

image.png

动机：视觉干扰物（如动态背景）在潜在动作学习中存在负面影响方法：预训练视频模型将视频分解为可解释对象槽，通过线性回归选择前景对象槽学习latent

2025-07-14发表2026-03-17更新深度学习12 分钟读完 (大约1780个字)

从人类视频中学习机器人动作：人工设计与潜在动作

机器人策略的学习依赖大量机器人动作数据，而机器人数据收集成本极高
另一方面，人类动作视频中存在大量与机器人操作相似的规律
如何从人类视频中提供迁移到机器人的通用动作信息，成为重要问题

人工设计阶段

人工设计：图像编辑

LuciBot|1000 LuciBot通过密集的检测、分割、跟踪等方法，得到人手和操作物体的位置和运动轨迹，之后通过图像编辑将人手替换为机械臂，从而迁移到机器人数据

这种方法往往针对特定任务，且生成的视频不一定符合物理规律