具身智能相关的最新数据集调研
精密操作
Two by Two (CVPR 25)
针对装配任务的数据集,将物体分成2个零件,提供零件在空间中的组合结构
DexMimicGen
将双手协调任务分为:并行任务、协调任务、顺序任务
DexTOG
学习物体的最佳接触姿势
GEAL/LMAffordance3d (CVPR 25)
学习物体的可供性区域
PartRM (CVPR 25)
通过物体图像和指定力方向,预测施加力之后的物体状态
虚实结合
Sim-to-Real Co-Training
构造真机数据+虚拟环境中几乎相同任务和轨迹的数字孪生
细粒度标注
Open3DVQA

为3D场景提供丰富的标注: 1.
物体属性:高度、宽度、体积 2. 物体间的定性关系:上下、前后、左右 3.
物体间的定量关系:距离、垂直距离、水平距离、相对角度
RACER (ICRA 24)
丰富的异常状态恢复数据
物理建模
PISA

采集物体的自由落体轨迹
与人交互
HA-VLN
在充满动态的人类活动环境中导航
GenH2R (CVPR 24)
从人类移动物体的轨迹中抓取物体
Tool-as-Interface
用工具作为介质,通过人类操作工具的轨迹指导机器人运动
Robi Butler (ICRA 25)
用户通过VR和语言指定物体,控制机器人进行抓取
SafeAgentBench
在虚拟环境中收集了安全和危险的行为
Is This It? (ICMI 24)
面对用户不确定的需求,抓起物体询问,根据反馈继续操作、
多模态信息
Chain-of-Modality
用肌肉信号、姿态信息、视频指导机器人学习
MultiPLY (CVPR 24)
学习温度、触觉、视觉、音频等丰富的多模态信息
Reactive Diffusion Policy (RSS 25)
融合了触觉反馈信息的机器人策略,采集过程中通过AR向用户反馈触觉信息
ManiWAV (CoRL 24)
用指尖麦克风学习类触觉信息
总结
| 研究方向 | 论文名称/简称 | 关键贡献 | 创新点/特点 |
|---|---|---|---|
| 精密操作 | Two by Two (CVPR'25) | 零件装配数据集 | 将物体拆分为两个零件,提供空间组合结构 |
| DexMimicGen | 双手协调任务分类 | 将操作分为:并行任务、协调任务、顺序任务 | |
| DexTOG | 物体接触姿势学习 | 预测物体操作的最佳接触位姿 | |
| GEAL (CVPR'25) | 物体可供性学习 | 识别物体表面的功能性区域(可抓取/可操作区域) | |
| PartRM (CVPR'25) | 物理状态预测 | 基于输入力和方向预测物体形变/运动状态 | |
| 虚实融合 | Sim-to-Real Co-Training | 仿真-真机联合训练 | 创建真机数据 + 相同任务的数字孪生,对齐虚拟与现实轨迹 |
| 细粒度标注 | Open3DVQA | 3D场景多维度标注 | 包含: • 物体属性(尺寸/体积) • 空间关系(定性方位+定量距离/角度) |
| RACER (ICRA'24) | 异常操作数据集 | 收集机器人异常状态及恢复策略(如抓取失败后的调整) | |
| 物理建模 | PISA | 物体物理特性采集 | 通过自由落体轨迹反推材料属性(弹性/摩擦系数) |
| 人机交互 | HA-VLN | 动态环境导航 | 在人类活动场景中安全移动(避让行人/动态障碍) |
| GenH2R (CVPR'24) | 人类示范学习 | 从人手移动轨迹推导抓取策略 | |
| Tool-as-Interface | 工具操作学习 | 通过人类操作工具的轨迹指导机器人动作 | |
| Robi Butler (ICRA'25) | 多模态交互 | VR+语言指定物体,控制机器人执行任务 | |
| SafeAgentBench | 安全边界学习 | 标注危险操作边界(靠近高温/尖锐物等) | |
| Is This It? (ICMI'24) | 交互式任务执行 | 主动询问确认用户意图 | |
| 多模态感知 | Chain-of-Modality | 多模态融合学习 | 融合肌肉信号+姿态信息+视频指导操作 |
| MultiPLY (CVPR'24) | 多模态联合表征 | 同时学习温度/触觉/音频/视觉等物性特征 | |
| Reactive Diffusion (RSS'25) | 触觉增强策略 | 融合触觉反馈+AR可视化,实现闭环控制 | |
| ManiWAV (CoRL'24) | 替代触觉感知 | 用指尖麦克风采集振动信号实现低成本"类触觉"感知 |
- 精密操作:设计需要双臂协调才能完成的精密任务,如零件组合、双手顺序协作、特定接触面操作等
- 虚实结合:设计真实与虚拟逐任务匹配的任务,并提供真实与虚拟中的视觉、触觉等精密反馈
- 细粒度标注:提供物体属性、空间关系等细粒度数据
- 物理建模:设计与物理规律相关的任务,如接住下落物体、抓住移动的遥控车、将物体丢进筐中等
- 人机交互:设计与人相关的任务,如抓取人手提供的物体,根据人类的视觉提示或手势抓取正确的物体,从人类模糊不清的指令中学习反馈并最终抓取正确的物体
- 多模态感知:从肌肉信号、温度、触觉、声音等层面收集丰富的信息,用于解决特定任务,如把烤好的面包放进盘子
- 安全:收集安全操作和危险操作,可以是指令层面就显现的危险(如把刀丢出去),也可以是动作在执行过程中出现的危险(如鸡蛋捏碎、玻璃瓶没拿紧)
具身智能相关的最新数据集调研