2025-07-03发表2026-03-17更新深度学习11 分钟读完 (大约1658个字)

具身智能相关的最新数据集调研

精密操作

Two by Two (CVPR 25)

Pasted image 20250703165945|500 针对装配任务的数据集，将物体分成2个零件，提供零件在空间中的组合结构

DexMimicGen

Pasted image 20250703172708|500 将双手协调任务分为：并行任务、协调任务、顺序任务

DexTOG

Pasted image 20250703173157|500 学习物体的最佳接触姿势

GEAL/LMAffordance3d (CVPR 25)

Pasted image 20250703175941|500 学习物体的可供性区域

PartRM (CVPR 25)

Pasted image 20250703180230|500 通过物体图像和指定力方向，预测施加力之后的物体状态

虚实结合

Sim-to-Real Co-Training

Pasted image 20250703170226|600 构造真机数据+虚拟环境中几乎相同任务和轨迹的数字孪生

细粒度标注

Open3DVQA

Pasted image 20250703171501|800 Pasted image 20250703171519|300 为3D场景提供丰富的标注： 1. 物体属性：高度、宽度、体积 2. 物体间的定性关系：上下、前后、左右 3. 物体间的定量关系：距离、垂直距离、水平距离、相对角度

RACER (ICRA 24)

Pasted image 20250703173634 丰富的异常状态恢复数据

物理建模

PISA

Pasted image 20250703172119|500 Pasted image 20250703172026|400 采集物体的自由落体轨迹

与人交互

HA-VLN

Pasted image 20250703173424 在充满动态的人类活动环境中导航

GenH2R (CVPR 24)

Pasted image 20250703173728 从人类移动物体的轨迹中抓取物体

Tool-as-Interface

Pasted image 20250703174018 用工具作为介质，通过人类操作工具的轨迹指导机器人运动

Robi Butler (ICRA 25)

Pasted image 20250703175609 用户通过VR和语言指定物体，控制机器人进行抓取

SafeAgentBench

Pasted image 20250703172346 在虚拟环境中收集了安全和危险的行为

Is This It? (ICMI 24)

Pasted image 20250703182241 面对用户不确定的需求，抓起物体询问，根据反馈继续操作、

多模态信息

Chain-of-Modality

Pasted image 20250703174219 用肌肉信号、姿态信息、视频指导机器人学习

MultiPLY (CVPR 24)

Pasted image 20250703174329 学习温度、触觉、视觉、音频等丰富的多模态信息

Reactive Diffusion Policy (RSS 25)

Pasted image 20250703174531 融合了触觉反馈信息的机器人策略，采集过程中通过AR向用户反馈触觉信息

ManiWAV (CoRL 24)

Pasted image 20250703181435 用指尖麦克风学习类触觉信息

总结

研究方向	论文名称/简称	关键贡献	创新点/特点
精密操作	Two by Two (CVPR'25)	零件装配数据集	将物体拆分为两个零件，提供空间组合结构
	DexMimicGen	双手协调任务分类	将操作分为：并行任务、协调任务、顺序任务
	DexTOG	物体接触姿势学习	预测物体操作的最佳接触位姿
	GEAL (CVPR'25)	物体可供性学习	识别物体表面的功能性区域（可抓取/可操作区域）
	PartRM (CVPR'25)	物理状态预测	基于输入力和方向预测物体形变/运动状态
虚实融合	Sim-to-Real Co-Training	仿真-真机联合训练	创建真机数据 + 相同任务的数字孪生，对齐虚拟与现实轨迹
细粒度标注	Open3DVQA	3D场景多维度标注	包含： • 物体属性（尺寸/体积） • 空间关系（定性方位+定量距离/角度）
	RACER (ICRA'24)	异常操作数据集	收集机器人异常状态及恢复策略（如抓取失败后的调整）
物理建模	PISA	物体物理特性采集	通过自由落体轨迹反推材料属性（弹性/摩擦系数）
人机交互	HA-VLN	动态环境导航	在人类活动场景中安全移动（避让行人/动态障碍）
	GenH2R (CVPR'24)	人类示范学习	从人手移动轨迹推导抓取策略
	Tool-as-Interface	工具操作学习	通过人类操作工具的轨迹指导机器人动作
	Robi Butler (ICRA'25)	多模态交互	VR+语言指定物体，控制机器人执行任务
	SafeAgentBench	安全边界学习	标注危险操作边界（靠近高温/尖锐物等）
	Is This It? (ICMI'24)	交互式任务执行	主动询问确认用户意图
多模态感知	Chain-of-Modality	多模态融合学习	融合肌肉信号+姿态信息+视频指导操作
	MultiPLY (CVPR'24)	多模态联合表征	同时学习温度/触觉/音频/视觉等物性特征
	Reactive Diffusion (RSS'25)	触觉增强策略	融合触觉反馈+AR可视化，实现闭环控制
	ManiWAV (CoRL'24)	替代触觉感知	用指尖麦克风采集振动信号实现低成本"类触觉"感知

精密操作：设计需要双臂协调才能完成的精密任务，如零件组合、双手顺序协作、特定接触面操作等
虚实结合：设计真实与虚拟逐任务匹配的任务，并提供真实与虚拟中的视觉、触觉等精密反馈
细粒度标注：提供物体属性、空间关系等细粒度数据
物理建模：设计与物理规律相关的任务，如接住下落物体、抓住移动的遥控车、将物体丢进筐中等
人机交互：设计与人相关的任务，如抓取人手提供的物体，根据人类的视觉提示或手势抓取正确的物体，从人类模糊不清的指令中学习反馈并最终抓取正确的物体
多模态感知：从肌肉信号、温度、触觉、声音等层面收集丰富的信息，用于解决特定任务，如把烤好的面包放进盘子
安全：收集安全操作和危险操作，可以是指令层面就显现的危险（如把刀丢出去），也可以是动作在执行过程中出现的危险（如鸡蛋捏碎、玻璃瓶没拿紧）

作者

Koorye

发布于

2025-07-03

更新于

2026-03-17

许可协议

#深度学习具身智能数据集