探索基于VLM的Embodied AI

VLM的发展

将VLM视为拥有大量知识的“世界模型”和通用助手
从通用任务的涨点转向特定问题和任务的探索

VLM 与 Embodied AI 的共同挑战

数据集

场景基准理解

SQA3D (ICLR 23 UCLA)：3D场景问答

SceneVerse (ArXiv 24 BIGAI)：3D场景的多层次细粒度描述

操作策略与规划

Behavior-1K (ArXiv 24 Stanford)：大量动作、真实场景和物体

ManiSkill2 (ICLR 23)

ManiSkill3 (ArXiv 24 USCD)：多种机器人、任务、类别和场景

注：针对序列、复杂任务，这类数据集可能会简化抓取为“吸取”，降低了操作难度

细粒度操作

Meta-World (CoRL 19)

RLBench (RA-L 20 Google)

评测

Embodied Agent Interface (NeurIPS 24 Stanford)：以往的评估仅针对最终成功率，提出一种分步的细粒度全面评估基准：

目标解释 ：将自然语言目标转换为可能的目标、状态和动作

子任务分解 ：将目标分解为一系列子任务

动作序列 ：生成子任务间的一系列动作

转换建模 ：执行动作完成状态转换

方法

场景基准理解

依靠RGB无法理解深度：机械臂抓到抹布了吗？

SpatialBot (ArXiv 24 Stanford)：将深度信息融入VLM，基于深度推理任务训练

ShapeLLM (ECCV 24)：基于3D点云和语言的多模态大模型，支持点云理解、任务规划、物体定位、场景理解等任务

UniTouch (CVPR 24)：视觉-触觉大模型，支持触觉检索、触觉推理、触觉到图像生成、图像/文本到触觉生成

高层次规划

RT-H (ArXiv 24 Google)：基于VLM先进行任务分解，再根据分解子任务预测动作

MultiPLY (CVPR 24 UCLA)：提出一个场景感知数据集，包含声音、触觉、温度等

提出自我观察和多感知的大模型，将不同的感知信息整合到模型中，模型主动探索收集信息，再整合信息以生成后续操作

细粒度操作

Polaris (IROS 24)：预测物体姿势辅助机械臂操作

Open6DoR (IROS 24 Oral)：专注于细粒度任务的精确执行

利用SAM分割物体
利用VLM预测目标位置
3D重建和物理模拟稳定的目标姿态，计算目标旋转
利用ASGrasp生成当前物体的候选抓握姿势
调用启发式工具执行动作

总结

机器人领域关注复杂的模态输入，如视觉（2D、3D、深度）、听觉、触觉等都可能是行动的依据
评测基准较缺乏，指标单一，无法对任务失败的具体原因进行溯源，同时缺乏对安全、可靠性、效率等指标的评估
任务分解和规划是通用大模型最擅长的领域，是最容易将视觉语言信息融入的部分，此外这部分benchmark不依赖现实中的机器人

吴世涵的博客

视觉语言大模型驱动的Embodied AI探索

探索基于VLM的Embodied AI

VLM的发展

VLM 与 Embodied AI 的共同挑战

数据集

场景基准理解

操作策略与规划

细粒度操作

评测

方法

场景基准理解

高层次规划

细粒度操作

总结