0%

视觉语言大模型驱动的Embodied AI探索

探索基于VLM的Embodied AI

VLM的发展

  1. 将VLM视为拥有大量知识的“世界模型”和通用助手

  2. 从通用任务的涨点转向特定问题和任务的探索

VLM 与 Embodied AI 的共同挑战

数据集

场景基准理解

SQA3D (ICLR 23 UCLA):3D场景问答

SceneVerse (ArXiv 24 BIGAI):3D场景的多层次细粒度描述

操作策略与规划

Behavior-1K (ArXiv 24 Stanford):大量动作、真实场景和物体

ManiSkill2 (ICLR 23)

ManiSkill3 (ArXiv 24 USCD):多种机器人、任务、类别和场景

注:针对序列、复杂任务,这类数据集可能会简化抓取为“吸取”,降低了操作难度

细粒度操作

Meta-World (CoRL 19)

RLBench (RA-L 20 Google)

评测

Embodied Agent Interface (NeurIPS 24 Stanford):以往的评估仅针对最终成功率,提出一种分步的细粒度全面评估基准:

目标解释 :将自然语言目标转换为可能的目标、状态和动作

子任务分解 :将目标分解为一系列子任务

动作序列 :生成子任务间的一系列动作

转换建模 :执行动作完成状态转换

方法

场景基准理解

依靠RGB无法理解深度:机械臂抓到抹布了吗?

SpatialBot (ArXiv 24 Stanford):将深度信息融入VLM,基于深度推理任务训练

ShapeLLM (ECCV 24):基于3D点云和语言的多模态大模型,支持点云理解、任务规划、物体定位、场景理解等任务

UniTouch (CVPR 24):视觉-触觉大模型,支持触觉检索、触觉推理、触觉到图像生成、图像/文本到触觉生成

高层次规划

RT-H (ArXiv 24 Google):基于VLM先进行任务分解,再根据分解子任务预测动作

MultiPLY (CVPR 24 UCLA):提出一个场景感知数据集,包含声音、触觉、温度等

提出自我观察和多感知的大模型,将不同的感知信息整合到模型中,模型主动探索收集信息,再整合信息以生成后续操作

细粒度操作

Polaris (IROS 24):预测物体姿势辅助机械臂操作

Open6DoR (IROS 24 Oral):专注于细粒度任务的精确执行

  1. 利用SAM分割物体

  2. 利用VLM预测目标位置

  3. 3D重建和物理模拟稳定的目标姿态,计算目标旋转

  4. 利用ASGrasp生成当前物体的候选抓握姿势

  5. 调用启发式工具执行动作

总结

  1. 机器人领域关注复杂的模态输入,如视觉(2D、3D、深度)、听觉、触觉等都可能是行动的依据

  2. 评测基准较缺乏,指标单一,无法对任务失败的具体原因进行溯源,同时缺乏对安全、可靠性、效率等指标的评估

  3. 任务分解和规划是通用大模型最擅长的领域,是最容易将视觉语言信息融入的部分,此外这部分benchmark不依赖现实中的机器人