视觉语言大模型驱动的Embodied AI探索

Embodied AI指的是具备感知、理解和行动能力的智能体,能够在物理或虚拟环境中执行任务。近年来,视觉语言大模型(VLM)在自然语言处理和计算机视觉领域取得了显著进展,为Embodied AI的发展提供了新的机遇。

本文将探讨基于VLM的Embodied AI的最新进展,包括其面临的挑战、数据集、评测方法以及具体的方法论。

阅读更多