
Embodied AI指的是具备感知、理解和行动能力的智能体,能够在物理或虚拟环境中执行任务。近年来,视觉语言大模型(VLM)在自然语言处理和计算机视觉领域取得了显著进展,为Embodied AI的发展提供了新的机遇。
本文将探讨基于VLM的Embodied AI的最新进展,包括其面临的挑战、数据集、评测方法以及具体的方法论。

Embodied AI指的是具备感知、理解和行动能力的智能体,能够在物理或虚拟环境中执行任务。近年来,视觉语言大模型(VLM)在自然语言处理和计算机视觉领域取得了显著进展,为Embodied AI的发展提供了新的机遇。
本文将探讨基于VLM的Embodied AI的最新进展,包括其面临的挑战、数据集、评测方法以及具体的方法论。


随着大模型的发展,用户往往面对如下情况:
比起“通用模型”,许多领域其实更需要“专用模型”,模型难以将一切领域的知识都掌握好。此外,知识总是随时间不断增多,模型不可能拥有未来的知识。

随着商用和闭源大模型的普及,用户往往无法直接访问模型参数,只能通过API调用模型。因此,黑盒调优方法变得尤为重要。黑盒调优方法指的是在无法直接访问模型参数的情况下,通过影响模型输入或输出,使得模型的性能得到提升。
本文将介绍进化算法、模型协同、对比解码、自主数据生成、边缘微调等黑盒调优方法。

随着深度学习的发展,模型结构和训练方法不断演进,推动了计算机视觉和自然语言处理等领域的突破。近年来,大模型和迁移学习成为研究热点,极大地提升了模型的性能和泛化能力。
本文将从传统视觉模型的发展、Transformer的发展、大模型时代以及预训练+迁移学习的范式转变等方面,系统地综述大模型与迁移学习的发展历程。
随着大规模预训练模型的发展,网络文本数据成为重要的训练资源。然而,网络数据通常包含大量噪声和低质量内容,直接使用可能影响模型性能。因此,数据清洗成为必要的步骤。
本文总结了C4、MassiveText和RefinedWeb三篇论文中关于网络文本数据清洗的策略。
随着深度学习的发展,计算机视觉领域取得了显著进展。然而,在小样本学习(Few-Shot Learning)场景下,传统的全局特征匹配方法往往难以捕捉图像中的细粒度信息,导致性能下降。
为了解决这一问题,研究者提出了Set-to-Set区域特征匹配方法,通过比较图像中的局部区域特征来提升匹配效果。
随着深度学习的发展,计算机视觉领域取得了显著进展。然而,在小样本学习(Few-Shot Learning)场景下,传统的全局特征匹配方法往往难以捕捉图像中的细粒度信息,导致性能下降。
为了解决这一问题,研究者提出了Set-to-Set区域特征匹配方法,通过比较图像中的局部区域特征来提升匹配效果。
Few-shot learning旨在利用极少量数据使模型适应一个任务。由于样本量及其稀少,提取有效知识变得困难,模型非常容易过拟合到背景和噪声信息上。
本文调查了few-shot learning中提取知识的方法,包括模型结构、微调策略、度量策略等方面的设计,并希望总结出一些规律,在prompt tuning的设计上能够有所启发。

Towards Open World Object Detection (CVPR 2021 Oral) 提出了一个新的领域:开放世界目标检测(OWOD),该任务具体来说如下: 1. 测试集图像中可能包含来自未知类别的目标,需要把这些目标分类为unknown 2. 当某些未知类别的目标变得已知后,模型可以逐渐学习到这些类别