视觉语言大模型驱动的Embodied AI探索

Embodied AI指的是具备感知、理解和行动能力的智能体,能够在物理或虚拟环境中执行任务。近年来,视觉语言大模型(VLM)在自然语言处理和计算机视觉领域取得了显著进展,为Embodied AI的发展提供了新的机遇。

本文将探讨基于VLM的Embodied AI的最新进展,包括其面临的挑战、数据集、评测方法以及具体的方法论。

阅读更多

面向高效的视觉语言大模型设计

  1. 随着大模型的发展和数据量的不断增加,预训练大模型逐渐拥有作为 “世界模型” 的潜力
  2. 现有工作逐渐从从头训练模型,转为大模型的 适配 ,以及 推理 时的 免训练 增强
  3. 比起学习新知识, 利用和激发预训练大模型 的知识成为新的热点
阅读更多

大模型高效微调调研

随着大模型的发展,用户往往面对如下情况:

  1. 用户没有预训练大规模数据的算力
  2. 用户没有微调甚至加载超大模型的能力
  3. 用户没有获取模型完整接口的权限

比起“通用模型”,许多领域其实更需要“专用模型”,模型难以将一切领域的知识都掌握好。此外,知识总是随时间不断增多,模型不可能拥有未来的知识。

阅读更多

大模型黑盒调优方法的调研

随着商用和闭源大模型的普及,用户往往无法直接访问模型参数,只能通过API调用模型。因此,黑盒调优方法变得尤为重要。黑盒调优方法指的是在无法直接访问模型参数的情况下,通过影响模型输入或输出,使得模型的性能得到提升。

本文将介绍进化算法、模型协同、对比解码、自主数据生成、边缘微调等黑盒调优方法。

阅读更多

大模型与迁移学习发展综述

随着深度学习的发展,模型结构和训练方法不断演进,推动了计算机视觉和自然语言处理等领域的突破。近年来,大模型和迁移学习成为研究热点,极大地提升了模型的性能和泛化能力。

本文将从传统视觉模型的发展、Transformer的发展、大模型时代以及预训练+迁移学习的范式转变等方面,系统地综述大模型与迁移学习的发展历程。

阅读更多

网络文本数据的清洗策略

image.png

随着大规模预训练模型的发展,网络文本数据成为重要的训练资源。然而,网络数据通常包含大量噪声和低质量内容,直接使用可能影响模型性能。因此,数据清洗成为必要的步骤。

本文总结了C4、MassiveText和RefinedWeb三篇论文中关于网络文本数据清洗的策略。

阅读更多

矢量数据库的调研

矢量数据库是一种新兴的数据库类型,专门用于存储和处理高维数据,在拥有对矢量的计算和分析能力的同时,也和传统数据库一样拥有对结构化数据的管理能力。本文对矢量数据库进行了详尽的介绍,从用户需求,即深度学习模型需要存储和比较海量数据的角度出发,介绍了矢量数据库的发展。之后介绍了矢量的定义、类型和算法,以及矢量数据库的工作原理,如索引编排、矢量查询、矢量后处理等,深入剖析了矢量数据库的底层逻辑。之后,本文介绍了矢量数据库系统的架构,存储管理、安全管理等,展示了现代的矢量数据库系统是如何在分布式场景下运作。最后,本文介绍了矢量数据库的一些应用场景,如图像检索、搜索引擎等,展示了矢量数据库的具体应用价值。

阅读更多

Set-to-Set区域特征匹配方法

image.png

随着深度学习的发展,计算机视觉领域取得了显著进展。然而,在小样本学习(Few-Shot Learning)场景下,传统的全局特征匹配方法往往难以捕捉图像中的细粒度信息,导致性能下降。

为了解决这一问题,研究者提出了Set-to-Set区域特征匹配方法,通过比较图像中的局部区域特征来提升匹配效果。

阅读更多

小样本学习中的局部特征学习方法

image.png

随着深度学习的发展,计算机视觉领域取得了显著进展。然而,在小样本学习(Few-Shot Learning)场景下,传统的全局特征匹配方法往往难以捕捉图像中的细粒度信息,导致性能下降。

为了解决这一问题,研究者提出了Set-to-Set区域特征匹配方法,通过比较图像中的局部区域特征来提升匹配效果。

阅读更多

小样本学习中的元知识学习方法

Pasted image 20230417103801

Few-shot learning旨在利用极少量数据使模型适应一个任务。由于样本量及其稀少,提取有效知识变得困难,模型非常容易过拟合到背景和噪声信息上。

本文调查了few-shot learning中提取知识的方法,包括模型结构、微调策略、度量策略等方面的设计,并希望总结出一些规律,在prompt tuning的设计上能够有所启发。

阅读更多