0%

本文总结了大模型与迁移学习的发展历程,从传统视觉模型的发展、Transformer的发展、大模型时代、预训练+迁移学习的范式转变等方面进行了详细的阐述。

阅读全文 »

本文总结了C4、MassiveText和RefinedWeb三篇论文中关于网络文本数据清洗的策略,包括内容过滤、文本提取、质量过滤、去除重复、文档去重等步骤,以及数据分析结果。

阅读全文 »

本文对矢量数据库进行了详尽的介绍,从用户需求,即深度学习模型需要存储和比较海量数据的角度出发,介绍了矢量数据库的发展。之后介绍了矢量的定义、类型和算法,以及矢量数据库的工作原理,如索引编排、矢量查询、矢量后处理等,深入剖析了矢量数据库的底层逻辑。之后,本文介绍了矢量数据库系统的架构,存储管理、安全管理等,展示了现代的矢量数据库系统是如何在分布式场景下运作。最后,本文介绍了矢量数据库的一些应用场景,如图像检索、搜索引擎等,展示了矢量数据库的具体应用价值。

阅读全文 »

小样本学习中局部特征学习非常重要,因为在有限的样本中,局部特征能够更好地捕捉样本的细节信息,从而提高模型的泛化能力。本文总结了小样本学习中局部特征学习的方法,包括局部特征匹配和局部特征融合两大类方法。

阅读全文 »

本文调查了小样本学习中提取知识的方法,包括模型结构、微调策略、度量策略等方面的设计,并希望总结出一些规律,在prompt tuning的设计上能够有所启发。

阅读全文 »