大模型与迁移学习发展综述

传统视觉模型的发展

VGG (ICLR 2015)(ImageNet挑战赛2014亚军)：需要人工精心设计网络结构，一旦网络做深，很容易出现梯度消失现象。在这一阶段，人们通过数据白化等人工操作缓解梯度消失，网络深度存在很大限制

ResNet (CVPR 2016 Best Paper)(ImageNet挑战赛2015冠军)：提出残差结构，模型层数得以从22层增加到152层，而不会出现梯度消失

RegNet (CVPR 2024)：网络结构搜索

总结：随着深度卷积网络和网络结构搜索的发展，卷积神经网络的性能几乎已经达到极限了，很难继续有突破。

Transformer 的发展

GPT系列 (2018)：采用Transformer结构作为骨干网络，提出自回归的训练形式

具体来说，模型接受一个句子的输入，句子可以视为若干token组成的序列，之后模型的每一个输出token的负责预测下一个输入的token。这种训练方式适合进行生成任务

BERT (NAACL 2018)：同样采用Transformer结构，提出自遮蔽(mask)的训练方式

具体来说，类似完形填空的形式，模型接收一个句子的输入，并将其中部分随机15%的token进行掩码处理，模型负责预测完整的句子。这种训练方式适合进行分类任务

总结：Transformer结构在NLP领域发展，自监督的预训练方式也被提出，但没有被CV领域所接纳

大模型时代

视觉大模型的发展

ViT (CVPR 2021)：将transformer结构引入图像分类任务中，提出将图像切割为若干patch，将patch序列送入transformer并预测类别

样本在10M时，ViT性能不及ResNet，然而在样本量继续增加时，ViT性能反超，且到了300M也没有饱和，这意味着ViT的潜力还未被充分挖掘，这引起了巨大的轰动

SwinT (CVPR 2021)：采用由局部到全局的特征金字塔的结构，提出大大减少计算量的window attention操作。这样的结构有利于目标检测、语义分割等细粒度任务。

语言大模型的发展

GPT-3 (NeurIPS 2020)：随着参数量大大增加（1750亿，GPT-2的116倍），模型呈现零样本或少样本泛化（涌现）能力，具体来说，仅需要提供一个未知任务的说明或少量样本，模型无需微调也可以实现很好的性能

InstructGPT/Codex/ChatGPT (arXiv 2022)：基于GPT-3，通过人工进行微调

人工挑选高质量数据供模型微调；
微调后模型对一系列问题预测答案，人工对这些答案进行打分；
模型基于强化学习进行微调，使答案尽可能达到高分

多模态大模型的发展

CLIP (ICML 2021)：分别训练一个视觉和文本编码器，将图像/文本送入两个编码器得到特征后，通过对比损失进行对齐。

经过训练后，该模型可以在不进行任何微调的情况下，完成开放集合的图像分类任务。具体来说，将可能的类别与人工构造的prompt相拼接，构造成"A photo of a [CLASS]."的文本序列，送入文本编码器得到文本特征。另一边，图像送入视觉编码器得到视觉特征。通过衡量视觉特征与每个类别文本特征的相似度，就可以判断图像属于哪一类。