CLIP改进工作

# CLIP【Learning transferable Visual Models From Natural Language Supervision】

通过图像文本对之间进行对比学习预训练网络，将预训练网络迁移到其他数据集做Zero-Shot的分类任务，有非常好的泛化性能与多模态能力

使用了大量的图像文本对（亿级）

0e049dc8e41c0cdbcec21f539e506341

首先根据图像文本对计算相似度，以此计算对比损失预训练模型
迁移到其他数据集上：假如说1000类的ImageNet，使用一个文本prompt将类的文本填入{ }中，过文本编码器得到文本特征，将图像过图像编码器得到图像特征，计算相似度，之后过softmax将最大的作为预测类别

将CLIP思想用于语义分割的一篇工作，没有用到对比学习，训练过程是有监督的训练

4ca42c7bceb00eae0b434a79441cdbfa

6d2b1fe43c0226f21ded3f59e0e0728f

思想很简单，只是将文本特征与图像特征乘了一下，这使得后面在使用这一模型的时候，可以使用本文作为prompt来分割图像

在语义分割中引入了Grouping Block，能够对图像中的像素点进行分组，解决了分割问题难以与一组文本计算对比损失的问题

3fae65e72d28261d86b8cf24b44239a4

网络结构是ViT，在几个Transformer层中加入了两个Grouping Block层
第一个Grouping Block作用前先在前一个Transformer层上加入64个与特征一样大的token，可以理解为聚类中心
经Transformer层互相关注之后，在Grouping Block内部，经过几次矩阵乘法将特征的数量变为与之前加入的token数量，即64，这个过程可以看做是一个细分类
在Grouping Block内部，用到了gumbel softmax使这一过程变为可学习的，因为其中有一项矩阵乘法没有任何参数，无法学习
第二个Grouping Block与第一个中间隔了几层Transformer层，第二个与第一个计算差不多，不过减少了token的数量，以实现更宽泛的分类
最后将特征平均池化之后与文本特征计算对比损失
之后就与CLIP一样

模型使用过程如下：

9c7b45c5a5ed527bfd0a8ae0df59d126

作者这里做了一个实验，将网络中途产生的特征单独拿出来进行分割，可以看到，第一个Grouping Block产生的特征关注的都是小物体，因为这里加入的token数量为64，比较多，而第二个Grouping Block就关注的是一些大物体了，因为这里的token数量为8

a500c6f514a5bb2e9f6799b599b923ef

这是一个做目标检测的网络，动机是能够检测到任意新的物品类别，在已有数据集的基础上去，训练过程为有监督的

47e9e8d8303859f9c2b9839f01972739

a为baseline，就是一个maskRCNN
绿色的组件为可训练的，蓝色的表示不可训练，权重锁死的
b前面一部分就是正常的提取图像特征，back ground为背景类，与文本特征一起与图像特征计算相似度，之后计算损失
c为知识蒸馏的过程，这是为了让我们要训练网络的特征与预训练网络（CLIP）提取的特征尽可能的一致，这可以大大利用CLIP中的文本辨别力，这里的M pre-computed proposals是预先处理好的，为了减少计算量
d就是ViLD的整体架构

更形象化的流程图：

c5d1c1df737261897c0991eb7e4b0520