游侠的博客 游侠的博客
首页
  • 论文笔记
  • 一些小知识点

    • pytorch、numpy、pandas函数简易解释
  • 《深度学习500问》
开发
技术
更多
关于
收藏
  • 分类
  • 标签
  • 归档
GitHub (opens new window)

Ranger

一名在校研究生
首页
  • 论文笔记
  • 一些小知识点

    • pytorch、numpy、pandas函数简易解释
  • 《深度学习500问》
开发
技术
更多
关于
收藏
  • 分类
  • 标签
  • 归档
GitHub (opens new window)
  • 论文笔记

    • Transformer笔记
    • Gated Transformer Networks for Multivariate Time Series Classification
    • SwingTransformer
    • Rocket、MiniRocket、MultiRocket
    • A survey on semi-supervised learning
    • 半监督学习经典方法 Π-model、Mean Teacher
    • A survey on semi-supervised learning半监督综述
    • CLIP改进工作
      • 计算机视觉对比学习综述
      • Large Language Models can Deliver Accurate and Interpretable Time Series Anomaly Detection
    • 一些小知识点

    • 《深度学习500问》

    • pytorch知识点

    • 人工智能
    • 论文笔记
    yangzhixuan
    2023-08-07
    目录

    CLIP改进工作

    # CLIP【Learning transferable Visual Models From Natural Language Supervision】

    # 简单介绍

    通过图像文本对之间进行对比学习预训练网络,将预训练网络迁移到其他数据集做Zero-Shot的分类任务,有非常好的泛化性能与多模态能力

    使用了大量的图像文本对(亿级)

    # 网络模型

    0e049dc8e41c0cdbcec21f539e506341

    • 首先根据图像文本对计算相似度,以此计算对比损失预训练模型
    • 迁移到其他数据集上:假如说1000类的ImageNet,使用一个文本prompt将类的文本填入{ }中,过文本编码器得到文本特征,将图像过图像编码器得到图像特征,计算相似度,之后过softmax将最大的作为预测类别

    # Lseg【Language-Driven Semantic Segmentation】ICLR 2022

    # 简单介绍

    将CLIP思想用于语义分割的一篇工作,没有用到对比学习,训练过程是有监督的训练

    # 实际效果

    4ca42c7bceb00eae0b434a79441cdbfa

    # 网络架构

    6d2b1fe43c0226f21ded3f59e0e0728f

    • 给定一张图片与一组文本标签,建立图像与这组文本信息的对应关系
    • 文本特征与图像特征相乘,通道从C变为N
    • 先降维再升维
    • 最后是有ground truch mask的,计算的损失就是在这个标签上计算的

    # 评价

    思想很简单,只是将文本特征与图像特征乘了一下,这使得后面在使用这一模型的时候,可以使用本文作为prompt来分割图像

    # Group ViT【Group ViT: Semantic Segmentation Emerges from Text Supervision】CVPR 2022

    # 简单介绍

    在语义分割中引入了Grouping Block,能够对图像中的像素点进行分组,解决了分割问题难以与一组文本计算对比损失的问题

    # 模型介绍

    3fae65e72d28261d86b8cf24b44239a4

    • 网络结构是ViT,在几个Transformer层中加入了两个Grouping Block层
    • 第一个Grouping Block作用前先在前一个Transformer层上加入64个与特征一样大的token,可以理解为聚类中心
    • 经Transformer层互相关注之后,在Grouping Block内部,经过几次矩阵乘法将特征的数量变为与之前加入的token数量,即64,这个过程可以看做是一个细分类
    • 在Grouping Block内部,用到了gumbel softmax使这一过程变为可学习的,因为其中有一项矩阵乘法没有任何参数,无法学习
    • 第二个Grouping Block与第一个中间隔了几层Transformer层,第二个与第一个计算差不多,不过减少了token的数量,以实现更宽泛的分类
    • 最后将特征平均池化之后与文本特征计算对比损失
    • 之后就与CLIP一样

    模型使用过程如下:

    9c7b45c5a5ed527bfd0a8ae0df59d126

    # 可视化

    作者这里做了一个实验,将网络中途产生的特征单独拿出来进行分割,可以看到,第一个Grouping Block产生的特征关注的都是小物体,因为这里加入的token数量为64,比较多,而第二个Grouping Block就关注的是一些大物体了,因为这里的token数量为8

    a500c6f514a5bb2e9f6799b599b923ef

    # ViLD【OPEN-VOCABULARY OBJECT DETECTION VIA VISION AND LANGUAGE KNOWLEDGE DISTILLATION】ICLR 2022

    # 简单介绍

    这是一个做目标检测的网络,动机是能够检测到任意新的物品类别,在已有数据集的基础上去,训练过程为有监督的

    # 网络模型

    47e9e8d8303859f9c2b9839f01972739

    • a为baseline,就是一个maskRCNN
    • 绿色的组件为可训练的,蓝色的表示不可训练,权重锁死的
    • b前面一部分就是正常的提取图像特征,back ground为背景类,与文本特征一起与图像特征计算相似度,之后计算损失
    • c为知识蒸馏的过程,这是为了让我们要训练网络的特征与预训练网络(CLIP)提取的特征尽可能的一致,这可以大大利用CLIP中的文本辨别力,这里的M pre-computed proposals是预先处理好的,为了减少计算量
    • d就是ViLD的整体架构

    更形象化的流程图:

    c5d1c1df737261897c0991eb7e4b0520

    # GLIP【Grounder Language-Image Pre-training】

    # 简单介绍

    通过Vision Grounding来使用图像文本对训练模型

    将检测与Grounding结合起来做模型的训练,分类损失与定位损失结合

    有监督学习

    # 网络架构

    91bb3b98d6e82d6c27f9b4c1d0646154

    • 根据bunding box拆分图像,利用图像编码器编码图像特征,利用文本编码器编码文本prompt的特征
    • 得到特征之后多过了几层网络用于特征融合,以达到更好地效果
    • Alignment Loss就是图像文本对的相似损失,Localization Loss就是目标检测中的定位损失

    # CLIPasso:Semantically-Aware Object Sketching

    保持语义信息的简笔素描

    6debd1a9ff118b6353a397e241b3b337

    抽象非常重要

    网络前面几层的特征有更具体的空间信息(位置、几何形状、朝向等)

    编辑 (opens new window)
    上次更新: 2024/05/30, 07:49:34
    A survey on semi-supervised learning半监督综述
    计算机视觉对比学习综述

    ← A survey on semi-supervised learning半监督综述 计算机视觉对比学习综述→

    最近更新
    01
    tensor比较大小函数
    05-30
    02
    Large Language Models can Deliver Accurate and Interpretable Time Series Anomaly Detection
    05-27
    03
    半监督学习经典方法 Π-model、Mean Teacher
    04-10
    更多文章>
    Theme by Vdoing | Copyright © 2023-2024 Ranger | MIT License
    • 跟随系统
    • 浅色模式
    • 深色模式
    • 阅读模式