游侠的博客 游侠的博客
首页
  • 论文笔记
  • 一些小知识点

    • pytorch、numpy、pandas函数简易解释
  • 《深度学习500问》
开发
技术
更多
关于
收藏
  • 分类
  • 标签
  • 归档
GitHub (opens new window)

Ranger

一名在校研究生
首页
  • 论文笔记
  • 一些小知识点

    • pytorch、numpy、pandas函数简易解释
  • 《深度学习500问》
开发
技术
更多
关于
收藏
  • 分类
  • 标签
  • 归档
GitHub (opens new window)
  • 论文笔记

    • Transformer笔记
    • Gated Transformer Networks for Multivariate Time Series Classification
    • SwingTransformer
      • Transformer与Vision Transformer对比
      • 整体框架图
      • Patch Merging
      • W-MSA
      • Shifted Window
      • 参考资料
    • Rocket、MiniRocket、MultiRocket
    • A survey on semi-supervised learning
    • 半监督学习经典方法 Π-model、Mean Teacher
    • A survey on semi-supervised learning半监督综述
    • CLIP改进工作
    • 计算机视觉对比学习综述
    • Large Language Models can Deliver Accurate and Interpretable Time Series Anomaly Detection
  • 一些小知识点

  • 《深度学习500问》

  • pytorch知识点

  • 人工智能
  • 论文笔记
yangzhixuan
2023-03-05
目录

SwingTransformer

# Transformer与Vision Transformer对比

image

不同:

  1. Swin Transformer构建的feature map是具有层次性的,网络越深下采样倍率越大
  2. 红框为窗口。Swin Transformer的窗口是分开的,VIT是连起来的,这样做能够大大减低运算量

# 整体框架图

image

Patch Partition:

image

将图片的每一个窗口,将它的patch在channel方向进行展平

整体框架图中经过Patch Partition后的48就是RGB三通道数展平后的16块即316得到的

之后,通过Linear Embeding层对每个像素的channel数据做线性变换,由48变成C

# Patch Merging

image

每个窗口中的patch被分为四类,将相同位置的patch放置在一起,在通道方向进行连接,并对每一个通道分别进行LayerNorm,最后经过一个线性层将通道数减半,最后整体的效果就是feature map的通道数翻倍,高和宽减半

# W-MSA

全称:窗口-多头注意力

目的:减少计算量

缺点:窗口之间无法进行信息交互

image

原MSA:图片上的每一个像素对其他所有像素做self attention

W-MSA:每个窗口内部做self attention

节省的计算量:

image

# Shifted Window

目的:实现不同window之间的信息交互,之前情况中窗口与窗口之间是没有通讯的

image

变换之后的窗口能够计算不同之前不同窗口之间的自注意力,但如果直接进行计算的话,将需要计算9个窗口的自注意力,因此作者采用了另外一种方法

原分割情况:

image

窗口转换之后结果:

image

具体计算图(以5、3区域为例):

image

计算注意力的时候依旧是对一整块区域计算注意力,但区域5和区域3之间交叉的地方需要抛弃,这里采用的方法是在给定位置一个比较小的数,这样做softmax就会变成0,也就消失了

# 参考资料

沐神视频 (opens new window)

霹雳吧啦视频 (opens new window)

博客 (opens new window)

编辑 (opens new window)
上次更新: 2024/05/30, 07:49:34
Gated Transformer Networks for Multivariate Time Series Classification
Rocket、MiniRocket、MultiRocket

← Gated Transformer Networks for Multivariate Time Series Classification Rocket、MiniRocket、MultiRocket→

最近更新
01
tensor比较大小函数
05-30
02
Large Language Models can Deliver Accurate and Interpretable Time Series Anomaly Detection
05-27
03
半监督学习经典方法 Π-model、Mean Teacher
04-10
更多文章>
Theme by Vdoing | Copyright © 2023-2024 Ranger | MIT License
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式