论文精读：VIT – 新世纪传说的个人博客

虽然现在，transformer已经是NLP领域（自然语言处理领域）的一个标准了，但是用transformer来做CV还是很有限的。在视觉里，自注意力要么和卷积神经网络一起用，要么就是把一些卷积替换成自注意力。这篇文章试图证明，transformer在CV领域对于卷积神经网络的以来，是不必要的。

题目解读：

一张图片可以分割成16*16的单词（patch），用transformer去做大规模图像识别。

Transformer在视觉领域中的问题：

如何将2D图片变成1D矩阵，仍旧是个挑战。理想状态下，把2D图片构成的张量拉直成1D张量，再采用NLP中的transformer机制进行操作；但是，想法很美好，现实很骨感，一般训练任务时，输入图片的大小为224 × 224，如果把图像中每个像素点当成一个元素看待，按照上述操作，那么其序列长度会远远超过512，复杂度会非常恐怖。

现有的一些操作

1.把图片的特征图当作输入量进行Transformer操作。

2.孤立自注意力：输入不用整张图，就用一个局部的小窗口，通过控制窗口的大小降低计算复杂度。

3.轴自注意力：先在高度这个维度上进行自注意力，再在宽度这个维度上进行自注意力。

现状：硬件不支持训练加速，不如传统残差网络。

在引言中，作者提出了可以将图片拆成16*16的小图片，最多会有196个图片，这样训练就使得复杂性大大降低。然而通过实验验证，作者发现，Transformer如果能带有传统神经网络具有的Locality和Weight Sharing，或许又能大大提升训练效果。

相关工作

整体架构

图1 模型的导览图

给定一张输入图像，首先将其划分为若干个图像块（patch）。设图像尺寸为 $H \times W$，每个 patch 尺寸为 $P \times P$，则 patch 数量为：$$ N = HW/P^2 $$ .

将这些 patch 展平并加上位置编码后形成一个长度为 $N$ 的序列。每个 patch 通过 patch embedding（一个全连接层）映射为一个特征向量。为了进行分类，借鉴 BERT 的做法，在序列起始位置（位置 0）添加一个可学习的特殊标记 [CLS]。该标记在自注意力机制中会与其他所有 patch 的特征相互学习，因此只需取 [CLS] 对应的输出作为全局图像表征，送入分类头即可完成分类。

Transformer encoder 的结构保持标准设计：层归一化 → 多头自注意力 → 残差连接 → 层归一化 → MLP → 残差连接。

下面推导全过程的向量维度（用字母表示）：

输入图像尺寸：$H \times W \times C$（$C$ 为通道数，通常为 3）。

每个 patch 展平后维度：$P^2 C$。

patch 数量：$N = \dfrac{HW}{P^2}$。

通过 patch embedding（输出维度 $D$），每个 patch 变为 $D$ 维，得到序列形状 $N \times D$。

添加 [CLS] token（也是 $D$ 维），序列长度变为 $N+1$，形状 $(N+1) \times D$。

加入位置编码（与序列相加，形状不变）：仍是 $(N+1) \times D$。

Transformer encoder（多层，每层保持维度不变）：输出 $(N+1) \times D$。

取出 [CLS] 对应的输出：$D$ 维向量。

最后通过分类头（线性层，输出类别数 $K$）：得到 $K$ 维 logits。

归纳偏置

vit虽然做了如此处理，但在二维空间上的归纳偏置，仍旧是不如CNN卷积神经网络。transformer依旧还是得让每个图片学习自己与全局的关系。

混合神经网络

结合transformer的全局性和CNN卷积神经网络的归纳偏置，作者提出了一种混合神经网络：

不把大图片打成patch，直接让大图片过很多次CNN，然后将14*14的特征进行transformer的操作。这个设想也为将来埋下了伏笔。

大图片的微调

如果图片变大，还用16*16的分割方式，很显然你每个小patch会变大，破坏了原来的结构，这样会使得提前训练好的位置编码没用了。作者提出，这里只需要简单的做一个2D插值，这步操作就用torch自带的interpolate函数就能完成。这里的差值，只能是一个临时的解决方案，因为如果差值过大，精度会受到较大影响。