当前位置：首页 > 编程资源 > 编程问答 >内容正文

编程问答

Attention Mechanisms in Computer Vision: A Survey论文阅读

发布时间：2023/12/9 编程问答 76 豆豆

生活随笔收集整理的这篇文章主要介绍了 Attention Mechanisms in Computer Vision: A Survey论文阅读小编觉得挺不错的,现在分享给大家,帮大家做个参考.

笔者自行翻译，没有借助翻译软件，不一定准确

Guo, MH., Xu, TX., Liu, JJ. et al. Attention mechanisms in computer vision: A survey. Comp. Visual Media 8, 331–368 (2022). https://doi.org/10.1007/s41095-022-0271-y

PDF link：Attention mechanisms in computer vision: A survey | SpringerLink

Abstract：

人类可以自然有效地找到复杂场景中的突出区域。受到这个发现的启发，带着模仿人类视觉系统的目的，注意力机制被引入计算机视觉CV界。注意力机制可以看作基于输入图像特征的动态权重调整过程。注意力机制在很多视觉任务上都取得了成功，比如包括图像分类、目标检测、语义分割、视频理解、图像生成、3D视觉、多模态任务和自我监督学习。在本文，我们提供了在CV中不同注意力机制的综述，并按照通道注意力、空间注意力、时间注意力、分支注意力进行分类。相关工作锦集见🔗github link。我们也提议了注意力机制研究在未来的发展方向。

Key words：

1 Introduction:

把注意力应用于图像的最重要区域、不关注不相关部分的行为称作注意力机制；在有效分析和理解复杂场景中，人类视觉系统使用【1、2、3、4】来帮助理解。这些反过来鼓舞研究者把注意力机制引入CV来提升网络的表现。在视觉系统，注意力机制可以被看作依据输入重要性的自适应权重特征的动态挑选过程。注意力机制已经在很多视觉任务取得了好处，比如图像分类、目标检测、语义分割、人脸识别、人再识别、动作识别、少样本学习、医学图像处理、图像生成、姿势估计、超分辨率、3D视觉、多模态任务。

近十年，注意力机制在CV领域发挥着越来越重要的作用。Fig1深度学习CV领域对基于注意力机制网络历史的简单总结。过程大致可以分为四个阶段。第一个阶段从RAM开始，它是连接深度神经网络和注意力机制的先锋工作。它通过策略梯度对重要区域进行周期性预测，并对整个网络进行端到端的更新。随后，不同的工作采用了类似的政策。在这个阶段，RNNs是注意力机制的必要工具。在第二个阶段的开始，Jaderberd提出了STN，它引入了一个子网络来预测用于选择输入中的重要区域的仿射变换。第二个阶段的主要特点是显性预测判别输入特征；DCNs是代表工作。第三个阶段从SENet开始，它提出了一个新颖的通道注意力网络，可以自适应地预测潜在的关键特征。CBMA和ECANet是这个阶段的代表工作。最后一个阶段是自注意力领域。自注意力最初在Ref.被提出，并且很快在NLP领域取得很好的发展。Wang率先把自注意力引入CV，提出了一个新颖的non-local network并在视频理解和目标检测取得了巨大成功。接下来的一系列工作，EMANet、CCNet、HamNet和Stand-Alone Network提升了结果和迭代容量的速度和质量。最近，不同的纯视觉transformer出现，展示了注意力模型的巨大潜力。很明显，基于注意力的模型有可能取代卷积神经网络并成为CV领域更强大的、普遍的结构。

Fig1 计算机视觉中注意力的关键发展简要总结，大致有四个阶段。第一阶段采用RNNs构建注意力，一个代表性工作是RAM。第二个阶段是明确预测重要区域，一个代表性工作是STN。第三阶段隐式完成注意力过程，一个代表性工作是SENet。第四阶段是使用自注意力。

这篇文章的目的是总结和分类目前在CV领域的注意力方法。我们的方法展示在Fig2进一步展开在Fig3：它基于数据域。一些方法考虑什么时间重要数据会发生的问题，另一些考虑哪里发生，相应地试图寻找数据的关键时间和位置。我们把存在的注意力机制分成六个种类，其中包含四个基本种类：通道注意力、空间注意力、时间注意力、分支注意力和两种混合注意力，通道&空间注意力和空间&时间注意力。这些想法在Table1和相关工作被进一步简单总结在一起。

Fig2 注意力机制可以按照数据域分类。这些包含四种基础分类，通道注意力、空间注意力、
时间注意力、分支注意力和两种混合注意力，通道&空间注意力和空间&时间注意力。
空集表示不存在。

Fig3 通道注意力、空间注意力、时间注意力可以被看作作用于不同的域。C通道域，H和W空间域，T时间域。分支注意力是对这些的补充。
Table1 注意力分类的简单总结和关键相关工作

文章的主要贡献如下：

视觉注意力方法的系统综述，包含注意力机制的系统介绍，视觉注意力机制和当前研究的发展
根据它们的数据域对注意力方法进行分类分组，使我们能够独立于它们的特定应用将视觉注意方法联系起来
未来视觉注意力研究的建议

第二部分提及相关研究，第三部分是研究的主要部分。第四部分是未来的建议，第五部分给出结论。出现在文中的符号表示在Table2展现。

Table2 本文的关键符号。其他次要符号在使用的地方被解释

2 其他研究

在这个部分，我们简单比较了本文与其他回顾attention方法和视觉transformer的研究。Chaudhari进行了深度神经网络的注意力模型研究，聚焦它们在NLP领域的应用，而我们的工作聚焦于CV领域。三个更具体的研究总结了视觉transformer，我们更普遍地回顾了视觉领域的注意力机制，不只是自注意力机制。wang和Tax展示了一个CV领域注意力机制的研究，但只考虑了基于RNN的注意力机制，这只是本文研究的一部分。并且，和以前的研究不同，我们提供了一种根据数据域的注意力分类方法，而不是依据应用领域。这种做法聚焦于注意力机制本身，而不是把他们当作其他任务的补充

数据域与应用领域

通道、空间、时间；医学影像、图像分类、目标检测

3 CV领域的注意力机制：

在这部分，我们首先在Section 3.1总结了基于人类视觉系统识别过程中注意力机制的普遍形式。然后我们在Fig2回顾了attention模型的不同种类,每个类别都有专门的小结。在每一个类别中，我们将该类别的代表性作品制成表格。本文还对注意策略这一范畴进行了更深入的介绍，从动机、形式和功能三个方面考察了注意策略的发展。

3.1 普遍形式

当我们在日常生活中看到一个场景时，我们会把重点放在辨别区域上，并对这些区域进行快速加工。上述过程可以表述为:

可以表示产生注意，这与试图辨别区域的过程相对应。表示根据对输入进行处理，这与处理关键区域和获取信息是一致的。

通过以上定义，我们发现几乎所有存在的注意力机制可以被写进上述表示。这里我们把self-attention和SE attention当作例子。对self-attention，和可以被写作

对SE，和可以被写作

接下来，我们将介绍各种注意机制，并将其具体到上述提法中。

3.2 通道注意力

在深度神经网络，在不同特征图的不同的通道通常表示不同的物品。通道注意力自适应地重新分配每个通道的权重，可以被视为一个对象选择过程，从而决定关注什么。Hu首先提出了通道注意力的概念并提出了SENet。如Fig.4所示，我们简短讨论，三种工作流继续以不同的方式改善通道注意力。

Fig4 视觉注意力的发展背景

在这部分，我们先总结具有代表性的通道，并在Table3和Fig5解释了Eq(1)中的和。然后我们按照发展过程讨论了不同种类的通道注意力。

3.2.1 SENet

SENet引领了通道注意力。SENet的核心是使用SE block收集全局信息，捕捉通道间的关系，提高表示能力。

SE block分成两部分，squeeze模块和excitation模块。全局空间信息信息通过全局平均池化被收集到squeeze模块。excitation模块使用全连接层和非线性层（ReLU和sigmoid）捕捉通道间的关系并输出一个注意力向量。输入特征的每一个通道乘以注意力向量的对应元素进行缩放。最终，一个SE block(带参数)，X输入，Y输出可以写作

SE block强调重要的通道而不是噪声。一个SE block可以直接加到residual unit之后，因为它们的低计算资源需求。然而，SE block有缺点。在squeeze模块，全剧平均池化对捕捉复杂的全局信息太简单。在excitation模块，全连接层增加了模型的复杂度。Fig4表明，后续的工作试图提升squeeze模块的输出（比如GSop-Net），降低提升excitation模块的模型复杂度（比如ECANet），或者同时提升squeeze和excitation模块（SRM）。

3.2.2 GSoP-Net

一个SE block只使用全局平均池化捕捉全局信息（first-order statistics），这限制了模型的建模能力，特别是捕捉高阶统计数据的能力。

为了解决这个问题，Gao通过使用GSoP block提升建模高阶统计数据来提升squeeze模块。

类似SE block，GSoP block也有一个squeeze模块和excitation模块。在squeeze模块，GSoP block首先使用1*1卷积把通道数从c降到c'，然后计算不同信道的c ' × c '协方差矩阵，得到它们的相关性。紧接着，对协方差矩阵进行row-wise归一化。归一化协方差矩阵中的每个(i, j)明确地将通道i与通道j联系起来。

在excitation模块，GSoP block使用row-wise卷积以保持结构信息并输出一个矢量。全连接层和一个sigmoid函数得到c维注意向量。最后，输入特征乘以注意力向量，就像SE block一样。一个GSoP block可以写成

在这里，Conv()降低通道数目，Cov()计算协方差矩阵，RC()表示row-wise卷积。

通过使用二阶池化，GSoP block收集全局信息的能力已经优于SE block。然而，这是以额外计算量为代价的。因此，单个GSoP块通常是在几个residual block之后添加的。

3.2.3 SRM

受style transformer成功的激励，Lee提出了轻量级SRM。SRM结合style transformer和注意力机制。主要贡献是style pooling,利用输入特征的均值和标准差来提高其捕获全局信息的能力。也使用了轻量级通道间全连接层(CFC)取代开始的全连接层来减少计算需求。

输入特征图,SRM首先使用由全局平均池化和全局标准差池化构成的style pooling(SP())收集全局信息。经过通道间全连接层(CFC) 、BN、sigmoid函数输出注意力向量。最终，输入特征乘以注意力向量，就像SE block一样。总之，SRM可以写作

SRM block改进了squeeze和excitation模块，还可以添加到每个剩余单元后，如SE块。

3.2.4 GCT

由于excitation模块的全连接层参数的计算需求和数量，在每个卷积层后使用SE block是不切实际的。此外，使用完全连接的层来建模通道关系是一个隐式过程。为了克服这个问题，Yang在明确建模通道间关系时，使用GCT有效收集信息。

与先前的方法不一样，GCT首先计算每个通道的L2范数收集全局信息。紧接着，使用一个可学习的向量α缩放特征图。然后通过通道规范化采用竞争机制实现通道之间的交互。类似其他普通归一化方法，可学习的参数γ和偏差β缩放归一化。然而，和之前的方法不同，GCT使用tanh激活函数控制注意力向量。最终，不仅使用输入特征乘以注意力向量，还增加了identity连接。类似resnet GCT可以写作

α、β、γ是可训练的参数。Norm()表示每个通道的L2范数。CN是通道归一化。

GCT block比SE block有更少的参数，并且是轻量级网络，可以加在CNN网络每个卷积层的后面。

3.2.5 ECANet

为了避免模型的高度复杂性，SENet减少了通道的数目。然而，这个战略没能直接建模权重向量和输入的对应关系，降低了结果的质量。为了克服这个缺点，Wang提出了ECA block，使用一维卷积替代为度降低来确定通道间的相互作用。

ECA block和SE block有类似的公式，包括整合全局信息的squeeze模块、建模跨通道交互的有效excitation模块。取代间接的通信，ECA block只考虑每通道和最近k个临近通道的直接交互，控制模型的复杂度。总之，ECA block可以写作

Conv1D()表示k*k的跨越信道域的一维卷积，用于模拟局域跨信道相互作用。参数k决定了相互作用的覆盖范围，在ECA中k由通道维度C自适应确定的，而不是手动调优，使用交叉验证：

γ和b是超参数。表示x最近的奇函数。

相比SE bolck，ECANet改进了excitation模块，提供了一种有效的可以加入不同CNNs的有效的block。

3.2.6 FcaNet

只在squeeze模块使用全局平均池化限制了表征能力。为了获得更有力的表征能力，Qin从压缩的角度重新思考全局信息捕获，在频域分析全局平均池化。他们证明全局平均池化是DCT的一个特别例子，使用这个发现提出了一种新颖的多光谱通道注意力。

输入特征图，多光谱通道注意力把X分成很多部分。对每部分使用二维DCT。注意二维DCT可以使用预训练结果减少运算。在处理完每个部分后，所有的结果concat成一个向量。最终，像SE block使用全连接层，ReLU激活函数，和sigmoid获取注意力向量。可以表示为

Group表示把输入分成多组，DCT()是二维离散余弦变换。

这个工作是基于信息压缩和离散余弦变换的，在分类任务上达到了最佳效果。

3.2.7 EncNet

受SENet启发，zhang提出了包含语义编码丢失(SE-loss)的上下文编码模块(CEM)，来建模场景上下文与对象类别概率之间的关系，从而利用全局场景上下文信息进行语义分割。

输入特征图，CEM首先在训练阶段学习K簇中心，和一系列平滑因子。接着，使用软赋值权重将输入中的本地描述符与相应的簇中心之间的差异相加，以获得一个排列不变的描述符。然后，然后对K个聚类中心的描述子进行聚合而不是concat，以提高计算效率。形式上，CEM可以写成:

和是可学习的参数。表示带有ReLU激活的批量归一化。除了通道缩放向量外，还使用紧凑的上下文描述符e计算SE损失，以正则化训练，提高了小对象的分割。

3.2.8 Bilinear attention

按照GSoP-Net，Fang声称以往的研究只使用一阶信息，忽略了高阶统计信息。他们提出了一个新的双线性注意力块（bi-attention）来捕获每个通道内的局部成对特征交互，同时保留空间信息。

Bi-attention使用attention-in-attention(AiA)机制捕捉二阶统计信息：外部点状通道注意向量由内部通道注意的输出计算。在形式上，已知输入特征图X，bi-attention首先使用双线性池化捕捉二阶信息：

表示用于降维的嵌入函数，是在通道域中的转置，Utri(·)提取矩阵的上三角元素，Vec(·)向量化。bi-attention将内通道注意机制应用到特征图上:

这里，和是嵌入函数。最终的输出特征图用于计算point-wise注意机制的空间通道注意力权值:

bi-attention在保留空间信息的同时，使用双线性池对每个通道的局部成对特征交互进行建模。与其他基于注意的模型相比，该模型更关注高阶统计信息。双注意可以合并到任何CNN骨干网中，以提高其表征能力，同时抑制噪声。

Fig5 不同通道注意力机制。GAP全局平均池化，GMP全局最大池化，FC全连接层，Conv pool协方差池化，RW Conv row-wise卷积，CFC channel-wise全连接，CN通道归一化，DCT离散余弦变换

3.3 Spatial attention

空间注意力机制可以看作自适应空间区域选择机制：哪里需要注意力机制。如Fig4所示，RAM，STN，GENet和Non-Local是不同空间注意力方法的代表。RAM是基于RNN的方法。STN代表使用子网络明确预测相关区域。GENet代表使用子网络隐式预测软掩膜选择重要区域。Non-Local代表自注意力相关方法。在子小节，我们首先总结了代表性的空间注意力机制并在Table4按照Eq1分类过程g(x)和f(g(x),x)，按照Fig4讨论它们。

3.3.1 RAM

CNN需要巨大的计算代价，尤其对大尺寸输入。为了把有限的计算资源集中到重要区域，Mnih提出适用RNNs的RAM和RL(增强学习)，使网络学习哪里需要注意力。RAM是适用RNNs视觉注意力的先驱，后来也出现很多其他基于RNN的方法。

如Fig6，RAM有三个关键因素：(A)一个glimpse sensor(B)一个glimpse network(C)一个RNN模型。glimpse tensor的坐标为图像为。输出以为中心的多个分辨率补丁。glimpse network包含一个glimpse sensor，输出输入坐标为图像为的特征表示。RNN模型考虑和内部状态，输出下一个中心坐标和的动作，例如图像分类任务中softmax结果。由于整个过程不可微，因此在更新过程中采用了强化学习策略。

这提供了一种简单而有效的方法，将网络集中在关键区域，从而减少了网络的计算次数，特别是在大输入的情况下，同时提高了图像分类结果。

Fig6 RAM的注意力过程。(A)glimpse sensor以图像和中心坐标为输入输出多个分辨率补丁。(B)glimpse network包含一个以图像和中心坐标为输入输出特征向量的glimpse sensor。(C)整个网络循环使用glimpse network，输出预测结果和下一个中心坐标。

3.3.2 Glimpse Network

受人类的视觉识别顺序的启发，Ba提出了一个深层循环网络glimpse，类似RAM，可以处理多分辨率的输入图像，用于多目标识别任务。提出的网络使用glimpse作为输入更新其隐藏状态，然后预测一个新对象以及每一步的下一个glimpse位置。glimpse通常比整个图像要小得多，这使得网络的计算效率很高。

提出的深度循环视觉注意力模型由一个context network、glimpse network、recurrent network、emission network和分类网络组成。首先context network以下采样的整幅图像作为输入，为recurrent network提供初始状态和第一次glimpse的位置。在当前时间步t下，给定当前glimpse及位置，glimpse network的目标是提取有用信息，表示为

、、是1*1卷积的线性变换。

注意门将模型的注意力引导到重要区域，同时抑制不相关区域的特征激活。它大大增强了模型的表示能力，而轻量化设计不显著增加计算成本或模型参数的数量。通用和模块化的使得在各种CNN模型中使用它很简单。

3.3.5 STN

cnn的平移等方差特性使其适合于处理图像数据。然而，cnn缺乏其他的变换不变性，如旋转不变性、缩放不变性和翘曲不变性。为了实现这些属性，同时让cnn关注重要区域，Jaderberg提出STN，空间变压器网络(STN)使用显式程序来学习平移、缩放、旋转和其他更一般的扭曲的不变性，使网络关注最相关的区域。STN是第一个明确预测重要区域并提供具有变换不变性的深度神经网络的注意机制。接下来的工作更是大获成功。

以二维图像为例，二维仿射变换可以表述为:

U是输入特征图，可以是任何可微函数，如轻量级全连接网络或卷积神经网络。和输出特征映射中的坐标，和是输入特征映射中的对应坐标，θ矩阵是可学习的仿射矩阵。在获得通信后，网络可以使用通信对相关的输入区域进行抽样。为了保证整个过程的可微性和端到端更新，采用双线性抽样对输入特征进行抽样。

STN自动关注判别区域，学习几何变换的不变性。

3.3.6 Deformable Convolutional Networks

和STN的目的类似，Dei提出了可变形卷积网络(deformable ConvNet)对几何变换是不变的，但它们以不同的方式关注重要区域。

具体地说，deformable ConvNet不学习仿射变换。他们将卷积分为两个步骤，首先从输入特征映射中对正则网格R上的特征进行采样，然后使用卷积核通过加权求和对采样的特征进行聚合。这个过程可以写成:

可变形卷积通过引入一组可学习偏移量∆pi来增强采样过程，∆pi可以由轻量级CNN生成。利用偏移量∆pi，可变形卷积可表示为:

通过上述方法，实现了自适应采样。而∆pi是一个不适合网格采样的浮点值。为了解决这个问题，使用双线性插值。还使用了可变形的RoI池，这极大地改进了目标检测。

可变形卷积网络自适应地选择卷积神经网络的重要区域，扩大有效接受域;这在目标检测和语义分割任务中很重要。

3.3.7 Self-attention and variants

自我注意被提出并在自然语言处理(NLP)领域取得了巨大成功。最近，它也显示出成为计算机视觉的主要工具的潜力。通常，自我注意被用作捕获全局信息的空间注意机制。本文对计算机视觉中的自我注意机制及其常见变体进行了综述。

由于卷积运算的局域性，CNN具有固有的狭窄的接受域，这限制了CNN对全局场景的理解能力。为了增加接收野，Wang等人将自我注意引入计算机视觉。

以二维图像为例，给出特征图，自注意力首先通过线性投影和reshape操作计算query、key、value，,。自注意力可以写成：

是注意力矩阵，是第i和第j个元素之间的关系。整个过程Fig7(左)所示。自我注意是建模全局信息的强大工具，在许多视觉任务中都很有用。

然而，该自注意机制存在一些不足，特别是其二次复杂度限制了它的应用。为了缓解这些问题，引入了几种变体。disentangled non-local提高了自注意的准确性和有效性，但大多数变体关注于降低其计算复杂度。

CCNet将自注意操作看作一个图卷积，用几个稀疏连通图代替了经过自注意处理的密连通图。为此，提出了criss-cross，循环考虑行注意和列注意获取全局信息。CNNs把自注意力的复杂度从降到。

EMANet从期望最大化(EM)的角度看待自我注意力。EM attention采用EM算法得到一组紧凑的基，而不是使用所有的点作为重构基。这将复杂度从降低到，其中K是紧凑基的数量。

ANN提出使用所有位置特征作为键和向量是冗余的，采用空间金字塔池获取几个具有代表性的键和值特征来代替，以减少计算量。

GCNet分析了自我注意中使用的注意图，发现在同一图像的不同查询位置上，通过自我注意获得的全局上下文是相似的。因此，该方法首先提出预测所有查询点共享的单一注意图，然后根据该注意图从输入特征的加权和中获得全局信息。这类似于平均池，但是收集全局信息的更一般的过程。

A2Net受SENet的激励，将注意力分为特征收集和特征分布过程，使用两种不同的注意力。第一种方法通过二阶注意池聚合全局信息，第二种方法通过软选择注意分配全局描述符。

GloRe从图形学习的角度理解自我注意。它首先从M《N的特征节点中收集N个输入特征，然后学习节点间全局交互的邻接矩阵。最后，节点将全局信息分配到输入特征。类似的想法还有LatentGNN、MLP-Mixer和ResMLP。

OCRNet提出object-contextual representation的概念，这是同一类别中所有对象区域表示的加权聚合，例如所有汽车区域表示的加权平均。它用这种对象上下文表示替换了键和向量，从而成功地提高了速度和有效性。

disentangled non-local，Yin深入分析了自我注意机制，提出了将自我注意解耦为成对项和一元项的核心思想。成对术语专注于建模关系，而一元术语专注于显著边界。这种分解防止了两个术语之间不必要的交互，极大地改进了语义分割、对象检测和动作识别。

HamNet将捕获全局关系建模为一个低秩完成问题，并设计了一系列使用矩阵分解捕获全局上下文的白盒方法。这不仅减少了复杂性，而且增加了自我注意的可解释性。

EANet提出自我注意应只考虑单个样本的相关性，而忽略不同样本之间的潜在关系。为了探索不同样本之间的相关性，减少计算量，它采用了一种外部注意，采用可学习的、轻量级的和共享的键值向量。进一步揭示了使用softmax对注意图进行归一化并不是最优的，提出了双重归一化作为一种更好的选择。

除了作为CNN的一种补充方法外，自注意还可以用来取代卷积运算来聚合邻域信息。卷积运算可以表述为输入特征X与卷积核W之间的点积:

K为核大小，c为通道。上述公式可以看作是通过卷积核使用加权和来聚合邻域信息的过程。聚合邻域信息的过程可以更一般地定义为:

是位置和位置的关系。根据这个定义，局部自我注意是一个特例。

比如，SASA可以写作

其中q, k和v是输入特征x的线性投影，是(i, j)和(a, b)的相对位置嵌入。

我们现在考虑一些使用局部自我注意作为基本神经网络块的具体工作.

SASA建议使用自注意来收集全局信息计算量太大，采用局部自注意来取代CNN中的所有空间卷积。作者表明，这样做可以提高速度、参数数量和结果质量。他们还探索了位置嵌入的行为，并表明相对位置嵌入是合适的。他们的工作还研究了如何将局部自我注意与卷积结合起来。

LR-Net与SASA同时出现。它还研究了如何利用局部自我注意来建模局部关系。综合研究了位置嵌入、内核大小、外观组合性和对抗性攻击的影响。

SAN探讨了利用注意力进行局部特征聚集的两种模式，即成对模式和补丁模式。提出了一种新的在内容和通道使用自适应注意向量，并从理论和实践两方面评价了其有效性。除了在图像领域提供显著改进外，它在3D点云处理中也被证明是有用的。

3.3.8 Vision transformers

Transformer在自然语言处理方面取得了巨大的成功。最近，iGPT和DETR展示了基于变压器的模型在计算机视觉中的巨大潜力。基于此，Dosovitskiy等人提出了视觉转换器(ViT)，这是第一个用于图像处理的纯转换器架构。它能够达到与现代卷积神经网络相当的结果。

如图7所示，ViT的主要部分是多头注意(MHA)模块。MHA接受一个序列作为输入。它首先将类令牌与输入特征连接起来，其中N为像素数。通过线性投影得到 '和V∈RN ×C。然后将Q、K、V在通道域中分成H个头，分别对它们进行自我注意。MHA方法如Fig8所示。ViT将多个MHA层与完全连接层、层归一化和GELU激活函数进行堆叠。

ViT证明，纯基于注意力的网络可以比卷积神经网络获得更好的结果，特别是对于JFT-300和ImageNet-21K等大型数据集。

继ViT之后，出现了许多基于变压器的体系结构，如PCT、IPT、T2T-ViT、DeepViT、SETR、PVT、CaiT、TNT、Swintransformer、Query2Label、MoCoV3、BEiT、SegFormer、FuseFormer和MAE，对包括图像分类、目标检测、语义分割、点云处理、动作识别和自监督学习在内的许多视觉任务都有出色的结果。

这里省略了对视觉变压器的详细调查，因为其他最近的调查全面回顾了视觉任务中变压器方法的使用。

Fig7 Vision transformer。Left：结构。首先将图像分割成不同的补丁，并将它们投射到特征空间中，由变压器编码器对其进行处理以产生最终结果。Right：基本视觉变压器块与多头注意核心。

Fig8 Left：自注意力。Right：多头自注意力

3.3.9 GENet

总结

以上是生活随笔为你收集整理的Attention Mechanisms in Computer Vision: A Survey论文阅读的全部内容，希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错，欢迎将生活随笔推荐给好友。