Transformer原理：Attention is All you need

2024年7月17日修改

作者：Lukan

原文：https://zhuanlan.zhihu.com/p/626366568

transformer自诞生以来，基本上在每个领域都取得了非常大的成功，如nlp领域的Bert、GPT，cv领域的ViT，swin transformer，推荐系统领域的autoint，behavior sequence transformer，还有时序里面的tft、informer，以及强化学习也搞了个Decision Transformer，而这些都源自于谷歌团队在2017年提出的这篇文章《Attention is All you Need》，本着阅读经典，顺便复习面经的精神，这次我们就来阅读transformer这篇论文，深入到每一个细节之中，确保对这个模型知根知底，当然，具体在写的时候不会简单翻译原文，而是按照我自己的想法来进行组织的。​

背景

在传统的序列建模任务（如语言模型，机器翻译）中，一般使用的模型架构都是循环神经网络（LSTM和GRU），并且都是一个encoder-decoder的架构。这种基于RNN的模型结构不管在输入或者输出一个序列的时候都是把当前隐状态 ℎ𝑡 建模成一个关于当前输入以及上一时刻隐状态的函数，即 ℎ𝑡=𝑓(ℎ𝑡−1,𝑋𝑡) ，这种自回归式的建模方法意味着他只能串行计算，而没办法并行处理，如果序列的长度很长的话，计算就会很慢，除了通过把batch_size增大来提高运算速度之外好像也没别的方法，并且这么做对于内存要求还比较高。由于在序列这个维度上只能进行串行计算，这也成了模型计算速度的瓶颈所在。​

有一些工作想要突破RNN这个无法并行的问题，比如Extended Neural GPU，ByteNet，ConvS2S等，但是这些网络都是用CNN作为模型的一部分，因为CNN是可以实现并行计算的，但是在长序列问题上还是存在问题，CNN很难捕捉序列上两个离得很远的点的依赖关系。​

注意力机制是可以实现并行的，而且他对于远距离的两个点的依赖关系建模的也比较好，也被运用在了nlp的各种任务中，但是更多的是和RNN进行结合使用，增强RNN的效果，起到锦上添花的作用，还是突破不了RNN的局限性。​

因此，这篇文章提出的Transformer就是想要用一个纯粹的注意力机制来解决机器翻译问题，当然也是采用encoder-decoder的架构，不过encoder和decoder都是基于自注意力，这么做的优点有以下三个：​

1.
长序列建模，可以捕捉长序列之间的依赖关系​

2.
可以并行计算, 在工业界应用比较友好​

3.
效果好，在一系列任务上吊打其他模型​

模型结构

基本上所有的序列建模模型都是采用encoder-decoder的架构，encoder负责把输入的序列表征 (𝑥1,...,𝑥𝑛) 编码成另一个序列 (𝑧1,...,𝑧𝑛) ，然后decoder再把编码好的 (𝑧1,...,𝑧𝑛) 解码成输出 (𝑦1,...,𝑦𝑛) , 但是编码器和解码器的具体实现方式不同，以RNN系列的模型举例，都是在每个时间步 𝑡 上都采用自回归的方式，把当前时间步的输入分为两个，一个是当前时间步的输入以及上一个时间步的hidden state，如对于编码器 𝑧𝑡=𝑓𝑒𝑛𝑐𝑜𝑑𝑒𝑟(𝑧𝑡−1,𝑥𝑡) , 而对于解码器 𝑦𝑡=𝑓𝑑𝑒𝑐𝑜𝑑𝑒𝑟(𝑦𝑡−1,𝑧𝑡) 。​

这里的transformer整体上也是采用同样的encoder-decoder架构，不过编码器和解码器的函数换成了纯注意力机制。来看一下他整体的架构，整体的结构还是encoder+decoder的方式，encoder接收来自一个句子的每个词embedding，为了表征每一个词的位置信息，先把句子的每个词的embedding加上一个位置编码（positional embedding），这是因为transformer的自注意力机制计算时不像RNN那样有先后顺序，对所有词向量都是一视同仁的，而decoder这边接收的则是要翻译的目标句子的词embedding，同样也加上位置编码，同时也接受来自encoder的输入，最后用softmax输出每一个位置上每个词元可能的概率。接下来再说一下encoder和decoder的一些细节。​

common.docs_name - LarkCCM_Docs_Menu_Image

Encoder

首先看encoder这边，encoder由6个相同的层组成，每个层都有两个子层，第一个子层是多头注意力层，第二个子层是一个基于位置的前馈神经网络层，这两个子层之间使用了残差连接和layer normalization，用公式来说明的话就是，对每个子层的输出做了这样一个操作：​

𝐿𝑎𝑦𝑒𝑟𝑁𝑜𝑟𝑚(𝑥+𝑆𝑢𝑏𝑙𝑎𝑦𝑒𝑟(𝑥))​

这边的 𝑥 就是子层的输入， 𝑆𝑢𝑏𝑙𝑎𝑦𝑒𝑟(𝑥) 就是子层的输出，把输入和输出加起来，就是一个残差连接，然后再使用LayerNorm对输出进行层归一化。​

Decoder

再来看decoder这边，decoder同样由6个相同的层组成，每个层由三个子层组成，其中，两个子层和encoder的结构类似，多头注意力层和基于位置的前馈神经网络层，但是这个多头注意力层采用了mask的方式，这里的mask是指把当前词元之后的词元mask掉，不参与注意力的计算，这是因为对于翻译任务来说，训练时你能知道完整目标句子的输入，但是在预测时词元只能一个个生成，没办法看到后面的词，所以需要在训练时也把后面的词也给屏蔽掉。然后decoder在这两个子层之间又插入了一个子层，用来接收encoder的输入做注意力的计算，这个子层也是一个多头注意力层，细节之后展开。​

注意力机制

首先说一下注意力机制的一些基本概念，注意力机制其实就是一个加权函数，要加权的东西，我们把它称为Value，既然是加权，权重如何计算呢？在注意力机制里面，我们一般是通过计算Query和Key的相似度得到的权重，每个Key和Value都是一一对应的，假设有n个key和value对，我们就可以通过一个query分别计算和key的相似度，得到n个相似度，这个就可以当作权重，然后乘到value里面，就可以得到加权后的输出。​

这里的Query、Key、Value也就是注意力机制的三个要素，俗称QKV，一句话概括注意力机制就是使用Q和K计算相似度作为权重来对V进行加权，根据不同的相似度计算方法我们就有不同的注意力函数，transformer用的是缩放点积注意力。​

缩放点积注意力

衡量向量相似度的一个方式就是计算他们的点积，因此点积便可以作为一种注意力函数，transformer使用的缩放点积注意力公式如下：​

Atention⁡(𝑄,𝐾,𝑉)=softmax⁡(𝑄𝐾𝑇𝑑𝑘)𝑉

这里的Q和K和V都是一个矩阵，Q之所以是个矩阵是因为transformer中输出都是多个位置的，每个Query对应一个位置，所以直接用矩阵的方式计算便可以并行计算，加快效率，这也是transformer的优势所在。​

对输出的相似度使用了softmax可以把每个query下的相似度归一化，加起来正好是1。​

这里点积还进行了一个缩放操作，即除以 𝑑𝑘 , 为什么要进行这样一个操作呢？具体来说，如果我们仅仅做点积操作，当向量的维度 𝑑𝑘 很大时，点积的结果也会变大。因为点积操作本身就是将两个向量的对应元素相乘后再求和，如果向量的维度增大，点积的结果会相应地增大。这会导致点积注意力计算softmax时，输入值过大可能会导致梯度消失问题。因为softmax函数的输出是一个概率分布，而其梯度在其输入值非常大或非常小的时候会变得非常小。这种情况下，在反向传播中梯度就会消失，影响模型的学习。为了避免这个问题，我们需要对点积的结果进行缩放，即除以 𝑑𝑘 。这样做的主要目的是使得点积的结果的范围不会随着 𝑑𝑘 的增大而变得过大，从而避免梯度消失的问题，使得模型能够更好地学习和优化。​

Transformer原理：Attention is All you need​

Transformer原理：Attention is All you need