4 Jul

线性Attention的探索：Attention必须有个Softmax吗？

By 苏剑林 | 2020-07-04 | 386948位读者 |

众所周知，尽管基于Attention机制的Transformer类模型有着良好的并行性能，但它的空间和时间复杂度都是$\mathcal{O}(n^2)$级别的，$n$是序列长度，所以当$n$比较大时Transformer模型的计算量难以承受。近来，也有不少工作致力于降低Transformer模型的计算量，比如模型剪枝、量化、蒸馏等精简技术，又或者修改Attention结构，使得其复杂度能降低到$\mathcal{O}(n\log n)$甚至$\mathcal{O}(n)$。

前几天笔者读到了论文《Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention》，了解到了线性化Attention（Linear Attention）这个探索点，继而阅读了一些相关文献，有一些不错的收获，最后将自己对线性化Attention的理解汇总在此文中。

Attention #

当前最流行的Attention机制当属Scaled-Dot Attention，形式为
\begin{equation}Attention(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V}) = softmax\left(\boldsymbol{Q}\boldsymbol{K}^{\top}\right)\boldsymbol{V}\label{eq:std-att}\end{equation}
这里的$\boldsymbol{Q}\in\mathbb{R}^{n\times d_k}, \boldsymbol{K}\in\mathbb{R}^{m\times d_k}, \boldsymbol{V}\in\mathbb{R}^{m\times d_v}$，简单起见我们就没显式地写出Attention的缩放因子了。本文我们主要关心Self Attention场景，所以为了介绍上的方便统一设$\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V}\in\mathbb{R}^{n\times d}$，一般场景下都有$n > d$甚至$n\gg d$（BERT base里边$d=64$）。相关解读可以参考笔者的《Attention is All You Need》浅读（简介+代码），以及它的一些改进工作也可以参考《突破瓶颈，打造更强大的Transformer》、《Google新作Synthesizer：我们还不够了解自注意力》，这里就不多深入介绍了。

摘掉Softmax #

读者也许想不到，制约Attention性能的关键因素，其实是定义里边的Softmax！事实上，简单地推导一下就可以得到这个结论。$\boldsymbol{Q}\boldsymbol{K}^{\top}$这一步我们得到一个$n\times n$的矩阵，就是这一步决定了Attention的复杂度是$\mathcal{O}(n^2)$；如果没有Softmax，那么就是三个矩阵连乘$\boldsymbol{Q}\boldsymbol{K}^{\top}\boldsymbol{V}$，而矩阵乘法是满足结合率的，所以我们可以先算$\boldsymbol{K}^{\top}\boldsymbol{V}$，得到一个$d\times d$的矩阵，然后再用$\boldsymbol{Q}$左乘它，由于$d \ll n$，所以这样算大致的复杂度只是$\mathcal{O}(n)$（就是$\boldsymbol{Q}$左乘那一步占主导）。

也就是说，去掉Softmax的Attention的复杂度可以降到最理想的线性级别$\mathcal{O}(n)$！这显然就是我们的终极追求：Linear Attention，复杂度为线性级别的Attention。所以，本文的主题就是探究摘掉Softmax后的线形Attention。

一般的定义 #

问题是，直接去掉Softmax还能算是Attention吗？它还能有标准的Attention的效果吗？为了回答这个问题，我们先将Scaled-Dot Attention的定义$\eqref{eq:std-att}$等价地改写为（本文的向量都是列向量）
\begin{equation}Attention(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V})_i = \frac{\sum\limits_{j=1}^n e^{\boldsymbol{q}_i^{\top}\boldsymbol{k}_j}\boldsymbol{v}_j}{\sum\limits_{j=1}^n e^{\boldsymbol{q}_i^{\top}\boldsymbol{k}_j}}\label{eq:std-att-2}\end{equation}
所以，Scaled-Dot Attention其实就是以$e^{\boldsymbol{q}_i^{\top}\boldsymbol{k}_j}$为权重对$\boldsymbol{v}_j$做加权平均。所以我们可以提出一个Attention的一般化定义
\begin{equation}Attention(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V})_i = \frac{\sum\limits_{j=1}^n \text{sim}(\boldsymbol{q}_i, \boldsymbol{k}_j)\boldsymbol{v}_j}{\sum\limits_{j=1}^n \text{sim}(\boldsymbol{q}_i, \boldsymbol{k}_j)}\label{eq:gen-att}\end{equation}
也就是把$e^{\boldsymbol{q}_i^{\top}\boldsymbol{k}_j}$换成$\boldsymbol{q}_i, \boldsymbol{k}_j$的一般函数$\text{sim}(\boldsymbol{q}_i, \boldsymbol{k}_j)$，为了保留Attention相似的分布特性，我们要求$\text{sim}(\boldsymbol{q}_i, \boldsymbol{k}_j)\geq 0$恒成立。也就是说，我们如果要定义新式的Attention，那么要保留式$\eqref{eq:gen-att}$的形式，并且满足$\text{sim}(\boldsymbol{q}_i, \boldsymbol{k}_j)\geq 0$。

这种一般形式的Attention在CV中也被称为Non-Local网络，出自论文《Non-local Neural Networks》。

几个例子 #

如果直接去掉Softmax，那么就是$\text{sim}(\boldsymbol{q}_i, \boldsymbol{k}_j) = \boldsymbol{q}_i^{\top}\boldsymbol{k}_j$，问题是内积无法保证非负性，所以这还不是一个合理的选择。下面我们简单介绍几种可取的方案。

值得指出的是，下面介绍的这几种Linear Attention，前两种来自CV领域，第三种是笔者自己构思的，所以都还没有在NLP任务上做过什么实验，各位做模型改进的NLPer们就有实验方向了（^_^）～～顺便说一下，CV领域有不少对Attention的改进工作（除了下面介绍的外，还有EMANet等），很多内容都值得做NLP的我们参考阅读。

核函数形式 #

一个自然的想法是：如果$\boldsymbol{q}_i,\boldsymbol{k}_j$的每个元素都是非负的，那么内积自然也就是非负的。为了完成这点，我们可以给$\boldsymbol{q}_i,\boldsymbol{k}_j$各自加个激活函数$\phi,\varphi$，即
\begin{equation}\text{sim}(\boldsymbol{q}_i, \boldsymbol{k}_j) = \phi(\boldsymbol{q}_i)^{\top} \varphi(\boldsymbol{k}_j)\label{eq:gen-att-2}\end{equation}
其中$\phi(\cdot),\varphi(\cdot)$是值域非负的激活函数。本文开头提到的论文《Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention》选择的是$\phi(x)=\varphi(x)=\text{elu}(x)+1$。

非要讲故事的话，式$\eqref{eq:gen-att-2}$可以联想到“核方法（kernal method）”，尤其是$\phi=\varphi$时$\phi$就相当于一个核函数，而$\langle \phi(\boldsymbol{q}_i), \phi(\boldsymbol{k}_j)\rangle$就是通过核函数所定义的内积。这方面的思考可以参考论文《Transformer dissection: An unified understanding for transformer’s attention via the lens of kernel》，此处不做过多延伸。

妙用Softmax #

另一篇更早的文章《Efficient Attention: Attention with Linear Complexities》则给出了一个更有意思的选择。它留意到在$\boldsymbol{Q}\boldsymbol{K}^{\top}$中，$\boldsymbol{Q}, \boldsymbol{K}, \in\mathbb{R}^{n\times d}$，如果“$\boldsymbol{Q}$在$d$那一维是归一化的、并且$\boldsymbol{K}$在$n$那一维是归一化的”，那么$\boldsymbol{Q}\boldsymbol{K}^{\top}$就是自动满足归一化了，所以它给出的选择是：
\begin{equation}Attention(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V}) = softmax_2\left(\boldsymbol{Q}\right)softmax_1(\boldsymbol{K})^{\top}\boldsymbol{V}\end{equation}
其中$softmax_1$、$softmax_2$分别指在第一个（$n$）、第二个维度（$d$）进行Softmax运算。也就是说，这时候我们是各自给$\boldsymbol{Q},\boldsymbol{K}$加Softmax，而不是$\boldsymbol{Q}\boldsymbol{K}^{\top}$算完之后才加Softmax。

如果直接取$\phi(\boldsymbol{q}_i)=softmax(\boldsymbol{q}_i),\varphi(\boldsymbol{k}_j)=softmax(\boldsymbol{k}_j)$，那么很显然这个形式也是式$\eqref{eq:gen-att-2}$的一个特例。另外这个设计在CV中出现过不止一次，比如A²-Nets也包含了同样的做法。

自己的构思 #

在这里，笔者给出自己的一种构思。这个构思的出发点不再是式$\eqref{eq:gen-att-2}$，而是源于我们对原始定义$\eqref{eq:std-att-2}$的近似。由泰勒展开我们有
\begin{equation}e^{\boldsymbol{q}_i^{\top}\boldsymbol{k}_j} \approx 1 + \boldsymbol{q}_i^{\top}\boldsymbol{k}_j\end{equation}
如果$\boldsymbol{q}_i^{\top}\boldsymbol{k}_j\geq -1$，那么就可以保证右端的非负性，而从可以让$\text{sim}(\boldsymbol{q}_i, \boldsymbol{k}_j)=1 + \boldsymbol{q}_i^{\top}\boldsymbol{k}_j$。到这里读者可能已经想到了，想要保证$\boldsymbol{q}_i^{\top}\boldsymbol{k}_j\geq -1$，只需要分别对$\boldsymbol{q}_i,\boldsymbol{k}_j$做$l_2$归一化。所以，笔者最终提出的方案就是：
\begin{equation}\text{sim}(\boldsymbol{q}_i, \boldsymbol{k}_j) = 1 + \left( \frac{\boldsymbol{q}_i}{\Vert \boldsymbol{q}_i\Vert}\right)^{\top}\left(\frac{\boldsymbol{k}_j}{\Vert \boldsymbol{k}_j\Vert}\right)\end{equation}
这不同于形式$\eqref{eq:gen-att-2}$，但理论上它更加接近原始的Scaled-Dot Attention。

相关工作 #

通过修改Attention的形式来降低它的计算复杂度，相关的工作有很多，这里简要列举一些。

稀疏Attention #

我们之前介绍过OpenAI的Sparse Attention，通过“只保留小区域内的数值、强制让大部分注意力为零”的方式，来减少Attention的计算量。经过特殊设计之后，Attention矩阵的大部分元素都是0，因此理论上它也能节省显存占用量和计算量。后续类似工作还有《Explicit Sparse Transformer: Concentrated Attention Through Explicit Selection》、《Longformer: The Long-Document Transformer》等。

但是很明显，这种思路有两个不足之处：

1、如何选择要保留的注意力区域，这是人工主观决定的，带有很大的不智能性；
2、它需要从编程上进行特定的设计优化，才能得到一个高效的实现，所以它不容易推广。

Reformer #

Reformer也是有代表性的改进工作，它将Attention的复杂度降到了$\mathcal{O}(n\log n)$。某种意义上来说，Reformer也是稀疏Attention的一种，只不过它的稀疏Pattern不是事先指定的，而是通过LSH（Locality Sensitive Hashing）技术（近似地）快速地找到最大的若干个Attention值，然后只去计算那若干个值。此外，Reformer通过构造可逆形式的FFN（Feedforward Network）替换掉原来的FFN，然后重新设计反向传播过程，从而降低了显存占用量。

所以，相比前述稀疏Attention，Reformer解决了它的第一个缺点，但是依然有第二个缺点：实现起来复杂度高。要实现LSH形式的Attention比标准的Attention复杂多了，对可逆网络重写反向传播过程对普通读者来说更是遥不可及～

Linformer #

跟本文所介绍的Linear Attention很相似的一个工作是Facebook最近放出来的Linformer，它依然保留原始的Scaled-Dot Attention形式，但在进行Attention之前，用两个$m\times n$的矩阵$\boldsymbol{E},\boldsymbol{F}$分别对$\boldsymbol{K},\boldsymbol{V}$进行投影，即变为
\begin{equation}Attention(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V}) = softmax\left(\boldsymbol{Q}(\boldsymbol{E}\boldsymbol{K})^{\top}\right)\boldsymbol{F}\boldsymbol{V}\end{equation}
这样一来，$\boldsymbol{Q}(\boldsymbol{E}\boldsymbol{K})^{\top}$就只是一个$n\times m$的矩阵，而作者声称对于哪怕对于很大的序列长度$n$，$m$也可以保持为一个适中的常数，从而这种Attention也是线性的。跟Linformer类似的思路还出现在更早一些的CV论文《Asymmetric Non-local Neural Networks for Semantic Segmentation》中。

但是，笔者认为“对于超长序列$m$可以保持不变”这个结论是值得质疑的，对于长序列原论文只做了MLM任务，而很明显MLM并不那么需要长程依赖，所以这个实验没什么说服力。因此，Linformer是不是真的Linear，还有待商榷。

自回归生成 #

Linformer的另一个缺点是$\boldsymbol{E}\boldsymbol{K},\boldsymbol{F}\boldsymbol{V}$这两个运算直接把整个序列的信息给“糅合”起来了，所以它没法简单地把将来信息给Mask掉（Causal Masking），从而无法做语言模型、Seq2Seq等自回归生成任务，这也是刚才说的原作者只做了MLM任务的原因。相比之下，本文介绍的几种Linear Attention都能做到这一点。以式$\eqref{eq:gen-att}$和式$\eqref{eq:gen-att-2}$为例，如果要Mask掉未来信息，那么只需要把求和$\sum\limits_{j=1}^n$改为$\sum\limits_{j=1}^i$：
\begin{equation}Attention(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V})_i = \frac{\sum\limits_{j=1}^i \left(\phi(\boldsymbol{q}_i)^{\top} \varphi(\boldsymbol{k}_j)\right)\boldsymbol{v}_j}{\sum\limits_{j=1}^i \phi(\boldsymbol{q}_i)^{\top} \varphi(\boldsymbol{k}_j)}=\frac{ \phi(\boldsymbol{q}_i)^{\top} \sum\limits_{j=1}^i\varphi(\boldsymbol{k}_j)\boldsymbol{v}_j^{\top}}{ \phi(\boldsymbol{q}_i)^{\top} \sum\limits_{j=1}^i\varphi(\boldsymbol{k}_j)}\end{equation}
实现上式有两种方式：第一方式是设$\boldsymbol{S}_i=\sum\limits_{j=1}^i\varphi(\boldsymbol{k}_j)\boldsymbol{v}_j^{\top}$以及$\boldsymbol{z}_i=\sum\limits_{j=1}^i\varphi(\boldsymbol{k}_j)$，我们有
\begin{equation}Attention(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V})_i =\frac{ \phi(\boldsymbol{q}_i)^{\top} \boldsymbol{S}_i}{ \phi(\boldsymbol{q}_i)^{\top} \boldsymbol{z}_i},\quad \begin{aligned}&\boldsymbol{S}_i=\boldsymbol{S}_{i-1}+\varphi(\boldsymbol{k}_i)\boldsymbol{v}_i^{\top}\\
&\boldsymbol{z}_i=\boldsymbol{z}_{i-1}+\varphi(\boldsymbol{k}_i)
\end{aligned}\end{equation}
这说明这种Attention可以作为一个RNN模型用递归的方式实现，它的空间复杂度最低，但是要串性计算，适合预测解码时使用；第二种是直接将$\varphi(\boldsymbol{K}),\boldsymbol{V}\in\mathbb{R}^{n\times d}$做外积，得到一个$n\times d\times d$的矩阵，然后对$n$那一维执行$\text{cumsum}$运算，这样就一次性得到$\boldsymbol{S}_1,\boldsymbol{S}_2,\dots,\boldsymbol{S}_n$了，它的速度最快，但空间占用最大，适合训练时使用，不过很多时候都有$d^2\gg n$，一般情况下训练时都很难承受这个空间复杂度，因此多数还是用RNN形式。

下采样技术 #

从结果上来看，Linformer的$\boldsymbol{E}\boldsymbol{K}, \boldsymbol{F}\boldsymbol{V}$就是将序列变短（下采样）了，而将序列变短的一个最朴素的方法就是Pooling了，所以笔者之前也尝试过把Pooling技术引入到Transformer中去。近来也有类似的工作发出来，比如IBM的《PoWER-BERT: Accelerating BERT Inference via Progressive Word-vector Elimination》和Google的《Funnel-Transformer: Filtering out Sequential Redundancy for Efficient Language Processing》。除了Pooling之外，其实还有其他的下采样技术，比如可以通过stride > 1的一维卷积来实现，基于这个思路，或许我们可以把FFN里边的Position-Wise全连接换成stride > 1的一维卷积？总之这方面应该也能玩出很多花样来，不过跟Linformer一样，这样糅合之后做自回归生成就很难了。

文章小结 #

本文介绍了一些从结构上对Attention进行修改从而降低其计算复杂度的工作，其中最主要的idea是去掉标准Attention中的Softmax，就可以使得Attention的复杂度退化为理想的$\mathcal{O}(n)$级别（Linear Attention）。相比于其他类似的改进结构的工作，这种修改能在把复杂度降到$\mathcal{O}(n)$的同时，依然保留所有的“token-token“的注意力，同时还能保留用于做自回归生成的可能性。

转载到请包括本文地址：https://spaces.ac.cn/archives/7546

更详细的转载事宜请参考：《科学空间FAQ》

如果您还有什么疑惑或建议，欢迎在下方评论区继续讨论。

如果您觉得本文还不错，欢迎分享/打赏本文。打赏并非要从中获得收益，而是希望知道科学空间获得了多少读者的真心关注。当然，如果你无视它，也不会影响你的阅读。再次表示欢迎和感谢！

如果您需要引用本文，请参考：

苏剑林. (Jul. 04, 2020). 《线性Attention的探索：Attention必须有个Softmax吗？》[Blog post]. Retrieved from https://spaces.ac.cn/archives/7546

@online{kexuefm-7546,
        title={线性Attention的探索：Attention必须有个Softmax吗？},
        author={苏剑林},
        year={2020},
        month={Jul},
        url={\url{https://spaces.ac.cn/archives/7546}},
}

分类：信息时代标签：模型, 文本生成, attention 112 评论

< 积分梯度：一种新颖的神经网络可视化方法 | 强大的NVAE：以后再也不能说VAE生成的图像模糊了 >

你也许还对下面的内容感兴趣

发表你的看法

gzr

May 25th, 2022

苏神，请问一下，线性attention和稀疏attention可以结合使用吗？不知道数学上是否还有意义。

回复评论

苏剑林发表于 May 26th, 2022

可以结合。

回复评论

gzr 发表于 June 30th, 2022

请问您能给点建议吗？因为我想的是，线性attention计算中没有n*n的矩阵形式，而稀疏attention是一个n*n矩阵的mask,如果才能把这个矩阵点乘上呢？（不用考虑稀疏计算的提升，我只想强制让大部分注意力为零）

回复评论

苏剑林发表于 July 1st, 2022

就是要自己通过编程的方式实现（即你所谓的“考虑稀疏计算的提升”）。

比如每个token只能与前后$k$个token做注意力，那么就把前后$k$个token拿出来作为$K, V$，与原来的$Q$做线性注意力。

回复评论

rain_drop2

June 12th, 2022

苏神您好，感谢您的分享，我有一个关于您自己构想的问题，式（7）代入到式（3）中确实可以完成交换律，但是还需要通过分母去做归一化，您是通过何种方法保证了分母的归一化计算也是线性复杂度的呢？

回复评论

rain_drop3 发表于 June 13th, 2022

结合律

回复评论

苏剑林发表于 June 13th, 2022

分母其实就是分子的V换成全1向量，所以分子是线性的，那么分母更加是线性的了。

回复评论

小怪兽说不疼发表于 March 26th, 2023

苏神你好，把原本的softmax(q@k)@v的softmax取消以后，可以写成(q@k)@v=q@(k@v)以很大程度地减少计算和内存开销，但这样一来是否会带来以下副作用，使得自注意力的真实性能有所降低：
1、虽然看着像是全局的token-to-token稠密（全连接）聚合，但实质上(k@v)是一个C*C的矩阵（C是通道数），这个过程其实已经可以理解、解释或者退化成一种通道级的自注意力了？可能已经很大程度丧失了空间域非局部聚合的能力？（图像上）
2、相似度矩阵（q@k）的秩必不大于C。相比于有softmax的版本，表示能力、自由度或者实际上的信息量可能已经大大降低了？

关于您根据泰勒展开启发式地设计的式（7），是不是依然需要对相似度矩阵做归一化（使得每一列的和为1），这样一来可能并不能节省内存，有没有规避掉这个操作的技巧，使得还是可以达到q@(k@v)类似的线性复杂度呢（或者是我有哪里没有理解到位）？

回复评论

小怪兽说不疼发表于 March 26th, 2023

发现一篇很好的相关文章：《Flowformer: Linearizing Transformers with Conservation Flows》https://zhuanlan.zhihu.com/p/530502907

回复评论

苏剑林发表于 March 28th, 2023

你的思考没有错，线性Attention因为秩问题，能力的受限的，参考 https://kexue.fm/archives/8338 、 https://kexue.fm/archives/8610 和 https://kexue.fm/archives/9529 。

我所设计的版本，实际效果其实还略差于常规的线性Attention，所以不建议深究。

回复评论

rain_drop4

June 14th, 2022

谢谢，我明白了

回复评论

Young_

August 24th, 2022

大佬，有没有验证你的猜想，公式 (7)

回复评论

苏剑林发表于 August 30th, 2022

试过，效果不好。

回复评论

qii404

September 23rd, 2022

https://arxiv.org/pdf/2209.07484.pdf 这篇新出的论文里，不再强制让sim()非负了，甚至直接用了余弦相似度，就是你构想的那里，直接去掉了"1+"这部分，貌似效果在特定条件下还可以，苏神可以分析一下，让我们学习学习

回复评论

苏剑林发表于 September 23rd, 2022

这个工作我也留意到了，有点意思，但我的兴趣不大，我不认为它能掀起什么波澜。

首先，它的实验是CV，而且只有在部分Attention层替换为它的时候，才能获得一定的提升或者效果不变，这种做法本就很丑；其次，CV应用linear attention并且获得成功的例子已经不少，在CV中attention更多只是一个辅助，很多时候CNN就已经够好，所以CV中修改attention好的实验，在NLP中也很难work。

回复评论

杰克船长

October 18th, 2022

求教苏神，为什么在CV领域（如CVPR2018 Non-local）计算空间注意力的时候，可以不需要Wq, Wk, Wv三个矩阵做线性变换得到Q,K,V，而仅仅通过Cx1x1的卷积核做乘法就可以得到多头注意力呢？（甚至有些模型直接将特征图X通过Cx1x1卷积核得到多头的A，再和X elementwise乘在一起）。请问在NLP中为什么不能将Wq, Qk, Wv直接换成卷积核用以减少参数量呢？谢谢

回复评论

苏剑林发表于 October 21st, 2022

你说的两个东西是一回事。线性变换也是token-wise的，也就是跟你说的Cx1x1的卷积（NLP是Cx1的卷积）等价的，参数也一样。事实上最早的GPT好像就是用Cx1的卷积来实现的）

回复评论

LaDunk

February 7th, 2023

请教苏神，虽然去掉softmax之后可以先算KV，再算Q(KV)，但是causal attention mask怎么用得上呢？因为我的理解是attention mask需要先算出QK才行。

回复评论

苏剑林发表于 February 9th, 2023

本文的“自回归生成”一节不是讨论了这个事情了嘛

回复评论

lijiashi

April 20th, 2023

手动推导后，觉得(5)对应ϕ(qi)=softmax(qi),φ(kj)=ekj是有问题的。可以具体证明一下吗？

回复评论

苏剑林发表于 April 25th, 2023

这就是直接根据定义算就得到了，还能怎么具体呢？倒不如你列一下你自己的推导过程。

回复评论

lijiashi 发表于 April 28th, 2023

用代码很容易验证是错的，我写了一个，但不让粘代码，也不能贴图，你可以自己写一个验证下

回复评论

lijiashi 发表于 April 28th, 2023

import torch

n, d = 4, 2
q = torch.randn(n, d)
k = torch.randn(n, d)
qk1 = q.softmax(dim=1) @ k.softmax(dim=0).t()
qk2 = q.softmax(dim=1) @ k.exp().t()
qk2 = qk2 / qk2.sum(dim=1, keepdim=True)

回复评论

lijiashi 发表于 April 28th, 2023

qk1 和 qk2 就是两种方法求出的 attention 矩阵

回复评论

苏剑林发表于 April 28th, 2023

抱歉，我重新推导了一下，确实不等价，是我太武断了。感谢你的仔细反馈！

回复评论

hazdzz

April 22nd, 2023

DIFFormer 就用了式子（7）來構建 attention，效果還不錯。

回复评论

Allen7575

January 21st, 2024

看到這篇，突然想到一個問題：
如果我的應用是想取出 attention weight 來抓取關鍵字，那是不是沒有 softmax 就不行了？
因為 softmax 後是一個 0~1 的值，從物理直觀上，這個值越接近1，可代表一句話當中，最重要的那個關鍵字。所以有些應用是把 attention weight 最高的字抓出來，當作extractive summarization。

但替代方案如果僅僅是非負，而沒有限制總合為1，那所得到的 attention weight 的物理意義就不明確了。他的值有可能在好幾個字都有很高的 attention weight，但我們無法得知這些"很高"相對來說是多高？因為 weight 值是 unbounded 的，永遠都有可能出現一個更高的值。因此就很難有一個基準來比較每個詞在不同句子的重要性。

如果改成像 sigmoid 這種 bounded 函數，會不會比較好？但這時情況就會變成對每個字的attention weight 是各自獨立的 0~1 值，我們知道最高值是1，所以相對上可以比較。但是越靠近1變化就越小，導致可能很多個字同時都很接近1，看不出哪個「最重要」。但這可能反而是優點，因為 softmax 在長的句子中， weight 值會變得很小，因為總和為1，如果有100個字，平均每個就只能分到0.01，越長就越小，所以也很難反應出「重要性」。

但 sigmoid 也有一個問題，因為最後得出的 embedding 是 weighted sum，每個字獨立的 weight 加起來，如果句子長度不同，就很難比較了。但這似乎很容易解決，只要加起來除以句子長度就可以了。

所以我嘗試提出一個方案：
將softmax 替換成 sigmoid 並於 weighted sum後除以句子長度。在decoder的情況下，每次新產生一個token，都要先除以前面input的長度。這樣，隨著生成的長度增加，新生成的 embedding 不會跟長度有關。同時，sigmoid weight 取出來可以代表每個字各別的重要性，可以設一個threshold，如 0.8，把超過 0.8 的字當作是重要的字取出來，而不需要multihead。

更進一步，有沒有可能把 softmax 跟 sigmoid 兩者混和？

用 sigmoid 篩出 weight 大於 threshold 的 token，然後再對這些 token 做 softmax。這樣一來，softmax 處理的長度就會明顯短於 input 長度，同時可以在 sigmoid 之上，更進一步比較這些篩出來的 token 的相對強度。

回复评论

苏剑林发表于 January 22nd, 2024

这个问题在于，哪怕加了softmax，它虽然有界且和为1，但未必有什么物理含义（因为没有直接用物理世界的数据去训练这个softmax的直接，我们训练的只是最终输出的label）。别忘了softmax之前也是无界的logits，如果我们只看logits，不也得出logits无界就没法用的结论？

实际上，即便attention矩阵无界（在理论上），但它实际上也不真的无界，我们可以统计它的范围甚至分布，估算均值方差等，然后根据一些截断技巧（比如模仿正态分布的3sigma法则）就可以得出相应的显著范围、一般范围等，无序借助有界性。

回复评论

Allen7575 发表于 January 23rd, 2024

蘇兄，我要回復，結果它一直說不合規，我怎麼找都看不出哪裡不合規...請問怎麼解決？

回复评论

苏剑林发表于 January 23rd, 2024

顶部 https://kexue.fm/me.html 有我的邮箱，你可以发评论内容我来查查哈。

回复评论

Allen7575 发表于 January 23rd, 2024

照你這麼說， attention 的直觀解釋"注意力"，其實也只是種比喻，不是我們人類專注在一間事情的那種注意力了...。但不管怎樣，這個架構的設計，一開始一定是參考了人類注意力的想法，所以才提出了可以加上 softmax 代表一個人的「注意力總合為1」這樣的直觀想法。不然照你說，不用加 softmax，那直接用 logits 來計算，就是 (QK)V ，不就好了嗎？為何還要苦苦追求各種 Linear Attention，想辦法把softmax去掉？

顯然softmax還是具有某種物理意義的，就像 CNN 的靈感是取自視網膜的結構，attention 應該也反映了某一部分的物理事實，這就是所謂的歸納偏置(inductive bias)。我們假定訓練資料的結構符合 attention 的假設，例如每個token "注意到" 其他token，是透過softmax這樣的注意力分配，後來又從實驗上得到了良好的結果，支持了使用softmax 作為注意力分配的假設。

所以我認為使用 softmax 確實有其物理意涵的，因為並非隨便加上一個函數就可替代 softmax 。所以了解softmax為何有效，是否因為它有界、總合為1才使它如此有效？或者有其他理由？這是一個可以思考的點。

回复评论

苏剑林发表于 January 24th, 2024

1、Linear Attention也有求和为1的注意力，但它效果并不如标准的Attention；

2、相比之下，Softmax的分子$e^x$，要比它做归一化的分母重要得多；

3、不归一化的注意力也能Work的很好，比如GAU：https://kexue.fm/archives/8934

回复评论

Allen7575 发表于 January 24th, 2024

1,2: 這只能證明 Linear 本身能力不夠強，需要用到 $e^x$ ，但不代表歸一化不重要。
3: 但你也提到，因為GLU本身就很強，對attention的依賴較弱，所以並不能完全歸因於不歸一化的attention。除非可以直接用 $\frac{1}{n} relu^2()$ 替換掉標準 Transfomer 中的 softmax，否則你很難說不歸一化也可以作用。

回复评论

苏剑林发表于 January 24th, 2024

1、GAU有做直接将Multi-Head Attention的Softmax换成$\text{relu}^2$的对比实验，波动很小，可以在它论文找到；
2、另外我们自己也做过将Softmax换成$\frac{1}{n}\text{relu}$的实验，也没对效果（Loss）有实质影响；
3、如果将概率归一化的分母视为$e^{logits}$向量的L1模长，那么我还做过将分母换成其L2模长（这时候是平方和为1，而不是求和为1），效果一样很好，而且理论上比L1模长更完备，参考：https://kexue.fm/archives/9105#%E6%96%B0%E5%BD%92%E4%B8%80%E5%8C%96

所以很遗憾，（概率）归一化的作用确实非常不明显。目前我的看法是，注意力的稀疏性可能会比其他杂七杂八的性质更为本质，参考：https://kexue.fm/archives/9889 。另外，看得出你有非常多有趣的思考，但建议同时多配合实验，会得到更靠谱的结论。

回复评论

Allen7575 发表于 January 26th, 2024

3. 我在這篇 https://kexue.fm/archives/9105#%E6%96%B0%E5%BD%92%E4%B8%80%E5%8C%96 底下留言了，因為我發現 L2 norm 如果擴展到複數域，在物理上有對應的概念，就是量子力學中的機率波。而機率波的振幅平方即表示機率。所以，平方和為1，也是一種計算機率的形式，只是多考慮了用複數代表"相位"。

而你所說的稀疏性指標也用到 L2 norm，在我的複數擴展中，可以這樣理解：
如果實數域越稀疏，虛數域就越不稀疏；反之亦然。
這有點像物理中的測不準原理: $\delta x \cdot \delta p = \hbar$
當粒子的位置越確定，他的動量就越不確定。
所謂的越確定，就是越稀疏，越不確定，就是越不稀疏。

如果選定實部的 attention 增加稀疏性，虛部的attention就會較不稀疏。所以如果把實部 attention score 的 $S(x) = \frac{\mathbb{E}[|x|]}{\sqrt{\mathbb{E}[x^2]}}$ 加到loss中最小化，這樣實部的 attention score 的可解釋性應該就可以提升，而不影響到準確率，因為虛部吸收了不確定的部分。

取消回复

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

线性Attention的探索：Attention必须有个Softmax吗？

Attention #

摘掉Softmax #

一般的定义 #

几个例子 #

核函数形式 #

妙用Softmax #

自己的构思 #

相关工作 #

稀疏Attention #

Reformer #

Linformer #

自回归生成 #

下采样技术 #

文章小结 #

你也许还对下面的内容感兴趣

内容速览

智能搜索

热门标签

随机文章

最近评论

友情链接