包含关键字自注意力的文章 - 科学空间|Scientific Spaces

13 May

缓存与效果的极限拉扯：从MHA、MQA、GQA到MLA

By 苏剑林 | 2024-05-13 | 84459位读者 | 引用

前几天，幻方发布的DeepSeek-V2引起了大家的热烈讨论。首先，最让人哗然的是1块钱100万token的价格，普遍比现有的各种竞品API便宜了两个数量级，以至于有人调侃“这个价格哪怕它输出乱码，我也会认为这个乱码是一种艺术”；其次，从模型的技术报告看，如此便宜的价格背后的关键技术之一是它新提出的MLA（Multi-head Latent Attention），这是对GQA的改进，据说能比GQA更省更好，也引起了读者的广泛关注。

接下来，本文将跟大家一起梳理一下从MHA、MQA、GQA到MLA的演变历程，并着重介绍一下MLA的设计思路。

MHA

MHA（Multi-Head Attention），也就是多头注意力，是开山之作《Attention is all you need》所提出的一种Attention形式，可以说它是当前主流LLM的基础工作。在数学上，多头注意力MHA等价于多个独立的单头注意力的拼接，假设输入的（行）向量序列为$\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_l$，其中$\boldsymbol{x}_i\in\mathbb{R}^d$，那么MHA可以形式地记为

点击阅读全文...

分类：信息时代标签：优化, 语言模型, 生成模型, attention 阅读全文 93 评论

18 Mar

时空之章：将Attention视为平方复杂度的RNN

By 苏剑林 | 2024-03-18 | 47913位读者 | 引用

近年来，RNN由于其线性的训练和推理效率，重新吸引了不少研究人员和用户的兴趣，隐约有“文艺复兴”之势，其代表作有RWKV、RetNet、Mamba等。当将RNN用于语言模型时，其典型特点就是每步生成都是常数的空间复杂度和时间复杂度，从整个序列看来就是常数的空间复杂度和线性的时间复杂度。当然，任何事情都有两面性，相比于Attention动态增长的KV Cache，RNN的常数空间复杂度通常也让人怀疑记忆容量有限，在Long Context上的效果很难比得上Attention。

在这篇文章中，我们表明Causal Attention可以重写成RNN的形式，并且它的每一步生成理论上也能够以$\mathcal{O}(1)$的空间复杂度进行（代价是时间复杂度非常高，远超平方级）。这表明Attention的优势（如果有的话）是靠计算堆出来的，而不是直觉上的堆内存，它跟RNN一样本质上都是常数量级的记忆容量（记忆瓶颈）。

点击阅读全文...

分类：数学研究标签：语言模型, RNN, attention, 复杂度阅读全文 36 评论

29 May

Transformer升级之路：18、RoPE的底数选择原则

By 苏剑林 | 2024-05-29 | 145616位读者 | 引用

我们知道，在RoPE中频率的计算公式为$\theta_i = b^{-2i/d}$，底数$b$默认值为10000。目前Long Context的主流做法之一是，先在$b=10000$上用短文本预训练，然后调大$b$并在长文本微调，其出发点是《Transformer升级之路：10、RoPE是一种β进制编码》里介绍的NTK-RoPE，它本身有较好长度外推性，换用更大的$b$再微调相比不加改动的微调，起始损失更小，收敛也更快。该过程给人的感觉是：调大$b$完全是因为“先短后长”的训练策略，如果一直都用长文本训练似乎就没必要调大$b$了？

上周的论文《Base of RoPE Bounds Context Length》试图回答这个问题，它基于一个期望性质研究了$b$的下界，由此指出更大的训练长度本身就应该选择更大的底数，与训练策略无关。整个分析思路颇有启发性，接下来我们一起来品鉴一番。

点击阅读全文...

分类：信息时代标签：不等式, attention, 位置编码, rope 阅读全文 11 评论

14 Jun

通向概率分布之路：盘点Softmax及其替代品

By 苏剑林 | 2024-06-14 | 30075位读者 | 引用

不论是在基础的分类任务中，还是如今无处不在的注意力机制中，概率分布的构建都是一个关键步骤。具体来说，就是将一个$n$维的任意向量，转换为一个$n$元的离散型概率分布。众所周知，这个问题的标准答案是Softmax，它是指数归一化的形式，相对来说比较简单直观，同时也伴有很多优良性质，从而成为大部分场景下的“标配”。

尽管如此，Softmax在某些场景下也有一些不如人意之处，比如不够稀疏、无法绝对等于零等，因此很多替代品也应运而生。在这篇文章中，我们将简单总结一下Softmax的相关性质，并盘点和对比一下它的部分替代方案。

Softmax回顾

首先引入一些通用记号：$\boldsymbol{x} = (x_1,x_2,\cdots,x_n)\in\mathbb{R}^n$是需要转为概率分布的$n$维向量，它的分量可正可负，也没有限定的上下界。$\Delta^{n-1}$定义为全体$n$元离散概率分布的集合，即
\begin{equation}\Delta^{n-1} = \left\{\boldsymbol{p}=(p_1,p_2,\cdots,p_n)\left|\, p_1,p_2,\cdots,p_n\geq 0,\sum_{i=1}^n p_i = 1\right.\right\}\end{equation}
之所以标注$n-1$而不是$n$，是因为约束$\sum\limits_{i=1}^n p_i = 1$定义了$n$维空间中的一个$n-1$维子平面，再加上$p_i\geq 0$的约束，$(p_1,p_2,\cdots,p_n)$的集合就只是该平面的一个子集，即实际维度只有$n-1$。

点击阅读全文...

分类：数学研究标签：概率, 分析, 损失函数, 梯度阅读全文 11 评论

24 Jul

Monarch矩阵：计算高效的稀疏型矩阵分解

By 苏剑林 | 2024-07-24 | 25661位读者 | 引用

在矩阵压缩这个问题上，我们通常有两个策略可以选择，分别是低秩化和稀疏化。低秩化通过寻找矩阵的低秩近似来减少矩阵尺寸，而稀疏化则是通过减少矩阵中的非零元素来降低矩阵的复杂性。如果说SVD是奔着矩阵的低秩近似去的，那么相应地寻找矩阵稀疏近似的算法又是什么呢？

接下来我们要学习的是论文《Monarch: Expressive Structured Matrices for Efficient and Accurate Training》，它为上述问题给出了一个答案——“Monarch矩阵”，这是一簇能够分解为若干置换矩阵与稀疏矩阵乘积的矩阵，同时具备计算高效且表达能力强的特点，论文还讨论了如何求一般矩阵的Monarch近似，以及利用Monarch矩阵参数化LLM来提高LLM速度等内容。

Monarch矩阵形式M=PLPR

值得指出的是，该论文的作者也正是著名的Flash Attention的作者Tri Dao，其工作几乎都在致力于改进LLM的性能，这篇Monarch也是他主页上特意展示的几篇论文之一，单从这一点看就非常值得学习一番。

点击阅读全文...

分类：数学研究标签：矩阵, 语言模型, 稀疏, 低秩阅读全文 10 评论

1 Sep

Decoder-only的LLM为什么需要位置编码？

By 苏剑林 | 2024-09-01 | 34485位读者 | 引用

众所周知，目前主流的LLM，都是基于Causal Attention的Decoder-only模型（对此我们在《为什么现在的LLM都是Decoder-only的架构？》也有过相关讨论），而对于Causal Attention，已经有不少工作表明它不需要额外的位置编码（简称NoPE）就可以取得非平凡的结果。然而，事实是主流的Decoder-only LLM都还是加上了额外的位置编码，比如RoPE、ALIBI等。

那么问题就来了：明明说了不加位置编码也可以，为什么主流的LLM反而都加上了呢？不是说“多一事不如少一事”吗？这篇文章我们从三个角度给出笔者的看法：

1、位置编码对于Attention的作用是什么？
2、NoPE的Causal Attention是怎么实现位置编码的？
3、NoPE实现的位置编码有什么不足？

点击阅读全文...

分类：信息时代,问题百科标签：语言模型, attention, 位置编码阅读全文 23 评论

5 Aug

两道无穷级数：自然数及其平方的倒数和

By 苏剑林 | 2009-08-05 | 63031位读者 | 引用

证明下列级数发散或者收敛：
(1) $\sum_{x = 1}^\infty \frac{1}{x} = 1 + \frac{1}{2} + \frac{1}{3} + \frac{1}{4} + ...$
(2) $\sum_{x = 1}^\infty \frac{1}{x^2} = 1 + \frac{1}{2^2} + \frac{1}{3^2} + \frac{1}{4^2} + ...$

一眼看上去，由于$1/x,1/{x^2}$都会趋向零，所以它们应该是收敛的。真的是这样吗？

点击阅读全文...

分类：数学研究标签：级数, 自然数, 倒数, 平方阅读全文 7 评论

16 Oct

以自然数幂为系数的幂级数

By 苏剑林 | 2010-10-16 | 32152位读者 | 引用

$\sum_{i=0}^{\infty} a_i x^i=a_0+a_1 x+a_2 x^2+a_3 x^3+...$
最近为了数学竞赛，我研究了有关数列和排列组合的相关问题。由于我讨厌为某个问题而设计专门的技巧，所以我偏爱通用的方法，哪怕过程相对麻烦。因此，我对数学归纳法（递推法）和生成函数法情有独钟。前者只需要列出问题的递归关系，而不用具体分析，最终把问题转移到解函数方程上来。后者则巧妙地把数列${a_n}$与幂级数$\sum_{i=0}^{\infty} a_i x^i$一一对应，巧妙地通过代数运算或微积分运算等得到结果。这里我们不用考虑该级数的敛散性，只需要知道它对应着哪一个“母函数”（母函数展开泰勒级数后得到了级数$\sum_{i=0}^{\infty} a_i x^i$）。显然，这两种方法的最终，都是把问题归结为代数问题。

点击阅读全文...

分类：数学研究标签：级数, 自然数, 幂, 生成函数阅读全文 4 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

缓存与效果的极限拉扯：从MHA、MQA、GQA到MLA

MHA

时空之章：将Attention视为平方复杂度的RNN

Transformer升级之路：18、RoPE的底数选择原则

通向概率分布之路：盘点Softmax及其替代品

Softmax回顾

Monarch矩阵：计算高效的稀疏型矩阵分解

Decoder-only的LLM为什么需要位置编码？

两道无穷级数：自然数及其平方的倒数和

以自然数幂为系数的幂级数

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接