标签 attention 下的文章 - 科学空间|Scientific Spaces

12 May

Transformer升级之路：9、一种全局长度外推的新思路

By 苏剑林 | 2023-05-12 | 104136位读者 | 引用

说到Transformer无法处理超长序列的原因，大家的第一反应通常都是Self Attention的二次复杂度。但事实上，即便忽略算力限制，常规的Transformer也无法处理超长序列，因为它们的长度外推性（Length Extrapolation）并不好，具体表现为当输入序列明显超过训练长度时，模型的效果通常会严重下降。

尽管已有一些相关工作，但长度外推问题离实际解决还比较远。本文介绍笔者构思的一种参考方案，它可能是目前唯一一种可以用在生成模型上、具备全局依赖能力的长度外推方法。

方法回顾

长度外推，也称为长度泛化（Length Generalization），此前我们在《Transformer升级之路：7、长度外推性与局部注意力》、《Transformer升级之路：8、长度外推性与位置鲁棒性》已经介绍过部分工作。然而，它们各有各的问题。

点击阅读全文...

分类：信息时代标签：attention, 泛化, 外推阅读全文 29 评论

25 Apr

注意力和Softmax的两点有趣发现：鲁棒性和信息量

By 苏剑林 | 2023-04-25 | 55157位读者 | 引用

最近几周笔者一直都在思考注意力机制的相关性质，在这个过程中对注意力及Softmax有了更深刻的理解。在这篇文章中，笔者简单分享其中的两点：

1、Softmax注意力天然能够抵御一定的噪声扰动；
2、从信息熵角度也可以对初始化问题形成直观理解。

鲁棒性

基于Softmax归一化的注意力机制，可以写为
\begin{equation}o = \frac{\sum\limits_{i=1}^n e^{s_i} v_i}{\sum\limits_{i=1}^n e^{s_i}}\end{equation}
有一天笔者突然想到一个问题：如果往$s_i$中加入独立同分布的噪声会怎样？

点击阅读全文...

分类：数学研究标签：信息, 熵, attention 阅读全文 19 评论

10 Apr

在《从熵不变性看Attention的Scale操作》、《熵不变性Softmax的一个快速推导》中笔者提出了熵不变性Softmax，简单来说就是往Softmax之前的Attention矩阵多乘上一个$\log n$，理论上有助于增强长度外推性，其中$n$是序列长度。$\log n$这个因子让笔者联系到了JL引理（Johnson-Lindenstrauss引理），因为JL引理告诉我们编码$n$个向量只需要$\mathcal{O}(\log n)$的维度就行了，大家都是$\log n$，这两者有没有什么关联呢？

熵不变性

我们知道，熵是不确定性的度量，用在注意力机制中，我们将它作为“集中注意力的程度”。所谓熵不变性，指的是不管序列长度$n$是多少，我们都要将注意力集中在关键的几个token上，而不要太过分散。为此，我们提出的熵不变性Attention形式为
\begin{equation}Attention(Q,K,V) = softmax\left(\frac{\log_{512} n}{\sqrt{d}}QK^{\top}\right)V\label{eq:core}\end{equation}

点击阅读全文...

分类：数学研究,信息时代标签：熵, attention 阅读全文 14 评论

3 Apr

Bias项的神奇作用：RoPE + Bias = 更好的长度外推性

By 苏剑林 | 2023-04-03 | 73665位读者 | 引用

万万没想到，Bias项能跟Transformer的长度外推性联系在一起！

长度外推性是我们希望Transformer具有的一个理想性质，笔者曾在《Transformer升级之路：7、长度外推性与局部注意力》、《Transformer升级之路：8、长度外推性与位置鲁棒性》系统地介绍过这一问题。至于Bias项（偏置项），目前的主流观点是当模型足够大时，Bias项不会有什么特别的作用，所以很多模型选择去掉Bias项，其中代表是Google的T5和PaLM，我们后面做的RoFormerV2和GAU-α也沿用了这个做法。

那么，这两个看上去“风牛马不相及”的东西，究竟是怎么联系起来的呢？Bias项真的可以增强Transformer的长度外推性？且听笔者慢慢道来。

点击阅读全文...

分类：信息时代标签：语言模型, attention, 位置编码, 外推, rope 阅读全文 15 评论

28 Mar

Google新作试图“复活”RNN：RNN能否再次辉煌？

By 苏剑林 | 2023-03-28 | 97375位读者 | 引用

当前，像ChatGPT之类的LLM可谓是“风靡全球”。有读者留意到，几乎所有LLM都还是用最初的Multi-Head Scaled-Dot Attention，近年来大量的Efficient工作如线性Attention、FLASH等均未被采用。是它们版本效果太差，还是根本没有必要考虑效率？其实答案笔者在《线性Transformer应该不是你要等的那个模型》已经分析过了，只有序列长度明显超过hidden size时，标准Attention才呈现出二次复杂度，在此之前它还是接近线性的，它的速度比很多Efficient改进都快，而像GPT3用到了上万的hidden size，这意味着只要你的LLM不是面向数万长度的文本生成，那么用Efficient改进是没有必要的，很多时候速度没提上去，效果还降低了。

那么，真有数万甚至数十万长度的序列处理需求时，我们又该用什么模型呢？近日，Google的一篇论文《Resurrecting Recurrent Neural Networks for Long Sequences》重新优化了RNN模型，特别指出了RNN在处理超长序列场景下的优势。那么，RNN能否再次辉煌？

点击阅读全文...

分类：信息时代标签：语言模型, RNN, 生成模型, attention 阅读全文 28 评论

20 Mar

《为什么现在的LLM都是Decoder-only的架构？》FAQ

By 苏剑林 | 2023-03-20 | 81244位读者 | 引用

上周笔者写了《为什么现在的LLM都是Decoder-only的架构？》，总结了一下我在这个问题上的一些实验结论和猜测。果然是热点问题流量大，paperweekly的转发没多久阅读量就破万了，知乎上点赞数也不少。在几个平台上，陆陆续续收到了读者的一些意见或者疑问，总结了其中一些有代表性的问题，做成了本篇FAQ，希望能进一步帮助大家解决疑惑。

回顾

在《为什么现在的LLM都是Decoder-only的架构？》中，笔者对GPT和UniLM两种架构做了对比实验，然后结合以往的研究经历，猜测了如下结论：

1、输入部分的注意力改为双向不会带来收益，Encoder-Decoder架构的优势很可能只是源于参数翻倍；
2、双向注意力没有带来收益，可能是因为双向注意力的低秩问题导致效果下降。

所以，基于这两点推测，我们得到结论：

在同等参数量、同等推理成本下，Decoder-only架构是最优选择。

点击阅读全文...

分类：信息时代标签：问答, 语言模型, 文本生成, attention 阅读全文 18 评论

17 Mar

为什么现在的LLM都是Decoder-only的架构？

By 苏剑林 | 2023-03-17 | 202310位读者 | 引用

LLM是“Large Language Model”的简写，目前一般指百亿参数以上的语言模型，主要面向文本生成任务。跟小尺度模型（10亿或以内量级）的“百花齐放”不同，目前LLM的一个现状是Decoder-only架构的研究居多，像OpenAI一直坚持Decoder-only的GPT系列就不说了，即便是Google这样的并非全部押注在Decoder-only的公司，也确实投入了不少的精力去研究Decoder-only的模型，如PaLM就是其中之一。那么，为什么Decoder-only架构会成为LLM的主流选择呢？

知乎上也有同款问题《为什么现在的LLM都是Decoder only的架构？》，上面的回答大多数聚焦于Decoder-only在训练效率和工程实现上的优势，那么它有没有理论上的优势呢？本文试图从这个角度进行简单的分析。

统一视角

需要指出的是，笔者目前训练过的模型，最大也就是10亿级别的，所以从LLM的一般概念来看是没资格回答这个问题的，下面的内容只是笔者根据一些研究经验，从偏理论的角度强行回答一波。文章多数推论以自己的实验结果为引，某些地方可能会跟某些文献的结果冲突，请读者自行取舍。

点击阅读全文...

分类：信息时代标签：分析, 语言模型, 文本生成, attention 阅读全文 50 评论

31 Jan

Transformer升级之路：8、长度外推性与位置鲁棒性

By 苏剑林 | 2023-01-31 | 80807位读者 | 引用

上一篇文章《Transformer升级之路：7、长度外推性与局部注意力》我们讨论了Transformer的长度外推性，得出的结论是长度外推性是一个训练和预测的不一致问题，而解决这个不一致的主要思路是将注意力局部化，很多外推性好的改进某种意义上都是局部注意力的变体。诚然，目前语言模型的诸多指标看来局部注意力的思路确实能解决长度外推问题，但这种“强行截断”的做法也许会不符合某些读者的审美，因为人工雕琢痕迹太强，缺乏了自然感，同时也让人质疑它们在非语言模型任务上的有效性。

本文我们从模型对位置编码的鲁棒性角度来重新审视长度外推性这个问题，此思路可以在基本不对注意力进行修改的前提下改进Transformer的长度外推效果，并且还适用多种位置编码，总体来说方法更为优雅自然，而且还适用于非语言模型任务。

点击阅读全文...

分类：信息时代标签：语言模型, attention, 位置编码, 外推阅读全文 22 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前33岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

Transformer升级之路：9、一种全局长度外推的新思路

方法回顾

注意力和Softmax的两点有趣发现：鲁棒性和信息量

鲁棒性

从JL引理看熵不变性Attention

熵不变性

Bias项的神奇作用：RoPE + Bias = 更好的长度外推性

Google新作试图“复活”RNN：RNN能否再次辉煌？

《为什么现在的LLM都是Decoder-only的架构？》FAQ

回顾

为什么现在的LLM都是Decoder-only的架构？

统一视角

Transformer升级之路：8、长度外推性与位置鲁棒性

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接