包含关键字稀疏注意力的文章 - 科学空间|Scientific Spaces

1 Sep

Decoder-only的LLM为什么需要位置编码？

By 苏剑林 | 2024-09-01 | 33925位读者 | 引用

众所周知，目前主流的LLM，都是基于Causal Attention的Decoder-only模型（对此我们在《为什么现在的LLM都是Decoder-only的架构？》也有过相关讨论），而对于Causal Attention，已经有不少工作表明它不需要额外的位置编码（简称NoPE）就可以取得非平凡的结果。然而，事实是主流的Decoder-only LLM都还是加上了额外的位置编码，比如RoPE、ALIBI等。

那么问题就来了：明明说了不加位置编码也可以，为什么主流的LLM反而都加上了呢？不是说“多一事不如少一事”吗？这篇文章我们从三个角度给出笔者的看法：

1、位置编码对于Attention的作用是什么？
2、NoPE的Causal Attention是怎么实现位置编码的？
3、NoPE实现的位置编码有什么不足？

点击阅读全文...

分类：信息时代,问题百科标签：语言模型, attention, 位置编码阅读全文 23 评论

«
1
...
8
9
10
11

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

热门标签

随机文章

最近评论

Qiang Sun: 如果是从t_k预测x_0更难的话可不可以通过用更小的weight来解决这个问题呢
刘洋: 你好，公式23下面第二行，是不是应该是：把U补为n*n的矩阵？
李润中: 能否请教下，对于(3)式文中说“而如果$A$是全1矩阵，那么它就是普通的注意力机制”。请问这里...
王小白: 请教苏老师，如果训练过程中梯度变小，接近甚至小于epsilon后，我发现这时候直接降低epsi...
YJL: 今天才发现cool papers这么好的网站，之前一直想建立一个略读的习惯，但是没有靠谱的论文...
QuantHao: 苏神您好：今日拜读您多篇博客，严谨又不失风趣，越看越深表倾佩。针对本文，我有如下两个疑问，望您...
Lyu You: $\epsilon \sim \mathcal{U}[0,1]$， $\ln \epsilon...
xychen_cxy: 苏神你好，我们在复现实验的时候，尝试通过计算白话前后bert向量的cosine相似度，发现数据...
无隅: 有个问题想请教下苏神，本文通过层次分解法解决了长文本位置编码的问题,也就是长文本里超过固定长度...
milter: 确实是高观点2，我写错了。