包含关键字 softmax 的文章 - 科学空间|Scientific Spaces

9 Nov

CoSENT（三）：作为交互式相似度的损失函数

By 苏剑林 | 2022-11-09 | 30544位读者 | 引用

在《CoSENT（一）：比Sentence-BERT更有效的句向量方案》中，笔者提出了名为“CoSENT”的有监督句向量方案，由于它是直接训练cos相似度的，跟评测目标更相关，因此通常能有着比Sentence-BERT更好的效果以及更快的收敛速度。在《CoSENT（二）：特征式匹配与交互式匹配有多大差距？》中我们还比较过它跟交互式相似度模型的差异，显示它在某些任务上的效果还能直逼交互式相似度模型。

然而，当时笔者是一心想找一个更接近评测目标的Sentence-BERT替代品，所以结果都是面向有监督句向量的，即特征式相似度模型。最近笔者突然反应过来，CoSENT其实也能作为交互式相似度模型的损失函数。那么它跟标准选择交叉熵相比孰优孰劣呢？本文来补充这部分实验。

点击阅读全文...

分类：信息时代标签：语义, 语义相似度, 对比学习阅读全文 10 评论

28 Dec

Transformer升级之路：6、旋转位置编码的完备性分析

By 苏剑林 | 2022-12-28 | 37981位读者 | 引用

在去年的文章《Transformer升级之路：2、博采众长的旋转式位置编码》中，笔者提出了旋转位置编码（RoPE），当时的出发点只是觉得用绝对位置来实现相对位置是一件“很好玩的事情”，并没料到其实际效果还相当不错，并为大家所接受，不得不说这真是一个意外之喜。后来，在《Transformer升级之路：4、二维位置的旋转式位置编码》中，笔者讨论了二维形式的RoPE，并研究了用矩阵指数表示的RoPE的一般解。

既然有了一般解，那么自然就会引出一个问题：我们常用的RoPE，只是一个以二维旋转矩阵为基本单元的分块对角矩阵，如果换成一般解，理论上效果会不会更好呢？本文就来回答这个问题。

指数通解

在《Transformer升级之路：4、二维位置的旋转式位置编码》中，我们将RoPE抽象地定义为任意满足下式的方阵
\begin{equation}\boldsymbol{\mathcal{R}}_m^{\top}\boldsymbol{\mathcal{R}}_n=\boldsymbol{\mathcal{R}}_{n-m}\label{eq:re}\end{equation}

点击阅读全文...

分类：信息时代标签：矩阵, attention, 位置编码, rope 阅读全文 16 评论

12 Jan

Transformer升级之路：7、长度外推性与局部注意力

By 苏剑林 | 2023-01-12 | 86522位读者 | 引用

对于Transformer模型来说，其长度的外推性是我们一直在追求的良好性质，它是指我们在短序列上训练的模型，能否不用微调地用到长序列上并依然保持不错的效果。之所以追求长度外推性，一方面是理论的完备性，觉得这是一个理想模型应当具备的性质，另一方面也是训练的实用性，允许我们以较低成本（在较短序列上）训练出一个长序列可用的模型。

下面我们来分析一下加强Transformer长度外推性的关键思路，并由此给出一个“超强基线”方案，然后我们带着这个“超强基线”来分析一些相关的研究工作。

思维误区

第一篇明确研究Transformer长度外推性的工作应该是ALIBI，出自2021年中期，距今也不算太久。为什么这么晚（相比Transformer首次发表的2017年）才有人专门做这个课题呢？估计是因为我们长期以来，都想当然地认为Transformer的长度外推性是位置编码的问题，找到更好的位置编码就行了。

点击阅读全文...

分类：信息时代标签：语言模型, attention, 位置编码, 外推阅读全文 43 评论

8 Jun

Naive Bayes is all you need ?

By 苏剑林 | 2023-06-08 | 43620位读者 | 引用

很抱歉，起了这么个具有标题党特征的题目。在写完《NBCE：使用朴素贝叶斯扩展LLM的Context处理长度》之后，笔者就觉得朴素贝叶斯（Naive Bayes）跟Attention机制有很多相同的特征，后来再推导了一下发现，Attention机制其实可以看成是一种广义的、参数化的朴素贝叶斯。既然如此，“Attention is All You Need”不也就意味着“Naive Bayes is all you need”了？这就是本文标题的缘由。

接下来笔者将介绍自己的思考过程，分析如何从朴素贝叶斯角度来理解Attention机制。

朴素贝叶斯

本文主要考虑语言模型，它要建模的是$p(x_t|x_1,\cdots,x_{t-1})$。根据贝叶斯公式，我们有
\begin{equation}p(x_t|x_1,\cdots,x_{t-1}) = \frac{p(x_1,\cdots,x_{t-1}|x_t)p(x_t)}{p(x_1,\cdots,x_{t-1})}\propto p(x_1,\cdots,x_{t-1}|x_t)p(x_t)\end{equation}

点击阅读全文...

分类：信息时代标签：语言模型, attention, LLM, 贝叶斯阅读全文 27 评论

17 Mar

为什么现在的LLM都是Decoder-only的架构？

By 苏剑林 | 2023-03-17 | 101482位读者 | 引用

LLM是“Large Language Model”的简写，目前一般指百亿参数以上的语言模型，主要面向文本生成任务。跟小尺度模型（10亿或以内量级）的“百花齐放”不同，目前LLM的一个现状是Decoder-only架构的研究居多，像OpenAI一直坚持Decoder-only的GPT系列就不说了，即便是Google这样的并非全部押注在Decoder-only的公司，也确实投入了不少的精力去研究Decoder-only的模型，如PaLM就是其中之一。那么，为什么Decoder-only架构会成为LLM的主流选择呢？

知乎上也有同款问题《为什么现在的LLM都是Decoder only的架构？》，上面的回答大多数聚焦于Decoder-only在训练效率和工程实现上的优势，那么它有没有理论上的优势呢？本文试图从这个角度进行简单的分析。

统一视角

需要指出的是，笔者目前训练过的模型，最大也就是10亿级别的，所以从LLM的一般概念来看是没资格回答这个问题的，下面的内容只是笔者根据一些研究经验，从偏理论的角度强行回答一波。文章多数推论以自己的实验结果为引，某些地方可能会跟某些文献的结果冲突，请读者自行取舍。

点击阅读全文...

分类：信息时代标签：分析, 语言模型, 文本生成, attention 阅读全文 30 评论

23 May

NBCE：使用朴素贝叶斯扩展LLM的Context处理长度

By 苏剑林 | 2023-05-23 | 75660位读者 | 引用

在LLM时代还玩朴素贝叶斯（Naive Bayes）？

这可能是许多读者在看到标题后的首个想法。确实如此，当古老的朴素贝叶斯与前沿的LLM相遇时，产生了令人惊讶的效果——我们可以直接扩展现有LLM模型的Context处理长度，无需对模型进行微调，也不依赖于模型架构，具有线性效率，而且效果看起来还不错——这就是本文所提出的NBCE（Naive Bayes-based Context Extension）方法。

摸石过河

假设$T$为要生成的token序列，$S_1,S_2,\cdots,S_n$是给定的若干个相对独立的Context集合（比如$n$个不同的段落，至少不是一个句子被分割为两个片段那种），假设它们的总长度已经超过了训练长度，而单个$S_k$加$T$还在训练长度内。我们需要根据$S_1,S_2,\cdots,S_n$生成$T$，即估计$p(T|S_1, S_2,\cdots,S_n)$。

点击阅读全文...

分类：信息时代标签：语言模型, 外推, LLM, 贝叶斯阅读全文 62 评论

7 Aug

Transformer升级之路：12、无限外推的ReRoPE？

By 苏剑林 | 2023-08-07 | 61519位读者 | 引用

自从在《Transformer升级之路：11、将β进制位置进行到底》中引入混合进制的思路进一步推广了NTK-aware Scaled RoPE后，笔者感觉类似思路的效果已经达到了上限，想要更大幅度的提升就必须另辟蹊径了。这时候笔者想起了此前构思过的一个思路，该思路由于复杂度较高所以被搁置下了，既然现在已经遇到了瓶颈，那么“唯一的办法就是最好的办法”，于是便将它重拾起来。

万万没想到的是，尽管该方法增加了一些推理复杂度，但它的实验效果却惊人地好——甚至隐约有无限的长度外推能力！因此，笔者迫不及待地撰写了本文来分享该方法。由于形式上跟ReLU激活函数的相似性，所以笔者将该方法命名为“ReRoPE (Rectified Rotary Position Embeddings)”。

重温

我们知道，RoPE形式上是一种绝对位置编码，但实际上给Attention带来的是相对位置信息，即如下的Toeplitz矩阵：

点击阅读全文...

分类：信息时代标签：attention, 位置编码, 泛化, 外推, rope 阅读全文 47 评论

3 Apr

Bias项的神奇作用：RoPE + Bias = 更好的长度外推性

By 苏剑林 | 2023-04-03 | 40082位读者 | 引用

【注：后来经过反复测试发现，发现此篇文章的长度外推结果可复现性比较不稳定（可能跟模型结构、超参数等紧密相关），请自行斟酌使用。】

万万没想到，Bias项能跟Transformer的长度外推性联系在一起！

长度外推性是我们希望Transformer具有的一个理想性质，笔者曾在《Transformer升级之路：7、长度外推性与局部注意力》、《Transformer升级之路：8、长度外推性与位置鲁棒性》系统地介绍过这一问题。至于Bias项（偏置项），目前的主流观点是当模型足够大时，Bias项不会有什么特别的作用，所以很多模型选择去掉Bias项，其中代表是Google的T5和PaLM，我们后面做的RoFormerV2和GAU-α也沿用了这个做法。

那么，这两个看上去“风牛马不相及”的东西，究竟是怎么联系起来的呢？Bias项真的可以增强Transformer的长度外推性？且听笔者慢慢道来。

点击阅读全文...

分类：信息时代标签：语言模型, attention, 位置编码, 外推, rope 阅读全文 12 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

CoSENT（三）：作为交互式相似度的损失函数

Transformer升级之路：6、旋转位置编码的完备性分析

指数通解

Transformer升级之路：7、长度外推性与局部注意力

思维误区

Naive Bayes is all you need ?

朴素贝叶斯

为什么现在的LLM都是Decoder-only的架构？

统一视角

NBCE：使用朴素贝叶斯扩展LLM的Context处理长度

摸石过河

Transformer升级之路：12、无限外推的ReRoPE？

重温

Bias项的神奇作用：RoPE + Bias = 更好的长度外推性

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接