包含关键字小样本实体识别的文章 - 科学空间|Scientific Spaces

20 Nov

Transformer升级之路：15、Key归一化助力长度外推

By 苏剑林 | 2023-11-20 | 56386位读者 | 引用

大体上，我们可以将目前Transformer的长度外推技术分为两类：一类是事后修改，比如NTK-RoPE、YaRN、ReRoPE等，这类方法的特点是直接修改推理模型，无需微调就能达到一定的长度外推效果，但缺点是它们都无法保持模型在训练长度内的恒等性；另一类自然是事前修改，如ALIBI、KERPLE、XPOS以及HWFA等，它们可以不加改动地实现一定的长度外推，但相应的改动需要在训练之前就引入，因此无法不微调地用于现成模型，并且这类方法是否能够Scale Up还没得到广泛认可。

在这篇文章中，笔者将介绍一种意外发现的长度外推方案——“KeyNorm”——对Attention的Key序列做L2 Normalization，很明显它属于事前修改一类，但对Attention机制的修改非常小，因此看上去非常有希望能够Scale Up。

最初动机

之所以说“意外发现”，是因为该改动的原始动机并不是长度外推，而是尝试替换Scaled Dot-Product Attention中的Scale方式。我们知道，Attention的标准定义是（本文主要考虑Causal场景）
\begin{equation}\boldsymbol{o}_i = \frac{\sum_{j = 1}^i\exp\left(\frac{\boldsymbol{q}_i\cdot \boldsymbol{k}_j}{\sqrt{d}}\right)\boldsymbol{v}_j}{\sum_{j = 1}^i\exp\left(\frac{\boldsymbol{q}_i\cdot \boldsymbol{k}_j}{\sqrt{d}}\right)},\quad \boldsymbol{q}_i,\boldsymbol{k}_j\in\mathbb{R}^d\label{eq:sdpa}\end{equation}

点击阅读全文...

分类：信息时代标签：attention, 位置编码, 泛化, 外推阅读全文 24 评论

14 Jun

通向概率分布之路：盘点Softmax及其替代品

By 苏剑林 | 2024-06-14 | 29829位读者 | 引用

不论是在基础的分类任务中，还是如今无处不在的注意力机制中，概率分布的构建都是一个关键步骤。具体来说，就是将一个$n$维的任意向量，转换为一个$n$元的离散型概率分布。众所周知，这个问题的标准答案是Softmax，它是指数归一化的形式，相对来说比较简单直观，同时也伴有很多优良性质，从而成为大部分场景下的“标配”。

尽管如此，Softmax在某些场景下也有一些不如人意之处，比如不够稀疏、无法绝对等于零等，因此很多替代品也应运而生。在这篇文章中，我们将简单总结一下Softmax的相关性质，并盘点和对比一下它的部分替代方案。

Softmax回顾

首先引入一些通用记号：$\boldsymbol{x} = (x_1,x_2,\cdots,x_n)\in\mathbb{R}^n$是需要转为概率分布的$n$维向量，它的分量可正可负，也没有限定的上下界。$\Delta^{n-1}$定义为全体$n$元离散概率分布的集合，即
\begin{equation}\Delta^{n-1} = \left\{\boldsymbol{p}=(p_1,p_2,\cdots,p_n)\left|\, p_1,p_2,\cdots,p_n\geq 0,\sum_{i=1}^n p_i = 1\right.\right\}\end{equation}
之所以标注$n-1$而不是$n$，是因为约束$\sum\limits_{i=1}^n p_i = 1$定义了$n$维空间中的一个$n-1$维子平面，再加上$p_i\geq 0$的约束，$(p_1,p_2,\cdots,p_n)$的集合就只是该平面的一个子集，即实际维度只有$n-1$。

点击阅读全文...

分类：数学研究标签：概率, 分析, 损失函数, 梯度阅读全文 11 评论

19 Sep

Softmax后传：寻找Top-K的光滑近似

By 苏剑林 | 2024-09-19 | 27251位读者 | 引用

Softmax，顾名思义是“soft的max”，是$\max$算子（准确来说是$\text{argmax}$）的光滑近似，它通过指数归一化将任意向量$\boldsymbol{x}\in\mathbb{R}^n$转化为分量非负且和为1的新向量，并允许我们通过温度参数来调节它与$\text{argmax}$（的one hot形式）的近似程度。除了指数归一化外，我们此前在《通向概率分布之路：盘点Softmax及其替代品》也介绍过其他一些能实现相同效果的方案。

我们知道，最大值通常又称Top-1，它的光滑近似方案看起来已经相当成熟，那读者有没有思考过，一般的Top-$k$的光滑近似又是怎么样的呢？下面让我们一起来探讨一下这个问题。

问题描述

设向量$\boldsymbol{x}=(x_1,x_2,\cdots,x_n)\in\mathbb{R}^n$，简单起见我们假设它们两两不相等，即$i\neq j \Leftrightarrow x_i\neq x_j$。记$\Omega_k(\boldsymbol{x})$为$\boldsymbol{x}$最大的$k$个分量的下标集合，即$|\Omega_k(\boldsymbol{x})|=k$以及$\forall i\in \Omega_k(\boldsymbol{x}), j \not\in \Omega_k(\boldsymbol{x})\Rightarrow x_i > x_j$。我们定义Top-$k$算子$\mathcal{T}_k$为$\mathbb{R}^n\mapsto\{0,1\}^n$的映射：
\begin{equation}
[\mathcal{T}_k(\boldsymbol{x})]_i = \left\{\begin{aligned}1,\,\, i\in \Omega_k(\boldsymbol{x}) \\ 0,\,\, i \not\in \Omega_k(\boldsymbol{x})\end{aligned}\right.
\end{equation}
说白了，如果$x_i$属于最大的$k$个元素之一，那么对应的位置变成1，否则变成0，最终结果是一个Multi-Hot向量，比如$\mathcal{T}_2([3,2,1,4]) = [1,0,0,1]$。

点击阅读全文...

分类：数学研究标签：概率, 近似, 梯度, 光滑阅读全文 21 评论

26 Aug

近乎完美地解决MathJax与Marked的冲突

By 苏剑林 | 2024-08-26 | 13343位读者 | 引用

在《让MathJax更好地兼容谷歌翻译和延时加载》我们提到Cool Papers加入了MathJax来解析LaTeX公式，不过万万没想到引发了诸多兼容性问题，虽然部分问题纯粹是笔者的强迫症作祟，但一个尽可能完美的解决方案终究是让人赏心悦目的，所以还是愿意在上面花一点心思。

上一篇文章我们已经解决了MathJax与谷歌翻译、延时加载的兼容性，这篇文章我们则来解决MathJax与Marked的冲突。

问题简述

Markdown是一种轻量级标记语言，允许人们使用易读易写的纯文本格式编写文档，可谓是目前最流行的写作语法之一，Cool Papers中的[Kimi]功能，基本上也是按照Markdown语法输出。然而。Markdown并不是直接面向浏览器的语言，面向浏览器的语言叫做HTML，所以在展示给用户之前，有一个Markdown转HTML的过程（渲染）。

点击阅读全文...

分类：信息时代,问题百科标签：网站, latex, 论文, 酷论文阅读全文抢沙发

1 Sep

Decoder-only的LLM为什么需要位置编码？

By 苏剑林 | 2024-09-01 | 34098位读者 | 引用

众所周知，目前主流的LLM，都是基于Causal Attention的Decoder-only模型（对此我们在《为什么现在的LLM都是Decoder-only的架构？》也有过相关讨论），而对于Causal Attention，已经有不少工作表明它不需要额外的位置编码（简称NoPE）就可以取得非平凡的结果。然而，事实是主流的Decoder-only LLM都还是加上了额外的位置编码，比如RoPE、ALIBI等。

那么问题就来了：明明说了不加位置编码也可以，为什么主流的LLM反而都加上了呢？不是说“多一事不如少一事”吗？这篇文章我们从三个角度给出笔者的看法：

1、位置编码对于Attention的作用是什么？
2、NoPE的Causal Attention是怎么实现位置编码的？
3、NoPE实现的位置编码有什么不足？

点击阅读全文...

分类：信息时代,问题百科标签：语言模型, attention, 位置编码阅读全文 23 评论

16 Oct

Cool Papers浏览器扩展升级至v0.2.0

By 苏剑林 | 2024-10-16 | 20083位读者 | 引用

年初，我们在《更便捷的Cool Papers打开方式：Chrome重定向扩展》中发布了一个Chrome浏览器插件（Cool Papers Redirector v0.1.0），可以通过右击菜单从任意页面中重定向到Cool Papers中，让大家更方便地获取Kimi对论文的理解。前几天我们把该插件升级到了v0.2.0，并顺利上架到了Chrome应用商店中，遂在此向大家推送一下。

更新汇总

相比旧版v0.1.0，当前版v0.2.0的主要更新内容如下：

1、右键菜单跳转改为在新标签页打开；
2、右键菜单支持同时访问多个论文ID；
3、右键菜单支持PDF页面；
4、右键菜单新增更多论文源（arXiv、OpenReview、ACL、IJCAI、PMLR）；
5、右键菜单在搜索不到论文ID时，转入站内搜索（即划词搜索）；
6、在某些网站的适当位置插入快捷跳转链接（arXiv、OpenReview，ACL）。

点击阅读全文...

分类：信息时代标签：网站, 论文, 酷论文阅读全文 8 评论

7 Aug

一篇费曼的介绍

By 苏剑林 | 2012-08-07 | 30593位读者 | 引用

站长注：这篇文章来源于网络，原文是繁体中文版本，我经过修改整理而成。它原来是《费曼的6堂Easy物理课》这本书的解说，但是由于内容上的详细和扼要，我更愿意把它当做物理学家费曼的解说，与大家分享。

伟哉！费曼

社会上普遍有种错误的想法，总以为科学是完全客观的，不但不会因人而异，更不会感情用事。对比之下，科学以外的各种人类活动，则多多少少会受到一般潮流动向、突发的时尚风潮，以及当事人的性格、偏好所左右。唯有科学，得受制于科学社群都同意的规则、步骤，与严密的测试、检验。科学仅着重于得到的结论，而不在乎谁是做研究、做实验的人。

以上说法显然是无稽之谈，科学既然靠人推动，就跟其他人类活动相同，都会受到大环境趋势及个人意念的影响。在科学领域，研究潮流的趋向受到主题素材选择的影响并不大，却相当取决于当时科学家对整个世界的看法。

点击阅读全文...

分类：资源共享标签：转载, 科学家, 费曼阅读全文 2 评论

26 Dec

费曼路径积分思想的发展(二)

By 苏剑林 | 2012-12-26 | 25643位读者 | 引用

2、量子力学中的作用量量子化方法

在发现经典电动力学的这个新作用量之后，费曼便试图将它量子化，以期得到一个令人满意的量子电动力学。当时，量子物理学中还没有采用作用量方法。常规的途径是从哈密顿函数开始，用算符来取代经典哈密顿函数中的位置和动量，再应用非对易关系。费曼当时还不知道，狄拉克在1932年的一篇文章中已经将作用量和拉格朗日函数引进了量子力学[9]。正当他百思不得其解时，一位在普林斯頓访问的欧洲学者吿诉他，狄拉克在某某文章中讨论过这一间题。得知此信息后，费曼次日即去图书馆翻阅此文。

狄拉克在1932年的文章中引进了一个非常重要的函数$ < q_{t+dt}|q_t > $，并指出它“相当于” $\exp[\frac{i}{\hbar}Ldt]$[9]。这“意味着”,狄拉克强调：“我们不应该把经典的拉格朗日函数看成是坐标和速度的函数，而应把它看作两个不同时刻t和r+dt的坐标的函数。"[9]在狄拉克思想的启发之下，费曼径直把“相当于”改写为“正比于”：

点击阅读全文...

分类：物理化学标签：量子力学, 作用量, 路径积分, 费曼阅读全文抢沙发

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

Transformer升级之路：15、Key归一化助力长度外推

最初动机

通向概率分布之路：盘点Softmax及其替代品

Softmax回顾

Softmax后传：寻找Top-K的光滑近似

问题描述

近乎完美地解决MathJax与Marked的冲突

问题简述

Decoder-only的LLM为什么需要位置编码？

Cool Papers浏览器扩展升级至v0.2.0

更新汇总

一篇费曼的介绍

费曼路径积分思想的发展(二)

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接