包含关键字 Attention is all 的文章 - 科学空间|Scientific Spaces

7 Apr

听说Attention与Softmax更配哦～

By 苏剑林 | 2022-04-07 | 51625位读者 | 引用

不知道大家留意到一个细节没有，就是当前NLP主流的预训练模式都是在一个固定长度（比如512）上进行，然后直接将预训练好的模型用于不同长度的任务中。大家似乎也没有对这种模式有过怀疑，仿佛模型可以自动泛化到不同长度是一个“理所应当”的能力。

当然，笔者此前同样也没有过类似的质疑，直到前几天笔者做了Base版的GAU实验后才发现GAU的长度泛化能力并不如想象中好。经过进一步分析后，笔者才明白原来这种长度泛化的能力并不是“理所当然”的......

模型回顾

在《FLASH：可能是近来最有意思的高效Transformer设计》中，我们介绍了“门控注意力单元GAU”，它是一种融合了GLU和Attention的新设计。

除了效果，GAU在设计上给我们带来的冲击主要有两点：一是它显示了单头注意力未必就逊色于多头注意力，这奠定了它“快”、“省”的地位；二是它是显示了注意力未必需要Softmax归一化，可以换成简单的$\text{relu}^2$除以序列长度：
\begin{equation}\boldsymbol{A}=\frac{1}{n}\text{relu}^2\left(\frac{\mathcal{Q}(\boldsymbol{Z})\mathcal{K}(\boldsymbol{Z})^{\top}}{\sqrt{s}}\right)=\frac{1}{ns}\text{relu}^2\left(\mathcal{Q}(\boldsymbol{Z})\mathcal{K}(\boldsymbol{Z})^{\top}\right)\end{equation}

点击阅读全文...

分类：信息时代标签：熵, 语言模型, attention, 预训练阅读全文 43 评论

22 Oct

从梯度最大化看Attention的Scale操作

By 苏剑林 | 2023-10-22 | 45306位读者 | 引用

我们知道，Scaled Dot-Product Attention的Scale因子是$\frac{1}{\sqrt{d}}$，其中$d$是$\boldsymbol{q},\boldsymbol{k}$的维度。这个Scale因子的一般解释是：如果不除以$\sqrt{d}$，那么初始的Attention就会很接近one hot分布，这会造成梯度消失，导致模型训练不起来。然而，可以证明的是，当Scale等于0时同样也会有梯度消失问题，这也就是说Scale太大太小都不行。

那么多大的Scale才适合呢？$\frac{1}{\sqrt{d}}$是最佳的Scale了吗？本文试图从梯度角度来回答这个问题。

已有结果

在《浅谈Transformer的初始化、参数化与标准化》中，我们已经推导过标准的Scale因子$\frac{1}{\sqrt{d}}$，推导的思路很简单，假设初始阶段$\boldsymbol{q},\boldsymbol{k}\in\mathbb{R}^d$都采样自“均值为0、方差为1”的分布，那么可以算得
\begin{equation}\mathbb{V}ar[\boldsymbol{q}\cdot\boldsymbol{k}] = d\end{equation}

点击阅读全文...

分类：数学研究,信息时代标签：优化, 梯度, attention 阅读全文 24 评论

18 Mar

时空之章：将Attention视为平方复杂度的RNN

By 苏剑林 | 2024-03-18 | 23344位读者 | 引用

近年来，RNN由于其线性的训练和推理效率，重新吸引了不少研究人员和用户的兴趣，隐约有“文艺复兴”之势，其代表作有RWKV、RetNet、Mamba等。当将RNN用于语言模型时，其典型特点就是每步生成都是常数的空间复杂度和时间复杂度，从整个序列看来就是常数的空间复杂度和线性的时间复杂度。当然，任何事情都有两面性，相比于Attention动态增长的KV Cache，RNN的常数空间复杂度通常也让人怀疑记忆容量有限，在Long Context上的效果很难比得上Attention。

在这篇文章中，我们表明Causal Attention可以重写成RNN的形式，并且它的每一步生成理论上也能够以$\mathscr{O}(1)$的空间复杂度进行（代价是时间复杂度非常高，远超平方级）。这表明Attention的优势（如果有的话）是靠计算堆出来的，而不是直觉上的堆内存，它跟RNN一样本质上都是常数量级的记忆容量（记忆瓶颈）。

点击阅读全文...

分类：数学研究标签：语言模型, RNN, attention, 复杂度阅读全文 29 评论

1 Nov

月底回家看彗星C/2012 S1 (ISON)

By 苏剑林 | 2013-11-01 | 20185位读者 | 引用

今年的天象中的“重头戏”——C/2012 S1 (ISON)彗星将在月底闪亮登场！

ISON_Comet_captured_by_HST,_April_10-11,_2013

先贴出来自scully.cfa.harvard.edu的数据：

Date TT R. A. (2000) Decl. Delta r Elong. Phase m1 m2
2013 11 24 14 45 42.7 -18 53 56 0.8693 0.3002 17.1 104.3 3.0
2013 11 25 15 01 27.3 -20 05 10 0.8819 0.2551 14.3 107.0 2.5
2013 11 26 15 18 04.6 -21 09 58 0.8998 0.2058 11.4 109.3 1.8
2013 11 27 15 35 58.3 -22 05 30 0.9244 0.1502 8.2 110.4 0.7
2013 11 28 15 56 28.2 -22 43 29 0.9594 0.0826 4.6 106.9 -1.3
2013 11 29 16 23 17.5 -19 52 57 0.9762 0.0322 1.8 107.7 -4.5
2013 11 30 16 21 22.4 -16 20 32 0.9125 0.1145 5.3 127.4 -0.2
2013 12 01 16 19 11.8 -13 59 07 0.8681 0.1757 8.1 128.1 1.2
2013 12 02 16 17 23.9 -11 56 02 0.8309 0.2281 10.6 127.3 2.0
2013 12 03 16 15 54.3 -10 00 54 0.7980 0.2754 13.0 126.1 2.5

点击阅读全文...

分类：天文探索标签：彗星, 天象, 天文, 追寻阅读全文 1 评论

17 Jul

强大的整数数列网站OEIS

By 苏剑林 | 2014-07-17 | 34405位读者 | 引用

OEIS?：http://oeis.org/

近段时间在研究解析数论，进一步感觉数论真是个奇妙的东西，通过它，似乎数学的各个方面——离散的和连续的，实数的和复数的，甚至物理的——都联系了起来。由此也不难体会到当初高斯（Gauss）会说“数学是科学的皇后，数论是数学的皇后。”了。今天，由于在研究素数的个数的上下界问题时，需要思考组合数
$$C_{n}^{2n}=\binom{2n}{n}=\frac{(2n)!}{n!\ n!}$$
最多能被2的多少次方整除。直觉告诉我，次数应该是随着$n$的增大而增大的，但事实却不是，比如$C_{15}^{30}$能够被16整除，但是$C_{20}^{40}$却最多只能被4整除，有种毫无规律的感觉，于是到群里问问各大神。其中，wayne提出

这个可以写个小程序算出一些数据，再在oeis上搜搜

点击阅读全文...

分类：数学研究标签：数论, 整数阅读全文抢沙发

26 Aug

fashion-mnist的gan玩具

By 苏剑林 | 2017-08-26 | 51281位读者 | 引用

fashion_mnist_demo

mnist的手写数字识别数据集一直是各种机器学习算法的试金石之一，最近有个新的数据集要向它叫板，称为fashion-mnist，内容是衣服鞋帽等分类。为了便于用户往fashion-mnist迁移，作者把数据集做成了几乎跟mnist手写数字识别数据集一模一样——同样数量、尺寸的图片，同样是10分类，甚至连数据打包和命名都跟mnist一样。看来fashion mnist为了取代mnist，也是拼了，下足了功夫，一切都做得一模一样，最大限度降低了使用成本～这叫板的心很坚定呀。

叫板的原因很简单——很多人吐槽，如果一个算法在mnist没用，那就一定没用了，但如果一个算法在mnist上有效，那它也不见得在真实问题中有效～也就是说，这个数据集太简单，没啥代表性。

fashion-mnist的github：https://github.com/zalandoresearch/fashion-mnist/

点击阅读全文...

分类：信息时代标签：深度学习, GAN, 生成模型阅读全文 8 评论

24 May

It is time.

By 苏剑林 | 2015-05-24 | 46325位读者 | 引用

终于可以缓一缓了~~

有留意科学空间的朋友可能发现这段时间更新比较缓慢，这一切还得从今年寒假说起...

今年一月底，由于各种原因，结合自己的兴趣，我找了一份实习工作，内容是Python编程。工作是在华南理工大学的论坛上发布的，说的比较简洁，我也比较简洁地投了简历过去，想不到收到回复了，也被录用了。二月上班，进去之后，才发现原来公司还是一家国内比较知名的电商企业，我的主要工作是数据挖掘...虽然我有一点Python的经验，但是数据挖掘基本上不在行的，所以只能够边工作边学习，疯狂恶补数据挖掘的知识。在这个过程中，我学会了很多关于数据挖掘的东西，要知道，在这之前，我不知道什么叫“特征”，什么是“逻辑回归”、“SVM”...那时候真是万千无知。

点击阅读全文...

分类：生活/情感标签：生活, 学习阅读全文 12 评论

27 Aug

fashion mnist的一个baseline (MobileNet 95%)

By 苏剑林 | 2017-08-27 | 71416位读者 | 引用

浅尝

昨天简单试了一下在fashion mnist的gan模型，发现还能work，当然那个尝试也没什么技术水平，就是把原来的脚本改一下路径跑了就完事。今天回到fashion mnist本身的主要任务——10分类，用Keras测了一下一些模型在上面的分类效果，最后得到了94.5%左右的准确率，加上随机翻转的数据扩增能做到95%。

首先随便手写了一些模型的组合，测试发现准确率都不大好，看来对于这个数据集来说，自己构思模型是比较困难的了，于是想着用现成的模型结构。一说到现成的cnn模型，基本上我们都会想到VGG、ResNet、inception、Xception等，但这些模型为解决imagenet的1000分类问题而设计，用到这个入门级别的数据集上似乎过于庞大了，而且也容易过拟合。后来突然想起，Keras好像自带了个叫MobileNet的模型，查看了一下模型权重，发现参数量不大，但是容量应该还是可以的，故选用MobileNet做实验。

深究

点击阅读全文...

分类：信息时代标签：神经网络, 深度学习阅读全文 12 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

听说Attention与Softmax更配哦～

模型回顾

从梯度最大化看Attention的Scale操作

已有结果

时空之章：将Attention视为平方复杂度的RNN

月底回家看彗星C/2012 S1 (ISON)

强大的整数数列网站OEIS

fashion-mnist的gan玩具

It is time.

fashion mnist的一个baseline (MobileNet 95%)

浅尝

深究

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接