从熵不变性看Attention的Scale操作
By 苏剑林 | 2021-12-21 | 112616位读者 | 引用当前Transformer架构用的最多的注意力机制,全称为“Scaled Dot-Product Attention”,其中“Scaled”是因为在$Q,K$转置相乘之后还要除以一个$\sqrt{d}$再做Softmax(下面均不失一般性地假设$Q,K,V\in\mathbb{R}^{n\times d}$):
\begin{equation}Attention(Q,K,V) = softmax\left(\frac{QK^{\top}}{\sqrt{d}}\right)V\label{eq:std}\end{equation}
在《浅谈Transformer的初始化、参数化与标准化》中,我们已经初步解释了除以$\sqrt{d}$的缘由。而在这篇文章中,笔者将从“熵不变性”的角度来理解这个缩放操作,并且得到一个新的缩放因子。在MLM的实验显示,新的缩放因子具有更好的长度外推性能。
熵不变性
我们将一般的Scaled Dot-Product Attention改写成
\begin{equation}\boldsymbol{o}_i = \sum_{j=1}^n a_{i,j}\boldsymbol{v}_j,\quad a_{i,j}=\frac{e^{\lambda \boldsymbol{q}_i\cdot \boldsymbol{k}_j}}{\sum\limits_{j=1}^n e^{\lambda \boldsymbol{q}_i\cdot \boldsymbol{k}_j}}\end{equation}
其中$\lambda$是缩放因子,它跟$\boldsymbol{q}_i,\boldsymbol{k}_j$无关,但原则上可以跟长度$n$、维度$d$等参数有关,目前主流的就是$\lambda=1/\sqrt{d}$。
从JL引理看熵不变性Attention
By 苏剑林 | 2023-04-10 | 29407位读者 | 引用在《从熵不变性看Attention的Scale操作》、《熵不变性Softmax的一个快速推导》中笔者提出了熵不变性Softmax,简单来说就是往Softmax之前的Attention矩阵多乘上一个$\log n$,理论上有助于增强长度外推性,其中$n$是序列长度。$\log n$这个因子让笔者联系到了JL引理(Johnson-Lindenstrauss引理),因为JL引理告诉我们编码$n$个向量只需要$\mathcal{O}(\log n)$的维度就行了,大家都是$\log n$,这两者有没有什么关联呢?
熵不变性
我们知道,熵是不确定性的度量,用在注意力机制中,我们将它作为“集中注意力的程度”。所谓熵不变性,指的是不管序列长度$n$是多少,我们都要将注意力集中在关键的几个token上,而不要太过分散。为此,我们提出的熵不变性Attention形式为
\begin{equation}Attention(Q,K,V) = softmax\left(\frac{\log_{512} n}{\sqrt{d}}QK^{\top}\right)V\label{eq:core}\end{equation}
行星密度与其公转周期(更新)
By 苏剑林 | 2012-10-24 | 24250位读者 | 引用===我与《天文爱好者》不得不说的故事===
去年在订阅2012年的《天文爱好者》时,考虑到之后就要上大学了,所以只是订了半年,因此过了今年六月我就没有看新的《天文爱好者》了。暑假的两个月,还有九月、十月,将近四个月没有看它了,我本以为我已经适应了没有天爱的日子。
大概一个星期前,我在天爱的淘宝网重新买了最近四个月的《天文爱好者》,18日下午,我再见了它。那天晚上,我突然觉得很感动,有种感慨万千的感觉。虽然这么久没有看了,但是再看的感觉是如此的熟悉,如此的温馨。我原来觉得天文只是我的一个业余兴趣,如同生物化学那样,但在那瞬间我明白了我真的爱着天文,而且时间和空间的距离并不能减少我的爱!在那时,我决定了,我一定要从事天文相关专业——虽然我只是一个数学系学生!
==========行星周期下限==========
(2012.10.25:zwhzjh提出攝动力公式有错误,修正了攝动力的计算公式,之前写少了一个因子2,还有在最后的实际检验时,为了追求结果的合理性,忽略了方法的科学性,现在已经进行了修正,欢迎各位提更多意见。)
本文要探讨的东西是我在阅读《天文爱好者》的时候偶然发现的。在发现系外行星以前,人们通常都认为像木星这样的气态巨行星,公转周期都应该在十年以上。因此当瑞士天文学家米歇尔·迈耶和迪戴尔·邱洛兹发现第一颗系外行星时,他们简直无法确信自己的发现,因为这颗类木行星的公转周期只有短短的4.2天!但是经过确认,这的确是一颗系外行星,颠覆了过去的看法。我饶有兴致地研究下去,企图推导出某一密度行星的公转周期下限。
各位读者不妨先估计一下,它会与什么物理量有关?行星质量?母星质量?还是...?
用傅里叶级数拟合一维概率密度函数
By 苏剑林 | 2024-03-07 | 31051位读者 | 引用在《“闭门造车”之多模态思路浅谈(一):无损输入》中我们曾提到,图像生成的本质困难是没有一个连续型概率密度的万能拟合器。当然,也不能说完全没有,比如高斯混合模型(GMM)理论上就是可以拟合任意概率密度,就连GAN本质上也可以理解为混合了无限个高斯模型的GMM。然而,GMM尽管理论上的能力是足够的,但它的最大似然估计会很困难,尤其是通常不适用基于梯度的优化器,这限制了它的使用场景。
近日,Google的一篇新论文《Fourier Basis Density Model》针对一维情形,提出了一个新的解决方案——用傅里叶级数来拟合。论文的分析过程颇为有趣,构造形式也很是巧妙,值得学习一番。
问题简述
可能有读者质疑:只研究一维情形有什么价值?确实,如果只考虑图像生成场景,那可能真的价值有限,但一维概率密度估计本身有它的应用价值,如数据的有损压缩,所以它依然是一个值得研究的主题。再者,即便我们需要研究多维的概率密度,也可以通过自回归的方式转化为多个一维的条件概率密度来估计。最后,这个分析和构造过程本身就很值得回味,所以哪怕是仅仅作为一道数学分析题来练习也是相当有益的。
《自然极值》系列——1.前言
By 苏剑林 | 2010-11-27 | 52004位读者 | 引用附:期中考过后,课程紧了,自由时间少了,因此科学空间的更新也放缓了。不过BoJone也会尽量地更新一些内容,和大家一同分享学习的乐趣。
上一周和这一周的时间里,BoJone将自己学习物理和极值的一些内容进行了总结和整合,写成了《自然极值》一文。因此从今天起,到十二月的大多数时间里,科学空间将和大家讲述并讨论关于“极值”的问题,希望读者会喜欢这部分内容。当然,我不是专业的研究人员,更不是经验丰富的物理和数学教师,甚至可以说是一个“乳臭未干的小子”,因此,错误在所难免,只希望同好不吝指出,更希冀能够起到我抛出的这一块“砖”能够引出美妙的“玉”。
《自然极值》系列——3.平衡态公理
By 苏剑林 | 2010-11-28 | 18773位读者 | 引用《自然极值》系列——5.最速降线的故事
By 苏剑林 | 2010-12-09 | 69397位读者 | 引用如果说前面关于这个系列的内容还不能使得读者您感到痛快,那么接下来要讲述的最速降线和悬链线问题也许能够满足你的需要。不过在进入对最速降线问题的理论探讨之前,我们先来讲述一个发生在17世纪的激动人心的数学竞赛的故事。我相信,每一个热爱数学和物理的朋友,都将会为其所振奋,为其所感动。里边渗透的,不仅仅是一次学术的竞争,更是一代又一代的人对真理的追求与探路的不懈精神。
(以下内容来源于网络,科学空间整理)
意大利科学家伽利略在1630年提出一个分析学的基本问题── “一个质点在重力作用下,从一个给定点A到不在它垂直下方的另一点B,如果不计摩擦力,问沿着什么曲线滑下所需时间最短。”这算是这个著名问题的起源了(为什么别人没有想起这个问题呢?所以说大科学家的素质就是思考、创新,要有思想,人没有思想,就和行尸走肉没有什么区别)。可惜的是伽利略说这曲线是圆,但这却是一个错误的答案。
最近评论