21 Dec

从熵不变性看Attention的Scale操作

当前Transformer架构用的最多的注意力机制,全称为“Scaled Dot-Product Attention”,其中“Scaled”是因为在$Q,K$转置相乘之后还要除以一个$\sqrt{d}$再做Softmax(下面均不失一般性地假设$Q,K,V\in\mathbb{R}^{n\times d}$):
\begin{equation}Attention(Q,K,V) = softmax\left(\frac{QK^{\top}}{\sqrt{d}}\right)V\label{eq:std}\end{equation}

《浅谈Transformer的初始化、参数化与标准化》中,我们已经初步解释了除以$\sqrt{d}$的缘由。而在这篇文章中,笔者将从“熵不变性”的角度来理解这个缩放操作,并且得到一个新的缩放因子。在MLM的实验显示,新的缩放因子具有更好的长度外推性能

熵不变性

我们将一般的Scaled Dot-Product Attention改写成
\begin{equation}\boldsymbol{o}_i = \sum_{j=1}^n a_{i,j}\boldsymbol{v}_j,\quad a_{i,j}=\frac{e^{\lambda \boldsymbol{q}_i\cdot \boldsymbol{k}_j}}{\sum\limits_{j=1}^n e^{\lambda \boldsymbol{q}_i\cdot \boldsymbol{k}_j}}\end{equation}
其中$\lambda$是缩放因子,它跟$\boldsymbol{q}_i,\boldsymbol{k}_j$无关,但原则上可以跟长度$n$、维度$d$等参数有关,目前主流的就是$\lambda=1/\sqrt{d}$。

点击阅读全文...

10 Apr

从JL引理看熵不变性Attention

《从熵不变性看Attention的Scale操作》《熵不变性Softmax的一个快速推导》中笔者提出了熵不变性Softmax,简单来说就是往Softmax之前的Attention矩阵多乘上一个$\log n$,理论上有助于增强长度外推性,其中$n$是序列长度。$\log n$这个因子让笔者联系到了JL引理(Johnson-Lindenstrauss引理),因为JL引理告诉我们编码$n$个向量只需要$\mathcal{O}(\log n)$的维度就行了,大家都是$\log n$,这两者有没有什么关联呢?

熵不变性

我们知道,熵是不确定性的度量,用在注意力机制中,我们将它作为“集中注意力的程度”。所谓熵不变性,指的是不管序列长度$n$是多少,我们都要将注意力集中在关键的几个token上,而不要太过分散。为此,我们提出的熵不变性Attention形式为
\begin{equation}Attention(Q,K,V) = softmax\left(\frac{\log_{512} n}{\sqrt{d}}QK^{\top}\right)V\label{eq:core}\end{equation}

点击阅读全文...

24 Oct

行星密度与其公转周期(更新)

===我与《天文爱好者》不得不说的故事===

去年在订阅2012年的《天文爱好者》时,考虑到之后就要上大学了,所以只是订了半年,因此过了今年六月我就没有看新的《天文爱好者》了。暑假的两个月,还有九月、十月,将近四个月没有看它了,我本以为我已经适应了没有天爱的日子。

大概一个星期前,我在天爱的淘宝网重新买了最近四个月的《天文爱好者》,18日下午,我再见了它。那天晚上,我突然觉得很感动,有种感慨万千的感觉。虽然这么久没有看了,但是再看的感觉是如此的熟悉,如此的温馨。我原来觉得天文只是我的一个业余兴趣,如同生物化学那样,但在那瞬间我明白了我真的爱着天文,而且时间和空间的距离并不能减少我的爱!在那时,我决定了,我一定要从事天文相关专业——虽然我只是一个数学系学生

==========行星周期下限==========

(2012.10.25:zwhzjh提出攝动力公式有错误,修正了攝动力的计算公式,之前写少了一个因子2,还有在最后的实际检验时,为了追求结果的合理性,忽略了方法的科学性,现在已经进行了修正,欢迎各位提更多意见。)

首颗被发现的系外行星

首颗被发现的系外行星

本文要探讨的东西是我在阅读《天文爱好者》的时候偶然发现的。在发现系外行星以前,人们通常都认为像木星这样的气态巨行星,公转周期都应该在十年以上。因此当瑞士天文学家米歇尔·迈耶和迪戴尔·邱洛兹发现第一颗系外行星时,他们简直无法确信自己的发现,因为这颗类木行星的公转周期只有短短的4.2天!但是经过确认,这的确是一颗系外行星,颠覆了过去的看法。我饶有兴致地研究下去,企图推导出某一密度行星的公转周期下限

各位读者不妨先估计一下,它会与什么物理量有关?行星质量?母星质量?还是...?

点击阅读全文...

7 Mar

用傅里叶级数拟合一维概率密度函数

《“闭门造车”之多模态思路浅谈(一):无损输入》中我们曾提到,图像生成的本质困难是没有一个连续型概率密度的万能拟合器。当然,也不能说完全没有,比如高斯混合模型(GMM)理论上就是可以拟合任意概率密度,就连GAN本质上也可以理解为混合了无限个高斯模型的GMM。然而,GMM尽管理论上的能力是足够的,但它的最大似然估计会很困难,尤其是通常不适用基于梯度的优化器,这限制了它的使用场景。

近日,Google的一篇新论文《Fourier Basis Density Model》针对一维情形,提出了一个新的解决方案——用傅里叶级数来拟合。论文的分析过程颇为有趣,构造形式也很是巧妙,值得学习一番。

问题简述

可能有读者质疑:只研究一维情形有什么价值?确实,如果只考虑图像生成场景,那可能真的价值有限,但一维概率密度估计本身有它的应用价值,如数据的有损压缩,所以它依然是一个值得研究的主题。再者,即便我们需要研究多维的概率密度,也可以通过自回归的方式转化为多个一维的条件概率密度来估计。最后,这个分析和构造过程本身就很值得回味,所以哪怕是仅仅作为一道数学分析题来练习也是相当有益的。

点击阅读全文...

27 Nov

《自然极值》系列——1.前言

附:期中考过后,课程紧了,自由时间少了,因此科学空间的更新也放缓了。不过BoJone也会尽量地更新一些内容,和大家一同分享学习的乐趣。

闭区间[a,b]上的连续函数?(x),其最大值为红色点,最小值为蓝色点

闭区间[a,b]上的连续函数?(x),其最大值为红色点,最小值为蓝色点

上一周和这一周的时间里,BoJone将自己学习物理和极值的一些内容进行了总结和整合,写成了《自然极值》一文。因此从今天起,到十二月的大多数时间里,科学空间将和大家讲述并讨论关于“极值”的问题,希望读者会喜欢这部分内容。当然,我不是专业的研究人员,更不是经验丰富的物理和数学教师,甚至可以说是一个“乳臭未干的小子”,因此,错误在所难免,只希望同好不吝指出,更希冀能够起到我抛出的这一块“砖”能够引出美妙的“玉”。

点击阅读全文...

28 Nov

《自然极值》系列——3.平衡态公理

黄果树大瀑布

黄果树大瀑布

光学定律无疑是一个美妙的原理,而自然界中还存在另外一个我们随处可见的“公理”。平时的生活中,我们总能看见“水往低处流”的现象,这是因为水处于地球重力场的结果(也正因为如此,某些轻生者的自杀活动才得以顺利进行;当然,我们并不需要为了验证这一点而亲自试验。)。由此我们可以联想到一个名词:重力势能。“水往低处流”意味着什么呢?高度变低了。高度更低意味着什么呢?重力势能降低了!换句话说,自然界中物体有趋于势能最低的倾向。我们可以从这个角度来解释:体系总有趋于稳定的倾向,而拥有的能量(势能)越高,则越不稳定。

点击阅读全文...

9 Dec

《自然极值》系列——5.最速降线的故事

如果说前面关于这个系列的内容还不能使得读者您感到痛快,那么接下来要讲述的最速降线和悬链线问题也许能够满足你的需要。不过在进入对最速降线问题的理论探讨之前,我们先来讲述一个发生在17世纪的激动人心的数学竞赛的故事。我相信,每一个热爱数学和物理的朋友,都将会为其所振奋,为其所感动。里边渗透的,不仅仅是一次学术的竞争,更是一代又一代的人对真理的追求与探路的不懈精神。

(以下内容来源于网络,科学空间整理)

意大利科学家伽利略在1630年提出一个分析学的基本问题── “一个质点在重力作用下,从一个给定点A到不在它垂直下方的另一点B,如果不计摩擦力,问沿着什么曲线滑下所需时间最短。”这算是这个著名问题的起源了(为什么别人没有想起这个问题呢?所以说大科学家的素质就是思考、创新,要有思想,人没有思想,就和行尸走肉没有什么区别)。可惜的是伽利略说这曲线是圆,但这却是一个错误的答案。

Brachistochrone

Brachistochrone

点击阅读全文...

4 Aug

文本情感分类(二):深度学习模型

语言处理

语言处理

《文本情感分类(一):传统模型》一文中,笔者简单介绍了进行文本情感分类的传统思路。传统的思路简单易懂,而且稳定性也比较强,然而存在着两个难以克服的局限性:一、精度问题,传统思路差强人意,当然一般的应用已经足够了,但是要进一步提高精度,却缺乏比较好的方法;二、背景知识问题,传统思路需要事先提取好情感词典,而这一步骤,往往需要人工操作才能保证准确率,换句话说,做这个事情的人,不仅仅要是数据挖掘专家,还需要语言学家,这个背景知识依赖性问题会阻碍着自然语言处理的进步。

点击阅读全文...