包含关键字密度变分自编码的文章 - 科学空间|Scientific Spaces

21 Dec

从熵不变性看Attention的Scale操作

By 苏剑林 | 2021-12-21 | 112616位读者 | 引用

当前Transformer架构用的最多的注意力机制，全称为“Scaled Dot-Product Attention”，其中“Scaled”是因为在$Q,K$转置相乘之后还要除以一个$\sqrt{d}$再做Softmax（下面均不失一般性地假设$Q,K,V\in\mathbb{R}^{n\times d}$）：
\begin{equation}Attention(Q,K,V) = softmax\left(\frac{QK^{\top}}{\sqrt{d}}\right)V\label{eq:std}\end{equation}

在《浅谈Transformer的初始化、参数化与标准化》中，我们已经初步解释了除以$\sqrt{d}$的缘由。而在这篇文章中，笔者将从“熵不变性”的角度来理解这个缩放操作，并且得到一个新的缩放因子。在MLM的实验显示，新的缩放因子具有更好的长度外推性能。

熵不变性

我们将一般的Scaled Dot-Product Attention改写成
\begin{equation}\boldsymbol{o}_i = \sum_{j=1}^n a_{i,j}\boldsymbol{v}_j,\quad a_{i,j}=\frac{e^{\lambda \boldsymbol{q}_i\cdot \boldsymbol{k}_j}}{\sum\limits_{j=1}^n e^{\lambda \boldsymbol{q}_i\cdot \boldsymbol{k}_j}}\end{equation}
其中$\lambda$是缩放因子，它跟$\boldsymbol{q}_i,\boldsymbol{k}_j$无关，但原则上可以跟长度$n$、维度$d$等参数有关，目前主流的就是$\lambda=1/\sqrt{d}$。

点击阅读全文...

分类：信息时代标签：概率, 熵, attention 阅读全文 50 评论

10 Apr

从JL引理看熵不变性Attention

By 苏剑林 | 2023-04-10 | 29407位读者 | 引用

在《从熵不变性看Attention的Scale操作》、《熵不变性Softmax的一个快速推导》中笔者提出了熵不变性Softmax，简单来说就是往Softmax之前的Attention矩阵多乘上一个$\log n$，理论上有助于增强长度外推性，其中$n$是序列长度。$\log n$这个因子让笔者联系到了JL引理（Johnson-Lindenstrauss引理），因为JL引理告诉我们编码$n$个向量只需要$\mathcal{O}(\log n)$的维度就行了，大家都是$\log n$，这两者有没有什么关联呢？

熵不变性

我们知道，熵是不确定性的度量，用在注意力机制中，我们将它作为“集中注意力的程度”。所谓熵不变性，指的是不管序列长度$n$是多少，我们都要将注意力集中在关键的几个token上，而不要太过分散。为此，我们提出的熵不变性Attention形式为
\begin{equation}Attention(Q,K,V) = softmax\left(\frac{\log_{512} n}{\sqrt{d}}QK^{\top}\right)V\label{eq:core}\end{equation}

点击阅读全文...

分类：数学研究,信息时代标签：熵, attention 阅读全文 14 评论

24 Oct

行星密度与其公转周期（更新）

By 苏剑林 | 2012-10-24 | 24250位读者 | 引用

===我与《天文爱好者》不得不说的故事===

去年在订阅2012年的《天文爱好者》时，考虑到之后就要上大学了，所以只是订了半年，因此过了今年六月我就没有看新的《天文爱好者》了。暑假的两个月，还有九月、十月，将近四个月没有看它了，我本以为我已经适应了没有天爱的日子。

大概一个星期前，我在天爱的淘宝网重新买了最近四个月的《天文爱好者》，18日下午，我再见了它。那天晚上，我突然觉得很感动，有种感慨万千的感觉。虽然这么久没有看了，但是再看的感觉是如此的熟悉，如此的温馨。我原来觉得天文只是我的一个业余兴趣，如同生物化学那样，但在那瞬间我明白了我真的爱着天文，而且时间和空间的距离并不能减少我的爱！在那时，我决定了，我一定要从事天文相关专业——虽然我只是一个数学系学生！

==========行星周期下限==========

（2012.10.25：zwhzjh提出攝动力公式有错误，修正了攝动力的计算公式，之前写少了一个因子2，还有在最后的实际检验时，为了追求结果的合理性，忽略了方法的科学性，现在已经进行了修正，欢迎各位提更多意见。）

首颗被发现的系外行星

本文要探讨的东西是我在阅读《天文爱好者》的时候偶然发现的。在发现系外行星以前，人们通常都认为像木星这样的气态巨行星，公转周期都应该在十年以上。因此当瑞士天文学家米歇尔·迈耶和迪戴尔·邱洛兹发现第一颗系外行星时，他们简直无法确信自己的发现，因为这颗类木行星的公转周期只有短短的4.2天！但是经过确认，这的确是一颗系外行星，颠覆了过去的看法。我饶有兴致地研究下去，企图推导出某一密度行星的公转周期下限。

各位读者不妨先估计一下，它会与什么物理量有关？行星质量？母星质量？还是...？

点击阅读全文...

分类：天文探索标签：周期, 行星, 摄动阅读全文抢沙发

7 Mar

用傅里叶级数拟合一维概率密度函数

By 苏剑林 | 2024-03-07 | 31051位读者 | 引用

在《“闭门造车”之多模态思路浅谈（一）：无损输入》中我们曾提到，图像生成的本质困难是没有一个连续型概率密度的万能拟合器。当然，也不能说完全没有，比如高斯混合模型（GMM）理论上就是可以拟合任意概率密度，就连GAN本质上也可以理解为混合了无限个高斯模型的GMM。然而，GMM尽管理论上的能力是足够的，但它的最大似然估计会很困难，尤其是通常不适用基于梯度的优化器，这限制了它的使用场景。

近日，Google的一篇新论文《Fourier Basis Density Model》针对一维情形，提出了一个新的解决方案——用傅里叶级数来拟合。论文的分析过程颇为有趣，构造形式也很是巧妙，值得学习一番。

问题简述

可能有读者质疑：只研究一维情形有什么价值？确实，如果只考虑图像生成场景，那可能真的价值有限，但一维概率密度估计本身有它的应用价值，如数据的有损压缩，所以它依然是一个值得研究的主题。再者，即便我们需要研究多维的概率密度，也可以通过自回归的方式转化为多个一维的条件概率密度来估计。最后，这个分析和构造过程本身就很值得回味，所以哪怕是仅仅作为一道数学分析题来练习也是相当有益的。

点击阅读全文...

分类：数学研究标签：级数, 概率, 分析, 逼近阅读全文 13 评论

27 Nov

《自然极值》系列——1.前言

By 苏剑林 | 2010-11-27 | 52004位读者 | 引用

附：期中考过后，课程紧了，自由时间少了，因此科学空间的更新也放缓了。不过BoJone也会尽量地更新一些内容，和大家一同分享学习的乐趣。

闭区间[a,b]上的连续函数?(x)，其最大值为红色点，最小值为蓝色点

上一周和这一周的时间里，BoJone将自己学习物理和极值的一些内容进行了总结和整合，写成了《自然极值》一文。因此从今天起，到十二月的大多数时间里，科学空间将和大家讲述并讨论关于“极值”的问题，希望读者会喜欢这部分内容。当然，我不是专业的研究人员，更不是经验丰富的物理和数学教师，甚至可以说是一个“乳臭未干的小子”，因此，错误在所难免，只希望同好不吝指出，更希冀能够起到我抛出的这一块“砖”能够引出美妙的“玉”。

点击阅读全文...

分类：数学研究标签：物理, 极值, 自然阅读全文 8 评论

28 Nov

《自然极值》系列——3.平衡态公理

By 苏剑林 | 2010-11-28 | 18773位读者 | 引用

黄果树大瀑布

光学定律无疑是一个美妙的原理，而自然界中还存在另外一个我们随处可见的“公理”。平时的生活中，我们总能看见“水往低处流”的现象，这是因为水处于地球重力场的结果（也正因为如此，某些轻生者的自杀活动才得以顺利进行；当然，我们并不需要为了验证这一点而亲自试验。）。由此我们可以联想到一个名词：重力势能。“水往低处流”意味着什么呢？高度变低了。高度更低意味着什么呢？重力势能降低了！换句话说，自然界中物体有趋于势能最低的倾向。我们可以从这个角度来解释：体系总有趋于稳定的倾向，而拥有的能量（势能）越高，则越不稳定。

点击阅读全文...

分类：数学研究标签：势能, 平衡, 极值, 自然阅读全文抢沙发

9 Dec

《自然极值》系列——5.最速降线的故事

By 苏剑林 | 2010-12-09 | 69397位读者 | 引用

如果说前面关于这个系列的内容还不能使得读者您感到痛快，那么接下来要讲述的最速降线和悬链线问题也许能够满足你的需要。不过在进入对最速降线问题的理论探讨之前，我们先来讲述一个发生在17世纪的激动人心的数学竞赛的故事。我相信，每一个热爱数学和物理的朋友，都将会为其所振奋，为其所感动。里边渗透的，不仅仅是一次学术的竞争，更是一代又一代的人对真理的追求与探路的不懈精神。

（以下内容来源于网络，科学空间整理）

意大利科学家伽利略在1630年提出一个分析学的基本问题── “一个质点在重力作用下，从一个给定点A到不在它垂直下方的另一点B，如果不计摩擦力，问沿着什么曲线滑下所需时间最短。”这算是这个著名问题的起源了（为什么别人没有想起这个问题呢？所以说大科学家的素质就是思考、创新，要有思想，人没有思想，就和行尸走肉没有什么区别）。可惜的是伽利略说这曲线是圆，但这却是一个错误的答案。

Brachistochrone

点击阅读全文...

分类：数学研究标签：flash, 曲线, 极值, 挑战阅读全文 7 评论

4 Aug

文本情感分类（二）：深度学习模型

By 苏剑林 | 2015-08-04 | 604346位读者 | 引用

语言处理

在《文本情感分类（一）：传统模型》一文中，笔者简单介绍了进行文本情感分类的传统思路。传统的思路简单易懂，而且稳定性也比较强，然而存在着两个难以克服的局限性：一、精度问题，传统思路差强人意，当然一般的应用已经足够了，但是要进一步提高精度，却缺乏比较好的方法；二、背景知识问题，传统思路需要事先提取好情感词典，而这一步骤，往往需要人工操作才能保证准确率，换句话说，做这个事情的人，不仅仅要是数据挖掘专家，还需要语言学家，这个背景知识依赖性问题会阻碍着自然语言处理的进步。

点击阅读全文...

分类：信息时代标签：python, 深度学习, 机器学习, 文本挖掘阅读全文 176 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

从熵不变性看Attention的Scale操作

熵不变性

从JL引理看熵不变性Attention

熵不变性

行星密度与其公转周期（更新）

用傅里叶级数拟合一维概率密度函数

问题简述

《自然极值》系列——1.前言

《自然极值》系列——3.平衡态公理

《自然极值》系列——5.最速降线的故事

文本情感分类（二）：深度学习模型

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接