注意力和Softmax的两点有趣发现:鲁棒性和信息量
By 苏剑林 | 2023-04-25 | 28477位读者 | 引用最近几周笔者一直都在思考注意力机制的相关性质,在这个过程中对注意力及Softmax有了更深刻的理解。在这篇文章中,笔者简单分享其中的两点:
1、Softmax注意力天然能够抵御一定的噪声扰动;
2、从信息熵角度也可以对初始化问题形成直观理解。
鲁棒性
基于Softmax归一化的注意力机制,可以写为
\begin{equation}o = \frac{\sum\limits_{i=1}^n e^{s_i} v_i}{\sum\limits_{i=1}^n e^{s_i}}\end{equation}
有一天笔者突然想到一个问题:如果往$s_i$中加入独立同分布的噪声会怎样?
从梯度最大化看Attention的Scale操作
By 苏剑林 | 2023-10-22 | 65935位读者 | 引用我们知道,Scaled Dot-Product Attention的Scale因子是$\frac{1}{\sqrt{d}}$,其中$d$是$\boldsymbol{q},\boldsymbol{k}$的维度。这个Scale因子的一般解释是:如果不除以$\sqrt{d}$,那么初始的Attention就会很接近one hot分布,这会造成梯度消失,导致模型训练不起来。然而,可以证明的是,当Scale等于0时同样也会有梯度消失问题,这也就是说Scale太大太小都不行。
那么多大的Scale才适合呢?$\frac{1}{\sqrt{d}}$是最佳的Scale了吗?本文试图从梯度角度来回答这个问题。
已有结果
在《浅谈Transformer的初始化、参数化与标准化》中,我们已经推导过标准的Scale因子$\frac{1}{\sqrt{d}}$,推导的思路很简单,假设初始阶段$\boldsymbol{q},\boldsymbol{k}\in\mathbb{R}^d$都采样自“均值为0、方差为1”的分布,那么可以算得
\begin{equation}\mathbb{V}ar[\boldsymbol{q}\cdot\boldsymbol{k}] = d\end{equation}
用傅里叶级数拟合一维概率密度函数
By 苏剑林 | 2024-03-07 | 30551位读者 | 引用在《“闭门造车”之多模态思路浅谈(一):无损输入》中我们曾提到,图像生成的本质困难是没有一个连续型概率密度的万能拟合器。当然,也不能说完全没有,比如高斯混合模型(GMM)理论上就是可以拟合任意概率密度,就连GAN本质上也可以理解为混合了无限个高斯模型的GMM。然而,GMM尽管理论上的能力是足够的,但它的最大似然估计会很困难,尤其是通常不适用基于梯度的优化器,这限制了它的使用场景。
近日,Google的一篇新论文《Fourier Basis Density Model》针对一维情形,提出了一个新的解决方案——用傅里叶级数来拟合。论文的分析过程颇为有趣,构造形式也很是巧妙,值得学习一番。
问题简述
可能有读者质疑:只研究一维情形有什么价值?确实,如果只考虑图像生成场景,那可能真的价值有限,但一维概率密度估计本身有它的应用价值,如数据的有损压缩,所以它依然是一个值得研究的主题。再者,即便我们需要研究多维的概率密度,也可以通过自回归的方式转化为多个一维的条件概率密度来估计。最后,这个分析和构造过程本身就很值得回味,所以哪怕是仅仅作为一道数学分析题来练习也是相当有益的。
生成扩散模型漫谈(二十二):信噪比与大图生成(上)
By 苏剑林 | 2024-04-08 | 42781位读者 | 引用盘点主流的图像扩散模型作品,我们会发现一个特点:当前多数做高分辨率图像生成(下面简称“大图生成”)的工作,都是先通过Encoder变换到Latent空间进行的(即LDM,Latent Diffusion Model),直接在原始Pixel空间训练的扩散模型,大多数分辨率都不超过64*64,而恰好,LDM通过AutoEncoder变换后的Latent,大小通常也不超过64*64。这就自然引出了一系列问题:扩散模型是不是对于高分辨率生成存在固有困难?能否在Pixel空间直接生成高分辨率图像?
论文《Simple diffusion: End-to-end diffusion for high resolution images》尝试回答了这个问题,它通过“信噪比”分析了大图生成的困难,并以此来优化noise schdule,同时提出只需在最低分辨率feature上对架构进行scale up、多尺度Loss等技巧来保证训练效率和效果,这些改动使得原论文成功在Pixel空间上训练了分辨率高达1024*1024的图像扩散模型。
澳大利亚网站请您向外星人问好
By 苏剑林 | 2009-08-16 | 17444位读者 | 引用“凌星时刻变化”技术搜寻外行星
By 苏剑林 | 2010-08-09 | 18713位读者 | 引用[SETI-50周年]送给外星人的礼物
By 苏剑林 | 2011-02-06 | 34778位读者 | 引用转载自2011年1月的《天文爱好者》 作者:钟晚晴
生命出现是天体演化的必然结果
15世纪时,欧洲的文艺复兴运动引起了人们宇宙观的大革命。哥白尼学说的主要传播者之一,意大利思想家布魯诺毫不含糊地宣扬日心说并且提及“外星人”是否存在问题,他这样写到:“宇宙中存在着无数的太阳,存在着无数绕自己太阳运转的地球,就像我们的七个行星绕着我们的太陌运转似的……。在这些世界上居住着各种生物。”科学大师伽利略率先把望远镜指向星空,继而几百年以来有了一系列天文发现。太空视野的大幵阔常引发人类这样的追问:除了地球之外,茫茫宇宙中还存在别的文明星球吗?如果存在,能否找到人类的知音一智慧生命?
科学家通过研究地球化石发现,早在35亿年前地球上就已有了一种发育得比较高级的单细胞生物,即蓝藻类;根据恒星演化理论以及对地球上古老岩石和陨星物质分析知道,太阳和地球的形成比这种生物的出现至少还要早约十几亿年左右。太阳系自原始星云形成后大约经过50亿年地球上才有人类。此外,科学考察表明,在最近五亿年来(根据化石考查)已经有过五次生命大灭绝,人类是五亿年来最后一次灭绝以后从猿进化而来。天体的环境变化往往决定着许许多多生命的命运,例如6500万年前恐龙的绝灭,据说就是遭遇了寒冷的冰期或地球被一颗直径十几千米的小天体撞击的结果。
从20世纪初以来,天文学的研究成果是显著的,例如关于银河系的许多发现,河外星系及宇宙膨胀的发现,特别是后来发现类星体、星际分子、脉冲星、河外星系超新星爆发等等。在进入空间科学和电子计算机科学时代以来,人们对宇宙天体的研究更加深入,每年都有许多新的天体被发现、探究。
最近评论