分类数学研究下的文章 - 科学空间|Scientific Spaces

29 Dec

SquarePlus：可能是运算最简单的ReLU光滑近似

By 苏剑林 | 2021-12-29 | 51554位读者 | 引用

ReLU函数，也就是$\max(x,0)$，是最常见的激活函数之一，然而它在$x=0$处的不可导通常也被视为一个“槽点”。为此，有诸多的光滑近似被提出，比如SoftPlus、GeLU、Swish等，不过这些光滑近似无一例外地至少都使用了指数运算$e^x$（SoftPlus还用到了对数），从“精打细算”的角度来看，计算量还是不小的（虽然当前在GPU加速之下，我们很少去感知这点计算量了）。最近有一篇论文《Squareplus: A Softplus-Like Algebraic Rectifier》提了一个更简单的近似，称为SquarePlus，我们也来讨论讨论。

需要事先指出的是，笔者是不建议大家花太多时间在激活函数的选择和设计上的，所以虽然分享了这篇论文，但主要是提供一个参考结果，并充当一道练习题来给大家“练练手”。

定义

SquarePlus的形式很简单，只用到了加、乘、除和开方：
\begin{equation}\text{SquarePlus}(x)=\frac{x+\sqrt{x^2+b}}{2}\end{equation}

点击阅读全文...

分类：数学研究标签：函数, 近似, 分析阅读全文 4 评论

24 Dec

概率分布的熵归一化（Entropy Normalization）

By 苏剑林 | 2021-12-24 | 65109位读者 | 引用

在上一篇文章《从熵不变性看Attention的Scale操作》中，我们从熵不变性的角度推导了一个新的Attention Scale，并且实验显示具有熵不变性的新Scale确实能使得Attention的外推性能更好。这时候笔者就有一个很自然的疑问：

有没有类似L2 Normalization之类的操作，可以直接对概率分布进行变换，使得保持原始分布主要特性的同时，让它的熵为指定值？

笔者带着疑问搜索了一番，发现没有类似的研究，于是自己尝试推导了一下，算是得到了一个基本满意的结果，暂称为“熵归一化（Entropy Normalization）”，记录在此，供有需要的读者参考。

幂次变换

首先，假设$n$元分布$(p_1,p_2,\cdots,p_n)$，它的熵定义为
\begin{equation}\mathcal{H} = -\sum_i p_i \log p_i = \mathbb{E}[-\log p_i]\end{equation}

点击阅读全文...

分类：数学研究标签：概率, 熵阅读全文 9 评论

11 Dec

输入梯度惩罚与参数梯度惩罚的一个不等式

By 苏剑林 | 2021-12-11 | 27406位读者 | 引用

在本博客中，已经多次讨论过梯度惩罚相关内容了。从形式上来看，梯度惩罚项分为两种，一种是关于输入的梯度惩罚$\Vert\nabla_{\boldsymbol{x}} f(\boldsymbol{x};\boldsymbol{\theta})\Vert^2$，在《对抗训练浅谈：意义、方法和思考（附Keras实现）》、《泛化性乱弹：从随机噪声、梯度惩罚到虚拟对抗训练》等文章中我们讨论过，另一种则是关于参数的梯度惩罚$\Vert\nabla_{\boldsymbol{\theta}} f(\boldsymbol{x};\boldsymbol{\theta})\Vert^2$，在《从动力学角度看优化算法（五）：为什么学习率不宜过小？》、《我们真的需要把训练集的损失降低到零吗？》等文章我们讨论过。

在相关文章中，两种梯度惩罚都声称有着提高模型泛化性能的能力，那么两者有没有什么联系呢？笔者从Google最近的一篇论文《The Geometric Occam's Razor Implicit in Deep Learning》学习到了两者的一个不等式，算是部分地回答了这个问题，并且感觉以后可能用得上，在此做个笔记。

最终结果

假设有一个$l$层的MLP模型，记为
\begin{equation}\boldsymbol{h}^{(t+1)} = g^{(t)}(\boldsymbol{W}^{(t)}\boldsymbol{h}^{(t)}+\boldsymbol{b}^{(t)})\end{equation}
其中$g^{(t)}$是当前层的激活函数，$t\in\{1,2,\cdots,l\}$，并记$\boldsymbol{h}^{(1)}$为$\boldsymbol{x}$，即模型的原始输入，为了方便后面的推导，我们记$\boldsymbol{z}^{(t+1)}=\boldsymbol{W}^{(t)}\boldsymbol{h}^{(t)}+\boldsymbol{b}^{(t)}$；参数全体为$\boldsymbol{\theta}=\{\boldsymbol{W}^{(1)},\boldsymbol{b}^{(1)},\boldsymbol{W}^{(2)},\boldsymbol{b}^{(2)},\cdots,\boldsymbol{W}^{(l)},\boldsymbol{b}^{(l)}\}$。设$f$是$\boldsymbol{h}^{(l+1)}$的任意标量函数，那么成立不等式
\begin{equation}\Vert\nabla_{\boldsymbol{x}} f\Vert^2\left(\frac{1 + \Vert \boldsymbol{h}^{(1)}\Vert^2}{\Vert\boldsymbol{W}^{(1)}\Vert^2 \Vert\nabla_{\boldsymbol{x}}\boldsymbol{h}^{(1)}\Vert^2}+\cdots+\frac{1 + \Vert \boldsymbol{h}^{(l)}\Vert^2}{\Vert\boldsymbol{W}^{(l)}\Vert^2 \Vert\nabla_{\boldsymbol{x}}\boldsymbol{h}^{(l)}\Vert^2}\right)\leq \Vert\nabla_{\boldsymbol{\theta}} f\Vert^2\label{eq:f}\end{equation}

点击阅读全文...

分类：数学研究标签：不等式, 优化, 梯度, 泛化阅读全文抢沙发

10 Oct

用狄拉克函数来构造非光滑函数的光滑近似

By 苏剑林 | 2021-10-10 | 103087位读者 | 引用

在机器学习中，我们经常会碰到不光滑的函数，但我们的优化方法通常是基于梯度的，这意味着光滑的模型可能更利于优化（梯度是连续的），所以就有了寻找非光滑函数的光滑近似的需求。事实上，本博客已经多次讨论过相关主题，比如《寻求一个光滑的最大值函数》、《函数光滑化杂谈：不可导函数的可导逼近》等，但以往的讨论在方法上并没有什么通用性。

不过，笔者从最近的一篇论文《SAU: Smooth activation function using convolution with approximate identities》学习到了一种比较通用的思路：用狄拉克函数来构造光滑近似。通用到什么程度呢？理论上有可数个间断点的函数都可以用它来构造光滑近似！个人感觉还是非常有意思的。

点击阅读全文...

分类：数学研究标签：函数, 近似, 分析, 光滑阅读全文 22 评论

24 Sep

让人惊叹的Johnson-Lindenstrauss引理：应用篇

By 苏剑林 | 2021-09-24 | 49421位读者 | 引用

上一篇文章《让人惊叹的Johnson-Lindenstrauss引理：理论篇》中，我们比较详细地介绍了Johnson-Lindenstrauss引理（JL引理）的理论推导，这一篇我们来关注它的应用。

作为一个内容上本身就跟降维相关的结论，JL引理最基本的自然就是作为一个降维方法来用。但除了这个直接应用外，很多看似不相关的算法，比如局部敏感哈希（LSH）、随机SVD等，本质上也依赖于JL引理。此外，对于机器学习模型来说，JL引理通常还能为我们的维度选择提供一些理论解释。

降维的工具

JL引理提供了一个非常简单直接的“随机投影”降维思路：

给定$N$个向量$v_1,v_2,\cdots,v_N\in\mathbb{R}^m$，如果想要将它降到$n$维，那么只需要从$\mathcal{N}(0,1/n)$中采样一个$n\times m$矩阵$A$，然后$Av_1,Av_2,\cdots,Av_N$就是降维后的结果。

点击阅读全文...

分类：数学研究,信息时代标签：模型, 分析, 维度, 机器学习阅读全文 4 评论

17 Sep

让人惊叹的Johnson-Lindenstrauss引理：理论篇

By 苏剑林 | 2021-09-17 | 122242位读者 | 引用

今天我们来学习Johnson-Lindenstrauss引理，由于名字比较长，下面都简称“JL引理”。

个人认为，JL引理是每一个计算机科学的同学都必须了解的神奇结论之一，它是一个关于降维的著名的结果，它也是高维空间中众多反直觉的“维度灾难”现象的经典例子之一。可以说，JL引理是机器学习中各种降维、Hash等技术的理论基础，此外，在现代机器学习中，JL引理也为我们理解、调试模型维度等相关参数提供了重要的理论支撑。

对数的维度

JL引理，可以非常通俗地表达为：

通俗版JL引理：塞下$N$个向量，只需要$\mathcal{O}(\log N)$维空间。

点击阅读全文...

分类：数学研究,信息时代标签：模型, 分析, 维度, 机器学习阅读全文 41 评论

17 Aug

浅谈Transformer的初始化、参数化与标准化

By 苏剑林 | 2021-08-17 | 270500位读者 | 引用

前几天在训练一个新的Transformer模型的时候，发现怎么训都不收敛了。经过一番debug，发现是在做Self Attention的时候$\boldsymbol{Q}\boldsymbol{K}^{\top}$之后忘记除以$\sqrt{d}$了，于是重新温习了一下为什么除以$\sqrt{d}$如此重要的原因。当然，Google的T5确实是没有除以$\sqrt{d}$的，但它依然能够正常收敛，那是因为它在初始化策略上做了些调整，所以这个事情还跟初始化有关。

藉着这个机会，本文跟大家一起梳理一下模型的初始化、参数化和标准化等内容，相关讨论将主要以Transformer为心中展开。

采样分布

初始化自然是随机采样的的，所以这里先介绍一下常用的采样分布。一般情况下，我们都是从指定均值和方差的随机分布中进行采样来初始化。其中常用的随机分布有三个：正态分布（Normal）、均匀分布（Uniform）和截尾正态分布（Truncated Normal）。

点击阅读全文...

分类：数学研究,信息时代标签：模型, 优化, 梯度, attention 阅读全文 94 评论

22 Jul

概率视角下的线性模型：逻辑回归有解析解吗？

By 苏剑林 | 2021-07-22 | 106650位读者 | 引用

我们知道，线性回归是比较简单的问题，它存在解析解，而它的变体逻辑回归（Logistic Regression）却没有解析解，这不能不说是一个遗憾。因为逻辑回归虽然也叫“回归”，但它实际上是用于分类问题的，而对于很多读者来说分类比回归更加常见。准确来说，我们说逻辑回归没有解析解，说的是“最大似然估计下逻辑回归没有解析解”。那么，这是否意味着，如果我们不用最大似然估计，是否能找到一个可用的解析解呢？

逻辑回归示意图

本文将会从非最大似然的角度，推导逻辑回归的一个解析解，简单的实验表明它效果不逊色于梯度下降求出来的最大似然解。此外，这个解析解还易于推广到单层Softmax多分类模型。

点击阅读全文...

分类：数学研究标签：模型, 概率, 优化阅读全文 29 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

SquarePlus：可能是运算最简单的ReLU光滑近似

定义

概率分布的熵归一化（Entropy Normalization）

幂次变换

输入梯度惩罚与参数梯度惩罚的一个不等式

最终结果

用狄拉克函数来构造非光滑函数的光滑近似

让人惊叹的Johnson-Lindenstrauss引理：应用篇

降维的工具

让人惊叹的Johnson-Lindenstrauss引理：理论篇

对数的维度

浅谈Transformer的初始化、参数化与标准化

采样分布

概率视角下的线性模型：逻辑回归有解析解吗？

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接