分类数学研究下的文章 - 科学空间|Scientific Spaces

11 Dec

输入梯度惩罚与参数梯度惩罚的一个不等式

By 苏剑林 | 2021-12-11 | 21470位读者 | 引用

在本博客中，已经多次讨论过梯度惩罚相关内容了。从形式上来看，梯度惩罚项分为两种，一种是关于输入的梯度惩罚$\Vert\nabla_{\boldsymbol{x}} f(\boldsymbol{x};\boldsymbol{\theta})\Vert^2$，在《对抗训练浅谈：意义、方法和思考（附Keras实现）》、《泛化性乱弹：从随机噪声、梯度惩罚到虚拟对抗训练》等文章中我们讨论过，另一种则是关于参数的梯度惩罚$\Vert\nabla_{\boldsymbol{\theta}} f(\boldsymbol{x};\boldsymbol{\theta})\Vert^2$，在《从动力学角度看优化算法（五）：为什么学习率不宜过小？》、《我们真的需要把训练集的损失降低到零吗？》等文章我们讨论过。

在相关文章中，两种梯度惩罚都声称有着提高模型泛化性能的能力，那么两者有没有什么联系呢？笔者从Google最近的一篇论文《The Geometric Occam's Razor Implicit in Deep Learning》学习到了两者的一个不等式，算是部分地回答了这个问题，并且感觉以后可能用得上，在此做个笔记。

最终结果

假设有一个$l$层的MLP模型，记为
\begin{equation}\boldsymbol{h}^{(t+1)} = g^{(t)}(\boldsymbol{W}^{(t)}\boldsymbol{h}^{(t)}+\boldsymbol{b}^{(t)})\end{equation}
其中$g^{(t)}$是当前层的激活函数，$t\in\{1,2,\cdots,l\}$，并记$\boldsymbol{h}^{(1)}$为$\boldsymbol{x}$，即模型的原始输入，为了方便后面的推导，我们记$\boldsymbol{z}^{(t+1)}=\boldsymbol{W}^{(t)}\boldsymbol{h}^{(t)}+\boldsymbol{b}^{(t)}$；参数全体为$\boldsymbol{\theta}=\{\boldsymbol{W}^{(1)},\boldsymbol{b}^{(1)},\boldsymbol{W}^{(2)},\boldsymbol{b}^{(2)},\cdots,\boldsymbol{W}^{(l)},\boldsymbol{b}^{(l)}\}$。设$f$是$\boldsymbol{h}^{(l+1)}$的任意标量函数，那么成立不等式
\begin{equation}\Vert\nabla_{\boldsymbol{x}} f\Vert^2\left(\frac{1 + \Vert \boldsymbol{h}^{(1)}\Vert^2}{\Vert\boldsymbol{W}^{(1)}\Vert^2 \Vert\nabla_{\boldsymbol{x}}\boldsymbol{h}^{(1)}\Vert^2}+\cdots+\frac{1 + \Vert \boldsymbol{h}^{(l)}\Vert^2}{\Vert\boldsymbol{W}^{(l)}\Vert^2 \Vert\nabla_{\boldsymbol{x}}\boldsymbol{h}^{(l)}\Vert^2}\right)\leq \Vert\nabla_{\boldsymbol{\theta}} f\Vert^2\label{eq:f}\end{equation}

点击阅读全文...

分类：数学研究标签：不等式, 优化, 梯度, 泛化阅读全文抢沙发

10 Oct

用狄拉克函数来构造非光滑函数的光滑近似

By 苏剑林 | 2021-10-10 | 64103位读者 | 引用

在机器学习中，我们经常会碰到不光滑的函数，但我们的优化方法通常是基于梯度的，这意味着光滑的模型可能更利于优化（梯度是连续的），所以就有了寻找非光滑函数的光滑近似的需求。事实上，本博客已经多次讨论过相关主题，比如《寻求一个光滑的最大值函数》、《函数光滑化杂谈：不可导函数的可导逼近》等，但以往的讨论在方法上并没有什么通用性。

不过，笔者从最近的一篇论文《SAU: Smooth activation function using convolution with approximate identities》学习到了一种比较通用的思路：用狄拉克函数来构造光滑近似。通用到什么程度呢？理论上有可数个间断点的函数都可以用它来构造光滑近似！个人感觉还是非常有意思的。

点击阅读全文...

分类：数学研究标签：函数, 近似, 分析, 光滑阅读全文 22 评论

24 Sep

让人惊叹的Johnson-Lindenstrauss引理：应用篇

By 苏剑林 | 2021-09-24 | 32182位读者 | 引用

上一篇文章中，我们比较详细地介绍了Johnson-Lindenstrauss引理（JL引理）的理论推导，这一篇我们来关注它的应用。

作为一个内容上本身就跟降维相关的结论，JL引理最基本的自然就是作为一个降维方法来用。但除了这个直接应用外，很多看似不相关的算法，比如局部敏感哈希（LSH）、随机SVD等，本质上也依赖于JL引理。此外，对于机器学习模型来说，JL引理通常还能为我们的维度选择提供一些理论解释。

降维的工具

JL引理提供了一个非常简单直接的“随机投影”降维思路：

给定$N$个向量$v_1,v_2,\cdots,v_N\in\mathbb{R}^m$，如果想要将它降到$n$维，那么只需要从$\mathcal{N}(0,1/n)$中采样一个$n\times m$矩阵$A$，然后$Av_1,Av_2,\cdots,Av_N$就是降维后的结果。

点击阅读全文...

分类：数学研究,信息时代标签：模型, 分析, 维度, 机器学习阅读全文 2 评论

17 Sep

让人惊叹的Johnson-Lindenstrauss引理：理论篇

By 苏剑林 | 2021-09-17 | 72344位读者 | 引用

今天我们来学习Johnson-Lindenstrauss引理，由于名字比较长，下面都简称“JL引理”。

个人认为，JL引理是每一个计算机科学的同学都必须了解的神奇结论之一，它是一个关于降维的著名的结果，它也是高维空间中众多反直觉的“维度灾难”现象的经典例子之一。可以说，JL引理是机器学习中各种降维、Hash等技术的理论基础，此外，在现代机器学习中，JL引理也为我们理解、调试模型维度等相关参数提供了重要的理论支撑。

对数的维度

JL引理，可以非常通俗地表达为：

通俗版JL引理：塞下$N$个向量，只需要$\mathcal{O}(\log N)$维空间。

点击阅读全文...

分类：数学研究,信息时代标签：模型, 分析, 维度, 机器学习阅读全文 34 评论

17 Aug

浅谈Transformer的初始化、参数化与标准化

By 苏剑林 | 2021-08-17 | 144064位读者 | 引用

前几天在训练一个新的Transformer模型的时候，发现怎么训都不收敛了。经过一番debug，发现是在做Self Attention的时候$\boldsymbol{Q}\boldsymbol{K}^{\top}$之后忘记除以$\sqrt{d}$了，于是重新温习了一下为什么除以$\sqrt{d}$如此重要的原因。当然，Google的T5确实是没有除以$\sqrt{d}$的，但它依然能够正常收敛，那是因为它在初始化策略上做了些调整，所以这个事情还跟初始化有关。

藉着这个机会，本文跟大家一起梳理一下模型的初始化、参数化和标准化等内容，相关讨论将主要以Transformer为心中展开。

采样分布

初始化自然是随机采样的的，所以这里先介绍一下常用的采样分布。一般情况下，我们都是从指定均值和方差的随机分布中进行采样来初始化。其中常用的随机分布有三个：正态分布（Normal）、均匀分布（Uniform）和截尾正态分布（Truncated Normal）。

点击阅读全文...

分类：数学研究,信息时代标签：模型, 优化, 梯度, attention 阅读全文 87 评论

22 Jul

概率视角下的线性模型：逻辑回归有解析解吗？

By 苏剑林 | 2021-07-22 | 63742位读者 | 引用

我们知道，线性回归是比较简单的问题，它存在解析解，而它的变体逻辑回归（Logistic Regression）却没有解析解，这不能不说是一个遗憾。因为逻辑回归虽然也叫“回归”，但它实际上是用于分类问题的，而对于很多读者来说分类比回归更加常见。准确来说，我们说逻辑回归没有解析解，说的是“最大似然估计下逻辑回归没有解析解”。那么，这是否意味着，如果我们不用最大似然估计，是否能找到一个可用的解析解呢？

逻辑回归示意图

本文将会从非最大似然的角度，推导逻辑回归的一个解析解，简单的实验表明它效果不逊色于梯度下降求出来的最大似然解。此外，这个解析解还易于推广到单层Softmax多分类模型。

点击阅读全文...

分类：数学研究标签：模型, 概率, 优化阅读全文 26 评论

8 Jul

两个多元正态分布的KL散度、巴氏距离和W距离

By 苏剑林 | 2021-07-08 | 86574位读者 | 引用

正态分布是最常见的连续型概率分布之一。它是给定均值和协方差后的最大熵分布（参考《“熵”不起：从熵、最大熵原理到最大熵模型（二）》），也可以看作任意连续型分布的二阶近似，它的地位就相当于一般函数的线性近似。从这个角度来看，正态分布算得上是最简单的连续型分布了。也正因为简单，所以对于很多估计量来说，它都能写出解析解来。

本文主要来计算两个多元正态分布的几种度量，包括KL散度、巴氏距离和W距离，它们都有显式解析解。

正态分布

这里简单回顾一下正态分布的一些基础知识。注意，仅仅是回顾，这还不足以作为正态分布的入门教程。

概率密度

正态分布，也即高斯分布，是定义在$\mathbb{R}^n$上的连续型概率分布，其概率密度函数为
\begin{equation}p(\boldsymbol{x})=\frac{1}{\sqrt{(2\pi)^n \det(\boldsymbol{\Sigma})}}\exp\left\{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{\top}\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right\}\end{equation}

点击阅读全文...

分类：数学研究标签：概率, 矩阵, 优化阅读全文 28 评论

17 Jun

对比学习可以使用梯度累积吗？

By 苏剑林 | 2021-06-17 | 47877位读者 | 引用

在之前的文章《用时间换取效果：Keras梯度累积优化器》中，我们介绍过“梯度累积”，它是在有限显存下实现大batch_size效果的一种技巧。一般来说，梯度累积适用的是loss是独立同分布的场景，换言之每个样本单独计算loss，然后总loss是所有单个loss的平均或求和。然而，并不是所有任务都满足这个条件的，比如最近比较热门的对比学习，每个样本的loss还跟其他样本有关。

那么，在对比学习场景，我们还可以使用梯度累积来达到大batch_size的效果吗？本文就来分析这个问题。

简介

一般情况下，对比学习的loss可以写为
\begin{equation}\mathcal{L}=-\sum_{i,j=1}^b t_{i,j}\log p_{i,j} = -\sum_{i,j=1}^b t_{i,j}\log \frac{e^{s_{i,j}}}{\sum\limits_j e^{s_{i,j}}}=-\sum_{i,j=1}^b t_{i,j}s_{i,j} + \sum_{i=1}^b \log\sum_{j=1}^b e^{s_{i,j}}\label{eq:loss}\end{equation}
这里的$b$是batch_size；$t_{i,j}$是事先给定的标签，满足$t_{i,j}=t_{j,i}$，它是一个one hot矩阵，每一列只有一个1，其余都为0；而$s_{i,j}$是样本$i$和样本$j$的相似度，满足$s_{i,j}=s_{j,i}$，一般情况下还有个温度参数，这里假设温度参数已经整合到$s_{i,j}$中，从而简化记号。模型参数存在于$s_{i,j}$中，假设为$\theta$。

点击阅读全文...

分类：数学研究,信息时代标签：模型, 优化, 梯度阅读全文 20 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

输入梯度惩罚与参数梯度惩罚的一个不等式

最终结果

用狄拉克函数来构造非光滑函数的光滑近似

让人惊叹的Johnson-Lindenstrauss引理：应用篇

降维的工具

让人惊叹的Johnson-Lindenstrauss引理：理论篇

对数的维度

浅谈Transformer的初始化、参数化与标准化

采样分布

概率视角下的线性模型：逻辑回归有解析解吗？

两个多元正态分布的KL散度、巴氏距离和W距离

正态分布

概率密度

对比学习可以使用梯度累积吗？

简介

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接