包含关键字自然极值的文章 - 科学空间|Scientific Spaces

13 Feb

Designing GANs：又一个GAN生产车间

By 苏剑林 | 2020-02-13 | 36222位读者 | 引用

在2018年的文章里《f-GAN简介：GAN模型的生产车间》笔者介绍了f-GAN，并评价其为GAN模型的“生产车间”，顾名思义，这是指它能按照固定的流程构造出很多不同形式的GAN模型来。前几天在arxiv上看到了新出的一篇论文《Designing GANs: A Likelihood Ratio Approach》（后面简称Designing GANs或原论文），发现它在做跟f-GAN同样的事情，但走的是一条截然不同的路（不过最后其实是殊途同归），整篇论文颇有意思，遂在此分享一番。

f-GAN回顾

从《f-GAN简介：GAN模型的生产车间》中我们可以知道，f-GAN的首要步骤是找到满足如下条件的函数 $f$ ：

1、 $f$ 是非负实数到实数的映射（ $\mathbb{R}^* \to \mathbb{R}$ ）；
2、 $f(1)=0$ ；
3、 $f$ 是凸函数。

点击阅读全文...

分类：数学研究,信息时代标签：微积分, GAN, 生成模型阅读全文 4 评论

2 May

寻求一个光滑的最大值函数

By 苏剑林 | 2015-05-02 | 145101位读者 | 引用

在最优化问题中，求一个函数的最大值或最小值，最直接的方法是求导，然后比较各阶极值的大小。然而，我们所要优化的函数往往不一定可导，比如函数中含有最大值函数 $\max(x,y)$ 的。这时候就得求助于其他思路了。有一个很巧妙的思路是，将这些不可导函数用一个可导的函数来近似它，从而我们用求极值的方法来求出它近似的最优值。本文的任务，就是探究一个简单而有用的函数，它能够作为最大值函数的近似，并且具有多阶导数。下面是笔者给出的一个推导过程。

在数学分析中，笔者已经学习过一个关于最大值函数的公式，即当 $x \geq 0, y \geq 0$ 时，我们有
$\max(x,y)=\frac{1}{2}\left(|x+y|+|x-y|\right)\tag{1}$
那么，为了寻求一个最大值的函数，我们首先可以考虑寻找一个能够近似表示绝对值 $|x|$ 的函数，这样我们就把问题从二维降低到一维了。那么，哪个函数可以使用呢？

点击阅读全文...

分类：数学研究标签：函数, 极值, 光滑阅读全文 46 评论

1 Apr

《量子力学与路径积分》习题解答V0.5

By 苏剑林 | 2016-04-01 | 37719位读者 | 引用

习题解答继续艰难推进中，目前是0.5版本，相比0.4版，跳过了8、9章，先做了第10、11章统计力学部分的习题。

第10章有10道习题，第11章其实没有习题。看上去很少，但其实每一道习题的难度都很大。这两章的主要内容都是在用路径积分方法算统计力学中的配分函数，这本来就是一个很艰辛的课题。加上费曼在书中那形象的描述，容易让读者能够认识到大概，但是却很难算下去。事实上，这一章的习题，我参考了相当多的资料，中文的、英文的都有，才勉强完成了。

虽说是完成，但10道题目中，我只完成了9道，其中问题10-3是有困惑的，我感觉的结果跟费曼给出的不一样，因此就算不下去了。在这里提出来，希望了解的读者赐教。

点击阅读全文...

分类：数学研究标签：路径积分, 费曼阅读全文 4 评论

27 Jun

从动力学角度看优化算法（一）：从SGD到动量加速

By 苏剑林 | 2018-06-27 | 173971位读者 | 引用

在这个系列中，我们来关心优化算法，而本文的主题则是SGD（stochastic gradient descent，随机梯度下降），包括带Momentum和Nesterov版本的。对于SGD，我们通常会关心的几个问题是：

SGD为什么有效？
SGD的batch size是不是越大越好？
SGD的学习率怎么调？
Momentum是怎么加速的？
Nesterov为什么又比Momentum稍好？
...

这里试图从动力学角度分析SGD，给出上述问题的一些启发性理解。

梯度下降

既然要比较谁好谁差，就需要知道最好是什么样的，也就是说我们的终极目标是什么？

训练目标分析

假设全部训练样本的集合为 $\boldsymbol{S}$ ，损失度量为 $L(\boldsymbol{x};\boldsymbol{\theta})$ ，其中 $\boldsymbol{x}$ 代表单个样本，而 $\boldsymbol{\theta}$ 则是优化参数，那么我们可以构建损失函数
$L(\boldsymbol{\theta}) = \frac{1}{|\boldsymbol{S}|}\sum_{\boldsymbol{x}\in\boldsymbol{S}} L(\boldsymbol{x};\boldsymbol{\theta})\tag{1}$
而训练的终极目标，则是找到 $L(\boldsymbol{\theta})$ 的一个全局最优点（这里的最优是“最小”的意思）。

点击阅读全文...

分类：数学研究标签：微分方程, 动力学, 数值计算, 优化器阅读全文 43 评论

22 Oct

RSGAN：对抗模型中的“图灵测试”思想

By 苏剑林 | 2018-10-22 | 137014位读者 | 引用

这两天无意间发现一个非常有意义的工作，称为“相对GAN”，简称RSGAN，来自文章《The relativistic discriminator: a key element missing from standard GAN》，据说该文章还得到了GAN创始人Goodfellow的点赞。这篇文章提出了用相对的判别器来取代标准GAN原有的判别器，使得生成器的收敛更为迅速，训练更为稳定。

可惜的是，这篇文章仅仅从训练和实验角度对结果进行了论述，并没有进行更深入的分析，以至于不少人觉得这只是GAN训练的一个trick。但是在笔者来看，RSGAN具有更为深刻的含义，甚至可以看成它已经开创了一个新的GAN流派。所以，笔者决定对RSGAN模型及其背后的内涵做一个基本的介绍。不过需要指出的是，除了结果一样之外，本文的介绍过程跟原论文相比几乎没有重合之处。

“图灵测试”思想

SGAN

SGAN就是标准的GAN（Standard GAN）。就算没有做过GAN研究的读者，相信也从各种渠道了解到GAN的大概原理：“造假者”不断地进行造假，试图愚弄“鉴别者”；“鉴别者”不断提高鉴别技术，以分辨出真品和赝品。两者相互竞争，共同进步，直到“鉴别者”无法分辨出真、赝品了，“造假者”就功成身退了。

在建模时，通过交替训练实现这个过程：固定生成器，训练一个判别器（二分类模型），将真实样本输出1，将伪造样本输出0；然后固定判别器，训练生成器让伪造样本尽可能输出1，后面这一步不需要真实样本参与。

问题所在

然而，这个建模过程似乎对判别器的要求过于苛刻了，因为判别器是孤立运作的：训练生成器时，真实样本没有参与，所以判别器必须把关于真实样本的所有属性记住，这样才能指导生成器生成更真实的样本。

点击阅读全文...

分类：信息时代标签：概率, 无监督, GAN, 生成模型阅读全文 39 评论

2 Dec

最小熵原理（四）：“物以类聚”之从图书馆到词向量

By 苏剑林 | 2018-12-02 | 100401位读者 | 引用

从第一篇看下来到这里，我们知道所谓“最小熵原理”就是致力于降低学习成本，试图用最小的成本完成同样的事情。所以整个系列就是一个“偷懒攻略”。那偷懒的秘诀是什么呢？答案是“套路”，所以本系列又称为“套路宝典”。

本篇我们介绍图书馆里边的套路。

先抛出一个问题：词向量出现在什么时候？是2013年Mikolov的Word2Vec？还是是2003年Bengio大神的神经语言模型？都不是，其实词向量可以追溯到千年以前，在那古老的图书馆中...

图书馆一角（图片来源于百度搜索）

走进图书馆

图书馆里有词向量？还是千年以前？在哪本书？我去借来看看。

放书的套路

其实不是哪本书，而是放书的套路。

很明显，图书馆中书的摆放是有“套路”的：它们不是随机摆放的，而是分门别类地放置的，比如数学类放一个区，文学类放一个区，计算机类也放一个区；同一个类也有很多子类，比如数学类中，数学分析放一个子区，代数放一个子区，几何放一个子区，等等。读者是否思考过，为什么要这么分类放置？分类放置有什么好处？跟最小熵又有什么关系？

点击阅读全文...

分类：信息时代标签：熵, 聚类, 词向量, 无监督, 最小熵阅读全文 20 评论

8 Jul

两个多元正态分布的KL散度、巴氏距离和W距离

By 苏剑林 | 2021-07-08 | 117323位读者 | 引用

正态分布是最常见的连续型概率分布之一。它是给定均值和协方差后的最大熵分布（参考《“熵”不起：从熵、最大熵原理到最大熵模型（二）》），也可以看作任意连续型分布的二阶近似，它的地位就相当于一般函数的线性近似。从这个角度来看，正态分布算得上是最简单的连续型分布了。也正因为简单，所以对于很多估计量来说，它都能写出解析解来。

本文主要来计算两个多元正态分布的几种度量，包括KL散度、巴氏距离和W距离，它们都有显式解析解。

正态分布

这里简单回顾一下正态分布的一些基础知识。注意，仅仅是回顾，这还不足以作为正态分布的入门教程。

概率密度

正态分布，也即高斯分布，是定义在 $\mathbb{R}^n$ 上的连续型概率分布，其概率密度函数为
$\begin{equation}p(\boldsymbol{x})=\frac{1}{\sqrt{(2\pi)^n \det(\boldsymbol{\Sigma})}}\exp\left\{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{\top}\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right\}\end{equation}$

点击阅读全文...

分类：数学研究标签：概率, 矩阵, 优化阅读全文 30 评论

7 Jul

百科翻译：草原上的狐狸（Swift Fox）

By 苏剑林 | 2009-07-07 | 39307位读者 | 引用

“维基百科”翻译又开始了，这次我们来关注下北美洲的一种珍贵动物——草原狐。
这个条目在中文的维基上没有出现过，但英文上有，现在我把它翻译过来了。由于只有两年的初中生物学习经验，所以一定有很多翻译不当的地方，请大家多提意见！谢谢

图片说明：草原狐，来自“维击百科”

点击阅读全文...

分类：生物自然标签：翻译, 动物, 维基, 狐狸, 草原阅读全文 2 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

Designing GANs：又一个GAN生产车间

f-GAN回顾

寻求一个光滑的最大值函数

《量子力学与路径积分》习题解答V0.5

从动力学角度看优化算法（一）：从SGD到动量加速

梯度下降

训练目标分析

RSGAN：对抗模型中的“图灵测试”思想

“图灵测试”思想

SGAN

问题所在

最小熵原理（四）：“物以类聚”之从图书馆到词向量

走进图书馆

放书的套路

两个多元正态分布的KL散度、巴氏距离和W距离

正态分布

概率密度

百科翻译：草原上的狐狸（Swift Fox）

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接