包含关键字极大似然估计的文章 - 科学空间|Scientific Spaces

13 Feb

Designing GANs：又一个GAN生产车间

By 苏剑林 | 2020-02-13 | 33196位读者 | 引用

在2018年的文章里《f-GAN简介：GAN模型的生产车间》笔者介绍了f-GAN，并评价其为GAN模型的“生产车间”，顾名思义，这是指它能按照固定的流程构造出很多不同形式的GAN模型来。前几天在arxiv上看到了新出的一篇论文《Designing GANs: A Likelihood Ratio Approach》（后面简称Designing GANs或原论文），发现它在做跟f-GAN同样的事情，但走的是一条截然不同的路（不过最后其实是殊途同归），整篇论文颇有意思，遂在此分享一番。

f-GAN回顾

从《f-GAN简介：GAN模型的生产车间》中我们可以知道，f-GAN的首要步骤是找到满足如下条件的函数$f$：

1、$f$是非负实数到实数的映射（$\mathbb{R}^* \to \mathbb{R}$）；
2、$f(1)=0$；
3、$f$是凸函数。

点击阅读全文...

分类：数学研究,信息时代标签：微积分, GAN, 生成模型阅读全文 4 评论

20 Dec

“熵”不起：从熵、最大熵原理到最大熵模型（三）

By 苏剑林 | 2015-12-20 | 68321位读者 | 引用

上集回顾

在上一篇文章中，笔者分享了自己对最大熵原理的认识，包括最大熵原理的意义、最大熵原理的求解以及一些简单而常见的最大熵原理的应用。在上一篇的文末，我们还通过最大熵原理得到了正态分布，以此来说明最大熵原理的深刻内涵和广泛意义。

本文中，笔者将介绍基于最大熵原理的模型——最大熵模型。本文以有监督的分类问题来介绍最大熵模型，所谓有监督，就是基于已经标签好的数据进行的。

事实上，第二篇文章的最大熵原理才是主要的，最大熵模型，实质上只是最大熵原理的一个延伸，或者说应用。

最大熵模型

分类：意味着什么？

在引入最大熵模型之前，我们先来多扯一点东西，谈谈分类问题意味着什么。假设我们有一批标签好的数据：
$$\begin{array}{c|cccccccc}
\hline
\text{数据}x & 1 & 2 & 3 & 4 & 5 & 6 & \dots & 100 \\
\hline
\text{标签}y & 1 & 0 & 1 & 0 & 1 & 0 & \dots & 0\\
\hline \end{array}$$

点击阅读全文...

分类：数学研究标签：模型, 概率, 最大熵, 熵阅读全文 19 评论

19 Nov

更别致的词向量模型(五)：有趣的结果

By 苏剑林 | 2017-11-19 | 86344位读者 | 引用

最后，我们来看一下词向量模型$(15)$会有什么好的性质，或者说，如此煞费苦心去构造一个新的词向量模型，会得到什么回报呢？

模长的含义

似乎所有的词向量模型中，都很少会关心词向量的模长。有趣的是，我们上述词向量模型得到的词向量，其模长还能在一定程度上代表着词的重要程度。我们可以从两个角度理解这个事实。

在一个窗口内的上下文，中心词重复出现概率其实是不大的，是一个比较随机的事件，因此可以粗略地认为
\[P(w,w) \sim P(w)\tag{24}\]
所以根据我们的模型，就有
\[e^{\langle\boldsymbol{v}_{w},\boldsymbol{v}_{w}\rangle} =\frac{P(w,w)}{P(w)P(w)}\sim \frac{1}{P(w)}\tag{25}\]
所以
\[\Vert\boldsymbol{v}_{w}\Vert^2 \sim -\log P(w)\tag{26}\]
可见，词语越高频（越有可能就是停用词、虚词等），对应的词向量模长就越小，这就表明了这种词向量的模长确实可以代表词的重要性。事实上，$-\log P(w)$这个量类似IDF，有个专门的名称叫ICF，请参考论文《TF-ICF: A New Term Weighting Scheme for Clustering Dynamic Data Streams》。

点击阅读全文...

分类：信息时代标签：词向量, glove, 语义阅读全文 21 评论

23 Jan

揭开迷雾，来一顿美味的Capsule盛宴

By 苏剑林 | 2018-01-23 | 437855位读者 | 引用

Geoffrey Hinton在谷歌多伦多办公室

由深度学习先驱Hinton开源的Capsule论文《Dynamic Routing Between Capsules》，无疑是去年深度学习界最热点的消息之一。得益于各种媒体的各种吹捧，Capsule被冠以了各种神秘的色彩，诸如“抛弃了梯度下降”、“推倒深度学习重来”等字眼层出不穷，但也有人觉得Capsule不外乎是一个新的炒作概念。

本文试图揭开让人迷惘的云雾，领悟Capsule背后的原理和魅力，品尝这一顿Capsule盛宴。同时，笔者补做了一个自己设计的实验，这个实验能比原论文的实验更有力说明Capsule的确产生效果了。

菜谱一览：

1、Capsule是什么？
2、Capsule为什么要这样做？
3、Capsule真的好吗？
4、我觉得Capsule怎样？
5、若干小菜。

点击阅读全文...

分类：信息时代标签：深度学习, 聚类, Capsule 阅读全文 135 评论

12 Feb

再来一顿贺岁宴：从K-Means到Capsule

By 苏剑林 | 2018-02-12 | 220926位读者 | 引用

在本文中，我们再次对Capsule进行一次分析。

整体上来看，Capsule算法的细节不是很复杂，对照着它的流程把Capsule用框架实现它基本是没问题的。所以，困难的问题是理解Capsule究竟做了什么，以及为什么要这样做，尤其是Dynamic Routing那几步。

为什么我要反复对Capsule进行分析？这并非单纯的“炒冷饭”，而是为了得到对Capsule原理的理解。众所周知，Capsule给人的感觉就是“有太多人为约定的内容”，没有一种“虽然我不懂，但我相信应该就是这样”的直观感受。我希望尽可能将Capsule的来龙去脉思考清楚，使我们能觉得Capsule是一个自然、流畅的模型，甚至对它举一反三。

在《揭开迷雾，来一顿美味的Capsule盛宴》中，笔者先分析了动态路由的结果，然后指出输出是输入的某种聚类，这个“从结果到原因”的过程多多少少有些望文生义的猜测成分；这次则反过来，直接确认输出是输入的聚类，然后反推动态路由应该是怎样的，其中含糊的成分大大减少。两篇文章之间有一定的互补作用。

点击阅读全文...

分类：信息时代标签：深度学习, 聚类, Capsule 阅读全文 55 评论

20 Nov

不用L约束又不会梯度消失的GAN，了解一下？

By 苏剑林 | 2018-11-20 | 169066位读者 | 引用

不知道从什么时候开始，我发现我也掉到了GAN的大坑里边了，唉，争取早日能跳出来...

这篇博客介绍的是我最近提交到arxiv的一个关于GAN的新框架，里边主要介绍了一种对概率散度的新理解，并且基于这种理解推导出了一个新的GAN。整篇文章比较偏理论，对这个GAN的相关性质都做了完整的论证，自认为是一个理论完备的结果。

文章链接：https://papers.cool/arxiv/1811.07296

先摆结论：

1、论文提供了一种分析和构造概率散度的直接思路，从而简化了构建新GAN框架的过程。
2、推导出了一个称为GAN-QP的GAN框架$\eqref{eq:gan-gp-gd}$，这个GAN不需要像WGAN那样的L约束，又不会有SGAN的梯度消失问题，实验表明它至少有不逊色于、甚至优于WGAN的表现。

GAN-QP效果图

论文的实验最大做到了512x512的人脸生成（CelebA HQ），充分表明了模型的有效性（效果不算完美，但是模型特别简单）。有兴趣的朋友，欢迎继续阅读下去。

点击阅读全文...

分类：信息时代标签：概率, GAN, 生成模型, 度量阅读全文 61 评论

8 Jan

从动力学角度看优化算法（三）：一个更整体的视角

By 苏剑林 | 2019-01-08 | 57964位读者 | 引用

最近把优化算法跟动力学结合起来思考得越来越起劲了，这是优化算法与动力学系列的第三篇，我有预感还会有第4篇，敬请期待～

简单来个剧情回顾：第一篇中我们指出了其实SGD相当于常微分方程（ODE）的数值解法：欧拉法；第二篇我们还是数值解法的误差分析的角度，分析了为什么可以通过梯度来调节学习率，因此也就解释了RMSprop、Adam等算法中，用梯度调节学习率的原理。

本文将给出一个更统一的观点来看待这两个事情，并且试图回答一个更本质的问题：为什么是梯度下降？

（注：本文的讨论没有涉及到动量加速部分。）

点击阅读全文...

分类：数学研究标签：微分方程, 动力学, 数值计算, 优化器阅读全文 11 评论

24 Nov

exp(x)在x=0处的偶次泰勒展开式总是正的

By 苏剑林 | 2020-11-24 | 34614位读者 | 引用

刚看到一个有意思的结论：

对于任意实数$x$及偶数$n$，总有$\sum\limits_{k=0}^n \frac{x^k}{k!} > 0$，即$e^x$在$x=0$处的偶次泰勒展开式总是正的。

下面我们来看一下这个结论的证明，以及它在寻找softmax替代品中的应用。

证明过程

看上去这是一个很强的结果，证明会不会很复杂？其实证明非常简单，记
\begin{equation}f_n(x) = \sum\limits_{k=0}^n \frac{x^k}{k!}\end{equation}
当$n$是偶数时，我们有$\lim\limits_{x\to\pm\infty} f_n(x)=+\infty$，即整体是开口向上的，所以我们只需要证明它的最小值大于0就行了，又因为它是一个光滑连续的多项式函数，所以最小值点必然是某个极小值点。那么换个角度想，我们只需要证明它所有的极值点（不管是极大还是极小）所对应的函数值都大于0。

点击阅读全文...

分类：数学研究标签：导数, 概率, 分析阅读全文 5 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

Designing GANs：又一个GAN生产车间

f-GAN回顾

“熵”不起：从熵、最大熵原理到最大熵模型（三）

上集回顾

最大熵模型

分类：意味着什么？

更别致的词向量模型(五)：有趣的结果

模长的含义

揭开迷雾，来一顿美味的Capsule盛宴

再来一顿贺岁宴：从K-Means到Capsule

不用L约束又不会梯度消失的GAN，了解一下？

从动力学角度看优化算法（三）：一个更整体的视角

exp(x)在x=0处的偶次泰勒展开式总是正的

证明过程

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接