包含关键字多模态的文章 - 科学空间|Scientific Spaces

15 Feb

能量视角下的GAN模型（二）：GAN＝“分析”＋“采样”

By 苏剑林 | 2019-02-15 | 128717位读者 | 引用

在这个系列中，我们尝试从能量的视角理解GAN。我们会发现这个视角如此美妙和直观，甚至让人拍案叫绝。

上一篇文章里，我们给出了一个直白而用力的能量图景，这个图景可以让我们轻松理解GAN的很多内容，换句话说，通俗的解释已经能让我们完成大部分的理解了，并且把最终的结论都已经写了出来。在这篇文章中，我们继续从能量的视角理解GAN，这一次，我们争取把前面简单直白的描述，用相对严密的数学语言推导一遍。

跟第一篇文章一样，对于笔者来说，这个推导过程依然直接受启发于Bengio团队的新作《Maximum Entropy Generators for Energy-Based Models》。

原作者的开源实现：https://github.com/ritheshkumar95/energy_based_generative_models

本文的大致内容如下：

1、推导了能量分布下的正负相对抗的更新公式；
2、比较了理论分析与实验采样的区别，而将两者结合便得到了GAN框架；
3、导出了生成器的补充loss，理论上可以防止mode collapse；
4、简单提及了基于能量函数的MCMC采样。

点击阅读全文...

分类：信息时代标签：概率, 能量, GAN, 生成模型阅读全文 46 评论

30 Oct

缅怀金庸 | 愿你登上10930小行星继续翱翔

By 苏剑林 | 2018-10-30 | 21777位读者 | 引用

金庸大师

金庸走了，享年94岁。

虽然说这些高龄大师们，不管是科学家还是文学家，他们在晚年基本上都不会有什么产出，过于理性的话会有“去了就去了，好像也没有什么损失”的感觉。然而，事实是大师的逝去总让我们有一种悲伤的震撼感，总让我们觉得似乎一个时代又逝去了。霍金是这样，金庸也是这样。

对于金老爷子来说，是一个武侠时代过去了，是一个江湖过去了。

飞雪连天射白鹿，笑书神侠倚碧鸳。

这个对联描述了金庸的14部作品，加上《越女剑》，就构成了他的15部武侠小说。金庸用这15部小说，描述了一个个活灵活现的江湖，不，说江湖好象都太小了，读完这15部作品，你会感觉他描述了整个中国几千年的历史、整个社会。

点击阅读全文...

分类：生活/情感标签：文学, 金庸阅读全文抢沙发

7 Nov

WGAN-div：一个默默无闻的WGAN填坑者

By 苏剑林 | 2018-11-07 | 154464位读者 | 引用

今天我们来谈一下Wasserstein散度，简称“W散度”。注意，这跟Wasserstein距离（Wasserstein distance，简称“W距离”，又叫Wasserstein度量、Wasserstein metric）是不同的两个东西。

本文源于论文《Wasserstein Divergence for GANs》，论文中提出了称为WGAN-div的GAN训练方案。这是一篇我很是欣赏却默默无闻的paper，我只是找文献时偶然碰到了它。不管英文还是中文界，它似乎都没有流行起来，但是我感觉它是一个相当漂亮的结果。

WGAN-div的部分样本（2w iter）

如果读者需要入门一下WGAN的相关知识，不妨请阅读拙作《互怼的艺术：从零直达WGAN-GP》。

WGAN

我们知道原始的GAN（SGAN）会有可能存在梯度消失的问题，因此WGAN横空出世了。

W距离

WGAN引入了最优传输里边的W距离来度量两个分布的距离：
\begin{equation}W_c[\tilde{p}(x), q(x)] = \inf_{\gamma\in \Pi(\tilde{p}(x), q(x))} \mathbb{E}_{(x,y)\sim \gamma}[c(x,y)] \end{equation}
这里的$\tilde{p}(x)$是真实样本的分布，$q(x)$是伪造分布，$c(x,y)$是传输成本，论文中用的是$c(x,y)=\Vert x-y\Vert$；而$\gamma\in \Pi(\tilde{p}(x), q(x))$的意思是说：$\gamma$是任意关于$x, y$的二元分布，其边缘分布则为$\tilde{p}(x)$和$q(y)$。直观来看，$\gamma$描述了一个运输方案，而$c(x,y)$则是运输成本，$W_c[\tilde{p}(x), q(x)]$就是说要找到成本最低的那个运输方案所对应的成本作为分布度量。

点击阅读全文...

分类：信息时代标签：GAN, 生成模型, 度量阅读全文 50 评论

15 Nov

又一道川菜！媲美“开水白菜”的瓜燕穗肚

By 苏剑林 | 2018-11-15 | 34820位读者 | 引用

开水白菜是一道非常经典的四川名菜，是国宴级别的菜肴。以前就写过科普《不求珍馐百味，但愿开水白菜》来介绍了开水白菜。

好吃的东西有很多，开水白菜让我惦记的，是它那精致到极致的追求，是那种锋芒不露的内敛。

刚才浏览视频时，发现了另一道类似的菜肴：瓜燕穗肚。而且它也是一道川菜～用猪肚仁切成麦穗的形状，用冬瓜做成燕窝的外形，配合跟开水白菜一样的上等清汤，就构成了瓜燕穗肚。

“瓜燕穗肚”截图（没有什么高清图，我是直接从下面视频里截图的）

点击阅读全文...

分类：生活/情感标签：生活, 厨房, 饮食阅读全文 2 评论

20 Nov

不用L约束又不会梯度消失的GAN，了解一下？

By 苏剑林 | 2018-11-20 | 168761位读者 | 引用

不知道从什么时候开始，我发现我也掉到了GAN的大坑里边了，唉，争取早日能跳出来...

这篇博客介绍的是我最近提交到arxiv的一个关于GAN的新框架，里边主要介绍了一种对概率散度的新理解，并且基于这种理解推导出了一个新的GAN。整篇文章比较偏理论，对这个GAN的相关性质都做了完整的论证，自认为是一个理论完备的结果。

文章链接：https://papers.cool/arxiv/1811.07296

先摆结论：

1、论文提供了一种分析和构造概率散度的直接思路，从而简化了构建新GAN框架的过程。
2、推导出了一个称为GAN-QP的GAN框架$\eqref{eq:gan-gp-gd}$，这个GAN不需要像WGAN那样的L约束，又不会有SGAN的梯度消失问题，实验表明它至少有不逊色于、甚至优于WGAN的表现。

GAN-QP效果图

论文的实验最大做到了512x512的人脸生成（CelebA HQ），充分表明了模型的有效性（效果不算完美，但是模型特别简单）。有兴趣的朋友，欢迎继续阅读下去。

点击阅读全文...

分类：信息时代标签：概率, GAN, 生成模型, 度量阅读全文 61 评论

27 Nov

从变分编码、信息瓶颈到正态分布：论遗忘的重要性

By 苏剑林 | 2018-11-27 | 154524位读者 | 引用

这是一篇“散文”，我们来谈一下有着千丝万缕联系的三个东西：变分自编码器、信息瓶颈、正态分布。

众所周知，变分自编码器是一个很经典的生成模型，但实际上它有着超越生成模型的含义；而对于信息瓶颈，大家也许相对陌生一些，然而事实上信息瓶颈在去年也热闹了一阵子；至于正态分布，那就不用说了，它几乎跟所有机器学习领域都有或多或少的联系。

那么，当它们三个碰撞在一块时，又有什么样的故事可说呢？它们跟“遗忘”又有什么关系呢？

变分自编码器

在本博客你可以搜索到若干几篇介绍VAE的文章。下面简单回顾一下。

理论形式回顾

简单来说，VAE的优化目标是：
\begin{equation}KL(\tilde{p}(x)p(z|x)\Vert q(z)q(x|z))=\iint \tilde{p}(x)p(z|x)\log \frac{\tilde{p}(x)p(z|x)}{q(x|z)q(z)} dzdx\end{equation}
其中$q(z)$是标准正态分布，$p(z|x),q(x|z)$是条件正态分布，分别对应编码器、解码器。具体细节可以参考《变分自编码器（二）：从贝叶斯观点出发》。

点击阅读全文...

分类：信息时代标签：概率, 变分, 互信息, vae 阅读全文 55 评论

2 Dec

最小熵原理（四）：“物以类聚”之从图书馆到词向量

By 苏剑林 | 2018-12-02 | 92081位读者 | 引用

从第一篇看下来到这里，我们知道所谓“最小熵原理”就是致力于降低学习成本，试图用最小的成本完成同样的事情。所以整个系列就是一个“偷懒攻略”。那偷懒的秘诀是什么呢？答案是“套路”，所以本系列又称为“套路宝典”。

本篇我们介绍图书馆里边的套路。

先抛出一个问题：词向量出现在什么时候？是2013年Mikolov的Word2Vec？还是是2003年Bengio大神的神经语言模型？都不是，其实词向量可以追溯到千年以前，在那古老的图书馆中...

图书馆一角（图片来源于百度搜索）

走进图书馆

图书馆里有词向量？还是千年以前？在哪本书？我去借来看看。

放书的套路

其实不是哪本书，而是放书的套路。

很明显，图书馆中书的摆放是有“套路”的：它们不是随机摆放的，而是分门别类地放置的，比如数学类放一个区，文学类放一个区，计算机类也放一个区；同一个类也有很多子类，比如数学类中，数学分析放一个子区，代数放一个子区，几何放一个子区，等等。读者是否思考过，为什么要这么分类放置？分类放置有什么好处？跟最小熵又有什么关系？

点击阅读全文...

分类：信息时代标签：熵, 聚类, 词向量, 无监督, 最小熵阅读全文 20 评论

8 Jan

从动力学角度看优化算法（三）：一个更整体的视角

By 苏剑林 | 2019-01-08 | 57830位读者 | 引用

最近把优化算法跟动力学结合起来思考得越来越起劲了，这是优化算法与动力学系列的第三篇，我有预感还会有第4篇，敬请期待～

简单来个剧情回顾：第一篇中我们指出了其实SGD相当于常微分方程（ODE）的数值解法：欧拉法；第二篇我们还是数值解法的误差分析的角度，分析了为什么可以通过梯度来调节学习率，因此也就解释了RMSprop、Adam等算法中，用梯度调节学习率的原理。

本文将给出一个更统一的观点来看待这两个事情，并且试图回答一个更本质的问题：为什么是梯度下降？

（注：本文的讨论没有涉及到动量加速部分。）

点击阅读全文...

分类：数学研究标签：微分方程, 动力学, 数值计算, 优化器阅读全文 11 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

能量视角下的GAN模型（二）：GAN＝“分析”＋“采样”

缅怀金庸 | 愿你登上10930小行星继续翱翔

WGAN-div：一个默默无闻的WGAN填坑者

WGAN

W距离

又一道川菜！媲美“开水白菜”的瓜燕穗肚

不用L约束又不会梯度消失的GAN，了解一下？

从变分编码、信息瓶颈到正态分布：论遗忘的重要性

变分自编码器

理论形式回顾

最小熵原理（四）：“物以类聚”之从图书馆到词向量

走进图书馆

放书的套路

从动力学角度看优化算法（三）：一个更整体的视角

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接