包含关键字不平衡的文章 - 科学空间|Scientific Spaces

22 Oct

RSGAN：对抗模型中的“图灵测试”思想

By 苏剑林 | 2018-10-22 | 125492位读者 | 引用

这两天无意间发现一个非常有意义的工作，称为“相对GAN”，简称RSGAN，来自文章《The relativistic discriminator: a key element missing from standard GAN》，据说该文章还得到了GAN创始人Goodfellow的点赞。这篇文章提出了用相对的判别器来取代标准GAN原有的判别器，使得生成器的收敛更为迅速，训练更为稳定。

可惜的是，这篇文章仅仅从训练和实验角度对结果进行了论述，并没有进行更深入的分析，以至于不少人觉得这只是GAN训练的一个trick。但是在笔者来看，RSGAN具有更为深刻的含义，甚至可以看成它已经开创了一个新的GAN流派。所以，笔者决定对RSGAN模型及其背后的内涵做一个基本的介绍。不过需要指出的是，除了结果一样之外，本文的介绍过程跟原论文相比几乎没有重合之处。

“图灵测试”思想

SGAN

SGAN就是标准的GAN（Standard GAN）。就算没有做过GAN研究的读者，相信也从各种渠道了解到GAN的大概原理：“造假者”不断地进行造假，试图愚弄“鉴别者”；“鉴别者”不断提高鉴别技术，以分辨出真品和赝品。两者相互竞争，共同进步，直到“鉴别者”无法分辨出真、赝品了，“造假者”就功成身退了。

在建模时，通过交替训练实现这个过程：固定生成器，训练一个判别器（二分类模型），将真实样本输出1，将伪造样本输出0；然后固定判别器，训练生成器让伪造样本尽可能输出1，后面这一步不需要真实样本参与。

问题所在

然而，这个建模过程似乎对判别器的要求过于苛刻了，因为判别器是孤立运作的：训练生成器时，真实样本没有参与，所以判别器必须把关于真实样本的所有属性记住，这样才能指导生成器生成更真实的样本。

点击阅读全文...

分类：信息时代标签：概率, 无监督, GAN, 生成模型阅读全文 37 评论

14 Jan

缘起

前几天在量子位公众号上看到了《这个脑洞清奇的对联AI，大家都玩疯了》一文，觉得挺有意思，难得的是作者还整理并公开了数据集，所以决定自己尝试一下。

动手

“对对联”，我们可以看成是一个句子生成任务，可以用seq2seq完成，跟笔者之前写的《玩转Keras之seq2seq自动生成标题》一样，稍微修改一下输入即可。上面提到的文章所用的方法也是seq2seq，可见这算是标准做法了。

点击阅读全文...

分类：信息时代标签：NLP, 文本生成阅读全文 5 评论

15 Feb

能量视角下的GAN模型（二）：GAN＝“分析”＋“采样”

By 苏剑林 | 2019-02-15 | 129012位读者 | 引用

在这个系列中，我们尝试从能量的视角理解GAN。我们会发现这个视角如此美妙和直观，甚至让人拍案叫绝。

上一篇文章里，我们给出了一个直白而用力的能量图景，这个图景可以让我们轻松理解GAN的很多内容，换句话说，通俗的解释已经能让我们完成大部分的理解了，并且把最终的结论都已经写了出来。在这篇文章中，我们继续从能量的视角理解GAN，这一次，我们争取把前面简单直白的描述，用相对严密的数学语言推导一遍。

跟第一篇文章一样，对于笔者来说，这个推导过程依然直接受启发于Bengio团队的新作《Maximum Entropy Generators for Energy-Based Models》。

原作者的开源实现：https://github.com/ritheshkumar95/energy_based_generative_models

本文的大致内容如下：

1、推导了能量分布下的正负相对抗的更新公式；
2、比较了理论分析与实验采样的区别，而将两者结合便得到了GAN框架；
3、导出了生成器的补充loss，理论上可以防止mode collapse；
4、简单提及了基于能量函数的MCMC采样。

点击阅读全文...

分类：信息时代标签：概率, 能量, GAN, 生成模型阅读全文 46 评论

30 Oct

缅怀金庸 | 愿你登上10930小行星继续翱翔

By 苏剑林 | 2018-10-30 | 21792位读者 | 引用

金庸大师

金庸走了，享年94岁。

虽然说这些高龄大师们，不管是科学家还是文学家，他们在晚年基本上都不会有什么产出，过于理性的话会有“去了就去了，好像也没有什么损失”的感觉。然而，事实是大师的逝去总让我们有一种悲伤的震撼感，总让我们觉得似乎一个时代又逝去了。霍金是这样，金庸也是这样。

对于金老爷子来说，是一个武侠时代过去了，是一个江湖过去了。

飞雪连天射白鹿，笑书神侠倚碧鸳。

这个对联描述了金庸的14部作品，加上《越女剑》，就构成了他的15部武侠小说。金庸用这15部小说，描述了一个个活灵活现的江湖，不，说江湖好象都太小了，读完这15部作品，你会感觉他描述了整个中国几千年的历史、整个社会。

点击阅读全文...

分类：生活/情感标签：文学, 金庸阅读全文抢沙发

7 Nov

WGAN-div：一个默默无闻的WGAN填坑者

By 苏剑林 | 2018-11-07 | 154815位读者 | 引用

今天我们来谈一下Wasserstein散度，简称“W散度”。注意，这跟Wasserstein距离（Wasserstein distance，简称“W距离”，又叫Wasserstein度量、Wasserstein metric）是不同的两个东西。

本文源于论文《Wasserstein Divergence for GANs》，论文中提出了称为WGAN-div的GAN训练方案。这是一篇我很是欣赏却默默无闻的paper，我只是找文献时偶然碰到了它。不管英文还是中文界，它似乎都没有流行起来，但是我感觉它是一个相当漂亮的结果。

WGAN-div的部分样本（2w iter）

如果读者需要入门一下WGAN的相关知识，不妨请阅读拙作《互怼的艺术：从零直达WGAN-GP》。

WGAN

我们知道原始的GAN（SGAN）会有可能存在梯度消失的问题，因此WGAN横空出世了。

W距离

WGAN引入了最优传输里边的W距离来度量两个分布的距离：
\begin{equation}W_c[\tilde{p}(x), q(x)] = \inf_{\gamma\in \Pi(\tilde{p}(x), q(x))} \mathbb{E}_{(x,y)\sim \gamma}[c(x,y)] \end{equation}
这里的$\tilde{p}(x)$是真实样本的分布，$q(x)$是伪造分布，$c(x,y)$是传输成本，论文中用的是$c(x,y)=\Vert x-y\Vert$；而$\gamma\in \Pi(\tilde{p}(x), q(x))$的意思是说：$\gamma$是任意关于$x, y$的二元分布，其边缘分布则为$\tilde{p}(x)$和$q(y)$。直观来看，$\gamma$描述了一个运输方案，而$c(x,y)$则是运输成本，$W_c[\tilde{p}(x), q(x)]$就是说要找到成本最低的那个运输方案所对应的成本作为分布度量。

点击阅读全文...

分类：信息时代标签：GAN, 生成模型, 度量阅读全文 50 评论

15 Nov

又一道川菜！媲美“开水白菜”的瓜燕穗肚

By 苏剑林 | 2018-11-15 | 34866位读者 | 引用

开水白菜是一道非常经典的四川名菜，是国宴级别的菜肴。以前就写过科普《不求珍馐百味，但愿开水白菜》来介绍了开水白菜。

好吃的东西有很多，开水白菜让我惦记的，是它那精致到极致的追求，是那种锋芒不露的内敛。

刚才浏览视频时，发现了另一道类似的菜肴：瓜燕穗肚。而且它也是一道川菜～用猪肚仁切成麦穗的形状，用冬瓜做成燕窝的外形，配合跟开水白菜一样的上等清汤，就构成了瓜燕穗肚。

“瓜燕穗肚”截图（没有什么高清图，我是直接从下面视频里截图的）

点击阅读全文...

分类：生活/情感标签：生活, 厨房, 饮食阅读全文 2 评论

27 Nov

从变分编码、信息瓶颈到正态分布：论遗忘的重要性

By 苏剑林 | 2018-11-27 | 154897位读者 | 引用

这是一篇“散文”，我们来谈一下有着千丝万缕联系的三个东西：变分自编码器、信息瓶颈、正态分布。

众所周知，变分自编码器是一个很经典的生成模型，但实际上它有着超越生成模型的含义；而对于信息瓶颈，大家也许相对陌生一些，然而事实上信息瓶颈在去年也热闹了一阵子；至于正态分布，那就不用说了，它几乎跟所有机器学习领域都有或多或少的联系。

那么，当它们三个碰撞在一块时，又有什么样的故事可说呢？它们跟“遗忘”又有什么关系呢？

变分自编码器

在本博客你可以搜索到若干几篇介绍VAE的文章。下面简单回顾一下。

理论形式回顾

简单来说，VAE的优化目标是：
\begin{equation}KL(\tilde{p}(x)p(z|x)\Vert q(z)q(x|z))=\iint \tilde{p}(x)p(z|x)\log \frac{\tilde{p}(x)p(z|x)}{q(x|z)q(z)} dzdx\end{equation}
其中$q(z)$是标准正态分布，$p(z|x),q(x|z)$是条件正态分布，分别对应编码器、解码器。具体细节可以参考《变分自编码器（二）：从贝叶斯观点出发》。

点击阅读全文...

分类：信息时代标签：概率, 变分, 互信息, vae 阅读全文 55 评论

2 Dec

最小熵原理（四）：“物以类聚”之从图书馆到词向量

By 苏剑林 | 2018-12-02 | 92252位读者 | 引用

从第一篇看下来到这里，我们知道所谓“最小熵原理”就是致力于降低学习成本，试图用最小的成本完成同样的事情。所以整个系列就是一个“偷懒攻略”。那偷懒的秘诀是什么呢？答案是“套路”，所以本系列又称为“套路宝典”。

本篇我们介绍图书馆里边的套路。

先抛出一个问题：词向量出现在什么时候？是2013年Mikolov的Word2Vec？还是是2003年Bengio大神的神经语言模型？都不是，其实词向量可以追溯到千年以前，在那古老的图书馆中...

图书馆一角（图片来源于百度搜索）

走进图书馆

图书馆里有词向量？还是千年以前？在哪本书？我去借来看看。

放书的套路

其实不是哪本书，而是放书的套路。

很明显，图书馆中书的摆放是有“套路”的：它们不是随机摆放的，而是分门别类地放置的，比如数学类放一个区，文学类放一个区，计算机类也放一个区；同一个类也有很多子类，比如数学类中，数学分析放一个子区，代数放一个子区，几何放一个子区，等等。读者是否思考过，为什么要这么分类放置？分类放置有什么好处？跟最小熵又有什么关系？

点击阅读全文...

分类：信息时代标签：熵, 聚类, 词向量, 无监督, 最小熵阅读全文 20 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

RSGAN：对抗模型中的“图灵测试”思想

“图灵测试”思想

SGAN

问题所在

基于CNN和序列标注的对联机器人

缘起

动手

能量视角下的GAN模型（二）：GAN＝“分析”＋“采样”

缅怀金庸 | 愿你登上10930小行星继续翱翔

WGAN-div：一个默默无闻的WGAN填坑者

WGAN

W距离

又一道川菜！媲美“开水白菜”的瓜燕穗肚

从变分编码、信息瓶颈到正态分布：论遗忘的重要性

变分自编码器

理论形式回顾

最小熵原理（四）：“物以类聚”之从图书馆到词向量

走进图书馆

放书的套路

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接