标签生成模型下的文章 - 科学空间|Scientific Spaces

30 Jan

能量视角下的GAN模型（一）：GAN＝“挖坑”＋“跳坑”

By 苏剑林 | 2019-01-30 | 82197位读者 | 引用

“看那挖坑的人，有啥不一样～”

在这个系列中，我们尝试从能量的视角理解GAN。我们会发现这个视角如此美妙和直观，甚至让人拍案叫绝。

本视角直接受启发于Benjio团队的新作《Maximum Entropy Generators for Energy-Based Models》，这篇文章前几天出现在arxiv上。当然，能量模型与GAN的联系由来已久，并不是这篇文章的独创，只不过这篇文章做得仔细和完善一些。另外本文还补充了自己的一些理解和思考上去，力求更为易懂和完整。

作为第一篇文章，我们先来给出一个直白的类比推导：GAN实际上就是一场前仆后继（前挖后跳？）的“挖坑”与“跳坑”之旅～

总的来说，本文的大致内容如下：

1、给出了GAN/WGAN的清晰直观的能量图像；
2、讨论了判别器（能量函数）的训练情况和策略；
3、指出了梯度惩罚一个非常漂亮而直观的能量解释；
4、讨论了GAN中优化器的选择问题。

点击阅读全文...

分类：信息时代标签：概率, 能量, GAN, 生成模型阅读全文 33 评论

20 Jan

从Wasserstein距离、对偶理论到WGAN

By 苏剑林 | 2019-01-20 | 184819位读者 | 引用

推土机哪家强？成本最低找Wasserstein

2017年的时候笔者曾写过博文《互怼的艺术：从零直达WGAN-GP》，从一个相对通俗的角度来介绍了WGAN，在那篇文章中，WGAN更像是一个天马行空的结果，而实际上跟Wasserstein距离没有多大关系。

在本篇文章中，我们再从更数学化的视角来讨论一下WGAN。当然，本文并不是纯粹地讨论GAN，而主要侧重于Wasserstein距离及其对偶理论的理解。本文受启发于著名的国外博文《Wasserstein GAN and the Kantorovich-Rubinstein Duality》，内容跟它大体上相同，但是删除了一些冗余的部分，对不够充分或者含糊不清的地方作了补充。不管怎样，在此先对前辈及前辈的文章表示致敬。

（注：完整理解本文，应该需要多元微积分、概率论以及线性代数等基础知识。还有，本文确实长，数学公式确实多，但是，真的不复杂、不难懂，大家不要看到公式就吓怕了～）

点击阅读全文...

分类：数学研究标签：对偶, 优化, GAN, 生成模型阅读全文 83 评论

26 Dec

【学习清单】最近比较重要的GAN进展论文

By 苏剑林 | 2018-12-26 | 59351位读者 | 引用

这篇文章简单列举一下我认为最近这段时间中比较重要的GAN进展论文，这基本也是我在学习GAN的过程中主要去研究的论文清单。

生成模型之味

GAN是一个大坑，尤其像我这样的业余玩家，一头扎进去很久也很难有什么产出，尤其是各个大公司拼算力搞出来一个个大模型，个人几乎都没法玩了。但我总觉得，真的去碰了生成模型，才觉得自己碰到了真正的机器学习。这一点，不管在图像中还是文本中都是如此。所以，我还是愿意去关注生成模型。

当然，GAN不是生成模型的唯一选择，却是一个非常有趣的选择。在图像中至少有GAN、flow、pixelrnn/pixelcnn这几种选择，但要说潜力，我还是觉得GAN才是最具前景的，不单是因为效果，主要是因为它那对抗的思想。而在文本中，事实上seq2seq机制就是一个概率生成模型了，而pixelrnn这类模型，实际上就是模仿着seq2seq来做的，当然也有用GAN做文本生成的研究（不过基本上都涉及到了强化学习）。也就是说，其实在NLP中，生成模型也有很多成果，哪怕你主要是研究NLP的，也终将碰到生成模型。

好了，话不多说，还是赶紧把清单列一列，供大家参考，也作为自己的备忘。

点击阅读全文...

分类：信息时代标签：学习, GAN, 生成模型阅读全文 12 评论

10 Dec

BiGAN-QP：简单清晰的编码&生成模型

By 苏剑林 | 2018-12-10 | 60080位读者 | 引用

前不久笔者通过直接在对偶空间中分析的思路，提出了一个称为GAN-QP的对抗模型框架，它的特点是可以从理论上证明既不会梯度消失，又不需要L约束，使得生成模型的搭建和训练都得到简化。

GAN-QP是一个对抗框架，所以理论上原来所有的GAN任务都可以往上面试试。前面《不用L约束又不会梯度消失的GAN，了解一下？》一文中我们只尝试了标准的随机生成任务，而这篇文章中我们尝试既有生成器、又有编码器的情况：BiGAN-QP。

BiGAN与BiGAN-QP

注意这是BiGAN，不是前段时间很火的BigGAN，BiGAN是双向GAN（Bidirectional GAN），提出于《Adversarial feature learning》一文，同期还有一篇非常相似的文章叫做《Adversarially Learned Inference》，提出了叫做ALI的模型，跟BiGAN差不多。总的来说，它们都是往普通的GAN模型中加入了编码器，使得模型既能够具有普通GAN的随机生成功能，又具有编码器的功能，可以用来提取有效的特征。把GAN-QP这种对抗模式用到BiGAN中，就得到了BiGAN-QP。

话不多说，先来上效果图（左边是原图，右边是重构）：

BiGAN-QP重构效果图

点击阅读全文...

分类：信息时代标签：无监督, GAN, 生成模型, 编码阅读全文 13 评论

20 Nov

不用L约束又不会梯度消失的GAN，了解一下？

By 苏剑林 | 2018-11-20 | 157273位读者 | 引用

不知道从什么时候开始，我发现我也掉到了GAN的大坑里边了，唉，争取早日能跳出来...

这篇博客介绍的是我最近提交到arxiv的一个关于GAN的新框架，里边主要介绍了一种对概率散度的新理解，并且基于这种理解推导出了一个新的GAN。整篇文章比较偏理论，对这个GAN的相关性质都做了完整的论证，自认为是一个理论完备的结果。

文章链接：https://papers.cool/arxiv/1811.07296

先摆结论：

1、论文提供了一种分析和构造概率散度的直接思路，从而简化了构建新GAN框架的过程。
2、推导出了一个称为GAN-QP的GAN框架$\eqref{eq:gan-gp-gd}$，这个GAN不需要像WGAN那样的L约束，又不会有SGAN的梯度消失问题，实验表明它至少有不逊色于、甚至优于WGAN的表现。

GAN-QP效果图

论文的实验最大做到了512x512的人脸生成（CelebA HQ），充分表明了模型的有效性（效果不算完美，但是模型特别简单）。有兴趣的朋友，欢迎继续阅读下去。

点击阅读全文...

分类：信息时代标签：概率, GAN, 生成模型, 度量阅读全文 61 评论

7 Nov

WGAN-div：一个默默无闻的WGAN填坑者

By 苏剑林 | 2018-11-07 | 144077位读者 | 引用

今天我们来谈一下Wasserstein散度，简称“W散度”。注意，这跟Wasserstein距离（Wasserstein distance，简称“W距离”，又叫Wasserstein度量、Wasserstein metric）是不同的两个东西。

本文源于论文《Wasserstein Divergence for GANs》，论文中提出了称为WGAN-div的GAN训练方案。这是一篇我很是欣赏却默默无闻的paper，我只是找文献时偶然碰到了它。不管英文还是中文界，它似乎都没有流行起来，但是我感觉它是一个相当漂亮的结果。

WGAN-div的部分样本（2w iter）

如果读者需要入门一下WGAN的相关知识，不妨请阅读拙作《互怼的艺术：从零直达WGAN-GP》。

WGAN

我们知道原始的GAN（SGAN）会有可能存在梯度消失的问题，因此WGAN横空出世了。

W距离

WGAN引入了最优传输里边的W距离来度量两个分布的距离：
\begin{equation}W_c[\tilde{p}(x), q(x)] = \inf_{\gamma\in \Pi(\tilde{p}(x), q(x))} \mathbb{E}_{(x,y)\sim \gamma}[c(x,y)] \end{equation}
这里的$\tilde{p}(x)$是真实样本的分布，$q(x)$是伪造分布，$c(x,y)$是传输成本，论文中用的是$c(x,y)=\Vert x-y\Vert$；而$\gamma\in \Pi(\tilde{p}(x), q(x))$的意思是说：$\gamma$是任意关于$x, y$的二元分布，其边缘分布则为$\tilde{p}(x)$和$q(y)$。直观来看，$\gamma$描述了一个运输方案，而$c(x,y)$则是运输成本，$W_c[\tilde{p}(x), q(x)]$就是说要找到成本最低的那个运输方案所对应的成本作为分布度量。

点击阅读全文...

分类：信息时代标签：GAN, 生成模型, 度量阅读全文 50 评论

22 Oct

RSGAN：对抗模型中的“图灵测试”思想

By 苏剑林 | 2018-10-22 | 114244位读者 | 引用

这两天无意间发现一个非常有意义的工作，称为“相对GAN”，简称RSGAN，来自文章《The relativistic discriminator: a key element missing from standard GAN》，据说该文章还得到了GAN创始人Goodfellow的点赞。这篇文章提出了用相对的判别器来取代标准GAN原有的判别器，使得生成器的收敛更为迅速，训练更为稳定。

可惜的是，这篇文章仅仅从训练和实验角度对结果进行了论述，并没有进行更深入的分析，以至于不少人觉得这只是GAN训练的一个trick。但是在笔者来看，RSGAN具有更为深刻的含义，甚至可以看成它已经开创了一个新的GAN流派。所以，笔者决定对RSGAN模型及其背后的内涵做一个基本的介绍。不过需要指出的是，除了结果一样之外，本文的介绍过程跟原论文相比几乎没有重合之处。

“图灵测试”思想

SGAN

SGAN就是标准的GAN（Standard GAN）。就算没有做过GAN研究的读者，相信也从各种渠道了解到GAN的大概原理：“造假者”不断地进行造假，试图愚弄“鉴别者”；“鉴别者”不断提高鉴别技术，以分辨出真品和赝品。两者相互竞争，共同进步，直到“鉴别者”无法分辨出真、赝品了，“造假者”就功成身退了。

在建模时，通过交替训练实现这个过程：固定生成器，训练一个判别器（二分类模型），将真实样本输出1，将伪造样本输出0；然后固定判别器，训练生成器让伪造样本尽可能输出1，后面这一步不需要真实样本参与。

问题所在

然而，这个建模过程似乎对判别器的要求过于苛刻了，因为判别器是孤立运作的：训练生成器时，真实样本没有参与，所以判别器必须把关于真实样本的所有属性记住，这样才能指导生成器生成更真实的样本。

点击阅读全文...

分类：信息时代标签：概率, 无监督, GAN, 生成模型阅读全文 37 评论

7 Oct

深度学习中的Lipschitz约束：泛化与生成模型

By 苏剑林 | 2018-10-07 | 135198位读者 | 引用

前言：去年写过一篇WGAN-GP的入门读物《互怼的艺术：从零直达WGAN-GP》，提到通过梯度惩罚来为WGAN的判别器增加Lipschitz约束（下面简称“L约束”）。前几天遐想时再次想到了WGAN，总觉得WGAN的梯度惩罚不够优雅，后来也听说WGAN在条件生成时很难搞（因为不同类的随机插值就开始乱了...），所以就想琢磨一下能不能搞出个新的方案来给判别器增加L约束。

闭门造车想了几天，然后发现想出来的东西别人都已经做了，果然是只有你想不到，没有别人做不到。主要包含在这两篇论文中：《Spectral Norm Regularization for Improving the Generalizability of Deep Learning》和《Spectral Normalization for Generative Adversarial Networks》。

所以这篇文章就按照自己的理解思路，对L约束相关的内容进行简单的介绍。注意本文的主题是L约束，并不只是WGAN。它可以用在生成模型中，也可以用在一般的监督学习中。

L约束与泛化

扰动敏感

记输入为$x$，输出为$y$，模型为$f$，模型参数为$w$，记为
$$\begin{equation}y = f_w(x)\end{equation}$$
很多时候，我们希望得到一个“稳健”的模型。何为稳健？一般来说有两种含义，一是对于参数扰动的稳定性，比如模型变成了$f_{w+\Delta w}(x)$后是否还能达到相近的效果？如果在动力学系统中，还要考虑模型最终是否能恢复到$f_w(x)$；二是对于输入扰动的稳定性，比如输入从$x$变成了$x+\Delta x$后，$f_w(x+\Delta x)$是否能给出相近的预测结果。读者或许已经听说过深度学习模型存在“对抗攻击样本”，比如图片只改变一个像素就给出完全不一样的分类结果，这就是模型对输入过于敏感的案例。

点击阅读全文...

分类：信息时代标签：深度学习, GAN, 生成模型, 泛化阅读全文 42 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

能量视角下的GAN模型（一）：GAN＝“挖坑”＋“跳坑”

从Wasserstein距离、对偶理论到WGAN

【学习清单】最近比较重要的GAN进展论文

生成模型之味

BiGAN-QP：简单清晰的编码&生成模型

BiGAN与BiGAN-QP

不用L约束又不会梯度消失的GAN，了解一下？

WGAN-div：一个默默无闻的WGAN填坑者

WGAN

W距离

RSGAN：对抗模型中的“图灵测试”思想

“图灵测试”思想

SGAN

问题所在

深度学习中的Lipschitz约束：泛化与生成模型

L约束与泛化

扰动敏感

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接