包含关键字生成模型的文章 - 科学空间|Scientific Spaces

26 Dec

【学习清单】最近比较重要的GAN进展论文

By 苏剑林 | 2018-12-26 | 62119位读者 | 引用

这篇文章简单列举一下我认为最近这段时间中比较重要的GAN进展论文，这基本也是我在学习GAN的过程中主要去研究的论文清单。

生成模型之味

GAN是一个大坑，尤其像我这样的业余玩家，一头扎进去很久也很难有什么产出，尤其是各个大公司拼算力搞出来一个个大模型，个人几乎都没法玩了。但我总觉得，真的去碰了生成模型，才觉得自己碰到了真正的机器学习。这一点，不管在图像中还是文本中都是如此。所以，我还是愿意去关注生成模型。

当然，GAN不是生成模型的唯一选择，却是一个非常有趣的选择。在图像中至少有GAN、flow、pixelrnn/pixelcnn这几种选择，但要说潜力，我还是觉得GAN才是最具前景的，不单是因为效果，主要是因为它那对抗的思想。而在文本中，事实上seq2seq机制就是一个概率生成模型了，而pixelrnn这类模型，实际上就是模仿着seq2seq来做的，当然也有用GAN做文本生成的研究（不过基本上都涉及到了强化学习）。也就是说，其实在NLP中，生成模型也有很多成果，哪怕你主要是研究NLP的，也终将碰到生成模型。

好了，话不多说，还是赶紧把清单列一列，供大家参考，也作为自己的备忘。

点击阅读全文...

分类：信息时代标签：学习, GAN, 生成模型阅读全文 12 评论

7 Nov

WGAN-div：一个默默无闻的WGAN填坑者

By 苏剑林 | 2018-11-07 | 149541位读者 | 引用

今天我们来谈一下Wasserstein散度，简称“W散度”。注意，这跟Wasserstein距离（Wasserstein distance，简称“W距离”，又叫Wasserstein度量、Wasserstein metric）是不同的两个东西。

本文源于论文《Wasserstein Divergence for GANs》，论文中提出了称为WGAN-div的GAN训练方案。这是一篇我很是欣赏却默默无闻的paper，我只是找文献时偶然碰到了它。不管英文还是中文界，它似乎都没有流行起来，但是我感觉它是一个相当漂亮的结果。

WGAN-div的部分样本（2w iter）

如果读者需要入门一下WGAN的相关知识，不妨请阅读拙作《互怼的艺术：从零直达WGAN-GP》。

WGAN

我们知道原始的GAN（SGAN）会有可能存在梯度消失的问题，因此WGAN横空出世了。

W距离

WGAN引入了最优传输里边的W距离来度量两个分布的距离：
\begin{equation}W_c[\tilde{p}(x), q(x)] = \inf_{\gamma\in \Pi(\tilde{p}(x), q(x))} \mathbb{E}_{(x,y)\sim \gamma}[c(x,y)] \end{equation}
这里的$\tilde{p}(x)$是真实样本的分布，$q(x)$是伪造分布，$c(x,y)$是传输成本，论文中用的是$c(x,y)=\Vert x-y\Vert$；而$\gamma\in \Pi(\tilde{p}(x), q(x))$的意思是说：$\gamma$是任意关于$x, y$的二元分布，其边缘分布则为$\tilde{p}(x)$和$q(y)$。直观来看，$\gamma$描述了一个运输方案，而$c(x,y)$则是运输成本，$W_c[\tilde{p}(x), q(x)]$就是说要找到成本最低的那个运输方案所对应的成本作为分布度量。

点击阅读全文...

分类：信息时代标签：GAN, 生成模型, 度量阅读全文 50 评论

20 Nov

不用L约束又不会梯度消失的GAN，了解一下？

By 苏剑林 | 2018-11-20 | 163812位读者 | 引用

不知道从什么时候开始，我发现我也掉到了GAN的大坑里边了，唉，争取早日能跳出来...

这篇博客介绍的是我最近提交到arxiv的一个关于GAN的新框架，里边主要介绍了一种对概率散度的新理解，并且基于这种理解推导出了一个新的GAN。整篇文章比较偏理论，对这个GAN的相关性质都做了完整的论证，自认为是一个理论完备的结果。

文章链接：https://papers.cool/arxiv/1811.07296

先摆结论：

1、论文提供了一种分析和构造概率散度的直接思路，从而简化了构建新GAN框架的过程。
2、推导出了一个称为GAN-QP的GAN框架$\eqref{eq:gan-gp-gd}$，这个GAN不需要像WGAN那样的L约束，又不会有SGAN的梯度消失问题，实验表明它至少有不逊色于、甚至优于WGAN的表现。

GAN-QP效果图

论文的实验最大做到了512x512的人脸生成（CelebA HQ），充分表明了模型的有效性（效果不算完美，但是模型特别简单）。有兴趣的朋友，欢迎继续阅读下去。

点击阅读全文...

分类：信息时代标签：概率, GAN, 生成模型, 度量阅读全文 61 评论

27 Nov

从变分编码、信息瓶颈到正态分布：论遗忘的重要性

By 苏剑林 | 2018-11-27 | 147697位读者 | 引用

这是一篇“散文”，我们来谈一下有着千丝万缕联系的三个东西：变分自编码器、信息瓶颈、正态分布。

众所周知，变分自编码器是一个很经典的生成模型，但实际上它有着超越生成模型的含义；而对于信息瓶颈，大家也许相对陌生一些，然而事实上信息瓶颈在去年也热闹了一阵子；至于正态分布，那就不用说了，它几乎跟所有机器学习领域都有或多或少的联系。

那么，当它们三个碰撞在一块时，又有什么样的故事可说呢？它们跟“遗忘”又有什么关系呢？

变分自编码器

在本博客你可以搜索到若干几篇介绍VAE的文章。下面简单回顾一下。

理论形式回顾

简单来说，VAE的优化目标是：
\begin{equation}KL(\tilde{p}(x)p(z|x)\Vert q(z)q(x|z))=\iint \tilde{p}(x)p(z|x)\log \frac{\tilde{p}(x)p(z|x)}{q(x|z)q(z)} dzdx\end{equation}
其中$q(z)$是标准正态分布，$p(z|x),q(x|z)$是条件正态分布，分别对应编码器、解码器。具体细节可以参考《变分自编码器（二）：从贝叶斯观点出发》。

点击阅读全文...

分类：信息时代标签：概率, 变分, 互信息, vae 阅读全文 55 评论

20 Jan

从Wasserstein距离、对偶理论到WGAN

By 苏剑林 | 2019-01-20 | 196146位读者 | 引用

推土机哪家强？成本最低找Wasserstein

2017年的时候笔者曾写过博文《互怼的艺术：从零直达WGAN-GP》，从一个相对通俗的角度来介绍了WGAN，在那篇文章中，WGAN更像是一个天马行空的结果，而实际上跟Wasserstein距离没有多大关系。

在本篇文章中，我们再从更数学化的视角来讨论一下WGAN。当然，本文并不是纯粹地讨论GAN，而主要侧重于Wasserstein距离及其对偶理论的理解。本文受启发于著名的国外博文《Wasserstein GAN and the Kantorovich-Rubinstein Duality》，内容跟它大体上相同，但是删除了一些冗余的部分，对不够充分或者含糊不清的地方作了补充。不管怎样，在此先对前辈及前辈的文章表示致敬。

（注：完整理解本文，应该需要多元微积分、概率论以及线性代数等基础知识。还有，本文确实长，数学公式确实多，但是，真的不复杂、不难懂，大家不要看到公式就吓怕了～）

点击阅读全文...

分类：数学研究标签：对偶, 优化, GAN, 生成模型阅读全文 83 评论

6 Mar

O-GAN：简单修改，让GAN的判别器变成一个编码器！

By 苏剑林 | 2019-03-06 | 230722位读者 | 引用

本文来给大家分享一下笔者最近的一个工作：通过简单地修改原来的GAN模型，就可以让判别器变成一个编码器，从而让GAN同时具备生成能力和编码能力，并且几乎不会增加训练成本。这个新模型被称为O-GAN（正交GAN，即Orthogonal Generative Adversarial Network），因为它是基于对判别器的正交分解操作来完成的，是对判别器自由度的最充分利用。

FFHQ线性插值效果图

Arxiv链接：https://papers.cool/arxiv/1903.01931
开源代码：https://github.com/bojone/o-gan

点击阅读全文...

分类：信息时代标签：无监督, GAN, 生成模型, 编码阅读全文 101 评论

18 Feb

恒等式 det(exp(A)) = exp(Tr(A)) 赏析

By 苏剑林 | 2019-02-18 | 60022位读者 | 引用

本文的主题是一个有趣的矩阵行列式的恒等式
\begin{equation}\det(\exp(\boldsymbol{A})) = \exp(\text{Tr}(\boldsymbol{A}))\label{eq:main}\end{equation}
这个恒等式在挺多数学和物理的计算中都出现过，笔者都在不同的文献中看到过好几次了。

注意左端是矩阵的指数，然后求行列式，这两步都是计算量非常大的运算；右端仅仅是矩阵的迹（一个标量），然后再做标量的指数。两边的计算量差了不知道多少倍，然而它们居然是相等的！这不得不说是一个神奇的事实。

所以，本文就来好好欣赏一个这个恒等式。

点击阅读全文...

分类：数学研究标签：分析, 矩阵, 行列式阅读全文 10 评论

21 Mar

细水长flow之可逆ResNet：极致的暴力美学

By 苏剑林 | 2019-03-21 | 104051位读者 | 引用

今天我们来介绍一个非常“暴力”的模型：可逆ResNet。

为什么一个模型可以可以用“暴力”来形容呢？当然是因为它确实非常暴力：它综合了很多数学技巧，活生生地（在一定约束下）把常规的ResNet模型搞成了可逆的！

标准ResNet与可逆ResNet对比图。可逆ResNet允许信息无损可逆流动，而标准ResNet在某处则存在“坍缩”现象。

模型出自《Invertible Residual Networks》，之前在机器之心也报导过。在这篇文章中，我们来简单欣赏一下它的原理和内容。

可逆模型的点滴

为什么要研究可逆ResNet模型？它有什么好处？以前没有人研究过吗？

可逆的好处

可逆意味着什么？

意味着它是信息无损的，意味着它或许可以用来做更好的分类网络，意味着可以直接用最大似然来做生成模型，而且得益于ResNet强大的能力，意味着它可能有着比之前的Glow模型更好的表现～总而言之，如果一个模型是可逆的，可逆的成本不高而且拟合能力强，那么它就有很广的用途（分类、密度估计和生成任务，等等）。

点击阅读全文...

分类：信息时代标签：分析, 流模型, flow, 生成模型阅读全文 36 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

【学习清单】最近比较重要的GAN进展论文

生成模型之味

WGAN-div：一个默默无闻的WGAN填坑者

WGAN

W距离

不用L约束又不会梯度消失的GAN，了解一下？

从变分编码、信息瓶颈到正态分布：论遗忘的重要性

变分自编码器

理论形式回顾

从Wasserstein距离、对偶理论到WGAN

O-GAN：简单修改，让GAN的判别器变成一个编码器！

恒等式 det(exp(A)) = exp(Tr(A)) 赏析

细水长flow之可逆ResNet：极致的暴力美学

可逆模型的点滴

可逆的好处

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接