包含关键字让Keras更酷一些的文章 - 科学空间|Scientific Spaces

26 Dec

【学习清单】最近比较重要的GAN进展论文

By 苏剑林 | 2018-12-26 | 66284位读者 | 引用

这篇文章简单列举一下我认为最近这段时间中比较重要的GAN进展论文，这基本也是我在学习GAN的过程中主要去研究的论文清单。

生成模型之味

GAN是一个大坑，尤其像我这样的业余玩家，一头扎进去很久也很难有什么产出，尤其是各个大公司拼算力搞出来一个个大模型，个人几乎都没法玩了。但我总觉得，真的去碰了生成模型，才觉得自己碰到了真正的机器学习。这一点，不管在图像中还是文本中都是如此。所以，我还是愿意去关注生成模型。

当然，GAN不是生成模型的唯一选择，却是一个非常有趣的选择。在图像中至少有GAN、flow、pixelrnn/pixelcnn这几种选择，但要说潜力，我还是觉得GAN才是最具前景的，不单是因为效果，主要是因为它那对抗的思想。而在文本中，事实上seq2seq机制就是一个概率生成模型了，而pixelrnn这类模型，实际上就是模仿着seq2seq来做的，当然也有用GAN做文本生成的研究（不过基本上都涉及到了强化学习）。也就是说，其实在NLP中，生成模型也有很多成果，哪怕你主要是研究NLP的，也终将碰到生成模型。

好了，话不多说，还是赶紧把清单列一列，供大家参考，也作为自己的备忘。

点击阅读全文...

分类：信息时代标签：学习, GAN, 生成模型阅读全文 12 评论

15 Feb

能量视角下的GAN模型（二）：GAN＝“分析”＋“采样”

By 苏剑林 | 2019-02-15 | 132984位读者 | 引用

在这个系列中，我们尝试从能量的视角理解GAN。我们会发现这个视角如此美妙和直观，甚至让人拍案叫绝。

上一篇文章里，我们给出了一个直白而用力的能量图景，这个图景可以让我们轻松理解GAN的很多内容，换句话说，通俗的解释已经能让我们完成大部分的理解了，并且把最终的结论都已经写了出来。在这篇文章中，我们继续从能量的视角理解GAN，这一次，我们争取把前面简单直白的描述，用相对严密的数学语言推导一遍。

跟第一篇文章一样，对于笔者来说，这个推导过程依然直接受启发于Bengio团队的新作《Maximum Entropy Generators for Energy-Based Models》。

原作者的开源实现：https://github.com/ritheshkumar95/energy_based_generative_models

本文的大致内容如下：

1、推导了能量分布下的正负相对抗的更新公式；
2、比较了理论分析与实验采样的区别，而将两者结合便得到了GAN框架；
3、导出了生成器的补充loss，理论上可以防止mode collapse；
4、简单提及了基于能量函数的MCMC采样。

点击阅读全文...

分类：信息时代标签：概率, 能量, GAN, 生成模型阅读全文 46 评论

20 Nov

不用L约束又不会梯度消失的GAN，了解一下？

By 苏剑林 | 2018-11-20 | 172463位读者 | 引用

不知道从什么时候开始，我发现我也掉到了GAN的大坑里边了，唉，争取早日能跳出来...

这篇博客介绍的是我最近提交到arxiv的一个关于GAN的新框架，里边主要介绍了一种对概率散度的新理解，并且基于这种理解推导出了一个新的GAN。整篇文章比较偏理论，对这个GAN的相关性质都做了完整的论证，自认为是一个理论完备的结果。

文章链接：https://papers.cool/arxiv/1811.07296

先摆结论：

1、论文提供了一种分析和构造概率散度的直接思路，从而简化了构建新GAN框架的过程。
2、推导出了一个称为GAN-QP的GAN框架$\eqref{eq:gan-gp-gd}$，这个GAN不需要像WGAN那样的L约束，又不会有SGAN的梯度消失问题，实验表明它至少有不逊色于、甚至优于WGAN的表现。

GAN-QP效果图

论文的实验最大做到了512x512的人脸生成（CelebA HQ），充分表明了模型的有效性（效果不算完美，但是模型特别简单）。有兴趣的朋友，欢迎继续阅读下去。

点击阅读全文...

分类：信息时代标签：概率, GAN, 生成模型, 度量阅读全文 61 评论

2 Dec

最小熵原理（四）：“物以类聚”之从图书馆到词向量

By 苏剑林 | 2018-12-02 | 95472位读者 | 引用

从第一篇看下来到这里，我们知道所谓“最小熵原理”就是致力于降低学习成本，试图用最小的成本完成同样的事情。所以整个系列就是一个“偷懒攻略”。那偷懒的秘诀是什么呢？答案是“套路”，所以本系列又称为“套路宝典”。

本篇我们介绍图书馆里边的套路。

先抛出一个问题：词向量出现在什么时候？是2013年Mikolov的Word2Vec？还是是2003年Bengio大神的神经语言模型？都不是，其实词向量可以追溯到千年以前，在那古老的图书馆中...

图书馆一角（图片来源于百度搜索）

走进图书馆

图书馆里有词向量？还是千年以前？在哪本书？我去借来看看。

放书的套路

其实不是哪本书，而是放书的套路。

很明显，图书馆中书的摆放是有“套路”的：它们不是随机摆放的，而是分门别类地放置的，比如数学类放一个区，文学类放一个区，计算机类也放一个区；同一个类也有很多子类，比如数学类中，数学分析放一个子区，代数放一个子区，几何放一个子区，等等。读者是否思考过，为什么要这么分类放置？分类放置有什么好处？跟最小熵又有什么关系？

点击阅读全文...

分类：信息时代标签：熵, 聚类, 词向量, 无监督, 最小熵阅读全文 20 评论

8 Jan

从动力学角度看优化算法（三）：一个更整体的视角

By 苏剑林 | 2019-01-08 | 59915位读者 | 引用

最近把优化算法跟动力学结合起来思考得越来越起劲了，这是优化算法与动力学系列的第三篇，我有预感还会有第4篇，敬请期待～

简单来个剧情回顾：第一篇中我们指出了其实SGD相当于常微分方程（ODE）的数值解法：欧拉法；第二篇我们还是数值解法的误差分析的角度，分析了为什么可以通过梯度来调节学习率，因此也就解释了RMSprop、Adam等算法中，用梯度调节学习率的原理。

本文将给出一个更统一的观点来看待这两个事情，并且试图回答一个更本质的问题：为什么是梯度下降？

（注：本文的讨论没有涉及到动量加速部分。）

点击阅读全文...

分类：数学研究标签：微分方程, 动力学, 数值计算, 优化器阅读全文 11 评论

30 Jan

能量视角下的GAN模型（一）：GAN＝“挖坑”＋“跳坑”

By 苏剑林 | 2019-01-30 | 97158位读者 | 引用

“看那挖坑的人，有啥不一样～”

在这个系列中，我们尝试从能量的视角理解GAN。我们会发现这个视角如此美妙和直观，甚至让人拍案叫绝。

本视角直接受启发于Benjio团队的新作《Maximum Entropy Generators for Energy-Based Models》，这篇文章前几天出现在arxiv上。当然，能量模型与GAN的联系由来已久，并不是这篇文章的独创，只不过这篇文章做得仔细和完善一些。另外本文还补充了自己的一些理解和思考上去，力求更为易懂和完整。

作为第一篇文章，我们先来给出一个直白的类比推导：GAN实际上就是一场前仆后继（前挖后跳？）的“挖坑”与“跳坑”之旅～

总的来说，本文的大致内容如下：

1、给出了GAN/WGAN的清晰直观的能量图像；
2、讨论了判别器（能量函数）的训练情况和策略；
3、指出了梯度惩罚一个非常漂亮而直观的能量解释；
4、讨论了GAN中优化器的选择问题。

点击阅读全文...

分类：信息时代标签：概率, 能量, GAN, 生成模型阅读全文 33 评论

20 Jan

从Wasserstein距离、对偶理论到WGAN

By 苏剑林 | 2019-01-20 | 214763位读者 | 引用

推土机哪家强？成本最低找Wasserstein

2017年的时候笔者曾写过博文《互怼的艺术：从零直达WGAN-GP》，从一个相对通俗的角度来介绍了WGAN，在那篇文章中，WGAN更像是一个天马行空的结果，而实际上跟Wasserstein距离没有多大关系。

在本篇文章中，我们再从更数学化的视角来讨论一下WGAN。当然，本文并不是纯粹地讨论GAN，而主要侧重于Wasserstein距离及其对偶理论的理解。本文受启发于著名的国外博文《Wasserstein GAN and the Kantorovich-Rubinstein Duality》，内容跟它大体上相同，但是删除了一些冗余的部分，对不够充分或者含糊不清的地方作了补充。不管怎样，在此先对前辈及前辈的文章表示致敬。

（注：完整理解本文，应该需要多元微积分、概率论以及线性代数等基础知识。还有，本文确实长，数学公式确实多，但是，真的不复杂、不难懂，大家不要看到公式就吓怕了～）

点击阅读全文...

分类：数学研究标签：对偶, 优化, GAN, 生成模型阅读全文 83 评论

14 Mar