包含关键字不平衡的文章 - 科学空间|Scientific Spaces

8 Jan

从动力学角度看优化算法（三）：一个更整体的视角

By 苏剑林 | 2019-01-08 | 57953位读者 | 引用

最近把优化算法跟动力学结合起来思考得越来越起劲了，这是优化算法与动力学系列的第三篇，我有预感还会有第4篇，敬请期待～

简单来个剧情回顾：第一篇中我们指出了其实SGD相当于常微分方程（ODE）的数值解法：欧拉法；第二篇我们还是数值解法的误差分析的角度，分析了为什么可以通过梯度来调节学习率，因此也就解释了RMSprop、Adam等算法中，用梯度调节学习率的原理。

本文将给出一个更统一的观点来看待这两个事情，并且试图回答一个更本质的问题：为什么是梯度下降？

（注：本文的讨论没有涉及到动量加速部分。）

点击阅读全文...

分类：数学研究标签：微分方程, 动力学, 数值计算, 优化器阅读全文 11 评论

30 Jan

能量视角下的GAN模型（一）：GAN＝“挖坑”＋“跳坑”

By 苏剑林 | 2019-01-30 | 93371位读者 | 引用

“看那挖坑的人，有啥不一样～”

在这个系列中，我们尝试从能量的视角理解GAN。我们会发现这个视角如此美妙和直观，甚至让人拍案叫绝。

本视角直接受启发于Benjio团队的新作《Maximum Entropy Generators for Energy-Based Models》，这篇文章前几天出现在arxiv上。当然，能量模型与GAN的联系由来已久，并不是这篇文章的独创，只不过这篇文章做得仔细和完善一些。另外本文还补充了自己的一些理解和思考上去，力求更为易懂和完整。

作为第一篇文章，我们先来给出一个直白的类比推导：GAN实际上就是一场前仆后继（前挖后跳？）的“挖坑”与“跳坑”之旅～

总的来说，本文的大致内容如下：

1、给出了GAN/WGAN的清晰直观的能量图像；
2、讨论了判别器（能量函数）的训练情况和策略；
3、指出了梯度惩罚一个非常漂亮而直观的能量解释；
4、讨论了GAN中优化器的选择问题。

点击阅读全文...

分类：信息时代标签：概率, 能量, GAN, 生成模型阅读全文 33 评论

27 Jan

“让Keras更酷一些！”：随意的输出和灵活的归一化

By 苏剑林 | 2019-01-27 | 100889位读者 | 引用

继续“让Keras更酷一些！”系列，让Keras来得更有趣些吧～

这次围绕着Keras的loss、metric、权重和进度条进行展开。

可以不要输出

一般我们用Keras定义一个模型，是这样子的：

x_in = Input(shape=(784,))
x = x_in
x = Dense(100, activation='relu')(x)
x = Dense(10, activation='softmax')(x)

model = Model(x_in, x)
model.compile(loss='categorical_crossentropy ',
              optimizer='adam',
              metrics=['accuracy'])
model.fit(x_train, y_train, epochs=5)

点击阅读全文...

分类：信息时代标签：模型, 损失函数, keras 阅读全文 30 评论

20 Jan

从Wasserstein距离、对偶理论到WGAN

By 苏剑林 | 2019-01-20 | 207198位读者 | 引用

推土机哪家强？成本最低找Wasserstein

2017年的时候笔者曾写过博文《互怼的艺术：从零直达WGAN-GP》，从一个相对通俗的角度来介绍了WGAN，在那篇文章中，WGAN更像是一个天马行空的结果，而实际上跟Wasserstein距离没有多大关系。

在本篇文章中，我们再从更数学化的视角来讨论一下WGAN。当然，本文并不是纯粹地讨论GAN，而主要侧重于Wasserstein距离及其对偶理论的理解。本文受启发于著名的国外博文《Wasserstein GAN and the Kantorovich-Rubinstein Duality》，内容跟它大体上相同，但是删除了一些冗余的部分，对不够充分或者含糊不清的地方作了补充。不管怎样，在此先对前辈及前辈的文章表示致敬。

（注：完整理解本文，应该需要多元微积分、概率论以及线性代数等基础知识。还有，本文确实长，数学公式确实多，但是，真的不复杂、不难懂，大家不要看到公式就吓怕了～）

点击阅读全文...

分类：数学研究标签：对偶, 优化, GAN, 生成模型阅读全文 83 评论

6 Mar

O-GAN：简单修改，让GAN的判别器变成一个编码器！

By 苏剑林 | 2019-03-06 | 243363位读者 | 引用

本文来给大家分享一下笔者最近的一个工作：通过简单地修改原来的GAN模型，就可以让判别器变成一个编码器，从而让GAN同时具备生成能力和编码能力，并且几乎不会增加训练成本。这个新模型被称为O-GAN（正交GAN，即Orthogonal Generative Adversarial Network），因为它是基于对判别器的正交分解操作来完成的，是对判别器自由度的最充分利用。

FFHQ线性插值效果图

Arxiv链接：https://papers.cool/arxiv/1903.01931
开源代码：https://github.com/bojone/o-gan

点击阅读全文...

分类：信息时代标签：无监督, GAN, 生成模型, 编码阅读全文 101 评论

1 Mar

构造一个显式的、总是可逆的矩阵

By 苏剑林 | 2019-03-01 | 41923位读者 | 引用

从《恒等式 det(exp(A)) = exp(Tr(A)) 赏析》一文我们得到矩阵$\exp(\boldsymbol{A})$总是可逆的，它的逆就是$\exp(-\boldsymbol{A})$。问题是$\exp(\boldsymbol{A})$只是一个理论定义，单纯这样写没有什么价值，因为它要把每个$\boldsymbol{A}^n$都算出来。

有没有什么具体的例子呢？有，本文来构造一个显式的、总是可逆的矩阵。

其实思路非常简单，假设$\boldsymbol{x},\boldsymbol{y}$是两个$k$维列向量，那么$\boldsymbol{x}\boldsymbol{y}^{\top}$就是一个$k\times k$的矩阵，我们就来考虑
\begin{equation}\begin{aligned}\exp\left(\boldsymbol{x}\boldsymbol{y}^{\top}\right)=&\sum_{n=0}^{\infty}\frac{\left(\boldsymbol{x}\boldsymbol{y}^{\top}\right)^n}{n!}\\
=&\boldsymbol{I}+\boldsymbol{x}\boldsymbol{y}^{\top}+\frac{\boldsymbol{x}\boldsymbol{y}^{\top}\boldsymbol{x}\boldsymbol{y}^{\top}}{2}+\frac{\boldsymbol{x}\boldsymbol{y}^{\top}\boldsymbol{x}\boldsymbol{y}^{\top}\boldsymbol{x}\boldsymbol{y}^{\top}}{6}+\dots\end{aligned}\end{equation}

点击阅读全文...

分类：数学研究标签：矩阵, 行列式阅读全文 8 评论

10 Mar

“让Keras更酷一些！”：分层的学习率和自由的梯度

By 苏剑林 | 2019-03-10 | 98606位读者 | 引用

高举“让Keras更酷一些！”大旗，让Keras无限可能～

今天我们会用Keras做到两件很重要的事情：分层设置学习率和灵活操作梯度。

首先是分层设置学习率，这个用途很明显，比如我们在fine tune已有模型的时候，有些时候我们会固定一些层，但有时候我们又不想固定它，而是想要它以比其他层更低的学习率去更新，这个需求就是分层设置学习率了。对于在Keras中分层设置学习率，网上也有一定的探讨，结论都是要通过重写优化器来实现。显然这种方法不论在实现上还是使用上都不友好。

然后是操作梯度。操作梯度一个最直接的例子是梯度裁剪，也就是把梯度控制在某个范围内，Keras内置了这个方法。但是Keras内置的是全局的梯度裁剪，假如我要给每个梯度设置不同的裁剪方式呢？甚至我有其他的操作梯度的思路，那要怎么实施呢？不会又是重写优化器吧？

本文就来为上述问题给出尽可能简单的解决方案。

点击阅读全文...

分类：信息时代标签：模型, keras, 梯度, 学习率阅读全文 29 评论

18 Feb

恒等式 det(exp(A)) = exp(Tr(A)) 赏析

By 苏剑林 | 2019-02-18 | 64638位读者 | 引用

本文的主题是一个有趣的矩阵行列式的恒等式
\begin{equation}\det(\exp(\boldsymbol{A})) = \exp(\text{Tr}(\boldsymbol{A}))\label{eq:main}\end{equation}
这个恒等式在挺多数学和物理的计算中都出现过，笔者都在不同的文献中看到过好几次了。

注意左端是矩阵的指数，然后求行列式，这两步都是计算量非常大的运算；右端仅仅是矩阵的迹（一个标量），然后再做标量的指数。两边的计算量差了不知道多少倍，然而它们居然是相等的！这不得不说是一个神奇的事实。

所以，本文就来好好欣赏一个这个恒等式。

点击阅读全文...

分类：数学研究标签：分析, 矩阵, 行列式阅读全文 12 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

从动力学角度看优化算法（三）：一个更整体的视角

能量视角下的GAN模型（一）：GAN＝“挖坑”＋“跳坑”

“让Keras更酷一些！”：随意的输出和灵活的归一化

可以不要输出

从Wasserstein距离、对偶理论到WGAN

O-GAN：简单修改，让GAN的判别器变成一个编码器！

构造一个显式的、总是可逆的矩阵

“让Keras更酷一些！”：分层的学习率和自由的梯度

恒等式 det(exp(A)) = exp(Tr(A)) 赏析

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接