包含关键字变分自编码器的文章 - 科学空间|Scientific Spaces

15 Oct

【理解黎曼几何】3. 测地线

By 苏剑林 | 2016-10-15 | 50888位读者 | 引用

测地线

黎曼度量应该是不难理解的，在微分几何的教材中，我们就已经学习过曲面的“第一基本形式”了，事实上两者是同样的东西，只不过看待问题的角度不同，微分几何是把曲面看成是三维空间中的二维子集，而黎曼几何则是从二维曲面本身内蕴地研究几何问题。

几何关心什么问题呢？事实上，几何关心的是与变换无关的“客观实体”（或者说是在变换之下不变的东西），这也是几何的定义。根据Klein提出的《埃尔朗根纲领》，几何就是研究在某种变换（群）下的不变性质的学科。如果把变换局限为刚性变换（平移、旋转、反射），那么就是欧式几何；如果变换为一般的线性变换，那就是仿射几何。而黎曼几何关心的是与一切坐标都无关的客观实体。比如说，我有一个向量，方向和大小都确定了，在直角坐标系是$(1, 1)$，在极坐标系是$(\sqrt{2}, \pi/4)$，虽然两个坐标系下的分量不同，但它们都是指代同一个向量。也就是说向量本身是客观存在的实体，跟所使用的坐标无关。从代数层面看，就是只要能够通过某种坐标变换相互得到的，我们就认为它们是同一个东西。

因此，在学习黎曼几何时，往“客观实体”方向思考，总是有益的。

平面上的测地线

有了度规，可以很自然地引入“测地线”这一实体。狭义来看，它就是两点间的最短线——是平直空间的直线段概念的推广（实际的测地线不一定是最短的，但我们先不纠结细节，而且这不妨碍我们理解它，因为测地线至少是局部最短的）。不难想到，只要两点确定了，那么不管使用什么坐标，两点间的最短线就已经确定了，因此这显然是一个客观实体。有一个简单的类比，就是不管怎么坐标变换，一个函数$f(x)$的图像极值点总是确定的——不管你变还是不变，它就在那儿，不偏不倚。

点击阅读全文...

分类：数学研究标签：几何, 黎曼几何, 变分法阅读全文抢沙发

2 Nov

【理解黎曼几何】8. 处处皆几何 (力学几何化)

By 苏剑林 | 2016-11-02 | 52324位读者 | 引用

黎曼几何在广义相对论中的体现和应用，虽然不能说家喻户晓，但想必大部分读者都有所听闻。一谈到黎曼几何在物理学中的应用，估计大家的第一反应就是广义相对论。常见的观点是，广义相对论的发现大大推动了黎曼几何的发展。诚然，这是事实，然而，大多数人不知道的事，哪怕经典的牛顿力学中，也有黎曼几何的身影。

本文要谈及的内容，就是如何将力学几何化，从而使用黎曼几何的概念来描述它们。整个过程事实上是提供了一种框架，它可以将不少其他领域的理论纳入到黎曼几何体系中。

黎曼几何的出发点就是黎曼度量，通过黎曼度量可以通过变分得到测地线。从这个意义上来看，黎曼度量提供了一个变分原理。那反过来，一个变分原理，能不能提供一个黎曼度量呢？众所周知，不少学科的基础原理都可以归结为一个极值原理，而有了极值原理就不难导出变分原理（泛函极值），如物理中就有最小作用量原理、最小势能原理，概率论中有最大熵原理，等等。如果有一个将变分原理导出黎曼度量的方法，那么就可以用几何的方式来描述它。幸运的是，对于二次型的变分原理，是可以做到的。

点击阅读全文...

分类：数学研究,物理化学标签：力学, 几何, 作用量, 黎曼几何阅读全文 6 评论

19 Oct

【理解黎曼几何】6. 曲率的计数与计算(Python)

By 苏剑林 | 2016-10-19 | 48106位读者 | 引用

曲率的独立分量

黎曼曲率张量是一个非常重要的张量，当且仅当它全部分量为0时，空间才是平直的。它也出现在爱因斯坦的场方程中。总而言之，只要涉及到黎曼几何，黎曼曲率张量就必然是核心内容。

已经看到，黎曼曲率张量有4个指标，这也意味着它有$n^4$个分量，$n$是空间的维数。那么在2、3、4维空间中，它就有16、81、256个分量了，可见，要计算它，是一件相当痛苦的事情。幸好，这个张量有很多的对称性质，使得独立分量的数目大大减少，我们来分析这一点。

首先我们来导出黎曼曲率张量的一些对称性质，这部分内容是跟经典教科书是一致的。定义
$$R_{\mu\alpha\beta\gamma}=g_{\mu\nu}R^{\nu}_{\alpha\beta\gamma} \tag{50} $$
定义这个量的原因，要谈及逆变张量和协变张量的区别，我们这里主要关心几何观，因此略过对张量的详细分析。这个量被称为完全协变的黎曼曲率张量，有时候也直接叫做黎曼曲率张量，只要不至于混淆，一般不做区分。通过略微冗长的代数运算（在一般的微分几何、黎曼几何或者广义相对论教材中都有），可以得到
$$\begin{aligned}&R_{\mu\alpha\beta\gamma}=-R_{\mu\alpha\gamma\beta}\\
&R_{\mu\alpha\beta\gamma}=-R_{\alpha\mu\beta\gamma}\\
&R_{\mu\alpha\beta\gamma}=R_{\beta\gamma\mu\alpha}\\
&R_{\mu\alpha\beta\gamma}+R_{\mu\beta\gamma\alpha}+R_{\mu\gamma\alpha\beta}=0
\end{aligned} \tag{51} $$

点击阅读全文...

分类：数学研究标签：几何, 曲率, python, 黎曼几何, 排列组合阅读全文 3 评论

29 Sep

f-GAN简介：GAN模型的生产车间

By 苏剑林 | 2018-09-29 | 128737位读者 | 引用

今天介绍一篇比较经典的工作，作者命名为f-GAN，他在文章中给出了通过一般的$f$散度来构造一般的GAN的方案。可以毫不夸张地说，这论文就是一个GAN模型的“生产车间”，它一般化的囊括了很多GAN变种，并且可以启发我们快速地构建新的GAN变种（当然有没有价值是另一回事，但理论上是这样）。

局部变分

整篇文章对$f$散度的处理事实上在机器学习中被称为“局部变分方法”，它是一种非常经典且有用的估算技巧。事实上本文将会花大部分篇幅介绍这种估算技巧在$f$散度中的应用结果。至于GAN，只不过是这个结果的基本应用而已。

f散度

首先我们还是对$f$散度进行基本的介绍。所谓$f$散度，是KL散度的一般化：
$$\begin{equation}\mathcal{D}_f(P\Vert Q) = \int q(x) f\left(\frac{p(x)}{q(x)}\right)dx\label{eq:f-div}\end{equation}$$
注意，按照通用的约定写法，括号内是$p/q$而不是$q/p$，大家不要自然而言地根据KL散度的形式以为是$q/p$。

点击阅读全文...

分类：数学研究,信息时代标签：变分, GAN, 推断, 生成模型阅读全文 53 评论

22 Oct

RSGAN：对抗模型中的“图灵测试”思想

By 苏剑林 | 2018-10-22 | 109679位读者 | 引用

这两天无意间发现一个非常有意义的工作，称为“相对GAN”，简称RSGAN，来自文章《The relativistic discriminator: a key element missing from standard GAN》，据说该文章还得到了GAN创始人Goodfellow的点赞。这篇文章提出了用相对的判别器来取代标准GAN原有的判别器，使得生成器的收敛更为迅速，训练更为稳定。

可惜的是，这篇文章仅仅从训练和实验角度对结果进行了论述，并没有进行更深入的分析，以至于不少人觉得这只是GAN训练的一个trick。但是在笔者来看，RSGAN具有更为深刻的含义，甚至可以看成它已经开创了一个新的GAN流派。所以，笔者决定对RSGAN模型及其背后的内涵做一个基本的介绍。不过需要指出的是，除了结果一样之外，本文的介绍过程跟原论文相比几乎没有重合之处。

“图灵测试”思想

SGAN

SGAN就是标准的GAN（Standard GAN）。就算没有做过GAN研究的读者，相信也从各种渠道了解到GAN的大概原理：“造假者”不断地进行造假，试图愚弄“鉴别者”；“鉴别者”不断提高鉴别技术，以分辨出真品和赝品。两者相互竞争，共同进步，直到“鉴别者”无法分辨出真、赝品了，“造假者”就功成身退了。

在建模时，通过交替训练实现这个过程：固定生成器，训练一个判别器（二分类模型），将真实样本输出1，将伪造样本输出0；然后固定判别器，训练生成器让伪造样本尽可能输出1，后面这一步不需要真实样本参与。

问题所在

然而，这个建模过程似乎对判别器的要求过于苛刻了，因为判别器是孤立运作的：训练生成器时，真实样本没有参与，所以判别器必须把关于真实样本的所有属性记住，这样才能指导生成器生成更真实的样本。

点击阅读全文...

分类：信息时代标签：概率, 无监督, GAN, 生成模型阅读全文 37 评论

20 Nov

不用L约束又不会梯度消失的GAN，了解一下？

By 苏剑林 | 2018-11-20 | 150903位读者 | 引用

不知道从什么时候开始，我发现我也掉到了GAN的大坑里边了，唉，争取早日能跳出来...

这篇博客介绍的是我最近提交到arxiv的一个关于GAN的新框架，里边主要介绍了一种对概率散度的新理解，并且基于这种理解推导出了一个新的GAN。整篇文章比较偏理论，对这个GAN的相关性质都做了完整的论证，自认为是一个理论完备的结果。

文章链接：https://papers.cool/arxiv/1811.07296

先摆结论：

1、论文提供了一种分析和构造概率散度的直接思路，从而简化了构建新GAN框架的过程。
2、推导出了一个称为GAN-QP的GAN框架$\eqref{eq:gan-gp-gd}$，这个GAN不需要像WGAN那样的L约束，又不会有SGAN的梯度消失问题，实验表明它至少有不逊色于、甚至优于WGAN的表现。

GAN-QP效果图

论文的实验最大做到了512x512的人脸生成（CelebA HQ），充分表明了模型的有效性（效果不算完美，但是模型特别简单）。有兴趣的朋友，欢迎继续阅读下去。

点击阅读全文...

分类：信息时代标签：概率, GAN, 生成模型, 度量阅读全文 61 评论

3 May

从动力学角度看优化算法（四）：GAN的第三个阶段

By 苏剑林 | 2019-05-03 | 80091位读者 | 引用

在对GAN的学习和思考过程中，我发现我不仅学习到了一种有效的生成模型，而且它全面地促进了我对各种模型各方面的理解，比如模型的优化和理解视角、正则项的意义、损失函数与概率分布的联系、概率推断等等。GAN不单单是一个“造假的玩具”，而是具有深刻意义的概率模型和推断方法。

作为事后的总结，我觉得对GAN的理解可以粗糙地分为三个阶段：

1、样本阶段：在这个阶段中，我们了解了GAN的“鉴别者-造假者”诠释，懂得从这个原理出发来写出基本的GAN公式（如原始GAN、LSGAN），比如判别器和生成器的loss，并且完成简单GAN的训练；同时，我们知道GAN有能力让图片更“真”，利用这个特性可以把GAN嵌入到一些综合模型中。
2、分布阶段：在这个阶段中，我们会从概率分布及其散度的视角来分析GAN，典型的例子是WGAN和f-GAN，同时能基本理解GAN的训练困难问题，比如梯度消失和mode collapse等，甚至能基本地了解变分推断，懂得自己写出一些概率散度，继而构造一些新的GAN形式。
3、动力学阶段：在这个阶段中，我们开始结合优化器来分析GAN的收敛过程，试图了解GAN是否能真的达到理论的均衡点，进而理解GAN的loss和正则项等因素如何影响的收敛过程，由此可以针对性地提出一些训练策略，引导GAN模型到达理论均衡点，从而提高GAN的效果。

点击阅读全文...

分类：信息时代标签：微分方程, 动力学, GAN, 生成模型, 优化器阅读全文 24 评论

6 Jul

你跳绳的时候，想过绳子的形状曲线是怎样的吗？

By 苏剑林 | 2019-07-06 | 41720位读者 | 引用

前几天，好几个数学/物理群都在转发李永乐老师发在他微博里的一道题：

绳子固定在杆上旋转的曲线问题

想起好久没有做数学物理题了，所以我也思考了一下，也搜了一些资料，在此与大家分享一下。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

【理解黎曼几何】3. 测地线

测地线

【理解黎曼几何】8. 处处皆几何 (力学几何化)

【理解黎曼几何】6. 曲率的计数与计算(Python)

曲率的独立分量

f-GAN简介：GAN模型的生产车间

局部变分

f散度

RSGAN：对抗模型中的“图灵测试”思想

“图灵测试”思想

SGAN

问题所在

不用L约束又不会梯度消失的GAN，了解一下？

从动力学角度看优化算法（四）：GAN的第三个阶段

你跳绳的时候，想过绳子的形状曲线是怎样的吗？

相关内容

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接