包含关键字经验分布函数的分布的文章

15 Oct

【理解黎曼几何】3. 测地线

By 苏剑林 | 2016-10-15 | 56876位读者 | 引用

测地线

黎曼度量应该是不难理解的，在微分几何的教材中，我们就已经学习过曲面的“第一基本形式”了，事实上两者是同样的东西，只不过看待问题的角度不同，微分几何是把曲面看成是三维空间中的二维子集，而黎曼几何则是从二维曲面本身内蕴地研究几何问题。

几何关心什么问题呢？事实上，几何关心的是与变换无关的“客观实体”（或者说是在变换之下不变的东西），这也是几何的定义。根据Klein提出的《埃尔朗根纲领》，几何就是研究在某种变换（群）下的不变性质的学科。如果把变换局限为刚性变换（平移、旋转、反射），那么就是欧式几何；如果变换为一般的线性变换，那就是仿射几何。而黎曼几何关心的是与一切坐标都无关的客观实体。比如说，我有一个向量，方向和大小都确定了，在直角坐标系是$(1, 1)$，在极坐标系是$(\sqrt{2}, \pi/4)$，虽然两个坐标系下的分量不同，但它们都是指代同一个向量。也就是说向量本身是客观存在的实体，跟所使用的坐标无关。从代数层面看，就是只要能够通过某种坐标变换相互得到的，我们就认为它们是同一个东西。

因此，在学习黎曼几何时，往“客观实体”方向思考，总是有益的。

平面上的测地线

有了度规，可以很自然地引入“测地线”这一实体。狭义来看，它就是两点间的最短线——是平直空间的直线段概念的推广（实际的测地线不一定是最短的，但我们先不纠结细节，而且这不妨碍我们理解它，因为测地线至少是局部最短的）。不难想到，只要两点确定了，那么不管使用什么坐标，两点间的最短线就已经确定了，因此这显然是一个客观实体。有一个简单的类比，就是不管怎么坐标变换，一个函数$f(x)$的图像极值点总是确定的——不管你变还是不变，它就在那儿，不偏不倚。

点击阅读全文...

分类：数学研究标签：几何, 黎曼几何, 变分法阅读全文抢沙发

4 Nov

【外微分浅谈】1. 绪论与启发

By 苏剑林 | 2016-11-04 | 26316位读者 | 引用

写在前面

在《理解黎曼几何》系列，笔者分享了一些黎曼几何的“几何”心得，同时遗留了一个问题：怎么真正地去算黎曼张量？MTW的《引力论》中提到了一种基于外微分的方法，可是我不熟悉外微分，遂学习了一番。确实，是《引力论》中快捷计算曲率张量的步骤让笔者决定深入了解外微分的。果然，可观的效益是第一推动力。

这系列文章主要分享一些外微分的学习心得，曾经过多次修改和完善，包含的内容很多，比如外积、活动标架、外微分及其在黎曼几何的一些应用等，最后包括一种计算曲率的有效方式。

符号说明：在本系列中，用粗体的字母表示向量、矩阵以及基底，用普通字母来表示标量，它有可能是一个标量函数，也有可能是向量的分量，如无说明，则用$n$表示空间（流形）的维度。本文中同样使用了爱因斯坦求和法则，即相同的上下指标表示$1\sim n$遍历求和，即$\alpha_{\mu}\beta^{\mu}=\sum_{\mu=1}^{n} \alpha_{\mu}\beta^{\mu}$，习惯上将下标写在前面，比如$\alpha_{\mu}\beta^{\mu}$事实上跟$\beta^{\mu}\alpha_{\mu}$等价，但习惯写成前者。常用的一些记号是：$\mu,\nu$表示分量指标，$x^{\mu}$表示点的坐标分量，$dx^{\mu}$表示切向量（微元）的分量，$\alpha,\beta,\omega$等希腊字母也常用来表示微分形式。符号的使用有重复的地方，但符号的意义基本都在符号出现的附近有说明，因此应该不至于混淆。

最后，就是笔者其实对外微分还不是特别有感觉，因此文章中可能出现谬误之处，请读者见谅并指出。本系列命名为“外微分浅谈”，不是谦虚，确实是很浅，认识得浅，说的也很浅～

点击阅读全文...

分类：数学研究标签：向量, 外微分阅读全文抢沙发

6 Nov

【外微分浅谈】5. 几何意义

By 苏剑林 | 2016-11-06 | 71448位读者 | 引用

对于前面所述的外微分，包括后面还略微涉及到的微分形式的积分，都是纯粹代数定义的内容，本身不具有任何的几何意义。但是，我们可以将某些公式或者定义，与一些几何内容对应起来，使我们更深刻地理解它，并且更灵活运用它。但是，它仅仅是一种对应，而且取决于我们的诠释。比如，我们说外微分公式
$$\int_{\partial D} Pdx+Qdy = \int_{D} \left(\frac{\partial Q}{\partial x}-\frac{\partial P}{\partial y}\right)dx\land dy \tag{32} $$
对应于格林公式
$$\int_{\partial D} Pdx+Qdy = \int_{D} \left(\frac{\partial Q}{\partial x}-\frac{\partial P}{\partial y}\right)dxdy \tag{33} $$
。这是没问题的，但它们并不等价，它们仅仅是形式上刚好一样。因为格林公式是描述闭合曲线的积分跟面积分的联系，而外微分的公式是一种纯粹的代数运算。因为你完全可以将$dx\land dy$对应于$-dxdy$而不是$dxdy$，这样就得到另外一种几何的对应。

更深刻的问题是：为什么恰好有这个对应？也就是说，为什么经过一些调整和诠释后，就能够得到与积分公式的对应？首先要明确的是外积与普通的数的乘积，除了反对称性之外，是没有任何区别的，因此不少性质得以保留；其次，还应该要回到反对称本身来考虑，矩阵的行列式代表着矩阵所对应的向量组张成的$n$维立体的体积，然而行列式是反对称的，这就意味着反对称运算跟体积、积分等有着先天的联系。当然，更细致的认识，笔者也还没做到。

此外，我们说寻求微分形式的几何意义，通常只是针对不超过3维的空间来讨论的，更高维的几何图像我们很难想象出来，尤其是高维的曲面积分，一般只是类比，但类比是否成立，有时还需要进一步商榷。因此，这种情况下，倒不如干脆点，说微分形式描述的东西就是几何，而不再去寻找所谓的几何意义了。也就是说，反过来，将微分形式和外微分作为公理式的第一性原理来定义几何。

甚至，你可以只将外微分当作是一种记忆各种微分、积分公式的有效途径，比如现在我要大家默写三维空间中的斯托克斯公式，大家估计会乱，因为不一定记得是哪个减哪个。但是在外微分框架下，可以很快地将它推导一遍。好比式$(11)$，如果非要寻求几何解释，那就是开普勒第二定律：单位时间内扫过的面积相等；然而没有几何解释，你依旧可以把方程解下去。

点击阅读全文...

分类：数学研究标签：积分, 几何, 外微分阅读全文 9 评论

6 Jan

获取并处理中文维基百科语料

By 苏剑林 | 2017-01-06 | 109990位读者 | 引用

中文语料库中，质量高而又容易获取的语料库，应该就是维基百科的中文语料了，而且维基百科相当厚道，每个月都把所有条目都打包一次（下载地址在这里：https://dumps.wikimedia.org/zhwiki/），供全世界使用，这才是真正的“取之于民，回馈于民”呀。遗憾的是，由于天朝的无理封锁，中文维基百科的条目到目前只有91万多条，而百度百科、互动百科都有千万条了（英文维基百科也有上千万了）。尽管如此，这并没有阻挡中文维基百科成为几乎是最高质量的中文语料库。（百度百科、互动百科它们只能自己用爬虫爬取，而且不少记录质量相当差，几乎都是互相复制甚至抄袭。）

门槛

尽量下载很容易，但是使用维基百科语料还是有一定门槛的。直接下载下来的维基百科语料是一个带有诸多html和markdown标记的文本压缩包，基本不能直接使用。幸好，已经有热心的高手为我们写好了处理工具，主要有两个：1、Wikipedia Extractor；2、gensim的wikicorpus库。它们都是基于python的。

然而，这两个主流的处理方法都不能让我满意。首先，Wikipedia Extractor提取出来的结果，会去掉{{}}标记的内容，这样会导致下面的情形

西方语言中“数学”（；）一词源自于古希腊语的（）

点击阅读全文...

分类：信息时代标签：维基, 语言, 语料阅读全文 22 评论

18 Feb

恒等式 det(exp(A)) = exp(Tr(A)) 赏析

By 苏剑林 | 2019-02-18 | 67766位读者 | 引用

本文的主题是一个有趣的矩阵行列式的恒等式
\begin{equation}\det(\exp(\boldsymbol{A})) = \exp(\text{Tr}(\boldsymbol{A}))\label{eq:main}\end{equation}
这个恒等式在挺多数学和物理的计算中都出现过，笔者都在不同的文献中看到过好几次了。

注意左端是矩阵的指数，然后求行列式，这两步都是计算量非常大的运算；右端仅仅是矩阵的迹（一个标量），然后再做标量的指数。两边的计算量差了不知道多少倍，然而它们居然是相等的！这不得不说是一个神奇的事实。

所以，本文就来好好欣赏一个这个恒等式。

点击阅读全文...

分类：数学研究标签：分析, 矩阵, 行列式阅读全文 12 评论

22 Feb

巧断梯度：单个loss实现GAN模型

By 苏剑林 | 2019-02-22 | 46205位读者 | 引用

我们知道普通的模型都是搭好架构，然后定义好loss，直接扔给优化器训练就行了。但是GAN不一样，一般来说它涉及有两个不同的loss，这两个loss需要交替优化。现在主流的方案是判别器和生成器都按照1:1的次数交替训练（各训练一次，必要时可以给两者设置不同的学习率，即TTUR），交替优化就意味我们需要传入两次数据（从内存传到显存）、执行两次前向传播和反向传播。

如果我们能把这两步合并起来，作为一步去优化，那么肯定能节省时间的，这也就是GAN的同步训练。

（注：本文不是介绍新的GAN，而是介绍GAN的新写法，这只是一道编程题，不是一道算法题～）

如果在TF中

点击阅读全文...

分类：信息时代标签：GAN, 生成模型, keras, 梯度阅读全文 7 评论

28 Apr

“让Keras更酷一些！”：中间变量、权重滑动和安全生成器

By 苏剑林 | 2019-04-28 | 102536位读者 | 引用

继续“让Keras更酷一些”之旅。

今天我们会用Keras实现灵活地输出任意中间变量，还有无缝地进行权重滑动平均，最后顺便介绍一下生成器的进程安全写法。

首先是输出中间变量。在自定义层时，我们可能希望查看中间变量，这些需求有些是比较容易实现的，比如查看中间某个层的输出，只需要将截止到这个层的部分模型保存为一个新模型即可，但有些需求是比较困难的，比如在使用Attention层时我们可能希望查看那个Attention矩阵的值，如果用构建新模型的方法则会非常麻烦。而本文则给出一种简单的方法，彻底满足这个需求。

接着是权重滑动平均。权重滑动平均是稳定、加速模型训练甚至提升模型效果的一种有效方法，很多大型模型（尤其是GAN）几乎都用到了权重滑动平均。一般来说权重滑动平均是作为优化器的一部分，所以一般需要重写优化器才能实现它。本文介绍一个权重滑动平均的实现，它可以无缝插入到任意Keras模型中，不需要自定义优化器。

至于生成器的进程安全写法，则是因为Keras读取生成器的时候，用到了多进程，如果生成器本身也包含了一些多进程操作，那么可能就会导致异常，所以需要解决这个这个问题。

点击阅读全文...

分类：信息时代标签：模型, 优化, keras 阅读全文 34 评论

21 Jul

思考：两个椭圆片能粘合成一个立体吗？

By 苏剑林 | 2019-07-21 | 60397位读者 | 引用

前两周又在群里看到一个颇为有趣的问题：两个同样大小的椭圆片可以沿着它们的长轴弯曲，沿着边缘线粘贴，能完美地贴合成一个封闭立体吗？问题来源于知乎《两个椭圆片可否以柱面弯曲边缘完美贴合？》。

两个椭圆片粘合图示（截取自知乎上提问的图示）

问题可以用只言片语表达清楚，甚至普通读者都能理解，而问题本身是有一定难度的，这就符合了一个漂亮的问题的条件，所以也就吸引了笔者陆陆续续思考了好多天，最终在昨天算是给出了这类问题通用的列方程思路和数值求解方案，而今天则完成了理论证明，确认两个相同椭圆片总是可以完美贴合。

点击阅读全文...

分类：数学研究标签：证明, 方程, 曲线阅读全文 12 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

【理解黎曼几何】3. 测地线

测地线

【外微分浅谈】1. 绪论与启发

写在前面

【外微分浅谈】5. 几何意义

获取并处理中文维基百科语料

门槛

恒等式 det(exp(A)) = exp(Tr(A)) 赏析

巧断梯度：单个loss实现GAN模型

如果在TF中

“让Keras更酷一些！”：中间变量、权重滑动和安全生成器

思考：两个椭圆片能粘合成一个立体吗？

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接