包含关键字 transformer升级之路1 的文章

19 Dec

太阳系是稳定的吗？

By 苏剑林 | 2010-12-19 | 25592位读者 | 引用

Greg Laughlin　文　Shea　译
转载自科学松鼠会。

当牛顿遇上“混沌”，行星的轨道会失控吗？

UnstableSS_Pendulum

点击阅读全文...

分类：天文探索标签：转载, 力学, 天体, N体问题阅读全文 1 评论

19 Apr

《教材如何写》:BoJone的粗浅看法

By 苏剑林 | 2011-04-19 | 21293位读者 | 引用

在科学空间所转载的上两篇文章中，matrix67和范翔都表达了他们对大多数现行（数学&物理）教材的不满和对编写教材的一些建议。今天，BoJone也来发发牢骚，说说教材。

首先得说明下，目前BoJone只是一个高二生，或者说，是一个爱好数学、物理的高中生，因此本文所描写的观点仅仅是个人的看法，而且应该带有诸多的不成熟看法。不论如何，谨在此提出，欢迎讨论。

BoJone认为，人类都有着追求利益的倾向，要是一样东西能够对我们有“好处”，给我们带来方便，那么我们就很乐意去拥有它，或者去学习它。数学、物理理论也应当如此，当教材编写者想要引入一个新概念或介绍一个新理论、方法时，首先要做的并不是如何从严格上定义、推导、证明、最后才去应用，而相反，他们应该要大书特书引入新概念和方法后有什么“好处”。只有了解到了它的用处之后，读者才会有明确的目的和足够的心思去进一步的学习。这一步对于一些抽象的理论的学习是很重要的，要不然，那么繁琐、枯燥的推理证明过程会抹杀掉绝大多数人的信心，纵使后来“终于”弄懂了它的用处，也兴趣倍减。说到这里，就不得不批评一下人教版数学选修教材中的一个很让人反感的做法，在《选修2-2》中它引入了复数，但仅仅简单交待了复数的加减乘除运算和模等定义后就了事，对于复数的一些精华，比如复数乘法代表着坐标旋转等，则全然不提，这样的“复数”有何意义呢？有同学问我：“学复数有什么用？”我只能回答：“就目前来说，复数的唯一作用就是增加了我们高考的负担。”

点击阅读全文...

分类：生活/情感标签：数学, 教育, 教材阅读全文 2 评论

6 Nov

王骁威：勇敢的追梦者

By 苏剑林 | 2012-11-06 | 40690位读者 | 引用

破解数学猜想

王骁威

今天在看《广州日报》时，偶然发现了一个不曾听闻的名字——王骁威。

他，跟我一样是一个90后，是韶关学院的大四学生，而现在，他多了一点名头：“仅用1表示数问题中的素数猜想”这一难题的破解者。

“仅用1表示数问题中的素数猜想”出现在加拿大数学家Richard K·Guy的著作《数论中未解决的问题》中，是上世纪50年代，加拿大数学家Richard K·Guy提出一个数论猜想：对于给定的素数p，$f(p)=f(p-1)+1$是否能成立。其中，“仅用1表示数”指的是只用1通过加法和乘法以及括号来表示自然数，对于给定的自然数n，用1来表示时，1的最少个数记为$f(n)$。据说在之前就有诸多数学家论证过，在3亿之前的素数里，上述猜想是成立的。

但是王骁威通过举出反例证否了这个命题，他指出p=353942783时这个公式并不成立。他是经过四个月的钻研，王骁威运用集合论的运算、分析、优化，才成功发现这个猜想的反例的。发现反例之后，王骁威陷入兴奋，把整理成的报告寄给国内几家杂志社，结果却令他失望，几家杂志社对他的论文均不感兴趣。“我也怀疑过自己的努力是否值得，但对数学的强烈兴趣让我坚持下来。”王骁威说自己将论文译成英文，英文名为《A counterexample to the prime conjecture of expressing numbers using just ones》（中文名为《仅用1表示数中素数猜想的一个反例》），投往全球最权威的数论杂志———美国艾斯维尔出版社的《Journal of Number Theory》（数论杂志），国外专家的青睐终于让他收获成功的喜悦，论文发表在杂志第133期（明年二月）上。数学大师丘成桐也通过邮件与王骁威交流，并对他表示肯定。

点击阅读全文...

分类：千奇百怪标签：猜想, 故事阅读全文 6 评论

20 Jun

《虚拟的实在(3)》——相对论动力学

By 苏剑林 | 2013-06-20 | 27203位读者 | 引用

半个多月没有写文章了，一是因为接近期末考了，比较忙，当然最主要的原因还是人变懒了，呵呵，别人是忙里偷闲，我是闲里偷懒了。

这篇文章主要跟大家分享一下相对论动力学的知识。我们之前已经接触过相对论的坐标变换了，接下来的任务应该是把经典力学的动力学定律改成为相对论版本的，这显然也是学习场论的必经之路——懂得如何构造力学定律的相对版版本，是懂得构造相对论性场的基础。和朗道的《力学》与《场论》一样，我们的主线就是“最小作用量原理”。让我们回忆一下，在经典力学中，一个自由粒子的作用量是

$$S_m=\int Ldt=\int \frac{1}{2} m v^2dt$$

点击阅读全文...

分类：物理化学标签：相对论, 场论, 动力学阅读全文 1 评论

7 Feb

视频演示：费曼的茶杯

By 苏剑林 | 2014-02-07 | 18902位读者 | 引用

为了形象地展示为什么有些系统需要旋转720度而不是360度才能恢复原状，费曼想到了一个“茶杯法”。看了“茶杯法”的步骤之后，我突然想起了电影《太极1》的梁小龙的一个端药镜头，正好对应着费曼的“茶杯法”，遂把镜头剪了出来，供大家欣赏。

请仔细观察梁小龙的手转了多少圈？

点击阅读全文...

分类：物理化学标签：粒子, 费曼, 自旋, 视频阅读全文抢沙发

18 Apr

最小熵原理（一）：无监督学习的原理

By 苏剑林 | 2018-04-18 | 85485位读者 | 引用

话在开头

在深度学习等端到端方案已经逐步席卷NLP的今天，你是否还愿意去思考自然语言背后的基本原理？我们常说“文本挖掘”，你真的感受到了“挖掘”的味道了吗？

无意中的邂逅

前段时间看了一篇关于无监督句法分析的文章，继而从它的参考文献中发现了论文《Redundancy Reduction as a Strategy for Unsupervised Learning》，这篇论文介绍了如何从去掉空格的英文文章中将英文单词复原。对应到中文，这不就是词库构建吗？于是饶有兴致地细读了一番，发现论文思路清晰、理论完整、结果漂亮，让人赏心悦目。

尽管现在看来，这篇论文的价值不是很大，甚至其结果可能已经被很多人学习过了，但是要注意：这是一篇1993年的论文！在PC机还没有流行的年代，就做出了如此前瞻性的研究。虽然如今深度学习流行，NLP任务越做越复杂，这确实是一大进步，但是我们对NLP原理的真正了解，还不一定超过几十年前的前辈们多少。

这篇论文是通过“去冗余”（Redundancy Reduction）来实现无监督地构建词库的，从信息论的角度来看，“去冗余”就是信息熵的最小化。无监督句法分析那篇文章也指出“信息熵最小化是无监督的NLP的唯一可行的方案”。我进而学习了一些相关资料，并且结合自己的理解思考了一番，发现这个评论确实是耐人寻味。我觉得，不仅仅是NLP，信息熵最小化很可能是所有无监督学习的根本。

点击阅读全文...

分类：信息时代标签：熵, 无监督, NLP, 最小熵阅读全文 14 评论

10 Jun

漫谈重参数：从正态分布到Gumbel Softmax

By 苏剑林 | 2019-06-10 | 224387位读者 | 引用

最近在用VAE处理一些文本问题的时候遇到了对离散形式的后验分布求期望的问题，于是沿着“离散分布 + 重参数”这个思路一直搜索下去，最后搜到了Gumbel Softmax，从对Gumbel Softmax的学习过程中，把重参数的相关内容都捋了一遍，还学到一些梯度估计的新知识，遂记录在此。

文章从连续情形出发开始介绍重参数，主要的例子是正态分布的重参数；然后引入离散分布的重参数，这就涉及到了Gumbel Softmax，包括Gumbel Softmax的一些证明和讨论；最后再讲讲重参数背后的一些故事，这主要跟梯度估计有关。

基本概念

重参数（Reparameterization）实际上是处理如下期望形式的目标函数的一种技巧：
\begin{equation}L_{\theta}=\mathbb{E}_{z\sim p_{\theta}(z)}[f(z)]\label{eq:base}\end{equation}
这样的目标在VAE中会出现，在文本GAN也会出现，在强化学习中也会出现（$f(z)$对应于奖励函数），所以深究下去，我们会经常碰到这样的目标函数。取决于$z$的连续性，它对应不同的形式：
\begin{equation}\int p_{\theta}(z) f(z)dz\,\,\,\text{(连续情形)}\qquad\qquad \sum_{z} p_{\theta}(z) f(z)\,\,\,\text{(离散情形)}\end{equation}
当然，离散情况下我们更喜欢将记号$z$换成$y$或者$c$。

点击阅读全文...

分类：数学研究标签：概率, 算法, 优化, 重参数阅读全文 94 评论

24 Jun

生成扩散模型漫谈（十九）：作为扩散ODE的GAN

By 苏剑林 | 2023-06-24 | 30483位读者 | 引用

在文章《生成扩散模型漫谈（十六）：W距离 ≤ 得分匹配》中，我们推导了Wasserstein距离与扩散模型得分匹配损失之间的一个不等式，表明扩散模型的优化目标与WGAN的优化目标在某种程度上具有相似性。而在本文，我们将探讨《MonoFlow: Rethinking Divergence GANs via the Perspective of Wasserstein Gradient Flows》中的研究成果，它进一步展示了GAN与扩散模型之间的联系：GAN实际上可以被视为在另一个时间维度上的扩散ODE！

这些发现表明，尽管GAN和扩散模型表面上是两种截然不同的生成式模型，但它们实际上存在许多相似之处，并在许多方面可以相互借鉴和参考。

思路简介

我们知道，GAN所训练的生成器是从噪声$\boldsymbol{z}$到真实样本的一个直接的确定性变换$\boldsymbol{g}_{\boldsymbol{\theta}}(\boldsymbol{z})$，而扩散模型的显著特点是“渐进式生成”，它的生成过程对应于从一系列渐变的分布$p_0(\boldsymbol{x}_0),p_1(\boldsymbol{x}_1),\cdots,p_T(\boldsymbol{x}_T)$中采样（注：在前面十几篇文章中，$\boldsymbol{x}_T$是噪声，$\boldsymbol{x}_0$是目标样本，采样过程是$\boldsymbol{x}_T\to \boldsymbol{x}_0$，但为了便于下面的表述，这里反过来改为$\boldsymbol{x}_0\to \boldsymbol{x}_T$）。看上去确实找不到多少相同之处，那怎么才能将两者联系起来呢？

点击阅读全文...

分类：信息时代标签：优化, GAN, 扩散阅读全文 14 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

太阳系是稳定的吗？

《教材如何写》:BoJone的粗浅看法

王骁威：勇敢的追梦者

《虚拟的实在(3)》——相对论动力学

视频演示：费曼的茶杯

最小熵原理（一）：无监督学习的原理

话在开头

无意中的邂逅

漫谈重参数：从正态分布到Gumbel Softmax

基本概念

生成扩散模型漫谈（十九）：作为扩散ODE的GAN

思路简介

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接