包含关键字 Transformer升级之路的文章 - 科学空间|Scientific Spaces

26 Sep

数学基本技艺之23、24（上）

By 苏剑林 | 2013-09-26 | 16549位读者 | 引用

23、求解拟齐次方程$\frac{dy}{dx}=x+\frac{x^3}{y}$
24、求解拟齐次方程$\ddot{x}=x^5+x^2\dot{x}$

把这两道题目放在一起说是因为我觉得这两道题目本质上是一样的，当然，不管怎样，24题更复杂一些。在24题中，设$\dot{x}=y$，则$\ddot{x}=y\frac{dy}{dx}$，于是原方程就变成：
$$\frac{dy}{dx}=x^2+\frac{x^5}{y}$$
这样就跟23题的形式差不多了。

点击阅读全文...

分类：数学研究标签：竞赛, 微分方程, 艺术阅读全文抢沙发

10 Jun

两百万前素数之和与前两百万素数之和

By 苏剑林 | 2014-06-10 | 71273位读者 | 引用

标题说了两道比较好玩的编程题，如果读者觉得标题绕的让人眩晕的话，那么让我再说得清晰一点：

两百万前素数之和指的是所有不超过两百万的素数的和；
前两百万素数之和指的是前两百万个素数的和。

我是从子谋的blog中看到这道题目的，前一道题目是Project Euler的第10题，后一道则是我跟子谋探索着玩的。关于子谋的研究和代码，大家可以去他的blog上学习。本文分享一下我自己的想法。

点击阅读全文...

分类：数学研究标签：素数, 数论, python 阅读全文 15 评论

30 Jul

在之前的欧拉数学中，我们计算过所有素数的倒数之和，得出素数的倒数之和是发散的，从而这也是一个关于素数个数为无穷的证明。在本篇文章中，我们尝试计算所有素数之积，通过一个简单的技巧，得到素数之积的一个上限（以后我们也会计算下限），从而也得到$\pi(n)$的一个上限公式。更重要的，该估计是初等地证明Bertrand假设（说的是n与2n之间定有一个素数）的重要基础之一。本文内容部分参考自《数学天书中的证明》和《解析和概率数论导引》。

素数之积

笔者已经说过，数论的神奇之处就是它总是出人意料地把数学的不同领域联系了起来。读者很快就可以看到，本文的证明和组合数学有重要联系（但仅仅是简单的联系）。关于素数之积，我们有以下结论：

不超过$n$的所有素数之积小于$4^{n-1}$。

点击阅读全文...

分类：数学研究标签：素数, 数论阅读全文 1 评论

22 Dec

将多项式分解为两个不可约多项式之和

By 苏剑林 | 2014-12-22 | 39183位读者 | 引用

在高等代数的多项式一章中，通常会有这样的一道练习题：

证明任意有理数域上的多项式都能够表示为两个有理数域上的不可约多项式之和。

这是道简单的练习题，证明方法有多种。首先来介绍一个巧妙的证法。

一个巧妙证明

有理数域上的多项式问题等价于整数域上的多项式问题，因此，只需要对整数域上的多项式进行证明（这步转换使得我们可以使用艾森斯坦判别法）。设$f(x)$是整数域上的一个$n$次多项式：
$$f(x)=a_n x^n+a_{n-1} x^{n-1}+\dots+a_1 x+a_0$$
我们只需要注意到
$$p f(x)=\left[p f(x)+x^n+p\right]-(x^{n}+p)$$

点击阅读全文...

分类：数学研究标签：代数, 多项式, 分解阅读全文 2 评论

14 Mar

泰迪杯赛前培训之数据挖掘与建模“慢谈”

By 苏剑林 | 2017-03-14 | 32945位读者 | 引用

泰迪杯赛前培训

应广州泰迪科技公司之邀，给泰迪杯数据挖掘竞赛录制了赛前培训视频，内容基本上是各种常见的数学模型及入门用法，以一种比较独特的思路，将朴素贝叶斯、HMM、逻辑回归、组合模型、神经网络、深度学习等等串了起来。视频讲解难度为入门级，当然，真的要融合贯通所有内容，恐怕要骨灰级。

不管怎么样，简单分享一下，欢迎大家留言讨论、建议甚至批评。

PPT下载：泰迪杯赛前培训ppt.zip

视频地址：http://moodle.tipdm.com/course/view.php?id=18

分类：信息时代标签：数据挖掘阅读全文 5 评论

24 Apr

最小熵原理（二）：“当机立断”之词库构建

By 苏剑林 | 2018-04-24 | 84651位读者 | 引用

在本文，我们介绍“套路宝典”第一式——“当机立断”：1、导出平均字信息熵的概念，然后基于最小熵原理推导出互信息公式；2、并且完成词库的无监督构建、给出一元分词模型的信息熵诠释，从而展示有关生成套路、识别套路的基本方法和技巧。

这既是最小熵原理的第一个使用案例，也是整个“套路宝典”的总纲。

你练或者不练，套路就在那里，不增不减。

为什么需要词语

从上一篇文章可以看到，假设我们根本不懂中文，那么我们一开始会将中文看成是一系列“字”随机组合的字符串，但是慢慢地我们会发现上下文是有联系的，它并不是“字”的随机组合，它应该是“套路”的随机组合。于是为了减轻我们的记忆成本，我们会去挖掘一些语言的“套路”。第一个“套路”，是相邻的字之间的组合定式，这些组合定式，也就是我们理解的“词”。

平均字信息熵

假如有一批语料，我们将它分好词，以词作为中文的单位，那么每个词的信息量是$-\log p_w$，因此我们就可以计算记忆这批语料所要花费的时间为
$$-\sum_{w\in \text{语料}}\log p_w\tag{2.1}$$
这里$w\in \text{语料}$是对语料逐词求和，不用去重。如果不分词，按照字来理解，那么需要的时间为
$$-\sum_{c\in \text{语料}}\log p_c\tag{2.2}$$

点击阅读全文...

分类：信息时代标签：熵, 无监督, NLP, 最小熵阅读全文 18 评论

30 May

最小熵原理（三）：“飞象过河”之句模版和语言结构

By 苏剑林 | 2018-05-30 | 60264位读者 | 引用

在前一文《最小熵原理（二）：“当机立断”之词库构建》中，我们以最小熵原理为出发点进行了一系列的数学推导，最终得到$(2.15)$和$(2.17)$式，它告诉我们两个互信息比较大的元素我们应该将它们合并起来，这有利于降低“学习难度”。于是利用这一原理，我们通过邻字互信息来实现了词库的无监督生成。

由字到词、由词到词组，考察的是相邻的元素能不能合并成一个好“套路”。可是套路为什么非得要相邻的呢？当然不一定相邻，我们学习语言的时候，不仅仅会学习到词语、词组，还要学习到“固定搭配”，也就是说词语怎么运用才是合理的，这是语法的体现，是本文所要探究的，希望最终能达到一定的无监督句法分析的效果。

由于这次我们考虑的是跨邻词的语言关联，因此我给它起个名字为“飞象过河”，正是

“套路宝典”第二式——“飞象过河”

语言结构

对于大多数人来说，并不会真正知道什么是语法，他们脑海里就只有一些“固定搭配”、“定式”，或者更正式一点可以叫“模版”。大多数情况下，我们是根据模版来说出合理的话来。而不同的人的说话模版可能有所不同，这就是个人的说话风格，甚至是“口头禅”。

点击阅读全文...

分类：信息时代标签：熵, 无监督, NLP, 最小熵阅读全文 10 评论

11 Aug

细水长flow之NICE：流模型的基本概念与实现

By 苏剑林 | 2018-08-11 | 281471位读者 | 引用

前言：自从在机器之心上看到了glow模型之后（请看《下一个GAN？OpenAI提出可逆生成模型Glow》），我就一直对其念念不忘。现在机器学习模型层出不穷，我也经常关注一些新模型动态，但很少像glow模型那样让我怦然心动，有种“就是它了”的感觉。更意外的是，这个效果看起来如此好的模型，居然是我以前完全没有听说过的。于是我翻来覆去阅读了好几天，越读越觉得有意思，感觉通过它能将我之前的很多想法都关联起来。在此，先来个阶段总结。

背景

本文主要是《NICE: Non-linear Independent Components Estimation》一文的介绍和实现。这篇文章也是glow这个模型的基础文章之一，可以说它就是glow的奠基石。

艰难的分布

众所周知，目前主流的生成模型包括VAE和GAN，但事实上除了这两个之外，还有基于flow的模型（flow可以直接翻译为“流”，它的概念我们后面再介绍）。事实上flow的历史和VAE、GAN它们一样悠久，但是flow却鲜为人知。在我看来，大概原因是flow找不到像GAN一样的诸如“造假者-鉴别者”的直观解释吧，因为flow整体偏数学化，加上早期效果没有特别好但计算量又特别大，所以很难让人提起兴趣来。不过现在看来，OpenAI的这个好得让人惊叹的、基于flow的glow模型，估计会让更多的人投入到flow模型的改进中。

glow模型生成的高清人脸

点击阅读全文...

分类：信息时代标签：概率, 流模型, flow, 生成模型阅读全文 121 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

数学基本技艺之23、24（上）

两百万前素数之和与前两百万素数之和

素数之美1：所有素数之积

将多项式分解为两个不可约多项式之和

一个巧妙证明

泰迪杯赛前培训之数据挖掘与建模“慢谈”

最小熵原理（二）：“当机立断”之词库构建

为什么需要词语

平均字信息熵

最小熵原理（三）：“飞象过河”之句模版和语言结构

语言结构

细水长flow之NICE：流模型的基本概念与实现

背景

艰难的分布

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接