包含关键字分层学习率的文章 - 科学空间|Scientific Spaces

17 Nov

[转载] 做数学一定要是天才吗？

By 苏剑林 | 2014-11-17 | 28518位读者 | 引用

（译自陶哲轩博客, 译者 liuxiaochuang）
（英文原文：Does one have to be a genius to do maths?）

这个问题的回答是一个大写的：不！为了达到对数学有一个良好的，有意义的贡献的目的，人们必须要刻苦努力；学好自己的领域，掌握一些其他领域的知识和工具；多问问题；多与其他数学工作者交流；要对数学有个宏观的把握。当然，一定水平的才智，耐心的要求，以及心智上的成熟性是必须的。但是，数学工作者绝不需要什么神奇的“天才”的基因，什么天生的洞察能力；不需要什么超自然的能力使自己总有灵感去出人意料的解决难题。

大众对数学家的形象有一个错误的认识：这些人似乎都使孤单离群的（甚至有一点疯癫）天才。他们不去关注其他同行的工作，不按常规的方式思考。他们总是能够获得无法解释的灵感（或者经过痛苦的挣扎之后突然获得），然后在所有的专家都一筹莫展的时候，在某个重大的问题上取得了突破的进展。这样浪漫的形象真够吸引人的，可是至少在现代数学学科中，这样的人或事是基本没有的。在数学中，我们的确有很多惊人的结论，深刻的定理，但是那都是经过几年，几十年，甚至几个世纪的积累，在很多优秀的或者伟大的数学家的努力之下一点一点得到的。每次从一个层次到另一个层次的理解加深的确都很不平凡，有些甚至是非常的出人意料。但尽管如此，这些成就也无不例外的建立在前人工作的基础之上，并不是全新的。（例如， Wiles 解决费马最后定理的工作，或者Perelman 解决庞加莱猜想的工作。）

点击阅读全文...

分类：千奇百怪标签：转载阅读全文 2 评论

16 Apr

采样定理：有限个点构建出整个函数

By 苏剑林 | 2015-04-16 | 30601位读者 | 引用

假设我们在听一首歌，那么听完这首歌之后，我们实际上在做这样的一个过程：耳朵接受了一段时间内的声波刺激，从而引起了大脑活动的变化。而这首歌，也就是这段时间内的声波，可以用时间$t$的函数$f(t)$描述，这个函数的区间是有限的，比如$t\in[0,T]$。接着假设另外一个场景——我们要用电脑录下我们唱的歌。这又是怎样一个过程呢？要注意电脑的信号是离散化的，而声波是连续的，因此，电脑要把歌曲记录下来，只能对信号进行采样记录。原则上来说，采集的点越多，就能够越逼真地还原我们的歌声。可是有一个问题，采集多少点才足够呢？在信息论中，一个著名的“采样定理”（又称香农采样定理，奈奎斯特采样定理）告诉我们：只需要采集有限个样本点，就能够完整地还原我们的输入信号来！

采集有限个点就能够还原一个连续的函数？这是怎么做到的？下面我们来解释这个定理。

任意给定一个函数，一般来说我们都可以将它做傅里叶变换：
$$F(\omega)=\int_{-\infty}^{+\infty} f(t)e^{i\omega t}dt\tag{1}$$
虽然我们的积分限写了正负无穷，但是由于$f(t)$是有限区间内的函数，所以上述积分区间实际上是有限的。

点击阅读全文...

分类：数学研究标签：积分, fourier, 采样阅读全文 3 评论

5 Oct

2015诺贝尔医学奖：中国人在内

By 苏剑林 | 2015-10-05 | 23964位读者 | 引用

很久没有写过关于诺贝尔奖的消息了，最初几年都会非常关注，一有更新就转载到博客上面，而最近几年都仅仅是关注一下名单，并没有在博客上更新。这一次突然更新，是因为看到首次在诺贝尔医学奖上有了中国人的名字——屠呦呦，就来简单写写，算是与民同乐吧。

2015年诺贝尔医学奖

诺贝尔奖官方网址：http://www.nobelprize.org/nobel_prizes/medicine/laureates/2015/tu-facts.html

点击阅读全文...

分类：千奇百怪标签：诺贝尔奖专题阅读全文 1 评论

13 Nov

ARXIV数学论文分布：偏微分方程最热门！

By 苏剑林 | 2015-11-13 | 31364位读者 | 引用

笔者成功地保研到了中山大学的基础数学专业，这个专业自然是比较理论性的，虽然如此，我还会保持着我对数据分析、计算机等方面的兴趣。这几天兴致来了，想做一下结合我的专业跟数据挖掘相结合的研究，所以就爬取了ARXIV上面近五年（2010年到2014年）的数学论文（包含的数据有：标题、分类、年份、月份），想对这几年来数学的“行情”做一下简单的分析。个人认为，ARVIX作为目前全球最大的论文预印本的电子数据库，对它的数据进行分析，所得到的结论是能够具有一定的代表性的。

当然，本文只是用来练手爬虫和基本数据分析的文章，并没有挖掘出特别有价值的信息。文末附录了笔者爬取到的数据，供有兴趣的读者进一步分析研究。

整体情况

这五年来，ARXIV的数学论文总数为135009篇，平均每年27000篇，或者每天74篇。

点击阅读全文...

分类：信息时代标签：python, 数据挖掘阅读全文 2 评论

1 Dec

“熵”不起：从熵、最大熵原理到最大熵模型（一）

By 苏剑林 | 2015-12-01 | 81913位读者 | 引用

熵的概念

作为一名物理爱好者，我一直对统计力学中“熵”这个概念感到神秘和好奇。因此，当我接触数据科学的时候，我也对最大熵模型产生了浓厚的兴趣。

熵是什么？在通俗的介绍中，熵一般有两种解释：（1）熵是不确定性的度量；（2）熵是信息的度量。看上去说的不是一回事，其实它们说的就是同一个意思。首先，熵是不确定性的度量，它衡量着我们对某个事物的“无知程度”。熵为什么又是信息的度量呢？既然熵代表了我们对事物的无知，那么当我们从“无知”到“完全认识”这个过程中，就会获得一定的信息量，我们开始越无知，那么到达“完全认识”时，获得的信息量就越大，因此，作为不确定性的度量的熵，也可以看作是信息的度量，说准确点，是我们能从中获得的最大的信息量。

点击阅读全文...

分类：数学研究标签：概率, 最大熵, 熵阅读全文 13 评论

6 Dec

人生苦短，我用Python！

By 苏剑林 | 2015-12-06 | 56661位读者 | 引用

Python数据分析与挖掘实战

暑假的时候，应泰迪公司之约，我为他们的书《MATLAB数据挖掘与挖掘实战》编写了姊妹版：《Python数据挖掘与挖掘实战》（还有一个姊妹版是R语言的），主要的工作内容就是编写Python的介绍，以及把书上的MATLAB代码翻译为Python版本的。我欣然接受了，一来可以兼职赚点零花钱，二来可以系统地训练一下自身的Python编程，再则，还可以体验一次MATLAB、R、Python的大PK。现在书本已经正式发行，亚马逊、当当、京东、淘宝都可以找到，我也很荣幸被列为作者之一，于是这便算是我出版的第一本书了。

点击阅读全文...

分类：信息时代标签：python, 数据挖掘阅读全文 11 评论

11 Dec

“熵”不起：从熵、最大熵原理到最大熵模型（二）

By 苏剑林 | 2015-12-11 | 83653位读者 | 引用

上集回顾

在第一篇中，笔者介绍了“熵”这个概念，以及它的一些来龙去脉。熵的公式为
$$S=-\sum_x p(x)\log p(x)\tag{1}$$
或
$$S=-\int p(x)\log p(x) dx\tag{2}$$
并且在第一篇中，我们知道熵既代表了不确定性，又代表了信息量，事实上它们是同一个概念。

说完了熵这个概念，接下来要说的是“最大熵原理”。最大熵原理告诉我们，当我们想要得到一个随机事件的概率分布时，如果没有足够的信息能够完全确定这个概率分布（可能是不能确定什么分布，也可能是知道分布的类型，但是还有若干个参数没确定），那么最为“保险”的方案是选择使得熵最大的分布。

最大熵原理

承认我们的无知

很多文章在介绍最大熵原理的时候，会引用一句著名的句子——“不要把鸡蛋放在同一个篮子里”——来通俗地解释这个原理。然而，笔者窃以为这句话并没有抓住要点，并不能很好地体现最大熵原理的要义。笔者认为，对最大熵原理更恰当的解释是：承认我们的无知！

点击阅读全文...

分类：数学研究标签：概率, 极值, 最大熵, 熵阅读全文 19 评论

20 Feb

熵的形象来源与熵的妙用

By 苏剑林 | 2016-02-20 | 31118位读者 | 引用

在拙作《“熵”不起：从熵、最大熵原理到最大熵模型（一）》中，笔者从比较“专业”的角度引出了熵，并对熵做了诠释。当然，熵作为不确定性的度量，应该具有更通俗、更形象的来源，本文就是试图补充这一部分，并由此给出一些妙用。

熵的形象来源

我们考虑由0-9这十个数字组成的自然数，如果要求小于10000的话，那么很自然有10000个，如果我们说“某个小于10000的自然数”，那么0～9999都有可能出现，那么10000便是这件事的不确定性的一个度量。类似地，考虑$n$个不同元素（可重复使用）组成的长度为$m$的序列，那么这个序列有$n^m$种情况，这时$n^m$也是这件事情的不确定性的度量。

$n^m$是指数形式的，数字可能异常地大，因此我们取了对数，得到$m\log n$，这也可以作为不确定性的度量，它跟我们原来熵的定义是一致的。因为
$$m\log n=-\sum_{i=1}^{n^m} \frac{1}{n^m}\log \frac{1}{n^m}$$

读者可能会疑惑，$n^m$和$m\log n$都算是不确定性的度量，那么究竟是什么原因决定了我们用$m\log n$而不是用$n^m$呢？答案是可加性。取对数后的度量具有可加性，方便我们运算。当然，可加性只是便利的要求，并不是必然的。如果使用$n^m$形式，那么就相应地具有可乘性。

点击阅读全文...

分类：数学研究标签：信息, 熵阅读全文 3 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

[转载] 做数学一定要是天才吗？

采样定理：有限个点构建出整个函数

2015诺贝尔医学奖：中国人在内

ARXIV数学论文分布：偏微分方程最热门！

整体情况

“熵”不起：从熵、最大熵原理到最大熵模型（一）

熵的概念

人生苦短，我用Python！

“熵”不起：从熵、最大熵原理到最大熵模型（二）

上集回顾

最大熵原理

承认我们的无知

熵的形象来源与熵的妙用

熵的形象来源

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接