包含关键字自然极值的文章 - 科学空间|Scientific Spaces

15 Jul

漫话模型|模型与选芒果

By 苏剑林 | 2015-07-15 | 40883位读者 | 引用

很多人觉得“模型”、“大数据”、“机器学习”这些字眼很高大很神秘，事实上，它跟我们生活中选水果差不了多少。本文用了几千字，来试图教会大家怎么选芒果...

模型的比喻

芒果

假如我要从一批芒果中，找出好吃的那个来。而我不能直接切开芒果尝尝，所以我只能观察芒果，能观察到的量有颜色、表面的气味、大小等等，这些就是我们能够收集到的信息（特征）。

生活中还要很多这样的例子，比如买火柴（可能年轻的城里人还没见过火柴？），如何判断一盒火柴的质量？难道要每根火柴都划划，看看着不着火？显然不行，我们最多也只能划几根，全部划了，火柴也不成火柴了。当然，我们还能看看火柴的样子，闻闻火柴的气味，这些动作是可以接受的。

点击阅读全文...

分类：信息时代标签：模型, 机器学习阅读全文 4 评论

4 Aug

文本情感分类（二）：深度学习模型

By 苏剑林 | 2015-08-04 | 649005位读者 | 引用

语言处理

在《文本情感分类（一）：传统模型》一文中，笔者简单介绍了进行文本情感分类的传统思路。传统的思路简单易懂，而且稳定性也比较强，然而存在着两个难以克服的局限性：一、精度问题，传统思路差强人意，当然一般的应用已经足够了，但是要进一步提高精度，却缺乏比较好的方法；二、背景知识问题，传统思路需要事先提取好情感词典，而这一步骤，往往需要人工操作才能保证准确率，换句话说，做这个事情的人，不仅仅要是数据挖掘专家，还需要语言学家，这个背景知识依赖性问题会阻碍着自然语言处理的进步。

点击阅读全文...

分类：信息时代标签：python, 深度学习, 机器学习, 文本挖掘阅读全文 176 评论

21 Oct

把Python脚本放到手机上定时运行

By 苏剑林 | 2015-10-21 | 44568位读者 | 引用

毫无疑问，数据是数据分析的基础，而对于我等平民来说，获取大量数据的方式自然是通过爬虫采集，而对于笔者来说，写爬虫最自然的方式就是用Python写了。短短几行代码，就可以完成一个实用的爬虫，多清爽。（请参考：《记录一次爬取淘宝/天猫评论数据的过程》）

爬虫要住在哪里？

接下来的一个问题是，这个爬虫放到哪里运行？为了爬取每天更新的数据，往往需要每天都要运行一次爬虫，特别地，是在某个点定时运行。这样的话，老挂在自己的电脑运行是不大现实，因为自己的电脑总有关机的时候。也许有读者会想到放在云服务器里边，这是个方法，但是需要额外的成本。受到小虾大神的启发，我开始想把它放到路由器里边运行，某些比较好的路由器是可以外接U盘，且可以刷open-wrt系统的（一个Linux内核的路由器系统，可以像普通Linux那样装Python）。这对我来说是一种很吸引人的做法，但是我对Linux环境下的编译并不熟悉，尤其是路由器环境下的操作；另外路由器配置很低，一般都只是16M闪存、64M内存，如果没有耐心，那么是很难受得了的。

点击阅读全文...

分类：信息时代标签：python, 爬虫阅读全文 2 评论

28 Oct

朋友们，来瓶汽水吧！有趣的换汽水问题

By 苏剑林 | 2015-10-28 | 35403位读者 | 引用

————怀念我曾经参加过的小学数学竞赛。

从一道小学竞赛题谈起

笔者小学五年级时参加了第一次数学竞赛，叫“育苗杯”，大多数题目都记不清楚了，唯一记得很清楚的是如下这道题目（不完全相同，意思类似）：

假设汽水一块钱一瓶，而且4个空瓶子可以换一瓶汽水喝。如果我有30块钱，我最多可以喝到多少瓶汽水？

来瓶汽水吧

当然，上面的情况可能太理想了，但是必须承认，类似的案例在生活中大量存在。比如买草龟吃时，草龟壳由于可以入药，所以有人回收龟壳，这也意味着若干个龟壳就可以换一只龟，等等。读者能不能很快就算出来呢？

当然，这道题并不困难，30块钱能买30瓶汽水，然后留下30个空瓶子，这30个空瓶子可以换来7瓶汽水，剩下2个空瓶子；喝完汽水后，剩下9个空瓶子，可以换来2瓶汽水，剩下1个空瓶子；喝完汽水后，剩下3个空瓶子。算算看，这时候我们已经喝了30+7+2=39瓶汽水了。（不考虑撑着啊，也可以分给别人喝^_^）整个过程如下表：
$\begin{array}{c|cccc} \hline \text{空瓶子数} & 30 & 2+7 & 1+2 & ? \\ \hline \text{已喝汽水数} & 30 & 7 & 2 & ? \\ \hline \end{array}$

点击阅读全文...

分类：数学研究标签：趣味, 竞赛阅读全文 3 评论

13 Nov

ARXIV数学论文分布：偏微分方程最热门！

By 苏剑林 | 2015-11-13 | 34222位读者 | 引用

笔者成功地保研到了中山大学的基础数学专业，这个专业自然是比较理论性的，虽然如此，我还会保持着我对数据分析、计算机等方面的兴趣。这几天兴致来了，想做一下结合我的专业跟数据挖掘相结合的研究，所以就爬取了ARXIV上面近五年（2010年到2014年）的数学论文（包含的数据有：标题、分类、年份、月份），想对这几年来数学的“行情”做一下简单的分析。个人认为，ARVIX作为目前全球最大的论文预印本的电子数据库，对它的数据进行分析，所得到的结论是能够具有一定的代表性的。

当然，本文只是用来练手爬虫和基本数据分析的文章，并没有挖掘出特别有价值的信息。文末附录了笔者爬取到的数据，供有兴趣的读者进一步分析研究。

整体情况

这五年来，ARXIV的数学论文总数为135009篇，平均每年27000篇，或者每天74篇。

点击阅读全文...

分类：信息时代标签：python, 数据挖掘阅读全文 2 评论

4 Aug

差分方程的摄动法

By 苏剑林 | 2016-08-04 | 26397位读者 | 引用

最近一直在考虑一些自然语言处理问题和一些非线性分析问题，无暇总结发文，在此表示抱歉。本文要说的是对于一阶非线性差分方程（当然高阶也可以类似地做）的一种摄动格式，理论上来说，本方法可以得到任意一阶非线性差分方程的显式渐近解。

非线性差分方程

对于一般的一阶非线性差分方程
$\begin{equation}\label{chafenfangcheng}x_{n+1}-x_n = f(x_n)\end{equation}$
通常来说，差分方程很少有解析解，因此要通过渐近分析等手段来分析非线性差分方程的性质。很多时候，我们首先会考虑将差分替换为求导，得到微分方程
$\begin{equation}\label{weifenfangcheng}\frac{dx}{dn}=f(x)\end{equation}$
作为差分方程 $\eqref{chafenfangcheng}$ 的近似。其中的原因，除了微分方程有比较简单的显式解之外，另一重要原因是微分方程 $\eqref{weifenfangcheng}$ 近似保留了差分方程 $\eqref{chafenfangcheng}$ 的一些比较重要的性质，如渐近性。例如，考虑离散的阻滞增长模型：
$\begin{equation}\label{zuzhizengzhang}x_{n+1}=(1+\alpha)x_n -\beta x_n^2\end{equation}$
对应的微分方程为（差分替换为求导）：
$\begin{equation}\frac{dx}{dn}=\alpha x -\beta x^2\end{equation}$
此方程解得
$\begin{equation}x_n = \frac{\alpha}{\beta+c e^{-\alpha n}}\end{equation}$
其中 $c$ 是任意常数。上述结果已经大概给出了原差分方程 $\eqref{zuzhizengzhang}$ 的解的变化趋势，并且成功给出了最终的渐近极限 $x_n \to \frac{\alpha}{\beta}$ 。下图是当 $\alpha=\beta=1$ 且 $c=1$ （即 $x_0=\frac{1}{2}$ ）时，微分方程的解与差分方程的解的值比较。

差分方程的摄动法1

现在的问题是，既然微分方程的解可以作为一个形态良好的近似解了，那么是否可以在微分方程的解的基础上，进一步加入修正项提高精度？

点击阅读全文...

分类：数学研究标签：摄动, 差分方程阅读全文 2 评论

1 Dec

“熵”不起：从熵、最大熵原理到最大熵模型（一）

By 苏剑林 | 2015-12-01 | 89162位读者 | 引用

熵的概念

作为一名物理爱好者，我一直对统计力学中“熵”这个概念感到神秘和好奇。因此，当我接触数据科学的时候，我也对最大熵模型产生了浓厚的兴趣。

熵是什么？在通俗的介绍中，熵一般有两种解释：（1）熵是不确定性的度量；（2）熵是信息的度量。看上去说的不是一回事，其实它们说的就是同一个意思。首先，熵是不确定性的度量，它衡量着我们对某个事物的“无知程度”。熵为什么又是信息的度量呢？既然熵代表了我们对事物的无知，那么当我们从“无知”到“完全认识”这个过程中，就会获得一定的信息量，我们开始越无知，那么到达“完全认识”时，获得的信息量就越大，因此，作为不确定性的度量的熵，也可以看作是信息的度量，说准确点，是我们能从中获得的最大的信息量。

点击阅读全文...

分类：数学研究标签：概率, 最大熵, 熵阅读全文 13 评论

6 Dec

人生苦短，我用Python！

By 苏剑林 | 2015-12-06 | 60607位读者 | 引用

Python数据分析与挖掘实战

暑假的时候，应泰迪公司之约，我为他们的书《MATLAB数据挖掘与挖掘实战》编写了姊妹版：《Python数据挖掘与挖掘实战》（还有一个姊妹版是R语言的），主要的工作内容就是编写Python的介绍，以及把书上的MATLAB代码翻译为Python版本的。我欣然接受了，一来可以兼职赚点零花钱，二来可以系统地训练一下自身的Python编程，再则，还可以体验一次MATLAB、R、Python的大PK。现在书本已经正式发行，亚马逊、当当、京东、淘宝都可以找到，我也很荣幸被列为作者之一，于是这便算是我出版的第一本书了。

点击阅读全文...

分类：信息时代标签：python, 数据挖掘阅读全文 11 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

漫话模型|模型与选芒果

模型的比喻

文本情感分类（二）：深度学习模型

把Python脚本放到手机上定时运行

爬虫要住在哪里？

朋友们，来瓶汽水吧！有趣的换汽水问题

从一道小学竞赛题谈起

ARXIV数学论文分布：偏微分方程最热门！

整体情况

差分方程的摄动法

非线性差分方程

“熵”不起：从熵、最大熵原理到最大熵模型（一）

熵的概念

人生苦短，我用Python！

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接