新词发现的信息熵方法与实现
By 苏剑林 | 2015-10-26 | 112118位读者 | 引用在本博客的前面文章中,已经简单提到过中文文本处理与挖掘的问题了,中文数据挖掘与英语同类问题中最大的差别是,中文没有空格,如果要较好地完成语言任务,首先得分词。目前流行的分词方法都是基于词库的,然而重要的问题就来了:词库哪里来?人工可以把一些常用的词语收集到词库中,然而这却应付不了层出不穷的新词,尤其是网络新词等——而这往往是语言任务的关键地方。因此,中文语言处理很核心的一个任务就是完善新词发现算法。
新词发现说的就是不加入任何先验素材,直接从大规模的语料库中,自动发现可能成词的语言片段。前两天我去小虾的公司膜拜,并且试着加入了他们的一个开发项目中,主要任务就是网络文章处理。因此,补习了一下新词发现的算法知识,参考了Matrix67.com的文章《互联网时代的社会语言学:基于SNS的文本数据挖掘》,尤其是里边的信息熵思想,并且根据他的思路,用Python写了个简单的脚本。
《方程与宇宙》:抛物线与双曲线轨道(三)
By 苏剑林 | 2010-04-03 | 52173位读者 | 引用高三高考用考场,我们就放假了。无奈高三正兴致勃勃地写着作文的同时,我们这群“低年级”也得写作文。这一次作文是标题作文——《人与路》
人与路的关系是什么?是人在走路,还是路在指引着人?
不同的人会有不同的答案。但是在我看来,智者总在走路,而愚者却在“被走路”。走路的人清楚自己的方向,敢于追逐自己所喜欢的,拥有无畏的精神;“被走路”的人无法找到心中的罗盘,就好比云雾中的星光,飘忽不定。两个人的路的终点都是一样的,只是一个人走到了,一个人没有走到。
当我们在人生的大海中航行时,我们是否能够认识到,我们究竟在“走路”还是“被走路”呢?只有自己走路,才能够更好地追逐自己的梦想,使自己的人生更上一层楼!
BoJone在之前的《自然极值》系列已经花了一定篇幅来讲述“极值”在自然界中是多么的普遍,它能够引导我们进行某些问题的思考,从而获得简单快捷的解答。接下来,我要说的一个更加令人惊讶的“事实”:“极值”不仅仅在某些数学或物理问题上给予我们创造性的思考,它甚至构建了整个经典力学乃至于整个物理学!这不是夸大其辞,这是物理学中被称为“最小作用量原理”的一个原理,很多物理学家(如费恩曼)被它深深吸引着,甚至认为它就是“上帝创造世界的终极公式”!(关于做小作用量原理,大家不妨看一下范翔所写的《最小作用量原理与物理之美》系列文章)
话说在18世纪,欧拉和拉格朗日开创了一条独特的道路,即用变分法来研究经典力学,从而使经典力学焕发出了新的活力,也由此衍生出了一个叫“理论力学”或“分析力学”的分支。用变分法研究力学有很多的好处,变分的对象一般都是标量函数,我们只需要写出动力系统的动能与势能表达式,就可以进行一系列的研究,比如列出质点的运动方程、判断平衡点的稳定性、求周期轨道等等(由于BoJone对理论力学研究还不够深入,无法举太多例子,但请相信,其作用远远不止这些),省去了不少繁琐的矢量性分析,这些都是在变分法发明前难以研究的。
复分析学习1:揭示微分与积分的联系
By 苏剑林 | 2012-08-02 | 35915位读者 | 引用笔者这段时间对复数尤其感兴趣,当然,严格来讲应该是复变函数内容,其中一个原因是通过它,我们可以把一些看似毫不相关的内容联系了起来,体现了数学的简洁美和统一美。我相当有兴趣的其中一个内容是实分析中的泰勒级数和傅里叶级数。这两者都是关于某个函数的级数展开式,其中泰勒级数是用于一般函数展开的,其各项系数通过求n阶导数得到;傅里叶级数的对象是周期函数,其各项系数是通过定积分求得的。在实数世界里,两者毫不相关,但是,复分析却告诉我们:它们只是同一个东西!只是将其在不同的角度“投影”到实数世界里,就产生了不同的“物像”,以至于我们认为它们是不同东西而已。
我们直接来看一个变魔术般的运算:
我们知道,在实数世界里头,我们有
$ln(1+x)=x-\frac{x^2}{2}+\frac{x^3}{3}-\frac{x^4}{4}+...$,其中$|x| < 1$
行星密度与其公转周期(更新)
By 苏剑林 | 2012-10-24 | 24909位读者 | 引用===我与《天文爱好者》不得不说的故事===
去年在订阅2012年的《天文爱好者》时,考虑到之后就要上大学了,所以只是订了半年,因此过了今年六月我就没有看新的《天文爱好者》了。暑假的两个月,还有九月、十月,将近四个月没有看它了,我本以为我已经适应了没有天爱的日子。
大概一个星期前,我在天爱的淘宝网重新买了最近四个月的《天文爱好者》,18日下午,我再见了它。那天晚上,我突然觉得很感动,有种感慨万千的感觉。虽然这么久没有看了,但是再看的感觉是如此的熟悉,如此的温馨。我原来觉得天文只是我的一个业余兴趣,如同生物化学那样,但在那瞬间我明白了我真的爱着天文,而且时间和空间的距离并不能减少我的爱!在那时,我决定了,我一定要从事天文相关专业——虽然我只是一个数学系学生!
==========行星周期下限==========
(2012.10.25:zwhzjh提出攝动力公式有错误,修正了攝动力的计算公式,之前写少了一个因子2,还有在最后的实际检验时,为了追求结果的合理性,忽略了方法的科学性,现在已经进行了修正,欢迎各位提更多意见。)
本文要探讨的东西是我在阅读《天文爱好者》的时候偶然发现的。在发现系外行星以前,人们通常都认为像木星这样的气态巨行星,公转周期都应该在十年以上。因此当瑞士天文学家米歇尔·迈耶和迪戴尔·邱洛兹发现第一颗系外行星时,他们简直无法确信自己的发现,因为这颗类木行星的公转周期只有短短的4.2天!但是经过确认,这的确是一颗系外行星,颠覆了过去的看法。我饶有兴致地研究下去,企图推导出某一密度行星的公转周期下限。
各位读者不妨先估计一下,它会与什么物理量有关?行星质量?母星质量?还是...?
炼钢.vs.做菜:淬火与过冷河
By 苏剑林 | 2014-02-22 | 40941位读者 | 引用除了数学物理和中国象棋,我闲时也喜欢弄一下吃的。看到各种菜料经过自己的加工变成佳肴,也是一件美不胜收的事情;有时看到同样的菜料能够做出不同款式、不同味道的菜时,更是其乐无穷。作为广东人,我很自豪于其中一句话:“广东人吃所有东西——天上飞的,除了飞机;地上爬的,除了火车;水中游的,除了潜艇”。虽然不免有些夸张,但这句话充分显示了广东人(或者说岭南地区)饮食和烹饪的强大本领。我的厨房技术来源于我妈妈,小时候妈妈在家里做菜,由于是烧柴草生火,所以我得在灶前看好火。于是看火之时也在看妈妈做菜,久而久之,也会学会了一些做菜的方法。而现在,妈妈仍是家里的厨房好手,而我也不时进入厨房,做做自己喜欢吃的东西。谢谢我的好妈妈!
炼钢
本文叫“炼钢.vs.做菜”,这两者基本上是风牛马不相及,不过我却发现它们有一点点相似的技巧。已不记得什么时候了,在一本自然科学的书上,我曾看到过炼钢的两种技术:淬火和退火(后来发现还有正火、回火等,原理类似)。简单来说,淬火是将一块钢铁烧红,然后放进冷水中迅速冷却(也就是加热到一定温度,然后迅速冷却),如此重复,便可使得钢铁变硬,但同时也会更脆;退火则刚刚相反,它是将钢铁烧红后,让它自然冷却(有必要时,想办法降低冷却速度),如此一来,钢铁变软了,也变韧了。正火、回火均与退火类似,只是在细节上不同。通过淬火和退火的适当组合,可以生产出硬度和韧度都适当的钢铁。
当概率遇上复变:随机游走与路径积分
By 苏剑林 | 2014-06-04 | 23996位读者 | 引用我们在上一篇文章中已经看到,随机游走的概率分布是正态的,而在概率论中可以了解到正态分布(几乎)是最重要的一种分布了。随机游走模型和正态分布的应用都很广,我们或许可以思考一个问题,究竟是随机游走造就了正态分布,还是正态分布造就了随机游走?换句话说,哪个更本质些?个人就自己目前所阅读到的内容来看,随机游走更本质些,随机游走正好对应着普遍存在的随机不确定性(比如每次测量的误差),它的分布正好就是正态分布,所以正态分布才应用得如此广泛——因为随机不确定性无处不在。
下面我们来考虑随机游走的另外一种描述方式,原则上来说,它更广泛,更深刻,其大名曰“路径积分”。
最近评论