新词发现的信息熵方法与实现
By 苏剑林 | 2015-10-26 | 110089位读者 | 引用在本博客的前面文章中,已经简单提到过中文文本处理与挖掘的问题了,中文数据挖掘与英语同类问题中最大的差别是,中文没有空格,如果要较好地完成语言任务,首先得分词。目前流行的分词方法都是基于词库的,然而重要的问题就来了:词库哪里来?人工可以把一些常用的词语收集到词库中,然而这却应付不了层出不穷的新词,尤其是网络新词等——而这往往是语言任务的关键地方。因此,中文语言处理很核心的一个任务就是完善新词发现算法。
新词发现说的就是不加入任何先验素材,直接从大规模的语料库中,自动发现可能成词的语言片段。前两天我去小虾的公司膜拜,并且试着加入了他们的一个开发项目中,主要任务就是网络文章处理。因此,补习了一下新词发现的算法知识,参考了Matrix67.com的文章《互联网时代的社会语言学:基于SNS的文本数据挖掘》,尤其是里边的信息熵思想,并且根据他的思路,用Python写了个简单的脚本。
科学空间:2009年12月重要天象
By 苏剑林 | 2009-12-05 | 22750位读者 | 引用哥本哈根没有“句号”,留下一个“逗号”
By 苏剑林 | 2009-12-20 | 16329位读者 | 引用新年新天象:2010年1月重要天象
By 苏剑林 | 2009-12-26 | 21384位读者 | 引用2010年全国天文奥赛终于可以报名了
By 苏剑林 | 2009-12-31 | 15710位读者 | 引用【竖直上抛】炮弹能够射多高(第二宇宙速度)?
By 苏剑林 | 2010-01-17 | 42929位读者 | 引用一枚炮弹以速度$v_0$向上射出,只考虑重力因素,请问炮弹到达多远的距离后就会开始自由下落?
对于这个问题,我们首先采取的是高中生的做法。考虑地球重力,也就是说炮弹在做加速度为
此即炮弹能够走得最远距离。
但是看了这条式子,我们会发现,这个“距离”始终是有限的。换一句话说,只要$v_0$不趋于无穷大,s就不会无穷大。但是我们还听到过牛顿这样说过:假如炮弹以某个速度(就是我们现在所所说的第二宇宙速度)飞离地球,它就永远不会回来了。两者不是矛盾吗?
《积分公式大全》电子书
By 苏剑林 | 2010-01-23 | 71962位读者 | 引用注:2019.02.13 由科学空间苏剑林(https://kexue.fm)更新,修正公式76,并简化latex。
物理、天文研究得深入了,微积分的应用自然也就多了(其实很多内容都用到微积分)。所以弄出一个几何或者力学问题,随手就列出一道积分或者微分方程,这时求解是最重要的。对于我来说,求导数可以娓娓道来,轻松而得;而积分则比较困难(这与个人的技巧有关,更重要的是事实:导数几乎有通用的公式,而积分只能“凑”出来)。
因此,很多积分干脆依靠现成的公式,懒得去推导了。然后,并非随时随地都有《数学分析》在手的,对计算机数学软件的实用又不大熟悉,这时候只能够求助这一本《积分表》了。只要不是故意去钻那些竞赛级别的数学难题,这已经足够应付物理等方面的应用了。
这时候就这也不用愁到处找$\int \sqrt{a^2-x^2}dx$的结果了。
最近评论