26 Oct

新词发现的信息熵方法与实现

在本博客的前面文章中,已经简单提到过中文文本处理与挖掘的问题了,中文数据挖掘与英语同类问题中最大的差别是,中文没有空格,如果要较好地完成语言任务,首先得分词。目前流行的分词方法都是基于词库的,然而重要的问题就来了:词库哪里来?人工可以把一些常用的词语收集到词库中,然而这却应付不了层出不穷的新词,尤其是网络新词等——而这往往是语言任务的关键地方。因此,中文语言处理很核心的一个任务就是完善新词发现算法。

新词发现说的就是不加入任何先验素材,直接从大规模的语料库中,自动发现可能成词的语言片段。前两天我去小虾的公司膜拜,并且试着加入了他们的一个开发项目中,主要任务就是网络文章处理。因此,补习了一下新词发现的算法知识,参考了Matrix67.com的文章《互联网时代的社会语言学:基于SNS的文本数据挖掘》,尤其是里边的信息熵思想,并且根据他的思路,用Python写了个简单的脚本。

点击阅读全文...

5 Dec

科学空间:2009年12月重要天象

由于备战考试,这篇预报姗姗来迟。现在,终于可以跟大家见面了。2009年最后一月的夜空,并没有因为严冬的到来而显得冷清。精彩天象将接踵而来,想必寒冷的天气挡不住天文爱好者的热情。当然,光有热情还不够,防寒的措施一定要做好,要是为了一夜观测而吊上一周的点滴,那就不大好了。

12月22日是冬至节气,意味着北半球到了黑夜最长的时段,可观测时间也达到了最长!在这里我也希望大家合理安排观测时间,注意休息,切勿过于疲劳。愿大家在最好的一个月中,能够更好地享受天文的乐趣,以此完美地结束这个天文年!

点击阅读全文...

20 Dec

哥本哈根没有“句号”,留下一个“逗号”

结束了,大会结束了。

多少记者、志愿者、领导人,都经过了N个不眠之夜。在此向他们致敬!

这次会议是否成功,还是读者自己来判断吧。

气候变化大会在发布《哥本哈根协议》后闭幕

气候变化大会在发布《哥本哈根协议》后闭幕

总之一切才刚刚开始,还没有出现“。”,只有“,”。这场气候战注定了会很艰辛。这一次会议通过了一份并通过《哥本哈根协定》(提供下载),而下一年的会议将会在墨西哥举行。

还是让我们来看看相关报道好了。

点击阅读全文...

26 Dec

新年新天象:2010年1月重要天象

带着鼓励与期待,科学空间迈入了新的一年。虽然天文年已经过去,但是天文不会过去。2010年仍将是精彩天象不断上演的一年,科学空间会一如既往地带给大家准确、丰富的天象信息,为大家的天文观测提供一点点有用信息。同时在此祝大家新的一年里更加开心快乐、更上一层楼!

点击阅读全文...

31 Dec

2010年全国天文奥赛终于可以报名了

在2009.12期《天文爱好者》上就公布了网址,一直到最近,网站才开通,郁闷...
报名网址:http://cnao2010.bjp.org.cn/

继在广东省天文奥赛中获得了小小的奖励之外,我一直希望参加全国天文奥赛,现在终于可以实现了。

点击阅读全文...

17 Jan

【竖直上抛】炮弹能够射多高(第二宇宙速度)?

一枚炮弹以速度$v_0$向上射出,只考虑重力因素,请问炮弹到达多远的距离后就会开始自由下落?

大炮的发射

大炮的发射

对于这个问题,我们首先采取的是高中生的做法。考虑地球重力,也就是说炮弹在做加速度为-g(-9.8m/s2)的匀变速运动。根据公式$v_t^2-v_0^2=2as$,可得$s=\frac{v_0^2}{2g}$。
此即炮弹能够走得最远距离。

但是看了这条式子,我们会发现,这个“距离”始终是有限的。换一句话说,只要$v_0$不趋于无穷大,s就不会无穷大。但是我们还听到过牛顿这样说过:假如炮弹以某个速度(就是我们现在所所说的第二宇宙速度)飞离地球,它就永远不会回来了。两者不是矛盾吗?

点击阅读全文...

23 Jan

第一学期结束了

How time flies!
时间飞逝!

开学的日子仿佛在昨天,2009年似乎几个小时前才过,而今天又再次到了寒假。
这是我的高中的第一个寒假,也是一个Unusual Long Holidays!(不同往常的长假)

往年,除了老师强加给我们的寒假作业外,我从来不会自觉学些什么。就算真的收获了些什么,也是意外的收获。因为我认为,假期就是用来放松的。

点击阅读全文...

23 Jan

《积分公式大全》电子书

注:2019.02.13 由科学空间苏剑林(https://kexue.fm)更新,修正公式76,并简化latex。

物理、天文研究得深入了,微积分的应用自然也就多了(其实很多内容都用到微积分)。所以弄出一个几何或者力学问题,随手就列出一道积分或者微分方程,这时求解是最重要的。对于我来说,求导数可以娓娓道来,轻松而得;而积分则比较困难(这与个人的技巧有关,更重要的是事实:导数几乎有通用的公式,而积分只能“凑”出来)。

因此,很多积分干脆依靠现成的公式,懒得去推导了。然后,并非随时随地都有《数学分析》在手的,对计算机数学软件的实用又不大熟悉,这时候只能够求助这一本《积分表》了。只要不是故意去钻那些竞赛级别的数学难题,这已经足够应付物理等方面的应用了。

这时候就这也不用愁到处找$\int \sqrt{a^2-x^2}dx$的结果了。

点击阅读全文...