美国3名科学家获诺贝尔生理学或医学奖
By 苏剑林 | 2009-10-05 | 17612位读者 | 引用2009年度的诺贝尔奖评选开始了,从10月5日开始,诺贝尔奖的获选人将逐步揭开。今天17:00,诺贝尔生理学或医学奖的得奖者已经揭开,他们就是美国的——美国加利福尼亚旧金山大学的伊丽莎白·布莱克本(Elizabeth Blackburn)、美国巴尔的摩约翰·霍普金斯医学院的卡罗尔-格雷德(Carol Greider)、美国哈佛医学院的杰克·绍斯塔克(Jack Szostak)以及霍华德休斯医学研究所!他们的主要成就为发现了端粒和端粒酶保护染色体的机理。
伊丽莎白·布莱克本(Elizabeth Blackburn)
德国女作家摘得2009诺贝尔文学奖
By 苏剑林 | 2009-10-10 | 17080位读者 | 引用“战神”升空看它到底有多神?
By 苏剑林 | 2009-10-31 | 21088位读者 | 引用新词发现的信息熵方法与实现
By 苏剑林 | 2015-10-26 | 103067位读者 | 引用在本博客的前面文章中,已经简单提到过中文文本处理与挖掘的问题了,中文数据挖掘与英语同类问题中最大的差别是,中文没有空格,如果要较好地完成语言任务,首先得分词。目前流行的分词方法都是基于词库的,然而重要的问题就来了:词库哪里来?人工可以把一些常用的词语收集到词库中,然而这却应付不了层出不穷的新词,尤其是网络新词等——而这往往是语言任务的关键地方。因此,中文语言处理很核心的一个任务就是完善新词发现算法。
新词发现说的就是不加入任何先验素材,直接从大规模的语料库中,自动发现可能成词的语言片段。前两天我去小虾的公司膜拜,并且试着加入了他们的一个开发项目中,主要任务就是网络文章处理。因此,补习了一下新词发现的算法知识,参考了Matrix67.com的文章《互联网时代的社会语言学:基于SNS的文本数据挖掘》,尤其是里边的信息熵思想,并且根据他的思路,用Python写了个简单的脚本。
文章转载于:http://gerry.lamost.org/blog/?p=417
去年是国际天文年,在翻译官方宣传手册之外,还在朋友们的鼓励下给《天文爱好者》写了一年的连载,介绍著名星表。编辑李鉴给这个系列起了个很棒的名字:“群星的族谱”。前后四五百年,二十多代天文学家,上千个星表,在新线索的串联下,发展脉络清晰可见。我常常因为灵光乍现激动得匆匆提笔,却在下笔的一刻冒出更多的问题……在积累有限之外,自己的笔力也还不足以驾驭这样宏大的题材,就当成框架索引来看好了。虽然遗憾种种,但总算是完成了
一个心愿。这里是这个系列的番外篇,介绍星表数据库,发表在2010年1月的爱好者杂志上。
讲星表,就不能不提到法国斯特拉斯堡天文数据中心(Strasbourg Astronomical Data Center),这个始建于1972年的数据中心汇集了有文献记载的近万个星表,提供了详尽的查询方式,是天文学家获取数据的首选。而它的身世却少有人知……
最近评论