【NASA每日一图】沙子般的 NGC 1313
By 苏剑林 | 2009-08-07 | 18419位读者 | 引用彗星(非小行星)重创月球
By 苏剑林 | 2009-08-08 | 19115位读者 | 引用世界各国能否联手应对气候变化?
By 苏剑林 | 2009-08-18 | 24510位读者 | 引用重新拥抱国家天文台!
By 苏剑林 | 2009-10-05 | 18824位读者 | 引用三天了,在这个长达8天的假期中,我居然有连续三天没有更新日志了!也许各位想我是外出旅行了,没有时间管理。其实恰恰相反,这几天我都马不停蹄地对着Spaces.Ac.Cn。因为,“科学空间”回到了天文台了。
不明白?不要紧,我详细说说。
之前由于喜爱geekg的风格,所以把网站程序换成了pjblog。不过pjblog是asp,而宇宙驿站的服务器是linux,只支持html和php,所以,没有办法,我只好换空间了。但是我们是非营利性网站,没有利益收入,当然也不希望有这方面的付出了。所以,辗转了多个免费空间,其中包括火山互联等等。这里首先得感谢“观星天文论坛”的Holdy Pan站长,他曾经无偿地把他的空间给我用(后来没有用了)。还有不得不说的是9790.com网站,他免费为大家提供了一块500M的免费空间,自我申请日起,我几乎一直用它,算起来有两个多月了,一直很稳定。现在的网络很少这样的免费空间商了。
绿色和平:工厂排污36计
By 苏剑林 | 2009-10-14 | 23548位读者 | 引用最新调查解“毒”珠江:工业水污染触目惊心!
By 苏剑林 | 2009-10-30 | 21344位读者 | 引用新词发现的信息熵方法与实现
By 苏剑林 | 2015-10-26 | 108418位读者 | 引用在本博客的前面文章中,已经简单提到过中文文本处理与挖掘的问题了,中文数据挖掘与英语同类问题中最大的差别是,中文没有空格,如果要较好地完成语言任务,首先得分词。目前流行的分词方法都是基于词库的,然而重要的问题就来了:词库哪里来?人工可以把一些常用的词语收集到词库中,然而这却应付不了层出不穷的新词,尤其是网络新词等——而这往往是语言任务的关键地方。因此,中文语言处理很核心的一个任务就是完善新词发现算法。
新词发现说的就是不加入任何先验素材,直接从大规模的语料库中,自动发现可能成词的语言片段。前两天我去小虾的公司膜拜,并且试着加入了他们的一个开发项目中,主要任务就是网络文章处理。因此,补习了一下新词发现的算法知识,参考了Matrix67.com的文章《互联网时代的社会语言学:基于SNS的文本数据挖掘》,尤其是里边的信息熵思想,并且根据他的思路,用Python写了个简单的脚本。
最近评论