14 Nov

科学空间相册上线,与你分享科学图片

科学空间相册平台正式上线,网址为:
http://album.spaces.ac.cn/

科学空间相册截图

科学空间相册截图

点击阅读全文...

15 Nov

首次报名参加天文竞赛,期待中...

广东天文学会最近发出通知,于11月29日在广州举行一次“开信杯”天文奥赛。我想,今年的全国天文奥赛我已经错过了,这一次不能再错过了,当作为明年我参加全国天文奥赛的“演练”了。希望也能够趁机认识几个天文朋友,那才是最大的收获......

点击阅读全文...

15 Nov

《当彩色的声音尝起来是甜的》电子版

内容来源于:http://www.verycd.com/topics/2777592/

站长注:虽然有电子版,但是还是建议没有购买纸版的读者到书店或者网上购买一本。一是为了支持科学松鼠会和中国科学出版事业,二是拿着一本纸版书细细品味的感觉是读电子书绝对感受不到的。

《当彩色的声音尝起来是甜的》

《当彩色的声音尝起来是甜的》

《当彩色的声音尝起来是甜的》是科学松鼠会出版的第一本书,站长在得到消息后的第一时间,就在卓越上购买了它。这本书由上海三联书店出版。本书不是一本博客集,出自松鼠会网站的文章只占了1/3。全书54篇文章,精选自百位松鼠近三年创作的上千篇文章,从口腔溃疡到国际空间站,从玫瑰花到数学思想实验,内容天马行空,文字灵动活泼,一改传统科普的严肃面孔。

点击阅读全文...

7 Feb

你的CRF层的学习率可能不够大

CRF是做序列标注的经典方法,它理论优雅,实际也很有效,如果还不了解CRF的读者欢迎阅读旧作《简明条件随机场CRF介绍(附带纯Keras实现)》。在BERT模型出来之后,也有不少工作探索了BERT+CRF用于序列标注任务的做法。然而,很多实验结果显示(比如论文《BERT Meets Chinese Word Segmentation》)不管是中文分词还是实体识别任务,相比于简单的BERT+Softmax,BERT+CRF似乎并没有带来什么提升,这跟传统的BiLSTM+CRF或CNN+CRF的模型表现并不一样。

基于CRF的4标签分词模型示意图

基于CRF的4标签分词模型示意图

这两天给bert4keras增加了用CRF做中文分词的例子(task_sequence_labeling_cws_crf.py),在调试过程中发现了CRF层可能存在学习不充分的问题,进一步做了几个对比实验,结果显示这可能是CRF在BERT中没什么提升的主要原因,遂在此记录一下分析过程,与大家分享。

点击阅读全文...

26 Oct

新词发现的信息熵方法与实现

在本博客的前面文章中,已经简单提到过中文文本处理与挖掘的问题了,中文数据挖掘与英语同类问题中最大的差别是,中文没有空格,如果要较好地完成语言任务,首先得分词。目前流行的分词方法都是基于词库的,然而重要的问题就来了:词库哪里来?人工可以把一些常用的词语收集到词库中,然而这却应付不了层出不穷的新词,尤其是网络新词等——而这往往是语言任务的关键地方。因此,中文语言处理很核心的一个任务就是完善新词发现算法。

新词发现说的就是不加入任何先验素材,直接从大规模的语料库中,自动发现可能成词的语言片段。前两天我去小虾的公司膜拜,并且试着加入了他们的一个开发项目中,主要任务就是网络文章处理。因此,补习了一下新词发现的算法知识,参考了Matrix67.com的文章《互联网时代的社会语言学:基于SNS的文本数据挖掘》,尤其是里边的信息熵思想,并且根据他的思路,用Python写了个简单的脚本。

点击阅读全文...

14 Dec

域名Sci-Cn.cn转让...

域名已经准备到期了,不打算用了,可以转让给同好们。

点击阅读全文...

19 Dec

【NASA每日一图】极光、流星、雪夜

极光、流星、雪夜

(图片说明:极光、流星、雪夜,版权:Bj?rnar G. Hansen)

点击阅读全文...

20 Dec

哥本哈根没有“句号”,留下一个“逗号”

结束了,大会结束了。

多少记者、志愿者、领导人,都经过了N个不眠之夜。在此向他们致敬!

这次会议是否成功,还是读者自己来判断吧。

气候变化大会在发布《哥本哈根协议》后闭幕

气候变化大会在发布《哥本哈根协议》后闭幕

总之一切才刚刚开始,还没有出现“。”,只有“,”。这场气候战注定了会很艰辛。这一次会议通过了一份并通过《哥本哈根协定》(提供下载),而下一年的会议将会在墨西哥举行。

还是让我们来看看相关报道好了。

点击阅读全文...