7 Nov

人不能忘本|我的数学竞赛题

现在我已经高一了,个人感觉发展还是挺好的。至少我走上了“科学”这一条正确之路,发展成独特的、创新的我。在学习上,我可以说无愧于我自己。这一切,都因为他。

数学竞赛训练题目·回忆11

数学竞赛训练题目·回忆11

他是谁?那是我五年级的数学老师——

点击阅读全文...

11 Nov

【宇宙驿站】拼音输入法天文学词库

各位读者,

相信很多朋友都在使用着拼音输入法,搜狗、Google、紫光等等都有。现在宇宙驿站的崔辰州博士为我们带来了一个好东西——天文学词库,这能够让我们便捷地输入很多天文词。在此对博士表示无限的感激。

最新版的紫光华宇拼音输入法(http://www.unispim.com/)中提供开放了词典的导入导出接口。因此博士按照词库的格式要求将天文学名词做成了紫光拼音的词典。

点击阅读全文...

14 Nov

科学空间相册上线,与你分享科学图片

科学空间相册平台正式上线,网址为:
http://album.spaces.ac.cn/

科学空间相册截图

科学空间相册截图

点击阅读全文...

15 Nov

首次报名参加天文竞赛,期待中...

广东天文学会最近发出通知,于11月29日在广州举行一次“开信杯”天文奥赛。我想,今年的全国天文奥赛我已经错过了,这一次不能再错过了,当作为明年我参加全国天文奥赛的“演练”了。希望也能够趁机认识几个天文朋友,那才是最大的收获......

点击阅读全文...

15 Nov

《当彩色的声音尝起来是甜的》电子版

内容来源于:http://www.verycd.com/topics/2777592/

站长注:虽然有电子版,但是还是建议没有购买纸版的读者到书店或者网上购买一本。一是为了支持科学松鼠会和中国科学出版事业,二是拿着一本纸版书细细品味的感觉是读电子书绝对感受不到的。

《当彩色的声音尝起来是甜的》

《当彩色的声音尝起来是甜的》

《当彩色的声音尝起来是甜的》是科学松鼠会出版的第一本书,站长在得到消息后的第一时间,就在卓越上购买了它。这本书由上海三联书店出版。本书不是一本博客集,出自松鼠会网站的文章只占了1/3。全书54篇文章,精选自百位松鼠近三年创作的上千篇文章,从口腔溃疡到国际空间站,从玫瑰花到数学思想实验,内容天马行空,文字灵动活泼,一改传统科普的严肃面孔。

点击阅读全文...

7 Feb

你的CRF层的学习率可能不够大

CRF是做序列标注的经典方法,它理论优雅,实际也很有效,如果还不了解CRF的读者欢迎阅读旧作《简明条件随机场CRF介绍(附带纯Keras实现)》。在BERT模型出来之后,也有不少工作探索了BERT+CRF用于序列标注任务的做法。然而,很多实验结果显示(比如论文《BERT Meets Chinese Word Segmentation》)不管是中文分词还是实体识别任务,相比于简单的BERT+Softmax,BERT+CRF似乎并没有带来什么提升,这跟传统的BiLSTM+CRF或CNN+CRF的模型表现并不一样。

基于CRF的4标签分词模型示意图

基于CRF的4标签分词模型示意图

这两天给bert4keras增加了用CRF做中文分词的例子(task_sequence_labeling_cws_crf.py),在调试过程中发现了CRF层可能存在学习不充分的问题,进一步做了几个对比实验,结果显示这可能是CRF在BERT中没什么提升的主要原因,遂在此记录一下分析过程,与大家分享。

点击阅读全文...

26 Oct

新词发现的信息熵方法与实现

在本博客的前面文章中,已经简单提到过中文文本处理与挖掘的问题了,中文数据挖掘与英语同类问题中最大的差别是,中文没有空格,如果要较好地完成语言任务,首先得分词。目前流行的分词方法都是基于词库的,然而重要的问题就来了:词库哪里来?人工可以把一些常用的词语收集到词库中,然而这却应付不了层出不穷的新词,尤其是网络新词等——而这往往是语言任务的关键地方。因此,中文语言处理很核心的一个任务就是完善新词发现算法。

新词发现说的就是不加入任何先验素材,直接从大规模的语料库中,自动发现可能成词的语言片段。前两天我去小虾的公司膜拜,并且试着加入了他们的一个开发项目中,主要任务就是网络文章处理。因此,补习了一下新词发现的算法知识,参考了Matrix67.com的文章《互联网时代的社会语言学:基于SNS的文本数据挖掘》,尤其是里边的信息熵思想,并且根据他的思路,用Python写了个简单的脚本。

点击阅读全文...

31 Dec

网站PR升到3了!

哈哈,在2009年最后一天,还发现了一件好事情:
Spaces.Ac.cn的Google PR已经升到了3了!

PR查询

建立“科学空间”网站,也可以算是2009年做的最重要、最成功的事情之一了。在“宇宙驿站”的支持下,慢慢地建立起来,然后经过多次转换,从原先的转载到现在的撰写,现在已经基本定型,保持每周至少更新一次。

点击阅读全文...