1 Nov

本站域名Spaces.Ac.Cn的PR为2了

又到了新的一月了。祝大家新月新气息!

今天查了一下,发现本站域名的PR(PageRank)值已经提升到2了。

PR查询

除了内容得到了google的肯定外,我觉得最大的原因还是我把网站搬回了“宇宙驿站”。因为之前网络流传着一个“规则”,说PR值不仅仅取决于网站内容,而且还取决于网站所在服务器的其他网站质量。现在验证了这个信息,因为宇宙驿站上的网站多数是PR=3以上的高质量科学网站。

点击阅读全文...

1 Nov

沉痛悼念钱学森!深切怀恋钱学森!

??本文来自“天涯社区”,作者在表达了自己情感的同时,也表达了我的情感。或者说,她表达了每一个中国人的情感!在此向作者致敬

??作为中国航天之父!20世纪中国最伟大的科学家!钱学森不幸于10月31日上午11点与世长辞!享年98岁!

对于现在80,90后的人来说,钱学森也许只是一个科学符号,但对于上世纪五六七十年代出生的人而言,他和陈景润一度成为全体中国人心中的偶像!基本上就和现在年轻人疯狂追捧刘德华一样。所不同的是,他们是以自身的人格魅力和科技才华深深的打动了一代又一代的人!尤其是1955年,钱学森冒着生命危险,抛弃美国优越的社会地位、财富收入和先进的研究实力,毅然回国的壮举,告诉了我们什么才叫真正的“爱国者”!

点击阅读全文...

3 Nov

美国科学家用3000幅照片拼接夜空全景

据美国太空网报道,下图展示了由3000幅单独的照片拼接而成的一幅全新的完整夜空全景图,其展现的最吸引人的景象便是我们生存的银河系。据悉,夜空全景图由美国中密歇根州大学的阿克塞尔·麦林格尔历时22个月制作完成。在此期间,他的足迹遍布南非、德克萨斯州和密歇根州,拍摄夜空数码照片,总行程超过2.6万英里(约合4.2万公里)。

点击阅读全文...

7 Nov

人不能忘本|我的数学竞赛题

现在我已经高一了,个人感觉发展还是挺好的。至少我走上了“科学”这一条正确之路,发展成独特的、创新的我。在学习上,我可以说无愧于我自己。这一切,都因为他。

数学竞赛训练题目·回忆11

数学竞赛训练题目·回忆11

他是谁?那是我五年级的数学老师——

点击阅读全文...

11 Nov

【宇宙驿站】拼音输入法天文学词库

各位读者,

相信很多朋友都在使用着拼音输入法,搜狗、Google、紫光等等都有。现在宇宙驿站的崔辰州博士为我们带来了一个好东西——天文学词库,这能够让我们便捷地输入很多天文词。在此对博士表示无限的感激。

最新版的紫光华宇拼音输入法(http://www.unispim.com/)中提供开放了词典的导入导出接口。因此博士按照词库的格式要求将天文学名词做成了紫光拼音的词典。

点击阅读全文...

15 Nov

首次报名参加天文竞赛,期待中...

广东天文学会最近发出通知,于11月29日在广州举行一次“开信杯”天文奥赛。我想,今年的全国天文奥赛我已经错过了,这一次不能再错过了,当作为明年我参加全国天文奥赛的“演练”了。希望也能够趁机认识几个天文朋友,那才是最大的收获......

点击阅读全文...

7 Feb

你的CRF层的学习率可能不够大

CRF是做序列标注的经典方法,它理论优雅,实际也很有效,如果还不了解CRF的读者欢迎阅读旧作《简明条件随机场CRF介绍(附带纯Keras实现)》。在BERT模型出来之后,也有不少工作探索了BERT+CRF用于序列标注任务的做法。然而,很多实验结果显示(比如论文《BERT Meets Chinese Word Segmentation》)不管是中文分词还是实体识别任务,相比于简单的BERT+Softmax,BERT+CRF似乎并没有带来什么提升,这跟传统的BiLSTM+CRF或CNN+CRF的模型表现并不一样。

基于CRF的4标签分词模型示意图

基于CRF的4标签分词模型示意图

这两天给bert4keras增加了用CRF做中文分词的例子(task_sequence_labeling_cws_crf.py),在调试过程中发现了CRF层可能存在学习不充分的问题,进一步做了几个对比实验,结果显示这可能是CRF在BERT中没什么提升的主要原因,遂在此记录一下分析过程,与大家分享。

点击阅读全文...

26 Oct

新词发现的信息熵方法与实现

在本博客的前面文章中,已经简单提到过中文文本处理与挖掘的问题了,中文数据挖掘与英语同类问题中最大的差别是,中文没有空格,如果要较好地完成语言任务,首先得分词。目前流行的分词方法都是基于词库的,然而重要的问题就来了:词库哪里来?人工可以把一些常用的词语收集到词库中,然而这却应付不了层出不穷的新词,尤其是网络新词等——而这往往是语言任务的关键地方。因此,中文语言处理很核心的一个任务就是完善新词发现算法。

新词发现说的就是不加入任何先验素材,直接从大规模的语料库中,自动发现可能成词的语言片段。前两天我去小虾的公司膜拜,并且试着加入了他们的一个开发项目中,主要任务就是网络文章处理。因此,补习了一下新词发现的算法知识,参考了Matrix67.com的文章《互联网时代的社会语言学:基于SNS的文本数据挖掘》,尤其是里边的信息熵思想,并且根据他的思路,用Python写了个简单的脚本。

点击阅读全文...