17 Oct

【NASA每日一图】星系M33的亮星云

图片说明:M33,版权: Ken Crawford

图片说明:M33,版权: Ken Crawford

点击阅读全文...

1 Nov

本站域名Spaces.Ac.Cn的PR为2了

又到了新的一月了。祝大家新月新气息!

今天查了一下,发现本站域名的PR(PageRank)值已经提升到2了。

PR查询

除了内容得到了google的肯定外,我觉得最大的原因还是我把网站搬回了“宇宙驿站”。因为之前网络流传着一个“规则”,说PR值不仅仅取决于网站内容,而且还取决于网站所在服务器的其他网站质量。现在验证了这个信息,因为宇宙驿站上的网站多数是PR=3以上的高质量科学网站。

点击阅读全文...

7 Nov

爱恩斯坦的狭义相对论论文(中文/图片)

说明:这篇文章是通过翻拍而来,请读者勿用于商业用途。如果原著作者(或者译者)认为此举侵犯了您的权利,请留言或者来信BoJone@Spaces.Ac.Cn告知,本人会尽快删除!

$$\begin{aligned}E=mc^2 \\ \sqrt{1-{v^2}/{c^2}}\end{aligned}$$

本文不是通用的相对论教程,适合已经有一定物理学基础的读者阅读。

相对论是关于时空和引力的基本理论,主要由阿尔伯特·爱因斯坦(Albert Einstein)创立,分为狭义相对论(特殊相对论)和广义相对论(一般相对论)。相对论的基本假设是相对性原理,即物理定律与参照系的选择无关。狭义相对论和广义相对论的区别是,前者讨论的是匀速直线运动的参照系(惯性参照系)之间的物理定律,后者则推广到具有加速度的参照系中(非惯性系),并在等效原理的假设下,广泛应用于引力场中。

点击阅读全文...

11 Nov

【宇宙驿站】拼音输入法天文学词库

各位读者,

相信很多朋友都在使用着拼音输入法,搜狗、Google、紫光等等都有。现在宇宙驿站的崔辰州博士为我们带来了一个好东西——天文学词库,这能够让我们便捷地输入很多天文词。在此对博士表示无限的感激。

最新版的紫光华宇拼音输入法(http://www.unispim.com/)中提供开放了词典的导入导出接口。因此博士按照词库的格式要求将天文学名词做成了紫光拼音的词典。

点击阅读全文...

14 Nov

科学空间相册上线,与你分享科学图片

科学空间相册平台正式上线,网址为:
http://album.spaces.ac.cn/

科学空间相册截图

科学空间相册截图

点击阅读全文...

22 Nov

测试一个强悍的功能——ScienceWord

本站准备整合ScienceWord,其功能有

在线实现方便快捷的公式、文字混合编排
在线快速绘制数学曲线
逻辑图形动态关联技术
强大的在线绘图功能
在线编辑有机化学高分子式

点击阅读全文...

7 Feb

你的CRF层的学习率可能不够大

CRF是做序列标注的经典方法,它理论优雅,实际也很有效,如果还不了解CRF的读者欢迎阅读旧作《简明条件随机场CRF介绍(附带纯Keras实现)》。在BERT模型出来之后,也有不少工作探索了BERT+CRF用于序列标注任务的做法。然而,很多实验结果显示(比如论文《BERT Meets Chinese Word Segmentation》)不管是中文分词还是实体识别任务,相比于简单的BERT+Softmax,BERT+CRF似乎并没有带来什么提升,这跟传统的BiLSTM+CRF或CNN+CRF的模型表现并不一样。

基于CRF的4标签分词模型示意图

基于CRF的4标签分词模型示意图

这两天给bert4keras增加了用CRF做中文分词的例子(task_sequence_labeling_cws_crf.py),在调试过程中发现了CRF层可能存在学习不充分的问题,进一步做了几个对比实验,结果显示这可能是CRF在BERT中没什么提升的主要原因,遂在此记录一下分析过程,与大家分享。

点击阅读全文...

26 Oct

新词发现的信息熵方法与实现

在本博客的前面文章中,已经简单提到过中文文本处理与挖掘的问题了,中文数据挖掘与英语同类问题中最大的差别是,中文没有空格,如果要较好地完成语言任务,首先得分词。目前流行的分词方法都是基于词库的,然而重要的问题就来了:词库哪里来?人工可以把一些常用的词语收集到词库中,然而这却应付不了层出不穷的新词,尤其是网络新词等——而这往往是语言任务的关键地方。因此,中文语言处理很核心的一个任务就是完善新词发现算法。

新词发现说的就是不加入任何先验素材,直接从大规模的语料库中,自动发现可能成词的语言片段。前两天我去小虾的公司膜拜,并且试着加入了他们的一个开发项目中,主要任务就是网络文章处理。因此,补习了一下新词发现的算法知识,参考了Matrix67.com的文章《互联网时代的社会语言学:基于SNS的文本数据挖掘》,尤其是里边的信息熵思想,并且根据他的思路,用Python写了个简单的脚本。

点击阅读全文...