Processing math: 100%
7 Feb

你的CRF层的学习率可能不够大

CRF是做序列标注的经典方法,它理论优雅,实际也很有效,如果还不了解CRF的读者欢迎阅读旧作《简明条件随机场CRF介绍(附带纯Keras实现)》。在BERT模型出来之后,也有不少工作探索了BERT+CRF用于序列标注任务的做法。然而,很多实验结果显示(比如论文《BERT Meets Chinese Word Segmentation》)不管是中文分词还是实体识别任务,相比于简单的BERT+Softmax,BERT+CRF似乎并没有带来什么提升,这跟传统的BiLSTM+CRF或CNN+CRF的模型表现并不一样。

基于CRF的4标签分词模型示意图

基于CRF的4标签分词模型示意图

这两天给bert4keras增加了用CRF做中文分词的例子(task_sequence_labeling_cws_crf.py),在调试过程中发现了CRF层可能存在学习不充分的问题,进一步做了几个对比实验,结果显示这可能是CRF在BERT中没什么提升的主要原因,遂在此记录一下分析过程,与大家分享。

点击阅读全文...

26 Oct

新词发现的信息熵方法与实现

在本博客的前面文章中,已经简单提到过中文文本处理与挖掘的问题了,中文数据挖掘与英语同类问题中最大的差别是,中文没有空格,如果要较好地完成语言任务,首先得分词。目前流行的分词方法都是基于词库的,然而重要的问题就来了:词库哪里来?人工可以把一些常用的词语收集到词库中,然而这却应付不了层出不穷的新词,尤其是网络新词等——而这往往是语言任务的关键地方。因此,中文语言处理很核心的一个任务就是完善新词发现算法。

新词发现说的就是不加入任何先验素材,直接从大规模的语料库中,自动发现可能成词的语言片段。前两天我去小虾的公司膜拜,并且试着加入了他们的一个开发项目中,主要任务就是网络文章处理。因此,补习了一下新词发现的算法知识,参考了Matrix67.com的文章《互联网时代的社会语言学:基于SNS的文本数据挖掘》,尤其是里边的信息熵思想,并且根据他的思路,用Python写了个简单的脚本。

点击阅读全文...

31 Dec

网站PR升到3了!

哈哈,在2009年最后一天,还发现了一件好事情:
Spaces.Ac.cn的Google PR已经升到了3了!

PR查询

建立“科学空间”网站,也可以算是2009年做的最重要、最成功的事情之一了。在“宇宙驿站”的支持下,慢慢地建立起来,然后经过多次转换,从原先的转载到现在的撰写,现在已经基本定型,保持每周至少更新一次。

点击阅读全文...

9 Jan

精确自由落体运动定律的讨论(二)

跳伞过程中的自由落体阶段.jpg

之前在这篇文章中,我们使用过一个牛顿引力场中的自由落体公式:
t=r02GMr0arctgr0rr+r(r0r)——(1)

我们来尝试一下推导出这个公式来。同时,站长在逐渐深入研究的过程中,发现微分方程极其重要。以前一些我认为不可能解决的问题,都用微分方程逐渐解决了。在以后的文章里,我们将会继续体验到微分方程的伟大魔力!因此,建议各位有志研究物理学的朋友,一定要掌握微分方程,更加深入的,需要用到偏微分方程!

首先,质量为m的物理在距离地心r处的引力为GMmr2,根据牛顿第二定律F=ma,自然下落的物体所获得的加速度为GMr2。假设物体从距离地心r开始向地心自由下落,求位移s关于t的函数s=s(t).

点击阅读全文...

19 Dec

【NASA每日一图】极光、流星、雪夜

极光、流星、雪夜

(图片说明:极光、流星、雪夜,版权:Bj?rnar G. Hansen)

点击阅读全文...

20 Dec

【空间天文网】2010年天文月历

这是兄弟网站“空间天文网”原创作品,上面还尽可能详细的标注了与日期对应的天象。精挑细选了6张高质量的天文风光摄影作品。可以作为电脑桌面,也可以打印出来,能够使您在视觉享受的同时了解近期的天象信息 在此对“空间天文网”站长表示无限感谢^_^!。

请移步“科学空间相册”阅览:http://album.spaces.ac.cn/?id=20_1

15 Jan

科学空间论坛成立,正式开放!

为了让大家有一个更好的科学交流平台,本站特意弄了一个简洁的讨论社区。在观测日环食之际,正式对广大读者开放。

登录入口:http://bbs.spaces.ac.cn

点击阅读全文...

17 Jan

【竖直上抛】炮弹能够射多高(第二宇宙速度)?

一枚炮弹以速度v0向上射出,只考虑重力因素,请问炮弹到达多远的距离后就会开始自由下落?

大炮的发射

大炮的发射

对于这个问题,我们首先采取的是高中生的做法。考虑地球重力,也就是说炮弹在做加速度为-g(-9.8m/s2)的匀变速运动。根据公式v2tv20=2as,可得s=v202g
此即炮弹能够走得最远距离。

但是看了这条式子,我们会发现,这个“距离”始终是有限的。换一句话说,只要v0不趋于无穷大,s就不会无穷大。但是我们还听到过牛顿这样说过:假如炮弹以某个速度(就是我们现在所所说的第二宇宙速度)飞离地球,它就永远不会回来了。两者不是矛盾吗?

点击阅读全文...