科学空间:2009年11月重要天象
By 苏剑林 | 2009-10-18 | 22110位读者 | 引用转眼间已经快到年底了,11月天象的重头戏,仍将是流星雨。2009年的狮子座流星雨,是否会出现预测的较大爆发,这个月我们将找到答案。此外,南北金牛座流星雨、麒麟座a流星雨等几个传统的流星雨也将在本月达到极大,它们同样是值得爱好者观测的目标。适合在11月观测的行星主要是木星和火星,前者的最佳观测时机是在日落后不久,而后者在下半夜的观测条件不错。
提醒各位天文爱好者一点,制定观测计划之前一定要先查看天气预报,而且在这个寒冷的季节观测流星雨,一定要注意保暖!
主要天象:
01日 火星近鬼星团
05日 南金牛座流星雨极大(ZHR=5)
09日 火星合月
12日 北金牛座流星雨极大(ZHR=5)
13日 土星合月
16日 金星合月
17日 水星合月
18日 月掩心宿二;狮子座流星雨极大(05:45, ZHR=100+)
21日 麒麟座α流星雨极大(23:25, ZHR=5~400+?)
24日 木星合月/海王星合月
27日 天王星合月
2012年,地球完蛋了?
By 苏剑林 | 2009-10-25 | 29494位读者 | 引用沉痛,默哀!中国科学巨星钱学森逝世
By 苏剑林 | 2009-10-31 | 22881位读者 | 引用你的CRF层的学习率可能不够大
By 苏剑林 | 2020-02-07 | 100668位读者 | 引用CRF是做序列标注的经典方法,它理论优雅,实际也很有效,如果还不了解CRF的读者欢迎阅读旧作《简明条件随机场CRF介绍(附带纯Keras实现)》。在BERT模型出来之后,也有不少工作探索了BERT+CRF用于序列标注任务的做法。然而,很多实验结果显示(比如论文《BERT Meets Chinese Word Segmentation》)不管是中文分词还是实体识别任务,相比于简单的BERT+Softmax,BERT+CRF似乎并没有带来什么提升,这跟传统的BiLSTM+CRF或CNN+CRF的模型表现并不一样。
这两天给bert4keras增加了用CRF做中文分词的例子(task_sequence_labeling_cws_crf.py),在调试过程中发现了CRF层可能存在学习不充分的问题,进一步做了几个对比实验,结果显示这可能是CRF在BERT中没什么提升的主要原因,遂在此记录一下分析过程,与大家分享。
新词发现的信息熵方法与实现
By 苏剑林 | 2015-10-26 | 107766位读者 | 引用在本博客的前面文章中,已经简单提到过中文文本处理与挖掘的问题了,中文数据挖掘与英语同类问题中最大的差别是,中文没有空格,如果要较好地完成语言任务,首先得分词。目前流行的分词方法都是基于词库的,然而重要的问题就来了:词库哪里来?人工可以把一些常用的词语收集到词库中,然而这却应付不了层出不穷的新词,尤其是网络新词等——而这往往是语言任务的关键地方。因此,中文语言处理很核心的一个任务就是完善新词发现算法。
新词发现说的就是不加入任何先验素材,直接从大规模的语料库中,自动发现可能成词的语言片段。前两天我去小虾的公司膜拜,并且试着加入了他们的一个开发项目中,主要任务就是网络文章处理。因此,补习了一下新词发现的算法知识,参考了Matrix67.com的文章《互联网时代的社会语言学:基于SNS的文本数据挖掘》,尤其是里边的信息熵思想,并且根据他的思路,用Python写了个简单的脚本。
最近评论