包含关键字离群点检测的文章 - 科学空间|Scientific Spaces

7 Feb

你的CRF层的学习率可能不够大

By 苏剑林 | 2020-02-07 | 116351位读者 | 引用

CRF是做序列标注的经典方法，它理论优雅，实际也很有效，如果还不了解CRF的读者欢迎阅读旧作《简明条件随机场CRF介绍（附带纯Keras实现）》。在BERT模型出来之后，也有不少工作探索了BERT+CRF用于序列标注任务的做法。然而，很多实验结果显示（比如论文《BERT Meets Chinese Word Segmentation》）不管是中文分词还是实体识别任务，相比于简单的BERT+Softmax，BERT+CRF似乎并没有带来什么提升，这跟传统的BiLSTM+CRF或CNN+CRF的模型表现并不一样。

基于CRF的4标签分词模型示意图

这两天给bert4keras增加了用CRF做中文分词的例子（task_sequence_labeling_cws_crf.py），在调试过程中发现了CRF层可能存在学习不充分的问题，进一步做了几个对比实验，结果显示这可能是CRF在BERT中没什么提升的主要原因，遂在此记录一下分析过程，与大家分享。

点击阅读全文...

分类：信息时代标签：模型, 概率图, crf 阅读全文 44 评论

26 Oct

新词发现的信息熵方法与实现

By 苏剑林 | 2015-10-26 | 120333位读者 | 引用

在本博客的前面文章中，已经简单提到过中文文本处理与挖掘的问题了，中文数据挖掘与英语同类问题中最大的差别是，中文没有空格，如果要较好地完成语言任务，首先得分词。目前流行的分词方法都是基于词库的，然而重要的问题就来了：词库哪里来？人工可以把一些常用的词语收集到词库中，然而这却应付不了层出不穷的新词，尤其是网络新词等——而这往往是语言任务的关键地方。因此，中文语言处理很核心的一个任务就是完善新词发现算法。

新词发现说的就是不加入任何先验素材，直接从大规模的语料库中，自动发现可能成词的语言片段。前两天我去小虾的公司膜拜，并且试着加入了他们的一个开发项目中，主要任务就是网络文章处理。因此，补习了一下新词发现的算法知识，参考了Matrix67.com的文章《互联网时代的社会语言学：基于SNS的文本数据挖掘》，尤其是里边的信息熵思想，并且根据他的思路，用Python写了个简单的脚本。

点击阅读全文...

分类：信息时代标签：python, 最大熵, 词库, 新词发现阅读全文 24 评论

5 Dec

科学空间：2009年12月重要天象

By 苏剑林 | 2009-12-05 | 24689位读者 | 引用

由于备战考试，这篇预报姗姗来迟。现在，终于可以跟大家见面了。2009年最后一月的夜空，并没有因为严冬的到来而显得冷清。精彩天象将接踵而来，想必寒冷的天气挡不住天文爱好者的热情。当然，光有热情还不够，防寒的措施一定要做好，要是为了一夜观测而吊上一周的点滴，那就不大好了。

12月22日是冬至节气，意味着北半球到了黑夜最长的时段，可观测时间也达到了最长！在这里我也希望大家合理安排观测时间，注意休息，切勿过于疲劳。愿大家在最好的一个月中，能够更好地享受天文的乐趣，以此完美地结束这个天文年！

点击阅读全文...