你的CRF层的学习率可能不够大
By 苏剑林 | 2020-02-07 | 96727位读者 | 引用CRF是做序列标注的经典方法,它理论优雅,实际也很有效,如果还不了解CRF的读者欢迎阅读旧作《简明条件随机场CRF介绍(附带纯Keras实现)》。在BERT模型出来之后,也有不少工作探索了BERT+CRF用于序列标注任务的做法。然而,很多实验结果显示(比如论文《BERT Meets Chinese Word Segmentation》)不管是中文分词还是实体识别任务,相比于简单的BERT+Softmax,BERT+CRF似乎并没有带来什么提升,这跟传统的BiLSTM+CRF或CNN+CRF的模型表现并不一样。
这两天给bert4keras增加了用CRF做中文分词的例子(task_sequence_labeling_cws_crf.py),在调试过程中发现了CRF层可能存在学习不充分的问题,进一步做了几个对比实验,结果显示这可能是CRF在BERT中没什么提升的主要原因,遂在此记录一下分析过程,与大家分享。
新词发现的信息熵方法与实现
By 苏剑林 | 2015-10-26 | 104224位读者 | 引用在本博客的前面文章中,已经简单提到过中文文本处理与挖掘的问题了,中文数据挖掘与英语同类问题中最大的差别是,中文没有空格,如果要较好地完成语言任务,首先得分词。目前流行的分词方法都是基于词库的,然而重要的问题就来了:词库哪里来?人工可以把一些常用的词语收集到词库中,然而这却应付不了层出不穷的新词,尤其是网络新词等——而这往往是语言任务的关键地方。因此,中文语言处理很核心的一个任务就是完善新词发现算法。
新词发现说的就是不加入任何先验素材,直接从大规模的语料库中,自动发现可能成词的语言片段。前两天我去小虾的公司膜拜,并且试着加入了他们的一个开发项目中,主要任务就是网络文章处理。因此,补习了一下新词发现的算法知识,参考了Matrix67.com的文章《互联网时代的社会语言学:基于SNS的文本数据挖掘》,尤其是里边的信息熵思想,并且根据他的思路,用Python写了个简单的脚本。
精确自由落体运动定律的讨论(二)
By 苏剑林 | 2010-01-09 | 52867位读者 | 引用之前在这篇文章中,我们使用过一个牛顿引力场中的自由落体公式:
$t=\sqrt{\frac{r_0}{2GM}}{r_0 \cdot arctg \sqrt{\frac{r_0 -r}{r}}+\sqrt{r(r_0 -r)}}$——(1)
我们来尝试一下推导出这个公式来。同时,站长在逐渐深入研究的过程中,发现微分方程极其重要。以前一些我认为不可能解决的问题,都用微分方程逐渐解决了。在以后的文章里,我们将会继续体验到微分方程的伟大魔力!因此,建议各位有志研究物理学的朋友,一定要掌握微分方程,更加深入的,需要用到偏微分方程!
首先,质量为m的物理在距离地心r处的引力为$\frac{GMm}{r^2}$,根据牛顿第二定律F=ma,自然下落的物体所获得的加速度为$\frac{GM}{r^2}$。假设物体从距离地心r开始向地心自由下落,求位移s关于t的函数s=s(t).
科学空间:2009年12月重要天象
By 苏剑林 | 2009-12-05 | 21907位读者 | 引用哥本哈根气候大会召开情况
By 苏剑林 | 2009-12-08 | 15801位读者 | 引用开始了,成与否,期待吧!
我们能够做的,也只有期待......
简介
12月7日起,192个国家的环境部长和其他官员们将在哥本哈根召开联合国气候会议,商讨《京都议定书》一期承诺到期后的后续方案,就未来应对气候变化的全球行动签署新的协议。这是继《京都议定书》后又一具有划时代意义的全球气候协议书,毫无疑问,对地球今后的气候变化走向产生决定性的影响。这是一次被喻为“拯救人类的最后一次机会”的会议。会议将在现代化的Bella中心举行,为期两周。联合国气候会议一年召开一次,其前身为1992年在里约热内卢召开的地球峰会,地球峰会的目的是协调应对气候变化而采取的国际行动。
最近评论