你的CRF层的学习率可能不够大
By 苏剑林 | 2020-02-07 | 100895位读者 | 引用CRF是做序列标注的经典方法,它理论优雅,实际也很有效,如果还不了解CRF的读者欢迎阅读旧作《简明条件随机场CRF介绍(附带纯Keras实现)》。在BERT模型出来之后,也有不少工作探索了BERT+CRF用于序列标注任务的做法。然而,很多实验结果显示(比如论文《BERT Meets Chinese Word Segmentation》)不管是中文分词还是实体识别任务,相比于简单的BERT+Softmax,BERT+CRF似乎并没有带来什么提升,这跟传统的BiLSTM+CRF或CNN+CRF的模型表现并不一样。
这两天给bert4keras增加了用CRF做中文分词的例子(task_sequence_labeling_cws_crf.py),在调试过程中发现了CRF层可能存在学习不充分的问题,进一步做了几个对比实验,结果显示这可能是CRF在BERT中没什么提升的主要原因,遂在此记录一下分析过程,与大家分享。
新词发现的信息熵方法与实现
By 苏剑林 | 2015-10-26 | 108027位读者 | 引用在本博客的前面文章中,已经简单提到过中文文本处理与挖掘的问题了,中文数据挖掘与英语同类问题中最大的差别是,中文没有空格,如果要较好地完成语言任务,首先得分词。目前流行的分词方法都是基于词库的,然而重要的问题就来了:词库哪里来?人工可以把一些常用的词语收集到词库中,然而这却应付不了层出不穷的新词,尤其是网络新词等——而这往往是语言任务的关键地方。因此,中文语言处理很核心的一个任务就是完善新词发现算法。
新词发现说的就是不加入任何先验素材,直接从大规模的语料库中,自动发现可能成词的语言片段。前两天我去小虾的公司膜拜,并且试着加入了他们的一个开发项目中,主要任务就是网络文章处理。因此,补习了一下新词发现的算法知识,参考了Matrix67.com的文章《互联网时代的社会语言学:基于SNS的文本数据挖掘》,尤其是里边的信息熵思想,并且根据他的思路,用Python写了个简单的脚本。
庆祝圆周率(π)节!
By 苏剑林 | 2010-03-14 | 70636位读者 | 引用π = 3.141 592 653 589 793 238 462 643 383 279 502 884 197 169 399 375 105 820 974 944 592 ...
$\pi \approx {355}/{113}$
“山巅一寺一壶酒,尔乐苦煞吾,把酒吃,酒杀尔,杀不死,乐而乐”
$\pi$,一个小小的符号,代表着一个伟大的数字。从古到今,几乎所有国家都有人研究过它。在很长的时期内,$\pi$的有效数字代表了这个国家的数学发展程度,在使用计算机计算以前,$\pi$的计算可谓是马拉松式进行。很早人们就知道了2-4位的有效数字(古希腊、古中国、古印度),众所周知之后祖冲之的3.1415926领先了一千多年;紧接着是西方的35位、100位、500位.....甚至有人穷其一生就为算$\pi$!自从计算机参与到其中之后,有效数字光速般增加,而在2009年末,有科学家已经用超级计算机计算出圆周率暂时计到小数点后2万9千亿个小数位。现在$\pi$的位数已经不大重要了(毕竟30位有效数字就完全足够用来精确衡量宇宙大小!),$\pi$的计算成为了测试计算机性能以及测试算法效率的一个指标!
《方程与宇宙》:二体问题的来来去去(一)
By 苏剑林 | 2010-03-20 | 93513位读者 | 引用为了让大家能够查询到“天体力学”方面的内容,同时锻炼我的表达和计算能力,BoJone构思了《方程与宇宙》这个主题,主要是写一些关于使用数学相对深入地讨论一些天文问题。其实我一直觉得,不用公式是无法完美地描述科学的(当然也不能纯公式),我记得霍金的《时间简史》以及《果壳中的宇宙》等之类的书,都力求不用或者尽可能少用数学公式来表达自己的观点。这种模式对于对于公众来说是很好的,但是对于希望深入研究的朋友来说却难以进行。所以我主张:宇宙是算出来的!
这个主题每一个字都是由BoJone敲击出来的,其中包括引用了《天体力学引论》里面的一些内容,以及加入了BoJone个人的一些见解。由于篇幅长及时间有限问题,BoJone打算分若干次撰写发布,并且尽可能写得通俗一点,力求让有一点微积分基础的朋友就可以弄懂。这里首先发布第一部分。由于时间匆忙等原因,可能会出现一些疏忽,欢迎大家挑错!
捉弄计划的失败——单摆周期
By 苏剑林 | 2010-06-09 | 44258位读者 | 引用“滴答滴答,滴答滴答——”当我们看到家里的摆钟来回摆动,并且能够准确地报时的时候,有没有想过其中的奥妙呢?
有一天,你想捉弄一下妈妈,把钟摆系上一个重物,心想着钟一定会走得更快,妈妈就会乱套了。可是很快你会失望地发现,摆钟依然准时地走着,没有任何异常,时间仿佛在宣告他的不可控制。你感到非常纳闷:为什么我的计划会失败呢?
据说,世界上第一个研究单摆的人是伽利略,他通过多次实验得出结论:单摆的周期只取决于摆绳的长度,和摆的重量无关。这是你明白了,原来要捉弄妈妈,应该要增加钟摆长度才对...^_^
现在我们来分析一下这个单摆....
三次方程的三角函数解法
By 苏剑林 | 2010-08-08 | 84402位读者 | 引用对于解方程,代数学家希望能够从理论上证明解的存在性以及解的求法,所以就有了1到4次方程的求根公式、5次及以上的代数方程没有根式可解等重要理论;然而,通常的学者(如物理学家、天文学家)都不需要这些内容,他们只关心如何尽可能快地求出指定方程的根(尤其是实数根),所以他们通常关注的是方程的数值算法,当然,如果能有一个相对简单的求根公式,也是他们所希望的。而接下来所要介绍的内容,则是满足了这一需要的三次方程的求根公式,其中用到的相当一部分的理论,是与三角函数相关的。
储备
\begin{equation}\frac{2}{\tan 2A}=\frac{1}{\tan A}-\tan A\end{equation}
\begin{equation}\frac{2}{\sin 2A}=\frac{1}{\tan A}+\tan A\end{equation}
\begin{equation}\cos(3A)=4\cos^3 A-3\cos A\end{equation}
与向量的渊源极深的四元数
By 苏剑林 | 2010-08-27 | 32505位读者 | 引用当我们在使用向量进行几何、物理研究的时候,是否曾经想到:向量竟然起源于“数”?
当向量还没有发展起来的时候(虽然“有方向有大小的量”很早就被人们认识),复数已经得到了认可并且有了初步应用。当我们把复数跟向量联系起来时,我们也许会认为,因为复平面表示的复数运算与向量有着相似之处,才把复数跟几何联系起来。然而事实却相反,向量是从对复数乃至一种称为“四元数”的东西的研究中逐渐分离出来的。换句话说,历史中出现过“四元数”与向量分别研究几何的阶段,麦克斯韦(Maxwell) 将四元 数的数量部分和矢量部分分开,作为 实 体处理,作了大量的矢量分析。三维矢量分析的建立,及同四元数的正式分裂是18世纪80年代由Gibbs和Heaviside独立完成的。矢量代数被推广到矢量函数和矢量微积分,由此开始了四元数和矢量分析的争论,最终矢量分析占了上风。因而“四元数”渐渐离开了教科书。不过,“四元数”的一些特殊而巧妙的应用,仍然使我们不至于忘记它。
最近评论