你的CRF层的学习率可能不够大
By 苏剑林 | 2020-02-07 | 101144位读者 | 引用CRF是做序列标注的经典方法,它理论优雅,实际也很有效,如果还不了解CRF的读者欢迎阅读旧作《简明条件随机场CRF介绍(附带纯Keras实现)》。在BERT模型出来之后,也有不少工作探索了BERT+CRF用于序列标注任务的做法。然而,很多实验结果显示(比如论文《BERT Meets Chinese Word Segmentation》)不管是中文分词还是实体识别任务,相比于简单的BERT+Softmax,BERT+CRF似乎并没有带来什么提升,这跟传统的BiLSTM+CRF或CNN+CRF的模型表现并不一样。
这两天给bert4keras增加了用CRF做中文分词的例子(task_sequence_labeling_cws_crf.py),在调试过程中发现了CRF层可能存在学习不充分的问题,进一步做了几个对比实验,结果显示这可能是CRF在BERT中没什么提升的主要原因,遂在此记录一下分析过程,与大家分享。
庆祝圆周率(π)节!
By 苏剑林 | 2010-03-14 | 70663位读者 | 引用π = 3.141 592 653 589 793 238 462 643 383 279 502 884 197 169 399 375 105 820 974 944 592 ...
$\pi \approx {355}/{113}$
“山巅一寺一壶酒,尔乐苦煞吾,把酒吃,酒杀尔,杀不死,乐而乐”
$\pi$,一个小小的符号,代表着一个伟大的数字。从古到今,几乎所有国家都有人研究过它。在很长的时期内,$\pi$的有效数字代表了这个国家的数学发展程度,在使用计算机计算以前,$\pi$的计算可谓是马拉松式进行。很早人们就知道了2-4位的有效数字(古希腊、古中国、古印度),众所周知之后祖冲之的3.1415926领先了一千多年;紧接着是西方的35位、100位、500位.....甚至有人穷其一生就为算$\pi$!自从计算机参与到其中之后,有效数字光速般增加,而在2009年末,有科学家已经用超级计算机计算出圆周率暂时计到小数点后2万9千亿个小数位。现在$\pi$的位数已经不大重要了(毕竟30位有效数字就完全足够用来精确衡量宇宙大小!),$\pi$的计算成为了测试计算机性能以及测试算法效率的一个指标!
《向量》系列——2.曲率半径
By 苏剑林 | 2010-07-18 | 54837位读者 | 引用圆周是如此地和谐与完美,致使数学家和物理学家对它钟爱有加。几何上可以把一条曲线的局部看做一个圆弧,利用圆的性质去研究它(在数学上,曲率半径的倒数就是曲率,曲率越大,曲线越弯曲);物理学家喜欢把一个质点的曲线运动轨迹的局部看做圆周运动,利用圆周运动的方法来描述这种运动。这两种研究方法都告诉了我们,两种不同的“线”在极小的范围内可以等效的,这也为我们对科学进行探究提供了一点指导思想:把未知变已知,以已知看未知。物理学和数学的两种处理方法中,有一点是殊途同归的:那就是看轨迹看成一个圆后,圆的半径是多少?我们首先得求出它。
在数学分析上可以利用微积分的相关知识来推导曲率半径公式,而BoJone则更偏爱物理方法,通过物理和向量知识的结合,推导出曲率半径公式,让BoJone感到“别有一番风味”。
向量结合复数:常曲率曲线(1)
By 苏剑林 | 2011-06-19 | 29614位读者 | 引用在之前的一篇向量系列的文章中,我们通过结合物理与向量来巧妙地推导出了曲线(包括平面和空间的)的曲率半径为
$$R=\frac{v^2}{a_c}=\frac{|\dot{\vec{r}}|^3}{|\dot{\vec{r}}\times \ddot{\vec{r}}|}\tag{1}$$
曲率则是曲率半径的导数:$\rho=\frac{1}{R}$。我们反过来思考一下:曲率恒定的平面曲线是否只有圆?
答案貌似是很显然的,我们需要证明一下。
由于只是考虑平面情况,我们先设$\dot{\vec{r}}=(v cos\theta,v sin\theta)=z=ve^{i\theta}$,代入(1)得到
$\frac{\dot{\theta}}{v}=\rho$————(2)
数学竞赛广东预赛|组成三角形的概率
By 苏剑林 | 2011-09-12 | 57423位读者 | 引用九月三日BoJone和九个同学到云浮参加了今年广东省的数学竞赛预赛,那一起出发、玩笑、作战、吃饭的情景依然历历在目,让我久久不能忘怀。是呀,能够并肩作战的感觉真好!九日数学成绩出来了,遗憾的是今年政策改变了,我被告知整个市只有三个名额能够参加复赛,于是新兴只有我一个人进入了复赛(另外两个据说是罗定的,我们三个并列第一)。有点无语,我想,大概是要把那些为了功利而参赛的人都给刷下去吧...
今年广东的预赛题前所未有的简单,不论是和全国其他地方相比还是和上一年的题目相比,都简单了不少,但我还是做得不大理想,据我估计,120分的卷子我顶多能够拿个68分,所以BoJone的基本技能实在不容乐观。从云浮考试回来后,和同行的同学讨论试题,得出了一些很有趣的结果,那过程可谓其乐无穷呀!下面是倒数第二题预赛题的几个绝妙解法,供大家欣赏。解法由我和伍泽麒(人称“兔子、神兔”,人如其名,天资聪颖,性格可爱)完成。
题目:
在一条线段中随意选取两个点,把这条线段截成三段,求这三段线段能够组成一个三角形的概率。
平面曲线的曲率的复数表示
By 苏剑林 | 2014-03-04 | 29363位读者 | 引用开学已经是第二周了,我的《微分几何》也上课两周了,进度比较慢,现在才讲到平面曲线的曲率。在平面曲线$\boldsymbol{t}(t)=(x(t),y(t))$某点上可以找出单位切向量。
$$\boldsymbol{t}=\left(\frac{dx}{ds},\frac{dy}{ds}\right)$$
其中$ds^2 =dx^2+dy^2$,将这个向量逆时针旋转90度之后,就可以定义相应的单位法向量$\boldsymbol{n}$,即$\boldsymbol{t}\cdot\boldsymbol{n}=0$。
常规写法
让我们用弧长$s$作为参数来描述曲线方程,$\boldsymbol{t}(s)=(x(s),y(s))$,函数上的一点表示对$s$求导。那么我们来考虑$\dot{\boldsymbol{t}}$,由于$\boldsymbol{t}^2=1$,对s求导得到
$$\boldsymbol{t}\cdot\dot{\boldsymbol{t}}=0$$
Mathieu方程
在文章《有质动力:倒立单摆的稳定性》中,我们分析了通过高频低幅振荡来使得倒立单摆稳定的可能性,并且得出了运动方程
$$l\ddot{\theta}+[h_0 \omega^2 \cos(\omega t)-g]\sin\theta=0$$
由此对单摆频率的下限提出了要求$\omega \gg \sqrt{\frac{g}{h_0}}$。然而,那个下限只不过是必要的,却不是充分的。如果要完整地分析该单摆的运动方程,最理想的方法当然是写出上述常微分方程的解析解。不过很遗憾,我们并没有办法做到这一点。我们只能够采取各种近似方法来求解。近似方法一般指数值计算方法,然后笔者偏爱的是解析方法,也就是说,即使是近似解,也希望能够求出近似的解析解。
最近评论