你的CRF层的学习率可能不够大
By 苏剑林 | 2020-02-07 | 100096位读者 | 引用CRF是做序列标注的经典方法,它理论优雅,实际也很有效,如果还不了解CRF的读者欢迎阅读旧作《简明条件随机场CRF介绍(附带纯Keras实现)》。在BERT模型出来之后,也有不少工作探索了BERT+CRF用于序列标注任务的做法。然而,很多实验结果显示(比如论文《BERT Meets Chinese Word Segmentation》)不管是中文分词还是实体识别任务,相比于简单的BERT+Softmax,BERT+CRF似乎并没有带来什么提升,这跟传统的BiLSTM+CRF或CNN+CRF的模型表现并不一样。
这两天给bert4keras增加了用CRF做中文分词的例子(task_sequence_labeling_cws_crf.py),在调试过程中发现了CRF层可能存在学习不充分的问题,进一步做了几个对比实验,结果显示这可能是CRF在BERT中没什么提升的主要原因,遂在此记录一下分析过程,与大家分享。
解答不等式的误区...
By 苏剑林 | 2010-05-02 | 33431位读者 | 引用[更正]一道经典不等式的美妙证明
By 苏剑林 | 2011-07-20 | 23225位读者 | 引用在数学竞赛中,很多题目都专门设置了一种技巧,这种技巧在很大程度上是不怎么理所当然的,换句话说,难以“顺理成章”地想下去,或者是说方法不成系统的,这也是我有点不喜欢数学竞赛题目的一个原因。当然,另一方面,个人认为数学竞赛比物理竞赛更能锻炼一个人的思维能力,尤其是在抽象思维以及几何想象能力等,因此做一些这样的题目也会有好处的。
下面就是一道很经典的竞赛题,它是在韩国举行的第42届IMO中的题目:
设a,b,c都是正实数,求证:
$\frac{a}{\sqrt{a^2+8bc}}+ \frac{b}{\sqrt{b^2+8ac}} + \frac{c}{\sqrt{c^2+8ab}} \geq 1$
对称多项式不等式的“物理证明”
By 苏剑林 | 2011-08-13 | 35824位读者 | 引用本文将再次谈到对称这个话题,不过这一次的对象不是“等式”,而是“不等式”。
在数学研究中,我们经常会遇到各种各样的函数式子,其中有相当一部分是“对称”的。什么是对称的函数呢?对称有很多种说法,但是针对于多元对称式,我们的定义为满足$f(x_1,x_2,...,x_n)=f(y_1,y_2,...,y_n)$的函数,其中$(y_1,y_2,...,y_n)$是$(x_1,x_2,...,x_n)$的任意一个排列。通俗来讲,就是将式子中任意两个未知数交换位置,得到的式子还是和原来的式子一样。例如$\sin x+\sin y$,把$x,y$交换位置后得到$\sin y+\sin x$,还是和原来的一样;再如$xy+yz+zx$,将y,z互换后可以得到$xz+zy+yx$,结果还是和原式一样;等等。有些对称的函数是一个n次的多项式,那么就叫它为n次对称多项式,上边的例子$xz+zy+yx$就是一个三元二次对称多项式。
“未解之谜”:为何不讲中点矩形法则?
By 苏剑林 | 2012-07-20 | 53610位读者 | 引用前言
在之前的一些文章中,我们已经指出过现行教材的一些毛病。比如主次不当(最明显的是那些一上来就讲线性方程组的线性代数教程)、缺乏直观性、缺少引导性等,我想其中最主要的原因可能是过于随大流了,别人怎么编我们也跟着怎么编,缺乏自己的观点和逻辑,因此导致一些常见的毛病就一直流传了下来。也许正因如此,就导致了有那么一种奇怪的现象——明明有一种计算量少的、精确度高一些的方法,教科书几乎从未提及;另外一种计算量稍大、精确度稍低的方法,但每一本同类教科书都讲述了它。不能不说这是一个“未解之谜”......
本文要讲的就是这样的两种方法,它们分别是用来求定积分近似值的“中点矩形法则”和“梯形法则”。对于后者我想绝大多数学习过微积分的朋友都会有印象,它就是那个几乎出现在了所有微积分教材的方法;而前者我相信不少读者都未曾听闻,但让人意外的是,它的计算量稍低,精确度却稍高。本文就简单介绍这两种方法,并且比较它们的精度。而本文的独特之处在于,证明过程沿用了《复分析:可视化方法》的思路,使用几何方法漂亮地估计误差!
我们的目标是在难以精确计算的情况下,通过一定的方法求出$\int_a^b f(x)dx$的近似值,这些方法基本上都是利用了积分即面积的思想。
两种不同的方法
最近在浏览“数学研发论坛”的时候,发现了一系列不等式手册,感觉是挺宝贵的资源,就把它转载到这里来了。
当然,里边的内容难度不一,很多东西我自己也未必用得上,甚至不能弄懂,不过还是放在这里保存,并与大家分享。
原文链接:http://bbs.emath.ac.cn/thread-1549-1-1.html
文件包内容:
152个未解决的问题.pdf
HLODER 与 MINKOWSKI不等式.pdf
不等式常用证法50种.pdf
不等式基本性质.pdf
单调函数不等式.pdf
调和函数不等式.pdf
多边形与多面体不等式.pdf
反三角函数不等式.pdf
级数不等式.pdf
数论不等式.pdf
均值不等式的两个巧妙证明
By 苏剑林 | 2012-09-26 | 52693位读者 | 引用记得几年前,BoJone提供过一个证明均值不等式(代数—几何平均不等式)的方法,但是其中的证明有点长,有点让人眼花缭乱的感觉(虽然里边的思想还是挺简单的)。昨天在上《数学分析》课程的时候,老师讲到了这个不等式,也讲了他的证明,用的是数学归纳法,感觉还是没有那种简洁美和巧妙美。但这让我回想起了之前我研究过的两种巧妙证明方法,可是在昨天划了一整天,都没有把这两种方法回忆起来。直到今天才回想起来,所以就放在这里与大家分享,同时也作备忘之用。
对于若干个非负数$x_i$,我们有
$$\frac{x_1+x_2+...+x_n}{n} \geq \sqrt[n]{x_1 x_2 ... x_n}$$
记为$A_n \geq G_n$
证明1:数学归纳法
这个方法不算简单,但是非常巧妙,它从n递推到n+1的过程让人拍案叫绝。用数学归纳法证明詹森不等式也是同样的递推思路,而均值不等式不过是詹森不等式的一个特例而已。
假设$A_n \geq G_n$成立,要证$A_{n+1} \geq G_{n+1}$。我们有
$$\begin{aligned}&2n A_{n+1}=(n+1)A_{n+1}+(n-1)A_{n+1} \\
=&[x_1 + x_2 +...+x_n]+[x_{n+1}+(n-1)A_{n+1}] \\
\geq &nG_n+n(x_{n+1}\cdot A_{n+1}^{n-1})^{\frac{1}{n}} \\
\geq &2n(G_{n+1}^{n+1}\cdot A_{n+1}^{n-1})^{\frac{1}{2n}}\end{aligned}$$
证明光速不变的一个理想实验??
By 苏剑林 | 2012-10-18 | 62702位读者 | 引用在狭义相对论发表之前和之后,都有不少实验从不同角度论证了它的正确性。这些实验大多数是实际测量得出结果的,当然也存在着一些“理想实验”,这些实验只需要一定的逻辑推理,而实际上是无法完成的。下面就是我很久之前在某本书(很抱歉,我真的忘记书名了)看到的一个用来推翻光速可叠加的伽利略变换的理想实验。它只用寥寥几句,就好像已经证明了“c+c=c”(c是真空中的光速)的事实。可是“c+c=c”在狭义相对论上是作为原理出现的,是不可能通过逻辑推理来证明的。事实究竟如何?我们先来看这个实验。
任意选定一个坐标原点。设想原点的正北方$c\cdot t_0$处有一架以光速$c$朝南运行的飞机1;原点的正西方$c\cdot t_0$处有一架以光速$c$朝东运行的飞机2。假设就这样匀速运动着,显然,$t_0$时间后,将会发生惨剧(飞机相撞)。
最近评论