果壳中的条件随机场(CRF In A Nutshell)
By 苏剑林 | 2017-11-25 | 109132位读者 | 引用本文希望用尽可能简短的语言把CRF(条件随机场,Conditional Random Field)的原理讲清楚,这里In A Nutshell在英文中其实有“导论”、“科普”等意思(霍金写过一本《果壳中的宇宙》,这里东施效颦一下)。
网上介绍CRF的文章,不管中文英文的,基本上都是先说一些概率图的概念,然后引入特征的指数公式,然后就说这是CRF。所谓“概率图”,只是一个形象理解的说法,然而如果原理上说不到点上,你说太多形象的比喻,反而让人糊里糊涂,以为你只是在装逼。(说到这里我又想怼一下了,求解神经网络,明明就是求一下梯度,然后迭代一下,这多好理解,偏偏还弄个装逼的名字叫“反向传播”,如果不说清楚它的本质是求导和迭代求解,一下子就说反向传播,有多少读者会懂?)
好了,废话说完了,来进入正题。
逐标签Softmax
CRF常见于序列标注相关的任务中。假如我们的模型输入为$Q$,输出目标是一个序列$a_1,a_2,\dots,a_n$,那么按照我们通常的建模逻辑,我们当然是希望目标序列的概率最大
$$P(a_1,a_2,\dots,a_n|Q)$$
不管用传统方法还是用深度学习方法,直接对完整的序列建模是比较艰难的,因此我们通常会使用一些假设来简化它,比如直接使用朴素假设,就得到
$$P(a_1,a_2,\dots,a_n|Q)=P(a_1|Q)P(a_2|Q)\dots P(a_n|Q)$$
【NASA每日一图】沙子般的 NGC 1313
By 苏剑林 | 2009-08-07 | 18004位读者 | 引用【NASA每日一图】不规则的NGC 55
By 苏剑林 | 2009-08-12 | 19974位读者 | 引用【NASA每日一图】超新星遗骸E0102-72
By 苏剑林 | 2009-09-05 | 17245位读者 | 引用跟风玩玩目前最大的中文GPT2模型(bert4keras)
By 苏剑林 | 2020-11-20 | 67595位读者 | 引用相信不少读者这几天都看到了清华大学与智源人工智能研究院一起搞的“清源计划”(相关链接《中文版GPT-3来了?智源研究院发布清源 CPM —— 以中文为核心的大规模预训练模型》),里边开源了目前最大的中文GPT2模型CPM-LM(26亿参数),据说未来还会开源200亿甚至1000亿参数的模型,要打造“中文界的GPT3”。
我们知道,GPT3不需要finetune就可以实现Few Shot,而目前CPM-LM的演示例子中,Few Shot的效果也是相当不错的,让人跃跃欲试,笔者也不例外。既然要尝试,肯定要将它适配到自己的bert4keras中才顺手,于是适配工作便开始了。本以为这是一件很轻松的事情,谁知道踩坑踩了快3天才把它搞好,在此把踩坑与测试的过程稍微记录一下。
【理科生读小说】来谈谈“四两拨千斤”
By 苏剑林 | 2018-01-28 | 33209位读者 | 引用多彩金庸
在金庸笔下(其实很多武侠小说都如此),武功可以分三种:第一种是实打实的猛,如洪七公的降龙十八掌、金轮法王的龙象般若功等,它们的特点是主要特点是刚猛,比如
乔峰的降龙二十八掌是丐帮前任帮主汪剑通所传,但乔峰生俱异禀,于武功上得天独厚,他这降龙二十八掌摧枯拉朽,无坚不破,较之汪帮主尤有胜过。乔峰见对方双掌齐推,自己如以单掌相抵,倘若拼成平手,自己似乎稍占上风,不免有失恭敬,于是也双掌齐出。他左右双掌中所使掌力,也仍都是外三内七,将大部分掌力留劲不发。
——出自《天龙八部》世纪新修版
第二种是以虚招为主,也就是说你不能比对手猛,你骗倒对手也行,比如桃花岛的落英神剑掌:
这套掌法是黄药师观赏桃花岛中桃花落英缤纷而创制,出招变化多端,还讲究姿势之美。她双臂挥动,四方八面都是掌影,或五虚一实,或八虚一实,直似桃林中狂风忽起、万花齐落,妙在手足飘逸,宛若翩翩起舞,但她一来功力尚浅,二来心存顾惜,未能出掌凌厉如剑。郭靖眼花缭乱,哪里还守得住门户,不提防啪啪啪啪,左肩右肩、前胸后背,接连中了四掌,黄蓉全未使力,郭靖自也不觉疼痛。
——出自《射雕英雄传》世纪新修版
第三种是以巧招为主,它不求一味刚猛,也不一味虚虚实实,而且讲究用力恰到好处,起到“以柔克刚”、“四两拨千斤”之效。显然,这种武功的代表作是太极,另外打狗棒法、乾坤大挪移、还有全真教和古墓派的武功也暗含了这个道理,比如:
广州亚运歌曲《重逢》歌词(中英文版)
By 苏剑林 | 2009-09-26 | 24002位读者 | 引用这几天各大报纸和网站都在头版头条刊登了2010年广州亚运会的亚运歌曲《重逢》,最重要的原因当然是因为她的英文版是由杨振宁夫妇翻译的。广州亚运会歌词创作者徐荣凯和杨振宁夫妇是好朋友,他把写好的中文歌词交给两人,希望他们能帮忙找一位专业人士翻译成英文版,杨振宁夫妇竟对这首词爱不释手,很快把译好的英文版歌词传回给了徐荣凯。杨振宁夫妇称只要一说起这首歌就很兴奋。
据说旋律借鉴了广东童谣《落雨大》,感觉这一定会是一首值得收藏的歌!歌曲的中文版将会由歌手毛阿敏孙楠,至于英文版是否也由毛阿敏和孙楠演唱,捞仔则表示,这次录音是计划录一个全中文版和一个B段是英文的版本,如果入围,这首歌将有可能会出现多个版本,包括全中文、全英文、中英文混合等。
最近评论