GPLinker:基于GlobalPointer的实体关系联合抽取
By 苏剑林 | 2022-01-30 | 115749位读者 | 引用在将近三年前的百度“2019语言与智能技术竞赛”(下称LIC2019)中,笔者提出了一个新的关系抽取模型(参考《基于DGCNN和概率图的轻量级信息抽取模型》),后被进一步发表和命名为“CasRel”,算是当时关系抽取的SOTA。然而,CasRel提出时笔者其实也是首次接触该领域,所以现在看来CasRel仍有诸多不完善之处,笔者后面也有想过要进一步完善它,但也没想到特别好的设计。
后来,笔者提出了GlobalPointer以及近日的Efficient GlobalPointer,感觉有足够的“材料”来构建新的关系抽取模型了。于是笔者从概率图思想出发,参考了CasRel之后的一些SOTA设计,最终得到了一版类似TPLinker的模型。
基础思路
关系抽取乍看之下是三元组$(s,p,o)$(即subject, predicate, object)的抽取,但落到具体实现上,它实际是“五元组”$(s_h,s_t,p,o_h,o_t)$的抽取,其中$s_h,s_t$分别是$s$的首、尾位置,而$o_h,o_t$则分别是$o$的首、尾位置。
GPLinker:基于GlobalPointer的事件联合抽取
By 苏剑林 | 2022-02-21 | 74891位读者 | 引用大约两年前,笔者在百度的“2020语言与智能技术竞赛”中首次接触到了事件抽取任务,并在文章《bert4keras在手,baseline我有:百度LIC2020》中分享了一个转化为BERT+CRF做NER的简单baseline。不过,当时的baseline更像是一个用来凑数的半成品,算不上一个完整的事件抽取模型。而这两年来,关系抽取的模型层见迭出,SOTA一个接一个,但事件抽取似乎没有多亮眼的设计。
最近笔者重新尝试了事件抽取任务,在之前的关系抽取模型GPLinker的基础上,结合完全子图搜索,设计一个比较简单但相对完备的事件联合抽取模型,依然称之为GPLinker,在此请大家点评一番。
任务简介
事件抽取是一个比较综合的任务。一个标准的事件抽取样本如下:
10月国际空间站过境时间
By 苏剑林 | 2009-09-20 | 21738位读者 | 引用美国3名科学家获诺贝尔生理学或医学奖
By 苏剑林 | 2009-10-05 | 18038位读者 | 引用2009年度的诺贝尔奖评选开始了,从10月5日开始,诺贝尔奖的获选人将逐步揭开。今天17:00,诺贝尔生理学或医学奖的得奖者已经揭开,他们就是美国的——美国加利福尼亚旧金山大学的伊丽莎白·布莱克本(Elizabeth Blackburn)、美国巴尔的摩约翰·霍普金斯医学院的卡罗尔-格雷德(Carol Greider)、美国哈佛医学院的杰克·绍斯塔克(Jack Szostak)以及霍华德休斯医学研究所!他们的主要成就为发现了端粒和端粒酶保护染色体的机理。
伊丽莎白·布莱克本(Elizabeth Blackburn)
关于中国人获得诺贝尔奖的情况
By 苏剑林 | 2009-10-07 | 35423位读者 | 引用在网上查了查关于华人获得诺贝尔奖的情况,共有10(11)人曾获奖
李政道:1926年生于上海,美籍华人,1957年获诺贝尔物理学奖,时年31岁;
杨振宁:1922年生于安徽,美籍华人,1957年获诺贝尔物理学奖,时年35岁;
丁肇中:1936年生于美国,美籍华人,1976年获诺贝尔物理学奖,时年40岁;
李远哲:1936年生于台湾,美籍华人,1986年诺贝尔获化学奖,时年50岁;
朱棣文:1948年生于美国,美籍华人,1997年诺贝尔获物理学奖,时年49岁;
崔 琦:1939年生于河南,美籍华人,1998年诺贝尔获物理学奖,时年59岁;
达 赖:1935年生于西藏,中国国籍,1989年诺贝尔和平奖,时年54岁;
高行健:1948年生于江西,获奖同年加入法国籍,2000年获诺文学奖,时年52岁;
钱永健:1952年生于美国,美籍华人,2008年诺贝尔化学奖,时年56岁;
高 锟:1933年生于上海,同时拥有英国、美国国籍和中国香港居民身份,2009年物理学奖,时年76岁。
希望看到更多中国人的身影,更希望看到有地地道道的Chinese的出现。诺贝尔奖,中国一定不会永远沉默!
德国女作家摘得2009诺贝尔文学奖
By 苏剑林 | 2009-10-10 | 17539位读者 | 引用中国队2010年再获IMO团体总分第一
By 苏剑林 | 2010-07-21 | 19568位读者 | 引用IMO,International Mathematical Olympiad,国际数学奥品匹克竞赛,是中学数学最高水平的国际比赛,由东欧国家发起。是为全球高中学生举办的世界最高水平的数学赛事。BoJone对它很感兴趣,不过它过于注重纯数学,应用数学少,致使BoJone不愿意放太多精力下去,因为我始终对具有明显的实际应用意义的数学和物理更感兴趣。
2010年7月2-14日在哈萨克斯坦共和国首都阿斯塔纳举行的第51届国际数学奥林匹克竞赛中,中国队6名参赛选手全部获得金牌,其中来自上海的Nie Zipei同学以本届惟一一个取得满分42分的成绩,而荣获绝对冠军,另外,Jialun Li为36分、Yikang Xiao为34分、Min Zhang为30分、Li Lai 为28分、Su Jun 为27分;中国队以总分197分(满分252),连续三年获得团体总分第一名(2007年获得亚军);中国队自1985年以来参赛25次,共获得过16次冠军;1998年未参加在台湾举行的比赛。本届比赛,俄罗斯队以169分获得亚军,美国队以一分之差屈居季军。
【语料】百度的中文问答数据集WebQA
By 苏剑林 | 2017-04-12 | 220180位读者 | 引用信息抽取
众所周知,百度知道上有大量的人提了大量的问题,并且得到大量的回复。然而,百度知道上的回复者貌似懒人居多,他们往往喜欢直接在网上复制粘贴一大片来作为回答内容,而且这些内容可能跟问题相关,也可能跟问题不相关,比如
https://zhidao.baidu.com/question/557785746.html
问:广州白云山海拨多高
答:广州白云山(Guangzhou Baiyun Mountain),是新 “羊城八景”之首、国家4A级景区和国家重点风景名胜区。它位于广州市的东北部,为南粤名山之一,自古就有“羊城第一秀”之称。山体相当宽阔,由30多座山峰组成,为广东最高峰九连山的支脉。面积20.98平方公里,主峰摩星岭高382米(注:最新测绘高度为372.6米——国家测绘局,2008年),峰峦重叠,溪涧纵横,登高可俯览全市,遥望珠江。每当雨后天晴或暮春时节,山间白云缭绕,蔚为奇观,白云山之名由此得来
最近评论