包含关键字 2013国赛b 的文章 - 科学空间|Scientific Spaces

3 Jan

用bert4keras做三元组抽取

By 苏剑林 | 2020-01-03 | 289565位读者 | 引用

在开发bert4keras的时候就承诺过，会逐渐将之前用keras-bert实现的例子逐渐迁移到bert4keras来，而那里其中一个例子便是三元组抽取的任务。现在bert4keras的例子已经颇为丰富了，但还没有序列标注和信息抽取相关的任务，而三元组抽取正好是这样的一个任务，因此就补充上去了。

基于Bert的三元组抽取模型结构示意图

点击阅读全文...

分类：信息时代标签：语言模型, 信息抽取阅读全文 117 评论

18 Jun

当Bert遇上Keras：这可能是Bert最简单的打开姿势

By 苏剑林 | 2019-06-18 | 473728位读者 | 引用

Bert是什么，估计也不用笔者来诸多介绍了。虽然笔者不是很喜欢Bert，但不得不说，Bert确实在NLP界引起了一阵轩然大波。现在不管是中文还是英文，关于Bert的科普和解读已经满天飞了，隐隐已经超过了当年Word2Vec刚出来的势头了。有意思的是，Bert是Google搞出来的，当年的word2vec也是Google搞出来的，不管你用哪个，都是在跟着Google大佬的屁股跑啊～

Bert刚出来不久，就有读者建议我写个解读，但我终究还是没有写。一来，Bert的解读已经不少了，二来其实Bert也就是基于Attention的搞出来的大规模语料预训练的模型，本身在技术上不算什么创新，而关于Google的Attention我已经写过解读了，所以就提不起劲来写了。

Bert的预训练和微调（图片来自Bert的原论文）

总的来说，我个人对Bert一直也没啥兴趣，直到上个月末在做信息抽取比赛时，才首次尝试了Bert。因为后来想到，即使不感兴趣，终究也是得学会它，毕竟用不用是一回事，会不会又是另一回事。再加上在Keras中使用（fine tune）Bert，似乎还没有什么文章介绍，所以就分享一下自己的使用经验。

点击阅读全文...

分类：信息时代标签：语言模型, 比赛, 信息抽取, attention 阅读全文 168 评论

29 Jun

基于Bert的NL2SQL模型：一个简明的Baseline

By 苏剑林 | 2019-06-29 | 158474位读者 | 引用

在之前的文章《当Bert遇上Keras：这可能是Bert最简单的打开姿势》中，我们介绍了基于微调Bert的三个NLP例子，算是体验了一把Bert的强大和Keras的便捷。而在这篇文章中，我们再添一个例子：基于Bert的NL2SQL模型。

NL2SQL的NL也就是Natural Language，所以NL2SQL的意思就是“自然语言转SQL语句”，近年来也颇多研究，它算是人工智能领域中比较实用的一个任务。而笔者做这个模型的契机，则是今年我司举办的首届“中文NL2SQL挑战赛”：

首届中文NL2SQL挑战赛，使用金融以及通用领域的表格数据作为数据源，提供在此基础上标注的自然语言与SQL语句的匹配对，希望选手可以利用数据训练出可以准确转换自然语言到SQL的模型。

这个NL2SQL比赛算是今年比较大型的NLP赛事了，赛前投入了颇多人力物力进行宣传推广，比赛的奖金也颇丰富，唯一的问题是NL2SQL本身算是偏冷门的研究领域，所以注定不会太火爆，为此主办方也放出了一个Baseline，基于Pytorch写的，希望能降低大家的入门难度。

抱着“Baseline怎么能少得了Keras版”的心态，我抽时间自己用Keras做了做这个比赛，为了简化模型并且提升效果也加载了预训练的Bert模型，最终形成此文。

点击阅读全文...

分类：信息时代标签：语言模型, 比赛, sql, attention 阅读全文 45 评论

2 Apr

bert4keras在手，baseline我有：百度LIC2020

By 苏剑林 | 2020-04-02 | 104990位读者 | 引用

百度的“2020语言与智能技术竞赛”开赛了，今年有五个赛道，分别是机器阅读理解、推荐任务对话、语义解析、关系抽取、事件抽取。每个赛道中，主办方都给出了基于PaddlePaddle的baseline模型，这里笔者也基于bert4keras给出其中三个赛道的个人baseline，从中我们可以看到用bert4keras搭建baseline模型的方便快捷与简练。

地址：https://github.com/bojone/lic2020_baselines

思路简析

这里简单分析一下这三个赛道的任务特点以及对应的baseline设计。

点击阅读全文...

分类：信息时代标签：模型, keras, attention 阅读全文 34 评论

17 Jul

最近了解到一种称为“BERT-of-Theseus”的BERT模型压缩方法，来自论文《BERT-of-Theseus: Compressing BERT by Progressive Module Replacing》。这是一种以“可替换性”为出发点所构建的模型压缩方案，相比常规的剪枝、蒸馏等手段，它整个流程显得更为优雅、简洁。本文将对该方法做一个简要的介绍，给出一个基于bert4keras的实现，并验证它的有效性。

BERT-of-Theseus，原作配图

模型压缩

首先，我们简要介绍一下模型压缩。不过由于笔者并非专门做模型压缩的，也没有经过特别系统的调研，所以该介绍可能显得不专业，请读者理解。

点击阅读全文...

分类：信息时代标签：模型, attention, 模型压缩阅读全文 36 评论

27 Sep

必须要GPT3吗？不，BERT的MLM模型也能小样本学习

By 苏剑林 | 2020-09-27 | 174583位读者 | 引用

大家都知道现在GPT3风头正盛，然而，到处都是GPT3、GPT3地推，读者是否记得GPT3论文的名字呢？事实上，GPT3的论文叫做《Language Models are Few-Shot Learners》，标题里边已经没有G、P、T几个单词了，只不过它跟开始的GPT是一脉相承的，因此还是以GPT称呼它。顾名思义，GPT3主打的是Few-Shot Learning，也就是小样本学习。此外，GPT3的另一个特点就是大，最大的版本多达1750亿参数，是BERT Base的一千多倍。

BERT的MLM模型简单示意图

正因如此，前些天Arxiv上的一篇论文《It's Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners》便引起了笔者的注意，意译过来就是“谁说一定要大的？小模型也可以做小样本学习”。显然，这标题对标的就是GPT3，于是笔者饶有兴趣地点进去看看是谁这么有勇气挑战GPT3，又是怎样的小模型能挑战GPT3？经过阅读，原来作者提出通过适当的构造，用BERT的MLM模型也可以做小样本学习，看完之后颇有一种“原来还可以这样做”的恍然大悟感～在此与大家分享一下。

点击阅读全文...

分类：信息时代标签：无监督, 语言模型, NLP 阅读全文 64 评论

5 Mar

短文本匹配Baseline：脱敏数据使用预训练模型的尝试

By 苏剑林 | 2021-03-05 | 121519位读者 | 引用

最近凑着热闹玩了玩全球人工智能技术创新大赛中的“小布助手对话短文本语义匹配”赛道，其任务就是常规的短文本句子对二分类任务，这任务在如今各种预训练Transformer“横行”的时代已经没啥什么特别的难度了，但有意思的是，这次比赛脱敏了，也就是每个字都被影射为数字ID了，我们无法得到原始文本。

在这种情况下，还能用BERT等预训练模型吗？用肯定是可以用的，但需要一些技巧，并且可能还需要再预训练一下。本文分享一个baseline，它将分类、预训练和半监督学习都结合在了一起，能够用于脱敏数据任务。

本文模型示意图

点击阅读全文...

分类：信息时代标签：语言模型, 语义, 语义相似度阅读全文 39 评论

1 May

GlobalPointer：用统一的方式处理嵌套和非嵌套NER

By 苏剑林 | 2021-05-01 | 364466位读者 | 引用

（注：本文的相关内容已整理成论文《Global Pointer: Novel Efficient Span-based Approach for Named Entity Recognition》，如需引用可以直接引用英文论文，谢谢。）

本文将介绍一个称为GlobalPointer的设计，它利用全局归一化的思路来进行命名实体识别（NER），可以无差别地识别嵌套实体和非嵌套实体，在非嵌套（Flat NER）的情形下它能取得媲美CRF的效果，而在嵌套（Nested NER）情形它也有不错的效果。还有，在理论上，GlobalPointer的设计思想就比CRF更合理；而在实践上，它训练的时候不需要像CRF那样递归计算分母，预测的时候也不需要动态规划，是完全并行的，理想情况下时间复杂度是 $\mathcal{O}(1)$ ！

简单来说，就是更漂亮、更快速、更强大！真有那么好的设计吗？不妨继续看看。

GlobalPointer多头识别嵌套实体示意图

点击阅读全文...

分类：信息时代标签：模型, NLP, NER 阅读全文 188 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

用bert4keras做三元组抽取

当Bert遇上Keras：这可能是Bert最简单的打开姿势

基于Bert的NL2SQL模型：一个简明的Baseline

bert4keras在手，baseline我有：百度LIC2020

思路简析

BERT-of-Theseus：基于模块替换的模型压缩方法

模型压缩

必须要GPT3吗？不，BERT的MLM模型也能小样本学习

短文本匹配Baseline：脱敏数据使用预训练模型的尝试

GlobalPointer：用统一的方式处理嵌套和非嵌套NER

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接