18 Jun

当Bert遇上Keras：这可能是Bert最简单的打开姿势

By 苏剑林 | 2019-06-18 | 569636位读者 |

Bert是什么，估计也不用笔者来诸多介绍了。虽然笔者不是很喜欢Bert，但不得不说，Bert确实在NLP界引起了一阵轩然大波。现在不管是中文还是英文，关于Bert的科普和解读已经满天飞了，隐隐已经超过了当年Word2Vec刚出来的势头了。有意思的是，Bert是Google搞出来的，当年的word2vec也是Google搞出来的，不管你用哪个，都是在跟着Google大佬的屁股跑啊～

Bert刚出来不久，就有读者建议我写个解读，但我终究还是没有写。一来，Bert的解读已经不少了，二来其实Bert也就是基于Attention的搞出来的大规模语料预训练的模型，本身在技术上不算什么创新，而关于Google的Attention我已经写过解读了，所以就提不起劲来写了。

Bert的预训练和微调（图片来自Bert的原论文）

总的来说，我个人对Bert一直也没啥兴趣，直到上个月末在做信息抽取比赛时，才首次尝试了Bert。因为后来想到，即使不感兴趣，终究也是得学会它，毕竟用不用是一回事，会不会又是另一回事。再加上在Keras中使用（fine tune）Bert，似乎还没有什么文章介绍，所以就分享一下自己的使用经验。

当Bert遇上Keras #

很幸运的是，已经有大佬封装好了Keras版的Bert，可以直接调用官方发布的预训练权重，对于已经有一定Keras基础的读者来说，这可能是最简单的调用Bert的方式了。所谓“站在巨人的肩膀上”，就是形容我们这些Keras爱好者此刻的心情了。

keras-bert #

个人认为，目前在Keras下对Bert最好的封装是：

keras-bert：https://github.com/CyberZHG/keras-bert

本文也是以此为基础的。

顺便一提的是，除了keras-bert之外，CyberZHG大佬还封装了很多有价值的keras模块，比如keras-gpt-2（你可以用像用bert一样用gpt2模型了）、keras-lr-multiplier（分层设置学习率）、keras-ordered-neurons（就是前不久介绍的ON-LSTM）等等，汇总可以看这里。看来也是一位Keras铁杆粉丝啊～致敬大佬。

事实上，有了keras-bert之后，再加上一点点keras基础知识，而且keras-bert所给的demo已经足够完善，调用、微调Bert都已经变成了意见没有什么技术含量的事情了。所以后面笔者只是给出几个中文的例子，来让读者上手keras-bert的基本用法。

Tokenizer #

正式讲例子之前，还有必要先讲一下Tokenizer相关内容。我们导入Bert的Tokenizer并重构一下它：

from keras_bert import load_trained_model_from_checkpoint, Tokenizer
import codecs


config_path = '../bert/chinese_L-12_H-768_A-12/bert_config.json'
checkpoint_path = '../bert/chinese_L-12_H-768_A-12/bert_model.ckpt'
dict_path = '../bert/chinese_L-12_H-768_A-12/vocab.txt'

token_dict = {}
with codecs.open(dict_path, 'r', 'utf8') as reader:
    for line in reader:
        token = line.strip()
        token_dict[token] = len(token_dict)

class OurTokenizer(Tokenizer):
    def _tokenize(self, text):
        R = []
        for c in text:
            if c in self._token_dict:
                R.append(c)
            elif self._is_space(c):
                R.append('[unused1]') # space类用未经训练的[unused1]表示
            else:
                R.append('[UNK]') # 剩余的字符是[UNK]
        return R

tokenizer = OurTokenizer(token_dict)
tokenizer.tokenize(u'今天天气不错')
# 输出是 ['[CLS]', u'今', u'天', u'天', u'气', u'不', u'错', '[SEP]']

这里简单解释一下Tokenizer的输出结果。首先，默认情况下，分词后句子首位会分别加上[CLS]和[SEP]标记，其中[CLS]位置对应的输出向量是能代表整句的句向量（反正Bert是这样设计的），而[SEP]则是句间的分隔符，其余部分则是单字输出（对于中文来说）。

本来Tokenizer有自己的_tokenize方法，我这里重写了这个方法，是要保证tokenize之后的结果，跟原来的字符串长度等长（如果算上两个标记，那么就是等长再加2）。Tokenizer自带的_tokenize会自动去掉空格，然后有些字符会粘在一块输出，导致tokenize之后的列表不等于原来字符串的长度了，这样如果做序列标注的任务会很麻烦。而为了避免这种麻烦，还是自己重写一遍好了～主要就是用[unused1]来表示空格类字符，而其余的不在列表的字符用[UNK]表示，其中[unused*]这些标记是未经训练的（随即初始化），是Bert预留出来用来增量添加词汇的标记，所以我们可以用它们来指代任何新字符。

三个例子 #

这里包含keras-bert的三个例子，分别是文本分类、关系抽取和主体抽取，都是在官方发布的预训练权重基础上进行微调来做的。

Bert官方Github：https://github.com/google-research/bert
官方的中文预训练权重：chinese_L-12_H-768_A-12.zip
例子所在Github：https://github.com/bojone/bert_in_keras/

根据官方介绍，这份权重是用中文维基百科为语料进行训练的。

（2019年6月20日更新：哈工大讯飞联合实验室发布了一版新权重，也可以用keras_bert加载，详情请看这里。）

文本分类 #

作为第一个例子，我们做一个最基本的文本分类任务，熟悉做这个基本任务之后，剩下的各种任务都会变得相当简单了。这次我们以之前已经讨论过多次的文本感情分类任务为例，所用的标注数据也是以前所整理的。

让我们来看看模型部分全貌（完整代码见这里）：

# 注意，尽管可以设置seq_len=None，但是仍要保证序列长度不超过512
bert_model = load_trained_model_from_checkpoint(config_path, checkpoint_path, seq_len=None)

for l in bert_model.layers:
    l.trainable = True

x1_in = Input(shape=(None,))
x2_in = Input(shape=(None,))

x = bert_model([x1_in, x2_in])
x = Lambda(lambda x: x[:, 0])(x) # 取出[CLS]对应的向量用来做分类
p = Dense(1, activation='sigmoid')(x)

model = Model([x1_in, x2_in], p)
model.compile(
    loss='binary_crossentropy',
    optimizer=Adam(1e-5), # 用足够小的学习率
    metrics=['accuracy']
)
model.summary()

在Keras中调用Bert来做情感分类任务就这样写完了～写完了～～

是不是感觉还没有尽兴，模型代码就结束了？Keras调用Bert就这么简短。事实上，真正调用Bert的也就只有load_trained_model_from_checkpoint那一行代码，剩下的只是普通的Keras操作（再次感谢CyberZHG大佬）。所以，如果你已经入门了Keras，那么调用Bert是无往不利啊。

如此简单的调用，能达到什么精度？经过5个epoch的fine tune后，验证集的最好准确率是95.5%+！之前我们在《文本情感分类（三）：分词 OR 不分词》中死调烂调，也就只有90%上下的准确率；而用了Bert之后，寥寥几行，就提升了5个百分点多的准确率！也难怪Bert能在NLP界掀起一阵热潮...

在这里，用笔者的个人经历先回答读者可能关心的两个问题。
第一个问题应该是大家都很关心的，那就是“要多少显存才够？”。事实上，这没有一个标准答案，显存的使用取决于三个因素：句子长度、batch size、模型复杂度。像上面的情感分析例子，在笔者的GTX1060 6G显存上也能跑起来，只需要将batch size调到24即可。所以，如果你的显存不够大，将句子的maxlen和batch size都调小一点试试。当然，如果你的任务太复杂，再小的maxlen和batch size也可能OOM，那就只有升级显卡了。
第二个问题是“有什么原则来指导Bert后面应该要接哪些层？”。答案是：用尽可能少的层来完成你的任务。比如上述情感分析只是一个二分类任务，你就取出第一个向量然后加个Dense(1)就好了，不要想着多加几层Dense，更加不要想着接个LSTM再接Dense；如果你要做序列标注（比如NER），那你就接个Dense+CRF就好，也不要多加其他东西。总之，额外加的东西尽可能少。一是因为Bert本身就足够复杂，它有足够能力应对你要做的很多任务；二来你自己加的层都是随机初始化的，加太多会对Bert的预训练权重造成剧烈扰动，容易降低效果甚至造成模型不收敛～

关系抽取 #

假如读者已经有了一定的Keras基础，那么经过第一个例子的学习，其实我们应该已经完全掌握了Bert的fine tune了，因为实在是简单到没有什么好讲了。所以，后面两个例子主要是提供一些参考模式，让读者能体会到如何“用尽可能少的层来完成你的任务”。

在第二个例子中，我们介绍基于Bert实现的一个极简的关系抽取模型，其标注原理跟《基于DGCNN和概率图的轻量级信息抽取模型》介绍的一样，但是得益于Bert强大的编码能力，我们所写的部分可以大大简化。在笔者所给出的一种参考实现中，模型部分如下（完整模型见这里）：

t = bert_model([t1, t2])
ps1 = Dense(1, activation='sigmoid')(t)
ps2 = Dense(1, activation='sigmoid')(t)

subject_model = Model([t1_in, t2_in], [ps1, ps2]) # 预测subject的模型


k1v = Lambda(seq_gather)([t, k1])
k2v = Lambda(seq_gather)([t, k2])
kv = Average()([k1v, k2v])
t = Add()([t, kv])
po1 = Dense(num_classes, activation='sigmoid')(t)
po2 = Dense(num_classes, activation='sigmoid')(t)

object_model = Model([t1_in, t2_in, k1_in, k2_in], [po1, po2]) # 输入text和subject，预测object及其关系


train_model = Model([t1_in, t2_in, s1_in, s2_in, k1_in, k2_in, o1_in, o2_in],
                    [ps1, ps2, po1, po2])

如果读者已经读过《基于DGCNN和概率图的轻量级信息抽取模型》一文，了解到不用Bert时的模型架构，那么就会理解到上述实现是多么的简介明了。

可以看到，我们引入了Bert作为编码器，然后得到了编码序列$t$，然后直接接两个Dense(1)，这就完成了subject的标注模型；接着，我们把传入的s的首尾对应的编码向量拿出来，直接加到编码向量序列$t$中去，然后再接两个Dense(num_classes)，就完成object的标注模型（同时标注出了关系）。

这样简单的设计，最终F1能到多少？答案是：线下dev能接近82%，线上我提交过一次，结果是85%+（都是单模型）！相比之下，《基于DGCNN和概率图的轻量级信息抽取模型》中的模型，需要接CNN，需要搞全局特征，需要将s传入到LSTM进行编码，还需要相对位置向量，各种拍脑袋的模块融合在一起，单模型也只比它好一点点（大约82.5%）。要知道，这个基于Bert的简单模型我只写了一个小时就写出来了，而各种技巧和模型融合在一起的DGCNN模型，我前前后后调试了差不多两个月！Bert的强悍之处可见一斑。

（注：这个模型的fine tune最好有8G以上的显存。另外，因为我在比赛即将结束的前几天才接触的Bert，才把这个基于Bert的模型写出来，没有花心思好好调试，所以最终的提交结果并没有包含Bert。）

用Bert做关系抽取的这个例子，跟前面情感分析的简单例子，有一个明显的差别是学习率的变化。
情感分析的例子中，只是用了恒定的学习率（$10^{-5}$）训练了几个epoch，效果就还不错了。在关系抽取这个例子中，第一个epoch的学习率慢慢从$0$增加到$5\times 10^{-5}$（这样称为warmup），第二个epoch再从$5\times 10^{-5}$降到$10^{-5}$，总的来说就是先增后减，Bert本身也是用类似的学习率曲线来训练的，这样的训练方式比较稳定，不容易崩溃，而且效果也比较好。

事件主体抽取 #

最后一个例子来自CCKS 2019 面向金融领域的事件主体抽取，这个比赛目前还在进行，不过我也已经没有什么动力和兴趣做下去了，所以放出我现在的模型（准确率为89%+）供大家参考，祝继续参赛的选手取得更好的成绩。

简单介绍一下这个比赛的数据，大概是这样的

输入：“公司A产品出现添加剂，其下属子公司B和公司C遭到了调查”， “产品出现问题”
输出： “公司A”

也就是说，这是个双输入、单输出的模型，输入是一个query和一个事件类型，输出一个实体（有且只有一个，并且是query的一个片段）。其实这个任务可以看成是SQUAD 1.0的简化版，根据这个输出特性，输出应该用指针结构比较好（两个softmax分别预测首尾）。剩下的问题是：双输入怎么搞？

前面两个例子虽然复杂度不同，但它们都是单一输入的，双输入怎么办呢？当然，这里的实体类型只有有限个，直接Embedding也行，只不过我使用一种更能体现Bert的简单粗暴和强悍的方案：直接用连接符将两个输入连接成一个句子，然后就变成单输入了！比如上述示例样本处理成：

输入：“___产品出现问题___公司A产品出现添加剂，其下属子公司B和公司C遭到了调查”
输出： “公司A”

然后就变成了普通的单输入抽取问题了。说到这个，这个模型的代码也就没有什么好说的了，就简单几行（完整代码请看这里）：

x = bert_model([x1, x2])
ps1 = Dense(1, use_bias=False)(x)
ps1 = Lambda(lambda x: x[0][..., 0] - (1 - x[1][..., 0]) * 1e10)([ps1, x_mask])
ps2 = Dense(1, use_bias=False)(x)
ps2 = Lambda(lambda x: x[0][..., 0] - (1 - x[1][..., 0]) * 1e10)([ps2, x_mask])

model = Model([x1_in, x2_in], [ps1, ps2])

另外加上一些解码的trick，还有模型融合，提交上去，就可以做到89%+了。在看看目前排行榜，发现最好的结果也就是90%多一点点，所以估计大家都差不多是这样做的了...（这个代码重复实验时波动比较大，大家可以多跑几次，取最优结果。）

这个例子主要告诉我们，用Bert实现自己的任务时，最好能整理成单输入的模式，这样一来比较简单，二来也更加高效。
比如做句子相似度模型，输入两个句子，输出一个相似度，有两个可以想到的做法，第一种是两个句子分别过同一个Bert，然后取出各自的[CLS]特征来做分类；第二种就是像上面一样，用个记号把两个句子连接在一起，变成一个句子，然后过一个Bert，然后将输出特征做分类，后者显然会更快一些，而且能够做到特征之间更全面的交互。

文章小结 #

本文介绍了Keras下Bert的基本调用方法，其中主要是提供三个参考例子，供大家逐步熟悉Bert的fine tune步骤和原理。其中有不少是笔者自己闭门造车的经验之谈，如果有所偏颇，还望读者指正。

事实上有了CyberZHG大佬实现的keras-bert，在Keras下使用Bert也就是小菜一碟，大家折腾个半天，也就上手了。最后祝大家用得痛快～

转载到请包括本文地址：https://spaces.ac.cn/archives/6736

更详细的转载事宜请参考：《科学空间FAQ》

如果您还有什么疑惑或建议，欢迎在下方评论区继续讨论。

如果您觉得本文还不错，欢迎分享/打赏本文。打赏并非要从中获得收益，而是希望知道科学空间获得了多少读者的真心关注。当然，如果你无视它，也不会影响你的阅读。再次表示欢迎和感谢！

如果您需要引用本文，请参考：

苏剑林. (Jun. 18, 2019). 《当Bert遇上Keras：这可能是Bert最简单的打开姿势》[Blog post]. Retrieved from https://spaces.ac.cn/archives/6736

@online{kexuefm-6736,
        title={当Bert遇上Keras：这可能是Bert最简单的打开姿势},
        author={苏剑林},
        year={2019},
        month={Jun},
        url={\url{https://spaces.ac.cn/archives/6736}},
}

分类：信息时代标签：语言模型, 比赛, 信息抽取, attention 168 评论

< 漫谈重参数：从正态分布到Gumbel Softmax | 简述无偏估计和有偏估计 >

你也许还对下面的内容感兴趣

发表你的看法

July 9th, 2019

苏老师好，能不能请教一下源码里面data_generator是什么作用

回复评论

苏剑林发表于 July 9th, 2019

好好学两个星期Keras再来读此代码。

回复评论

July 9th, 2019

：）
好的，苏老师。
keras 官方文档应该是最好的学习地方吧，您以前也是在官方里查文档学的嘛

回复评论

苏剑林发表于 July 10th, 2019

把keras的github里边的example多看几个，每一行每一句都搞清楚为什么。

回复评论

x 发表于 July 10th, 2019

嗯嗯，好的，谢谢苏老师。是这些吧https://github.com/keras-team/keras/tree/master/examples

回复评论

July 12th, 2019

苏老师，以下这句没看明白，麻烦解释一下，谢谢
ps1 = Lambda(lambda x: x[0][..., 0] - (1 - x[1][..., 0]) * 1e10)([ps1, x_mask])

回复评论

苏剑林发表于 July 13th, 2019

请先回答：
mask之前的序列大概是怎样的？mask之后序列的哪些位置发生了变化？变成了怎么样？

来证明你是思考过的。

回复评论

Castor

July 18th, 2019

对于事件主体抽取，有一个问题，为什么你要变成单输入，用__concatenate两句话，不能直接[cls]产品出现问题[sep]公司A产品出现添加剂，其下属子公司B和公司C遭到了调查，作为双输入么？类似于SQUAD的那种？

回复评论

苏剑林发表于 July 18th, 2019

写这个程序的时候，我还没有认真看过bert，还不知道有[sep]和[cls]等精细考虑。后面那个nl2sql的demo就已经用上了[cls]和[sep]了

回复评论

candymoon

July 19th, 2019

苏大神：请问有没有文本多分类的demo代码可参考一下？

回复评论

苏剑林发表于 July 19th, 2019

遍地都是

回复评论

candymoon 发表于 July 19th, 2019

我是指基于keras-bert的编写的文本多分类demo代码？

回复评论

苏剑林发表于 July 19th, 2019

1、本站有4个keras-bert的例子；
2、遍地都是keras文本分类的代码。

所以在这两个前提下你还不会用keras-bert写文本多分类，请先自学一个月Keras，然后自学三个月NLP。

回复评论

candymoon 发表于 July 19th, 2019

好吧！谢谢你的热心回复！

回复评论

王颜柳

July 25th, 2019

您好，我无法导入keras_bert这个包，我已经安装好了。不知道问题出哪里，bug如下。

ImportError Traceback (most recent call last)
in
3 import pandas as pd
4 from random import choice
----> 5 from keras_bert import load_trained_model_from_checkpoint, Tokenizer
6 import re, os
7 import codecs

D:\code_stock\demo-chinese-text-binary-classification-with-bert-master\keras_bert.py in
----> 1 from keras_bert import load_trained_model_from_checkpoint, Tokenizer
2 import codecs
3
4
5 config_path = 'chinese_L-12_H-768_A-12/bert_config.json'

ImportError: cannot import name 'load_trained_model_from_checkpoint'

回复评论

苏剑林发表于 July 25th, 2019

这我就不清楚了，没碰到过这么诡异的。

回复评论

keguan0302 发表于 December 28th, 2019

看看是不是文件名和keras_bert冲突了，导致无法识别keras_bert.py文件

回复评论

smallflyfly

July 29th, 2019

苏神，我是用bert+crf做命名实体识别的，但是bert输出的是（None，768），而crf的输入需要一个三维的tensor，可以怎么解决？
code：
x1_in = Input(shape=(None,))
x2_in = Input(shape=(None,))
x = bert_model([x1_in, x2_in])
x = Lambda(lambda x: x[:, 0])(x)

crf = CRF(7, sparse_target=True)
output = crf(x)

回复评论

苏剑林发表于 July 30th, 2019

去掉x = Lambda(lambda x: x[:, 0])(x)这一句

回复评论

smallflyfly 发表于 July 30th, 2019

嗯嗯

回复评论

zhuming

July 31st, 2019

你好，我想问一下，在x1, x2 = tokenizer.encode(first=text)中，x2代表的是segment_ids,那么segment_ids是什么意思啊

回复评论

cccc 发表于 August 6th, 2019

这位同学我回复你这个问题，如果对bert原理熟悉的话应该会知道，segment_id=0表示属于第一个句子，segment_id=1表示第二个句子

回复评论

苏剑林发表于 August 7th, 2019

嗯，分句

回复评论

Tl_shen

July 31st, 2019

苏大神，有个问题想请教您，在跑情感分类的代码时，分类效果非常好，但是在把模型保存为h5文件后，再次用load_model加载时，报错ValueError: Unknown layer: TokenEmbedding，请问您重写的_tokenizer方法也是自定义layer吗？使用custom_objects包含的时候又提示参数不对。。。。期待您的回复

回复评论

苏剑林发表于 July 31st, 2019

任何不是用model.save_weights来保存模型的问题，我都不知道。

回复评论

cccc 发表于 August 6th, 2019

苏老师您好，我用model.save_weights来保存，也会出现ValueError: Unknown layer: TokenEmbedding的报错，我推断是因为有Lambda自定义层的缘故，但是我看了网上很多方法，都没有得到解决，期待老师您的回复

回复评论

苏剑林发表于 August 7th, 2019

我可以肯定的是，我给出的这几个bert的demo，用model.save_weights来保存权重，并且用model.load_weights来加载权重，是不会报错的。至于你这里为什么会报错，你自己对比一下有什么特别的改动。

回复评论

cccc 发表于 August 7th, 2019

感谢苏老师的回复，我再仔细排查下错误

回复评论

zjh 发表于 September 6th, 2019

我也碰到这样的问题，请问你的问题解决了没

回复评论

高草日月发表于 October 9th, 2019

请问一下你的这个问题解决了吗？

回复评论

苏剑林发表于 October 9th, 2019

@zjh|comment-11934

@高草日月|comment-12154

源码发到邮箱给我看看？

回复评论

teddyl 发表于 October 28th, 2019

已经过了些日子了，希望能与所帮助。
我也遇到类似问题，不过keras_bert已经给了解决方案。
from keras_bert import build_model_from_config
def load_bert_predict_model(config_path):
return build_model_from_config(config_path)

model = load_bert_predict_model(bert_config_path)[0]
#这个是微调部分每个人都不同
model = bert_model.get_model(model)
model.load_weights(r"best_words_v0.1.weights")
另外，感谢苏神带来这么好的文章

回复评论

苏剑林发表于 October 29th, 2019

最新版本已经解决了他的这个问题。

aaaa 发表于 November 18th, 2019

我也遇到这个问题，请问大佬你解决了么？

回复评论

xie 发表于 November 26th, 2019

我也遇到了这个问题，请问您是怎么解决的

回复评论

王迪发表于 March 16th, 2020

终极回复这个问题。首先还是感谢苏神。然后大家要注意训练的代码和预测代码的各个包包括python环境的一致性。代码如下：
from keras_bert import Tokenizer, get_custom_objects
import numpy as np
from keras.models import load_model

token_dict = {}
with codecs.open(vocab_path, 'r', 'utf8') as reader:
for line in reader:
token = line.strip()
token_dict[token] = len(token_dict)

tokenizer = Tokenizer(token_dict)

def load_data(path, textcolnum=TEXT_COL_NUM):
global tokenizer
indices, labels = [], []
df = pd.read_csv(path, encoding="utf8")

for index, row in df.iterrows():
ids, segments = tokenizer.encode(row[textcolnum], max_len=SEQ_LEN)
indices.append(ids)

return [indices, np.zeros_like(indices)]

model = load_model("saleslabeled_hot_labels_20200313.hdf5", custom_objects=get_custom_objects())
data = load_data(train_path)
predict = model.predict(data)
np.save('/tmp/model/hy_hot_20200316_res.npy',predict)

回复评论

王迪发表于 March 16th, 2020

我保存模型的时候是把模型结构和参数一起保存的。

回复评论

野屲

August 29th, 2019

您好，大佬，我想问下可以给我一个bert关系抽取任务的数据集链接吗，或者举个文本的例子也可以？我不太清楚原始文本以什么样的格式或者形式输入bert关系抽取任务中，谢谢

回复评论

苏剑林发表于 August 29th, 2019

正确的步骤是：理解关系抽取任务本身，然后读懂整个脚本，然后再根据自己的数据格式重新写data_generator。

而不是根据我“要求”的格式来调整你的数据然后纯调包。

回复评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

当Bert遇上Keras：这可能是Bert最简单的打开姿势

当Bert遇上Keras #

keras-bert #

Tokenizer #

三个例子 #

文本分类 #

关系抽取 #

事件主体抽取 #

文章小结 #

你也许还对下面的内容感兴趣

内容速览

智能搜索

热门标签

随机文章

最近评论

友情链接