18 Sep

提速不掉点：基于词颗粒度的中文WoBERT

By 苏剑林 | 2020-09-18 | 156484位读者 |

当前，大部分中文预训练模型都是以字为基本单位的，也就是说中文语句会被拆分为一个个字。中文也有一些多颗粒度的语言模型，比如创新工场的ZEN和字节跳动的AMBERT，但这类模型的基本单位还是字，只不过想办法融合了词信息。目前以词为单位的中文预训练模型很少，据笔者所了解到就只有腾讯UER开源了一个以词为颗粒度的BERT模型，但实测效果并不好。

那么，纯粹以词为单位的中文预训练模型效果究竟如何呢？有没有它的存在价值呢？最近，我们预训练并开源了以词为单位的中文BERT模型，称之为WoBERT（Word-based BERT，我的BERT！），实验显示基于词的WoBERT在不少任务上有它独特的优势，比如速度明显的提升，同时效果基本不降甚至也有提升。在此对我们的工作做一个总结。

开源地址：https://github.com/ZhuiyiTechnology/WoBERT

字还是词？ #

究竟是“字”好还是“词”好？这是中文NLP一个很让人抓狂的问题，也有一些工作去系统地研究这个问题。比较新的是香侬科技在ACL 2019上发表的《Is Word Segmentation Necessary for Deep Learning of Chinese Representations?》，里边得到了字几乎总是优于词的结论。前面也说了，现在中文预训练模型确实也基本上都是以字为单位的。所以，看上去这个问题已经解决了？就是字更好？

事情远没有这么简单。就拿香侬科技的这篇论文来说，它的实验结果是没有错，但却是没有代表性的。为什么这样说呢？因为它比较的是大家的Embedding层都是随机初始化的情况下的效果，这样一来，对于同样的任务，以词为单位的模型Embedding层参数更多，自然就更容易过拟合，效果容易变差，这不用做实验都能猜个大概。问题是，我们用基于词的模型的时候，通常并不是随机初始化的，往往都是用预训练好的词向量的（下游任务看情况选择是否微调词向量），这才是分词的NLP模型的典型场景，但论文里边却没有比较这个场景，所以论文的结果并没有什么说服力。

事实上，“过拟合”现象具有两面性，我们要防止过拟合，但过拟合也正好说明了模型拥有比较强的拟合能力，而如果我们想办法抑制过拟合，那么就能够在同样复杂度下得到更强的模型，或者在同样效果下得到更低复杂度的模型。而缓解过拟合问题的一个重要手段就是更充分的预训练，所以不引入预训练的比较对以词为单位的模型来说是不公平的，而我们的WoBERT正是证实了以词为单位的预训练模型的可取性。

词的好处 #

一般认为，以字为单位的好处是：

1、参数更少，不容易过拟合；
2、不依赖于分词算法，避免边界切分错误；
3、没那么严重的稀疏性，基本上不会出现未登录词。

至于以词为单位的理由是

1、序列变短，处理速度更快；
2、在文本生成任务上，能缓解Exposure Bias问题；
3、词义的不确定性更低，降低建模复杂度。

对于词的好处，大家可能会有些疑惑。比如第2点，词能缓解Exposure Bias，这是因为理论上来说，序列越短Exposure Bias问题就越不明显（词的模型单步预测出一个$n$字词，相当于字的模型预测了$n$步，这$n$步都递归依赖，所以字的模型Exposure Bias问题更严重）。至于第3点，虽然有多义词的存在，但是多数词的含义还是比较确定的，至少比字义更加明确，这样一来可能只需要一个Embedding层就能把词义建模好，而不是像字模型那样，要通用多层模型才能把字组合成词。

看起来不相伯仲，但事实上以字为单位的好处，并非就是以词为单位的缺点了，只要多一些技巧，以词为单位也能一定程度上避免这几个问题。比如：

1、以词为单位的参数多了，但是可以通过预训练来缓解过拟合，所以这个问题不会很严重；
2、依赖分词算法是个问题，如果我们只保留最常见的一部分词，那么不管哪个分词工具分出来的结果都是差不多的，差异性不大；
3、至于边界切分错误，这个难以避免，但是需要准确的边界的，只是序列标注类任务而已，文本分类、文本生成其实都不需要准确的边界，因此不能就此否定词模型；
4、如果我们把大部分字也加入到词表中，也不会出现未登录词。

所以，其实用词的好处是相当多的，除了需要非常精确边界的序列标注类型的任务外，多数NLP任务以词为单位都不会有什么问题。因此，我们就去做了以词为单位的BERT模型了。

Tokenizer #

往BERT里边加入中文词，首先得让Tokenizer能分出词来。只需要把词加入到字典vocab.txt里边就行了吗？并不是。BERT自带的Tokenizer会强行把中文字符用空格隔开，因此就算你把词加入到字典中，也不会分出中文词来。此外，BERT做英文word piece的分词的时候，使用的是最大匹配法，这对中文分词来说精度也不够。

为了分出词来，我们修改了一下BERT的Tokenizer，加入了一个“前分词（pre_tokenize）”操作，这样我们就可以分出中文词来，具体操作如下：

1、把中文词加入到vocab.txt；
2、输入一个句子$s$，用pre_tokenize先分一次词，得到$[w_1,w_2,\dots,w_l]$；
3、遍历各个$w_i$，如果$w_i$在词表中则保留，否则将$w_i$用BERT自带的tokenize函数再分一次；
4、将每个$w_i$的tokenize结果有序拼接起来，作为最后的tokenize结果。

在bert4keras>=0.8.8版本中，实现上述改动只需要在构建Tokenizer的时候传入一行参数，例如：

tokenizer = Tokenizer(
    dict_path,
    do_lower_case=True,
    pre_tokenize=lambda s: jieba.cut(s, HMM=False)
)

其中pre_tokenize为外部传入的分词函数，如果不传入则默认为None。简单起见，WoBERT使用了结巴分词，删除了BERT自带词表的冗余部分（比如带##的中文词），然后加入了20000个额外的中文词（结巴分词自带的词表词频最高的两万个），最终WoBERT的vocab.txt规模是33586。

模型细节 #

目前开源的WoBERT是Base版本，在哈工大开源的RoBERTa-wwm-ext基础上进行继续预训练，预训练任务为MLM。初始化阶段，将每个词用BERT自带的Tokenizer切分为字，然后用字embedding的平均作为词embedding的初始化。

到这里，WoBERT的技术要点基本上都说清楚了，剩下的就是开始训练了。我们用单张24G的RTX训练了100万步（大概训练了10天），序列长度为512，学习率为5e^-6，batch_size为16，累积梯度16步，相当于batch_size=256训练了6万步左右。训练语料大概是30多G的通用型语料。训练代码已经在文章开头的链接中开源了。

此外，我们还提供了WoNEZHA，这是基于华为开源的NEZHA进行再预训练的，训练细节跟WoBERT基本一样。NEZHA的模型结构跟BERT相似，不同的是它使用了相对位置编码，而BERT用的是绝对位置编码，因此理论上NEZHA能处理的文本长度是无上限的。这里提供以词为单位的WoNEZHA，就是让大家多一个选择。

模型效果 #

最后，说一下WoBERT的效果。简单来说，在我们的评测里边，WoBERT相比于BERT，在不需要精确边界的NLP任务上基本都没有变差的，有些还会有一定的提升，而速度上则有明显提升，所以一句话就是“提速不掉点”。

比如中文榜单上的两个分类任务：
\begin{array}{c}
\text{文本分类效果对比}\\
{\begin{array}{c|cc}
\hline
& \text{IFLYTEK} & \text{TNEWS} \\
\hline
\text{BERT} & 60.31\% & 56.94\% \\
\text{WoBERT} & \textbf{61.15%} & \textbf{57.05%} \\
\hline
\end{array}}
\end{array}
我们内部还测了不少任务，结果都是类似的，表明这些NLU任务上WoBERT和BERT基本上都差不多的。但是速度上，WoBERT就比BERT有明显优势了，下表是两个模型在处理不同字数的文本时的速度比较：
\begin{array}{c}
\text{速度对比}\\
{\begin{array}{c|ccc}
\hline
& \text{128} & \text{256} & \text{512} \\
\hline
\text{BERT} & \text{1.0x} & \text{1.0x} & \text{1.0x} \\
\text{WoBERT} & \textbf{1.16x} & \textbf{1.22x} & \textbf{1.28x} \\
\hline
\end{array}}
\end{array}

我们还测了WoBERT+UniLM的方式Seq2Seq任务（CSL/LCSTS标题生成），结果是比以字为单位的模型有明显提升：
\begin{array}{c}
\text{CSL摘要生成实验结果}\\
{\begin{array}{c|c|cccc}
\hline
& \text{beam size} & \text{Rouge-L} & \text{Rouge-1} & \text{Rouge-2} & \text{BLEU} \\
\hline
\text{BERT} & 1 & 63.81 & 65.45 & 54.91 & 45.52 \\
\text{WoBERT} & 1 & \textbf{66.38} & \textbf{68.22} & \textbf{57.83} & \textbf{47.76} \\
\hline
\text{BERT} & 2 & 64.44 & 66.09 & 55.75 & 46.39 \\
\text{WoBERT} & 2 & \textbf{66.65} & \textbf{68.68} & \textbf{58.5} & \textbf{48.4} \\
\hline
\text{BERT} & 3 & 64.75 & 66.34 & 56.06 & 46.7 \\
\text{WoBERT} & 3 & \textbf{66.83} & \textbf{68.81} & \textbf{58.67} & \textbf{48.6} \\
\hline
\end{array}}\\
\\
\text{LCSTS摘要生成实验结果}\\
{\begin{array}{c|c|cccc}
\hline
& \text{beam size} & \text{Rouge-L} & \text{Rouge-1} & \text{Rouge-2} & \text{BLEU} \\
\hline
\text{BERT} & 1 & 27.99 & 29.57 & 18.04 & 11.72 \\
\text{WoBERT} & 1 & \textbf{31.51} & \textbf{32.9} & \textbf{21.13} & \textbf{13.74} \\
\hline
\text{BERT} & 2 & 29.2 & 30.7 & 19.17 & 12.64 \\
\text{WoBERT} & 2 & \textbf{31.91} & \textbf{33.35} & \textbf{21.55} & \textbf{14.13} \\
\hline
\text{BERT} & 3 & 29.45 & 30.95 & 19.5 & 12.93 \\
\text{WoBERT} & 3 & \textbf{32.19} & \textbf{33.72} & \textbf{21.81} & \textbf{14.29} \\
\hline
\end{array}}
\end{array}
这说明以词为单位来做文本生成其实是更有优势的。要是生成更长的文本，这个优势还能进一步放大。

当然，我们也不否认，用WoBERT去做NER等序列标注任务时，可能会有明显的掉点，比如做人民日报的NER，掉了3%左右，可能让人意外的是，经过bad case分析，我们发现掉点的原因并不是因为切分错误，而是因为稀疏性（平均来说每个词的样本更少，所以训练得没那么充分）。

不管怎么说，我们把我们的工作开源出来，给大家在使用预训练模型的时候，多一个尝试的选择吧。

文章小结 #

在这篇文章里，我们开源了以词为单位的中文BERT模型（WoBERT），并讨论了以词为单位的优缺点，最后通过实验表明，以词为单位的预训练模型在不少NLP任务（尤其是文本生成）上有它独特的价值，一方面它有速度上的优势，一方面效果上能媲美以字为单位的BERT，欢迎大家测试。

转载到请包括本文地址：https://spaces.ac.cn/archives/7758

更详细的转载事宜请参考：《科学空间FAQ》

如果您还有什么疑惑或建议，欢迎在下方评论区继续讨论。

如果您觉得本文还不错，欢迎分享/打赏本文。打赏并非要从中获得收益，而是希望知道科学空间获得了多少读者的真心关注。当然，如果你无视它，也不会影响你的阅读。再次表示欢迎和感谢！

如果您需要引用本文，请参考：

苏剑林. (Sep. 18, 2020). 《提速不掉点：基于词颗粒度的中文WoBERT 》[Blog post]. Retrieved from https://spaces.ac.cn/archives/7758

@online{kexuefm-7758,
        title={提速不掉点：基于词颗粒度的中文WoBERT},
        author={苏剑林},
        year={2020},
        month={Sep},
        url={\url{https://spaces.ac.cn/archives/7758}},
}

分类：信息时代标签：语言模型, attention 48 评论

< 殊途同归的策略梯度与零阶优化 | 必须要GPT3吗？不，BERT的MLM模型也能小样本学习 >

你也许还对下面的内容感兴趣

发表你的看法

ntwqs

September 18th, 2020

苏神，在模型效果那里，对比的模型是哈工大放出的RoBERTa-wwm-ext，还是说用和WoEERT同样的训练语料继续训练的BERT?

回复评论

苏剑林发表于 September 18th, 2020

对比的是RoBERTa-wwm-ext，在这里 https://github.com/CLUEbenchmark/CLUE 放出的结果。

我猜你是怀疑提升来自额外的预训练而不是词信息，这点怀疑是合理的，但应该不成立。首先已经说了，BERT跟WoBERT在NLU任务上差别不大，因此额外预训练其实没给NLU带来什么影响。而NLG有明显提升，这确实是词带来的，因为我试过在字的模型上继续预训练（包括用seq2seq任务而不是mlm预训练），也没对NLG任务有什么帮助，直到加入词后才有的提升。此外，我们进行的额外预训练相当于batch_size=256训练了6万步，其实这对于预训练来说是很少的步数，起不了太大的作用，在这里仅能起到弥补字与词的gap的作用了。

因此，总的来说，如果效果有什么变化（提升或者下降），应该都跟额外的预训练没直接关系，而是词的引入有直接关系。

回复评论

小川Ryan

September 19th, 2020

师兄好，关于
“它的实验结果是没有错，但却是没有代表性的。为什么这样说呢？因为它比较的是大家的Embedding层都是随机初始化的情况下的效果，这样一来，对于同样的任务，以词为单位的模型Embedding层参数更多，自然就更容易过拟合，效果容易变差，这不用做实验都能猜个大概。问题是，我们用基于词的模型的时候，通常并不是随机初始化的，往往都是用预训练好的词向量的（下游任务看情况选择是否微调词向量），这才是分词的NLP模型的典型场景，但论文里边却没有比较这个场景，所以论文的结果并没有什么说服力”，
我觉得这个论述存在一些问题：
1.“以词为单位的模型Embedding层参数更多，自然就更容易过拟合，效果容易变差”，用预训练好的词向量不是一样参数量更多，更容易过拟合吗？
2. 该文中词向量是随机初始化，但字向量也是随机初始化的，尽管加上一组二者都用预训练好的向量来初始化会更有说服力。但这种比较同样是公平的、值得参考的

回复评论

苏剑林发表于 September 21st, 2020

我已经说了，词向量的经典用法就是word2vec预训练然后才finetune或者不finetune，既然它没有比较这种用法，那么就是没有代表性的，或者至少说是不全面的。我又不是说它实验是错的，如果你只关心随机初始化的Embedding，那肯定有参考价值呀。

至于“用预训练好的词向量不是一样参数量更多，更容易过拟合”，参数量多少与过拟合没有必然联系，BERT参数量那么大，它效果照样很好，因为它经过了充分的预训练，所以不比较预训练是不充分的。

当然，你说字向量也预训练一下，然后再跟词向量预训练比较，这个思想方向是正确的，但是按照以往的经验，字向量预训练的作用并没有词向量大，所以我估计还是比不过的。我不知道你有没有经历过词向量时代，总之，在很多任务场景里边（比如我司的很多线上模型），“适当的分词+适当的Word2Vec”明显好于基于字的模型。

回复评论

Allen

September 22nd, 2020

請問你們是怎麼分析NER 掉點的問題是出在稀疏性的呢？就是說稀疏跟切分錯誤，兩者你們是如何區分的？

回复评论

苏剑林发表于 September 22nd, 2020

对于NER来说，基于词可能带来的三个问题：稀疏性、切分错误、未登录词。

本文已经说了，加入了多数字之后，未登录词问题基本不存在了，所以只能在稀疏性、切分错误分析。通过样本观察发现，识别错误、识别不出来的，基本上不是因为切分错误，这是“随机挑取+肉眼观察/简单统计”就可以得出的结论，所以只能解释为稀疏性了。

直观理解的话，由于只保留了高频词，所以其实切分错误的概率确实是很小的...

回复评论

Allen 发表于 September 23rd, 2020

因為你前面提到「不依赖于分词算法，避免边界切分错误」，所以切分錯誤應該是分詞算法引入的，那如果分詞算法把一個專有名詞切錯了，那後面的NER 怎麼可能沒有錯呢？

例如「今日是24節氣中的秋分」，假設分詞算法斷成：「今日/是/24節/氣中/的/秋分」，但我們希望斷成「今日/是/24節氣/中/的/秋分」，然後NER 目標是標出「24節氣」這個詞，那麼前者就不可能標對呀？

還是說，遇到這種情況，用你們的方法，由於詞表中沒有「24節」「氣中」這樣的詞，所以就進一步切割成以字為單位「24 節氣中」，然後對每個字做IOB tagging，所以就可以標出「24-B, 節-I, 氣-I, 中-O」？

如果是這樣的話，那麼當詞表中為0個詞，就會變成原始的Bert對吧？而照你的說法原始的Bert做NER效果更好，所以問題是出在加入詞表中的那些詞。因為後來加入的那些詞顯然沒有其組成字出現的那麼頻繁，所以造成了稀疏性的問題，這樣理解對吧？

那如果有一種方法可以將詞跟它的組成字關連起來，例如給每個詞的初始化向量是它的組成字的bert向量取平均，如此這個詞就利用到了字的訊息，解決了稀疏性的問題，這樣理論上就應該至少會跟原始bert一樣好了吧？如果沒有變好，說明可能存在別的問題；如果變得更好，說明使用詞確實有無法替代的優勢。

回复评论

苏剑林发表于 September 23rd, 2020

1、分词把要识别的实体分错的话，NER肯定识别错误，这没有问题；
2、目前观测到的结果是，NER识别错误并不是主要由切分错误引起的；
3、稀疏性的理解没什么问题；
4、每个词向量初始化为字向量的平均，这是一种还凑合的初始化，但没有解决问题。

简单来理解，NER就是要识别每个token的类别，用词的话，平均每个token学习得没那么充分。当然，这也有可能是因为WoBERT是由字模型Finetune过来的的原因，如果完全从零训练一个WoBERT，估计这个问题会有所缓解。

回复评论

Allen 发表于 September 23rd, 2020

4、每个词向量初始化为字向量的平均，这是一种还凑合的初始化，但没有解决问题。

平均只是舉例，也許可以設計一個方式，讓網路自己學。比方說在訓練階段，遇到詞表中的詞，首先還是切分成字，用bert 輸出字向量，然後再輸入RNN 輸出成一個詞向量；另外一種就是你們的方式，直接讓bert 輸出詞向量。這兩種輸出的詞向量，計算一個MSE loss，加到原本的訓練裡面。

所以若按照你們原本的方式，詞表中的每個詞是隨機初始化的，出現頻率遠比組成字少很多，不能保證fine tune 時一定能學到很好的詞向量表示；但是加上一層RNN之後，fine tune時那些詞可以從其組成字中得到訊息，使得產生的詞向量可能會比隨機初始化更好。然而，由於目標是希望bert 直接輸出詞向量，所以再加上一個MSE loss，讓bert 去學RNN 輸出的詞向量，到預測階段就把RNN的部分拿掉，讓bert直接輸出詞向量。

如此，雖然fine tune時這個詞出現次數不多，但是其組成字已經出現過很多次了，而RNN 充分利用這些組成字的資訊，就相當於這個詞已經看過很多遍了(例如，人類看到某個詞中出現了某個字，大概就可以猜出是甚麼意思，不會因為這個詞沒看過，就對這個詞毫無所知。)，所以可以解決詞出現次數不多的問題。

2、目前观测到的结果是，NER识别错误并不是主要由切分错误引起的；

但是仍然有一種可能是，某句話存在多種切分法，而每種切法切出來的詞都是常用詞。
例如：
下雨天留客天留我不留
下雨/天留客/天留/我不留
下雨天/留客天/留我不/留
下雨天/留客/天留我不/留

「下雨、下雨天、留客、留客天、留、不留」這些詞都有可能出現在詞表中，但是若分詞算法選擇了其中一種切法，你們的做法就會直接從詞表裡面抓出對應的詞。但是也許那個詞根本不應該被切出來，它可能是跟著前面的一部分或後面的一部分。但若以字為單位的話，attention 會動態的決定某個字應該跟前面還是後面連在一起，就避免了整體準確率受限於分詞算法的問題。

我認為如果要以詞為單位，又要避免分詞算法出錯造成後續影響，可能還需要某種「重新組詞」的功能，就是在最後的輸出上再重新決定哪些詞需要重分？讓前面錯誤的分詞也能得到修正的結果。

回复评论

苏剑林发表于 September 23rd, 2020

1、感觉上还有因为WoBERT是从以字为单位的BERT中finetune过来的，限制了WoBERT的能力；

2、如果还要想办法实现这个目的，倒不如直接用基于字的模型？其实我更加看好基于词的模型在分类任务和生成任务上的场景，毕竟术业有专攻也没什么不好的。

回复评论

折戟沉沙

September 24th, 2020

你好,我想使用您的gitub中的train.py训练我自己的bert模型,我有一套自己的词组和文章作为训练语料,但是训练结果不能保存为bert_config.json,bert_model.ckpt,vocab.txt这种格式,我查看了bert4keras的源码,但是没找到怎么保存

回复评论

折戟沉沙

September 24th, 2020

哈哈哈,不好意思打扰了,问题解决了,睡了一觉再醒来幡然醒悟就解决了,MMP

回复评论

苏剑林发表于 September 26th, 2020

bert_config.json是手工编辑的，vocab.txt可以用bert4keras.tokenizers.save_vocab保存，bert_model.ckpt可以用bert.save_weights_as_checkpoint转换。

回复评论

挠挠

September 25th, 2020

Word-based BERT，我的BERT！

哈哈哈哈哈哈哈哈

回复评论

5566

September 25th, 2020

如果生成的文本含有并列结构，比如一个人的头衔什么的，Exposure Bias的情况还是会经常出现。

回复评论

LLLuna

September 25th, 2020

你好，想问一下wobert词表里有类似bert的[unused]的词吗？

回复评论

苏剑林发表于 September 26th, 2020

我去掉了。你要加可以随机加回去，然后修改一下embedding层的权重就行了。

回复评论

jeremysun 发表于 November 28th, 2020

苏老师您好✨，我一直苦苦寻觅Word级别的中文PLM，很感谢您开源了这项工作。在使用WoBERT时，我尝试在vocab.txt词表中添加了“家居”和“时政”两个词表文件中没有的词汇后，使用模型时报了这样的错：
```
CUDA error: device-side assert triggered
```
然后，我又去掉了添加的两个词汇后，代码顺利的运行了。所以想请教一下您，关于“修改一下embedding层的权重”的具体操作是？
谢谢苏老师。

回复评论

苏剑林发表于 November 30th, 2020

你是要自己重新预训练模型吗？如果是，应该不会有什么错才对；如果不是，谁教你的往训练好的模型词表里边加新词的...

还有，为什么会有pytorch出现？预训练加新词的思路，是我在我的bert4keras里边写好的，跟pytorch没关系。

回复评论

创发表于 September 23rd, 2021

同问“修改一下embedding层的权重”的具体操作是？

回复评论

苏剑林发表于 September 23rd, 2021

具体操作是：
1、随机初始化一个模型；
2、自行去checkpoint读取预训练权重；
3、将自行读取的权重自行赋值到模型中；
4、在这个过程中，当然是可以自行对读取到的权重进行修改后再赋值。

回复评论

创发表于 September 23rd, 2021

感谢！！

回复评论

fang suk

September 28th, 2020

请问woNEZHA是否有对比测试结果

回复评论

苏剑林发表于 September 28th, 2020

WoNEZHA的实验没那么丰富，但是已有的一些实验数据来看，WoNEZHA vs NEZHA，跟WoBERT vs BERT，结果是类似的，就没有放出来了。

回复评论

lxy444

December 7th, 2020

「目前开源的WoBERT是Base版本，在哈工大开源的RoBERTa-wwm-ext基础上进行继续预训练，预训练任务为MLM。」
苏神，请问一下怎么在一个模型的基础上继续预训练且任务只有 MLM 呢？有什么参考的步骤吗？之前只预训练过 BERT，不过任务还是官方的 MLM + NSP。

回复评论

苏剑林发表于 December 7th, 2020

我不是开源了训练脚本了吗...

回复评论

lxy444 发表于 December 7th, 2020

嗯嗯，看到了你发的这个脚本(https://github.com/ZhuiyiTechnology/WoBERT/blob/master/train.py)，想问一下对于一个一般的模型（比如 T5），如果想继续用 MLM 任务预训练一下自己的语料的话，还是得重新编写训练脚本吗

回复评论

苏剑林发表于 December 7th, 2020

弄懂keras，模仿着改吧，不算多复杂的事。

回复评论

lxy444 发表于 December 7th, 2020

好的，谢谢！

回复评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

提速不掉点：基于词颗粒度的中文WoBERT

字还是词？ #

词的好处 #

Tokenizer #

模型细节 #

模型效果 #

文章小结 #

你也许还对下面的内容感兴趣

内容速览

智能搜索

热门标签

随机文章

最近评论

友情链接