22 Jan

【搜出来的文本】⋅（三）基于BERT的文本采样

By 苏剑林 | 2021-01-22 | 130140位读者 |

从这一篇开始，我们就将前面所介绍的采样算法应用到具体的文本生成例子中。而作为第一个例子，我们将介绍如何利用BERT来进行文本随机采样。所谓文本随机采样，就是从模型中随机地产生一些自然语言句子出来，通常的观点是这种随机采样是GPT2、GPT3这种单向自回归语言模型专有的功能，而像BERT这样的双向掩码语言模型（MLM）是做不到的。

事实真的如此吗？当然不是。利用BERT的MLM模型其实也可以完成文本采样，事实上它就是上一篇文章所介绍的Gibbs采样。这一事实首先由论文《BERT has a Mouth, and It Must Speak: BERT as a Markov Random Field Language Model》明确指出。论文的标题也颇为有趣：“BERT也有嘴巴，所以它得说点什么。”现在就让我们看看BERT究竟能说出什么来～

采样流程 #

首先，我们再次回顾上一篇文章所介绍的Gibbs采样流程：

Gibbs采样
初始状态为$\boldsymbol{x}_0=(x_{0,1},x_{0,2},\cdots,x_{0,l})$，$t$时刻状态为$\boldsymbol{x}_t=(x_{t,1},x_{t,2},\cdots,x_{t,l})$。
通过如下流程采样出$\boldsymbol{x}_{t+1}$：
1、均匀地从$1,2,\cdots,l$中采样一个$i$；
2、计算$p(y|\boldsymbol{x}_{t,-i})=\frac{p(x_{t,1},\dots,x_{t,i-1},y,x_{t,i+1},\cdots,x_{t,l})}{\sum\limits_y p(x_{t,1},\dots,x_{t,i-1},y,x_{t,i+1},\cdots,x_{t,l})}$；
3、采样$y\sim p(y|\boldsymbol{x}_{t,-i})$；
4、$\boldsymbol{x}_{t+1} = {\boldsymbol{x}_t}_{[x_{t,i}=y]}$（即将$\boldsymbol{x}_t$的第$i$个位置替换为$y$作为$\boldsymbol{x}_{t+1}$）。

其中最关键的一步，就是$p(y|\boldsymbol{x}_{-i})$的计算了，它的具体含义是“通过除去第$i$个元素后的所有$l-1$个元素来预测第$i$个元素的概率”，了解BERT的读者应该都能明白过来：这不正是BERT的MLM模型所要做的事情吗？所以，MLM模型与Gibbs采样结合起来，其实就可以实现文本的随机采样了。

所以，将上述Gibbs采样流程落实到基于MLM的文本采样中，流程如下：

MLM模型随机采样
初始句子为$\boldsymbol{x}_0=(x_{0,1},x_{0,2},\cdots,x_{0,l})$，$t$时刻句子为$\boldsymbol{x}_t=(x_{t,1},x_{t,2},\cdots,x_{t,l})$。
通过如下流程采样出新的句子$\boldsymbol{x}_{t+1}$：
1、均匀地从$1,2,\cdots,l$中采样一个$i$，将第$i$的位置的token替换为[MASK]，得到序列$\boldsymbol{x}_{t,-i}=(x_{t,1},\dots,x_{t,i-1},\text{[MASK]},x_{t,i+1},\cdots,x_{t,l})$；
3、将$\boldsymbol{x}_{t,-i}$送入到MLM模型中，算出第$i$个位置的概率分布，记为$p_{t+1}$；
3、从$p_{t+1}$采样一个token，记为$y$；
4、将$\boldsymbol{x}_{t}$的第$i$个token替换成$y$来作为$\boldsymbol{x}_{t+1}$。

读者或许留意到了，该采样流程只能采样出固定长度的句子，不会改变句子长度。确实如此，因为Gibbs采样只能实现用某个分布中进行采样，而不同长度的句子事实上已经是属于不同的分布了，它们理论上是不存在交集的，只不过通常我们我们建立语言模型时，是直接用自回归模型统一建模不同长度的句子分布，以至于我们没有察觉到“不同的句子事实上属于不同的概率分布”这个事实。

当然，要解决这一点也不是不可能，《BERT has a Mouth, and It Must Speak: BERT as a Markov Random Field Language Model》原论文就指出，可以将初始句子设为全部都是[MASK]的序列，这样我们就可以事先随机采样一个长度$l$，然后以$l$个[MASK]为初始句子来开始Gibbs采样过程，从而得到不同长度的句子。

参考代码 #

有了现成的MLM模型后，实现上述Gibbs采样其实是一件很简单的事情了，下面是基于bert4keras实现的参考代码：

Gibbs采样参考代码：basic_gibbs_sampling_via_mlm.py

下面是一些例子：

初始句子：
科学技术是第一生产力。
采样结果：
荣耀笔记本开箱怎么样？
微信记录没用被怎么办？
无法安装浏览器怎么办？
epf转换器a7l怎么用？
没有安装浏览器怎么办？
荣耀笔记本充电怎么用？
无法打开asp. net怎么办？
没有安装浏览器怎么办？
无法重启浏览器怎么办？
ro汉巴换mac tv版怎么用？
初始句子：
北京新增3例本地确诊病例和1例无症状感染者
采样结果：
澳门录得233宗h1n1感染案例和13宗放射性感染。
庆祝仪式是学院绘画、钢铁工参与创作的盛会。
庆祝仪式后吉卜力平台其他游戏也参加了庆祝。
临床试验发现中的g染色体多来自胃肠道感染。
临床试验发现，人们通常真正享受阴蒂的快感。
庆祝模式在吉卜力平台其他游戏中更加与庆祝。
庆祝模式在吉卜力，或其他游戏上更新和庆祝。
澳门录得20宗h1n1感染病例，2宗放射性感染。
临床试验发现女性的染色体常来自胃肠道感染。
临床试验发现90% 感染病例为m型胃肠道感染。
初始句子：
连续9个[MASK]
采样结果：
你每天学你妈妈啊！
那晚，眼前白茫茫。
層層青翠綠意盎然。
幼儿园想做生意了。
究竟如何才能入官？
老师、同学，您好！
云山重重，两茫茫。
梅雨，窗外霧茫茫。
那时，眼前白茫茫。
還是很棒的切蛋糕！

笔者实验所使用的是Google开源的中文BERT base。可以看到，采样出来的句子还是比较丰富的，并且具有一定的可读性，这对于一个base版本的模型来说已经算是不错了。

对于连续[MASK]作为初始值来说，重复实验可能会得到很不一样的结果：

初始句子：
连续17个[MASK]
采样结果：
其他面瘫吃什么？其他面瘫吃什么好？
小儿面瘫怎么样治疗？面瘫吃什么药？
幼儿面瘫怎么样治疗？面瘫吃什么好？
儿童头痛是什么原因荨麻疹是什么病？
其他面瘫吃什么・其他面瘫吃什么好？
竟然洁具要怎么装进去水龙头怎么接？
其他面瘫吃什么好其他面瘫吃什么好？
孩子头疼是什么原因荨麻疹是什么病？
竟然厨房柜子挑不进去水龙头怎么插？
不然厨房壁橱找不到热水龙头怎么办？
初始句子：
连续17个[MASK]
采样结果：
フロクのツイートは下記リンクからこ覧下さい。
天方町に運行したいシステムをこ利用くたさい。
エリアあります2つクロカー専門店からこ案内まて！
当サイトては割引に合うシステムを採用しています！
同時作品ては表面のシステムを使用する。
メーカーの品は真面まてシステムを使用しています。
掲示板こ利用いたたシステムこ利用くたさい。
住中方は、生産のシステムを使用しています。
エアウェアの住所レヘルをこ一覧下さい。
フロクのサホートは下記リンクてこ覧下さい。

很神奇，日语都采样出来了，而且笔者用百度翻译看了一下，这些日语还算是可读的。一方面，这体现了随机采样结果的多样性，另一方面，这也体现了Goole版的中文BERT并没有做好去噪，训练语料应该夹杂了不少非中英文本的。

吃瓜思考 #

前段时间，Google、斯坦福、OpenAI等合作发表了一篇文章《Extracting Training Data from Large Language Models》，指出GPT2等语言模型完全是可以重现（暴露）训练数据情况的，这个不难理解，因为语言模型本质上就是在背诵句子。而基于MLM的Gibbs采样表明，其实这个问题不仅GPT2这种显式的语言模型存在，像MLM这样的双向语言模型其实也是存在的。从我们上述的采样例子就可以看出些端倪了，比如采样出日语来，说明原始语料并没有做特别完善的去噪，而我们从“北京新增3例本地确诊病例和1例无症状感染者”出发，采样出了一些h1n1相关的结果，这反映出训练语料的时代性。这些结果都意味着，如果你不想开源模型暴露你的隐私，那么对预训练的语料就要做好清理工作了。

此外，关于《BERT has a Mouth, and It Must Speak: BERT as a Markov Random Field Language Model》这篇论文，还有一个瓜可以吃，那就是原论文说MLM模型是一个Markov Random Field，但事实上这是不对的，后来作者也在自己的主页上做了澄清，有兴趣的读者可以看《BERT has a Mouth and must Speak, but it is not an MRF》。总的来说，MLM用来做随机采样是没问题的，但它不能对上Markov Random Field。

本文小结 #

本文介绍了基于BERT的MLM所进行的文本随机采样，它实际上是Gibbs采样的自然应用。总的来说，本文只是一个相当简单的例子。对于已经对Gibbs采样有所了解的读者来说，本文几乎是没有技术难度的；如果还不是很了解Gibbs采样的读者，正好也可以通过这个具体的例子，来进一步去理解Gibbs采样的流程。

转载到请包括本文地址：https://spaces.ac.cn/archives/8119

更详细的转载事宜请参考：《科学空间FAQ》

如果您还有什么疑惑或建议，欢迎在下方评论区继续讨论。

如果您觉得本文还不错，欢迎分享/打赏本文。打赏并非要从中获得收益，而是希望知道科学空间获得了多少读者的真心关注。当然，如果你无视它，也不会影响你的阅读。再次表示欢迎和感谢！

如果您需要引用本文，请参考：

苏剑林. (Jan. 22, 2021). 《【搜出来的文本】⋅（三）基于BERT的文本采样》[Blog post]. Retrieved from https://spaces.ac.cn/archives/8119

@online{kexuefm-8119,
        title={【搜出来的文本】⋅（三）基于BERT的文本采样},
        author={苏剑林},
        year={2021},
        month={Jan},
        url={\url{https://spaces.ac.cn/archives/8119}},
}

分类：信息时代标签：文本生成, 采样, 离散优化, MCMC 32 评论

< 【搜出来的文本】⋅（二）从MCMC到模拟退火 | Seq2Seq重复解码现象的理论分析尝试 >

你也许还对下面的内容感兴趣

发表你的看法

allen

January 23rd, 2021

所以這邊的部分，您還沒有用到第一篇所講到的“受限文本生成（Constrained Text Generation）”對吧？因為看起來，上面的做法沒有指定必須要出現那些關鍵字，而且生成的句子很大程度跟初始句子有關。另外，上面的做法是每次隨機替換一個字，那麼你是如何決定要替換多少次才停下來呢？

回复评论

苏剑林发表于 January 23rd, 2021

是的。受限文本生成的一般思路是“带约束的目标+MCMC方法”，前两篇文章逐步介绍MCMC方法，这篇文章属于简单的“无约束的目标+MCMC方法”，作为第一个例子是比较适合的，其他例子后面还会逐渐展开，敬请期待。

至于多少次才停下来，要注意本文的例子是Gibbs文本采样，它的目的是采样而不是搜索，所以并没有停下来的说法，换句话说，假设1000步后该状态已经进入了平稳分布了，那么从1000步开始，直到无穷步，得到的无穷多个样本，都是我们的采样结果，这些样本可能会重复，但是一般不会有收敛趋势。

所谓平稳，指的是样本所属的分布上的收敛，采样结果并不一定具有收敛性，除非模拟退火。

回复评论

Charleo

January 26th, 2021

苏神，如果要做社交网络的用户画像，大概每个用户发的文本（twitter）长度总和大约在5000多，只取前512个token或者取头尾的话，会丢失大量信息，而且性能与tfidf+LR模型差很多，请问在这种情况写有什么可行的解决方法？

我大概抓了10G左右的文本，都是twitter短句，长度

回复评论

Charleo 发表于 January 26th, 2021

大概在128token以内，相对于bert预训练的corpus要小了很多，而且还有很多emoji相关的预处理文本是原bert词典里面没有的，请问在这种情况下，我是从头训练模型好，还是微调现有模型好？

回复评论

Charleo 发表于 January 26th, 2021

感谢苏神的文章，如能回复，不胜感激

回复评论

苏剑林发表于 January 26th, 2021

你不能单独处理每个句子，然后再整合每个用户的所有句子表征么？

回复评论

MECH SIHAO

January 26th, 2021

苏神，我看你之前的很多文章提到过若干个不均衡学习的方法，
前段时间我看了一篇有关小样本学习的文章，是篇NeurIPS，里面提出的半监督学习框架苏神有没有兴趣啊：
https://zhuanlan.zhihu.com/p/259710601
https://github.com/YyzHarry/imbalanced-semi-self
虽然我感觉这种方法像自己踩着自己的脚往上走一样，容易剑走偏锋，但从作者的结果来看，效果还是不错的。

回复评论

MECH SIHAO 发表于 January 26th, 2021

个人技拙，看了源码，没办法领略其中真谛，如果苏神有兴趣看看可以相互探讨下

回复评论

苏剑林发表于 January 26th, 2021

半监督又是另外一条路了，最近对这个问题没什么兴趣了，暂不打算研究。

回复评论

xxwx123

February 5th, 2021

用以上代码经过修改做了一个小实验 , 在Gibbs采样时不是随机取 , 而是按顺序选择i ,即:i从1开始一直选到length , 然后再从1选到length , 如此循环 ; 思想是按顺序更新应该更符合自回归 , 10000步后直观来看句子可读性确实强了一些

另外一个问题是 , 这里的steps = 10000应该是随便写的 , 从严谨的角度说应该并不能保证一定进入了平稳分布吧,我想的办法是把用代码把细致平衡也实现出来,然后迭代10000步之后验证? 但是很有可能在5000步就进入细致平衡了 , 后面的5000步就浪费了

回复评论

苏剑林发表于 February 5th, 2021

验证不了，你采样出来的是样本，细致平稳条件针对的是分布。

回复评论

xxw 发表于 February 5th, 2021

明白了所以只能尽量把steps取大一点了

回复评论

苏剑林发表于 February 7th, 2021

参考这一层的回答 @苏剑林|comment-15353

回复评论

Mr.Hitchcock

February 8th, 2021

苏神你好，请问对于词典例句的受控文本生成可以提供一些思路吗？例句中需要包含目标词汇。

回复评论

苏剑林发表于 February 9th, 2021

这难道不就是给词造句？如果是的话，下一篇文章会介绍下。

回复评论

Mr. R

February 26th, 2021

请问gibbs sampling的速度很慢，会有实用上的问题，有没有什麽方法可以加速sampling过程?
我的想法是先给出一个好的初始参数。
不知道还有没有什麽思路方向?

回复评论

苏剑林发表于 February 26th, 2021

没有。

MCMC是对人的模拟，而Gibbs采样接受率已经恒为1了，属于最理想的情形，不会有什么改进空间了。我认为只要生成速度比人快，那么就没有实用上的问题，如果有，那就是人的要求过于不客观导致的，要反思的是人而不是模型。

回复评论

mathsam

March 15th, 2021

想在BERT生成语言和extract训练数据这个方向做点研究。初步实验了一下，似乎BERT/Robert很难extract出来类似与GPT2那样的训练数据。比如用Gibbs sampling从Robert生成的url，email，phone number，搜索后发现并不存在。而用GPT2-xl是挺容易重复类《Extracting Training Data from Large Language Models》文中的结果的。这是因为gibbs sampling的方法太随机了，生成的文本在LM看来概率太低？有没有更好的生成方法能降低随机性？或者因为masked language modeling比casual language modeling要简单，所以模型并不需要记住训练数据？
请问在这个方向还有哪些相关的文献能够推荐一下吗？谢谢

回复评论

苏剑林发表于 March 15th, 2021

可以模拟退火试试，最终得到比较高概率的采样结果，或许会好点。

回复评论

tayee

March 18th, 2021

苏神你好，吉布斯采样是每个时刻会对所有维进行采样，而你的MLM模型随机采样每个时刻只对其中一维进行了采样，这是为啥呀？

回复评论

苏剑林发表于 March 18th, 2021

Gibbs采样就是每个时刻只对其中一维进行采样啊。

回复评论

tayee 发表于 March 18th, 2021

不是吧。Gibbs采样每个时刻会对每一维数据都进行采样吧，只不过是一维一维的采样，最终每个时刻所有的维度数据都要进行更新

回复评论

苏剑林发表于 March 18th, 2021

理由呢？我的推导结果就是只对一维更新，我看的每一篇文章，写的都是只对一维更新。

回复评论

tayee 发表于 March 22nd, 2021

因为不能上传图片，所以我这里发一下链接https://blog.csdn.net/pipisorry/article/details/51373090，你看看algorithm 8。我看到关于gibbs采样的都是每一时刻会对所有维进行采样。

回复评论

tayee 发表于 March 22nd, 2021

我想了下，采一维和采所有维最终应该都会收敛，这类似SGD和BGD吧

回复评论

苏剑林发表于 March 22nd, 2021

它这里保证遍历了每一维，强行均匀化，可能会起到降低方差的作用，但事实上从Gibbs采样的推导过程就可以看到，并不存在均匀遍历每一维的要求。

回复评论

tayee 发表于 March 22nd, 2021

苏神，我顺便再请教一下，MH采样当拒绝的时候，是令x(t+1)=x(t)；这里为啥不像拒绝采样那样丢掉数据，重新采样直到满足接收条件？

苏剑林发表于 March 22nd, 2021

@tayee|comment-15882

第二篇文章（https://kexue.fm/archives/8084）已经写得很清楚了，扔掉会改变分布。

tayee

March 22nd, 2021

@苏剑林|comment-15884

感谢苏神！

回复评论

jiao 发表于 April 23rd, 2021

“MH采样当拒绝的时候，是令x(t+1)=x(t)；这里为啥不像拒绝采样那样丢掉数据，重新采样直到满足接收条件？”
你可以这样理解：在马尔可夫链随机游走时，拒绝转移到其他状态，还是保持原来的状态。

回复评论

苏剑林发表于 April 25th, 2021

直观来想就是停留在当前状态的时间不一样，从而影响总体的状态分布。

如果我们只是想逐渐退火来获取最终结果，那么两者没区别，但是如果我们想要的是从分布中采样，那么就会有区别。

回复评论

苏剑林发表于 April 25th, 2021

更直观的理解就是：假如你连续中了两期彩票头奖，然后官方说第二次不算，要重新选一组中奖号码才行，那你觉得你乐意吗？结果等价吗？重新开奖并没有改变“你已经中过奖”的事实，但是改变了你获得的奖金数。

回复评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

【搜出来的文本】⋅（三）基于BERT的文本采样

采样流程 #

参考代码 #

吃瓜思考 #

本文小结 #

你也许还对下面的内容感兴趣

内容速览

智能搜索

热门标签

随机文章

最近评论

友情链接