基于Conditional Layer Normalization的条件文本生成
By 苏剑林 | 2019-12-14 | 106009位读者 | 引用从文章《从语言模型到Seq2Seq:Transformer如戏,全靠Mask》中我们可以知道,只要配合适当的Attention Mask,Bert(或者其他Transformer模型)就可以用来做无条件生成(Language Model)和序列翻译(Seq2Seq)任务。
可如果是有条件生成呢?比如控制文本的类别,按类别随机生成文本,也就是Conditional Language Model;又比如传入一副图像,来生成一段相关的文本描述,也就是Image Caption。
相关工作
八月份的论文《Encoder-Agnostic Adaptation for Conditional Language Generation》比较系统地分析了利用预训练模型做条件生成的几种方案;九月份有一篇论文《CTRL: A Conditional Transformer Language Model for Controllable Generation》提供了一个基于条件生成来预训练的模型,不过这本质还是跟GPT一样的语言模型,只能以文字输入为条件;而最近的论文《Plug and Play Language Models: a Simple Approach to Controlled Text Generation》将$p(x|y)$转化为$p(x)p(y|x)$来探究基于预训练模型的条件生成。
不过这些经典工作都不是本文要介绍的。本文关注的是以一个固定长度的向量作为条件的文本生成的场景,而方法是Conditional Layer Normalization——把条件融合到Layer Normalization的$\beta$和$\gamma$中去。
日全食多路联合直播频道
By 苏剑林 | 2009-07-18 | 16462位读者 | 引用生活中的趣味数学:同一天生日概率有多大
By 苏剑林 | 2009-07-29 | 27397位读者 | 引用逻辑推理:拿了多少分(PuzzleUp)
By 苏剑林 | 2009-08-06 | 16994位读者 | 引用“战神”升空看它到底有多神?
By 苏剑林 | 2009-10-31 | 20747位读者 | 引用【竖直上抛】炮弹能够射多高(第二宇宙速度)?
By 苏剑林 | 2010-01-17 | 39658位读者 | 引用一枚炮弹以速度$v_0$向上射出,只考虑重力因素,请问炮弹到达多远的距离后就会开始自由下落?
对于这个问题,我们首先采取的是高中生的做法。考虑地球重力,也就是说炮弹在做加速度为
此即炮弹能够走得最远距离。
但是看了这条式子,我们会发现,这个“距离”始终是有限的。换一句话说,只要$v_0$不趋于无穷大,s就不会无穷大。但是我们还听到过牛顿这样说过:假如炮弹以某个速度(就是我们现在所所说的第二宇宙速度)飞离地球,它就永远不会回来了。两者不是矛盾吗?
【龟猫记】家里多了几只小动物
By 苏剑林 | 2010-01-23 | 17533位读者 | 引用最近广告特别多...(严厉声明)
By 苏剑林 | 2010-02-07 | 29400位读者 | 引用最近发现科学空间的评论栏多次出现广告,内容有购物的、交友的等,更令人气愤的是广告内容都是外文的,包括俄语、英语,令人防不胜防。所以现在在这里严厉声明(外文版本为Google自动翻译,希望内行人士指证):
中文版:
1、为了维护本blog利益,请不要在这里发布广告,这里仅仅是一个非营利性的科学博客!
2、在这里发布广告,也不会对你的网站产生任何的推广效果,反而会被删除以及得到坏形象!
俄文版:
1, пожалуйста, не реклама здесь, здесь просто некоммерческой науки блог!
2, если вы рекламируете здесь, он не может популяризации Вашего веб-сайта, и он будет удален, и вы дали негативный имидж к другим!
英文版:
1, Please do not advertise here, here is just a non-profit science blog!
2, If you advertise here, it can not popularize your web site , and it will be removed and you will gave a bad image to others!
最近评论