自己实现了一个bert4keras
By 苏剑林 | 2019-08-27 | 179715位读者 | 引用分享个人实现的bert4keras:
提速不掉点:基于词颗粒度的中文WoBERT
By 苏剑林 | 2020-09-18 | 112324位读者 | 引用当前,大部分中文预训练模型都是以字为基本单位的,也就是说中文语句会被拆分为一个个字。中文也有一些多颗粒度的语言模型,比如创新工场的ZEN和字节跳动的AMBERT,但这类模型的基本单位还是字,只不过想办法融合了词信息。目前以词为单位的中文预训练模型很少,据笔者所了解到就只有腾讯UER开源了一个以词为颗粒度的BERT模型,但实测效果并不好。
那么,纯粹以词为单位的中文预训练模型效果究竟如何呢?有没有它的存在价值呢?最近,我们预训练并开源了以词为单位的中文BERT模型,称之为WoBERT(Word-based BERT,我的BERT!),实验显示基于词的WoBERT在不少任务上有它独特的优势,比如速度明显的提升,同时效果基本不降甚至也有提升。在此对我们的工作做一个总结。
明天就出发去夏令营了
By 苏剑林 | 2011-07-10 | 26657位读者 | 引用明天就要飞去北京参加北京大学天文夏令营了。
参加夏令营本来就是喜事,我满怀着喜悦。然而,喜悦之中却有点伤感。伤感的不是夏令营,而是一种别绪,一种难以看到想见的人的无奈。不管怎样,带着想念,好好参与这次的活动,希望能够收获更多的阅历和经验,同时也是一次对许多人梦寐以求的高校——北京大学的旅游和认识,也算是为明年的高考埋下美丽的伏笔
另一方面,暑假的到来意味着高二的结束,其实,当高考结束的那一天起,我们已经是“准高三”学生了。不少人讨论过高三怎么过,也有不少师兄师姐们向我们描述过高三的死板生活,而我的答案只有五个字:高三,好好活!
端午&高考乱弹:怀念的,也许只是怀念本身
By 苏剑林 | 2019-06-07 | 51409位读者 | 引用获取并处理中文维基百科语料
By 苏剑林 | 2017-01-06 | 109692位读者 | 引用中文语料库中,质量高而又容易获取的语料库,应该就是维基百科的中文语料了,而且维基百科相当厚道,每个月都把所有条目都打包一次(下载地址在这里:https://dumps.wikimedia.org/zhwiki/),供全世界使用,这才是真正的“取之于民,回馈于民”呀。遗憾的是,由于天朝的无理封锁,中文维基百科的条目到目前只有91万多条,而百度百科、互动百科都有千万条了(英文维基百科也有上千万了)。尽管如此,这并没有阻挡中文维基百科成为几乎是最高质量的中文语料库。(百度百科、互动百科它们只能自己用爬虫爬取,而且不少记录质量相当差,几乎都是互相复制甚至抄袭。)
门槛
尽量下载很容易,但是使用维基百科语料还是有一定门槛的。直接下载下来的维基百科语料是一个带有诸多html和markdown标记的文本压缩包,基本不能直接使用。幸好,已经有热心的高手为我们写好了处理工具,主要有两个:1、Wikipedia Extractor;2、gensim的wikicorpus库。它们都是基于python的。
然而,这两个主流的处理方法都不能让我满意。首先,Wikipedia Extractor提取出来的结果,会去掉{{}}标记的内容,这样会导致下面的情形
西方语言中“数学”(;)一词源自于古希腊语的()
WGAN的成功,可能跟Wasserstein距离没啥关系
By 苏剑林 | 2021-03-15 | 54879位读者 | 引用WGAN,即Wasserstein GAN,算是GAN史上一个比较重要的理论突破结果,它将GAN中两个概率分布的度量从f散度改为了Wasserstein距离,从而使得WGAN的训练过程更加稳定,而且生成质量通常也更好。Wasserstein距离跟最优传输相关,属于Integral Probability Metric(IPM)的一种,这类概率度量通常有着更优良的理论性质,因此WGAN的出现也吸引了很多人从最优传输和IPMs的角度来理解和研究GAN模型。
然而,最近Arxiv上的论文《Wasserstein GANs Work Because They Fail (to Approximate the Wasserstein Distance)》则指出,尽管WGAN是从Wasserstein GAN推导出来的,但是现在成功的WGAN并没有很好地近似Wasserstein距离,相反如果我们对Wasserstein距离做更好的近似,效果反而会变差。事实上,笔者一直以来也有这个疑惑,即Wasserstein距离本身并没有体现出它能提升GAN效果的必然性,该论文的结论则肯定了该疑惑,所以GAN能成功的原因依然很迷~
只要我们曾经拥有过——《萍聚》
By 苏剑林 | 2011-06-06 | 22274位读者 | 引用这首歌是凤儿介绍的,去年我们学校高一夏令营的“主题歌曲”。她说歌词写得很好,我感觉也挺不错的^_^
萍,指的是漂浮在水面上的一种藻类,风吹过来,它们就会在风的作用力下聚在一起。人好象是浮在水面上的荷叶,聚散不过都是风吹动所致,到处飘散而已。因此便有了“萍水相逢”这一成语,指的是无心的邂逅或偶然的相遇。“萍聚”亦然。
曾有宋词写道“风中柳絮水中萍,聚散两无情”,这便让我们倍感人生悲欢离合的无奈。在这个充斥着高考的离别的六月里,离愁味道更浓了。可是,不论如何,明天的事情与我们无关,我们要珍惜今天事,珍惜今天人,尽我所能把握好我所拥有的。正如——
Cherish someone special for you and let them know you cherish them.
这样,当我们真的面临无可奈何的离别时,也能够含泪而微笑地挥手,唱着“只要我们曾经拥有过...”。这就是《萍聚》的声音!
更别致的词向量模型(二):对语言进行建模
By 苏剑林 | 2017-11-19 | 54947位读者 | 引用从条件概率到互信息
目前,词向量模型的原理基本都是词的上下文的分布可以揭示这个词的语义,就好比“看看你跟什么样的人交往,就知道你是什么样的人”,所以词向量模型的核心就是对上下文的关系进行建模。除了glove之外,几乎所有词向量模型都是在对条件概率$P(w|context)$进行建模,比如Word2Vec的skip gram模型就是对条件概率$P(w_2|w_1)$进行建模。但这个量其实是有些缺点的,首先它是不对称的,即$P(w_2|w_1)$不一定等于$P(w_1|w_2)$,这样我们在建模的时候,就要把上下文向量和目标向量区分开,它们不能在同一向量空间中;其次,它是有界的、归一化的量,这就意味着我们必须使用softmax等方法将它压缩归一,这造成了优化上的困难。
事实上,在NLP的世界里,有一个更加对称的量比单纯的$P(w_2|w_1)$更为重要,那就是
\[\frac{P(w_1,w_2)}{P(w_1)P(w_2)}=\frac{P(w_2|w_1)}{P(w_2)}\tag{1}\]
这个量的大概意思是“两个词真实碰面的概率是它们随机相遇的概率的多少倍”,如果它远远大于1,那么表明它们倾向于共同出现而不是随机组合的,当然如果它远远小于1,那就意味着它们俩是刻意回避对方的。这个量在NLP界是举足轻重的,我们暂且称它为“相关度“,当然,它的对数值更加出名,大名为点互信息(Pointwise Mutual Information,PMI):
\[\text{PMI}(w_1,w_2)=\log \frac{P(w_1,w_2)}{P(w_1)P(w_2)}\tag{2}\]
有了上面的理论基础,我们认为,如果能直接对相关度进行建模,会比直接对条件概率$P(w_2|w_1)$建模更加合理,所以本文就围绕这个角度进行展开。在此之前,我们先进一步展示一下互信息本身的美妙性质。
最近评论