包含关键字 2013国赛b 的文章 - 科学空间|Scientific Spaces

19 Nov

更别致的词向量模型(三)：描述相关的模型

By 苏剑林 | 2017-11-19 | 116250位读者 | 引用

几何词向量

上述“月老”之云虽说只是幻想，但所面临的问题却是真实的。按照传统NLP的手段，我们可以统计任意两个词的共现频率以及每个词自身的频率，然后去算它们的相关度，从而得到一个“相关度矩阵”。然而正如前面所说，这个共现矩阵太庞大了，必须压缩降维，同时还要做数据平滑，给未出现的词对的相关度赋予一个合理的估值。

在已有的机器学习方案中，我们已经有一些对庞大的矩阵降维的经验了，比如SVD和pLSA，SVD是对任意矩阵的降维，而pLSA是对转移概率矩阵$P(j|i)$的降维，两者的思想是类似的，都是将一个大矩阵$\boldsymbol{A}$分解为两个小矩阵的乘积$\boldsymbol{A}\approx\boldsymbol{B}\boldsymbol{C}$，其中$\boldsymbol{B}$的行数等于$\boldsymbol{A}$的行数，$\boldsymbol{C}$的列数等于$\boldsymbol{A}$的列数，而它们本身的大小则远小于$\boldsymbol{A}$的大小。如果对$\boldsymbol{B},\boldsymbol{C}$不做约束，那么就是SVD；如果对$\boldsymbol{B},\boldsymbol{C}$做正定归一化约束，那就是pLSA。

但是如果是相关度矩阵，那么情况不大一样，它是正定的但不是归一的，我们需要为它设计一个新的压缩方案。借鉴矩阵分解的经验，我们可以设想把所有的词都放在$n$维空间中，也就是用$n$维空间中的一个向量来表示，并假设它们的相关度就是内积的某个函数（为什么是内积？因为矩阵乘法本身就是不断地做内积）：
\[\frac{P(w_i,w_j)}{P(w_i)P(w_j)}=f\big(\langle \boldsymbol{v}_i, \boldsymbol{v}_j\rangle\big)\tag{8}\]
其中加粗的$\boldsymbol{v}_i, \boldsymbol{v}_j$表示词$w_i,w_j$对应的词向量。从几何的角度看，我们就是把词语放置到了$n$维空间中，用空间中的点来表示一个词。

因为几何给我们的感觉是直观的，而语义给我们的感觉是复杂的，因此，理想情况下我们希望能够通过几何关系来反映语义关系。下面我们就根据我们所希望的几何特性，来确定待定的函数$f$。事实上，glove词向量的那篇论文中做过类似的事情，很有启发性，但glove的推导实在是不怎么好看。请留意，这里的观点是新颖的——从我们希望的性质，来确定我们的模型，而不是反过来有了模型再推导性质。

机场-飞机+火车=火车站

点击阅读全文...

分类：信息时代标签：词向量, glove 阅读全文 27 评论

23 Jan

分享一个slide：花式自然语言处理

By 苏剑林 | 2018-01-23 | 81064位读者 | 引用

花式自然语言处理

这是前两天在华南师范大学进行交流的时候所用的slide，主要介绍了自然语言处理的一些技巧。

这个slide的出发点是：国内高校很多搞NLP的小组基本都停留在RNN的思维中，所以我介绍了CNN、Attention的一些内容，并且介绍了模型训练的一些技巧，等等。内容其实比较简短，但考虑到不少概念对于多数同学来说都是新的，因此信息量还是蛮大的。

这也是我第一次尝试用$\LaTeX$来做slide，感觉也没有想象中那么难，做出来的效果还是挺清新明了的，以后要多练习～

点击阅读全文...

分类：信息时代标签：深度学习, 自然语言处理阅读全文 14 评论

16 Mar

现在可以用Keras玩中文GPT2了（GPT2_ML）

By 苏剑林 | 2020-03-16 | 92232位读者 | 引用

前段时间留意到有大牛开源了一个中文的GPT2模型，是最大的15亿参数规模的，看作者给的demo，生成效果还是蛮惊艳的，就想着加载到自己的bert4keras来玩玩。不过早期的bert4keras整体架构写得比较“死”，集成多个不同的模型很不方便。前两周终于看不下去了，把bert4keras的整体结构重写了一遍，现在的bert4keras总能算比较灵活地编写各种Transformer结构的模型了，比如GPT2、T5等都已经集成在里边了。

GPT2科普

GPT，相信很多读者都听说过它了，简单来说，它就是一个基于Transformer结构的语言模型，源自论文《GPT：Improving Language Understanding by Generative Pre-Training》，但它又不是为了做语言模型而生，它是通过语言模型来预训练自身，然后在下游任务微调，提高下游任务的表现。它是“Transformer + 预训练 + 微调”这种模式的先驱者，相对而言，BERT都算是它的“后辈”，而GPT2，则是GPT的升级版——模型更大，训练数据更多——模型最大版的参数量达到了15亿。

点击阅读全文...

分类：信息时代标签：语言模型, NLP, 文本生成, attention 阅读全文 31 评论

18 Apr

最小熵原理（一）：无监督学习的原理

By 苏剑林 | 2018-04-18 | 84815位读者 | 引用

话在开头

在深度学习等端到端方案已经逐步席卷NLP的今天，你是否还愿意去思考自然语言背后的基本原理？我们常说“文本挖掘”，你真的感受到了“挖掘”的味道了吗？

无意中的邂逅

前段时间看了一篇关于无监督句法分析的文章，继而从它的参考文献中发现了论文《Redundancy Reduction as a Strategy for Unsupervised Learning》，这篇论文介绍了如何从去掉空格的英文文章中将英文单词复原。对应到中文，这不就是词库构建吗？于是饶有兴致地细读了一番，发现论文思路清晰、理论完整、结果漂亮，让人赏心悦目。

尽管现在看来，这篇论文的价值不是很大，甚至其结果可能已经被很多人学习过了，但是要注意：这是一篇1993年的论文！在PC机还没有流行的年代，就做出了如此前瞻性的研究。虽然如今深度学习流行，NLP任务越做越复杂，这确实是一大进步，但是我们对NLP原理的真正了解，还不一定超过几十年前的前辈们多少。

这篇论文是通过“去冗余”（Redundancy Reduction）来实现无监督地构建词库的，从信息论的角度来看，“去冗余”就是信息熵的最小化。无监督句法分析那篇文章也指出“信息熵最小化是无监督的NLP的唯一可行的方案”。我进而学习了一些相关资料，并且结合自己的理解思考了一番，发现这个评论确实是耐人寻味。我觉得，不仅仅是NLP，信息熵最小化很可能是所有无监督学习的根本。

点击阅读全文...

分类：信息时代标签：熵, 无监督, NLP, 最小熵阅读全文 14 评论

24 Apr

最小熵原理（二）：“当机立断”之词库构建

By 苏剑林 | 2018-04-24 | 81381位读者 | 引用

在本文，我们介绍“套路宝典”第一式——“当机立断”：1、导出平均字信息熵的概念，然后基于最小熵原理推导出互信息公式；2、并且完成词库的无监督构建、给出一元分词模型的信息熵诠释，从而展示有关生成套路、识别套路的基本方法和技巧。

这既是最小熵原理的第一个使用案例，也是整个“套路宝典”的总纲。

你练或者不练，套路就在那里，不增不减。

为什么需要词语

从上一篇文章可以看到，假设我们根本不懂中文，那么我们一开始会将中文看成是一系列“字”随机组合的字符串，但是慢慢地我们会发现上下文是有联系的，它并不是“字”的随机组合，它应该是“套路”的随机组合。于是为了减轻我们的记忆成本，我们会去挖掘一些语言的“套路”。第一个“套路”，是相邻的字之间的组合定式，这些组合定式，也就是我们理解的“词”。

平均字信息熵

假如有一批语料，我们将它分好词，以词作为中文的单位，那么每个词的信息量是$-\log p_w$，因此我们就可以计算记忆这批语料所要花费的时间为
$$-\sum_{w\in \text{语料}}\log p_w\tag{2.1}$$
这里$w\in \text{语料}$是对语料逐词求和，不用去重。如果不分词，按照字来理解，那么需要的时间为
$$-\sum_{c\in \text{语料}}\log p_c\tag{2.2}$$

点击阅读全文...

分类：信息时代标签：熵, 无监督, NLP, 最小熵阅读全文 18 评论

7 Jul

从SamplePairing到mixup：神奇的正则项

By 苏剑林 | 2018-07-07 | 77781位读者 | 引用

SamplePairing和mixup是两种一脉相承的图像数据扩增手段，它们看起来很不合理，而操作则非常简单，但结果却非常漂亮：在多个图像分类任务中都表明它们能提高最终分类模型的精度。

某些读者会困惑于一个问题：为什么如此不合理的数据扩增手段，能得到如此好的效果？而本文则要表明，它们看起来是一种数据扩增方法，事实上它们是对模型的一种正则化方案。正如周星驰的电影《国产凌凌漆》的一句经典台词：

表面上看这是一个吹风机，其实它是一个刮胡刀。

数据扩增

让我们从数据扩增说起。数据扩增是指我们在对原始数据做一些简单的变换后，它们对应的类别往往不会变化，所以我们可以在原来数据的基础上，“造”出更多的数据来。比如一幅小狗的照片，将它水平翻转、轻微的旋转、裁剪、平移等操作后，我们认为它的类别没有变化，它还是原来的那只狗。这样一来，从一个样本我们可以衍生出好几个样本，从而增加了训练样本量。

狗

旋转的狗

点击阅读全文...

分类：信息时代标签：模型阅读全文 15 评论

26 Aug

细水长flow之RealNVP与Glow：流模型的传承与升华

By 苏剑林 | 2018-08-26 | 302898位读者 | 引用

话在开头

上一篇文章《细水长flow之NICE：流模型的基本概念与实现》中，我们介绍了flow模型中的一个开山之作：NICE模型。从NICE模型中，我们能知道flow模型的基本概念和基本思想，最后笔者还给出了Keras中的NICE实现。

本文我们来关心NICE的升级版：RealNVP和Glow。

Glow模型的采样演示（截取自Glow官方博客）

精巧的flow

不得不说，flow模型是一个在设计上非常精巧的模型。总的来看，flow就是想办法得到一个encoder将输入$\boldsymbol{x}$编码为隐变量$\boldsymbol{z}$，并且使得$\boldsymbol{z}$服从标准正态分布。得益于flow模型的精巧设计，这个encoder是可逆的，从而我们可以立马从encoder写出相应的decoder（生成器）出来，因此，只要encoder训练完成，我们就能同时得到decoder，完成生成模型的构建。

为了完成这个构思，不仅仅要使得模型可逆，还要使得对应的雅可比行列式容易计算，为此，NICE提出了加性耦合层，通过多个加性耦合层的堆叠，使得模型既具有强大的拟合能力，又具有单位雅可比行列式。就这样，一种不同于VAE和GAN的生成模型——flow模型就这样出来了，它通过巧妙的构造，让我们能直接去拟合概率分布本身。

点击阅读全文...

分类：信息时代标签：概率, 流模型, flow, 生成模型阅读全文 125 评论

30 Oct

缅怀金庸 | 愿你登上10930小行星继续翱翔

By 苏剑林 | 2018-10-30 | 21770位读者 | 引用

金庸大师

金庸走了，享年94岁。

虽然说这些高龄大师们，不管是科学家还是文学家，他们在晚年基本上都不会有什么产出，过于理性的话会有“去了就去了，好像也没有什么损失”的感觉。然而，事实是大师的逝去总让我们有一种悲伤的震撼感，总让我们觉得似乎一个时代又逝去了。霍金是这样，金庸也是这样。

对于金老爷子来说，是一个武侠时代过去了，是一个江湖过去了。

飞雪连天射白鹿，笑书神侠倚碧鸳。

这个对联描述了金庸的14部作品，加上《越女剑》，就构成了他的15部武侠小说。金庸用这15部小说，描述了一个个活灵活现的江湖，不，说江湖好象都太小了，读完这15部作品，你会感觉他描述了整个中国几千年的历史、整个社会。

点击阅读全文...

分类：生活/情感标签：文学, 金庸阅读全文抢沙发

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

更别致的词向量模型(三)：描述相关的模型

几何词向量

机场-飞机+火车=火车站

分享一个slide：花式自然语言处理

现在可以用Keras玩中文GPT2了（GPT2_ML）

GPT2科普

最小熵原理（一）：无监督学习的原理

话在开头

无意中的邂逅

最小熵原理（二）：“当机立断”之词库构建

为什么需要词语

平均字信息熵

从SamplePairing到mixup：神奇的正则项

数据扩增

细水长flow之RealNVP与Glow：流模型的传承与升华

话在开头

精巧的flow

缅怀金庸 | 愿你登上10930小行星继续翱翔

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接