包含关键字自然极值的文章 - 科学空间|Scientific Spaces

24 Mar

基于CNN和VAE的作诗机器人：随机成诗

By 苏剑林 | 2018-03-24 | 134919位读者 | 引用

前几日写了一篇VAE的通俗解读，也得到了一些读者的认可。然而，你是否厌倦了每次介绍都只有一个MNIST级别的demo？不要急，这就给大家带来一个更经典的VAE玩具：机器人作诗。

为什么说“更经典”呢？前一篇文章我们说过用VAE生成的图像相比GAN生成的图像会偏模糊，也就是在图像这一“仗”上，VAE是劣势。然而，在文本生成这一块上，VAE却漂亮地胜出了。这是因为GAN希望把判别器（度量）也直接训练出来，然而对于文本来说，这个度量很可能是离散的、不可导的，因此纯GAN就很难训练了。而VAE中没有这个步骤，它是通过重构输入来完成的，这个重构过程对于图像还是文本都可以进行。所以，文本生成这件事情，对于VAE来说它就跟图像生成一样，都是一个基本的、直接的应用；对于（目前的）GAN来说，却是艰难的象征，是它挥之不去的“心病”。

嗯，古有曹植七步作诗，今有VAE随机成诗，让我们开始吧～

模型

对于很多人来说，诗是一个很美妙的玩意，美妙之处在于大多数人都不真正懂得诗，但大家对诗的模样又有一知半解的认识。因此，只要生成的“诗”稍微像模像样一点，我们通常都会认为机器人可以作诗了。因此，所谓作诗机器人，是一个纯粹的玩具了，能作几句诗，也不意味着普通语言的生成能力有多好，也不意味着我们对NLP的理解有多深。

CNN + VAE

就本文的玩具而言，其实是一个比较简单的模型，主要是把一维CNN和VAE结合了起来。因为生成的诗长度是固定的，所以不管是encoder还是decoder，我都只是用了纯CNN来做。模型的结构图大概是：

cnn + vae 诗歌生成模型

点击阅读全文...

分类：信息时代标签：文学, vae, 生成模型, 文本生成阅读全文 32 评论

15 Mar

从最大似然到EM算法：一致的理解方式

By 苏剑林 | 2018-03-15 | 161883位读者 | 引用

最近在思考NLP的无监督学习和概率图相关的一些内容，于是重新把一些参数估计方法理了一遍。在深度学习中，参数估计是最基本的步骤之一了，也就是我们所说的模型训练过程。为了训练模型就得有个损失函数，而如果没有系统学习过概率论的读者，能想到的最自然的损失函数估计是平均平方误差，它也就是对应于我们所说的欧式距离。而理论上来讲，概率模型的最佳搭配应该是“交叉熵”函数，它来源于概率论中的最大似然函数。

最大似然

合理的存在

何为最大似然？哲学上有句话叫做“存在就是合理的”，最大似然的意思是“存在就是最合理的”。具体来说，如果事件 $X$ 的概率分布为 $p(X)$ ，如果一次观测中具体观测到的值分别为 $X_1,X_2,\dots,X_n$ ，并假设它们是相互独立，那么
$\mathcal{P} = \prod_{i=1}^n p(X_i)\tag{1}$
是最大的。如果 $p(X)$ 是一个带有参数 $\theta$ 的概率分布式 $p_{\theta}(X)$ ，那么我们应当想办法选择 $\theta$ ，使得 $\mathcal{L}$ 最大化，即
$\theta = \mathop{\text{argmax}}_{\theta} \mathcal{P}(\theta) = \mathop{\text{argmax}}_{\theta}\prod_{i=1}^n p_{\theta}(X_i)\tag{2}$

点击阅读全文...

分类：数学研究标签：概率, 优化, 聚类阅读全文 44 评论

15 Apr

基于CNN的阅读理解式问答模型：DGCNN

By 苏剑林 | 2018-04-15 | 463435位读者 | 引用

2019.08.20更新：开源了一个Keras版（https://kexue.fm/archives/6906）

早在年初的《Attention is All You Need》的介绍文章中就已经承诺过会分享CNN在NLP中的使用心得，然而一直不得其便。这几天终于下定决心来整理一下相关的内容了。

背景

事不宜迟，先来介绍一下模型的基本情况。

模型特点

本模型——我称之为DGCNN——是基于CNN和简单的Attention的模型，由于没有用到RNN结构，因此速度相当快，而且是专门为这种WebQA式的任务定制的，因此也相当轻量级。SQUAD排行榜前面的模型，如AoA、R-Net等，都用到了RNN，并且还伴有比较复杂的注意力交互机制，而这些东西在DGCNN中基本都没有出现。

这是一个在GTX1060上都可以几个小时训练完成的模型！

截止到2018.04.14的排行榜

DGCNN，全名为Dilate Gated Convolutional Neural Network，即“膨胀门卷积神经网络”，顾名思义，融合了两个比较新的卷积用法：膨胀卷积、门卷积，并增加了一些人工特征和trick，最终使得模型在轻、快的基础上达到最佳的效果。在本文撰写之时，本文要介绍的模型还位于榜首，得分（得分是准确率与F1的平均）为0.7583，而且是到目前为止唯一一个一直没有跌出前三名、并且获得周冠军次数最多的模型。

点击阅读全文...

分类：信息时代标签：模型, 问答, 深度学习阅读全文 106 评论

18 Apr

最小熵原理（一）：无监督学习的原理

By 苏剑林 | 2018-04-18 | 93704位读者 | 引用

话在开头

在深度学习等端到端方案已经逐步席卷NLP的今天，你是否还愿意去思考自然语言背后的基本原理？我们常说“文本挖掘”，你真的感受到了“挖掘”的味道了吗？

无意中的邂逅

前段时间看了一篇关于无监督句法分析的文章，继而从它的参考文献中发现了论文《Redundancy Reduction as a Strategy for Unsupervised Learning》，这篇论文介绍了如何从去掉空格的英文文章中将英文单词复原。对应到中文，这不就是词库构建吗？于是饶有兴致地细读了一番，发现论文思路清晰、理论完整、结果漂亮，让人赏心悦目。

尽管现在看来，这篇论文的价值不是很大，甚至其结果可能已经被很多人学习过了，但是要注意：这是一篇1993年的论文！在PC机还没有流行的年代，就做出了如此前瞻性的研究。虽然如今深度学习流行，NLP任务越做越复杂，这确实是一大进步，但是我们对NLP原理的真正了解，还不一定超过几十年前的前辈们多少。

这篇论文是通过“去冗余”（Redundancy Reduction）来实现无监督地构建词库的，从信息论的角度来看，“去冗余”就是信息熵的最小化。无监督句法分析那篇文章也指出“信息熵最小化是无监督的NLP的唯一可行的方案”。我进而学习了一些相关资料，并且结合自己的理解思考了一番，发现这个评论确实是耐人寻味。我觉得，不仅仅是NLP，信息熵最小化很可能是所有无监督学习的根本。

点击阅读全文...

分类：信息时代标签：熵, 无监督, NLP, 最小熵阅读全文 14 评论

24 Apr

最小熵原理（二）：“当机立断”之词库构建

By 苏剑林 | 2018-04-24 | 89480位读者 | 引用

在本文，我们介绍“套路宝典”第一式——“当机立断”：1、导出平均字信息熵的概念，然后基于最小熵原理推导出互信息公式；2、并且完成词库的无监督构建、给出一元分词模型的信息熵诠释，从而展示有关生成套路、识别套路的基本方法和技巧。

这既是最小熵原理的第一个使用案例，也是整个“套路宝典”的总纲。

你练或者不练，套路就在那里，不增不减。

为什么需要词语

从上一篇文章可以看到，假设我们根本不懂中文，那么我们一开始会将中文看成是一系列“字”随机组合的字符串，但是慢慢地我们会发现上下文是有联系的，它并不是“字”的随机组合，它应该是“套路”的随机组合。于是为了减轻我们的记忆成本，我们会去挖掘一些语言的“套路”。第一个“套路”，是相邻的字之间的组合定式，这些组合定式，也就是我们理解的“词”。

平均字信息熵

假如有一批语料，我们将它分好词，以词作为中文的单位，那么每个词的信息量是 $-\log p_w$ ，因此我们就可以计算记忆这批语料所要花费的时间为
$-\sum_{w\in \text{语料}}\log p_w\tag{2.1}$
这里 $w\in \text{语料}$ 是对语料逐词求和，不用去重。如果不分词，按照字来理解，那么需要的时间为
$-\sum_{c\in \text{语料}}\log p_c\tag{2.2}$

点击阅读全文...

分类：信息时代标签：熵, 无监督, NLP, 最小熵阅读全文 18 评论

18 May

简明条件随机场CRF介绍（附带纯Keras实现）

By 苏剑林 | 2018-05-18 | 357620位读者 | 引用

笔者去年曾写过博文《果壳中的条件随机场(CRF In A Nutshell)》，以一种比较粗糙的方式介绍了一下条件随机场（CRF）模型。然而那篇文章显然有很多不足的地方，比如介绍不够清晰，也不够完整，还没有实现，在这里我们重提这个模型，将相关内容补充完成。

本文是对CRF基本原理的一个简明的介绍。当然，“简明”是相对而言中，要想真的弄清楚CRF，免不了要提及一些公式，如果只关心调用的读者，可以直接移到文末。

图示

按照之前的思路，我们依旧来对比一下普通的逐帧softmax和CRF的异同。

逐帧softmax

CRF主要用于序列标注问题，可以简单理解为是给序列中的每一帧都进行分类，既然是分类，很自然想到将这个序列用CNN或者RNN进行编码后，接一个全连接层用softmax激活，如下图所示

逐帧softmax并没有直接考虑输出的上下文关联

点击阅读全文...

分类：信息时代标签：模型, 概率图, keras, crf 阅读全文 103 评论

30 May

最小熵原理（三）：“飞象过河”之句模版和语言结构

By 苏剑林 | 2018-05-30 | 63410位读者 | 引用

在前一文《最小熵原理（二）：“当机立断”之词库构建》中，我们以最小熵原理为出发点进行了一系列的数学推导，最终得到 $(2.15)$ 和 $(2.17)$ 式，它告诉我们两个互信息比较大的元素我们应该将它们合并起来，这有利于降低“学习难度”。于是利用这一原理，我们通过邻字互信息来实现了词库的无监督生成。

由字到词、由词到词组，考察的是相邻的元素能不能合并成一个好“套路”。可是套路为什么非得要相邻的呢？当然不一定相邻，我们学习语言的时候，不仅仅会学习到词语、词组，还要学习到“固定搭配”，也就是说词语怎么运用才是合理的，这是语法的体现，是本文所要探究的，希望最终能达到一定的无监督句法分析的效果。

由于这次我们考虑的是跨邻词的语言关联，因此我给它起个名字为“飞象过河”，正是

“套路宝典”第二式——“飞象过河”

语言结构

对于大多数人来说，并不会真正知道什么是语法，他们脑海里就只有一些“固定搭配”、“定式”，或者更正式一点可以叫“模版”。大多数情况下，我们是根据模版来说出合理的话来。而不同的人的说话模版可能有所不同，这就是个人的说话风格，甚至是“口头禅”。

点击阅读全文...

分类：信息时代标签：熵, 无监督, NLP, 最小熵阅读全文 10 评论

7 Jun

python简单实现gillespie模拟

By 苏剑林 | 2018-06-07 | 77312位读者 | 引用

由于专业需求，需要做主方程的随机模拟。在网上并没有找到适合的Python实现，遂自己写了一个，分享一下源码。至于gillespie算法本身就不介绍了，有需要的读者自然会懂，没需要的读者不建议去懂。

源码

其实基本的gillespie模拟算法很简单，也很好实现，下面就是一个参考例子：

点击阅读全文...

分类：物理化学标签：概率, 模拟, 随机, 主方程阅读全文 17 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

基于CNN和VAE的作诗机器人：随机成诗

模型

CNN + VAE

从最大似然到EM算法：一致的理解方式

最大似然

合理的存在

基于CNN的阅读理解式问答模型：DGCNN

背景

模型特点

最小熵原理（一）：无监督学习的原理

话在开头

无意中的邂逅

最小熵原理（二）：“当机立断”之词库构建

为什么需要词语

平均字信息熵

简明条件随机场CRF介绍（附带纯Keras实现）

图示

逐帧softmax

最小熵原理（三）：“飞象过河”之句模版和语言结构

语言结构

python简单实现gillespie模拟

源码

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接