包含关键字极大似然估计的文章 - 科学空间|Scientific Spaces

6 Aug

【不可思议的Word2Vec】6. Keras版的Word2Vec

By 苏剑林 | 2017-08-06 | 139011位读者 | 引用

前言

看过我之前写的TF版的Word2Vec后，Keras群里的Yin神问我有没有Keras版的。事实上在做TF版之前，我就写过Keras版的，不过没有保留，所以重写了一遍，更高效率，代码也更好看了。纯Keras代码实现Word2Vec，原理跟《【不可思议的Word2Vec】5. Tensorflow版的Word2Vec》是一样的，现在放出来，我想，会有人需要的。（比如，自己往里边加一些额外输入，然后做更好的词向量模型？）

由于Keras同时支持tensorflow、theano、cntk等多个后端，这就等价于实现了多个框架的Word2Vec了。嗯，这样想就高大上了，哈哈～

代码

点击阅读全文...

分类：信息时代标签：词向量, Word2Vec, keras 阅读全文 47 评论

2 May

基于Conv1D的光谱分类模型（一维序列分类）

By 苏剑林 | 2018-05-02 | 116302位读者 | 引用

前段时间天池出了个天文数据挖掘竞赛——LAMOST光谱分类（将对应的光谱识别为4类中的一类），虽然没有奖金，但还是觉得挺有意思，所以就报名参加了。做了一段时间，成绩自我感觉还可以，然而最后我却忘记了（或者说根本就没留意到）初赛最后两天还有一步是提交新的测试集结果，然后就没有然后了，留下了一个未竟的模型，可谓“出师未捷身先死”，还是被自己弄死的～

天文数据挖掘大赛——天体光谱智能分类

后来跟其他参赛选手讨论了一下，发现其实我的这个模型还是不错的。当时我记得初赛第一名的成绩是0.83+，而我当时的成绩是0.82+，排名大概是第4、5左右，而且据说很多分数在0.8+的队伍都已经使用了融合模型，而我这0.82+的成绩仅仅是单模型的结果～在平时的群聊中发现也有不少朋友在做一维序列分类模型，而光谱分类本质上也就是一个一维的序列分类，所以分享一下模型，估计对相关朋友会有一定的参考价值。

模型

事实上也不是什么特别的模型，就是普通的一维卷积加残差，对于熟悉图像处理的朋友，这实在是再普通不过的结构了。

点击阅读全文...

分类：天文探索,信息时代标签：模型, 天文, 光谱阅读全文 27 评论

18 Mar

变分自编码器（一）：原来是这么一回事

By 苏剑林 | 2018-03-18 | 949462位读者 | 引用

过去虽然没有细看，但印象里一直觉得变分自编码器（Variational Auto-Encoder，VAE）是个好东西。于是趁着最近看概率图模型的三分钟热度，我决定也争取把VAE搞懂。于是乎照样翻了网上很多资料，无一例外发现都很含糊，主要的感觉是公式写了一大通，还是迷迷糊糊的，最后好不容易觉得看懂了，再去看看实现的代码，又感觉实现代码跟理论完全不是一回事啊。

终于，东拼西凑再加上我这段时间对概率模型的一些积累，并反复对比原论文《Auto-Encoding Variational Bayes》，最后我觉得我应该是想明白了。其实真正的VAE，跟很多教程说的的还真不大一样，很多教程写了一大通，都没有把模型的要点写出来～于是写了这篇东西，希望通过下面的文字，能把VAE初步讲清楚。

分布变换

通常我们会拿VAE跟GAN比较，的确，它们两个的目标基本是一致的——希望构建一个从隐变量$Z$生成目标数据$X$的模型，但是实现上有所不同。更准确地讲，它们是假设了$Z$服从某些常见的分布（比如正态分布或均匀分布），然后希望训练一个模型$X=g(Z)$，这个模型能够将原来的概率分布映射到训练集的概率分布，也就是说，它们的目的都是进行分布之间的变换。

生成模型的难题就是判断生成分布与真实分布的相似度，因为我们只知道两者的采样结果，不知道它们的分布表达式

点击阅读全文...

分类：信息时代标签：变分, 无监督, vae, 生成模型阅读全文 414 评论

15 Apr

基于CNN的阅读理解式问答模型：DGCNN

By 苏剑林 | 2018-04-15 | 430117位读者 | 引用

2019.08.20更新：开源了一个Keras版（https://kexue.fm/archives/6906）

早在年初的《Attention is All You Need》的介绍文章中就已经承诺过会分享CNN在NLP中的使用心得，然而一直不得其便。这几天终于下定决心来整理一下相关的内容了。

背景

事不宜迟，先来介绍一下模型的基本情况。

模型特点

本模型——我称之为DGCNN——是基于CNN和简单的Attention的模型，由于没有用到RNN结构，因此速度相当快，而且是专门为这种WebQA式的任务定制的，因此也相当轻量级。SQUAD排行榜前面的模型，如AoA、R-Net等，都用到了RNN，并且还伴有比较复杂的注意力交互机制，而这些东西在DGCNN中基本都没有出现。

这是一个在GTX1060上都可以几个小时训练完成的模型！

截止到2018.04.14的排行榜

DGCNN，全名为Dilate Gated Convolutional Neural Network，即“膨胀门卷积神经网络”，顾名思义，融合了两个比较新的卷积用法：膨胀卷积、门卷积，并增加了一些人工特征和trick，最终使得模型在轻、快的基础上达到最佳的效果。在本文撰写之时，本文要介绍的模型还位于榜首，得分（得分是准确率与F1的平均）为0.7583，而且是到目前为止唯一一个一直没有跌出前三名、并且获得周冠军次数最多的模型。

点击阅读全文...

分类：信息时代标签：模型, 问答, 深度学习阅读全文 106 评论

18 Apr

最小熵原理（一）：无监督学习的原理

By 苏剑林 | 2018-04-18 | 85010位读者 | 引用

话在开头

在深度学习等端到端方案已经逐步席卷NLP的今天，你是否还愿意去思考自然语言背后的基本原理？我们常说“文本挖掘”，你真的感受到了“挖掘”的味道了吗？

无意中的邂逅

前段时间看了一篇关于无监督句法分析的文章，继而从它的参考文献中发现了论文《Redundancy Reduction as a Strategy for Unsupervised Learning》，这篇论文介绍了如何从去掉空格的英文文章中将英文单词复原。对应到中文，这不就是词库构建吗？于是饶有兴致地细读了一番，发现论文思路清晰、理论完整、结果漂亮，让人赏心悦目。

尽管现在看来，这篇论文的价值不是很大，甚至其结果可能已经被很多人学习过了，但是要注意：这是一篇1993年的论文！在PC机还没有流行的年代，就做出了如此前瞻性的研究。虽然如今深度学习流行，NLP任务越做越复杂，这确实是一大进步，但是我们对NLP原理的真正了解，还不一定超过几十年前的前辈们多少。

这篇论文是通过“去冗余”（Redundancy Reduction）来实现无监督地构建词库的，从信息论的角度来看，“去冗余”就是信息熵的最小化。无监督句法分析那篇文章也指出“信息熵最小化是无监督的NLP的唯一可行的方案”。我进而学习了一些相关资料，并且结合自己的理解思考了一番，发现这个评论确实是耐人寻味。我觉得，不仅仅是NLP，信息熵最小化很可能是所有无监督学习的根本。

点击阅读全文...

分类：信息时代标签：熵, 无监督, NLP, 最小熵阅读全文 14 评论

24 Apr

最小熵原理（二）：“当机立断”之词库构建

By 苏剑林 | 2018-04-24 | 81589位读者 | 引用

在本文，我们介绍“套路宝典”第一式——“当机立断”：1、导出平均字信息熵的概念，然后基于最小熵原理推导出互信息公式；2、并且完成词库的无监督构建、给出一元分词模型的信息熵诠释，从而展示有关生成套路、识别套路的基本方法和技巧。

这既是最小熵原理的第一个使用案例，也是整个“套路宝典”的总纲。

你练或者不练，套路就在那里，不增不减。

为什么需要词语

从上一篇文章可以看到，假设我们根本不懂中文，那么我们一开始会将中文看成是一系列“字”随机组合的字符串，但是慢慢地我们会发现上下文是有联系的，它并不是“字”的随机组合，它应该是“套路”的随机组合。于是为了减轻我们的记忆成本，我们会去挖掘一些语言的“套路”。第一个“套路”，是相邻的字之间的组合定式，这些组合定式，也就是我们理解的“词”。

平均字信息熵

假如有一批语料，我们将它分好词，以词作为中文的单位，那么每个词的信息量是$-\log p_w$，因此我们就可以计算记忆这批语料所要花费的时间为
$$-\sum_{w\in \text{语料}}\log p_w\tag{2.1}$$
这里$w\in \text{语料}$是对语料逐词求和，不用去重。如果不分词，按照字来理解，那么需要的时间为
$$-\sum_{c\in \text{语料}}\log p_c\tag{2.2}$$

点击阅读全文...

分类：信息时代标签：熵, 无监督, NLP, 最小熵阅读全文 18 评论

30 May

最小熵原理（三）：“飞象过河”之句模版和语言结构

By 苏剑林 | 2018-05-30 | 58876位读者 | 引用

在前一文《最小熵原理（二）：“当机立断”之词库构建》中，我们以最小熵原理为出发点进行了一系列的数学推导，最终得到$(2.15)$和$(2.17)$式，它告诉我们两个互信息比较大的元素我们应该将它们合并起来，这有利于降低“学习难度”。于是利用这一原理，我们通过邻字互信息来实现了词库的无监督生成。

由字到词、由词到词组，考察的是相邻的元素能不能合并成一个好“套路”。可是套路为什么非得要相邻的呢？当然不一定相邻，我们学习语言的时候，不仅仅会学习到词语、词组，还要学习到“固定搭配”，也就是说词语怎么运用才是合理的，这是语法的体现，是本文所要探究的，希望最终能达到一定的无监督句法分析的效果。

由于这次我们考虑的是跨邻词的语言关联，因此我给它起个名字为“飞象过河”，正是

“套路宝典”第二式——“飞象过河”

语言结构

对于大多数人来说，并不会真正知道什么是语法，他们脑海里就只有一些“固定搭配”、“定式”，或者更正式一点可以叫“模版”。大多数情况下，我们是根据模版来说出合理的话来。而不同的人的说话模版可能有所不同，这就是个人的说话风格，甚至是“口头禅”。

点击阅读全文...

分类：信息时代标签：熵, 无监督, NLP, 最小熵阅读全文 10 评论

23 Jun

貌离神合的RNN与ODE：花式RNN简介

By 苏剑林 | 2018-06-23 | 100681位读者 | 引用

本来笔者已经决心不玩RNN了，但是在上个星期思考时忽然意识到RNN实际上对应了ODE（常微分方程）的数值解法，这为我一直以来想做的事情——用深度学习来解决一些纯数学问题——提供了思路。事实上这是一个颇为有趣和有用的结果，遂介绍一翻。顺便地，本文也涉及到了自己动手编写RNN的内容，所以本文也可以作为编写自定义的RNN层的一个简单教程。

注：本文并非前段时间的热点“神经ODE”的介绍（但有一定的联系）。

RNN基本

什么是RNN？

众所周知，RNN是“循环神经网络（Recurrent Neural Network）”，跟CNN不同，RNN可以说是一类模型的总称，而并非单个模型。简单来讲，只要是输入向量序列$(\boldsymbol{x}_1,\boldsymbol{x}_2,\dots,\boldsymbol{x}_T)$，输出另外一个向量序列$(\boldsymbol{y}_1,\boldsymbol{y}_2,\dots,\boldsymbol{y}_T)$，并且满足如下递归关系
$$\boldsymbol{y}_t=f(\boldsymbol{y}_{t-1}, \boldsymbol{x}_t, t)\tag{1}$$
的模型，都可以称为RNN。也正因为如此，原始的朴素RNN，还有改进的如GRU、LSTM、SRU等模型，我们都称为RNN，因为它们都可以作为上式的一个特例。还有一些看上去与RNN没关的内容，比如前不久介绍的CRF的分母的计算，实际上也是一个简单的RNN。

说白了，RNN其实就是递归计算。

点击阅读全文...

分类：数学研究,信息时代标签：微分方程, 递推, RNN 阅读全文 24 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

【不可思议的Word2Vec】6. Keras版的Word2Vec

前言

代码

基于Conv1D的光谱分类模型（一维序列分类）

模型

变分自编码器（一）：原来是这么一回事

分布变换

基于CNN的阅读理解式问答模型：DGCNN

背景

模型特点

最小熵原理（一）：无监督学习的原理

话在开头

无意中的邂逅

最小熵原理（二）：“当机立断”之词库构建

为什么需要词语

平均字信息熵

最小熵原理（三）：“飞象过河”之句模版和语言结构

语言结构

貌离神合的RNN与ODE：花式RNN简介

RNN基本

什么是RNN？

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接