包含关键字混合高斯模型的文章 - 科学空间|Scientific Spaces

20 Dec

“熵”不起：从熵、最大熵原理到最大熵模型（三）

By 苏剑林 | 2015-12-20 | 71192位读者 | 引用

上集回顾

在上一篇文章中，笔者分享了自己对最大熵原理的认识，包括最大熵原理的意义、最大熵原理的求解以及一些简单而常见的最大熵原理的应用。在上一篇的文末，我们还通过最大熵原理得到了正态分布，以此来说明最大熵原理的深刻内涵和广泛意义。

本文中，笔者将介绍基于最大熵原理的模型——最大熵模型。本文以有监督的分类问题来介绍最大熵模型，所谓有监督，就是基于已经标签好的数据进行的。

事实上，第二篇文章的最大熵原理才是主要的，最大熵模型，实质上只是最大熵原理的一个延伸，或者说应用。

最大熵模型

分类：意味着什么？

在引入最大熵模型之前，我们先来多扯一点东西，谈谈分类问题意味着什么。假设我们有一批标签好的数据：
$$\begin{array}{c|cccccccc}
\hline
\text{数据}x & 1 & 2 & 3 & 4 & 5 & 6 & \dots & 100 \\
\hline
\text{标签}y & 1 & 0 & 1 & 0 & 1 & 0 & \dots & 0\\
\hline \end{array}$$

点击阅读全文...

分类：数学研究标签：模型, 概率, 最大熵, 熵阅读全文 19 评论

30 May

路径积分系列：2.随机游走模型

By 苏剑林 | 2016-05-30 | 56836位读者 | 引用

随机游走模型形式简单，但通过它可以导出丰富的结果，它是物理中各种扩散模型的基础之一，它也等价于随机过程中的布朗运动.

笔者所阅的文献表明，数学家已经对对称随机游走问题作了充分研究[2]，也探讨了随机游走问题与偏微分方程的关系[3]，并且还研究过不对称随机游走问题[4]. 然而，已有结果的不足之处有：1、在推导随机游走问题的概率分布或者偏微分方程之时，所用的方法不够简洁明了；2、没有研究更一般的不对称随机游走问题.

本章弥补了这一不足，首先通过母函数和傅里叶变换的方法，推导出了不对称随机游走问题所满足的偏微分方程，并且提出，由于随机游走容易通过计算机模拟，因此通过随机游走来模拟偏微分方程的解是一种有效的数值途径.

模型简介

本节通过一个本质上属于二项分布的走格子问题来引入随机游走.

考虑实数轴上的一个粒子，在$t=0$时刻它位于原点，每秒钟它以相等的概率向前或向后移动一格（$+1$或$-1$），问$n$秒后它所处位置的概率分布.

点击阅读全文...

分类：数学研究标签：路径积分, 随机游走阅读全文 6 评论

26 Jun

OCR技术浅探：7. 语言模型

By 苏剑林 | 2016-06-26 | 52261位读者 | 引用

由于图像质量等原因，性能再好的识别模型，都会有识别错误的可能性，为了减少识别错误率，可以将识别问题跟统计语言模型结合起来，通过动态规划的方法给出最优的识别结果.这是改进OCR识别效果的重要方法之一.

转移概率

在我们分析实验结果的过程中，有出现这一案例.由于图像不清晰等可能的原因，导致“电视”一词被识别为“电柳”，仅用图像模型是不能很好地解决这个问题的，因为从图像模型来看，识别为“电柳”是最优的选择.但是语言模型却可以很巧妙地解决这个问题.原因很简单，基于大量的文本数据我们可以统计“电视”一词和“电柳”一词的概率，可以发现“电视”一词的概率远远大于“电柳”，因此我们会认为这个词是“电视”而不是“电柳”.

从概率的角度来看，就是对于第一个字的区域的识别结果$s_1$，我们前面的卷积神经网络给出了“电”、“宙”两个候选字(仅仅选了前两个，后面的概率太小)，每个候选字的概率$W(s_1)$分别为0.99996、0.00004；第二个字的区域的识别结果$s_2$，我们前面的卷积神经网络给出了“柳”、“视”、“规”(仅仅选了前三个，后面的概率太小)，每个候选字的概率$W(s_2)$分别为0.87838、0.12148、0.00012，因此，它们事实上有六种组合：“电柳”、“电视”、“电规”、“宙柳”、“宙视”、“宙规”.

点击阅读全文...

分类：信息时代标签：模型, OCR, 语言, 动态规划阅读全文 9 评论

19 Aug

【中文分词系列】 3. 字标注法与HMM模型

By 苏剑林 | 2016-08-19 | 86681位读者 | 引用

在这篇文章中，我们暂停查词典方法的介绍，转而介绍字标注的方法。前面已经提到过，字标注是通过给句子中每个字打上标签的思路来进行分词，比如之前提到过的，通过4标签来进行标注（single，单字成词；begin，多字词的开头；middle，三字以上词语的中间部分；end，多字词的结尾。均只取第一个字母。），这样，“为人民服务”就可以标注为“sbebe”了。4标注不是唯一的标注方式，类似地还有6标注，理论上来说，标注越多会越精细，理论上来说效果也越好，但标注太多也可能存在样本不足的问题，一般常用的就是4标注和6标注。

值得一提的是，这种通过给每个字打标签、进而将问题转化为序列到序列的学习，不仅仅是一种分词方法，还是一种解决大量自然语言问题的思路，比如命名实体识别等任务，同样可以用标注的方法来做。回到分词来，通过字标注法来进行分词的模型有隐马尔科夫模型（HMM）、最大熵模型（ME）、条件随机场模型（CRF），它们在精度上都是递增的，据说目前公开评测中分词效果最好的是4标注的CRF。然而，在本文中，我们要讲解的是最不精确的HMM。因为在我看来，它并非一个特定的模型，而是解决一大类问题的通用思想，一种简化问题的学问。

这一切，还得从概率模型谈起。

点击阅读全文...

分类：信息时代标签：概率, python, 分词, HMM, 自然语言处理阅读全文 23 评论

12 Sep

【中文分词系列】 5. 基于语言模型的无监督分词

By 苏剑林 | 2016-09-12 | 154163位读者 | 引用

迄今为止，前四篇文章已经介绍了分词的若干思路，其中有基于最大概率的查词典方法、基于HMM或LSTM的字标注方法等。这些都是已有的研究方法了，笔者所做的就只是总结工作而已。查词典方法和字标注各有各的好处，我一直在想，能不能给出一种只需要大规模语料来训练的无监督分词模型呢？也就是说，怎么切分，应该是由语料来决定的，跟语言本身没关系。说白了，只要足够多语料，就可以告诉我们怎么分词。

看上去很完美，可是怎么做到呢？《2.基于切分的新词发现》中提供了一种思路，但是不够彻底。那里居于切分的新词发现方法确实可以看成一种无监督分词思路，它就是用一个简单的凝固度来判断某处该不该切分。但从分词的角度来看，这样的分词系统未免太过粗糙了。因此，我一直想着怎么提高这个精度，前期得到了一些有意义的结果，但都没有得到一个完整的理论。而最近正好把这个思路补全了。因为没有查找到类似的工作，所以这算是笔者在分词方面的一点原创工作了。

语言模型

首先简单谈一下语言模型。

点击阅读全文...

分类：信息时代标签：分词, 自然语言处理, 无监督, 新词发现阅读全文 35 评论

1 Dec

基于双向GRU和语言模型的视角情感分析

By 苏剑林 | 2016-12-01 | 88032位读者 | 引用

前段时间参加了一个傻逼的网络比赛——基于视角的领域情感分析，主页在这里。比赛的任务是找出一段话的实体然后判断情感，比如“我喜欢本田，我不喜欢丰田”这句话中，要标出“本田”和“丰田”，并且站在本田的角度，情感是积极的，站在丰田的角度，情感就是消极的。也就是说，等价于将实体识别和情感分析结合起来了。

吐槽

看起来很高端，哪里傻逼了？比赛任务本身还不错，值得研究，然而官方却很傻逼，主要体现为：1、比赛分初赛、复赛、决赛三个阶段，初赛一个多月时间，然后筛选部分进入复赛，复赛就简单换了一点数据，题目、数据的领域都没有变化，复赛也是一个月的时间，这傻逼复赛究竟有什么意义？2、大家可以看看选手们在群里讨论什么：

点击阅读全文...

分类：信息时代标签：模型, python, 深度学习, 自然语言处理阅读全文 17 评论

3 Apr

【不可思议的Word2Vec】 2.训练好的模型

By 苏剑林 | 2017-04-03 | 442139位读者 | 引用

由于后面几篇要讲解Word2Vec怎么用，因此笔者先训练好了一个Word2Vec模型。为了节约读者的时间，并且保证读者可以复现后面的结果，笔者决定把这个训练好的模型分享出来，用Gensim训练的。单纯的词向量并不大，但第一篇已经说了，我们要用到完整的Word2Vec模型，因此我将完整的模型分享出来了，包含四个文件，所以文件相对大一些。

提醒读者的是，如果你想获取完整的Word2Vec模型，又不想改源代码，那么Python的Gensim库应该是你唯一的选择，据我所知，其他版本的Word2Vec最后都是只提供词向量给我们，没有完整的模型。

对于做知识挖掘来说，显然用知识库语料（如百科语料）训练的Word2Vec效果会更好。但百科语料我还在爬取中，爬完了我再训练一个模型，到时再分享。

模型概况

这个模型的大概情况如下：
$$\begin{array}{c|c}
\hline
\text{训练语料} & \text{微信公众号的文章，多领域，属于中文平衡语料}\\
\hline
\text{语料数量} & \text{800万篇，总词数达到650亿}\\
\hline
\text{模型词数} & \text{共352196词，基本是中文词，包含常见英文词}\\
\hline
\text{模型结构} & \text{Skip-Gram + Huffman Softmax}\\
\hline
\text{向量维度} & \text{256维}\\
\hline
\text{分词工具} & \text{结巴分词，加入了有50万词条的词典，关闭了新词发现}\\
\hline
\text{训练工具} & \text{Gensim的Word2Vec，服务器训练了7天}\\
\hline
\text{其他情况} & \text{窗口大小为10，最小词频是64，迭代了10次}\\
\hline
\end{array}$$

点击阅读全文...

分类：信息时代标签：词向量, Word2Vec, 语言模型阅读全文 144 评论

10 Sep

RNN模型中输入的重要性的评估

By 苏剑林 | 2017-09-10 | 30467位读者 | 引用

Saliency Maps for RNN

RNN是很多序列任务的不二法门，比如文本分类任务的常用方法就是“词向量+LSTM+全连接分类器”。如下图

RNN分类器

假如这样的一个模型可以良好地工作，那么现在考虑一个任务是：如何衡量输入$w_1,\dots,w_n$对最终的分类结果的影响的重要程度（Saliency）呢？例如假设这是一个情感分类任务，那么怎么找出是哪些词对最终的分类有较为重要的影响呢？本文给出了一个较为直接的思路。

思路的原理很简单，因为我们是将RNN最后一步的状态向量（也就是绿色阴影所代表的向量）传递给后面的分类器进行分类的，因此最后一步的状态向量$\boldsymbol{h}_n$就是一个目标向量。而RNN是一个递推的过程，

点击阅读全文...

分类：信息时代标签：深度学习阅读全文 2 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

“熵”不起：从熵、最大熵原理到最大熵模型（三）

上集回顾

最大熵模型

分类：意味着什么？

路径积分系列：2.随机游走模型

模型简介

OCR技术浅探：7. 语言模型

转移概率

【中文分词系列】 3. 字标注法与HMM模型

【中文分词系列】 5. 基于语言模型的无监督分词

语言模型

基于双向GRU和语言模型的视角情感分析

吐槽

【不可思议的Word2Vec】 2.训练好的模型

模型概况

RNN模型中输入的重要性的评估

Saliency Maps for RNN

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接