标签概率下的文章 - 科学空间|Scientific Spaces

19 Aug

【中文分词系列】 3. 字标注法与HMM模型

By 苏剑林 | 2016-08-19 | 73910位读者 | 引用

在这篇文章中，我们暂停查词典方法的介绍，转而介绍字标注的方法。前面已经提到过，字标注是通过给句子中每个字打上标签的思路来进行分词，比如之前提到过的，通过4标签来进行标注（single，单字成词；begin，多字词的开头；middle，三字以上词语的中间部分；end，多字词的结尾。均只取第一个字母。），这样，“为人民服务”就可以标注为“sbebe”了。4标注不是唯一的标注方式，类似地还有6标注，理论上来说，标注越多会越精细，理论上来说效果也越好，但标注太多也可能存在样本不足的问题，一般常用的就是4标注和6标注。

值得一提的是，这种通过给每个字打标签、进而将问题转化为序列到序列的学习，不仅仅是一种分词方法，还是一种解决大量自然语言问题的思路，比如命名实体识别等任务，同样可以用标注的方法来做。回到分词来，通过字标注法来进行分词的模型有隐马尔科夫模型（HMM）、最大熵模型（ME）、条件随机场模型（CRF），它们在精度上都是递增的，据说目前公开评测中分词效果最好的是4标注的CRF。然而，在本文中，我们要讲解的是最不精确的HMM。因为在我看来，它并非一个特定的模型，而是解决一大类问题的通用思想，一种简化问题的学问。

这一切，还得从概率模型谈起。

点击阅读全文...

分类：信息时代标签：概率, python, 分词, HMM, 自然语言处理阅读全文 23 评论

20 Dec

“熵”不起：从熵、最大熵原理到最大熵模型（三）

By 苏剑林 | 2015-12-20 | 56729位读者 | 引用

上集回顾

在上一篇文章中，笔者分享了自己对最大熵原理的认识，包括最大熵原理的意义、最大熵原理的求解以及一些简单而常见的最大熵原理的应用。在上一篇的文末，我们还通过最大熵原理得到了正态分布，以此来说明最大熵原理的深刻内涵和广泛意义。

本文中，笔者将介绍基于最大熵原理的模型——最大熵模型。本文以有监督的分类问题来介绍最大熵模型，所谓有监督，就是基于已经标签好的数据进行的。

事实上，第二篇文章的最大熵原理才是主要的，最大熵模型，实质上只是最大熵原理的一个延伸，或者说应用。

最大熵模型

分类：意味着什么？

在引入最大熵模型之前，我们先来多扯一点东西，谈谈分类问题意味着什么。假设我们有一批标签好的数据：
$$\begin{array}{c|cccccccc}
\hline
\text{数据}x & 1 & 2 & 3 & 4 & 5 & 6 & \dots & 100 \\
\hline
\text{标签}y & 1 & 0 & 1 & 0 & 1 & 0 & \dots & 0\\
\hline \end{array}$$

点击阅读全文...

分类：数学研究标签：模型, 概率, 最大熵, 熵阅读全文 19 评论

11 Dec

“熵”不起：从熵、最大熵原理到最大熵模型（二）

By 苏剑林 | 2015-12-11 | 71314位读者 | 引用

上集回顾

在第一篇中，笔者介绍了“熵”这个概念，以及它的一些来龙去脉。熵的公式为
$$S=-\sum_x p(x)\log p(x)\tag{1}$$
或
$$S=-\int p(x)\log p(x) dx\tag{2}$$
并且在第一篇中，我们知道熵既代表了不确定性，又代表了信息量，事实上它们是同一个概念。

说完了熵这个概念，接下来要说的是“最大熵原理”。最大熵原理告诉我们，当我们想要得到一个随机事件的概率分布时，如果没有足够的信息能够完全确定这个概率分布（可能是不能确定什么分布，也可能是知道分布的类型，但是还有若干个参数没确定），那么最为“保险”的方案是选择使得熵最大的分布。

最大熵原理

承认我们的无知

很多文章在介绍最大熵原理的时候，会引用一句著名的句子——“不要把鸡蛋放在同一个篮子里”——来通俗地解释这个原理。然而，笔者窃以为这句话并没有抓住要点，并不能很好地体现最大熵原理的要义。笔者认为，对最大熵原理更恰当的解释是：承认我们的无知！

点击阅读全文...

分类：数学研究标签：概率, 极值, 最大熵, 熵阅读全文 19 评论

1 Dec

“熵”不起：从熵、最大熵原理到最大熵模型（一）

By 苏剑林 | 2015-12-01 | 68914位读者 | 引用

熵的概念

作为一名物理爱好者，我一直对统计力学中“熵”这个概念感到神秘和好奇。因此，当我接触数据科学的时候，我也对最大熵模型产生了浓厚的兴趣。

熵是什么？在通俗的介绍中，熵一般有两种解释：（1）熵是不确定性的度量；（2）熵是信息的度量。看上去说的不是一回事，其实它们说的就是同一个意思。首先，熵是不确定性的度量，它衡量着我们对某个事物的“无知程度”。熵为什么又是信息的度量呢？既然熵代表了我们对事物的无知，那么当我们从“无知”到“完全认识”这个过程中，就会获得一定的信息量，我们开始越无知，那么到达“完全认识”时，获得的信息量就越大，因此，作为不确定性的度量的熵，也可以看作是信息的度量，说准确点，是我们能从中获得的最大的信息量。

点击阅读全文...

分类：数学研究标签：概率, 最大熵, 熵阅读全文 13 评论

21 Jan

怎么会这么巧！背后的隐藏信息

By 苏剑林 | 2015-01-21 | 29877位读者 | 引用

假设我是一名中学数学老师，在给学生兴致勃勃地讲“素数”，讲完素数的定义和相关性质后，正当我接着往下讲时，有个捣蛋的学生提问，“老师，你能不能举一个三位数的素数？”。可是我手头上没有1000以内的素数表，我也没记住超过100的素数，那怎么办呢？我只好在黑板上写出几个三位数，比如173、211、463，然后跟学生说“让我们来检验这些数是不是素数”。最终的结果是：它们都是素数！然后会有学生疑问：怎么会这么巧？

素数的概率

首先的问题是，任意写一个三位数，它是素数的概率是多少？三位数的素数共有143个，三位数共有900个，于是概率应该是143/900，大约是六分之一。看起来挺低的，要“蒙中”似乎不容易。

点击阅读全文...

分类：千奇百怪标签：概率, 解析阅读全文 6 评论

13 Jan

当概率遇上复变：从二项分布到泊松分布

By 苏剑林 | 2015-01-13 | 21842位读者 | 引用

泊松分布，适合于描述单位时间内随机事件发生的次数的概率分布，如某一服务设施在一定时间内受到的服务请求的次数、汽车站台的候客人数等。^{[维基百科]}泊松分布也可以作为小概率的二项分布的近似，其推导过程在一般的概率论教材都会讲到。可是一般教材上给出的证明并不是那么让人赏心悦目，如《概率论与数理统计教程》（第二版，茆诗松等编）的第98页就给出的证明过程。那么，哪个证明过程才更让人点赞呢？我认为是利用母函数的证明。

二项分布的母函数为
$$\begin{equation}(q+px)^n,\quad q=1-p\end{equation}$$

点击阅读全文...

分类：数学研究标签：概率, 生成函数阅读全文抢沙发

30 Apr

当概率遇上复变：随机游走基本公式

By 苏剑林 | 2014-04-30 | 53672位读者 | 引用

笔者发现，有很多概率问题，尤其是独立重复实验问题，如果用生成函数的方法来做，会显得特别方便。本文要讲的“随机游走”问题便是其中一例，它又被形象地叫做“醉汉问题”，其本质上是一个二项分布，但是由于取了极限，出现了很多新的性质和应用。我们先考虑如下问题：

考虑实数轴上的一个粒子，在$t=0$时刻它位于原点，每过一秒，它要不向前移动一格（+1），要不就向后移动一格（-1），问$n$秒后它所处位置的概率分布。

点击阅读全文...

分类：数学研究标签：概率, 变换, 生成函数, 随机游走阅读全文 5 评论

25 Apr

当概率遇上复变：解析概率

By 苏剑林 | 2014-04-25 | 24474位读者 | 引用

每当看到数学的两个看似毫不相关的分支巧妙地联系了起来时，我总会为数学的神奇美丽惊叹不已。在很久以前，当我看到通过生成函数法把数论问题与复变函数方法结合起来，衍生出一门奇妙的“解析数论”时，我就惊叹过生成函数法的漂亮！可惜，一直都没有好好写整理这些内容。今天，当我在看李政道先生的《物理学中的数学方法》时，看到他把复变函数跟随机游动如鬼斧神工般了起来，再次让我拍案叫绝。最后实在压抑不住心中的激动，在此写写概率论和生成函数的事情。

数论与复变函数结合，就生成了一门“解析数论”，按照这个说法，概率与复变函数结合，应该就会有一门“解析概率”，但是我在网上搜索的时候，并没有发现这个名词的存在。经过如此，本文还是试用了这个名词。虽然这个名词没有流行，但事实上，解析概率的方法并不算新，它可以追溯到伟大的数学家拉普拉斯以及他的著作《分析概率论》中。尽管如此，这种巧妙漂亮的方法似乎没有得到大家应该有的充分的认识。

我觉得，即使作为一个简洁的计算工具，生成函数法这个美丽的技巧，也应该尽可能为科学爱好者所知，更不用说数学专业的朋友了。

点击阅读全文...

分类：数学研究标签：概率, 复数, 生成函数阅读全文 1 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

【中文分词系列】 3. 字标注法与HMM模型

“熵”不起：从熵、最大熵原理到最大熵模型（三）

上集回顾

最大熵模型

分类：意味着什么？

“熵”不起：从熵、最大熵原理到最大熵模型（二）

上集回顾

最大熵原理

承认我们的无知

“熵”不起：从熵、最大熵原理到最大熵模型（一）

熵的概念

怎么会这么巧！背后的隐藏信息

素数的概率

当概率遇上复变：从二项分布到泊松分布

当概率遇上复变：随机游走基本公式

当概率遇上复变：解析概率

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接