包含关键字准确率召回率的文章 - 科学空间|Scientific Spaces

22 Jun

文本情感分类（一）：传统模型

By 苏剑林 | 2015-06-22 | 223683位读者 | 引用

前言：四五月份的时候，我参加了两个数据挖掘相关的竞赛，分别是物电学院举办的“亮剑杯”，以及第三届 “泰迪杯”全国大学生数据挖掘竞赛。很碰巧的是，两个比赛中，都有一题主要涉及到中文情感分类工作。在做“亮剑杯”的时候，由于我还是初涉，水平有限，仅仅是基于传统的思路实现了一个简单的文本情感分类模型。而在后续的“泰迪杯”中，由于学习的深入，我已经基本了解深度学习的思想，并且用深度学习的算法实现了文本情感分类模型。因此，我打算将两个不同的模型都放到博客中，供读者参考。刚入门的读者，可以从中比较两者的不同，并且了解相关思路。高手请一笑置之。

基于情感词典

人的最简单的判断思维

点击阅读全文...

分类：信息时代标签：python, 机器学习, 数据挖掘, 文本挖掘阅读全文 59 评论

15 Jul

漫话模型|模型与选芒果

By 苏剑林 | 2015-07-15 | 37816位读者 | 引用

很多人觉得“模型”、“大数据”、“机器学习”这些字眼很高大很神秘，事实上，它跟我们生活中选水果差不了多少。本文用了几千字，来试图教会大家怎么选芒果...

模型的比喻

芒果

假如我要从一批芒果中，找出好吃的那个来。而我不能直接切开芒果尝尝，所以我只能观察芒果，能观察到的量有颜色、表面的气味、大小等等，这些就是我们能够收集到的信息（特征）。

生活中还要很多这样的例子，比如买火柴（可能年轻的城里人还没见过火柴？），如何判断一盒火柴的质量？难道要每根火柴都划划，看看着不着火？显然不行，我们最多也只能划几根，全部划了，火柴也不成火柴了。当然，我们还能看看火柴的样子，闻闻火柴的气味，这些动作是可以接受的。

点击阅读全文...

分类：信息时代标签：模型, 机器学习阅读全文 4 评论

4 Aug

文本情感分类（二）：深度学习模型

By 苏剑林 | 2015-08-04 | 604183位读者 | 引用

语言处理

在《文本情感分类（一）：传统模型》一文中，笔者简单介绍了进行文本情感分类的传统思路。传统的思路简单易懂，而且稳定性也比较强，然而存在着两个难以克服的局限性：一、精度问题，传统思路差强人意，当然一般的应用已经足够了，但是要进一步提高精度，却缺乏比较好的方法；二、背景知识问题，传统思路需要事先提取好情感词典，而这一步骤，往往需要人工操作才能保证准确率，换句话说，做这个事情的人，不仅仅要是数据挖掘专家，还需要语言学家，这个背景知识依赖性问题会阻碍着自然语言处理的进步。

点击阅读全文...

分类：信息时代标签：python, 深度学习, 机器学习, 文本挖掘阅读全文 176 评论

15 May

Coming Back...

By 苏剑林 | 2016-05-15 | 38140位读者 | 引用

上一篇博文的发布时间是4月15日，到今天刚好一个月没更新了，但是科学空间的访问量还在。感谢大家对本空间的支持，BoJone对久未更新表示非常抱歉。在恢复更新之前，请允许笔者记记流水账。

在“消失”的一个月中，笔者主要的事情是毕业论文和数据挖掘竞赛。首先毕业论文方面，论文于4月22日交稿，4月29日答辩，答辩完后就意味着毕业论文的事情结束了。我的毕业论文主要写了路径积分在描述随机游走、偏微分方程、随机微分方程的应用。既然是本科论文，就不能说得太晦涩，因此论文整体来看还是比较易读的，可以作为路径积分的入门教程。后面我会略加修改，分开几部分发布在科学空间中的，到时请大家批评指正。

说到路径积分，不得不说到做《量子力学与路径积分》的习题解答这件事情了。很遗憾，这一个多月来，基本没有时间做习题。不过后面我会继续做下去的，已发布的版本，也请有兴趣的读者指出问题。记得年初的时候，朋友问我今年的愿望是什么，我随意地回答了“希望做完一本书的习题”，这本书，当然就是《量子力学与路径积分》了，我相信今年应该能够完成的。

点击阅读全文...

分类：生活/情感标签：路径积分, 数据挖掘阅读全文 7 评论

29 Jun

文本情感分类（三）：分词 OR 不分词

By 苏剑林 | 2016-06-29 | 406102位读者 | 引用

去年泰迪杯竞赛过后，笔者写了一篇简要介绍深度学习在情感分析中的应用的博文《文本情感分类（二）：深度学习模型》。虽然文章很粗糙，但还是得到了不少读者的反响，让我颇为意外。然而，那篇文章中在实现上有些不清楚的地方，这是因为：1、在那篇文章以后，keras已经做了比较大的改动，原来的代码不通用了；2、里边的代码可能经过我随手改动过，所以发出来的时候不是最适当的版本。因此，在近一年之后，我再重拾这个话题，并且完成一些之前没有完成的测试。

为什么要用深度学习模型？除了它更高精度等原因之外，还有一个重要原因，那就是它是目前唯一的能够实现“端到端”的模型。所谓“端到端”，就是能够直接将原始数据和标签输入，然后让模型自己完成一切过程——包括特征的提取、模型的学习。而回顾我们做中文情感分类的过程，一般都是“分词——词向量——句向量(LSTM)——分类”这么几个步骤。虽然很多时候这种模型已经达到了state of art的效果，但是有些疑问还是需要进一步测试解决的。对于中文来说，字才是最低粒度的文字单位，因此从“端到端”的角度来看，应该将直接将句子以字的方式进行输入，而不是先将句子分好词。那到底有没有分词的必要性呢？本文测试比较了字one hot、字向量、词向量三者之间的效果。

模型测试

本文测试了三个模型，或者说，是三套框架，具体代码在文末给出。这三套框架分别是：

1、one hot：以字为单位，不分词，将每个句子截断为200字（不够则补空字符串），然后将句子以“字-one hot”的矩阵形式输入到LSTM模型中进行学习分类；
2、one embedding：以字为单位，不分词，，将每个句子截断为200字（不够则补空字符串），然后将句子以“字-字向量(embedding)“的矩阵形式输入到LSTM模型中进行学习分类；
3、word embedding：以词为单位，分词，，将每个句子截断为100词（不够则补空字符串），然后将句子以“词-词向量(embedding)”的矩阵形式输入到LSTM模型中进行学习分类。

点击阅读全文...

分类：信息时代标签：python, 深度学习, 文本挖掘阅读全文 140 评论

17 Aug

【中文分词系列】 1. 基于AC自动机的快速分词

By 苏剑林 | 2016-08-17 | 96917位读者 | 引用

前言：这个暑假花了不少时间在中文分词和语言模型上面，碰了无数次壁，也得到了零星收获。打算写一个专题，分享一下心得体会。虽说是专题，但仅仅是一些笔记式的集合，并非系统的教程，请读者见谅。

中文分词

关于中文分词的介绍和重要性，我就不多说了，matrix67这里有一篇关于分词和分词算法很清晰的介绍，值得一读。在文本挖掘中，虽然已经有不少文章探索了不分词的处理方法，如本博客的《文本情感分类（三）：分词 OR 不分词》，但在一般场合都会将分词作为文本挖掘的第一步，因此，一个有效的分词算法是很重要的。当然，中文分词作为第一步，已经被探索很久了，目前做的很多工作，都是总结性质的，最多是微弱的改进，并不会有很大的变化了。

目前中文分词主要有两种思路：查词典和字标注。首先，查词典的方法有：机械的最大匹配法、最少词数法，以及基于有向无环图的最大概率组合，还有基于语言模型的最大概率组合，等等。查词典的方法简单高效（得益于动态规划的思想），尤其是结合了语言模型的最大概率法，能够很好地解决歧义问题，但对于中文分词一大难度——未登录词（中文分词有两大难度：歧义和未登录词），则无法解决；为此，人们也提出了基于字标注的思路，所谓字标注，就是通过几个标记（比如4标注的是：single，单字成词；begin，多字词的开头；middle，三字以上词语的中间部分；end，多字词的结尾），把句子的正确分词法表示出来。这是一个序列（输入句子）到序列（标记序列）的过程，能够较好地解决未登录词的问题，但速度较慢，而且对于已经有了完备词典的场景下，字标注的分词效果可能也不如查词典方法。总之，各有优缺点（似乎是废话～），实际使用可能会结合两者，像结巴分词，用的是有向无环图的最大概率组合，而对于连续的单字，则使用字标注的HMM模型来识别。

点击阅读全文...

分类：信息时代标签：动态规划, AC自动机, 分词, 自然语言处理, 词库阅读全文 26 评论

1 Jul

从Boosting学习到神经网络：看山是山？

By 苏剑林 | 2016-07-01 | 64123位读者 | 引用

前段时间在潮州给韩师的同学讲文本挖掘之余，涉猎到了Boosting学习算法，并且做了一番头脑风暴，最后把Boosting学习算法的一些本质特征思考清楚了，而且得到一些意外的结果，比如说AdaBoost算法的一些理论证明也可以用来解释神经网络模型这么强大。

AdaBoost算法

Boosting学习，属于组合模型的范畴，当然，与其说它是一个算法，倒不如说是一种解决问题的思路。以有监督的分类问题为例，它说的是可以把弱的分类器（只要准确率严格大于随机分类器）通过某种方式组合起来，就可以得到一个很优秀的分类器（理论上准确率可以100%）。AdaBoost算法是Boosting算法的一个例子，由Schapire在1996年提出，它构造了一种Boosting学习的明确的方案，并且从理论上给出了关于错误率的证明。

以二分类问题为例子，假设我们有一批样本$\{x_i,y_i\},i=1,2,\dots,n$，其中$x_i$是样本数据，有可能是多维度的输入，$y_i\in\{1,-1\}$为样本标签，这里用1和-1来描述样本标签而不是之前惯用的1和0，只是为了后面证明上的方便，没有什么特殊的含义。接着假设我们已经有了一个弱分类器$G(x)$，比如逻辑回归、SVM、决策树等，对分类器的唯一要求是它的准确率要严格大于随机（在二分类问题中就是要严格大于0.5），所谓严格大于，就是存在一个大于0的常数$\epsilon$，每次的准确率都不低于$\frac{1}{2}+\epsilon$。

点击阅读全文...

分类：信息时代标签：神经网络, Boosting, 感情分类阅读全文 13 评论

22 Aug

【中文分词系列】 4. 基于双向LSTM的seq2seq字标注

By 苏剑林 | 2016-08-22 | 462455位读者 | 引用

关于字标注法

上一篇文章谈到了分词的字标注法。要注意字标注法是很有潜力的，要不然它也不会在公开测试中取得最优的成绩了。在我看来，字标注法有效有两个主要的原因，第一个原因是它将分词问题变成了一个序列标注问题，而且这个标注是对齐的，也就是输入的字跟输出的标签是一一对应的，这在序列标注中是一个比较成熟的问题；第二个原因是这个标注法实际上已经是一个总结语义规律的过程，以4tag标注为为例，我们知道，“李”字是常用的姓氏，一半作为多字词（人名）的首字，即标记为b；而“想”由于“理想”之类的词语，也有比较高的比例标记为e，这样一来，要是“李想”两字放在一起时，即便原来词表没有“李想”一词，我们也能正确输出be，也就是识别出“李想”为一个词，也正是因为这个原因，即便是常被视为最不精确的HMM模型也能起到不错的效果。

关于标注，还有一个值得讨论的内容，就是标注的数目。常用的是4tag，事实上还有6tag和2tag，而标记分词结果最简单的方法应该是2tag，即标记“切分/不切分”就够了，但效果不好。为什么反而更多数目的tag效果更好呢？因为更多的tag实际上更全面概括了语义规律。比如，用4tag标注，我们能总结出哪些字单字成词、哪些字经常用作开头、哪些字用作末尾，但仅仅用2tag，就只能总结出哪些字经常用作开头，从归纳的角度来看，是不够全面的。但6tag跟4tag比较呢？我觉得不一定更好，6tag的意思是还要总结出哪些字作第二字、第三字，但这个总结角度是不是对的？我觉得，似乎并没有哪些字固定用于第二字或者第三字的，这个规律的总结性比首字和末字的规律弱多了（不过从新词发现的角度来看，6tag更容易发现长词。）。

双向LSTM

点击阅读全文...

分类：信息时代标签：概率, python, 分词, 自然语言处理阅读全文 139 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

文本情感分类（一）：传统模型

基于情感词典

漫话模型|模型与选芒果

模型的比喻

文本情感分类（二）：深度学习模型

Coming Back...

文本情感分类（三）：分词 OR 不分词

模型测试

【中文分词系列】 1. 基于AC自动机的快速分词

中文分词

从Boosting学习到神经网络：看山是山？

AdaBoost算法

【中文分词系列】 4. 基于双向LSTM的seq2seq字标注

关于字标注法

双向LSTM

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接