包含关键字算子与线性常微分方程的文章

25 Jun

OCR技术浅探：6. 光学识别

By 苏剑林 | 2016-06-25 | 71387位读者 | 引用

经过第一、二步，我们已经能够找出图像中单个文字的区域，接下来可以建立相应的模型对单字进行识别.

模型选择

在模型方面，我们选择了深度学习中的卷积神经网络模型，通过多层卷积神经网络，构建了单字的识别模型.

卷积神经网络是人工神经网络的一种，已成为当前图像识别领域的主流模型. 它通过局部感知野和权值共享方法，降低了网络模型的复杂度，减少了权值的数量，在网络结构上更类似于生物神经网络，这也预示着它必然具有更优秀的效果. 事实上，我们选择卷积神经网络的主要原因有：

1. 对原始图像自动提取特征 卷积神经网络模型可以直接将原始图像进行输入，免除了传统模型的人工提取特征这一比较困难的核心部分；
2. 比传统模型更高的精度 比如在MNIST手写数字识别任务中，可以达到99%以上的精度，这远高于传统模型的精度；
3. 比传统模型更好的泛化能力 这意味着图像本身的形变(伸缩、旋转)以及图像上的噪音对识别的结果影响不明显，这正是一个良好的OCR系统所必需的.

点击阅读全文...

分类：信息时代标签：神经网络, 深度学习, OCR, 文字阅读全文 16 评论

29 Jun

去年泰迪杯竞赛过后，笔者写了一篇简要介绍深度学习在情感分析中的应用的博文《文本情感分类（二）：深度学习模型》。虽然文章很粗糙，但还是得到了不少读者的反响，让我颇为意外。然而，那篇文章中在实现上有些不清楚的地方，这是因为：1、在那篇文章以后，keras已经做了比较大的改动，原来的代码不通用了；2、里边的代码可能经过我随手改动过，所以发出来的时候不是最适当的版本。因此，在近一年之后，我再重拾这个话题，并且完成一些之前没有完成的测试。

为什么要用深度学习模型？除了它更高精度等原因之外，还有一个重要原因，那就是它是目前唯一的能够实现“端到端”的模型。所谓“端到端”，就是能够直接将原始数据和标签输入，然后让模型自己完成一切过程——包括特征的提取、模型的学习。而回顾我们做中文情感分类的过程，一般都是“分词——词向量——句向量(LSTM)——分类”这么几个步骤。虽然很多时候这种模型已经达到了state of art的效果，但是有些疑问还是需要进一步测试解决的。对于中文来说，字才是最低粒度的文字单位，因此从“端到端”的角度来看，应该将直接将句子以字的方式进行输入，而不是先将句子分好词。那到底有没有分词的必要性呢？本文测试比较了字one hot、字向量、词向量三者之间的效果。

模型测试

本文测试了三个模型，或者说，是三套框架，具体代码在文末给出。这三套框架分别是：

1、one hot：以字为单位，不分词，将每个句子截断为200字（不够则补空字符串），然后将句子以“字-one hot”的矩阵形式输入到LSTM模型中进行学习分类；
2、one embedding：以字为单位，不分词，，将每个句子截断为200字（不够则补空字符串），然后将句子以“字-字向量(embedding)“的矩阵形式输入到LSTM模型中进行学习分类；
3、word embedding：以词为单位，分词，，将每个句子截断为100词（不够则补空字符串），然后将句子以“词-词向量(embedding)”的矩阵形式输入到LSTM模型中进行学习分类。

点击阅读全文...

分类：信息时代标签：python, 深度学习, 文本挖掘阅读全文 140 评论

13 Aug

两个惊艳的python库：tqdm和retry

By 苏剑林 | 2016-08-13 | 66172位读者 | 引用

Python基本是我目前工作、计算、数据挖掘的唯一编程语言（除了符号计算用Mathematica外）。当然，基本的Python功能并不是很强大，但它胜在有巨量的第三方扩展库。在选用Python的第三方库时，我都会经过仔细考虑，希望能挑选出最简单的、最直观的一个（因为本人比较笨，太复杂用不了）。在数据处理方面，我用得最多的是Numpy和Pandas，这两个绝对称得上王者级别的库，当然不能不提的是Scipy，但我很少直接用它，一般会通过Pandas间接调用了；可视化方面不用说是Matplotlib了；在建模方面，我会用Keras，直接上深度学习模型，Keras已经成为相当流行的深度学习框架了，如果做文本挖掘，通常还会用到jieba（分词）、Gensim（主题建模，包含了诸如word2vec之类的模型），机器学习库还有流行的Scikit Learn，但我很少用；网络方面，写爬虫我用requests，这是个人性化的网络库，如果写网站，我会用bottle，这是个单文件版的迷你框架，一切由自己定义，当然，我也不会去写什么大型网站，我就写一个简单的的接口那样而已；最后如果要并行的话，一般直接用multiprocessing。

不过，以上都不是本文要推荐的，本文要推荐的是两个可以渗透到日常写代码的库，它实现了我们平时很多时候都需要的功能，但是不用增加什么代码，绝对让人眼前一亮。

点击阅读全文...

分类：信息时代标签：python 阅读全文 9 评论

5 Nov

【外微分浅谈】3. 正交标架

By 苏剑林 | 2016-11-05 | 31471位读者 | 引用

众所周知，要掌握黎曼几何，需要强烈的几何直观感。但除此之外，用分量语言描述的黎曼几何，也需要很好的分析能力才能梳理清楚，因为有$N$多的指标在表示着分量和求和，咋看上去处处皆指标。这种繁琐的分量语言并不总讨人喜欢，甚至在不少地方是声名狼籍的。

在分量的语言中，我们本质上可以在局部建立任意形式的坐标系，也就是采用任意形式的基底$\{\boldsymbol{e}_{\mu}\}$，或者说自然标架。但不可否认，在正交标架（标准正交基）之下，很多方程会简单不少，并且得益于我们对欧氏空间的熟练，我们对正交标架下的研究可能会更有感觉。因此，如果条件允许的话，我们应当使用正交标架$\{\hat{\boldsymbol{e}}_{\mu}\}$，哪怕是活动的，这里我们用$\hat{}$标记正交标架。

比如，我们有微元
$$d\boldsymbol{r} = \boldsymbol{e}_{\mu}dx^{\mu} \tag{12} $$
是在一般标架下测量的，那么就可以得到黎曼度量

点击阅读全文...

分类：数学研究标签：对称, 外微分阅读全文 1 评论

29 Nov

轻便的深度学习分词系统：NNCWS v0.1

By 苏剑林 | 2016-11-29 | 21693位读者 | 引用

好吧，我也做了一回标题党...其实本文的分词系统是一个三层的神经网络模型，因此只是“浅度学习”，写深度学习是显得更有吸引力。NNCWS的意思是Neutral Network based Chinese Segment System，基于神经网络的中文分词系统，Python写的，目前完全公开，读者可以试用。

闲话多说

这个程序有什么特色？几乎没有！本文就是用神经网络结合字向量实现了一个ngrams形式（程序中使用了7-grams）的分词系统，没有像《【中文分词系列】 4. 基于双向LSTM的seq2seq字标注》那样使用了高端的模型，也没有像《【中文分词系列】 5. 基于语言模型的无监督分词》那样可以无监督训练，这里纯粹是一个有监督的简单模型，训练语料是2014年人民日报标注语料。

点击阅读全文...

分类：信息时代标签：分词, 自然语言处理阅读全文抢沙发

14 Dec

端到端的腾讯验证码识别（46%正确率）

By 苏剑林 | 2016-12-14 | 74891位读者 | 引用

最新结果请参考：http://kexue.fm/archives/4503/

前段时间有幸得到了一个网友提供的一批带标签的腾讯验证码样本（验证码样板：http://captcha.qq.com/getimage），于是抽了点时间，测试了一下验证码识别的模型。

腾讯验证码

样本

这批验证码比较简单，4位的英文字母，有大小写，但输入的时候不区分大小写，图案有一定的混淆，传统的基于分割的方案估计比较难办。端到端的方案是，直接将验证码输入，做几个卷积层，然后连接几个分类器（26分类），然后就直接输出四个字母标签了。其实还真没有什么好说的，有样本就能做了，而且这个框架是通用的，可以用到区分大小写的情形（52分类），也可以用到英文数字混合的情形（再加10个类别而已）。

点击阅读全文...

分类：信息时代标签：图像, 深度学习, OCR, 端到端阅读全文 12 评论

31 Dec

2017年快乐！Responsive Geekg for Typecho

By 苏剑林 | 2016-12-31 | 34004位读者 | 引用

2016年即将画上句号了，在此祝各位读者2017年快乐，新的一年事事大顺哈～

happy new year 2017

所谓新年新气象，科学空间也换上新外衣。咦，怎么感觉没什么变化？别急，请继续看下去。

点击阅读全文...

分类：生活/情感标签：节日, 网站阅读全文 4 评论

30 Mar

文本情感分类（四）：更好的损失函数

By 苏剑林 | 2017-03-30 | 122023位读者 | 引用

文本情感分类其实就是一个二分类问题，事实上，对于分类模型，都会存在这样一个毛病：优化目标跟考核指标不一致。通常来说，对于分类（包括多分类），我们都会采用交叉熵作为损失函数，它的来源就是最大似然估计（参考《梯度下降和EM算法：系出同源，一脉相承》）。但是，我们最后的评估目标，并非要看交叉熵有多小，而是看模型的准确率。一般来说，交叉熵很小，准确率也会很高，但这个关系并非必然的。

要平均，不一定要拔尖

一个更通俗的例子是：一个数学老师，在努力提高同学们的平均分，但期末考核的指标却是及格率（60分及格）。假如平均分是100分（也就意味着所有同学都考到了100分），那么自然及格率是100%，这是最理想的。但现实不一定这么美好，平均分越高，只要平均分还没有达到100，那么及格率却不一定越高，比如两个人分别考40和90，那么平均分就是65，及格率只有50%；如果两个人的成绩都是60，平均分就是60，及格率却有100%。这也就是说，平均分可以作为一个目标，但这个目标并不直接跟考核目标挂钩。
那么，为了提升最后的考核目标，这个老师应该怎么做呢？很显然，首先看看所有学生中，哪些同学已经及格了，及格的同学先不管他们，而针对不及格的同学进行补课加强，这样一来，原则上来说有很多不及格的同学都能考上60分了，也有可能一些本来及格的同学考不够60分了，但这个过程可以迭代，最终使得大家都在60分以上，当然，最终的平均分不一定很高，但没办法，谁叫考核目标是及格率呢？

点击阅读全文...

分类：信息时代标签：深度学习, 文本挖掘, 损失函数阅读全文 29 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

OCR技术浅探：6. 光学识别

模型选择

文本情感分类（三）：分词 OR 不分词

模型测试

两个惊艳的python库：tqdm和retry

【外微分浅谈】3. 正交标架

轻便的深度学习分词系统：NNCWS v0.1

闲话多说

端到端的腾讯验证码识别（46%正确率）

样本

2017年快乐！Responsive Geekg for Typecho

文本情感分类（四）：更好的损失函数

要平均，不一定要拔尖

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接