包含关键字 G 的文章 - 科学空间|Scientific Spaces

17 Jun

OCR技术浅探：1. 全文简述

By 苏剑林 | 2016-06-17 | 43858位读者 | 引用

写在前面：前面的博文已经提过，在上个月我参加了第四届泰迪杯数据挖掘竞赛，做的是A题，跟OCR系统有些联系，还承诺过会把最终的结果开源。最近忙于毕业、搬东西，一直没空整理这些内容，现在抽空整理一下。

把结果发出来，并不是因为结果有多厉害、多先进（相反，当我对比了百度的这篇论文《基于深度学习的图像识别进展：百度的若干实践》之后，才发现论文的内容本质上还是传统那一套，远远还跟不上时代的潮流），而是因为虽然OCR技术可以说比较成熟了，但网络上根本就没有对OCR系统进行较为详细讲解的文章，而本文就权当补充这部分内容吧。我一直认为，技术应该要开源才能得到发展（当然，在中国这一点也确实值得商榷，因为开源很容易造成山寨），不管是数学物理研究还是数据挖掘，我大多数都会发表到博客中，与大家交流。

点击阅读全文...

分类：信息时代标签：图像, 数据挖掘, OCR 阅读全文 7 评论

17 Jun

OCR技术浅探：2. 背景与假设

By 苏剑林 | 2016-06-17 | 38362位读者 | 引用

研究背景

关于光学字符识别(Optical Character Recognition, 下面都简称OCR)，是指将图像上的文字转化为计算机可编辑的文字内容，众多的研究人员对相关的技术研究已久，也有不少成熟的OCR技术和产品产生，比如汉王OCR、ABBYY FineReader、Tesseract OCR等. 值得一提的是，ABBYY FineReader不仅正确率高(包括对中文的识别)，而且还能保留大部分的排版效果，是一个非常强大的OCR商业软件.

然而，在诸多的OCR成品中，除了Tesseract OCR外，其他的都是闭源的、甚至是商业的软件，我们既无法将它们嵌入到我们自己的程序中，也无法对其进行改进. 开源的唯一选择是Google的Tesseract OCR，但它的识别效果不算很好，而且中文识别正确率偏低，有待进一步改进.

综上所述，不管是为了学术研究还是实际应用，都有必要对OCR技术进行探究和改进. 我们队伍将完整的OCR系统分为“特征提取”、“文字定位”、“光学识别”、“语言模型”四个方面，逐步进行解决，最终完成了一个可用的、完整的、用于印刷文字的OCR系统. 该系统可以初步用于电商、微信等平台的图片文字识别，以判断上面信息的真伪.

研究假设

在本文中，我们假设图像的文字部分有以下的特征：

点击阅读全文...

分类：信息时代标签：图像, 数据挖掘, OCR, 文字阅读全文 5 评论

18 Jun

OCR技术浅探：3. 特征提取(1)

By 苏剑林 | 2016-06-18 | 55796位读者 | 引用

作为OCR系统的第一步，特征提取是希望找出图像中候选的文字区域特征，以便我们在第二步进行文字定位和第三步进行识别. 在这部分内容中，我们集中精力模仿肉眼对图像与汉字的处理过程，在图像的处理和汉字的定位方面走了一条创新的道路. 这部分工作是整个OCR系统最核心的部分，也是我们工作中最核心的部分.

传统的文本分割思路大多数是“边缘检测 + 腐蚀膨胀 + 联通区域检测”，如论文[1]. 然而，在复杂背景的图像下进行边缘检测会导致背景部分的边缘过多(即噪音增加)，同时文字部分的边缘信息则容易被忽略，从而导致效果变差. 如果在此时进行腐蚀或膨胀，那么将会使得背景区域跟文字区域粘合，效果进一步恶化.（事实上，我们在这条路上已经走得足够远了，我们甚至自己写过边缘检测函数来做这个事情，经过很多测试，最终我们决定放弃这种思路。）

因此，在本文中，我们放弃了边缘检测和腐蚀膨胀，通过聚类、分割、去噪、池化等步骤，得到了比较良好的文字部分的特征，整个流程大致如图2，这些特征甚至可以直接输入到文字识别模型中进行识别，而不用做额外的处理.由于我们每一部分结果都有相应的理论基础作为支撑，因此能够模型的可靠性得到保证.

图2：特征提取大概流程

点击阅读全文...

分类：信息时代标签：图像, OCR, 特征, 聚类, 文字阅读全文 9 评论

24 Jun

OCR技术浅探：4. 文字定位

By 苏剑林 | 2016-06-24 | 40432位读者 | 引用

经过第一部分，我们已经较好地提取了图像的文本特征，下面进行文字定位. 主要过程分两步：1、邻近搜索，目的是圈出单行文字；2、文本切割，目的是将单行文本切割为单字.

邻近搜索

我们可以对提取的特征图进行连通区域搜索，得到的每个连通区域视为一个汉字. 这对于大多数汉字来说是适用，但是对于一些比较简单的汉字却不适用，比如“小”、“旦”、“八”、“元”这些字，由于不具有连通性，所以就被分拆开了，如图13. 因此，我们需要通过邻近搜索算法，来整合可能成字的区域，得到单行的文本区域.

图13 直接搜索连通区域，会把诸如“元”之类的字分拆开

邻近搜索的目的是进行膨胀，以把可能成字的区域“粘合”起来. 如果不进行搜索就膨胀，那么膨胀是各个方向同时进行的，这样有可能把上下行都粘合起来了. 因此，我们只允许区域向单一的一个方向膨胀. 我们正是要通过搜索邻近区域来确定膨胀方向(上、下、左、右)：

邻近搜索* 从一个连通区域出发，可以找到该连通区域的水平外切矩形，将连通区域扩展到整个矩形. 当该区域与最邻近区域的距离小于一定范围时，考虑这个矩形的膨胀，膨胀的方向是最邻近区域的所在方向.

既然涉及到了邻近，那么就需要有距离的概念. 下面给出一个比较合理的距离的定义.

距离

图14 两个示例区域

如上图，通过左上角坐标$(x,y)$和右下角坐标$(z,w)$就可以确定一个矩形区域，这里的坐标是以左上角为原点来算的. 这个区域的中心是$\left(\frac{x+w}{2},\frac{y+z}{2}\right)$. 对于图中的两个区域$S$和$S'$，可以计算它们的中心向量差
$$(x_c,y_c)=\left(\frac{x'+w'}{2}-\frac{x+w}{2},\frac{y'+z'}{2}-\frac{y+z}{2}\right)\tag{10}$$
如果直接使用$\sqrt{x_c^2+y_c^2}$作为距离是不合理的，因为这里的邻近应该是按边界来算，而不是中心点. 因此，需要减去区域的长度：
$$(x'_c,y'_c)=\left(x_c-\frac{w-x}{2}-\frac{w'-x'}{2},y_c-\frac{z-y}{2}-\frac{z'-y'}{2}\right)\tag{11}$$
距离定义为
$$d(S,S')=\sqrt{[\max(x'_c,0)]^2+[\max(y'_c,0)]^2}\tag{12}$$
至于方向，由$(x_c,y_c)$的幅角进行判断即可.

然而，按照前面的“邻近搜索*”方法，容易把上下两行文字粘合起来，因此，基于我们的横向排版假设，更好的方法是只允许横向膨胀：

邻近搜索 从一个连通区域出发，可以找到该连通区域的水平外切矩形，将连通区域扩展到整个矩形. 当该区域与最邻近区域的距离小于一定范围时，考虑这个矩形的膨胀，膨胀的方向是最邻近区域的所在方向，当且仅当所在方向是水平的，才执行膨胀操作.

结果

有了距离之后，我们就可以计算每两个连通区域之间的距离，然后找出最邻近的区域. 我们将每个区域向它最邻近的区域所在的方向扩大4分之一，这样邻近的区域就有可能融合为一个新的区域，从而把碎片整合.

实验表明，邻近搜索的思路能够有效地整合文字碎片，结果如图15.

图15 通过邻近搜索后，圈出的文字区域

分类：信息时代标签：图像, OCR, 文字, 搜索阅读全文 6 评论

24 Jun

OCR技术浅探：5. 文本切割

By 苏剑林 | 2016-06-24 | 46106位读者 | 引用

经过上一步，得到单行的文本区域之后，我们就可以想办法将单行的文本切割为单个的字符了. 因为第三步的模型师针对单个的字符建立的，因此这一步也是必须的.

均匀切割

基于方块汉字的假设，事实上最简单的切割方法是均匀切割，也就是说不加任何判断，直接按照高度来将单行文本切割为一个个的正方形图片. 这种思路可以应对大部分的单行文本，如下图上.

均匀切割成功

均匀切割失效

当然，均匀切割的弊端也是很明显的. 大多数汉字都是方块汉字，但多数英语和数字都不是，因此如果出现中英文混排的时候，均匀切割就失效了，如上图下.

点击阅读全文...

分类：信息时代标签：图像, OCR, 文字阅读全文 8 评论

29 Jun

文本情感分类（三）：分词 OR 不分词

By 苏剑林 | 2016-06-29 | 407858位读者 | 引用

去年泰迪杯竞赛过后，笔者写了一篇简要介绍深度学习在情感分析中的应用的博文《文本情感分类（二）：深度学习模型》。虽然文章很粗糙，但还是得到了不少读者的反响，让我颇为意外。然而，那篇文章中在实现上有些不清楚的地方，这是因为：1、在那篇文章以后，keras已经做了比较大的改动，原来的代码不通用了；2、里边的代码可能经过我随手改动过，所以发出来的时候不是最适当的版本。因此，在近一年之后，我再重拾这个话题，并且完成一些之前没有完成的测试。

为什么要用深度学习模型？除了它更高精度等原因之外，还有一个重要原因，那就是它是目前唯一的能够实现“端到端”的模型。所谓“端到端”，就是能够直接将原始数据和标签输入，然后让模型自己完成一切过程——包括特征的提取、模型的学习。而回顾我们做中文情感分类的过程，一般都是“分词——词向量——句向量(LSTM)——分类”这么几个步骤。虽然很多时候这种模型已经达到了state of art的效果，但是有些疑问还是需要进一步测试解决的。对于中文来说，字才是最低粒度的文字单位，因此从“端到端”的角度来看，应该将直接将句子以字的方式进行输入，而不是先将句子分好词。那到底有没有分词的必要性呢？本文测试比较了字one hot、字向量、词向量三者之间的效果。

模型测试

本文测试了三个模型，或者说，是三套框架，具体代码在文末给出。这三套框架分别是：

1、one hot：以字为单位，不分词，将每个句子截断为200字（不够则补空字符串），然后将句子以“字-one hot”的矩阵形式输入到LSTM模型中进行学习分类；
2、one embedding：以字为单位，不分词，，将每个句子截断为200字（不够则补空字符串），然后将句子以“字-字向量(embedding)“的矩阵形式输入到LSTM模型中进行学习分类；
3、word embedding：以词为单位，分词，，将每个句子截断为100词（不够则补空字符串），然后将句子以“词-词向量(embedding)”的矩阵形式输入到LSTM模型中进行学习分类。

点击阅读全文...

分类：信息时代标签：python, 深度学习, 文本挖掘阅读全文 140 评论

26 Jun

OCR技术浅探：7. 语言模型

By 苏剑林 | 2016-06-26 | 50623位读者 | 引用

由于图像质量等原因，性能再好的识别模型，都会有识别错误的可能性，为了减少识别错误率，可以将识别问题跟统计语言模型结合起来，通过动态规划的方法给出最优的识别结果.这是改进OCR识别效果的重要方法之一.

转移概率

在我们分析实验结果的过程中，有出现这一案例.由于图像不清晰等可能的原因，导致“电视”一词被识别为“电柳”，仅用图像模型是不能很好地解决这个问题的，因为从图像模型来看，识别为“电柳”是最优的选择.但是语言模型却可以很巧妙地解决这个问题.原因很简单，基于大量的文本数据我们可以统计“电视”一词和“电柳”一词的概率，可以发现“电视”一词的概率远远大于“电柳”，因此我们会认为这个词是“电视”而不是“电柳”.

从概率的角度来看，就是对于第一个字的区域的识别结果$s_1$，我们前面的卷积神经网络给出了“电”、“宙”两个候选字(仅仅选了前两个，后面的概率太小)，每个候选字的概率$W(s_1)$分别为0.99996、0.00004；第二个字的区域的识别结果$s_2$，我们前面的卷积神经网络给出了“柳”、“视”、“规”(仅仅选了前三个，后面的概率太小)，每个候选字的概率$W(s_2)$分别为0.87838、0.12148、0.00012，因此，它们事实上有六种组合：“电柳”、“电视”、“电规”、“宙柳”、“宙视”、“宙规”.

点击阅读全文...

分类：信息时代标签：模型, OCR, 语言, 动态规划阅读全文 9 评论

26 Jun

OCR技术浅探：9. 代码共享(完)

By 苏剑林 | 2016-06-26 | 68501位读者 | 引用

文件说明：

1. image.py——图像处理函数，主要是特征提取；
2. model_training.py——训练CNN单字识别模型（需要较高性能的服务器，最好有GPU加速，否则真是慢得要死）；
3. ocr.py——识别函数，包括单字分割、前面训练好的模型进行单字识别、动态规划提升效果；
4. main.py——主文件，用来调用1、3两个文件。
5、我们的模型中包含的字.txt(UTF-8编码)

点击阅读全文...

分类：信息时代标签：代码, 图像, OCR 阅读全文 18 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

OCR技术浅探：1. 全文简述

OCR技术浅探：2. 背景与假设

研究背景

研究假设

OCR技术浅探：3. 特征提取(1)

OCR技术浅探：4. 文字定位

邻近搜索

距离

结果

OCR技术浅探：5. 文本切割

均匀切割

文本情感分类（三）：分词 OR 不分词

模型测试

OCR技术浅探：7. 语言模型

转移概率

OCR技术浅探：9. 代码共享(完)

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接