包含关键字核函数的文章 - 科学空间|Scientific Spaces

26 Jun

OCR技术浅探：9. 代码共享(完)

By 苏剑林 | 2016-06-26 | 68271位读者 | 引用

文件说明：

1. image.py——图像处理函数，主要是特征提取；
2. model_training.py——训练CNN单字识别模型（需要较高性能的服务器，最好有GPU加速，否则真是慢得要死）；
3. ocr.py——识别函数，包括单字分割、前面训练好的模型进行单字识别、动态规划提升效果；
4. main.py——主文件，用来调用1、3两个文件。
5、我们的模型中包含的字.txt(UTF-8编码)

点击阅读全文...

分类：信息时代标签：代码, 图像, OCR 阅读全文 18 评论

1 Jul

从Boosting学习到神经网络：看山是山？

By 苏剑林 | 2016-07-01 | 64214位读者 | 引用

前段时间在潮州给韩师的同学讲文本挖掘之余，涉猎到了Boosting学习算法，并且做了一番头脑风暴，最后把Boosting学习算法的一些本质特征思考清楚了，而且得到一些意外的结果，比如说AdaBoost算法的一些理论证明也可以用来解释神经网络模型这么强大。

AdaBoost算法

Boosting学习，属于组合模型的范畴，当然，与其说它是一个算法，倒不如说是一种解决问题的思路。以有监督的分类问题为例，它说的是可以把弱的分类器（只要准确率严格大于随机分类器）通过某种方式组合起来，就可以得到一个很优秀的分类器（理论上准确率可以100%）。AdaBoost算法是Boosting算法的一个例子，由Schapire在1996年提出，它构造了一种Boosting学习的明确的方案，并且从理论上给出了关于错误率的证明。

以二分类问题为例子，假设我们有一批样本$\{x_i,y_i\},i=1,2,\dots,n$，其中$x_i$是样本数据，有可能是多维度的输入，$y_i\in\{1,-1\}$为样本标签，这里用1和-1来描述样本标签而不是之前惯用的1和0，只是为了后面证明上的方便，没有什么特殊的含义。接着假设我们已经有了一个弱分类器$G(x)$，比如逻辑回归、SVM、决策树等，对分类器的唯一要求是它的准确率要严格大于随机（在二分类问题中就是要严格大于0.5），所谓严格大于，就是存在一个大于0的常数$\epsilon$，每次的准确率都不低于$\frac{1}{2}+\epsilon$。

点击阅读全文...

分类：信息时代标签：神经网络, Boosting, 感情分类阅读全文 13 评论

12 Sep

【中文分词系列】 5. 基于语言模型的无监督分词

By 苏剑林 | 2016-09-12 | 149123位读者 | 引用

迄今为止，前四篇文章已经介绍了分词的若干思路，其中有基于最大概率的查词典方法、基于HMM或LSTM的字标注方法等。这些都是已有的研究方法了，笔者所做的就只是总结工作而已。查词典方法和字标注各有各的好处，我一直在想，能不能给出一种只需要大规模语料来训练的无监督分词模型呢？也就是说，怎么切分，应该是由语料来决定的，跟语言本身没关系。说白了，只要足够多语料，就可以告诉我们怎么分词。

看上去很完美，可是怎么做到呢？《2.基于切分的新词发现》中提供了一种思路，但是不够彻底。那里居于切分的新词发现方法确实可以看成一种无监督分词思路，它就是用一个简单的凝固度来判断某处该不该切分。但从分词的角度来看，这样的分词系统未免太过粗糙了。因此，我一直想着怎么提高这个精度，前期得到了一些有意义的结果，但都没有得到一个完整的理论。而最近正好把这个思路补全了。因为没有查找到类似的工作，所以这算是笔者在分词方面的一点原创工作了。

语言模型

首先简单谈一下语言模型。

点击阅读全文...

分类：信息时代标签：分词, 自然语言处理, 无监督, 新词发现阅读全文 35 评论

19 Oct

【理解黎曼几何】6. 曲率的计数与计算(Python)

By 苏剑林 | 2016-10-19 | 53407位读者 | 引用

曲率的独立分量

黎曼曲率张量是一个非常重要的张量，当且仅当它全部分量为0时，空间才是平直的。它也出现在爱因斯坦的场方程中。总而言之，只要涉及到黎曼几何，黎曼曲率张量就必然是核心内容。

已经看到，黎曼曲率张量有4个指标，这也意味着它有$n^4$个分量，$n$是空间的维数。那么在2、3、4维空间中，它就有16、81、256个分量了，可见，要计算它，是一件相当痛苦的事情。幸好，这个张量有很多的对称性质，使得独立分量的数目大大减少，我们来分析这一点。

首先我们来导出黎曼曲率张量的一些对称性质，这部分内容是跟经典教科书是一致的。定义
$$R_{\mu\alpha\beta\gamma}=g_{\mu\nu}R^{\nu}_{\alpha\beta\gamma} \tag{50} $$
定义这个量的原因，要谈及逆变张量和协变张量的区别，我们这里主要关心几何观，因此略过对张量的详细分析。这个量被称为完全协变的黎曼曲率张量，有时候也直接叫做黎曼曲率张量，只要不至于混淆，一般不做区分。通过略微冗长的代数运算（在一般的微分几何、黎曼几何或者广义相对论教材中都有），可以得到
$$\begin{aligned}&R_{\mu\alpha\beta\gamma}=-R_{\mu\alpha\gamma\beta}\\
&R_{\mu\alpha\beta\gamma}=-R_{\alpha\mu\beta\gamma}\\
&R_{\mu\alpha\beta\gamma}=R_{\beta\gamma\mu\alpha}\\
&R_{\mu\alpha\beta\gamma}+R_{\mu\beta\gamma\alpha}+R_{\mu\gamma\alpha\beta}=0
\end{aligned} \tag{51} $$

点击阅读全文...

分类：数学研究标签：几何, 曲率, python, 黎曼几何, 排列组合阅读全文 3 评论

13 Jan

【中文分词系列】 6. 基于全卷积网络的中文分词

By 苏剑林 | 2017-01-13 | 59211位读者 | 引用

之前已经写过用LSTM来做分词的方案了，今天再来一篇用CNN的，准确来说是FCN，全卷积网络。其实这个模型的主要目的并非研究中文分词，而是练习tensorflow。从两年前就开始用Keras了，可以说对它比较熟了，也渐渐发现了它的一些不足，比如处理变长输入时不方便、加入自定义的约束比较困难等，所以干脆试试原生的tensorflow了，试了之后发现其实也不复杂。嗯，都是python，能有多复杂。本文就是练习一下如何用tensorflow处理不定长输入任务，以中文分词为例，并在最后加入了硬解码，将深度学习与词典分词结合了起来。

CNN

另外，就是关于FCN的。放到语言任务中看，（一维）卷积其实就是ngram模型，从这个角度来看其实CNN远比RNN来得自然，RNN好像就是为序列任务精心设计的，而CNN则是传统ngram模型的一个延伸。另外不管CNN和RNN都有权值共享，看上去只是为了降低运算量的一个折中选择，但事实上里边大有道理。CNN中的权值共享是平移不变性的必然结果，而不是仅仅是降低运算量的一个选择，试想一下，将一幅图像平移一点点，或者在一个句子前插入一个无意义的空格（导致后面所有字都向后平移了一位），这样应该给出一个相似甚至相同的结果，而这要求卷积必然是权值共享的，即权值不能跟位置有关系。

点击阅读全文...

分类：信息时代标签：深度学习, 分词, 自然语言处理阅读全文 10 评论

15 Jan

SVD分解(一)：自编码器与人工智能

By 苏剑林 | 2017-01-15 | 48855位读者 | 引用

咋看上去，SVD分解是比较传统的数据挖掘手段，自编码器是深度学习中一个比较“先进”的概念，应该没啥交集才对。而本文则要说，如果不考虑激活函数，那么两者将是等价的。进一步的思考就可以发现，不管是SVD还是自编码器，我们降维，并不是纯粹地为了减少储存量或者减少计算量，而是“智能”的初步体现。

等价性

假设有一个$m$行$n$列的庞大矩阵$M_{m\times n}$，这可能使得计算甚至存储上都成问题，于是考虑一个分解，希望找到矩阵$A_{m\times k}$和$B_{k\times n}$，使得
$$M_{m\times n}=A_{m\times k}\times B_{k\times n}$$
这里的乘法是矩阵乘法。如图

SVD

点击阅读全文...

分类：信息时代标签：深度学习, SVD, 智能阅读全文 7 评论

6 Jan

《Attention is All You Need》浅读（简介+代码）

By 苏剑林 | 2018-01-06 | 868249位读者 | 引用

2017年中，有两篇类似同时也是笔者非常欣赏的论文，分别是FaceBook的《Convolutional Sequence to Sequence Learning》和Google的《Attention is All You Need》，它们都算是Seq2Seq上的创新，本质上来说，都是抛弃了RNN结构来做Seq2Seq任务。

这篇博文中，笔者对《Attention is All You Need》做一点简单的分析。当然，这两篇论文本身就比较火，因此网上已经有很多解读了（不过很多解读都是直接翻译论文的，鲜有自己的理解），因此这里尽可能多自己的文字，尽量不重复网上各位大佬已经说过的内容。

序列编码

深度学习做NLP的方法，基本上都是先将句子分词，然后每个词转化为对应的词向量序列。这样一来，每个句子都对应的是一个矩阵$\boldsymbol{X}=(\boldsymbol{x}_1,\boldsymbol{x}_2,\dots,\boldsymbol{x}_t)$，其中$\boldsymbol{x}_i$都代表着第$i$个词的词向量（行向量），维度为$d$维，故$\boldsymbol{X}\in \mathbb{R}^{n\times d}$。这样的话，问题就变成了编码这些序列了。

第一个基本的思路是RNN层，RNN的方案很简单，递归式进行：
\begin{equation}\boldsymbol{y}_t = f(\boldsymbol{y}_{t-1},\boldsymbol{x}_t)\end{equation}
不管是已经被广泛使用的LSTM、GRU还是最近的SRU，都并未脱离这个递归框架。RNN结构本身比较简单，也很适合序列建模，但RNN的明显缺点之一就是无法并行，因此速度较慢，这是递归的天然缺陷。另外我个人觉得RNN无法很好地学习到全局的结构信息，因为它本质是一个马尔科夫决策过程。

点击阅读全文...

分类：信息时代标签：模型, 深度学习, attention 阅读全文 286 评论

23 Jan

揭开迷雾，来一顿美味的Capsule盛宴

By 苏剑林 | 2018-01-23 | 438920位读者 | 引用

Geoffrey Hinton在谷歌多伦多办公室

由深度学习先驱Hinton开源的Capsule论文《Dynamic Routing Between Capsules》，无疑是去年深度学习界最热点的消息之一。得益于各种媒体的各种吹捧，Capsule被冠以了各种神秘的色彩，诸如“抛弃了梯度下降”、“推倒深度学习重来”等字眼层出不穷，但也有人觉得Capsule不外乎是一个新的炒作概念。

本文试图揭开让人迷惘的云雾，领悟Capsule背后的原理和魅力，品尝这一顿Capsule盛宴。同时，笔者补做了一个自己设计的实验，这个实验能比原论文的实验更有力说明Capsule的确产生效果了。

菜谱一览：

1、Capsule是什么？
2、Capsule为什么要这样做？
3、Capsule真的好吗？
4、我觉得Capsule怎样？
5、若干小菜。

点击阅读全文...

分类：信息时代标签：深度学习, 聚类, Capsule 阅读全文 135 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

OCR技术浅探：9. 代码共享(完)

从Boosting学习到神经网络：看山是山？

AdaBoost算法

【中文分词系列】 5. 基于语言模型的无监督分词

语言模型

【理解黎曼几何】6. 曲率的计数与计算(Python)

曲率的独立分量

【中文分词系列】 6. 基于全卷积网络的中文分词

CNN

SVD分解(一)：自编码器与人工智能

等价性

《Attention is All You Need》浅读（简介+代码）

序列编码

揭开迷雾，来一顿美味的Capsule盛宴

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接