包含关键字多视图的文章 - 科学空间|Scientific Spaces

3 Dec

词向量与Embedding究竟是怎么回事？

By 苏剑林 | 2016-12-03 | 262717位读者 | 引用

词向量，英文名叫Word Embedding，按照字面意思，应该是词嵌入。说到词向量，不少读者应该会立马想到Google出品的Word2Vec，大牌效应就是不一样。另外，用Keras之类的框架还有一个Embedding层，也说是将词ID映射为向量。由于先入为主的意识，大家可能就会将词向量跟Word2Vec等同起来，而反过来问“Embedding是哪种词向量？”这类问题，尤其是对于初学者来说，应该是很混淆的。事实上，哪怕对于老手，也不一定能够很好地说清楚。

这一切，还得从one hot说起...

五十步笑百步

one hot，中文可以翻译为“独热”，是最原始的用来表示字、词的方式。为了简单，本文以字为例，词也是类似的。假如词表中有“科、学、空、间、不、错”六个字，one hot就是给这六个字分别用一个0-1编码：
$$\begin{array}{c|c}\hline\text{科} & [1, 0, 0, 0, 0, 0]\\
\text{学} & [0, 1, 0, 0, 0, 0]\\
\text{空} & [0, 0, 1, 0, 0, 0]\\
\text{间} & [0, 0, 0, 1, 0, 0]\\
\text{不} & [0, 0, 0, 0, 1, 0]\\
\text{错} & [0, 0, 0, 0, 0, 1]\\
\hline
\end{array}$$

点击阅读全文...

分类：信息时代标签：深度学习, 自然语言处理阅读全文 68 评论

14 Dec

端到端的腾讯验证码识别（46%正确率）

By 苏剑林 | 2016-12-14 | 72028位读者 | 引用

最新结果请参考：http://kexue.fm/archives/4503/

前段时间有幸得到了一个网友提供的一批带标签的腾讯验证码样本（验证码样板：http://captcha.qq.com/getimage），于是抽了点时间，测试了一下验证码识别的模型。

腾讯验证码

样本

这批验证码比较简单，4位的英文字母，有大小写，但输入的时候不区分大小写，图案有一定的混淆，传统的基于分割的方案估计比较难办。端到端的方案是，直接将验证码输入，做几个卷积层，然后连接几个分类器（26分类），然后就直接输出四个字母标签了。其实还真没有什么好说的，有样本就能做了，而且这个框架是通用的，可以用到区分大小写的情形（52分类），也可以用到英文数字混合的情形（再加10个类别而已）。

点击阅读全文...

分类：信息时代标签：图像, 深度学习, OCR, 端到端阅读全文 12 评论

6 Jan

获取并处理中文维基百科语料

By 苏剑林 | 2017-01-06 | 103048位读者 | 引用

中文语料库中，质量高而又容易获取的语料库，应该就是维基百科的中文语料了，而且维基百科相当厚道，每个月都把所有条目都打包一次（下载地址在这里：https://dumps.wikimedia.org/zhwiki/），供全世界使用，这才是真正的“取之于民，回馈于民”呀。遗憾的是，由于天朝的无理封锁，中文维基百科的条目到目前只有91万多条，而百度百科、互动百科都有千万条了（英文维基百科也有上千万了）。尽管如此，这并没有阻挡中文维基百科成为几乎是最高质量的中文语料库。（百度百科、互动百科它们只能自己用爬虫爬取，而且不少记录质量相当差，几乎都是互相复制甚至抄袭。）

门槛

尽量下载很容易，但是使用维基百科语料还是有一定门槛的。直接下载下来的维基百科语料是一个带有诸多html和markdown标记的文本压缩包，基本不能直接使用。幸好，已经有热心的高手为我们写好了处理工具，主要有两个：1、Wikipedia Extractor；2、gensim的wikicorpus库。它们都是基于python的。

然而，这两个主流的处理方法都不能让我满意。首先，Wikipedia Extractor提取出来的结果，会去掉{{}}标记的内容，这样会导致下面的情形

西方语言中“数学”（；）一词源自于古希腊语的（）

点击阅读全文...

分类：信息时代标签：维基, 语言, 语料阅读全文 22 评论

7 Jan

基于遗忘假设的平滑公式

By 苏剑林 | 2017-01-07 | 20622位读者 | 引用

统计是通过大量样本来估计真实分布的过程，通常与统计相伴出现的一个词是“平滑”，即对统计结果打折扣的处理过程。平滑的思想来源于：如果样本空间非常大，那么统计的结果是稀疏的，这样由于各种偶然因素的存在，导致了小的统计结果不可靠，如频数为1的结果可能只是偶然的结果，其频率并不一定近似于$1/N$，频数为0的不一定就不会出现。这样我们就需要对统计结果进行平滑，使得结论更为可靠。

平滑的方法有很多，这里介绍一种基于遗忘假设的平滑公式。假设的任务为：我们要从一批语料中，统计每个字的字频。我们模仿人脑遗忘的过程，假设这个字出现一次，我们脑里的记忆量就增加1，但是如果一个周期内（先不管这个周期多大），这个字都没有出现，那么脑里的记忆量就变为原来的$\beta$比例。假设字是周期性出现的，那么记忆量$A_n$就满足如下递推公式
$$A_{n+1} = \beta A_n + 1$$

点击阅读全文...

分类：数学研究标签：统计, 语料, 平滑阅读全文抢沙发

13 Jan

【中文分词系列】 6. 基于全卷积网络的中文分词

By 苏剑林 | 2017-01-13 | 57084位读者 | 引用

之前已经写过用LSTM来做分词的方案了，今天再来一篇用CNN的，准确来说是FCN，全卷积网络。其实这个模型的主要目的并非研究中文分词，而是练习tensorflow。从两年前就开始用Keras了，可以说对它比较熟了，也渐渐发现了它的一些不足，比如处理变长输入时不方便、加入自定义的约束比较困难等，所以干脆试试原生的tensorflow了，试了之后发现其实也不复杂。嗯，都是python，能有多复杂。本文就是练习一下如何用tensorflow处理不定长输入任务，以中文分词为例，并在最后加入了硬解码，将深度学习与词典分词结合了起来。

CNN

另外，就是关于FCN的。放到语言任务中看，（一维）卷积其实就是ngram模型，从这个角度来看其实CNN远比RNN来得自然，RNN好像就是为序列任务精心设计的，而CNN则是传统ngram模型的一个延伸。另外不管CNN和RNN都有权值共享，看上去只是为了降低运算量的一个折中选择，但事实上里边大有道理。CNN中的权值共享是平移不变性的必然结果，而不是仅仅是降低运算量的一个选择，试想一下，将一幅图像平移一点点，或者在一个句子前插入一个无意义的空格（导致后面所有字都向后平移了一位），这样应该给出一个相似甚至相同的结果，而这要求卷积必然是权值共享的，即权值不能跟位置有关系。

点击阅读全文...

分类：信息时代标签：深度学习, 分词, 自然语言处理阅读全文 10 评论

6 Mar

【中文分词系列】 7. 深度学习分词？只需一个词典！

By 苏剑林 | 2017-03-06 | 110630位读者 | 引用

这个系列慢慢写到第7篇，基本上也把分词的各种模型理清楚了，除了一些细微的调整（比如最后的分类器换成CRF）外，剩下的就看怎么玩了。基本上来说，要速度，就用基于词典的分词，要较好地解决组合歧义何和新词识别，则用复杂模型，比如之前介绍的LSTM、FCN都可以。但问题是，用深度学习训练分词器，需要标注语料，这费时费力，仅有的公开的几个标注语料，又不可能赶得上时效，比如，几乎没有哪几个公开的分词系统能够正确切分出“扫描二维码，关注微信号”来。

本文就是做了这样的一个实验，仅用一个词典，就完成了一个深度学习分词器的训练，居然效果还不错！这种方案可以称得上是半监督的，甚至是无监督的。

点击阅读全文...

分类：信息时代标签：分词, 自然语言处理, 无监督, 新词发现阅读全文 22 评论

11 Jan

狄拉克函数：级数逼近

By 苏剑林 | 2017-01-11 | 42958位读者 | 引用

魏尔斯特拉斯定理

将狄拉克函数理解为函数的极限，可以衍生出很丰富的内容，而且这些内容离严格的证明并不遥远。比如，定义
$$\delta_n(x)=\left\{\begin{aligned}&\frac{(1-x^2)^n}{I_n},x\in[-1,1]\\
&0,\text{其它情形}\end{aligned}\right.$$
其中$I_n = \int_{-1}^1 (1-x^2)^n dx$，于是不难证明
$$\delta(x)=\lim_{n\to\infty}\delta_n(x)$$
这样，对于$[a,b]$上的连续函数$f(x)$，我们就得到
$$f(x)=\int_{-1}^1 f(y)\delta(x-y)dy = \lim_{n\to\infty}\int_{-1}^1 f(y)\delta_n(x-y) dy$$
这里$-1 < a < b < 1$，并且我们已经“不严谨”地交换了积分号和极限号，但这不是特别重要。重要的是它的结果：可以看到
$$P_n(x)=\int_{-1}^1 f(y)\delta_n(x-y) dy$$
是$x$的一个$2n$次多项式，因此上式表明$f(x)$是一个$2n$次的多项式的极限！这就引出了著名的“魏尔斯特拉斯定理”：

闭区间上的连续函数都可以用多项式一致地逼近。

点击阅读全文...

分类：数学研究标签：级数, 逼近阅读全文 4 评论

15 Jan

SVD分解(一)：自编码器与人工智能

By 苏剑林 | 2017-01-15 | 45908位读者 | 引用

咋看上去，SVD分解是比较传统的数据挖掘手段，自编码器是深度学习中一个比较“先进”的概念，应该没啥交集才对。而本文则要说，如果不考虑激活函数，那么两者将是等价的。进一步的思考就可以发现，不管是SVD还是自编码器，我们降维，并不是纯粹地为了减少储存量或者减少计算量，而是“智能”的初步体现。

等价性

假设有一个$m$行$n$列的庞大矩阵$M_{m\times n}$，这可能使得计算甚至存储上都成问题，于是考虑一个分解，希望找到矩阵$A_{m\times k}$和$B_{k\times n}$，使得
$$M_{m\times n}=A_{m\times k}\times B_{k\times n}$$
这里的乘法是矩阵乘法。如图

SVD

点击阅读全文...

分类：信息时代标签：深度学习, SVD, 智能阅读全文 7 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

词向量与Embedding究竟是怎么回事？

五十步笑百步

端到端的腾讯验证码识别（46%正确率）

样本

获取并处理中文维基百科语料

门槛

基于遗忘假设的平滑公式

【中文分词系列】 6. 基于全卷积网络的中文分词

CNN

【中文分词系列】 7. 深度学习分词？只需一个词典！

狄拉克函数：级数逼近

魏尔斯特拉斯定理

SVD分解(一)：自编码器与人工智能

等价性

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接