包含关键字变分推断的文章 - 科学空间|Scientific Spaces

这批验证码比较简单，4位的英文字母，有大小写，但输入的时候不区分大小写，图案有一定的混淆，传统的基于分割的方案估计比较难办。端到端的方案是，直接将验证码输入，做几个卷积层，然后连接几个分类器（26分类），然后就直接输出四个字母标签了。其实还真没有什么好说的，有样本就能做了，而且这个框架是通用的，可以用到区分大小写的情形（52分类），也可以用到英文数字混合的情形（再加10个类别而已）。

点击阅读全文...

分类：信息时代标签：图像, 深度学习, OCR, 端到端阅读全文 12 评论

31 Dec

2015年全年天象

By 苏剑林 | 2014-12-31 | 20896位读者 | 引用

Astronomy Calendar of Celestial Events
2015年全年天象

翻译自NASA：http://eclipse.gsfc.nasa.gov/SKYCAL/SKYCAL.html

（北京时间）

分类：天文探索标签：天象, NASA 阅读全文抢沙发

31 Dec

2017年全年天象

By 苏剑林 | 2016-12-31 | 26006位读者 | 引用

Astronomy Calendar of Celestial Events
2017年全年天象

翻译自NASA：http://eclipse.gsfc.nasa.gov/SKYCAL/SKYCAL.html

（北京时间）

分类：天文探索标签：天象, NASA 阅读全文抢沙发

6 Jan

中文语料库中，质量高而又容易获取的语料库，应该就是维基百科的中文语料了，而且维基百科相当厚道，每个月都把所有条目都打包一次（下载地址在这里：https://dumps.wikimedia.org/zhwiki/），供全世界使用，这才是真正的“取之于民，回馈于民”呀。遗憾的是，由于天朝的无理封锁，中文维基百科的条目到目前只有91万多条，而百度百科、互动百科都有千万条了（英文维基百科也有上千万了）。尽管如此，这并没有阻挡中文维基百科成为几乎是最高质量的中文语料库。（百度百科、互动百科它们只能自己用爬虫爬取，而且不少记录质量相当差，几乎都是互相复制甚至抄袭。）

门槛

尽量下载很容易，但是使用维基百科语料还是有一定门槛的。直接下载下来的维基百科语料是一个带有诸多html和markdown标记的文本压缩包，基本不能直接使用。幸好，已经有热心的高手为我们写好了处理工具，主要有两个：1、Wikipedia Extractor；2、gensim的wikicorpus库。它们都是基于python的。

然而，这两个主流的处理方法都不能让我满意。首先，Wikipedia Extractor提取出来的结果，会去掉{{}}标记的内容，这样会导致下面的情形

西方语言中“数学”（；）一词源自于古希腊语的（）

点击阅读全文...

分类：信息时代标签：维基, 语言, 语料阅读全文 22 评论

11 Jan

狄拉克函数：级数逼近

By 苏剑林 | 2017-01-11 | 45174位读者 | 引用

魏尔斯特拉斯定理

将狄拉克函数理解为函数的极限，可以衍生出很丰富的内容，而且这些内容离严格的证明并不遥远。比如，定义
$$\delta_n(x)=\left\{\begin{aligned}&\frac{(1-x^2)^n}{I_n},x\in[-1,1]\\
&0,\text{其它情形}\end{aligned}\right.$$
其中$I_n = \int_{-1}^1 (1-x^2)^n dx$，于是不难证明
$$\delta(x)=\lim_{n\to\infty}\delta_n(x)$$
这样，对于$[a,b]$上的连续函数$f(x)$，我们就得到
$$f(x)=\int_{-1}^1 f(y)\delta(x-y)dy = \lim_{n\to\infty}\int_{-1}^1 f(y)\delta_n(x-y) dy$$
这里$-1 < a < b < 1$，并且我们已经“不严谨”地交换了积分号和极限号，但这不是特别重要。重要的是它的结果：可以看到
$$P_n(x)=\int_{-1}^1 f(y)\delta_n(x-y) dy$$
是$x$的一个$2n$次多项式，因此上式表明$f(x)$是一个$2n$次的多项式的极限！这就引出了著名的“魏尔斯特拉斯定理”：

闭区间上的连续函数都可以用多项式一致地逼近。

点击阅读全文...

分类：数学研究标签：级数, 逼近阅读全文 4 评论

14 Mar

泰迪杯赛前培训之数据挖掘与建模“慢谈”

By 苏剑林 | 2017-03-14 | 31826位读者 | 引用

泰迪杯赛前培训

应广州泰迪科技公司之邀，给泰迪杯数据挖掘竞赛录制了赛前培训视频，内容基本上是各种常见的数学模型及入门用法，以一种比较独特的思路，将朴素贝叶斯、HMM、逻辑回归、组合模型、神经网络、深度学习等等串了起来。视频讲解难度为入门级，当然，真的要融合贯通所有内容，恐怕要骨灰级。

不管怎么样，简单分享一下，欢迎大家留言讨论、建议甚至批评。

PPT下载：泰迪杯赛前培训ppt.zip

视频地址：http://moodle.tipdm.com/course/view.php?id=18

分类：信息时代标签：数据挖掘阅读全文 5 评论

2 Apr

【不可思议的Word2Vec】 1.数学原理

By 苏剑林 | 2017-04-02 | 56161位读者 | 引用

对于了解深度学习、自然语言处理NLP的读者来说，Word2Vec可以说是家喻户晓的工具，尽管不是每一个人都用到了它，但应该大家都会听说过它——Google出品的高效率的获取词向量的工具。

Word2Vec不可思议？

大多数人都是将Word2Vec作为词向量的等价名词，也就是说，纯粹作为一个用来获取词向量的工具，关心模型本身的读者并不多。可能是因为模型过于简化了，所以大家觉得这样简化的模型肯定很不准确，所以没法用，但它的副产品词向量的质量反而还不错。没错，如果是作为语言模型来说，Word2Vec实在是太粗糙了。

但是，为什么要将它作为语言模型来看呢？抛开语言模型的思维约束，只看模型本身，我们就会发现，Word2Vec的两个模型 —— CBOW和Skip-Gram —— 实际上大有用途，它们从不同角度来描述了周围词与当前词的关系，而很多基本的NLP任务，都是建立在这个关系之上，如关键词抽取、逻辑推理等。这几篇文章就是希望能够抛砖引玉，通过介绍Word2Vec模型本身，以及几个看上去“不可思议”的用法，来提供一些研究此类问题的新思路。

点击阅读全文...

分类：信息时代标签：词向量, Word2Vec, 语言模型阅读全文 4 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

2016年全年天象

端到端的腾讯验证码识别（46%正确率）

样本

2015年全年天象

2017年全年天象

获取并处理中文维基百科语料

门槛

狄拉克函数：级数逼近

魏尔斯特拉斯定理

泰迪杯赛前培训之数据挖掘与建模“慢谈”

【不可思议的Word2Vec】 1.数学原理

Word2Vec不可思议？

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接