包含关键字核函数的文章 - 科学空间|Scientific Spaces

12 Nov

实数域上有限维可除代数只有四种

By 苏剑林 | 2014-11-12 | 64754位读者 | 引用

今天上近世代数课，老师谈到除环，举了一个非交换的除环的粒子，也就是四元数环，然后谈到“实数域上有限维可除代数只有4种”，也就是实数本身、复数、四元数和八元数（这里的可除代数就是除环）。这句话我听起来有点熟悉，又好像不大对劲。我记得在某本书上看过，定义为实数上的超复数系，如果满足模的积性，那么就只有以上四种。但是老师的那句话表明即使去掉模的积性，也只有四种。我自然以为老师记错了，跟老师辩论了一翻，然后回到宿舍又找资料，最终确定：实数域上有限维可除代数真的只有四种！下面简单谈谈我对这个问题的认识。

当然，这里不可能给出这个命题的证明，因为这个证明相当不简单，笔者目前也没有弄懂，但是粗略感觉一下为什么，还是有可能的。看到这个命题，我们一下子的感觉可能是：怎么会这么少！我们这里通过例子简单说明一下，确实不会多！

我们已经对复数系很熟悉了，也就是定义在实数上的向量空间，基为$\{1,i\}$，并且给定乘法为
$$1\times i=i \times 1=i,\quad 1^2=1,\quad i^2=-1$$

点击阅读全文...

分类：数学研究标签：代数, 矩阵, 环论阅读全文 12 评论

21 Oct

把Python脚本放到手机上定时运行

By 苏剑林 | 2015-10-21 | 41990位读者 | 引用

毫无疑问，数据是数据分析的基础，而对于我等平民来说，获取大量数据的方式自然是通过爬虫采集，而对于笔者来说，写爬虫最自然的方式就是用Python写了。短短几行代码，就可以完成一个实用的爬虫，多清爽。（请参考：《记录一次爬取淘宝/天猫评论数据的过程》）

爬虫要住在哪里？

接下来的一个问题是，这个爬虫放到哪里运行？为了爬取每天更新的数据，往往需要每天都要运行一次爬虫，特别地，是在某个点定时运行。这样的话，老挂在自己的电脑运行是不大现实，因为自己的电脑总有关机的时候。也许有读者会想到放在云服务器里边，这是个方法，但是需要额外的成本。受到小虾大神的启发，我开始想把它放到路由器里边运行，某些比较好的路由器是可以外接U盘，且可以刷open-wrt系统的（一个Linux内核的路由器系统，可以像普通Linux那样装Python）。这对我来说是一种很吸引人的做法，但是我对Linux环境下的编译并不熟悉，尤其是路由器环境下的操作；另外路由器配置很低，一般都只是16M闪存、64M内存，如果没有耐心，那么是很难受得了的。

点击阅读全文...

分类：信息时代标签：python, 爬虫阅读全文 2 评论

17 Jun

OCR技术浅探：1. 全文简述

By 苏剑林 | 2016-06-17 | 43674位读者 | 引用

写在前面：前面的博文已经提过，在上个月我参加了第四届泰迪杯数据挖掘竞赛，做的是A题，跟OCR系统有些联系，还承诺过会把最终的结果开源。最近忙于毕业、搬东西，一直没空整理这些内容，现在抽空整理一下。

把结果发出来，并不是因为结果有多厉害、多先进（相反，当我对比了百度的这篇论文《基于深度学习的图像识别进展：百度的若干实践》之后，才发现论文的内容本质上还是传统那一套，远远还跟不上时代的潮流），而是因为虽然OCR技术可以说比较成熟了，但网络上根本就没有对OCR系统进行较为详细讲解的文章，而本文就权当补充这部分内容吧。我一直认为，技术应该要开源才能得到发展（当然，在中国这一点也确实值得商榷，因为开源很容易造成山寨），不管是数学物理研究还是数据挖掘，我大多数都会发表到博客中，与大家交流。

点击阅读全文...

分类：信息时代标签：图像, 数据挖掘, OCR 阅读全文 7 评论

26 Jun

OCR技术浅探：7. 语言模型

By 苏剑林 | 2016-06-26 | 50407位读者 | 引用

由于图像质量等原因，性能再好的识别模型，都会有识别错误的可能性，为了减少识别错误率，可以将识别问题跟统计语言模型结合起来，通过动态规划的方法给出最优的识别结果.这是改进OCR识别效果的重要方法之一.

转移概率

在我们分析实验结果的过程中，有出现这一案例.由于图像不清晰等可能的原因，导致“电视”一词被识别为“电柳”，仅用图像模型是不能很好地解决这个问题的，因为从图像模型来看，识别为“电柳”是最优的选择.但是语言模型却可以很巧妙地解决这个问题.原因很简单，基于大量的文本数据我们可以统计“电视”一词和“电柳”一词的概率，可以发现“电视”一词的概率远远大于“电柳”，因此我们会认为这个词是“电视”而不是“电柳”.

从概率的角度来看，就是对于第一个字的区域的识别结果$s_1$，我们前面的卷积神经网络给出了“电”、“宙”两个候选字(仅仅选了前两个，后面的概率太小)，每个候选字的概率$W(s_1)$分别为0.99996、0.00004；第二个字的区域的识别结果$s_2$，我们前面的卷积神经网络给出了“柳”、“视”、“规”(仅仅选了前三个，后面的概率太小)，每个候选字的概率$W(s_2)$分别为0.87838、0.12148、0.00012，因此，它们事实上有六种组合：“电柳”、“电视”、“电规”、“宙柳”、“宙视”、“宙规”.

点击阅读全文...

分类：信息时代标签：模型, OCR, 语言, 动态规划阅读全文 9 评论

26 Jun

OCR技术浅探：8. 综合评估

By 苏剑林 | 2016-06-26 | 29121位读者 | 引用

数据验证

尽管在测试环境下模型工作良好，但是实践是检验真理的唯一标准. 在本节中，我们通过自己的模型，与京东的测试数据进行比较验证.

衡量OCR系统的好坏有两部分内容：(1)是否成功地圈出了文字；(2)对于圈出来的文字，有没有成功识别. 我们采用评分的方法，对每一张图片的识别效果进行评分. 评分规则如下：

如果圈出的文字区域能够跟京东提供的检测样本的box文件中匹配，那么加1分，如果正确识别出文字来，另外加1分，最后每张图片的分数是前面总分除以文字总数.

按照这个规则，每张图片的评分最多是2分，最少是0分. 如果评分超过1，说明识别效果比较好了. 经过京东的测试数据比较，我们的模型平均评分大约是0.84，效果差强人意。

点击阅读全文...

分类：信息时代标签：模型, 图像, OCR 阅读全文 4 评论

21 Oct

【理解黎曼几何】7. 高斯-博内公式

By 苏剑林 | 2016-10-21 | 38531位读者 | 引用

令人兴奋的是，我们导出黎曼曲率的途径，还能够让我们一瞥高斯-博内公式（ Gauss–Bonnet formula）的风采，真正体验一番研究内蕴几何的味道。

高斯-博内公式是大范围微分几何学的一个经典的公式，它建立了空间的局部性质和整体性质之间的联系。而我们从一条几何的路径出发，结合一些矩阵变换和数学分析的内容，逐步导出了测地线、协变导数、曲率张量，现在可以还可以得到经典的高斯-博内公式，可见我们在这条路上已经走得足够远了。虽然过程不尽善尽美，然而并没有脱离这个系列的核心：几何直观。本文的目的，正是分享黎曼几何的一种直观思路，既然是思路，以思想交流为主，不以严格证明为目的。因此，对于大家来说，这个系列权当黎曼几何的补充材料吧。

形式改写

首先，我们可以将式$(48)$重写为更有几何意义的形式。从

点击阅读全文...

分类：数学研究标签：几何, 黎曼几何阅读全文抢沙发

29 Nov

轻便的深度学习分词系统：NNCWS v0.1

By 苏剑林 | 2016-11-29 | 21691位读者 | 引用

好吧，我也做了一回标题党...其实本文的分词系统是一个三层的神经网络模型，因此只是“浅度学习”，写深度学习是显得更有吸引力。NNCWS的意思是Neutral Network based Chinese Segment System，基于神经网络的中文分词系统，Python写的，目前完全公开，读者可以试用。

闲话多说

这个程序有什么特色？几乎没有！本文就是用神经网络结合字向量实现了一个ngrams形式（程序中使用了7-grams）的分词系统，没有像《【中文分词系列】 4. 基于双向LSTM的seq2seq字标注》那样使用了高端的模型，也没有像《【中文分词系列】 5. 基于语言模型的无监督分词》那样可以无监督训练，这里纯粹是一个有监督的简单模型，训练语料是2014年人民日报标注语料。

点击阅读全文...

分类：信息时代标签：分词, 自然语言处理阅读全文抢沙发

1 Dec

基于双向GRU和语言模型的视角情感分析

By 苏剑林 | 2016-12-01 | 85058位读者 | 引用

前段时间参加了一个傻逼的网络比赛——基于视角的领域情感分析，主页在这里。比赛的任务是找出一段话的实体然后判断情感，比如“我喜欢本田，我不喜欢丰田”这句话中，要标出“本田”和“丰田”，并且站在本田的角度，情感是积极的，站在丰田的角度，情感就是消极的。也就是说，等价于将实体识别和情感分析结合起来了。

吐槽

看起来很高端，哪里傻逼了？比赛任务本身还不错，值得研究，然而官方却很傻逼，主要体现为：1、比赛分初赛、复赛、决赛三个阶段，初赛一个多月时间，然后筛选部分进入复赛，复赛就简单换了一点数据，题目、数据的领域都没有变化，复赛也是一个月的时间，这傻逼复赛究竟有什么意义？2、大家可以看看选手们在群里讨论什么：

点击阅读全文...

分类：信息时代标签：模型, python, 深度学习, 自然语言处理阅读全文 17 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

实数域上有限维可除代数只有四种

把Python脚本放到手机上定时运行

爬虫要住在哪里？

OCR技术浅探：1. 全文简述

OCR技术浅探：7. 语言模型

转移概率

OCR技术浅探：8. 综合评估

数据验证

【理解黎曼几何】7. 高斯-博内公式

形式改写

轻便的深度学习分词系统：NNCWS v0.1

闲话多说

基于双向GRU和语言模型的视角情感分析

吐槽

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接