包含关键字外微分浅谈的文章 - 科学空间|Scientific Spaces

24 Nov

科学空间“微信群|聊天机器人”上线测试

By 苏剑林 | 2016-11-24 | 90203位读者 | 引用

花了点时间，完成了一个微信的聊天机器人，并建立了微信群。

目前实现的功能如下：

1、搜索微信号spaces_ac_cn，添加为好友后，会自动给你发送加群邀请，你通过之后就可以加入到群聊中；
2、进群后自动发送欢迎信息；
3、记录群的聊天记录，定时分享给大家，以后大家就不担心有价值的群信息丢失了；
4、如果哪天群满了，则另开新群，一个群的信息，会自动同步到另外一个群，这样不至于冷落了某一个群；
~~5、如果你向微信号spaces_ac_cn发送消息，则自动在知乎搜索答案并返回，这还是一个简单的知乎搜索机器人。~~

还有一些管理员用到的功能，就不详细列出了。

欢迎大家加入！有问题请及时反馈，代码可能会有问题，因此希望大家多多测试。

分类：信息时代标签：网站, 测试阅读全文 22 评论

25 Nov

不得不说，2013年的全国数学建模竞赛中的B题真的算是数学建模竞赛中百年难得一遇的好题：题目简洁明了，含义丰富，做法多样，延伸性强，以至于我一直对它念念不忘。因为这个题目，我已经在科学空间写了两篇文章了，分别是《一个人的数学建模：碎纸复原》和《迟到一年的建模：再探碎纸复原》。以前做这道题的时候，还只有一点数学建模的知识，而自从学习了数据挖掘、尤其是深度学习之后，我一直想重做这道题，但一直偷懒。这几天终于把它实现了。

如果对题目还不清楚的读者，可以参考前面两篇文章。碎纸复原共有五个附件，分别代表了五种“碎纸片”，即五种不同粒度的碎片。其中附件1和2都不困难，难度主要集中在附件3、4、5，而3、4、5的实现难度基本是一样的。做这道题最容易想到的思路就是贪心算法，即随便选一张图片，然后找到与它最匹配的图片，然后继续匹配下一张。要想贪心算法有效，最关键是找到一个良好的距离函数，来判断两张碎片是否相邻（水平相邻，这里不考虑垂直相邻）。

点击阅读全文...

分类：信息时代标签：python, 建模, 图像, 深度学习阅读全文 2 评论

29 Nov

轻便的深度学习分词系统：NNCWS v0.1

By 苏剑林 | 2016-11-29 | 21679位读者 | 引用

好吧，我也做了一回标题党...其实本文的分词系统是一个三层的神经网络模型，因此只是“浅度学习”，写深度学习是显得更有吸引力。NNCWS的意思是Neutral Network based Chinese Segment System，基于神经网络的中文分词系统，Python写的，目前完全公开，读者可以试用。

闲话多说

这个程序有什么特色？几乎没有！本文就是用神经网络结合字向量实现了一个ngrams形式（程序中使用了7-grams）的分词系统，没有像《【中文分词系列】 4. 基于双向LSTM的seq2seq字标注》那样使用了高端的模型，也没有像《【中文分词系列】 5. 基于语言模型的无监督分词》那样可以无监督训练，这里纯粹是一个有监督的简单模型，训练语料是2014年人民日报标注语料。

点击阅读全文...

分类：信息时代标签：分词, 自然语言处理阅读全文抢沙发

3 Dec

词向量与Embedding究竟是怎么回事？

By 苏剑林 | 2016-12-03 | 274471位读者 | 引用

词向量，英文名叫Word Embedding，按照字面意思，应该是词嵌入。说到词向量，不少读者应该会立马想到Google出品的Word2Vec，大牌效应就是不一样。另外，用Keras之类的框架还有一个Embedding层，也说是将词ID映射为向量。由于先入为主的意识，大家可能就会将词向量跟Word2Vec等同起来，而反过来问“Embedding是哪种词向量？”这类问题，尤其是对于初学者来说，应该是很混淆的。事实上，哪怕对于老手，也不一定能够很好地说清楚。

这一切，还得从one hot说起...

五十步笑百步

one hot，中文可以翻译为“独热”，是最原始的用来表示字、词的方式。为了简单，本文以字为例，词也是类似的。假如词表中有“科、学、空、间、不、错”六个字，one hot就是给这六个字分别用一个0-1编码：
$$\begin{array}{c|c}\hline\text{科} & [1, 0, 0, 0, 0, 0]\\
\text{学} & [0, 1, 0, 0, 0, 0]\\
\text{空} & [0, 0, 1, 0, 0, 0]\\
\text{间} & [0, 0, 0, 1, 0, 0]\\
\text{不} & [0, 0, 0, 0, 1, 0]\\
\text{错} & [0, 0, 0, 0, 0, 1]\\
\hline
\end{array}$$

点击阅读全文...

分类：信息时代标签：深度学习, 自然语言处理阅读全文 68 评论

14 Dec

端到端的腾讯验证码识别（46%正确率）

By 苏剑林 | 2016-12-14 | 74810位读者 | 引用

最新结果请参考：http://kexue.fm/archives/4503/

前段时间有幸得到了一个网友提供的一批带标签的腾讯验证码样本（验证码样板：http://captcha.qq.com/getimage），于是抽了点时间，测试了一下验证码识别的模型。

腾讯验证码

样本

这批验证码比较简单，4位的英文字母，有大小写，但输入的时候不区分大小写，图案有一定的混淆，传统的基于分割的方案估计比较难办。端到端的方案是，直接将验证码输入，做几个卷积层，然后连接几个分类器（26分类），然后就直接输出四个字母标签了。其实还真没有什么好说的，有样本就能做了，而且这个框架是通用的，可以用到区分大小写的情形（52分类），也可以用到英文数字混合的情形（再加10个类别而已）。

点击阅读全文...

分类：信息时代标签：图像, 深度学习, OCR, 端到端阅读全文 12 评论

19 Dec

【备忘】Python中断多重循环的几种思路

By 苏剑林 | 2016-12-19 | 61916位读者 | 引用

跳出单循环

不管是什么编程语言，都有可能会有跳出循环的需求，比如枚举时，找到一个满足条件的数就终止。跳出单循环是很简单的，比如

for i in range(10):
    if i > 5:
        print i
        break

然而，我们有时候会需要跳出多重循环，而break只能够跳出一层循环，比如

for i in range(10):
    for j in range(10):
        if i+j > 5:
            print i,j
            break

这样的代码并非说找到一组i+j > 5就停止，而是连续找到10组，因为break只跳出了for j in range(10)这一重循环。那么，怎么才能跳出多重呢？在此记录备忘一下。

点击阅读全文...

分类：信息时代标签：python, 备忘阅读全文 9 评论

31 Dec

2017年快乐！Responsive Geekg for Typecho

By 苏剑林 | 2016-12-31 | 33969位读者 | 引用

2016年即将画上句号了，在此祝各位读者2017年快乐，新的一年事事大顺哈～

happy new year 2017

所谓新年新气象，科学空间也换上新外衣。咦，怎么感觉没什么变化？别急，请继续看下去。

点击阅读全文...

分类：生活/情感标签：节日, 网站阅读全文 4 评论

13 Jan

【中文分词系列】 6. 基于全卷积网络的中文分词

By 苏剑林 | 2017-01-13 | 59167位读者 | 引用

之前已经写过用LSTM来做分词的方案了，今天再来一篇用CNN的，准确来说是FCN，全卷积网络。其实这个模型的主要目的并非研究中文分词，而是练习tensorflow。从两年前就开始用Keras了，可以说对它比较熟了，也渐渐发现了它的一些不足，比如处理变长输入时不方便、加入自定义的约束比较困难等，所以干脆试试原生的tensorflow了，试了之后发现其实也不复杂。嗯，都是python，能有多复杂。本文就是练习一下如何用tensorflow处理不定长输入任务，以中文分词为例，并在最后加入了硬解码，将深度学习与词典分词结合了起来。

CNN

另外，就是关于FCN的。放到语言任务中看，（一维）卷积其实就是ngram模型，从这个角度来看其实CNN远比RNN来得自然，RNN好像就是为序列任务精心设计的，而CNN则是传统ngram模型的一个延伸。另外不管CNN和RNN都有权值共享，看上去只是为了降低运算量的一个折中选择，但事实上里边大有道理。CNN中的权值共享是平移不变性的必然结果，而不是仅仅是降低运算量的一个选择，试想一下，将一幅图像平移一点点，或者在一个句子前插入一个无意义的空格（导致后面所有字都向后平移了一位），这样应该给出一个相似甚至相同的结果，而这要求卷积必然是权值共享的，即权值不能跟位置有关系。

点击阅读全文...

分类：信息时代标签：深度学习, 分词, 自然语言处理阅读全文 10 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

科学空间“微信群|聊天机器人”上线测试

三顾碎纸复原：基于CNN的碎纸复原

赛题回顾

轻便的深度学习分词系统：NNCWS v0.1

闲话多说

词向量与Embedding究竟是怎么回事？

五十步笑百步

端到端的腾讯验证码识别（46%正确率）

样本

【备忘】Python中断多重循环的几种思路

跳出单循环

2017年快乐！Responsive Geekg for Typecho

【中文分词系列】 6. 基于全卷积网络的中文分词

CNN

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接