包含关键字让Keras更酷一些的文章 - 科学空间|Scientific Spaces

6 Jun

通用爬虫探索（二）：落实到论坛爬取上

By 苏剑林 | 2017-06-06 | 22225位读者 | 引用

前述的方案，如果爬取的页面仅仅有单一的有效区域，如博客页、新闻页等，那么基本上来说已经足够了。但是，诸如像论坛这样的具有比较明显的层次划分的网站，我们需要进一步细分。因为经过上述步骤，我们虽然能够把有效文本提取出来，但结果是把所有文本放在一块了。

深度优先

而为了给内容进一步“分块”，我们还需要利用DOM树的位置信息。如上一篇的DOM树图，我们需要给每个节点和叶子都编号，即我们需要一个遍历DOM树的方式。这里我们采用“深度优先”的方案。

深度优先搜索算法（英语：Depth-First-Search，简称DFS）是一种用于遍历或搜索树或图的算法。沿着树的深度遍历树的节点，尽可能深的搜索树的分支。当节点v的所在边都己被探寻过，搜索将回溯到发现节点v的那条边的起始节点。这一过程一直进行到已发现从源节点可达的所有节点为止。如果还存在未被发现的节点，则选择其中一个作为源节点并重复以上过程，整个进程反复进行直到所有节点都被访问为止。

点击阅读全文...

分类：信息时代标签：网站, 爬虫阅读全文抢沙发

7 Jun

通用爬虫探索（三）：效果展示与代码

By 苏剑林 | 2017-06-07 | 46427位读者 | 引用

部分效果

部分网站的爬取效果。其中图1是本博客的爬取效果，表明该方案是适用一般网站的；图2和图3是两个开源的论坛程序搭建起来的论坛的爬取效果，表明对于开源程序能够正常爬取；图4是对著名的天涯论坛的爬取效果，表明哪怕是公司内部开发的论坛，也具有不错的效果。

6-blog

点击阅读全文...

分类：信息时代标签：网站, 爬虫阅读全文 10 评论

26 Oct

浅谈神经网络中激活函数的设计

By 苏剑林 | 2017-10-26 | 39810位读者 | 引用

激活函数是神经网络中非线性的来源，因为如果去掉这些函数，那么整个网络就只剩下线性运算，线性运算的复合还是线性运算的，最终的效果只相当于单层的线性模型。

那么，常见的激活函数有哪些呢？或者说，激活函数的选择有哪些指导原则呢？是不是任意的非线性函数都可以做激活函数呢？

这里探究的激活函数是中间层的激活函数，而不是输出的激活函数。最后的输出一般会有特定的激活函数，不能随意改变，比如二分类一般用sigmoid函数激活，多分类一般用softmax激活，等等；相比之下，中间层的激活函数选择余地更大一些。

浮点误差都行！

理论上来说，只要是非线性函数，都有做激活函数的可能性，一个很有说服力的例子是，最近OpenAI成功地利用了浮点误差来做激活函数，其中的细节，请阅读OpenAI的博客：
https://blog.openai.com/nonlinear-computation-in-linear-networks/

或者阅读机器之心的介绍：
https://mp.weixin.qq.com/s/PBRzS4Ol_Zst35XKrEpxdw

点击阅读全文...

分类：信息时代标签：神经网络阅读全文 3 评论

19 Nov

更别致的词向量模型(一)：simpler glove

By 苏剑林 | 2017-11-19 | 36750位读者 | 引用

如果问我哪个是最方便、最好用的词向量模型，我觉得应该是word2vec，但如果问我哪个是最漂亮的词向量模型，我不知道，我觉得各个模型总有一些不足的地方。且不说试验效果好不好（这不过是评测指标的问题），就单看理论也没有一个模型称得上漂亮的。

本文讨论了一些大家比较关心的词向量的问题，很多结论基本上都是实验发现的，缺乏合理的解释，包括：

如果去构造一个词向量模型？
为什么用余弦值来做近义词搜索？向量的内积又是什么含义？
词向量的模长有什么特殊的含义？
为什么词向量具有词类比性质？（国王-男人+女人=女王）
得到词向量后怎么构建句向量？词向量求和作为简单的句向量的依据是什么？

这些讨论既有其针对性，也有它的一般性，有些解释也许可以直接迁移到对glove模型和skip gram模型的词向量性质的诠释中，读者可以自行尝试。

围绕着这些问题的讨论，本文提出了一个新的类似glove的词向量模型，这里称之为simpler glove，并基于斯坦福的glove源码进行修改，给出了本文的实现，具体代码在Github上。

点击阅读全文...

分类：信息时代标签：词向量, glove 阅读全文 6 评论

19 Nov

更别致的词向量模型(六)：代码、分享与结语

By 苏剑林 | 2017-11-19 | 81489位读者 | 引用

列表

更别致的词向量模型(一)：simpler glove
更别致的词向量模型(二)：对语言进行建模
更别致的词向量模型(三)：描述相关的模型
更别致的词向量模型(四)：模型的求解
更别致的词向量模型(五)：有趣的结果
更别致的词向量模型(六)：代码、分享与结语

代码

本文的实现位于：https://github.com/bojone/simpler_glove

点击阅读全文...

分类：信息时代标签：词向量, glove 阅读全文 17 评论

23 Jan

分享一个slide：花式自然语言处理

By 苏剑林 | 2018-01-23 | 71838位读者 | 引用

花式自然语言处理

这是前两天在华南师范大学进行交流的时候所用的slide，主要介绍了自然语言处理的一些技巧。

这个slide的出发点是：国内高校很多搞NLP的小组基本都停留在RNN的思维中，所以我介绍了CNN、Attention的一些内容，并且介绍了模型训练的一些技巧，等等。内容其实比较简短，但考虑到不少概念对于多数同学来说都是新的，因此信息量还是蛮大的。

这也是我第一次尝试用$\LaTeX$来做slide，感觉也没有想象中那么难，做出来的效果还是挺清新明了的，以后要多练习～

点击阅读全文...

分类：信息时代标签：深度学习, 自然语言处理阅读全文 14 评论

29 Jan

网站更新记录（2018年01月）

By 苏剑林 | 2018-01-29 | 25948位读者 | 引用

也许读者会发现，这几天访问科学空间可能出现不稳定的情况，原因是我这几天都在对网站进行调整。

这次的调整幅度很大，不过从外表上可能很难发现，特此记录留念一下。主要的更新内容包括：

1、主题的优化：本博客用的geekg主题其实比较老了，去年花钱请人对它进行了第一次大升级，加入了响应式设计，这几天主要解决该主题的一些历史遗留问题，包括图片显示、边距、排版等细微调整；
2、内部的优化：大幅度减少了插件的使用，把一些基本的功能（如网站目录、归档页）等都内嵌到主题中，减少了对插件的依赖，也提升了可用性；
3、文章的优化：其实这也是个历史遗留问题，主要是早期写文章的时候比较随意，html代码、公式的LaTeX代码等都不规范，因此早期的文章显示效果可能比较糟糕，于是我就做了一件很疯狂的事情——把800多篇文章都过一遍！经过了两天多的时间，基本上修复了早期文章的大部分问题；
4、域名的优化：网站全面使用https！网站放在阿里云上面，可是阿里云有一套自以为是的监管系统，无故屏蔽我的一些页面。为了应对阿里云的恶意屏蔽，只好转向https，当然，这不会对读者平时访问造成影响，因为跳转https是自动的。目前两个域名spaces.ac.cn和kexue.fm都会自动跳转到https。

分类：生活/情感标签：网站阅读全文 3 评论

31 May

基于最小熵原理的NLP库：nlp zero

By 苏剑林 | 2018-05-31 | 86040位读者 | 引用

陆陆续续写了几篇最小熵原理的博客，致力于无监督做NLP的一些基础工作。为了方便大家实验，把文章中涉及到的一些算法封装为一个库，供有需要的读者测试使用。

由于面向的是无监督NLP场景，而且基本都是NLP任务的基础工作，因此命名为nlp zero。

地址

Github: https://github.com/bojone/nlp-zero
Pypi: https://pypi.org/project/nlp-zero/

可以直接通过

pip install nlp-zero==0.1.6

进行安装。整个库纯Python实现，没有第三方调用，支持Python2.x和3.x。

点击阅读全文...

分类：信息时代标签：python, 无监督, 最小熵阅读全文 20 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

通用爬虫探索（二）：落实到论坛爬取上

深度优先

通用爬虫探索（三）：效果展示与代码

部分效果

浅谈神经网络中激活函数的设计

浮点误差都行！

更别致的词向量模型(一)：simpler glove

更别致的词向量模型(六)：代码、分享与结语

列表

代码

分享一个slide：花式自然语言处理

网站更新记录（2018年01月）

基于最小熵原理的NLP库：nlp zero

地址

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接