包含关键字经验分布函数的分布的文章

事实上，笔者一直以来都挺喜欢fm这个后缀的域名，因为FM也是电台的简写，fm域名的网站，从域名上就给人一种听电台般的惬意。刚好，顺手注册了kexue.fm这个域名，感觉很配本博客“科学空间”这个名字，也很符合本博客创办之初的理念——让科学流行起来——这也意味着科学会像听电台般舒服。当然，另一方面，它也更加好记。域名在大概一个月前就注册好了，但域名的备案，前前后后花了差不多一个月的时间，所以到现在才加上到科学空间中。如今科学空间的服务器也已经迁移到了阿里云。

原来的域名spaces.ac.cn也会一直保留着，双域名皆可访问。此外，申请了@spaces.ac.cn后缀邮箱的读者也不用担心，这个邮箱也会一直保留着。

欢迎大家多用新域名访问^_^

分类：生活/情感标签：网站阅读全文 3 评论

24 Apr

【语料】2500万中文三元组！

By 苏剑林 | 2017-04-24 | 90229位读者 | 引用

闲聊

这两年，知识图谱、问答系统、聊天机器人等领域是越来越火了。知识图谱是一个很泛化的概念，在我看来，涉及到知识库的构建、检索、利用等机器学习相关的内容，都算知识图谱。当然，这也不是个什么定义，只是个人的直观感觉。

做知识图谱的读者都知道，三元组是结构化知识的一种方法，是做知识型问答系统的重要组成部分。对于英文领域，已经有一些较大的开源的三元组语料库，而很显然，中文目前还没有这样的语料库共享（哪怕有人爬取到了，也珍藏起来了）。笔者前段时间写了个百度百科的爬虫，爬了一段时间，抓了几百万个百度百科的词条。其中不少词条含有一些结构化的信息，直接抽取出来，就是有效的“三元组”了，可以用来做知识图谱。本文分享的三元组语料正是由此而来，共有2500万个三元组。

百度百科的三元组

点击阅读全文...

分类：资源共享标签：问答, 语料, 数据集阅读全文 16 评论

6 Jun

通用爬虫探索（二）：落实到论坛爬取上

By 苏剑林 | 2017-06-06 | 25546位读者 | 引用

前述的方案，如果爬取的页面仅仅有单一的有效区域，如博客页、新闻页等，那么基本上来说已经足够了。但是，诸如像论坛这样的具有比较明显的层次划分的网站，我们需要进一步细分。因为经过上述步骤，我们虽然能够把有效文本提取出来，但结果是把所有文本放在一块了。

深度优先

而为了给内容进一步“分块”，我们还需要利用DOM树的位置信息。如上一篇的DOM树图，我们需要给每个节点和叶子都编号，即我们需要一个遍历DOM树的方式。这里我们采用“深度优先”的方案。

深度优先搜索算法（英语：Depth-First-Search，简称DFS）是一种用于遍历或搜索树或图的算法。沿着树的深度遍历树的节点，尽可能深的搜索树的分支。当节点v的所在边都己被探寻过，搜索将回溯到发现节点v的那条边的起始节点。这一过程一直进行到已发现从源节点可达的所有节点为止。如果还存在未被发现的节点，则选择其中一个作为源节点并重复以上过程，整个进程反复进行直到所有节点都被访问为止。

点击阅读全文...

分类：信息时代标签：网站, 爬虫阅读全文抢沙发

7 Jun

通用爬虫探索（三）：效果展示与代码

By 苏剑林 | 2017-06-07 | 55279位读者 | 引用

部分效果

部分网站的爬取效果。其中图1是本博客的爬取效果，表明该方案是适用一般网站的；图2和图3是两个开源的论坛程序搭建起来的论坛的爬取效果，表明对于开源程序能够正常爬取；图4是对著名的天涯论坛的爬取效果，表明哪怕是公司内部开发的论坛，也具有不错的效果。

6-blog

点击阅读全文...

分类：信息时代标签：网站, 爬虫阅读全文 10 评论

8 Aug

【备忘】谈谈dropout

By 苏剑林 | 2017-08-08 | 33812位读者 | 引用

其实这只是一篇备忘...

dropout是深度学习中防止过拟合的一项有效措施，当然，就其思想而言，dropout其实也不仅仅可以用在深度学习中，还可以用在传统的机器学习方法中，只不过在深度学习的神经网络框架下，dropout显得更为自然罢了。

做了什么

dropout是怎么操作的？一般来做，对于输入的张量$x$，dropout就是将部分元素置零，然后将置零后的结果做一个尺度变换。具体来说，以Keras的Dropout(0.6)(x)为例，实际上等价于numpy做的这件事情

import numpy as np

x = np.random.random((10,100)) #模拟一个batch_size=10、维度为100的输入
def Dropout(x, drop_proba):
    return x*np.random.choice(
                              [0,1], 
                              x.shape,  
                              p=[drop_proba,1-drop_proba]
                             )/(1.-drop_proba)

print Dropout(x, 0.6)

点击阅读全文...

分类：信息时代标签：深度学习阅读全文 3 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

2017年快乐！Responsive Geekg for Typecho

除夕试拍星空星轨～

泰迪杯赛前培训之数据挖掘与建模“慢谈”

科学空间添加新域名kexue.fm

【语料】2500万中文三元组！

闲聊

通用爬虫探索（二）：落实到论坛爬取上

深度优先

通用爬虫探索（三）：效果展示与代码

部分效果

【备忘】谈谈dropout

做了什么

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接