标签网站下的文章 - 科学空间|Scientific Spaces

6 Jun

通用爬虫探索（一）：适用一般网站的爬虫

By 苏剑林 | 2017-06-06 | 34328位读者 | 引用

这是笔者参加今年的泰迪杯C题的论文简化版。虽然最后只评上了一个安慰奖，但个人感觉里边有些思路对爬虫工作还是有些参加价值的。所以还是放出来供大家参考一下。

简介

一个爬虫可以分为两个步骤：1.把网页下载下来；2.从网页中把所需要的信息抽取出来。这两个步骤都存在相应的技术难点。对于第一个步骤，难度在于如何应对各大网站的反爬虫措施，如访问频率过高则封IP或者给出验证码等，这需要根据不同网站的不同反爬虫措施来设计，理论上不存在通用的可能性。对于第二个步骤，传统的做法是设计对应的正则表达式，随着网站设计上日益多样化，正则表达式的写法也相应变得困难。

显然，想要得到一个通用的爬虫方案，用传统的正则表达式的方案是相当困难的。但如果我们跳出正则表达式的思维局限，从全局的思维来看网站，结合DOM树来解析，那么可以得到一个相当通用的方案。因此，本文的主要内容，是围绕着爬虫的第二个步骤进行展开。本文的工作分为两个部分进行：首先，提出了一个适用于一般网站的信息抽取方案，接着，将这个方案细化，落实到论坛的信息抽取上。

点击阅读全文...

分类：信息时代标签：网站, 爬虫阅读全文 1 评论

23 Apr

科学空间添加新域名kexue.fm

By 苏剑林 | 2017-04-23 | 28367位读者 | 引用

在上个月，偶然间发现kexue.fm这个域名还没被注册，感觉挺不错的，所以赶紧把它注册了。

事实上，笔者一直以来都挺喜欢fm这个后缀的域名，因为FM也是电台的简写，fm域名的网站，从域名上就给人一种听电台般的惬意。刚好，顺手注册了kexue.fm这个域名，感觉很配本博客“科学空间”这个名字，也很符合本博客创办之初的理念——让科学流行起来——这也意味着科学会像听电台般舒服。当然，另一方面，它也更加好记。域名在大概一个月前就注册好了，但域名的备案，前前后后花了差不多一个月的时间，所以到现在才加上到科学空间中。如今科学空间的服务器也已经迁移到了阿里云。

原来的域名spaces.ac.cn也会一直保留着，双域名皆可访问。此外，申请了@spaces.ac.cn后缀邮箱的读者也不用担心，这个邮箱也会一直保留着。

欢迎大家多用新域名访问^_^

分类：生活/情感标签：网站阅读全文 3 评论

31 Dec

2017年快乐！Responsive Geekg for Typecho

By 苏剑林 | 2016-12-31 | 29738位读者 | 引用

2016年即将画上句号了，在此祝各位读者2017年快乐，新的一年事事大顺哈～

happy new year 2017

所谓新年新气象，科学空间也换上新外衣。咦，怎么感觉没什么变化？别急，请继续看下去。

点击阅读全文...

分类：生活/情感标签：节日, 网站阅读全文 4 评论

24 Nov

科学空间“微信群|聊天机器人”上线测试

By 苏剑林 | 2016-11-24 | 72946位读者 | 引用

花了点时间，完成了一个微信的聊天机器人，并建立了微信群。

目前实现的功能如下：

1、搜索微信号spaces_ac_cn，添加为好友后，会自动给你发送加群邀请，你通过之后就可以加入到群聊中；
2、进群后自动发送欢迎信息；
3、记录群的聊天记录，定时分享给大家，以后大家就不担心有价值的群信息丢失了；
4、如果哪天群满了，则另开新群，一个群的信息，会自动同步到另外一个群，这样不至于冷落了某一个群；
~~5、如果你向微信号spaces_ac_cn发送消息，则自动在知乎搜索答案并返回，这还是一个简单的知乎搜索机器人。~~

还有一些管理员用到的功能，就不详细列出了。

欢迎大家加入！有问题请及时反馈，代码可能会有问题，因此希望大家多多测试。

分类：信息时代标签：网站, 测试阅读全文 16 评论

24 Dec

修改了一下公式的显示方式（移动端）

By 苏剑林 | 2015-12-24 | 15367位读者 | 引用

移动端

由于Li xiaobo读者再次反映了本站的公式在移动端的支持不佳问题，笔者对网站的公式显示做了一些修改。如果读者是用电脑浏览的话，那应该感觉不到网站的变化，但是如果是手机端浏览的话，那么应该会发现，原来是由MathJax解析的公式，变成了图片形式的公式。

没错，这是一个很折衷的解决办法，判断客户端，如果是移动端，就是用图片公式的显示方法，图片公式在移动端暂时没有发现错误（请大家测试。）这种方式有一些弊端，比如图片形式的公式并不是那么好看，而且，公式中的中文无法显示。

公式调用了http://latex.codecogs.com/gif.latex，在这里表示感谢。欢迎大家测试，反馈问题：http://bbs.spaces.ac.cn/topic/show/9

分类：生活/情感标签：网站, latex 阅读全文抢沙发

30 May

【备忘】维基百科与DNSCrypt

By 苏剑林 | 2015-05-30 | 38886位读者 | 引用

中文维基百科的域名zh.wikipedia.org于5月19日被关键字屏蔽和DNS污染，目前从中国已无法访问中文维基百科，中文维基百科的域名也无法解析出正确的IP地址，而英文维基百科目前未受影响，可以正常访问。
来自“月光博客”：http://www.williamlong.info/archives/4240.html
类似的新闻还有：http://www.freebuf.com/news/68011.html

点击阅读全文...

分类：生活/情感标签：网站, 备忘阅读全文 8 评论

6 May

记录一次爬取淘宝/天猫评论数据的过程

By 苏剑林 | 2015-05-06 | 147401位读者 | 引用

笔者最近迷上了数据挖掘和机器学习，要做数据分析首先得有数据才行。对于我等平民来说，最廉价的获取数据的方法，应该是用爬虫在网络上爬取数据了。本文记录一下笔者爬取天猫某商品的全过程，淘宝上面的店铺也是类似的做法，不赘述。主要是分析页面以及用Python实现简单方便的抓取。

笔者使用的工具如下

Python 3——极其方便的编程语言。选择3.x的版本是因为3.x对中文处理更加友好。
Pandas——Python的一个附加库，用于数据整理。
IE 11——分析页面请求过程（其他类似的流量监控工具亦可）。
剩下的还有requests,re，这些都是Python自带的库。

实例页面（美的某热水器）：http://detail.tmall.com/item.htm?id=41464129793

点击阅读全文...

分类：信息时代标签：网站, 爬虫阅读全文 45 评论

30 Jun