6 Jun

通用爬虫探索(一):适用一般网站的爬虫

这是笔者参加今年的泰迪杯C题的论文简化版。虽然最后只评上了一个安慰奖,但个人感觉里边有些思路对爬虫工作还是有些参加价值的。所以还是放出来供大家参考一下。

简介

一个爬虫可以分为两个步骤:1.把网页下载下来;2.从网页中把所需要的信息抽取出来。这两个步骤都存在相应的技术难点。对于第一个步骤,难度在于如何应对各大网站的反爬虫措施,如访问频率过高则封IP或者给出验证码等,这需要根据不同网站的不同反爬虫措施来设计,理论上不存在通用的可能性。对于第二个步骤,传统的做法是设计对应的正则表达式,随着网站设计上日益多样化,正则表达式的写法也相应变得困难。

显然,想要得到一个通用的爬虫方案,用传统的正则表达式的方案是相当困难的。但如果我们跳出正则表达式的思维局限,从全局的思维来看网站,结合DOM树来解析,那么可以得到一个相当通用的方案。因此,本文的主要内容,是围绕着爬虫的第二个步骤进行展开。本文的工作分为两个部分进行:首先,提出了一个适用于一般网站的信息抽取方案,接着,将这个方案细化,落实到论坛的信息抽取上。

点击阅读全文...

23 Apr

科学空间添加新域名kexue.fm

在上个月,偶然间发现kexue.fm这个域名还没被注册,感觉挺不错的,所以赶紧把它注册了。

事实上,笔者一直以来都挺喜欢fm这个后缀的域名,因为FM也是电台的简写,fm域名的网站,从域名上就给人一种听电台般的惬意。刚好,顺手注册了kexue.fm这个域名,感觉很配本博客“科学空间”这个名字,也很符合本博客创办之初的理念——让科学流行起来——这也意味着科学会像听电台般舒服。当然,另一方面,它也更加好记。域名在大概一个月前就注册好了,但域名的备案,前前后后花了差不多一个月的时间,所以到现在才加上到科学空间中。如今科学空间的服务器也已经迁移到了阿里云。

原来的域名spaces.ac.cn也会一直保留着,双域名皆可访问。此外,申请了@spaces.ac.cn后缀邮箱的读者也不用担心,这个邮箱也会一直保留着。

欢迎大家多用新域名访问^_^

31 Dec

2017年快乐!Responsive Geekg for Typecho

2016年即将画上句号了,在此祝各位读者2017年快乐,新的一年事事大顺哈~

happy new year 2017

happy new year 2017

所谓新年新气象,科学空间也换上新外衣。咦,怎么感觉没什么变化?别急,请继续看下去。

点击阅读全文...

24 Nov

科学空间“微信群|聊天机器人”上线测试

花了点时间,完成了一个微信的聊天机器人,并建立了微信群。

目前实现的功能如下:

1、搜索微信号spaces_ac_cn,添加为好友后,会自动给你发送加群邀请,你通过之后就可以加入到群聊中;
2、进群后自动发送欢迎信息;
3、记录群的聊天记录,定时分享给大家,以后大家就不担心有价值的群信息丢失了;
4、如果哪天群满了,则另开新群,一个群的信息,会自动同步到另外一个群,这样不至于冷落了某一个群;
5、如果你向微信号spaces_ac_cn发送消息,则自动在知乎搜索答案并返回,这还是一个简单的知乎搜索机器人。

还有一些管理员用到的功能,就不详细列出了。

欢迎大家加入!有问题请及时反馈,代码可能会有问题,因此希望大家多多测试。

24 Dec

修改了一下公式的显示方式(移动端)

移动端

移动端

由于Li xiaobo读者再次反映了本站的公式在移动端的支持不佳问题,笔者对网站的公式显示做了一些修改。如果读者是用电脑浏览的话,那应该感觉不到网站的变化,但是如果是手机端浏览的话,那么应该会发现,原来是由MathJax解析的公式,变成了图片形式的公式。

没错,这是一个很折衷的解决办法,判断客户端,如果是移动端,就是用图片公式的显示方法,图片公式在移动端暂时没有发现错误(请大家测试。)这种方式有一些弊端,比如图片形式的公式并不是那么好看,而且,公式中的中文无法显示。

公式调用了http://latex.codecogs.com/gif.latex,在这里表示感谢。欢迎大家测试,反馈问题:http://bbs.spaces.ac.cn/topic/show/9

30 May

【备忘】维基百科与DNSCrypt

中文维基百科的域名zh.wikipedia.org于5月19日被关键字屏蔽和DNS污染,目前从中国已无法访问中文维基百科,中文维基百科的域名也无法解析出正确的IP地址,而英文维基百科目前未受影响,可以正常访问。

来自“月光博客”:http://www.williamlong.info/archives/4240.html

类似的新闻还有:http://www.freebuf.com/news/68011.html

点击阅读全文...

6 May

记录一次爬取淘宝/天猫评论数据的过程

笔者最近迷上了数据挖掘和机器学习,要做数据分析首先得有数据才行。对于我等平民来说,最廉价的获取数据的方法,应该是用爬虫在网络上爬取数据了。本文记录一下笔者爬取天猫某商品的全过程,淘宝上面的店铺也是类似的做法,不赘述。主要是分析页面以及用Python实现简单方便的抓取。

笔者使用的工具如下

Python 3——极其方便的编程语言。选择3.x的版本是因为3.x对中文处理更加友好。

Pandas——Python的一个附加库,用于数据整理。

IE 11——分析页面请求过程(其他类似的流量监控工具亦可)。

剩下的还有requests,re,这些都是Python自带的库。

实例页面(美的某热水器):http://detail.tmall.com/item.htm?id=41464129793

点击阅读全文...

30 Jun

简单做了个Logo~

科学空间Logo

科学空间Logo

简单为blog设计了个Logo,虽说是设计,其实也就是简单地把量子力学中路径积分的被积函数$e^{\frac{i}{\hbar}S}$拿过来了。

Logo的主体是一个“S”,含义有那么几个。第一,$S$是科学空间域名的开头,也是英文名称Scientific Spaces的开头;第二,$S$是物理中的作用量的习惯简写,而作用量是我非常喜欢的物理表述形式;同时也就是路径积分的相位函数了。特别地,S还是我姓氏“苏”的首字母。

点击阅读全文...