包含关键字推荐系统解耦的文章 - 科学空间|Scientific Spaces

23 Jan

校外通过VPN通道访问华师资源

By 苏剑林 | 2013-01-23 | 38844位读者 | 引用

在学校使用校园网时，是很容易访问到华师内部的各个网站的，比如教务系统、图书馆电子资源等，但是如果使用校外网或者是在家时就不那么容易了。另外一种情况是，期末同学回家了，很想早点知道成绩，一般我们会上http://jwc.scnu.edu.cn查询，这个网站在校内校外都可以登陆，但是通常来说为了成绩的录入，会把成绩查询功能关闭掉一段时间，事实上，大部分的成绩都已经录入了。在校园网时，心急的朋友可以访问http://222.201.93.5:211来查询，可是这个网址在校外是不能用的。VPN通道就是为这些校外需求而开通的。

使用方法很简单，打开
https://121.8.171.37/

输入校园卡的账号密码登陆就行了。登录后就会出现校内网的各种链接，包括图书馆资源、教务系统等等。

点击阅读全文...

分类：生活/情感标签：网站阅读全文 3 评论

7 Feb

视频演示：费曼的茶杯

By 苏剑林 | 2014-02-07 | 19175位读者 | 引用

为了形象地展示为什么有些系统需要旋转720度而不是360度才能恢复原状，费曼想到了一个“茶杯法”。看了“茶杯法”的步骤之后，我突然想起了电影《太极1》的梁小龙的一个端药镜头，正好对应着费曼的“茶杯法”，遂把镜头剪了出来，供大家欣赏。

请仔细观察梁小龙的手转了多少圈？

点击阅读全文...

分类：物理化学标签：粒子, 费曼, 自旋, 视频阅读全文抢沙发

4 Jun

【备忘】访问Google的方法（更新）

By 苏剑林 | 2014-06-04 | 83274位读者 | 引用

6月13日：更新了一个新的可用IP，不知道能够用多久。

以前大家顶多看到利用这个技巧访问facebook、youtube之类的网站，现在无奈到连Google都得用这个方法访问了。

近日，笔者发现直接输入http://www.google.com.hk无法访问Google搜索，要知道对于学术来说，没有Google是多么严重的事情，很多有用的学术资料，尤其是外文资料，都得靠Google来搜。主观性来说，在学术方面，百度不可能赶得上Google，望其项背都不可能。

点击阅读全文...

分类：问题百科标签：网站, 帮助阅读全文 16 评论

21 Oct

把Python脚本放到手机上定时运行

By 苏剑林 | 2015-10-21 | 42559位读者 | 引用

毫无疑问，数据是数据分析的基础，而对于我等平民来说，获取大量数据的方式自然是通过爬虫采集，而对于笔者来说，写爬虫最自然的方式就是用Python写了。短短几行代码，就可以完成一个实用的爬虫，多清爽。（请参考：《记录一次爬取淘宝/天猫评论数据的过程》）

爬虫要住在哪里？

接下来的一个问题是，这个爬虫放到哪里运行？为了爬取每天更新的数据，往往需要每天都要运行一次爬虫，特别地，是在某个点定时运行。这样的话，老挂在自己的电脑运行是不大现实，因为自己的电脑总有关机的时候。也许有读者会想到放在云服务器里边，这是个方法，但是需要额外的成本。受到小虾大神的启发，我开始想把它放到路由器里边运行，某些比较好的路由器是可以外接U盘，且可以刷open-wrt系统的（一个Linux内核的路由器系统，可以像普通Linux那样装Python）。这对我来说是一种很吸引人的做法，但是我对Linux环境下的编译并不熟悉，尤其是路由器环境下的操作；另外路由器配置很低，一般都只是16M闪存、64M内存，如果没有耐心，那么是很难受得了的。

点击阅读全文...

分类：信息时代标签：python, 爬虫阅读全文 2 评论

13 Nov

ARXIV数学论文分布：偏微分方程最热门！

By 苏剑林 | 2015-11-13 | 31931位读者 | 引用

笔者成功地保研到了中山大学的基础数学专业，这个专业自然是比较理论性的，虽然如此，我还会保持着我对数据分析、计算机等方面的兴趣。这几天兴致来了，想做一下结合我的专业跟数据挖掘相结合的研究，所以就爬取了ARXIV上面近五年（2010年到2014年）的数学论文（包含的数据有：标题、分类、年份、月份），想对这几年来数学的“行情”做一下简单的分析。个人认为，ARVIX作为目前全球最大的论文预印本的电子数据库，对它的数据进行分析，所得到的结论是能够具有一定的代表性的。

当然，本文只是用来练手爬虫和基本数据分析的文章，并没有挖掘出特别有价值的信息。文末附录了笔者爬取到的数据，供有兴趣的读者进一步分析研究。

整体情况

这五年来，ARXIV的数学论文总数为135009篇，平均每年27000篇，或者每天74篇。

点击阅读全文...

分类：信息时代标签：python, 数据挖掘阅读全文 2 评论

6 Dec

人生苦短，我用Python！

By 苏剑林 | 2015-12-06 | 57438位读者 | 引用

Python数据分析与挖掘实战

暑假的时候，应泰迪公司之约，我为他们的书《MATLAB数据挖掘与挖掘实战》编写了姊妹版：《Python数据挖掘与挖掘实战》（还有一个姊妹版是R语言的），主要的工作内容就是编写Python的介绍，以及把书上的MATLAB代码翻译为Python版本的。我欣然接受了，一来可以兼职赚点零花钱，二来可以系统地训练一下自身的Python编程，再则，还可以体验一次MATLAB、R、Python的大PK。现在书本已经正式发行，亚马逊、当当、京东、淘宝都可以找到，我也很荣幸被列为作者之一，于是这便算是我出版的第一本书了。

点击阅读全文...

分类：信息时代标签：python, 数据挖掘阅读全文 11 评论

20 Jan

简单的迅雷VIP账号获取器（Python）

By 苏剑林 | 2016-01-20 | 32488位读者 | 引用

在Windows工作的时候，经常会用迅雷下载东西，如果速度慢或者没资源，尤其是一些比较冷门的视频，迅雷的VIP会员服务总能够帮上大忙。后来无意间发现了有个“迅雷VIP账号获取器”的软件，可以获取一些临时的VIP账号供使用，这可是个好东西，因为开通迅雷会员虽然不贵，但是我又不经常下载，所以老感觉有点浪费，而有了这个之后，我随时下点东西都可以免费用了。

简单的迅雷VIP账号获取器

最近转移到了Mac上，而Mac也有迅雷，但那个账号获取器是exe的，不能在Mac运行。本以为获取器的构造会很复杂，谁知道，经过抓包研究，发现那个账号获取器的原理极其简单，说白了，就是一个简单的爬虫，以下这两个网站提供账号，它就到相应的抓取账号而已：

http://yunbo.xinjipin.com/
http://www.fenxs.com

据此，我也用Python简单写了一个，主要是方便我在Mac使用。读者如果有需要，也可以下载使用，代码兼容2.x和3.x的版本。主要的库是requests和re，pandas和sys的使用只不过是为了更加人性化。本来想用Tkinter写一个简单的GUI的，但是想想看，还是没必要了～～

点击阅读全文...

分类：信息时代标签：python, 爬虫阅读全文 2 评论

25 Jun

OCR技术浅探：6. 光学识别

By 苏剑林 | 2016-06-25 | 73207位读者 | 引用

经过第一、二步，我们已经能够找出图像中单个文字的区域，接下来可以建立相应的模型对单字进行识别.

模型选择

在模型方面，我们选择了深度学习中的卷积神经网络模型，通过多层卷积神经网络，构建了单字的识别模型.

卷积神经网络是人工神经网络的一种，已成为当前图像识别领域的主流模型. 它通过局部感知野和权值共享方法，降低了网络模型的复杂度，减少了权值的数量，在网络结构上更类似于生物神经网络，这也预示着它必然具有更优秀的效果. 事实上，我们选择卷积神经网络的主要原因有：

1. 对原始图像自动提取特征 卷积神经网络模型可以直接将原始图像进行输入，免除了传统模型的人工提取特征这一比较困难的核心部分；
2. 比传统模型更高的精度 比如在MNIST手写数字识别任务中，可以达到99%以上的精度，这远高于传统模型的精度；
3. 比传统模型更好的泛化能力 这意味着图像本身的形变(伸缩、旋转)以及图像上的噪音对识别的结果影响不明显，这正是一个良好的OCR系统所必需的.

点击阅读全文...

分类：信息时代标签：神经网络, 深度学习, OCR, 文字阅读全文 16 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

校外通过VPN通道访问华师资源

视频演示：费曼的茶杯

【备忘】访问Google的方法（更新）

把Python脚本放到手机上定时运行

爬虫要住在哪里？

ARXIV数学论文分布：偏微分方程最热门！

整体情况

人生苦短，我用Python！

简单的迅雷VIP账号获取器（Python）

OCR技术浅探：6. 光学识别

模型选择

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接