包含关键字自注意力的文章 - 科学空间|Scientific Spaces

1 Dec

“熵”不起：从熵、最大熵原理到最大熵模型（一）

By 苏剑林 | 2015-12-01 | 81913位读者 | 引用

熵的概念

作为一名物理爱好者，我一直对统计力学中“熵”这个概念感到神秘和好奇。因此，当我接触数据科学的时候，我也对最大熵模型产生了浓厚的兴趣。

熵是什么？在通俗的介绍中，熵一般有两种解释：（1）熵是不确定性的度量；（2）熵是信息的度量。看上去说的不是一回事，其实它们说的就是同一个意思。首先，熵是不确定性的度量，它衡量着我们对某个事物的“无知程度”。熵为什么又是信息的度量呢？既然熵代表了我们对事物的无知，那么当我们从“无知”到“完全认识”这个过程中，就会获得一定的信息量，我们开始越无知，那么到达“完全认识”时，获得的信息量就越大，因此，作为不确定性的度量的熵，也可以看作是信息的度量，说准确点，是我们能从中获得的最大的信息量。

点击阅读全文...

分类：数学研究标签：概率, 最大熵, 熵阅读全文 13 评论

6 Dec

人生苦短，我用Python！

By 苏剑林 | 2015-12-06 | 56662位读者 | 引用

Python数据分析与挖掘实战

暑假的时候，应泰迪公司之约，我为他们的书《MATLAB数据挖掘与挖掘实战》编写了姊妹版：《Python数据挖掘与挖掘实战》（还有一个姊妹版是R语言的），主要的工作内容就是编写Python的介绍，以及把书上的MATLAB代码翻译为Python版本的。我欣然接受了，一来可以兼职赚点零花钱，二来可以系统地训练一下自身的Python编程，再则，还可以体验一次MATLAB、R、Python的大PK。现在书本已经正式发行，亚马逊、当当、京东、淘宝都可以找到，我也很荣幸被列为作者之一，于是这便算是我出版的第一本书了。

点击阅读全文...

分类：信息时代标签：python, 数据挖掘阅读全文 11 评论

11 Dec

“熵”不起：从熵、最大熵原理到最大熵模型（二）

By 苏剑林 | 2015-12-11 | 83656位读者 | 引用

上集回顾

在第一篇中，笔者介绍了“熵”这个概念，以及它的一些来龙去脉。熵的公式为
$$S=-\sum_x p(x)\log p(x)\tag{1}$$
或
$$S=-\int p(x)\log p(x) dx\tag{2}$$
并且在第一篇中，我们知道熵既代表了不确定性，又代表了信息量，事实上它们是同一个概念。

说完了熵这个概念，接下来要说的是“最大熵原理”。最大熵原理告诉我们，当我们想要得到一个随机事件的概率分布时，如果没有足够的信息能够完全确定这个概率分布（可能是不能确定什么分布，也可能是知道分布的类型，但是还有若干个参数没确定），那么最为“保险”的方案是选择使得熵最大的分布。

最大熵原理

承认我们的无知

很多文章在介绍最大熵原理的时候，会引用一句著名的句子——“不要把鸡蛋放在同一个篮子里”——来通俗地解释这个原理。然而，笔者窃以为这句话并没有抓住要点，并不能很好地体现最大熵原理的要义。笔者认为，对最大熵原理更恰当的解释是：承认我们的无知！

点击阅读全文...

分类：数学研究标签：概率, 极值, 最大熵, 熵阅读全文 19 评论

7 Mar

通过ssh动态端口转发共享校园资源（附带干货）

By 苏剑林 | 2016-03-07 | 36032位读者 | 引用

众所周知，校园网最宝贵的资源应该有两样：一是IPv6，IPv6是访问Google等网站的最理想途径，当然IPv6并非所有高校都有；二是论文库，一般高校都会买了一部分论文库（知网、万方等）的下载权，供校园用户使用。如果说访问Google还有VPN等诸多方式的话，那么对于校外用户来说访问知网等资源就显得格外宝贵了，一般只是叫校内用户下载，或者就只能付费了（那个贵呀！）。

站长还是学生，在学校同时享用着IPv6和论文库资源，确实很爽。自从用上Openwrt的路由之后，一直想着怎么把校园网资源共享出去。曾经考虑过搭建PPTP VPN，但是感觉略有复杂（当然，跟其他VPN相比，搭建PPTP VPN算是非常简单的了，可是我还是不怎么喜欢。），而且当时还没解决内网穿透的问题。最近借助ssh反向代理的方式实现了内网穿透，继而认识到，通过ssh动态端口转发，居然还可以搭建代理，并且实现远程访问内网（校园网）资源，而且几乎不用在路由器本身上面做任何配置。不得不说，ssh真是一个极其强大的东西呀。

添加普通帐号

既然要共享，就没理由把root账户都分享出去了，因此，第一步要实现的是在Openwrt上添加一个代理账号，而且为了安全和保密，这个账号不允许真的登陆服务器进行操作，而只允许进行端口转发。

点击阅读全文...

分类：信息时代标签：openwrt, 路由器阅读全文 2 评论

20 Dec

“熵”不起：从熵、最大熵原理到最大熵模型（三）

By 苏剑林 | 2015-12-20 | 68870位读者 | 引用

上集回顾

在上一篇文章中，笔者分享了自己对最大熵原理的认识，包括最大熵原理的意义、最大熵原理的求解以及一些简单而常见的最大熵原理的应用。在上一篇的文末，我们还通过最大熵原理得到了正态分布，以此来说明最大熵原理的深刻内涵和广泛意义。

本文中，笔者将介绍基于最大熵原理的模型——最大熵模型。本文以有监督的分类问题来介绍最大熵模型，所谓有监督，就是基于已经标签好的数据进行的。

事实上，第二篇文章的最大熵原理才是主要的，最大熵模型，实质上只是最大熵原理的一个延伸，或者说应用。

最大熵模型

分类：意味着什么？

在引入最大熵模型之前，我们先来多扯一点东西，谈谈分类问题意味着什么。假设我们有一批标签好的数据：
$$\begin{array}{c|cccccccc}
\hline
\text{数据}x & 1 & 2 & 3 & 4 & 5 & 6 & \dots & 100 \\
\hline
\text{标签}y & 1 & 0 & 1 & 0 & 1 & 0 & \dots & 0\\
\hline \end{array}$$

点击阅读全文...

分类：数学研究标签：模型, 概率, 最大熵, 熵阅读全文 19 评论

9 Jan

《量子力学与路径积分》习题解答V0.4

By 苏剑林 | 2016-01-09 | 32100位读者 | 引用

流年

《量子力学与路径积分》的习题解答终于艰难地推进到了0.4版本，目前已经基本完成了前7章的习题。

今天已经是2016年1月9号了，2015年已经远去，都忘记跟大家说一声新年快乐了，实在抱歉。在这里补充一句：祝大家新年快乐，事事如意！。

笔者已经大四了，现在是临近期末考，又临近毕业。最近忙的事情有很多，其中之一是我加入了一个互联网小公司的创业队伍中，负责文本挖掘，偶尔也写写爬虫，等等，感觉自己进去之后，增长了不少见识，也增加了不少技术知识，较之我上一次实习，又有不一样的高度。现在里边有好几样事情排队着做，可谓忙得不亦悦乎了。还有，我也开始写毕业论文了，早点写完能够多点时间，学学自己喜欢的东西，毕业论文我写的是路径积分相关的内容，自我感觉写得还是比较清楚易懂的，等时机成熟了，发出来，向大家普及路径积分^_^。此外，每天做点路径积分的习题，也要消耗不少时间，有些比较难的题目，基本一道就做几个早上才能写出比较满意的答案。总感觉想学的想做的事情有很多，可是时间很少。

点击阅读全文...

分类：物理化学标签：节日, 路径积分, 费曼阅读全文 3 评论

18 Jan

当大数据进入厨房：让大数据教你做菜！

By 苏剑林 | 2016-01-18 | 42522位读者 | 引用

说在前面

美食（图片来源于互联网）

在空间侧边栏的笔者的自我介绍中，有一行是“厨房爱好者”，虽然笔者不怎么会做菜，但确实，厨房是我的一个爱好。当然，笔者的爱好很多，数学、物理、天文、计算机等，都喜欢，都想学，弄到多而不精。在之前的文章中也已经提到过，数据挖掘也是我的一个爱好，而当数据挖掘跟厨房这两个爱好相遇了，会有什么有趣的结果吗？

笔者正是做了这样一个事情：从美食中国的家常菜目录下面，写了个简单的爬虫，抓取了一批菜谱数据下来，进行简单的数据分析。（在此对美食中国表示衷心感谢。选择美食中国的原因是它的数据比较规范。）数据分析在我目前公司的高性能服务器做，分析起来特别舒服～～

这里共收集了18209个菜谱，共包含了9700种食材（包括主料、辅料、调料，部分可能由于命名不规范等原因会重复）。当然，这个数据量相对于很多领域的大数据标准来说，实在不值一提。但是在大数据极少涉及的厨房，应该算是比较多的了。

点击阅读全文...

分类：信息时代标签：python, 厨房, 数据挖掘, 爱好阅读全文 6 评论

7 Feb

年三十折腾极路由之SSH反向代理

By 苏剑林 | 2016-02-07 | 60718位读者 | 引用

猴年快乐！

今天是年三十了，这里简单祝大家除夕快乐，新年快乐！愿大家在新的一年里都晋升为学神。^_^

这两天主要在折腾家里的路由器。平时家里只有爸妈两人，所以为了节省，家里只是通过中继隔壁家的网络来上网。本来家里用小米路由器mini，可是小米mini中继模式下功能限制非常多，我又不想刷第三方固件（因为这样会失去app控制功能，不是很方便），所以干脆换了个极路由3。极路由在中继模式下仍然保留了大部分功能（我觉得这样才是正常的，我不理解小米mini在中继之后就没了那么多功能究竟是什么逻辑）。

作为折腾派，一个新路由到手，总有很多东西要配置，极路由本身是基于openwrt的，因此可玩性也很强。首先要完成中继，然后上网，这个很简单就不多说了。其次是获得ssh权限，在极路由那里叫做“申请开发者模式”，或者叫root（感觉极路由想做路由界的苹果，但是在如今这个时代，苹果当初那种发展模式估计很难发展起来了），这个步骤也不难，不过申请之后就会失去极路由的保修资格（不理解这是什么逻辑）。

本文主要介绍了怎么在openwrt（极路由）上安装python，以及建立SSH反向代理（实现内网穿透）。

点击阅读全文...

分类：信息时代标签：节日, 网络, openwrt, 路由器阅读全文 7 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

“熵”不起：从熵、最大熵原理到最大熵模型（一）

熵的概念

人生苦短，我用Python！

“熵”不起：从熵、最大熵原理到最大熵模型（二）

上集回顾

最大熵原理

承认我们的无知

通过ssh动态端口转发共享校园资源（附带干货）

添加普通帐号

“熵”不起：从熵、最大熵原理到最大熵模型（三）

上集回顾

最大熵模型

分类：意味着什么？

《量子力学与路径积分》习题解答V0.4

当大数据进入厨房：让大数据教你做菜！

说在前面

年三十折腾极路由之SSH反向代理

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接