包含关键字回归问题的文章 - 科学空间|Scientific Spaces

24 May

It is time.

By 苏剑林 | 2015-05-24 | 53665位读者 | 引用

终于可以缓一缓了~~

有留意科学空间的朋友可能发现这段时间更新比较缓慢，这一切还得从今年寒假说起...

今年一月底，由于各种原因，结合自己的兴趣，我找了一份实习工作，内容是Python编程。工作是在华南理工大学的论坛上发布的，说的比较简洁，我也比较简洁地投了简历过去，想不到收到回复了，也被录用了。二月上班，进去之后，才发现原来公司还是一家国内比较知名的电商企业，我的主要工作是数据挖掘...虽然我有一点Python的经验，但是数据挖掘基本上不在行的，所以只能够边工作边学习，疯狂恶补数据挖掘的知识。在这个过程中，我学会了很多关于数据挖掘的东西，要知道，在这之前，我不知道什么叫“特征”，什么是“逻辑回归”、“SVM”...那时候真是万千无知。

点击阅读全文...

分类：生活/情感标签：生活, 学习阅读全文 12 评论

6 Jun

闲聊：神经网络与深度学习

By 苏剑林 | 2015-06-06 | 68038位读者 | 引用

神经网络

在所有机器学习模型之中，也许最有趣、最深刻的便是神经网络模型了。笔者也想献丑一番，说一次神经网络。当然，本文并不打算从头开始介绍神经网络，只是谈谈我对神经网络的个人理解。如果希望进一步了解神经网络与深度学习的朋友，请移步阅读下面的教程：
http://deeplearning.stanford.edu/wiki/index.php/UFLDL教程

http://blog.csdn.net/zouxy09/article/details/8775360

机器分类

这里以分类工作为例，数据挖掘或机器学习中，有很多分类的问题，比如讲一句话的情况进行分类，粗略点可以分类为“积极”或“消极”，精细点分为开心、生气、忧伤等；另外一个典型的分类问题是手写数字识别，也就是将图片分为10类（0,1,2,3,4,5,6,7,8,9）。因此，也产生了很多分类的模型。

点击阅读全文...

分类：信息时代标签：神经网络, 深度学习, 机器学习阅读全文 16 评论

10 Jun

【翻译】巨型望远镜：要继续，就得有牺牲！

By 苏剑林 | 2015-06-10 | 27345位读者 | 引用

2007年末公布的30米望远镜效果图

文章来自：新科学家，这是一篇关于30米望远镜（Thirty Meter Telescope，TMT）的新闻，起因是望远镜的制造遭到当地人的不满，当然背后的原因是很深远的，难以说清楚。更多有关TMT的新闻，可以阅读：http://www.ctmt.org/

夏威夷的巨型望远镜：要继续，就得有牺牲！

四分之一必须离开！在停止了两个月之后，夏威夷的巨型30米望远镜（Thirty Meter Telescope，TMT）重新回归到建设进程——但要牺牲其他望远镜。

由于夏威夷当地居民的抗议声越来越大，早在四月望远镜的建设工作就被迫暂停。与该望远镜相比，目前世界上所有的望远镜都相形见绌——它让能够让天文学家们凝视可见的宇宙的边缘。它位于许多夏威夷人认为是“神圣之地”的死火山莫纳克亚山，因此被夏威夷人认为是一种侮辱——尤其是在山顶已经有十多个望远镜了。

点击阅读全文...

分类：天文探索标签：翻译, 望远镜, 新科学家阅读全文 2 评论

15 Jul

漫话模型|模型与选芒果

By 苏剑林 | 2015-07-15 | 37813位读者 | 引用

很多人觉得“模型”、“大数据”、“机器学习”这些字眼很高大很神秘，事实上，它跟我们生活中选水果差不了多少。本文用了几千字，来试图教会大家怎么选芒果...

模型的比喻

芒果

假如我要从一批芒果中，找出好吃的那个来。而我不能直接切开芒果尝尝，所以我只能观察芒果，能观察到的量有颜色、表面的气味、大小等等，这些就是我们能够收集到的信息（特征）。

生活中还要很多这样的例子，比如买火柴（可能年轻的城里人还没见过火柴？），如何判断一盒火柴的质量？难道要每根火柴都划划，看看着不着火？显然不行，我们最多也只能划几根，全部划了，火柴也不成火柴了。当然，我们还能看看火柴的样子，闻闻火柴的气味，这些动作是可以接受的。

点击阅读全文...

分类：信息时代标签：模型, 机器学习阅读全文 4 评论

20 Dec

“熵”不起：从熵、最大熵原理到最大熵模型（三）

By 苏剑林 | 2015-12-20 | 68587位读者 | 引用

上集回顾

在上一篇文章中，笔者分享了自己对最大熵原理的认识，包括最大熵原理的意义、最大熵原理的求解以及一些简单而常见的最大熵原理的应用。在上一篇的文末，我们还通过最大熵原理得到了正态分布，以此来说明最大熵原理的深刻内涵和广泛意义。

本文中，笔者将介绍基于最大熵原理的模型——最大熵模型。本文以有监督的分类问题来介绍最大熵模型，所谓有监督，就是基于已经标签好的数据进行的。

事实上，第二篇文章的最大熵原理才是主要的，最大熵模型，实质上只是最大熵原理的一个延伸，或者说应用。

最大熵模型

分类：意味着什么？

在引入最大熵模型之前，我们先来多扯一点东西，谈谈分类问题意味着什么。假设我们有一批标签好的数据：
$$\begin{array}{c|cccccccc}
\hline
\text{数据}x & 1 & 2 & 3 & 4 & 5 & 6 & \dots & 100 \\
\hline
\text{标签}y & 1 & 0 & 1 & 0 & 1 & 0 & \dots & 0\\
\hline \end{array}$$

点击阅读全文...

分类：数学研究标签：模型, 概率, 最大熵, 熵阅读全文 19 评论

15 May

Coming Back...

By 苏剑林 | 2016-05-15 | 38135位读者 | 引用

上一篇博文的发布时间是4月15日，到今天刚好一个月没更新了，但是科学空间的访问量还在。感谢大家对本空间的支持，BoJone对久未更新表示非常抱歉。在恢复更新之前，请允许笔者记记流水账。

在“消失”的一个月中，笔者主要的事情是毕业论文和数据挖掘竞赛。首先毕业论文方面，论文于4月22日交稿，4月29日答辩，答辩完后就意味着毕业论文的事情结束了。我的毕业论文主要写了路径积分在描述随机游走、偏微分方程、随机微分方程的应用。既然是本科论文，就不能说得太晦涩，因此论文整体来看还是比较易读的，可以作为路径积分的入门教程。后面我会略加修改，分开几部分发布在科学空间中的，到时请大家批评指正。

说到路径积分，不得不说到做《量子力学与路径积分》的习题解答这件事情了。很遗憾，这一个多月来，基本没有时间做习题。不过后面我会继续做下去的，已发布的版本，也请有兴趣的读者指出问题。记得年初的时候，朋友问我今年的愿望是什么，我随意地回答了“希望做完一本书的习题”，这本书，当然就是《量子力学与路径积分》了，我相信今年应该能够完成的。

点击阅读全文...

分类：生活/情感标签：路径积分, 数据挖掘阅读全文 7 评论

1 Jul

从Boosting学习到神经网络：看山是山？

By 苏剑林 | 2016-07-01 | 64105位读者 | 引用

前段时间在潮州给韩师的同学讲文本挖掘之余，涉猎到了Boosting学习算法，并且做了一番头脑风暴，最后把Boosting学习算法的一些本质特征思考清楚了，而且得到一些意外的结果，比如说AdaBoost算法的一些理论证明也可以用来解释神经网络模型这么强大。

AdaBoost算法

Boosting学习，属于组合模型的范畴，当然，与其说它是一个算法，倒不如说是一种解决问题的思路。以有监督的分类问题为例，它说的是可以把弱的分类器（只要准确率严格大于随机分类器）通过某种方式组合起来，就可以得到一个很优秀的分类器（理论上准确率可以100%）。AdaBoost算法是Boosting算法的一个例子，由Schapire在1996年提出，它构造了一种Boosting学习的明确的方案，并且从理论上给出了关于错误率的证明。

以二分类问题为例子，假设我们有一批样本$\{x_i,y_i\},i=1,2,\dots,n$，其中$x_i$是样本数据，有可能是多维度的输入，$y_i\in\{1,-1\}$为样本标签，这里用1和-1来描述样本标签而不是之前惯用的1和0，只是为了后面证明上的方便，没有什么特殊的含义。接着假设我们已经有了一个弱分类器$G(x)$，比如逻辑回归、SVM、决策树等，对分类器的唯一要求是它的准确率要严格大于随机（在二分类问题中就是要严格大于0.5），所谓严格大于，就是存在一个大于0的常数$\epsilon$，每次的准确率都不低于$\frac{1}{2}+\epsilon$。

点击阅读全文...

分类：信息时代标签：神经网络, Boosting, 感情分类阅读全文 13 评论

16 Nov

为什么勒贝格积分比黎曼积分强？

By 苏剑林 | 2016-11-16 | 115337位读者 | 引用

学过实变函数的朋友，总会知道有个叫勒贝格积分的东西，号称是黎曼积分的改进版。虽然“实变函数学十遍，泛函分析心泛寒”，在学习实变函数的时候，我们通常都是云里雾里的，不过到最后，在老师的“灌溉”之下，也就耳濡目染了知道了一些结论，比如“黎曼可积的函数（在有限区间），也是勒贝格可积的”，说白了，就是“勒贝格积分比黎曼积分强”。那么，问题来了，究竟强在哪儿？为什么会强？

黎曼

勒贝格

这个问题，笔者在学习实变函数的时候并没有弄懂，后来也一直搁着，直到最近认真看了《重温微积分》之后，才有了些感觉。顺便说，齐民友老师的《重温微积分》真的很赞，值得一看。

本是同根生，相煎何太急？

点击阅读全文...

分类：数学研究标签：积分, 分析, 测度阅读全文 13 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

It is time.

闲聊：神经网络与深度学习

机器分类

【翻译】巨型望远镜：要继续，就得有牺牲！

夏威夷的巨型望远镜：要继续，就得有牺牲！

漫话模型|模型与选芒果

模型的比喻

“熵”不起：从熵、最大熵原理到最大熵模型（三）

上集回顾

最大熵模型

分类：意味着什么？

Coming Back...

从Boosting学习到神经网络：看山是山？

AdaBoost算法

为什么勒贝格积分比黎曼积分强？

本是同根生，相煎何太急？

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接