包含关键字不平衡的文章 - 科学空间|Scientific Spaces

10 Jun

【翻译】巨型望远镜：要继续，就得有牺牲！

By 苏剑林 | 2015-06-10 | 27273位读者 | 引用

2007年末公布的30米望远镜效果图

文章来自：新科学家，这是一篇关于30米望远镜（Thirty Meter Telescope，TMT）的新闻，起因是望远镜的制造遭到当地人的不满，当然背后的原因是很深远的，难以说清楚。更多有关TMT的新闻，可以阅读：http://www.ctmt.org/

夏威夷的巨型望远镜：要继续，就得有牺牲！

四分之一必须离开！在停止了两个月之后，夏威夷的巨型30米望远镜（Thirty Meter Telescope，TMT）重新回归到建设进程——但要牺牲其他望远镜。

由于夏威夷当地居民的抗议声越来越大，早在四月望远镜的建设工作就被迫暂停。与该望远镜相比，目前世界上所有的望远镜都相形见绌——它让能够让天文学家们凝视可见的宇宙的边缘。它位于许多夏威夷人认为是“神圣之地”的死火山莫纳克亚山，因此被夏威夷人认为是一种侮辱——尤其是在山顶已经有十多个望远镜了。

点击阅读全文...

分类：天文探索标签：翻译, 望远镜, 新科学家阅读全文 2 评论

22 Jun

前言：四五月份的时候，我参加了两个数据挖掘相关的竞赛，分别是物电学院举办的“亮剑杯”，以及第三届 “泰迪杯”全国大学生数据挖掘竞赛。很碰巧的是，两个比赛中，都有一题主要涉及到中文情感分类工作。在做“亮剑杯”的时候，由于我还是初涉，水平有限，仅仅是基于传统的思路实现了一个简单的文本情感分类模型。而在后续的“泰迪杯”中，由于学习的深入，我已经基本了解深度学习的思想，并且用深度学习的算法实现了文本情感分类模型。因此，我打算将两个不同的模型都放到博客中，供读者参考。刚入门的读者，可以从中比较两者的不同，并且了解相关思路。高手请一笑置之。

基于情感词典

人的最简单的判断思维

点击阅读全文...

分类：信息时代标签：python, 机器学习, 数据挖掘, 文本挖掘阅读全文 59 评论

2 Jul

用Pandas实现高效的Apriori算法

By 苏剑林 | 2015-07-02 | 141080位读者 | 引用

最新更新：《用Numpy实现高效的Apriori算法》

最近在做数据挖掘相关的工作，阅读到了Apriori算法。平时由于没有涉及到相关领域，因此对Apriori算法并不了解，而如今工作上遇到了，就不得不认真学习一下了。Apriori算法是一个寻找关联规则的算法，也就是从一大批数据中找到可能的逻辑，比如“条件A+条件B”很有可能推出“条件C”（A+B-->C），这就是一个关联规则。具体来讲，比如客户买了A商品后，往往会买B商品（反之，买了B商品不一定会买A商品），或者更复杂的，买了A、B两种商品的客户，很有可能会再买C商品（反之也不一定）。有了这些信息，我们就可以把一些商品组合销售，以获得更高的收益。而寻求关联规则的算法，就是关联分析算法。

啤酒与尿布

关联算法的案例中，最为人老生常谈的应该是“啤酒与尿布”了。“啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中，超市管理人员发现“啤酒与尿布两件看上去毫无关系的商品会经常出现在同一个购物篮中”。经过分析，原来在美国有婴儿的家庭中，一般是母亲在家中照看婴儿，年轻的父亲前去超市购买尿布。父亲在购买尿布的同时，往往会顺便为自己购买啤酒，这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。因此，沃尔玛尝试将啤酒与尿布摆放在相同的区域，让年轻的父亲可以同时找到这两件商品。事实是效果相当不错！

点击阅读全文...

分类：信息时代标签：python, 数据挖掘, 关联分析阅读全文 30 评论

30 Aug

封闭曲线所围成的面积：一个新技巧

By 苏剑林 | 2015-08-30 | 62288位读者 | 引用

本文主要做了一个尝试，尝试不通过Green公式而实现将封闭曲线的面积与线积分相互转换。这种转换的思路，因为仅仅利用了二重积分的积分变换，较为容易理解，而且易于推广。至于这种技巧是否真正具有实际价值，还请读者评论。

假设平面上一条简单封闭曲线由以下参数方程给出：
$$\begin{equation}\left\{\begin{aligned}x = f(t)\\y = g(t)\end{aligned}\right.\end{equation}$$
其中参数$t$位于某个区间$[a,b]$上，即$f(a)=f(b),g(a)=g(b)$。现在的问题是，求该封闭曲线围成的区域的面积。

点击阅读全文...

分类：数学研究标签：积分, 变换阅读全文 5 评论

15 Jul

漫话模型|模型与选芒果

By 苏剑林 | 2015-07-15 | 37661位读者 | 引用

很多人觉得“模型”、“大数据”、“机器学习”这些字眼很高大很神秘，事实上，它跟我们生活中选水果差不了多少。本文用了几千字，来试图教会大家怎么选芒果...

模型的比喻

芒果

假如我要从一批芒果中，找出好吃的那个来。而我不能直接切开芒果尝尝，所以我只能观察芒果，能观察到的量有颜色、表面的气味、大小等等，这些就是我们能够收集到的信息（特征）。

生活中还要很多这样的例子，比如买火柴（可能年轻的城里人还没见过火柴？），如何判断一盒火柴的质量？难道要每根火柴都划划，看看着不着火？显然不行，我们最多也只能划几根，全部划了，火柴也不成火柴了。当然，我们还能看看火柴的样子，闻闻火柴的气味，这些动作是可以接受的。

点击阅读全文...

分类：信息时代标签：模型, 机器学习阅读全文 4 评论

21 Jul

从“0.999...等于1”说开来

By 苏剑林 | 2015-07-21 | 58155位读者 | 引用

从小学到大学都可能被问到的但却又不容易很好地回答的问题中，“0.999...究竟等不等于1”肯定也算是相当经典的一个。然而，要清楚地回答这个问题并不容易，很多时候被提问者都会不自觉地弄晕，甚至有些“民科”还以这个问题“创造了新数学”。

本文试图就这个问题，给出比较通俗但比较严谨的回答。

什么是相等？

要回答0.999...等不等于1，首先得定义“相等”！什么才算相等？难道真的要写出来一模一样才叫相等吗？如果是这样的话，那么2-1都不等于1了，因为2-1跟1看起来都不一样啊。

显然我们需要给“相等”做出比较严格但是又让人公认的定义，才能对相等进行判断，显然，下面的定义是能够让很多人接受的：

$a = b$等切仅当$|a-b|=0$。

点击阅读全文...

分类：数学研究标签：函数, 分析阅读全文 11 评论

4 Aug

文本情感分类（二）：深度学习模型

By 苏剑林 | 2015-08-04 | 602712位读者 | 引用

语言处理

在《文本情感分类（一）：传统模型》一文中，笔者简单介绍了进行文本情感分类的传统思路。传统的思路简单易懂，而且稳定性也比较强，然而存在着两个难以克服的局限性：一、精度问题，传统思路差强人意，当然一般的应用已经足够了，但是要进一步提高精度，却缺乏比较好的方法；二、背景知识问题，传统思路需要事先提取好情感词典，而这一步骤，往往需要人工操作才能保证准确率，换句话说，做这个事情的人，不仅仅要是数据挖掘专家，还需要语言学家，这个背景知识依赖性问题会阻碍着自然语言处理的进步。

点击阅读全文...

分类：信息时代标签：python, 深度学习, 机器学习, 文本挖掘阅读全文 176 评论

13 Aug

exp(1/2 t^2+xt)级数展开的图解技术

By 苏剑林 | 2015-08-13 | 30977位读者 | 引用

本文要研究的是关于$t$的函数
$$\exp\left(\frac{1}{2}t^2+xt\right)$$
在$t=0$处的泰勒展开式。显然，它并不困难，手算或者软件都可以做出来，答案是：
$$1+x t+\frac{1}{2} \left(x^2+1\right) t^2+\frac{1}{6}\left(x^3+3 x\right) t^3 +\frac{1}{24} \left(x^4+6 x^2+3\right) t^4 + \dots$$
不过，本文将会给出笔者构造的该级数的一个图解方法。通过这个图解方法比较比较直观而方便地手算出展开式的前面一些项。后面我们再来谈谈这种图解技术的起源以及进一步的应用。

级数的图解方法：说明

首先，很明显要写出这个级数，关键是写出展开式的每一项，也就是要求出
$$f_k (x) = \left.\frac{d^k}{dt^k}\exp\left(\frac{1}{2}t^2+xt\right)\right|_{t=0}$$
$f_k (x)$是一个关于$x$的$k$次整系数多项式，$k$是展开式的阶，也是求导的阶数。

这里，我们用一个“点”表示一个$x$，用“两点之间的一条直线”表示“相乘”，那么，$x^2$就可以表示成

x^2项

点击阅读全文...

分类：数学研究标签：级数, 图解阅读全文 1 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

【翻译】巨型望远镜：要继续，就得有牺牲！

夏威夷的巨型望远镜：要继续，就得有牺牲！

文本情感分类（一）：传统模型

基于情感词典

用Pandas实现高效的Apriori算法

啤酒与尿布

封闭曲线所围成的面积：一个新技巧

漫话模型|模型与选芒果

模型的比喻

从“0.999...等于1”说开来

什么是相等？

文本情感分类（二）：深度学习模型

exp(1/2 t^2+xt)级数展开的图解技术

级数的图解方法：说明

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接