包含关键字向后布朗运动的文章 - 科学空间|Scientific Spaces

22 Jun

文本情感分类（一）：传统模型

By 苏剑林 | 2015-06-22 | 231075位读者 | 引用

前言：四五月份的时候，我参加了两个数据挖掘相关的竞赛，分别是物电学院举办的“亮剑杯”，以及第三届 “泰迪杯”全国大学生数据挖掘竞赛。很碰巧的是，两个比赛中，都有一题主要涉及到中文情感分类工作。在做“亮剑杯”的时候，由于我还是初涉，水平有限，仅仅是基于传统的思路实现了一个简单的文本情感分类模型。而在后续的“泰迪杯”中，由于学习的深入，我已经基本了解深度学习的思想，并且用深度学习的算法实现了文本情感分类模型。因此，我打算将两个不同的模型都放到博客中，供读者参考。刚入门的读者，可以从中比较两者的不同，并且了解相关思路。高手请一笑置之。

基于情感词典

人的最简单的判断思维

点击阅读全文...

分类：信息时代标签：python, 机器学习, 数据挖掘, 文本挖掘阅读全文 59 评论

15 Jul

漫话模型|模型与选芒果

By 苏剑林 | 2015-07-15 | 39006位读者 | 引用

很多人觉得“模型”、“大数据”、“机器学习”这些字眼很高大很神秘，事实上，它跟我们生活中选水果差不了多少。本文用了几千字，来试图教会大家怎么选芒果...

模型的比喻

芒果

假如我要从一批芒果中，找出好吃的那个来。而我不能直接切开芒果尝尝，所以我只能观察芒果，能观察到的量有颜色、表面的气味、大小等等，这些就是我们能够收集到的信息（特征）。

生活中还要很多这样的例子，比如买火柴（可能年轻的城里人还没见过火柴？），如何判断一盒火柴的质量？难道要每根火柴都划划，看看着不着火？显然不行，我们最多也只能划几根，全部划了，火柴也不成火柴了。当然，我们还能看看火柴的样子，闻闻火柴的气味，这些动作是可以接受的。

点击阅读全文...

分类：信息时代标签：模型, 机器学习阅读全文 4 评论

4 Aug

文本情感分类（二）：深度学习模型

By 苏剑林 | 2015-08-04 | 618129位读者 | 引用

语言处理

在《文本情感分类（一）：传统模型》一文中，笔者简单介绍了进行文本情感分类的传统思路。传统的思路简单易懂，而且稳定性也比较强，然而存在着两个难以克服的局限性：一、精度问题，传统思路差强人意，当然一般的应用已经足够了，但是要进一步提高精度，却缺乏比较好的方法；二、背景知识问题，传统思路需要事先提取好情感词典，而这一步骤，往往需要人工操作才能保证准确率，换句话说，做这个事情的人，不仅仅要是数据挖掘专家，还需要语言学家，这个背景知识依赖性问题会阻碍着自然语言处理的进步。

点击阅读全文...

分类：信息时代标签：python, 深度学习, 机器学习, 文本挖掘阅读全文 176 评论

7 Dec

一阶偏微分方程的特征线法

By 苏剑林 | 2017-12-07 | 83646位读者 | 引用

本文以尽可能清晰、简明的方式来介绍了一阶偏微分方程的特征线法。个人认为这是偏微分方程理论中较为简单但事实上又容易让人含糊的一部分内容，因此尝试以自己的文字来做一番介绍。当然，更准确来说其实是笔者自己的备忘。

拟线性情形

一般步骤

考虑偏微分方程
$$\begin{equation}\boldsymbol{\alpha}(\boldsymbol{x},u) \cdot \frac{\partial}{\partial \boldsymbol{x}} u = \beta(\boldsymbol{x},u)\end{equation}$$
其中$\boldsymbol{\alpha}$是一个$n$维向量函数，$\beta$是一个标量函数，$\cdot$是向量的点积，$u\equiv u(\boldsymbol{x})$是$n$元函数，$\boldsymbol{x}$是它的自变量。

点击阅读全文...

分类：数学研究标签：方程, 微分方程阅读全文 9 评论

25 Dec

从loss的硬截断、软化到focal loss

By 苏剑林 | 2017-12-25 | 201595位读者 | 引用

前言

今天在QQ群里的讨论中看到了focal loss，经搜索它是Kaiming大神团队在他们的论文《Focal Loss for Dense Object Detection》提出来的损失函数，利用它改善了图像物体检测的效果。不过我很少做图像任务，不怎么关心图像方面的应用。本质上讲，focal loss就是一个解决分类问题中类别不平衡、分类难度差异的一个loss，总之这个工作一片好评就是了。大家还可以看知乎的讨论：
《如何评价kaiming的Focal Loss for Dense Object Detection？》

看到这个loss，开始感觉很神奇，感觉大有用途。因为在NLP中，也存在大量的类别不平衡的任务。最经典的就是序列标注任务中类别是严重不平衡的，比如在命名实体识别中，显然一句话里边实体是比非实体要少得多，这就是一个类别严重不平衡的情况。我尝试把它用在我的基于序列标注的问答模型中，也有微小提升。嗯，这的确是一个好loss。

接着我再仔细对比了一下，我发现这个loss跟我昨晚构思的一个loss具有异曲同工之理！这就促使我写这篇博文了。我将从我自己的思考角度出发，来分析这个问题，最后得到focal loss，也给出我昨晚得到的类似的loss。

点击阅读全文...

分类：信息时代标签：模型, 深度学习, 损失函数阅读全文 64 评论

13 Nov

ARXIV数学论文分布：偏微分方程最热门！

By 苏剑林 | 2015-11-13 | 32427位读者 | 引用

笔者成功地保研到了中山大学的基础数学专业，这个专业自然是比较理论性的，虽然如此，我还会保持着我对数据分析、计算机等方面的兴趣。这几天兴致来了，想做一下结合我的专业跟数据挖掘相结合的研究，所以就爬取了ARXIV上面近五年（2010年到2014年）的数学论文（包含的数据有：标题、分类、年份、月份），想对这几年来数学的“行情”做一下简单的分析。个人认为，ARVIX作为目前全球最大的论文预印本的电子数据库，对它的数据进行分析，所得到的结论是能够具有一定的代表性的。

当然，本文只是用来练手爬虫和基本数据分析的文章，并没有挖掘出特别有价值的信息。文末附录了笔者爬取到的数据，供有兴趣的读者进一步分析研究。

整体情况

这五年来，ARXIV的数学论文总数为135009篇，平均每年27000篇，或者每天74篇。

点击阅读全文...

分类：信息时代标签：python, 数据挖掘阅读全文 2 评论

7 Mar

通过ssh动态端口转发共享校园资源（附带干货）

By 苏剑林 | 2016-03-07 | 36861位读者 | 引用

众所周知，校园网最宝贵的资源应该有两样：一是IPv6，IPv6是访问Google等网站的最理想途径，当然IPv6并非所有高校都有；二是论文库，一般高校都会买了一部分论文库（知网、万方等）的下载权，供校园用户使用。如果说访问Google还有VPN等诸多方式的话，那么对于校外用户来说访问知网等资源就显得格外宝贵了，一般只是叫校内用户下载，或者就只能付费了（那个贵呀！）。

站长还是学生，在学校同时享用着IPv6和论文库资源，确实很爽。自从用上Openwrt的路由之后，一直想着怎么把校园网资源共享出去。曾经考虑过搭建PPTP VPN，但是感觉略有复杂（当然，跟其他VPN相比，搭建PPTP VPN算是非常简单的了，可是我还是不怎么喜欢。），而且当时还没解决内网穿透的问题。最近借助ssh反向代理的方式实现了内网穿透，继而认识到，通过ssh动态端口转发，居然还可以搭建代理，并且实现远程访问内网（校园网）资源，而且几乎不用在路由器本身上面做任何配置。不得不说，ssh真是一个极其强大的东西呀。

添加普通帐号

既然要共享，就没理由把root账户都分享出去了，因此，第一步要实现的是在Openwrt上添加一个代理账号，而且为了安全和保密，这个账号不允许真的登陆服务器进行操作，而只允许进行端口转发。

点击阅读全文...

分类：信息时代标签：openwrt, 路由器阅读全文 2 评论

28 Dec

【分享】兴隆山的双子座流星雨

By 苏剑林 | 2015-12-28 | 28663位读者 | 引用

记得科学空间刚开始的时候，没有什么原创的内容，有一段时间在翻译APOD的图片，后来渐渐地专注原创，就没有翻译了。这次再来分享一张图片，是兴隆山上的双子座流星雨，是国内爱好者Steed Yu拍摄的，被APOD收录。

兴隆山的双子座流星雨（来源：http://apod.nasa.gov/apod/ap151223.html）

点击阅读全文...

分类：天文探索,图片摄影标签：流星, 流星雨阅读全文 3 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

文本情感分类（一）：传统模型

基于情感词典

漫话模型|模型与选芒果

模型的比喻

文本情感分类（二）：深度学习模型

一阶偏微分方程的特征线法

拟线性情形

一般步骤

从loss的硬截断、软化到focal loss

前言

ARXIV数学论文分布：偏微分方程最热门！

整体情况

通过ssh动态端口转发共享校园资源（附带干货）

添加普通帐号

【分享】兴隆山的双子座流星雨

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接