包含关键字中文分词系列的文章 - 科学空间|Scientific Spaces

23 Dec

鬼斧神工：求n维球的体积

By 苏剑林 | 2014-12-23 | 112775位读者 | 引用

今天早上同学问了我有关伽马函数和$n$维空间的球体积之间的关系，我记得我以前想要研究，但是并没有落实。既然她提问了，那么就完成这未完成的计划吧。

标准思路

简单来说，$n$维球体积就是如下$n$重积分
$$V_n(r)=\int_{x_1^2+x_2^2+\dots+x_n^2\leq r^2}dx_1 dx_2\dots dx_n$$
用更加几何的思路，我们通过一组平行面（$n-1$维的平行面）分割，使得$n$维球分解为一系列近似小柱体，因此，可以得到递推公式
$$V_n (r)=\int_{-r}^r V_{n-1} \left(\sqrt{r^2-t^2}\right)dt$$
设$t=r\sin\theta_1$，就有
$$V_n (r)=r\int_{-\frac{\pi}{2}}^{\frac{\pi}{2}} V_{n-1} \left(r\cos\theta_1\right)\cos\theta_1 d\theta_1$$

点击阅读全文...

分类：数学研究标签：微积分, 积分, 分析阅读全文 16 评论

6 Jun

闲聊：神经网络与深度学习

By 苏剑林 | 2015-06-06 | 71262位读者 | 引用

神经网络

在所有机器学习模型之中，也许最有趣、最深刻的便是神经网络模型了。笔者也想献丑一番，说一次神经网络。当然，本文并不打算从头开始介绍神经网络，只是谈谈我对神经网络的个人理解。如果希望进一步了解神经网络与深度学习的朋友，请移步阅读下面的教程：
http://deeplearning.stanford.edu/wiki/index.php/UFLDL教程

http://blog.csdn.net/zouxy09/article/details/8775360

机器分类

这里以分类工作为例，数据挖掘或机器学习中，有很多分类的问题，比如讲一句话的情况进行分类，粗略点可以分类为“积极”或“消极”，精细点分为开心、生气、忧伤等；另外一个典型的分类问题是手写数字识别，也就是将图片分为10类（0,1,2,3,4,5,6,7,8,9）。因此，也产生了很多分类的模型。

点击阅读全文...

分类：信息时代标签：神经网络, 深度学习, 机器学习阅读全文 17 评论

21 Jul

从“0.999...等于1”说开来

By 苏剑林 | 2015-07-21 | 61032位读者 | 引用

从小学到大学都可能被问到的但却又不容易很好地回答的问题中，“0.999...究竟等不等于1”肯定也算是相当经典的一个。然而，要清楚地回答这个问题并不容易，很多时候被提问者都会不自觉地弄晕，甚至有些“民科”还以这个问题“创造了新数学”。

本文试图就这个问题，给出比较通俗但比较严谨的回答。

什么是相等？

要回答0.999...等不等于1，首先得定义“相等”！什么才算相等？难道真的要写出来一模一样才叫相等吗？如果是这样的话，那么2-1都不等于1了，因为2-1跟1看起来都不一样啊。

显然我们需要给“相等”做出比较严格但是又让人公认的定义，才能对相等进行判断，显然，下面的定义是能够让很多人接受的：

$a = b$等切仅当$|a-b|=0$。

点击阅读全文...

分类：数学研究标签：函数, 分析阅读全文 11 评论

25 Dec

从loss的硬截断、软化到focal loss

By 苏剑林 | 2017-12-25 | 201563位读者 | 引用

前言

今天在QQ群里的讨论中看到了focal loss，经搜索它是Kaiming大神团队在他们的论文《Focal Loss for Dense Object Detection》提出来的损失函数，利用它改善了图像物体检测的效果。不过我很少做图像任务，不怎么关心图像方面的应用。本质上讲，focal loss就是一个解决分类问题中类别不平衡、分类难度差异的一个loss，总之这个工作一片好评就是了。大家还可以看知乎的讨论：
《如何评价kaiming的Focal Loss for Dense Object Detection？》

看到这个loss，开始感觉很神奇，感觉大有用途。因为在NLP中，也存在大量的类别不平衡的任务。最经典的就是序列标注任务中类别是严重不平衡的，比如在命名实体识别中，显然一句话里边实体是比非实体要少得多，这就是一个类别严重不平衡的情况。我尝试把它用在我的基于序列标注的问答模型中，也有微小提升。嗯，这的确是一个好loss。

接着我再仔细对比了一下，我发现这个loss跟我昨晚构思的一个loss具有异曲同工之理！这就促使我写这篇博文了。我将从我自己的思考角度出发，来分析这个问题，最后得到focal loss，也给出我昨晚得到的类似的loss。

点击阅读全文...

分类：信息时代标签：模型, 深度学习, 损失函数阅读全文 64 评论

20 Dec

“熵”不起：从熵、最大熵原理到最大熵模型（三）

By 苏剑林 | 2015-12-20 | 71412位读者 | 引用

上集回顾

在上一篇文章中，笔者分享了自己对最大熵原理的认识，包括最大熵原理的意义、最大熵原理的求解以及一些简单而常见的最大熵原理的应用。在上一篇的文末，我们还通过最大熵原理得到了正态分布，以此来说明最大熵原理的深刻内涵和广泛意义。

本文中，笔者将介绍基于最大熵原理的模型——最大熵模型。本文以有监督的分类问题来介绍最大熵模型，所谓有监督，就是基于已经标签好的数据进行的。

事实上，第二篇文章的最大熵原理才是主要的，最大熵模型，实质上只是最大熵原理的一个延伸，或者说应用。

最大熵模型

分类：意味着什么？

在引入最大熵模型之前，我们先来多扯一点东西，谈谈分类问题意味着什么。假设我们有一批标签好的数据：
$$\begin{array}{c|cccccccc}
\hline
\text{数据}x & 1 & 2 & 3 & 4 & 5 & 6 & \dots & 100 \\
\hline
\text{标签}y & 1 & 0 & 1 & 0 & 1 & 0 & \dots & 0\\
\hline \end{array}$$

点击阅读全文...

分类：数学研究标签：模型, 概率, 最大熵, 熵阅读全文 19 评论

15 Feb

积分估计的极值原理——变分原理的初级版本

By 苏剑林 | 2016-02-15 | 36418位读者 | 引用

如果一直关注科学空间的朋友会发现，笔者一直对极值原理有偏爱。比如，之前曾经写过一系列《自然极值》的文章，介绍一些极值问题和变分法；在物理学中，笔者偏爱最小作用量原理的形式；在数据挖掘中，笔者也因此对基于最大熵原理的最大熵模型有浓厚的兴趣；最近，在做《量子力学与路径积分》的习题中，笔者也对第十一章所说的变分原理产生了很大的兴趣。

对于一样新东西，笔者的学习方法是以一个尽可能简单的例子搞清楚它的原理和思想，然后再逐步复杂化，这样子我就不至于迷失了。对于变分原理，它是估算路径积分的一个很强大的方法，路径积分是泛函积分，或者说，无穷维积分，那么很自然想到，对于有限维的积分估计，比如最简单的一维积分，有没有类似的估算原理呢？事实上是有的，它并不复杂，弄懂它有助于了解变分原理的核心思想。很遗憾，我并没有找到已有的资料描述这个简化版的原理，可能跟我找的资料比较少有关。

从高斯型积分出发

变分原理本质上是Jensen不等式的应用。我们从下述积分出发
$$\begin{equation}\label{jifen}I(\epsilon)=\int_{-\infty}^{\infty}e^{-x^2-\epsilon x^4}dx\end{equation}$$

点击阅读全文...

分类：数学研究标签：不等式, 积分, 极值阅读全文 2 评论

17 Jun

OCR技术浅探：1. 全文简述

By 苏剑林 | 2016-06-17 | 45369位读者 | 引用

写在前面：前面的博文已经提过，在上个月我参加了第四届泰迪杯数据挖掘竞赛，做的是A题，跟OCR系统有些联系，还承诺过会把最终的结果开源。最近忙于毕业、搬东西，一直没空整理这些内容，现在抽空整理一下。

把结果发出来，并不是因为结果有多厉害、多先进（相反，当我对比了百度的这篇论文《基于深度学习的图像识别进展：百度的若干实践》之后，才发现论文的内容本质上还是传统那一套，远远还跟不上时代的潮流），而是因为虽然OCR技术可以说比较成熟了，但网络上根本就没有对OCR系统进行较为详细讲解的文章，而本文就权当补充这部分内容吧。我一直认为，技术应该要开源才能得到发展（当然，在中国这一点也确实值得商榷，因为开源很容易造成山寨），不管是数学物理研究还是数据挖掘，我大多数都会发表到博客中，与大家交流。

点击阅读全文...

分类：信息时代标签：图像, 数据挖掘, OCR 阅读全文 7 评论

26 Jun

OCR技术浅探：8. 综合评估

By 苏剑林 | 2016-06-26 | 30169位读者 | 引用

数据验证

尽管在测试环境下模型工作良好，但是实践是检验真理的唯一标准. 在本节中，我们通过自己的模型，与京东的测试数据进行比较验证.

衡量OCR系统的好坏有两部分内容：(1)是否成功地圈出了文字；(2)对于圈出来的文字，有没有成功识别. 我们采用评分的方法，对每一张图片的识别效果进行评分. 评分规则如下：

如果圈出的文字区域能够跟京东提供的检测样本的box文件中匹配，那么加1分，如果正确识别出文字来，另外加1分，最后每张图片的分数是前面总分除以文字总数.

按照这个规则，每张图片的评分最多是2分，最少是0分. 如果评分超过1，说明识别效果比较好了. 经过京东的测试数据比较，我们的模型平均评分大约是0.84，效果差强人意。

点击阅读全文...

分类：信息时代标签：模型, 图像, OCR 阅读全文 4 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

鬼斧神工：求n维球的体积

标准思路

闲聊：神经网络与深度学习

机器分类

从“0.999...等于1”说开来

什么是相等？

从loss的硬截断、软化到focal loss

前言

“熵”不起：从熵、最大熵原理到最大熵模型（三）

上集回顾

最大熵模型

分类：意味着什么？

积分估计的极值原理——变分原理的初级版本

从高斯型积分出发

OCR技术浅探：1. 全文简述

OCR技术浅探：8. 综合评估

数据验证

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接