包含关键字模型漫谈的文章 - 科学空间|Scientific Spaces

25 Dec

从loss的硬截断、软化到focal loss

By 苏剑林 | 2017-12-25 | 199071位读者 | 引用

前言

今天在QQ群里的讨论中看到了focal loss，经搜索它是Kaiming大神团队在他们的论文《Focal Loss for Dense Object Detection》提出来的损失函数，利用它改善了图像物体检测的效果。不过我很少做图像任务，不怎么关心图像方面的应用。本质上讲，focal loss就是一个解决分类问题中类别不平衡、分类难度差异的一个loss，总之这个工作一片好评就是了。大家还可以看知乎的讨论：
《如何评价kaiming的Focal Loss for Dense Object Detection？》

看到这个loss，开始感觉很神奇，感觉大有用途。因为在NLP中，也存在大量的类别不平衡的任务。最经典的就是序列标注任务中类别是严重不平衡的，比如在命名实体识别中，显然一句话里边实体是比非实体要少得多，这就是一个类别严重不平衡的情况。我尝试把它用在我的基于序列标注的问答模型中，也有微小提升。嗯，这的确是一个好loss。

接着我再仔细对比了一下，我发现这个loss跟我昨晚构思的一个loss具有异曲同工之理！这就促使我写这篇博文了。我将从我自己的思考角度出发，来分析这个问题，最后得到focal loss，也给出我昨晚得到的类似的loss。

点击阅读全文...

分类：信息时代标签：模型, 深度学习, 损失函数阅读全文 64 评论

4 Aug

差分方程的摄动法

By 苏剑林 | 2016-08-04 | 24852位读者 | 引用

最近一直在考虑一些自然语言处理问题和一些非线性分析问题，无暇总结发文，在此表示抱歉。本文要说的是对于一阶非线性差分方程（当然高阶也可以类似地做）的一种摄动格式，理论上来说，本方法可以得到任意一阶非线性差分方程的显式渐近解。

非线性差分方程

对于一般的一阶非线性差分方程
$$\begin{equation}\label{chafenfangcheng}x_{n+1}-x_n = f(x_n)\end{equation}$$
通常来说，差分方程很少有解析解，因此要通过渐近分析等手段来分析非线性差分方程的性质。很多时候，我们首先会考虑将差分替换为求导，得到微分方程
$$\begin{equation}\label{weifenfangcheng}\frac{dx}{dn}=f(x)\end{equation}$$
作为差分方程$\eqref{chafenfangcheng}$的近似。其中的原因，除了微分方程有比较简单的显式解之外，另一重要原因是微分方程$\eqref{weifenfangcheng}$近似保留了差分方程$\eqref{chafenfangcheng}$的一些比较重要的性质，如渐近性。例如，考虑离散的阻滞增长模型：
$$\begin{equation}\label{zuzhizengzhang}x_{n+1}=(1+\alpha)x_n -\beta x_n^2\end{equation}$$
对应的微分方程为（差分替换为求导）：
$$\begin{equation}\frac{dx}{dn}=\alpha x -\beta x^2\end{equation}$$
此方程解得
$$\begin{equation}x_n = \frac{\alpha}{\beta+c e^{-\alpha n}}\end{equation}$$
其中$c$是任意常数。上述结果已经大概给出了原差分方程$\eqref{zuzhizengzhang}$的解的变化趋势，并且成功给出了最终的渐近极限$x_n \to \frac{\alpha}{\beta}$。下图是当$\alpha=\beta=1$且$c=1$（即$x_0=\frac{1}{2}$）时，微分方程的解与差分方程的解的值比较。

差分方程的摄动法1

现在的问题是，既然微分方程的解可以作为一个形态良好的近似解了，那么是否可以在微分方程的解的基础上，进一步加入修正项提高精度？

点击阅读全文...

分类：数学研究标签：摄动, 差分方程阅读全文 2 评论

6 Dec

人生苦短，我用Python！

By 苏剑林 | 2015-12-06 | 57660位读者 | 引用

Python数据分析与挖掘实战

暑假的时候，应泰迪公司之约，我为他们的书《MATLAB数据挖掘与挖掘实战》编写了姊妹版：《Python数据挖掘与挖掘实战》（还有一个姊妹版是R语言的），主要的工作内容就是编写Python的介绍，以及把书上的MATLAB代码翻译为Python版本的。我欣然接受了，一来可以兼职赚点零花钱，二来可以系统地训练一下自身的Python编程，再则，还可以体验一次MATLAB、R、Python的大PK。现在书本已经正式发行，亚马逊、当当、京东、淘宝都可以找到，我也很荣幸被列为作者之一，于是这便算是我出版的第一本书了。

点击阅读全文...

分类：信息时代标签：python, 数据挖掘阅读全文 11 评论

18 Jan

当大数据进入厨房：让大数据教你做菜！

By 苏剑林 | 2016-01-18 | 43470位读者 | 引用

说在前面

美食（图片来源于互联网）

在空间侧边栏的笔者的自我介绍中，有一行是“厨房爱好者”，虽然笔者不怎么会做菜，但确实，厨房是我的一个爱好。当然，笔者的爱好很多，数学、物理、天文、计算机等，都喜欢，都想学，弄到多而不精。在之前的文章中也已经提到过，数据挖掘也是我的一个爱好，而当数据挖掘跟厨房这两个爱好相遇了，会有什么有趣的结果吗？

笔者正是做了这样一个事情：从美食中国的家常菜目录下面，写了个简单的爬虫，抓取了一批菜谱数据下来，进行简单的数据分析。（在此对美食中国表示衷心感谢。选择美食中国的原因是它的数据比较规范。）数据分析在我目前公司的高性能服务器做，分析起来特别舒服～～

这里共收集了18209个菜谱，共包含了9700种食材（包括主料、辅料、调料，部分可能由于命名不规范等原因会重复）。当然，这个数据量相对于很多领域的大数据标准来说，实在不值一提。但是在大数据极少涉及的厨房，应该算是比较多的了。

点击阅读全文...

分类：信息时代标签：python, 厨房, 数据挖掘, 爱好阅读全文 6 评论

15 Feb

积分估计的极值原理——变分原理的初级版本

By 苏剑林 | 2016-02-15 | 36074位读者 | 引用

如果一直关注科学空间的朋友会发现，笔者一直对极值原理有偏爱。比如，之前曾经写过一系列《自然极值》的文章，介绍一些极值问题和变分法；在物理学中，笔者偏爱最小作用量原理的形式；在数据挖掘中，笔者也因此对基于最大熵原理的最大熵模型有浓厚的兴趣；最近，在做《量子力学与路径积分》的习题中，笔者也对第十一章所说的变分原理产生了很大的兴趣。

对于一样新东西，笔者的学习方法是以一个尽可能简单的例子搞清楚它的原理和思想，然后再逐步复杂化，这样子我就不至于迷失了。对于变分原理，它是估算路径积分的一个很强大的方法，路径积分是泛函积分，或者说，无穷维积分，那么很自然想到，对于有限维的积分估计，比如最简单的一维积分，有没有类似的估算原理呢？事实上是有的，它并不复杂，弄懂它有助于了解变分原理的核心思想。很遗憾，我并没有找到已有的资料描述这个简化版的原理，可能跟我找的资料比较少有关。

从高斯型积分出发

变分原理本质上是Jensen不等式的应用。我们从下述积分出发
$$\begin{equation}\label{jifen}I(\epsilon)=\int_{-\infty}^{\infty}e^{-x^2-\epsilon x^4}dx\end{equation}$$

点击阅读全文...

分类：数学研究标签：不等式, 积分, 极值阅读全文 2 评论

20 Feb

熵的形象来源与熵的妙用

By 苏剑林 | 2016-02-20 | 31764位读者 | 引用

在拙作《“熵”不起：从熵、最大熵原理到最大熵模型（一）》中，笔者从比较“专业”的角度引出了熵，并对熵做了诠释。当然，熵作为不确定性的度量，应该具有更通俗、更形象的来源，本文就是试图补充这一部分，并由此给出一些妙用。

熵的形象来源

我们考虑由0-9这十个数字组成的自然数，如果要求小于10000的话，那么很自然有10000个，如果我们说“某个小于10000的自然数”，那么0～9999都有可能出现，那么10000便是这件事的不确定性的一个度量。类似地，考虑$n$个不同元素（可重复使用）组成的长度为$m$的序列，那么这个序列有$n^m$种情况，这时$n^m$也是这件事情的不确定性的度量。

$n^m$是指数形式的，数字可能异常地大，因此我们取了对数，得到$m\log n$，这也可以作为不确定性的度量，它跟我们原来熵的定义是一致的。因为
$$m\log n=-\sum_{i=1}^{n^m} \frac{1}{n^m}\log \frac{1}{n^m}$$

读者可能会疑惑，$n^m$和$m\log n$都算是不确定性的度量，那么究竟是什么原因决定了我们用$m\log n$而不是用$n^m$呢？答案是可加性。取对数后的度量具有可加性，方便我们运算。当然，可加性只是便利的要求，并不是必然的。如果使用$n^m$形式，那么就相应地具有可乘性。

点击阅读全文...

分类：数学研究标签：信息, 熵阅读全文 3 评论

15 May

Coming Back...

By 苏剑林 | 2016-05-15 | 39016位读者 | 引用

上一篇博文的发布时间是4月15日，到今天刚好一个月没更新了，但是科学空间的访问量还在。感谢大家对本空间的支持，BoJone对久未更新表示非常抱歉。在恢复更新之前，请允许笔者记记流水账。

在“消失”的一个月中，笔者主要的事情是毕业论文和数据挖掘竞赛。首先毕业论文方面，论文于4月22日交稿，4月29日答辩，答辩完后就意味着毕业论文的事情结束了。我的毕业论文主要写了路径积分在描述随机游走、偏微分方程、随机微分方程的应用。既然是本科论文，就不能说得太晦涩，因此论文整体来看还是比较易读的，可以作为路径积分的入门教程。后面我会略加修改，分开几部分发布在科学空间中的，到时请大家批评指正。

说到路径积分，不得不说到做《量子力学与路径积分》的习题解答这件事情了。很遗憾，这一个多月来，基本没有时间做习题。不过后面我会继续做下去的，已发布的版本，也请有兴趣的读者指出问题。记得年初的时候，朋友问我今年的愿望是什么，我随意地回答了“希望做完一本书的习题”，这本书，当然就是《量子力学与路径积分》了，我相信今年应该能够完成的。

点击阅读全文...

分类：生活/情感标签：路径积分, 数据挖掘阅读全文 7 评论

30 May

路径积分系列：1.我的毕业论文

By 苏剑林 | 2016-05-30 | 29103位读者 | 引用

之前承诺过会把毕业论文共享出来，让大家批评指正，却一直偷懒没动。事实上，毕业论文的主要内容就是路径积分的一些入门级别的内容，标题为《随机游走、随机微分方程与偏微分方程的路径积分方法》。我的摘要是这样写的：

本文从随机游走模型出发，得到了关于随机游走模型的一般结果；然后基于随机游走模型引入了路径积分，并且通过路径积分方法，实现了随机游走、随机微分方程与抛物型微分方程的相互转化，并给出了一些计算案例.
路径积分方法是量子理论的一种形式，但实际上它可以抽象为一个有用的数学工具，本文的主要方法正是抽象后的路径积分；其次，量子力学中有一个相当典型的抛物型偏微分方程——薛定谔方程，物理学家已经对它进行了大量的研究，有众多的成果；而随机微分方程是一个微分方程的拓展，在物理、工程、金融等很多方面都有重要应用，这个领域中也有很多研究方法；最后，随机游走是一个简单而重要的模型，它是很多扩散模型的基础，而且具有容易使用计算机模拟的特性. 因此，实现三者的转化是很有意义的.
本文有一些新的内容，比如现有文献比较少研究的不对称随机游走方面、以及现有文献比较含糊的对路径积分的介绍等，可以供同好参考，希望借此方式，能够让一些读者以更简洁明了的方式理解路径积分. 但是本文主要是陈述性的，旨在在国内推广路径积分方法. 在国外，路径积分方法得到了相当的重视，它源于量子力学，但应用已经不仅仅限于量子力学，如著作[1]，因此，推广路径积分方法、增加路径积分的中文资料，是很有意义和很有必要的事情.
本文所有推导和例子均以一维为例，相应的多维问题可以类似地计算。

点击阅读全文...

分类：数学研究标签：路径积分阅读全文 2 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

从loss的硬截断、软化到focal loss

前言

差分方程的摄动法

非线性差分方程

人生苦短，我用Python！

当大数据进入厨房：让大数据教你做菜！

说在前面

积分估计的极值原理——变分原理的初级版本

从高斯型积分出发

熵的形象来源与熵的妙用

熵的形象来源

Coming Back...

路径积分系列：1.我的毕业论文

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接