包含关键字最大值函数的文章 - 科学空间|Scientific Spaces

4 Aug

文本情感分类（二）：深度学习模型

By 苏剑林 | 2015-08-04 | 606443位读者 | 引用

语言处理

在《文本情感分类（一）：传统模型》一文中，笔者简单介绍了进行文本情感分类的传统思路。传统的思路简单易懂，而且稳定性也比较强，然而存在着两个难以克服的局限性：一、精度问题，传统思路差强人意，当然一般的应用已经足够了，但是要进一步提高精度，却缺乏比较好的方法；二、背景知识问题，传统思路需要事先提取好情感词典，而这一步骤，往往需要人工操作才能保证准确率，换句话说，做这个事情的人，不仅仅要是数据挖掘专家，还需要语言学家，这个背景知识依赖性问题会阻碍着自然语言处理的进步。

点击阅读全文...

分类：信息时代标签：python, 深度学习, 机器学习, 文本挖掘阅读全文 176 评论

13 Aug

exp(1/2 t^2+xt)级数展开的图解技术

By 苏剑林 | 2015-08-13 | 31229位读者 | 引用

本文要研究的是关于$t$的函数
$$\exp\left(\frac{1}{2}t^2+xt\right)$$
在$t=0$处的泰勒展开式。显然，它并不困难，手算或者软件都可以做出来，答案是：
$$1+x t+\frac{1}{2} \left(x^2+1\right) t^2+\frac{1}{6}\left(x^3+3 x\right) t^3 +\frac{1}{24} \left(x^4+6 x^2+3\right) t^4 + \dots$$
不过，本文将会给出笔者构造的该级数的一个图解方法。通过这个图解方法比较比较直观而方便地手算出展开式的前面一些项。后面我们再来谈谈这种图解技术的起源以及进一步的应用。

级数的图解方法：说明

首先，很明显要写出这个级数，关键是写出展开式的每一项，也就是要求出
$$f_k (x) = \left.\frac{d^k}{dt^k}\exp\left(\frac{1}{2}t^2+xt\right)\right|_{t=0}$$
$f_k (x)$是一个关于$x$的$k$次整系数多项式，$k$是展开式的阶，也是求导的阶数。

这里，我们用一个“点”表示一个$x$，用“两点之间的一条直线”表示“相乘”，那么，$x^2$就可以表示成

x^2项

点击阅读全文...

分类：数学研究标签：级数, 图解阅读全文 1 评论

7 Dec

一阶偏微分方程的特征线法

By 苏剑林 | 2017-12-07 | 81323位读者 | 引用

本文以尽可能清晰、简明的方式来介绍了一阶偏微分方程的特征线法。个人认为这是偏微分方程理论中较为简单但事实上又容易让人含糊的一部分内容，因此尝试以自己的文字来做一番介绍。当然，更准确来说其实是笔者自己的备忘。

拟线性情形

一般步骤

考虑偏微分方程
$$\begin{equation}\boldsymbol{\alpha}(\boldsymbol{x},u) \cdot \frac{\partial}{\partial \boldsymbol{x}} u = \beta(\boldsymbol{x},u)\end{equation}$$
其中$\boldsymbol{\alpha}$是一个$n$维向量函数，$\beta$是一个标量函数，$\cdot$是向量的点积，$u\equiv u(\boldsymbol{x})$是$n$元函数，$\boldsymbol{x}$是它的自变量。

点击阅读全文...

分类：数学研究标签：方程, 微分方程阅读全文 9 评论

25 Dec

从loss的硬截断、软化到focal loss

By 苏剑林 | 2017-12-25 | 194340位读者 | 引用

前言

今天在QQ群里的讨论中看到了focal loss，经搜索它是Kaiming大神团队在他们的论文《Focal Loss for Dense Object Detection》提出来的损失函数，利用它改善了图像物体检测的效果。不过我很少做图像任务，不怎么关心图像方面的应用。本质上讲，focal loss就是一个解决分类问题中类别不平衡、分类难度差异的一个loss，总之这个工作一片好评就是了。大家还可以看知乎的讨论：
《如何评价kaiming的Focal Loss for Dense Object Detection？》

看到这个loss，开始感觉很神奇，感觉大有用途。因为在NLP中，也存在大量的类别不平衡的任务。最经典的就是序列标注任务中类别是严重不平衡的，比如在命名实体识别中，显然一句话里边实体是比非实体要少得多，这就是一个类别严重不平衡的情况。我尝试把它用在我的基于序列标注的问答模型中，也有微小提升。嗯，这的确是一个好loss。

接着我再仔细对比了一下，我发现这个loss跟我昨晚构思的一个loss具有异曲同工之理！这就促使我写这篇博文了。我将从我自己的思考角度出发，来分析这个问题，最后得到focal loss，也给出我昨晚得到的类似的loss。

点击阅读全文...

分类：信息时代标签：模型, 深度学习, 损失函数阅读全文 64 评论

4 Aug

差分方程的摄动法

By 苏剑林 | 2016-08-04 | 24321位读者 | 引用

最近一直在考虑一些自然语言处理问题和一些非线性分析问题，无暇总结发文，在此表示抱歉。本文要说的是对于一阶非线性差分方程（当然高阶也可以类似地做）的一种摄动格式，理论上来说，本方法可以得到任意一阶非线性差分方程的显式渐近解。

非线性差分方程

对于一般的一阶非线性差分方程
$$\begin{equation}\label{chafenfangcheng}x_{n+1}-x_n = f(x_n)\end{equation}$$
通常来说，差分方程很少有解析解，因此要通过渐近分析等手段来分析非线性差分方程的性质。很多时候，我们首先会考虑将差分替换为求导，得到微分方程
$$\begin{equation}\label{weifenfangcheng}\frac{dx}{dn}=f(x)\end{equation}$$
作为差分方程$\eqref{chafenfangcheng}$的近似。其中的原因，除了微分方程有比较简单的显式解之外，另一重要原因是微分方程$\eqref{weifenfangcheng}$近似保留了差分方程$\eqref{chafenfangcheng}$的一些比较重要的性质，如渐近性。例如，考虑离散的阻滞增长模型：
$$\begin{equation}\label{zuzhizengzhang}x_{n+1}=(1+\alpha)x_n -\beta x_n^2\end{equation}$$
对应的微分方程为（差分替换为求导）：
$$\begin{equation}\frac{dx}{dn}=\alpha x -\beta x^2\end{equation}$$
此方程解得
$$\begin{equation}x_n = \frac{\alpha}{\beta+c e^{-\alpha n}}\end{equation}$$
其中$c$是任意常数。上述结果已经大概给出了原差分方程$\eqref{zuzhizengzhang}$的解的变化趋势，并且成功给出了最终的渐近极限$x_n \to \frac{\alpha}{\beta}$。下图是当$\alpha=\beta=1$且$c=1$（即$x_0=\frac{1}{2}$）时，微分方程的解与差分方程的解的值比较。

差分方程的摄动法1

现在的问题是，既然微分方程的解可以作为一个形态良好的近似解了，那么是否可以在微分方程的解的基础上，进一步加入修正项提高精度？

点击阅读全文...

分类：数学研究标签：摄动, 差分方程阅读全文 2 评论

1 Dec

“熵”不起：从熵、最大熵原理到最大熵模型（一）

By 苏剑林 | 2015-12-01 | 82166位读者 | 引用

熵的概念

作为一名物理爱好者，我一直对统计力学中“熵”这个概念感到神秘和好奇。因此，当我接触数据科学的时候，我也对最大熵模型产生了浓厚的兴趣。

熵是什么？在通俗的介绍中，熵一般有两种解释：（1）熵是不确定性的度量；（2）熵是信息的度量。看上去说的不是一回事，其实它们说的就是同一个意思。首先，熵是不确定性的度量，它衡量着我们对某个事物的“无知程度”。熵为什么又是信息的度量呢？既然熵代表了我们对事物的无知，那么当我们从“无知”到“完全认识”这个过程中，就会获得一定的信息量，我们开始越无知，那么到达“完全认识”时，获得的信息量就越大，因此，作为不确定性的度量的熵，也可以看作是信息的度量，说准确点，是我们能从中获得的最大的信息量。

点击阅读全文...

分类：数学研究标签：概率, 最大熵, 熵阅读全文 13 评论

6 Mar

Openwrt自动扫描WiFi并连接中继

By 苏剑林 | 2016-03-06 | 55023位读者 | 引用

最近入手了一个非常迷你的路由器——由25 x 25mm的vocore开发板搭建成的超小路由器，配上外壳后，也仅仅是37.4 x 34 x 25.9mm，比一个随身WiFi稍大。（链接）

vocore路由器

点击阅读全文...

分类：信息时代标签：openwrt, 路由器阅读全文 3 评论

20 Mar

[欧拉数学]伯努利级数及相关级数的总结

By 苏剑林 | 2016-03-20 | 95733位读者 | 引用

最近在算路径积分的时候，频繁地遇到了以下两种无穷级数：
$$\sum_n \frac{1}{n^2\pm\omega^2}\quad \text{和} \quad \prod_n \left(1\pm\frac{\omega^2}{n^2}\right)$$
当然，直接用Mathematica可以很干脆地算出结果来，但是我还是想知道为什么，至少大概地知道。

伯努利级数

当$\omega=0$的时候，第一个级数变为著名的伯努利级数
$$\sum_n \frac{1}{n^2}=1+\frac{1}{4}+\frac{1}{9}+\frac{1}{16}+\dots$$
既然跟伯努利级数有关，那么很自然想到，从伯努利级数的求和入手。

点击阅读全文...

分类：数学研究标签：级数, 欧拉数学阅读全文 21 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

文本情感分类（二）：深度学习模型

exp(1/2 t^2+xt)级数展开的图解技术

级数的图解方法：说明

一阶偏微分方程的特征线法

拟线性情形

一般步骤

从loss的硬截断、软化到focal loss

前言

差分方程的摄动法

非线性差分方程

“熵”不起：从熵、最大熵原理到最大熵模型（一）

熵的概念

Openwrt自动扫描WiFi并连接中继

[欧拉数学]伯努利级数及相关级数的总结

伯努利级数

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接