包含关键字核函数的文章 - 科学空间|Scientific Spaces

30 Mar

文本情感分类（四）：更好的损失函数

By 苏剑林 | 2017-03-30 | 121997位读者 | 引用

文本情感分类其实就是一个二分类问题，事实上，对于分类模型，都会存在这样一个毛病：优化目标跟考核指标不一致。通常来说，对于分类（包括多分类），我们都会采用交叉熵作为损失函数，它的来源就是最大似然估计（参考《梯度下降和EM算法：系出同源，一脉相承》）。但是，我们最后的评估目标，并非要看交叉熵有多小，而是看模型的准确率。一般来说，交叉熵很小，准确率也会很高，但这个关系并非必然的。

要平均，不一定要拔尖

一个更通俗的例子是：一个数学老师，在努力提高同学们的平均分，但期末考核的指标却是及格率（60分及格）。假如平均分是100分（也就意味着所有同学都考到了100分），那么自然及格率是100%，这是最理想的。但现实不一定这么美好，平均分越高，只要平均分还没有达到100，那么及格率却不一定越高，比如两个人分别考40和90，那么平均分就是65，及格率只有50%；如果两个人的成绩都是60，平均分就是60，及格率却有100%。这也就是说，平均分可以作为一个目标，但这个目标并不直接跟考核目标挂钩。
那么，为了提升最后的考核目标，这个老师应该怎么做呢？很显然，首先看看所有学生中，哪些同学已经及格了，及格的同学先不管他们，而针对不及格的同学进行补课加强，这样一来，原则上来说有很多不及格的同学都能考上60分了，也有可能一些本来及格的同学考不够60分了，但这个过程可以迭代，最终使得大家都在60分以上，当然，最终的平均分不一定很高，但没办法，谁叫考核目标是及格率呢？

点击阅读全文...

分类：信息时代标签：深度学习, 文本挖掘, 损失函数阅读全文 29 评论

10 Oct

用狄拉克函数来构造非光滑函数的光滑近似

By 苏剑林 | 2021-10-10 | 73879位读者 | 引用

在机器学习中，我们经常会碰到不光滑的函数，但我们的优化方法通常是基于梯度的，这意味着光滑的模型可能更利于优化（梯度是连续的），所以就有了寻找非光滑函数的光滑近似的需求。事实上，本博客已经多次讨论过相关主题，比如《寻求一个光滑的最大值函数》、《函数光滑化杂谈：不可导函数的可导逼近》等，但以往的讨论在方法上并没有什么通用性。

不过，笔者从最近的一篇论文《SAU: Smooth activation function using convolution with approximate identities》学习到了一种比较通用的思路：用狄拉克函数来构造光滑近似。通用到什么程度呢？理论上有可数个间断点的函数都可以用它来构造光滑近似！个人感觉还是非常有意思的。

点击阅读全文...

分类：数学研究标签：函数, 近似, 分析, 光滑阅读全文 22 评论

7 Mar

用傅里叶级数拟合一维概率密度函数

By 苏剑林 | 2024-03-07 | 31045位读者 | 引用

在《“闭门造车”之多模态思路浅谈（一）：无损输入》中我们曾提到，图像生成的本质困难是没有一个连续型概率密度的万能拟合器。当然，也不能说完全没有，比如高斯混合模型（GMM）理论上就是可以拟合任意概率密度，就连GAN本质上也可以理解为混合了无限个高斯模型的GMM。然而，GMM尽管理论上的能力是足够的，但它的最大似然估计会很困难，尤其是通常不适用基于梯度的优化器，这限制了它的使用场景。

近日，Google的一篇新论文《Fourier Basis Density Model》针对一维情形，提出了一个新的解决方案——用傅里叶级数来拟合。论文的分析过程颇为有趣，构造形式也很是巧妙，值得学习一番。

问题简述

可能有读者质疑：只研究一维情形有什么价值？确实，如果只考虑图像生成场景，那可能真的价值有限，但一维概率密度估计本身有它的应用价值，如数据的有损压缩，所以它依然是一个值得研究的主题。再者，即便我们需要研究多维的概率密度，也可以通过自回归的方式转化为多个一维的条件概率密度来估计。最后，这个分析和构造过程本身就很值得回味，所以哪怕是仅仅作为一道数学分析题来练习也是相当有益的。

点击阅读全文...

分类：数学研究标签：级数, 概率, 分析, 逼近阅读全文 13 评论

27 Jun

在前三篇文章中，我们较为详细地讨论了HiPPO和S4的大部分数学细节。那么，对于接下来的第四篇文章，大家预期我们会讨论什么工作呢？S5、Mamba乃至Mamba2？都不是。本系列文章主要关心SSM的数学基础，旨在了解SSM的同时也补充自己的数学能力。而在上一篇文章我们简单提过S5和Mamba，S5是S4的简化版，相比S4基本上没有引入新的数学技巧，而Mamba系列虽然表现优异，但它已经将$A$简化为对角矩阵，所用到的数学技巧就更少了，它更多的是体现了工程方面的能力。

这篇文章我们来学习一篇暂时还声名不显的新工作《State-Free Inference of State-Space Models: The Transfer Function Approach》（简称RFT），它提出了一个新方案，将SSM的训练、推理乃至参数化，都彻底转到了生成函数空间中，为SSM的理解和应用开辟了新的视角

基础回顾

首先我们简单回顾一下上一篇文章关于S4的探讨结果。S4基于如下线性RNN
\begin{equation}\begin{aligned}
x_{k+1} =&\, \bar{A} x_k + \bar{B} u_k \\
y_{k+1} =&\, \bar{C}^* x_{k+1} \\
\end{aligned}\label{eq:linear}\end{equation}

点击阅读全文...

分类：数学研究标签：生成函数, 线性, RNN, ssm 阅读全文 3 评论

20 Mar

【福岛核电站】“最坏情况”有多坏？

By 苏剑林 | 2011-03-20 | 24779位读者 | 引用

Fukushima

福岛核电站已经好久没给我们带来好消息了，各种稀奇古怪的故障一个接着一个，越来越多的人也在考虑“最坏情况”的可能了，这次的碘盐恐慌似乎就是被所谓的“最坏情况”吓出来的。那么最坏到底能有多坏呢？

完整的评估太过复杂，咱就从比较简单的，也是目前我们很多人最关心的问题说起：放射性物质的泄露对海水最大到底能有多大的影响。这里我们主要拿这个风头正紧的碘 131 来开刀。

点击阅读全文...

分类：千奇百怪标签：转载, 松鼠会, 核能, 放射性阅读全文 2 评论

9 Feb

函数图像旋转公式（“想当然”的教训）

By 苏剑林 | 2010-02-09 | 100132位读者 | 引用

阅读小提示：亲爱的读者，你可以选择不读这篇文章，但如果你选择了阅读，请一定要阅读完。BoJone对“半途而废”所造成的后果一概不负责任^_^。

函数图像旋转

我们来考虑下一个旋转问题：将某一函数图像y=f(x)，绕点(p,q)逆时针旋转了θ角之后，得到的图象的解析式。

点击阅读全文...

分类：数学研究标签：公式, 感悟, 函数, 旋转阅读全文 29 评论

8 Aug

三次方程的三角函数解法

By 苏剑林 | 2010-08-08 | 84315位读者 | 引用

对于解方程，代数学家希望能够从理论上证明解的存在性以及解的求法，所以就有了1到4次方程的求根公式、5次及以上的代数方程没有根式可解等重要理论；然而，通常的学者（如物理学家、天文学家）都不需要这些内容，他们只关心如何尽可能快地求出指定方程的根（尤其是实数根），所以他们通常关注的是方程的数值算法，当然，如果能有一个相对简单的求根公式，也是他们所希望的。而接下来所要介绍的内容，则是满足了这一需要的三次方程的求根公式，其中用到的相当一部分的理论，是与三角函数相关的。

储备

\begin{equation}\frac{2}{\tan 2A}=\frac{1}{\tan A}-\tan A\end{equation}
\begin{equation}\frac{2}{\sin 2A}=\frac{1}{\tan A}+\tan A\end{equation}
\begin{equation}\cos(3A)=4\cos^3 A-3\cos A\end{equation}

点击阅读全文...

分类：数学研究标签：方程, 求根, 三角函数阅读全文 16 评论

8 Jul

一道比较函数大小的题目

By 苏剑林 | 2011-07-08 | 21144位读者 | 引用

前几天刚结束的云浮高二期末考数学试卷中，有一道题目让我比较深刻。因为在当时我无法去证明它，只是用了举例子的方法得出了答案。刚才思考了一下，在此给出证明过程。题目如下：

定义在(0,+∞)的函数f(x)满足$x f'(x) \leq f(x)$，对于任意的0 < a < b，比较$a f(b)$和$b f(a)$的大小。

点击阅读全文...

分类：问题百科标签：函数, 单调性阅读全文 1 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

文本情感分类（四）：更好的损失函数

要平均，不一定要拔尖

用狄拉克函数来构造非光滑函数的光滑近似

用傅里叶级数拟合一维概率密度函数

问题简述

重温SSM（四）：有理生成函数的新视角

基础回顾

【福岛核电站】“最坏情况”有多坏？

函数图像旋转公式（“想当然”的教训）

三次方程的三角函数解法

储备

一道比较函数大小的题目

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接