包含关键字最大值函数的文章 - 科学空间|Scientific Spaces

24 Nov

力的无穷分解与格林函数法

By 苏剑林 | 2014-11-24 | 35935位读者 | 引用

我小时候一直有个疑问：

直升机上的螺旋桨能不能用来挡雨？

一般的螺旋桨是若干个“条状”物通过旋转对称而形成的，也就是说，它并非一个面，按常理来说，它是没办法用来挡雨的。但是，如果在高速旋转的情况下，甚至假设旋转速度可以任意大，那么我们任意时刻都没有办法穿过它了，这种情况下，它似乎与一个实在的面无异？

力的无穷分解

力的离散化

当然，以上只是笔者小时候的一个“异想天开”的念头，读者不必较真。不过，这个疑问跟本文有什么联系呢？我们在研究振动问题之时，通常会遇到在变力的作用下的受迫振动问题，已知变力是时间的函数，比如$f(t)$，然而，虽然知道$f(t)$的具体形式，但是由于$f$的非线性性，加上外力之后的运动，不一定容易求解。然而，如果可以将一个变化的力分段为无数个无穷小时间内的恒力（冲力），那么我们就可以分段讨论我们要研究的运动，而通常来说，恒力的问题会比变力容易。将一个变力离散化，然后再取极限，那么是不是跟原来在变力下的运动是一样的呢？这跟文章开头的疑问有着类似的思想——离线的极限，跟连续本身，是不是等价的？

而让人惊喜的是，在通常的物理系统中，将力分段为无数个小区间内的恒力的做法，能够导致正确的答案，而且，这恰好是线性常微分方程的格林函数法。下面我们来分析这一做法。

点击阅读全文...

分类：数学研究,物理化学标签：力学, 微分方程, 费曼阅读全文 5 评论

8 Dec

伽马函数的傅里叶变换之路

By 苏剑林 | 2014-12-08 | 67650位读者 | 引用

伽马函数
$$\Gamma(x)=\int_0^{+\infty}t^{x-1}e^{-t}dt$$
作为阶乘的推广，会让很多初学者感到困惑，对于笔者来说也不例外。一个最自然的问题就是：这般复杂的推广公式是如何得到的？

在cos.name的文章《神奇的伽马函数》中，有比较详细地对伽马函数的历史介绍，笔者细读之后也获益匪浅。但美中不足的是，笔者还是没能从中找到引出伽马函数的一种“自然”的办法。所谓“自然”，并不是说最简单的，而是根据一些基本的性质和定义，直接把伽马函数的表达式反解出来。它的过程和运算也许并不简单，但是思想应当是直接而简洁的。当然，我们不能苛求历史上伽马函数以这种方式诞生，但是作为事后探索是有益的，有助于我们了解伽马函数的特性。于是笔者尝试了以下途径，得到了一些结果，可是也得到了一些困惑。

点击阅读全文...

分类：数学研究,问题百科标签：复数, fourier, 函数方程阅读全文 16 评论

16 Apr

采样定理：有限个点构建出整个函数

By 苏剑林 | 2015-04-16 | 30667位读者 | 引用

假设我们在听一首歌，那么听完这首歌之后，我们实际上在做这样的一个过程：耳朵接受了一段时间内的声波刺激，从而引起了大脑活动的变化。而这首歌，也就是这段时间内的声波，可以用时间$t$的函数$f(t)$描述，这个函数的区间是有限的，比如$t\in[0,T]$。接着假设另外一个场景——我们要用电脑录下我们唱的歌。这又是怎样一个过程呢？要注意电脑的信号是离散化的，而声波是连续的，因此，电脑要把歌曲记录下来，只能对信号进行采样记录。原则上来说，采集的点越多，就能够越逼真地还原我们的歌声。可是有一个问题，采集多少点才足够呢？在信息论中，一个著名的“采样定理”（又称香农采样定理，奈奎斯特采样定理）告诉我们：只需要采集有限个样本点，就能够完整地还原我们的输入信号来！

采集有限个点就能够还原一个连续的函数？这是怎么做到的？下面我们来解释这个定理。

任意给定一个函数，一般来说我们都可以将它做傅里叶变换：
$$F(\omega)=\int_{-\infty}^{+\infty} f(t)e^{i\omega t}dt\tag{1}$$
虽然我们的积分限写了正负无穷，但是由于$f(t)$是有限区间内的函数，所以上述积分区间实际上是有限的。

点击阅读全文...

分类：数学研究标签：积分, fourier, 采样阅读全文 3 评论

9 Apr

一个非线性差分方程的隐函数解

By 苏剑林 | 2016-04-09 | 41568位读者 | 引用

问题来源

笔者经常学习的数学研发论坛曾有一帖讨论下述非线性差分方程的渐近求解：
$$a_{n+1}=a_n+\frac{1}{a_n^2},\, a_1=1$$
原帖子在这里，从这帖子中我获益良多，学习到了很多新技巧。主要思路是通过将两边立方，然后设$x_n=a_n^3$，变为等价的递推问题：
$$x_{n+1}=x_n+3+\frac{3}{x_n}+\frac{1}{x_n^2},\,x_1=1$$
然后可以通过巧妙的技巧得到渐近展开式：
$$x_n = 3n+\ln n+a+\frac{\frac{1}{3}(\ln n+a)-\frac{5}{18}}{n}+\dots$$
具体过程就不提了，读者可以自行到上述帖子学习。

然而，这种形式的解虽然精妙，但存在一些笔者不是很满意的地方：

1、解是渐近的级数，这就意味着实际上收敛半径为0；
2、是$n^{-k}$形式的解，对于较小的$n$难以计算，这都使得高精度计算变得比较困难；
3、当然，题目本来的目的是渐近计算，但是渐近分析似乎又没有必要展开那么多项；
4、里边带有了一个本来就比较难计算的极限值$a$；
5、求解过程似乎稍欠直观。

当然，上面这些缺点，有些是鸡蛋里挑骨头的。不过，也正是这些缺点，促使我寻找更好的形式的解，最终导致了这篇文章。

点击阅读全文...

分类：数学研究标签：非线性, 差分方程, 渐近阅读全文 7 评论

11 Jan

狄拉克函数：级数逼近

By 苏剑林 | 2017-01-11 | 45661位读者 | 引用

魏尔斯特拉斯定理

将狄拉克函数理解为函数的极限，可以衍生出很丰富的内容，而且这些内容离严格的证明并不遥远。比如，定义
$$\delta_n(x)=\left\{\begin{aligned}&\frac{(1-x^2)^n}{I_n},x\in[-1,1]\\
&0,\text{其它情形}\end{aligned}\right.$$
其中$I_n = \int_{-1}^1 (1-x^2)^n dx$，于是不难证明
$$\delta(x)=\lim_{n\to\infty}\delta_n(x)$$
这样，对于$[a,b]$上的连续函数$f(x)$，我们就得到
$$f(x)=\int_{-1}^1 f(y)\delta(x-y)dy = \lim_{n\to\infty}\int_{-1}^1 f(y)\delta_n(x-y) dy$$
这里$-1 < a < b < 1$，并且我们已经“不严谨”地交换了积分号和极限号，但这不是特别重要。重要的是它的结果：可以看到
$$P_n(x)=\int_{-1}^1 f(y)\delta_n(x-y) dy$$
是$x$的一个$2n$次多项式，因此上式表明$f(x)$是一个$2n$次的多项式的极限！这就引出了著名的“魏尔斯特拉斯定理”：

闭区间上的连续函数都可以用多项式一致地逼近。

点击阅读全文...

分类：数学研究标签：级数, 逼近阅读全文 4 评论

30 Mar

文本情感分类（四）：更好的损失函数

By 苏剑林 | 2017-03-30 | 122536位读者 | 引用

文本情感分类其实就是一个二分类问题，事实上，对于分类模型，都会存在这样一个毛病：优化目标跟考核指标不一致。通常来说，对于分类（包括多分类），我们都会采用交叉熵作为损失函数，它的来源就是最大似然估计（参考《梯度下降和EM算法：系出同源，一脉相承》）。但是，我们最后的评估目标，并非要看交叉熵有多小，而是看模型的准确率。一般来说，交叉熵很小，准确率也会很高，但这个关系并非必然的。

要平均，不一定要拔尖

一个更通俗的例子是：一个数学老师，在努力提高同学们的平均分，但期末考核的指标却是及格率（60分及格）。假如平均分是100分（也就意味着所有同学都考到了100分），那么自然及格率是100%，这是最理想的。但现实不一定这么美好，平均分越高，只要平均分还没有达到100，那么及格率却不一定越高，比如两个人分别考40和90，那么平均分就是65，及格率只有50%；如果两个人的成绩都是60，平均分就是60，及格率却有100%。这也就是说，平均分可以作为一个目标，但这个目标并不直接跟考核目标挂钩。
那么，为了提升最后的考核目标，这个老师应该怎么做呢？很显然，首先看看所有学生中，哪些同学已经及格了，及格的同学先不管他们，而针对不及格的同学进行补课加强，这样一来，原则上来说有很多不及格的同学都能考上60分了，也有可能一些本来及格的同学考不够60分了，但这个过程可以迭代，最终使得大家都在60分以上，当然，最终的平均分不一定很高，但没办法，谁叫考核目标是及格率呢？

点击阅读全文...

分类：信息时代标签：深度学习, 文本挖掘, 损失函数阅读全文 29 评论

26 Oct

浅谈神经网络中激活函数的设计

By 苏剑林 | 2017-10-26 | 46566位读者 | 引用

激活函数是神经网络中非线性的来源，因为如果去掉这些函数，那么整个网络就只剩下线性运算，线性运算的复合还是线性运算的，最终的效果只相当于单层的线性模型。

那么，常见的激活函数有哪些呢？或者说，激活函数的选择有哪些指导原则呢？是不是任意的非线性函数都可以做激活函数呢？

这里探究的激活函数是中间层的激活函数，而不是输出的激活函数。最后的输出一般会有特定的激活函数，不能随意改变，比如二分类一般用sigmoid函数激活，多分类一般用softmax激活，等等；相比之下，中间层的激活函数选择余地更大一些。

浮点误差都行！

理论上来说，只要是非线性函数，都有做激活函数的可能性，一个很有说服力的例子是，最近OpenAI成功地利用了浮点误差来做激活函数，其中的细节，请阅读OpenAI的博客：
https://blog.openai.com/nonlinear-computation-in-linear-networks/

或者阅读机器之心的介绍：
https://mp.weixin.qq.com/s/PBRzS4Ol_Zst35XKrEpxdw

点击阅读全文...

分类：信息时代标签：神经网络阅读全文 5 评论

26 Mar

GELU的两个初等函数近似是怎么来的

By 苏剑林 | 2020-03-26 | 50856位读者 | 引用

GELU，全称为Gaussian Error Linear Unit，也算是RELU的变种，是一个非初等函数形式的激活函数。它由论文《Gaussian Error Linear Units (GELUs)》提出，后来被用到了GPT中，再后来被用在了BERT中，再再后来的不少预训练语言模型也跟着用到了它。随着BERT等预训练语言模型的兴起，GELU也跟着水涨船高，莫名其妙地就成了热门的激活函数了。

gelu函数图像

在GELU的原始论文中，作者不仅提出了GELU的精确形式，还给出了两个初等函数的近似形式，本文来讨论它们是怎么得到的。

点击阅读全文...

分类：数学研究标签：近似, 分析阅读全文 12 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

力的无穷分解与格林函数法

伽马函数的傅里叶变换之路

采样定理：有限个点构建出整个函数

一个非线性差分方程的隐函数解

问题来源

狄拉克函数：级数逼近

魏尔斯特拉斯定理

文本情感分类（四）：更好的损失函数

要平均，不一定要拔尖

浅谈神经网络中激活函数的设计

浮点误差都行！

GELU的两个初等函数近似是怎么来的

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接