昨天在研究一个最优化问题时,遇到了一个这样的积分:
$$\int \frac{1}{\cos^3 \theta} d\theta$$
然后就顺便研究了一下这种类型的函数的积分。一般来讲,这类积分可以写成$\int cos^n \theta d\theta$或$\int sin^n \theta d\theta$,其中n是一个整数。
首先我们来解决n=1的情况,我们很容易就有$\int cos\theta d\theta=sin\theta +C$或$\int sin\theta d\theta=-cos\theta +C$,这是一个基本的结果。
如果n是大于1的正整数,那么可以用递推的方法来搞定:
诡异的Dirac函数
By 苏剑林 | 2013-01-14 | 46468位读者 | 引用量子力学中有一个很诡异的函数——Dirac函数,它似乎在物理的不少领域都有很大作用,它也具有明显的物理意义,但认真地看它却又感觉它根本就不是函数!这个“似而非是”的东西究竟是什么呢?让我们从一个物理问题引入:
设想一条质量为1,长度为$2l$的均匀直线,很显然直线的密度为$\rho=\frac{1}{2l}$;将直线的中点放置于坐标轴的原点,我们就有
$$\rho(x)=\left\{ \begin{array}{c}\frac{1}{2l} (-l \leq x \leq l)\\0 (x < -l , x > l)\end{array}\right.$$
所以有
$$\int_{-\infty}^{+\infty} \rho(x)dx=1$$
最近的我的主要学习是在研究路径积分,在推导路径积分的一种新的变换方法(或者是一个新的视角吧),但是有道坎还是迈不过去,因此blog中也一直更新寥寥。说到积分与微分,这两个本是互逆的东西,但是在复数的统一之下,它们两个去可以相互转化。比如说,薛定谔方程是量子力学的微分形式,而路径积分实际上可以说是量子力学的积分形式,这让我有些想法,是不是任何微分形式的数学都存在一个积分形式的版本呢?如果是,是微分版本优还是积分版本优?
在数学分析中,我们会感觉到求导会比求积分容易很多,求导有现成的公式等等。但是微分有个最大的缺点,它是多分量的,比如,势函数是一个标量,但是微分(求梯度)之后就变成了三分量的矢量(即作用力),多分量事实上是不好处理了,为了处理这类问题,又引入了大量的算符。积分的特点在于它的标量性,也许计算很复杂,但是思想确实容易把握的,我更喜欢积分形式的理论(比如作用量原理、路径积分等。)
说到数学分析中常见而又著名的定积分,不得不提到以下三角函数积分了。
$$\int_0^{\pi/2} \sin^{2n} \theta d\theta$$
不难证明,它也等于
$$\int_0^{\pi/2} \cos^{2n} \theta d\theta$$
生成函数法与整数的分拆
By 苏剑林 | 2014-09-16 | 31596位读者 | 引用我们在高中甚至初中,都有可能遇到这样的题目:
设$x,y,z$是非负整数,问$x+y+z=2014$有多少组不同的解?(不同顺序视为不同的解)
难度稍高点,可以改为
设$x,y,z$是非负整数,$0\leq x\leq y\leq z$,问$x+y+z=2014$有多少组不同的解?
这些问题都属于整数的分拆问题(广为流传的哥德巴赫猜想也是一个整数分拆问题)。有很多不同的思路可以求解这两道题,然而,个人认为这些方法中最引人入胜的(可能也是最有力的)首推“生成函数法”。
关于生成函数,本节就不多作介绍了,如果缺乏相关基础的朋友,请先阅读相关资料了解该方法。不少数论的、离散数学的、计算机科学的书籍中,都介绍了生成函数法(也叫母函数法)。本质上讲,母函数法能有诸多应用,是因为$x^a\times x^b=x^{a+b}$这一性质的成立。
寻求一个光滑的最大值函数
By 苏剑林 | 2015-05-02 | 134029位读者 | 引用在最优化问题中,求一个函数的最大值或最小值,最直接的方法是求导,然后比较各阶极值的大小。然而,我们所要优化的函数往往不一定可导,比如函数中含有最大值函数$\max(x,y)$的。这时候就得求助于其他思路了。有一个很巧妙的思路是,将这些不可导函数用一个可导的函数来近似它,从而我们用求极值的方法来求出它近似的最优值。本文的任务,就是探究一个简单而有用的函数,它能够作为最大值函数的近似,并且具有多阶导数。下面是笔者给出的一个推导过程。
在数学分析中,笔者已经学习过一个关于最大值函数的公式,即当$x \geq 0, y \geq 0$时,我们有
$$\max(x,y)=\frac{1}{2}\left(|x+y|+|x-y|\right)\tag{1}$$
那么,为了寻求一个最大值的函数,我们首先可以考虑寻找一个能够近似表示绝对值$|x|$的函数,这样我们就把问题从二维降低到一维了。那么,哪个函数可以使用呢?
一个非线性差分方程的隐函数解
By 苏剑林 | 2016-04-09 | 42504位读者 | 引用问题来源
笔者经常学习的数学研发论坛曾有一帖讨论下述非线性差分方程的渐近求解:
$$a_{n+1}=a_n+\frac{1}{a_n^2},\, a_1=1$$
原帖子在这里,从这帖子中我获益良多,学习到了很多新技巧。主要思路是通过将两边立方,然后设$x_n=a_n^3$,变为等价的递推问题:
$$x_{n+1}=x_n+3+\frac{3}{x_n}+\frac{1}{x_n^2},\,x_1=1$$
然后可以通过巧妙的技巧得到渐近展开式:
$$x_n = 3n+\ln n+a+\frac{\frac{1}{3}(\ln n+a)-\frac{5}{18}}{n}+\dots$$
具体过程就不提了,读者可以自行到上述帖子学习。
然而,这种形式的解虽然精妙,但存在一些笔者不是很满意的地方:
1、解是渐近的级数,这就意味着实际上收敛半径为0;
2、是$n^{-k}$形式的解,对于较小的$n$难以计算,这都使得高精度计算变得比较困难;
3、当然,题目本来的目的是渐近计算,但是渐近分析似乎又没有必要展开那么多项;
4、里边带有了一个本来就比较难计算的极限值$a$;
5、求解过程似乎稍欠直观。
当然,上面这些缺点,有些是鸡蛋里挑骨头的。不过,也正是这些缺点,促使我寻找更好的形式的解,最终导致了这篇文章。
文本情感分类(四):更好的损失函数
By 苏剑林 | 2017-03-30 | 124308位读者 | 引用文本情感分类其实就是一个二分类问题,事实上,对于分类模型,都会存在这样一个毛病:优化目标跟考核指标不一致。通常来说,对于分类(包括多分类),我们都会采用交叉熵作为损失函数,它的来源就是最大似然估计(参考《梯度下降和EM算法:系出同源,一脉相承》)。但是,我们最后的评估目标,并非要看交叉熵有多小,而是看模型的准确率。一般来说,交叉熵很小,准确率也会很高,但这个关系并非必然的。
要平均,不一定要拔尖
一个更通俗的例子是:一个数学老师,在努力提高同学们的平均分,但期末考核的指标却是及格率(60分及格)。假如平均分是100分(也就意味着所有同学都考到了100分),那么自然及格率是100%,这是最理想的。但现实不一定这么美好,平均分越高,只要平均分还没有达到100,那么及格率却不一定越高,比如两个人分别考40和90,那么平均分就是65,及格率只有50%;如果两个人的成绩都是60,平均分就是60,及格率却有100%。这也就是说,平均分可以作为一个目标,但这个目标并不直接跟考核目标挂钩。
那么,为了提升最后的考核目标,这个老师应该怎么做呢?很显然,首先看看所有学生中,哪些同学已经及格了,及格的同学先不管他们,而针对不及格的同学进行补课加强,这样一来,原则上来说有很多不及格的同学都能考上60分了,也有可能一些本来及格的同学考不够60分了,但这个过程可以迭代,最终使得大家都在60分以上,当然,最终的平均分不一定很高,但没办法,谁叫考核目标是及格率呢?
CoSENT(三):作为交互式相似度的损失函数
By 苏剑林 | 2022-11-09 | 32602位读者 | 引用在《CoSENT(一):比Sentence-BERT更有效的句向量方案》中,笔者提出了名为“CoSENT”的有监督句向量方案,由于它是直接训练cos相似度的,跟评测目标更相关,因此通常能有着比Sentence-BERT更好的效果以及更快的收敛速度。在《CoSENT(二):特征式匹配与交互式匹配有多大差距?》中我们还比较过它跟交互式相似度模型的差异,显示它在某些任务上的效果还能直逼交互式相似度模型。
然而,当时笔者是一心想找一个更接近评测目标的Sentence-BERT替代品,所以结果都是面向有监督句向量的,即特征式相似度模型。最近笔者突然反应过来,CoSENT其实也能作为交互式相似度模型的损失函数。那么它跟标准选择交叉熵相比孰优孰劣呢?本文来补充这部分实验。
最近评论