通向最优分布之路:概率空间的最小化
By 苏剑林 | 2024-08-06 | 19180位读者 | 引用当要求函数的最小值时,我们通常会先求导函数然后寻找其零点,比较幸运的情况下,这些零点之一正好是原函数的最小值点。如果是向量函数,则将导数改为梯度并求其零点。当梯度零点不易求得时,我们可以使用梯度下降来逐渐逼近最小值点。
以上这些都是无约束优化的基础结果,相信不少读者都有所了解。然而,本文的主题是概率空间中的优化,即目标函数的输入是一个概率分布,这类目标的优化更为复杂,因为它的搜索空间不再是无约束的,如果我们依旧去求解梯度零点或者执行梯度下降,所得结果未必能保证是一个概率分布。因此,我们需要寻找一种新的分析和计算方法,以确保优化结果能够符合概率分布的特性。
对此,笔者一直以来也感到颇为头疼,所以近来决定”痛定思痛“,针对概率分布的优化问题系统学习了一番,最后将学习所得整理在此,供大家参考。
两道无穷级数:自然数及其平方的倒数和
By 苏剑林 | 2009-08-05 | 62227位读者 | 引用以自然数幂为系数的幂级数
By 苏剑林 | 2010-10-16 | 31788位读者 | 引用$\sum_{i=0}^{\infty} a_i x^i=a_0+a_1 x+a_2 x^2+a_3 x^3+...$
最近为了数学竞赛,我研究了有关数列和排列组合的相关问题。由于我讨厌为某个问题而设计专门的技巧,所以我偏爱通用的方法,哪怕过程相对麻烦。因此,我对数学归纳法(递推法)和生成函数法情有独钟。前者只需要列出问题的递归关系,而不用具体分析,最终把问题转移到解函数方程上来。后者则巧妙地把数列${a_n}$与幂级数$\sum_{i=0}^{\infty} a_i x^i$一一对应,巧妙地通过代数运算或微积分运算等得到结果。这里我们不用考虑该级数的敛散性,只需要知道它对应着哪一个“母函数”(母函数展开泰勒级数后得到了级数$\sum_{i=0}^{\infty} a_i x^i$)。显然,这两种方法的最终,都是把问题归结为代数问题。
寒假结束,今天上学了
By 苏剑林 | 2010-02-21 | 29164位读者 | 引用越来越佩服前人,说出了“光阴似箭,日月如梭”的真理。是呀,期末考试仿佛只是在昨天,今天已经又要上学了;俯仰之间,一个月的时间就过去了。
毫无疑问,又因为我的懒惰和不坚持,浪费了我很多的时间。回想一下寒假,我究竟收获了什么呢?主要是两个方面吧:学术和情感。
学术上,主要是数学和天文学里面的内容。数学我主要是深入了微积分方面的内容,把微积分的思想深刻了一点点,把微分方程(组)熟悉了一点点。我有一种很熟悉的感觉:现在自学高等数学,就好比我之前在小学时间学习中学数学。那时候超傻,书本上说了$\lim_{\Delta x->0} f'(x)=\frac{f(x+\Delta x)-f(x)}{\Delta x}$,我看不懂这个式子,整天郁闷$f(x)$是不是指$f\cdot (x)$。不过尽管那时候不懂这些,还是懂应用,我用导数最基本的定义去求极值,得出了一些有趣的发现,使我的兴趣倍增。现在学习微积分也是这样的感觉,我觉得我仅仅是很显浅地接触到,还有很多等待仔细琢磨....
科学空间:2011年6月重要天象
By 苏剑林 | 2011-05-28 | 27022位读者 | 引用引力透镜——用经典力学推导光的偏转公式
By 苏剑林 | 2012-04-30 | 63756位读者 | 引用引力透镜
————用经典力学推导光的引力偏转角公式
在2012年第四期的《天文爱好者》上,Richard de Grijs(何锐思)教授的《引力透镜——再领科学潮》一文详细而精彩地讲述了有关引力透镜方面的知识,尤其是它在天文方面的重要应用,让我收获颇丰。笔者在赞叹作者优美的文笔和译者程思浩同好的生动翻译之余,也感到了一丝不足。文章主要讲了引力透镜在天文研究中所扮演的重要角色,却未对引力透镜的原理、本质方面多加描述。时空的扭曲是广义相对论给出的答案,可是难道仅仅从经典力学就不能领略丝毫?藉此,BoJone这在里对引力透镜多说些东西,与大家相互学习研究。当然,由于我只是一个初出茅庐的业余爱好者,其中的不当之处还望各位斧正。
变分法的一个技巧及其“误用”
By 苏剑林 | 2013-07-30 | 37864位读者 | 引用不可否认,变分法是非常有用而绝妙的一个数学工具,它“自动地”为我们在众多函数中选出了最优的一个,而免除了具体的分析过程。物理中的最小作用量原理则让变分法有了巨大的用武之地,并反过来也推动了变分法的发展。但是变分法的一个很明显的特点就是在大多数情况下计算相当复杂,甚至如果“蛮干”的话我们几乎连微分方程组都列不出来。因此,一些有用的技巧是很受欢迎的。本文就打算介绍这样的一个小技巧,来让某些变分问题得到一定的化简。
我是怎么得到这个技巧的呢?事实上,那是几个月前我在阅读《引力与时空》时,读到变分原理那一块时我怎么也读不懂,想不明白。明明我觉得是错误的东西,为什么可以得到正确的结果?我的数学直觉告诉我绝对是作者的错,可是我又想不出作者哪里错了,所以就一直把这个问题搁置着。最近我终于得到了自己比较满意的答案,并且窃认为是本文所要讲的这个技巧却被物理学家“误用”了。
技巧
首先来看通常我们是怎么处理变分问题的,以一元函数为例,对于求
$$S=\int L(x,\dot{x},t)dt$$
本文我们来探讨下列积分的极值曲线:
$$S=\int f(x,y)\sqrt{dx^2+dy^2}=\int f(x,y)ds$$
这本质上也是一个短程线问题。但是它形式比较简答,物理含义也更加明显。比如,如果$f(x,y)$是势函数的话,那么这就是一个求势能最小的二维问题;如果$f(x,y)$是摩擦力函数,那么这就是寻找摩擦力最小的路径问题。不管是哪一种,该问题都有相当的实用价值。下面将其变分:
$$\begin{aligned} \delta S =&\int \delta[f(x,y)\sqrt{dx^2+dy^2}] \\ =&\int [ds\delta f(x,y)+f(x,y)\frac{\delta (dx^2+dy^2)}{2ds}]\\ =&\int ds(\frac{\partial f}{\partial x}\delta x+\frac{\partial}{\partial y}\delta y)+f \frac{dx d(\delta x)+dy d(\delta y)}{ds} \\=&\int ds(\frac{\partial f}{\partial x}\delta x+\frac{\partial}{\partial y}\delta y)+f \frac{dx}{ds} d(\delta x)+\frac{dy}{ds} d(\delta y) \end{aligned}$$
最近评论