15 Feb

积分估计的极值原理——变分原理的初级版本

By 苏剑林 | 2016-02-15 | 46364位读者 |

如果一直关注科学空间的朋友会发现，笔者一直对极值原理有偏爱。比如，之前曾经写过一系列《自然极值》的文章，介绍一些极值问题和变分法；在物理学中，笔者偏爱最小作用量原理的形式；在数据挖掘中，笔者也因此对基于最大熵原理的最大熵模型有浓厚的兴趣；最近，在做《量子力学与路径积分》的习题中，笔者也对第十一章所说的变分原理产生了很大的兴趣。

对于一样新东西，笔者的学习方法是以一个尽可能简单的例子搞清楚它的原理和思想，然后再逐步复杂化，这样子我就不至于迷失了。对于变分原理，它是估算路径积分的一个很强大的方法，路径积分是泛函积分，或者说，无穷维积分，那么很自然想到，对于有限维的积分估计，比如最简单的一维积分，有没有类似的估算原理呢？事实上是有的，它并不复杂，弄懂它有助于了解变分原理的核心思想。很遗憾，我并没有找到已有的资料描述这个简化版的原理，可能跟我找的资料比较少有关。

从高斯型积分出发 #

变分原理本质上是Jensen不等式的应用。我们从下述积分出发
$$\begin{equation}\label{jifen}I(\epsilon)=\int_{-\infty}^{\infty}e^{-x^2-\epsilon x^4}dx\end{equation}$$
我们之前已经从微扰展开的角度研究过这个积分。这个积分通常被视为复杂的路径积分的一维版本，通常来说可以通过研究它来获得一些研究路径积分的有效思路。为了估算上述积分，我们会有一个很自然的想法，就是上述积分能不能用一个简单的高斯积分来表示呢？
$$\begin{equation}\label{jinsi}\int_{-\infty}^{\infty}e^{-px^2}dx=\sqrt{\frac{\pi}{p}}\end{equation}$$
问题的关键是如何选取$p$使得$\eqref{jinsi}$尽可能接近$\eqref{jifen}$。我们将$\eqref{jifen}$改写为
$$\begin{equation}\label{bianhuan}I(\epsilon)=\sqrt{\frac{\pi}{p}}\int_{-\infty}^{\infty}e^{(p-1)x^2-\epsilon x^4}\left(\sqrt{\frac{p}{\pi}}e^{-px^2}\right)dx\end{equation}$$
怎么看待$\eqref{bianhuan}$呢？我已经刻意写成了特定的形式——用统计的角度看，它就是$e^{(p-1)x^2+q-\epsilon x^4}$在权重$\sqrt{\frac{p}{\pi}}e^{-px^2}$下的平均，因此，我们不妨将它写成
$$\begin{equation}\label{pingjun}I(\epsilon)=\sqrt{\frac{\pi}{p}}\left\langle e^{(p-1)x^2-\epsilon x^4}\right\rangle\end{equation}$$
再次提醒，这个积分是在权重$\sqrt{\frac{p}{\pi}}e^{-px^2}$下的平均。到这里我们所做的只不过是形式的变换，并没有实质的进展，要算的积分我们还没算出来。

现在我们回想一下Jensen不等式，它说，如果$f(x)$是凸函数（关于凹凸性，可能不同的书的定义会有所不同，这里的凸函数，是指函数的二阶导数非负），那么
$$\begin{equation}\label{jensen}f(\langle x \rangle)\leq \langle f(x) \rangle\end{equation}$$
可能读者平时看到的Jensen不等式并不是这样子的，但是请读者仔细回味，Jensen不等式是不是就表达了这个意思？Jensen不等式有一个明显的物理意义，它说：如果若干个点位于一个凸函数的图像上面，那么这些点的质心位于凸函数的上方。

利用Jensen不等式，我们可以对$\eqref{pingjun}$对进一步的简化，因为很明显$e^x$是凸函数，因此
$$\begin{equation}\label{pingjun-jensen}I(\epsilon)=\sqrt{\frac{\pi}{p}}\left\langle e^{(p-1)x^2-\epsilon x^4}\right\rangle \geq \sqrt{\frac{\pi}{p}}e^{\left\langle (p-1)x^2-\epsilon x^4\right\rangle}\end{equation}$$
其中$\left\langle (p-1)x^2-\epsilon x^4\right\rangle$我们可以算出来
$$\left\langle (p-1)x^2-\epsilon x^4\right\rangle=\int_{-\infty}^{\infty}\left[(p-1)x^2-\epsilon x^4\right]\left(\sqrt{\frac{p}{\pi}}e^{-px^2}\right)dx=\frac{2 (p-1) p-3 \epsilon}{4 p^2}$$
于是
$$\begin{equation}\label{pingjun-guji}I(\epsilon)\geq\sqrt{\frac{\pi}{p}}\exp\left[\frac{2 (p-1) p-3 \epsilon}{4 p^2}\right]\end{equation}$$
不管$p$怎么取，最右边都会小于$I(\epsilon)$，那么很自然，为了最接近$I(\epsilon)$，要选取$p$使得不等号右边取最大值！这就是极值原理的来源了。求导算得，右边取最大值时，有
$$p=\frac{1}{2} \left(\sqrt{12 \epsilon+1}+1\right)$$
代进$\eqref{pingjun-guji}$得到
$$\begin{equation}\label{pingjun-guji2}I(\epsilon)\geq \sqrt{\frac{2 \pi }{\sqrt{12 \epsilon+1}+1}}\exp\left[\frac{3 \epsilon}{\left(\sqrt{12 \epsilon+1}+1\right)^2}\right]=\hat{I}(\epsilon)\end{equation}$$
下面是一些结果
$$\begin{array}{c|cccc}
\hline
& \epsilon=0 & \epsilon=1 & \epsilon=10 & \epsilon=100 \\
\hline
I(\epsilon) & 1.77245 & 1.36843 & 0.921961 & 0.554577 \\
\hat{I}(\epsilon) & 1.77245 & 1.34547 & 0.891204 & 0.531509 \\
\hline \end{array}$$
对比http://kexue.fm/archives/3280/中的结果，可以发现$\hat{I}(\epsilon)$是一个相当不错的估计，而且可以看到确实有$\hat{I}(\epsilon)\leq I(\epsilon)$。

我的总结 #

从上面的过程我们可以看到极值原理的一些威力：它给出了积分的一个良好估计，这个估计是稳定的，不管参数$\epsilon$大小，都可以得到一个合理的估计。其次，它不仅仅给出了积分的估计，而且估计的结果是积分的下界，这是很难得的。通常来说，我们可以通过各种各样的方法，得到一个式子的有效估计，但是往往很难判断估计值与精确值的大小关系（除非很大程度上牺牲精确度），而通过极值原理则一起做到了这两点——既保留了较高精确度，又实现了界的估计。

本文所涉及到的极值原理，源于Jensen不等式，而核心地方在于$e^x$是凸函数，而且$e^{\left\langle h(x)\right\rangle}$往往比$\left\langle e^{h(x)}\right\rangle$更好算。因此，推广的方向是很明显的，换成其他的权重，或者把$e^x$换成一般的凸函数，只要$f(\left\langle h(x)\right\rangle)$比$\left\langle f(h(x))\right\rangle$更好算即可。

当然，极值原理的缺点也非常明显。首先，要找到好的并且可积的近似函数并不容易；其次，即便能积分出来，接下来求极值的过程也不一定简单，因为这涉及到了解非线性方程组，而一旦使用近似，往往又退化为微扰展开的结果，失去了变分法独有的优点。最后，极值原理的估计还有一个不那么明显的缺点，就是很难进一步提高精确度。

转载到请包括本文地址：https://spaces.ac.cn/archives/3630

更详细的转载事宜请参考：《科学空间FAQ》

如果您还有什么疑惑或建议，欢迎在下方评论区继续讨论。

如果您觉得本文还不错，欢迎分享/打赏本文。打赏并非要从中获得收益，而是希望知道科学空间获得了多少读者的真心关注。当然，如果你无视它，也不会影响你的阅读。再次表示欢迎和感谢！

如果您需要引用本文，请参考：

苏剑林. (Feb. 15, 2016). 《积分估计的极值原理——变分原理的初级版本》[Blog post]. Retrieved from https://spaces.ac.cn/archives/3630

@online{kexuefm-3630,
        title={积分估计的极值原理——变分原理的初级版本},
        author={苏剑林},
        year={2016},
        month={Feb},
        url={\url{https://spaces.ac.cn/archives/3630}},
}

分类：数学研究标签：不等式, 积分, 极值 2 评论

< 年三十折腾极路由之SSH反向代理 | 熵的形象来源与熵的妙用 >

你也许还对下面的内容感兴趣

发表你的看法

Joyful Physics

February 17th, 2016

没看到变分？怎么和变分联系？

回复评论

苏剑林发表于 February 18th, 2016

这里揭示了一个极值原理，通过求导（微分）可以得到极值点。这是变分原理的初等版本。所谓变分原理，是用类似本文的思路研究路径积分问题，得到路径积分相关的一个极值原理，而那时要求极值的是一个泛函，泛函求极值的方法就是变分。

回复评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

积分估计的极值原理——变分原理的初级版本

从高斯型积分出发 #

我的总结 #

你也许还对下面的内容感兴趣

内容速览

智能搜索

热门标签

随机文章

最近评论

友情链接