19 Jun

简述无偏估计和有偏估计

By 苏剑林 | 2019-06-19 | 103325位读者 |

对于大多数读者（包括笔者）来说，他们接触到的第一个有偏估计量，应该是方差
\begin{equation}\hat{\sigma}^2_{\text{有偏}} = \frac{1}{n}\sum_{i=1}^n \left(x_i - \hat{\mu}\right)^2,\quad \hat{\mu} = \frac{1}{n}\sum_{i=1}^n x_i\label{eq:youpianfangcha}\end{equation}
然后又了解到对应的无偏估计应该是
\begin{equation}\hat{\sigma}^2_{\text{无偏}} = \frac{1}{n-1}\sum_{i=1}^n \left(x_i - \hat{\mu}\right)^2\label{eq:wupianfangcha}\end{equation}
在很多人的眼里，公式$\eqref{eq:youpianfangcha}$才是合理的，怎么就有偏了？公式$\eqref{eq:wupianfangcha}$将$n$换成反直觉的$n-1$，反而就无偏了？

下面试图用尽量清晰的语言讨论一下无偏估计和有偏估计两个概念。

假如，我们可以采样无穷无尽的样本，那么理论上下面的估计就是精确的：
\begin{equation}\begin{aligned}\sigma^2 =&\, \mathbb{E}\left[(x - \mu)^2\right]=\lim_{n\to\infty}\frac{1}{n}\sum_{i=1}^n \left(x_i - \hat{\mu}\right)^2\\
\mu =&\, \mathbb{E}[x]=\lim_{n\to\infty}\frac{1}{n}\sum_{i=1}^n x_i\end{aligned}\end{equation}
这也可以理解为，当样本数趋于无穷时，有偏估计和无偏估计等价。

问题是，我们实际计算中，只能采样一批样本来计算，也就是说$n$是一个固定的数字，比如我们随机梯度下降时，用一个batch的样本的平均梯度，来作为整体样本的梯度估计。另一方面，我们也不是估计一次就完事了，我们可能会估计很多次，即首先采样$n$个样本，算一次得到$\hat{\mu}_{1}$和$\hat{\sigma}^2_{\text{有偏},1}$，再随机采样$n$个样本算一次得到$\hat{\mu}_{2}$和$\hat{\sigma}^2_{\text{有偏},2}$，依此类推得到$\left(\hat{\mu}_{3},\hat{\sigma}^2_{\text{有偏},3}\right),\left(\hat{\mu}_{4},\hat{\sigma}^2_{\text{有偏},4}\right),\dots$，我们想知道的是：
\begin{equation}\begin{aligned}\mu &\xlongequal{?}\mathbb{E}\left[\hat{\mu}\right] = \lim_{N\to\infty}\frac{1}{N}\sum_{i=1}^N \hat{\mu}_{i}\\
\sigma^2 &\xlongequal{?}\mathbb{E}\left[\hat{\sigma}^2_{\text{有偏}}\right]=\lim_{N\to\infty}\frac{1}{N}\sum_{i=1}^N \hat{\sigma}^2_{\text{有偏},i}
\end{aligned}\end{equation}
也就是说，“有限平均”的“无限平均”，是否等于我们最终要求的平均？

前面已经说了，本文着重讨论和理解而不是推导，所以不打算完成一般的证明。在这里，我们只用一个最简单的例子：假设$n=2$，即用$\eqref{eq:youpianfangcha}$或$\eqref{eq:wupianfangcha}$进行估计时，每次只采样两个样本。这时候，我们要回答的问题是：
\begin{equation}\begin{aligned}\mu &\xlongequal{?}\mathbb{E}_{x_1,x_2}\left[\frac{x_1 + x_2}{2}\right]\\
\sigma^2 &\xlongequal{?}\mathbb{E}_{x_1,x_2}\left[\frac{1}{2}\left(\left(x_1 - \frac{x_1 + x_2}{2}\right)^2 + \left(x_2 - \frac{x_1 + x_2}{2}\right)^2\right)\right]
\end{aligned}\end{equation}
由于这种情况比较简单，我们可以很容易验证，比如
\begin{equation}\mathbb{E}_{x_1,x_2}\left[\frac{x_1 + x_2}{2}\right] = \mathbb{E}_{x_1}\left[\frac{x_1}{2}\right] + \mathbb{E}_{x_2}\left[\frac{x_2}{2}\right] = \frac{\mu}{2} + \frac{\mu}{2} = \mu\end{equation}
所以用两个样本进行的均值的估计，就是均值的无偏估计了，多个样本也是如此。

但是方差却不一样：
\begin{equation}\begin{aligned}&\mathbb{E}_{x_1, x_2} \left[\frac{1}{2}\left(\left(x_1 - \frac{x_1 + x_2}{2}\right)^2 + \left(x_2 - \frac{x_1 + x_2}{2}\right)^2\right)\right]\\
=&\frac{1}{4}\mathbb{E}_{x_1, x_2} \left[\left(x_1 - x_2\right)^2\right]\\
=&\frac{1}{4}\mathbb{E}_{x_1, x_2} \left[x_1^2 + x_2^2 - 2 x_1 x_2\right]\\
=&\frac{1}{4}\Big(\mathbb{E}_{x_1} \left[x_1^2\right] + \mathbb{E}_{x_2} \left[x_2^2\right] - 2 \mathbb{E}_{x_1} \left[x_1\right] \mathbb{E}_{x_2} \left[x_2\right]\Big)\\
=&\frac{1}{4}\Big(2\mathbb{E}_{x} \left[x^2\right] - 2 \mu^2\Big)\\
=&\frac{1}{2}\Big(\mathbb{E}\left[x^2\right] - \mu^2\Big)
\end{aligned}\end{equation}
注意方差的准确表达式应该是$\mathbb{E}\left[x^2\right] - \mu^2$，所以两个样本的$\hat{\sigma}^2_{\text{有偏}}$是对方差的一个有偏估计，在重复估计取平均后，它仍然低估了真实方差。如果对$n$个样本的估计进行分析，那么前面的因子是$(n-1)/n$。所以，只需要乘以$n/(n-1)$，就得到方差的无偏估计，最终结果就是$\eqref{eq:wupianfangcha}$。

直观来看，用有限样本的式$\eqref{eq:youpianfangcha}$来估计方差，由于样本少了，波动也会变小，所以方差估计也会偏小，这就是所谓的有偏。极端情况下，如果只采样一个样本进行估计呢？用式$\eqref{eq:youpianfangcha}$估计出来的方差就是0了，不管怎么重复实验，结果还是0，我们总不能说整批样本的方差一定就是0吧？这便是有偏估计的最简单例子。

从理论上，有偏估计的产生机制也很容易理解，因为方差的计算公式等价于：
\begin{equation}\mathbb{E}\left[x^2\right] - \mathbb{E}\left[x\right]^2\end{equation}
其中期望运算$\mathbb{E}$是一个线性算子，所以上式关于$\mathbb{E}$是非线性的（二次的，即$\mathbb{E}\left[x\right]^2$这一行），只要一个估计量关于期望运算$\mathbb{E}$是非线性的（注意：这里强调的是关于期望运算的非线性，不是随机变量的非线性），直接有限样本估计就很可能产生偏差，因为线性运算与线性运算的复合，依然还是线性运算，而线性运算与非线性运算的复合，却不是原来的非线性运算了。

并不是所有的有偏估计都可以像方差一样，简单将$n$换成$n-1$就变为无偏估计了。一般情形下，我们想要估计的量，连估计本身都很难，更不要说有偏还是无偏了，所以要对一般的估计量消除偏差，都得具体问题具体分析了。

转载到请包括本文地址：https://spaces.ac.cn/archives/6747

更详细的转载事宜请参考：《科学空间FAQ》

如果您还有什么疑惑或建议，欢迎在下方评论区继续讨论。

如果您觉得本文还不错，欢迎分享/打赏本文。打赏并非要从中获得收益，而是希望知道科学空间获得了多少读者的真心关注。当然，如果你无视它，也不会影响你的阅读。再次表示欢迎和感谢！

如果您需要引用本文，请参考：

苏剑林. (Jun. 19, 2019). 《简述无偏估计和有偏估计》[Blog post]. Retrieved from https://spaces.ac.cn/archives/6747

@online{kexuefm-6747,
        title={简述无偏估计和有偏估计},
        author={苏剑林},
        year={2019},
        month={Jun},
        url={\url{https://spaces.ac.cn/archives/6747}},
}

分类：数学研究标签：统计, 概率, 估计 12 评论

< 当Bert遇上Keras：这可能是Bert最简单的打开姿势 | VQ-VAE的简明介绍：量子化自编码器 >

你也许还对下面的内容感兴趣

发表你的看法

yang

June 19th, 2019

厉害厉害

回复评论

wang

July 3rd, 2019

牛逼！！！

回复评论

SiyaYao

July 18th, 2019

苏神一文讲懂~

回复评论

friskit

September 23rd, 2019

以两个变量举例子之后，醍醐灌顶，尤其是“由于样本少了，波动也会变小，所以方差估计也会偏小”和“极端情况下，如果只采样一个样本进行估计呢？用式(1)估计出来的方差就是0了，不管怎么重复实验，结果还是0，我们总不能说整批样本的方差一定就是0吧？”这两个解释，非常直观！

回复评论

squirrel

October 16th, 2019

好文，看到文末倒数第二段说“这里强调的是关于期望运算的非线性，不是随机变量的非线性”，正好趁机问个问题：
我一直没搞明白平时机器学习说的线性、非线性是个什么意思，但又经常遇到，比如分类器中正负样本线性可分、不可分，这个好理解，就是正负样本中间能用一条线劈开，但像用sigmoid函数做神经元的激活函数来为神经网络提供非线性能力，这个非线性怎么解？

回复评论

苏剑林发表于 October 19th, 2019

就是“不是线性”，你首先要理解什么是线性，然后不是线性的都可以叫做“非线性”。

回复评论

dizzy

October 21st, 2019

\documentclass{article}
\begin{document}
直观易懂，赞一个！
\end{document}

回复评论

aaaaa

March 31st, 2020

写的非常好懂，受教了

回复评论

Mendeley

May 13th, 2021

总结起来就是判断有限数据的估计值的“无限平均”是否逼近真实值
写的通俗易懂，最后一段非线性那里点明了有偏估计的偏差来源，很赞

回复评论

zcj5918

January 10th, 2023

实际上可以证明，当样本方差公式下面是$n-1$的时候，可以等价地推出一个不带均值的样本方差公式，这个时候，下面的系数会变成$2C_n^2$，这恰恰证明了修正样本方差公式计算了样本两两距离平方的均值，是一个无偏估计（不带均值，把两两距离考虑了进去）。

回复评论

zcj5918 发表于 January 10th, 2023

$$
S^2=\frac 1 {N-1}\sum\limits_{i=1}^N (\mathbf{x_i-\overline x})^\text{T}(\mathbf{x_i-\overline x})=\frac 1 {2\begin{pmatrix}N \\2\end{pmatrix}}\sum_{i=1}^N\sum_{j=1}^{i-1}(\mathbf{x_i-x_j})^{\text T}(\mathbf{x_i-x_j})
$$

回复评论

苏剑林发表于 January 13th, 2023

确实挺神奇，一个看上去就是有偏的量，实质上是一个无偏估计。

回复评论

取消回复

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

简述无偏估计和有偏估计

你也许还对下面的内容感兴趣

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接