标签统计下的文章 - 科学空间|Scientific Spaces

19 Jun

简述无偏估计和有偏估计

By 苏剑林 | 2019-06-19 | 103432位读者 | 引用

对于大多数读者（包括笔者）来说，他们接触到的第一个有偏估计量，应该是方差
\begin{equation}\hat{\sigma}^2_{\text{有偏}} = \frac{1}{n}\sum_{i=1}^n \left(x_i - \hat{\mu}\right)^2,\quad \hat{\mu} = \frac{1}{n}\sum_{i=1}^n x_i\label{eq:youpianfangcha}\end{equation}
然后又了解到对应的无偏估计应该是
\begin{equation}\hat{\sigma}^2_{\text{无偏}} = \frac{1}{n-1}\sum_{i=1}^n \left(x_i - \hat{\mu}\right)^2\label{eq:wupianfangcha}\end{equation}
在很多人的眼里，公式$\eqref{eq:youpianfangcha}$才是合理的，怎么就有偏了？公式$\eqref{eq:wupianfangcha}$将$n$换成反直觉的$n-1$，反而就无偏了？

下面试图用尽量清晰的语言讨论一下无偏估计和有偏估计两个概念。

点击阅读全文...

分类：数学研究标签：统计, 概率, 估计阅读全文 12 评论

7 Jan

基于遗忘假设的平滑公式

By 苏剑林 | 2017-01-07 | 24768位读者 | 引用

统计是通过大量样本来估计真实分布的过程，通常与统计相伴出现的一个词是“平滑”，即对统计结果打折扣的处理过程。平滑的思想来源于：如果样本空间非常大，那么统计的结果是稀疏的，这样由于各种偶然因素的存在，导致了小的统计结果不可靠，如频数为1的结果可能只是偶然的结果，其频率并不一定近似于$1/N$，频数为0的不一定就不会出现。这样我们就需要对统计结果进行平滑，使得结论更为可靠。

平滑的方法有很多，这里介绍一种基于遗忘假设的平滑公式。假设的任务为：我们要从一批语料中，统计每个字的字频。我们模仿人脑遗忘的过程，假设这个字出现一次，我们脑里的记忆量就增加1，但是如果一个周期内（先不管这个周期多大），这个字都没有出现，那么脑里的记忆量就变为原来的$\beta$比例。假设字是周期性出现的，那么记忆量$A_n$就满足如下递推公式
$$A_{n+1} = \beta A_n + 1$$

点击阅读全文...

分类：数学研究标签：统计, 语料, 平滑阅读全文抢沙发

21 Aug