7 Jan

基于遗忘假设的平滑公式

统计是通过大量样本来估计真实分布的过程,通常与统计相伴出现的一个词是“平滑”,即对统计结果打折扣的处理过程。平滑的思想来源于:如果样本空间非常大,那么统计的结果是稀疏的,这样由于各种偶然因素的存在,导致了小的统计结果不可靠,如频数为1的结果可能只是偶然的结果,其频率并不一定近似于$1/N$,频数为0的不一定就不会出现。这样我们就需要对统计结果进行平滑,使得结论更为可靠。

平滑的方法有很多,这里介绍一种基于遗忘假设的平滑公式。假设的任务为:我们要从一批语料中,统计每个字的字频。我们模仿人脑遗忘的过程,假设这个字出现一次,我们脑里的记忆量就增加1,但是如果一个周期内(先不管这个周期多大),这个字都没有出现,那么脑里的记忆量就变为原来的$\beta$比例。假设字是周期性出现的,那么记忆量$A_n$就满足如下递推公式
$$A_{n+1} = \beta A_n + 1$$

阅读剩余部分...

21 Aug

网站统计总结|来访信息综合

尽管网站成立于2009.03.01,但是由于后来的一次次改版,使得一次次的统计数据丢失。最后一次的统计数据开始于2009.06.13,至今的数据如下:

全国34个省级行政区(包括港澳台),只有西藏、新疆、宁夏、澳门四个地方没有人到访过。

阅读剩余部分...