Fork me on GitHub

统计学之样本方差与总体方差

参考资料:https://www.cnblogs.com/zzdbullet/p/10087196.html

1. 方差(variance)的定义

方差是用来度量随机变量和其数学期望(均值)之间的偏离程度的一个统计量。

统计学中(所有样本)的总体方差公式:

其中$\sigma^2$是总体方差,$X$是随机变量,$\mu$是总体均值(有时也用$\bar X$表示),$N$是总体样本数。这里提到的样本,是基于样本数量$N$(几乎)无限的假设。对应的各个统计量,也是所有的样本所服从的分布的真实参数,是客观正真实的。

2. 样本方差

现实情况中,我们往往得不到所有的无限样本,而只能抽样出一定数量的有限样本。通过有限的样本来计算的方差,称为样本方差,公式如下:

注意上式的系数和总体方差公式里面的系数不一样,分母是$n-1$。为什么不用$n$作为分母呢?这是因为如果沿用总体方差的公式得到的样本方差,是对方差的一个有偏估计。用$n$作为分母的样本方差公式,才是对方差的无偏估计。

3. 总体方差公式的有偏性证明

换言之,除非正好有$\bar X=\mu$,否则一定会有

上式的右边是对方差的正确估计,左边是有偏估计。
产生这一偏差的本质是因为均值用的是样本均值$\bar X$。这将导致采样出来的样本之间不是完全相互独立的,自由度从$n$降为了$n-1$。(注意,一个好的采样有两点要求:随机采样,并且样本之间是相互独立的)这是因为,给定$\bar X$和任意$n-1$个样本,就能确定剩下的一个样本,也即只有$n-1$个样本是完全相互独立的,自由度为$n-1$。

4. 样本方差公式分母为n-1的推导

在正式推导之前,先给几个公式作为铺垫:

  1. 方差计算公式:
  2. 均值的均值:
  3. 均值的方差

对于没有修正的方差计算公式,计算其期望:

结合{4-4}和{4-5},可将{4-6}化简为

要使样本方差的期望等于总体方差,就需要进行修正,也即给样本方差乘上$\frac{n}{n-1}$
因此得到修正后的样本方差公式:

推导完毕!