Fork me on GitHub

统计学之t检验详解

参考:https://blog.csdn.net/Tonywu2018/article/details/83897806

0. 背景故事

t检验又叫学生t检验(Student‘s t test),它是由20世纪爱尔兰的一家啤酒厂-健力士酒厂的一名员工(戈斯特)采用笔名“Student”发表的学术文章而得名。

1. 从一个例子引入t检验的思路

健力士公司是酿啤酒的,啤酒的原材料是麦子,因此公司种了很多麦田。假设有两片麦田,一块采用A工艺(旧)种植,另一块采用B工艺(新)种植。A工艺的麦田平均每株麦子可以结100粒穗子。公司想知道B工艺是否相比A工艺提高了产量。为了节约成本、小小损耗,抠门的资本家老板从B工艺的麦田里随机摘了5株大麦,每株麦子的平均穗子数量为120粒,看起来似乎产量提高了,因为每株麦子的麦穗粒数均值增加了20%。如何确定这样的结论是否可信呢?

原假设:B工艺没有提高产量,即AB工艺下的每株麦子麦穗数量服从同一个分布
备选假设:B工艺提高了产量

由中心极限定理,A攻一下每株麦穗的粒数服从均值为100,方差未知的正态分布:

B工艺的单株麦穗粒数也可以认为服从正态分布。如果原假设正确的话,B和A服从同样的正态分布。那么这时候我们可以去评估出现5株均值为120的麦穗的概率是否很极端,来判断原假设是否合理。可以对B的每株麦穗数的分布归一化为标准正态分布,再去查表评估其概率值。也即要计算$\frac{\bar x-\mu_0}{\delta_0}$,其中$\bar x$是B工艺的麦穗粒数均值,$\mu_0$为A工艺的麦穗粒数均值,$\delta_0$为A工艺的麦穗粒数均值。由于B工艺是抽取出一定的样本数来计算均值$\bar x$的,因此不能代表总体均值。当样本数很大时,根据大数定理可以直接认为B工艺提高了产量;当样本数很小时,可能是随机误差。因此,不妨对前面的式子再除以一个n相关的数。为此,戈斯特构造了一个新的统计量:

该统计量越大,寿命AB工艺导致的差别越大,越有可能说明B工艺提高了产量。

3. t分布

对于t统计量:,其对应的概率密度函数也即t分布为:

其中$\nu=n-1$称为自由度,$\Gamma(x)=\int_0^{+\infty}t^{x-1}e^{-t}dt(x>0)$是伽马函数。
t分布的函数图像与正态分布有点像,给定t值和自由度,可以通过查表的方式去找到对应的P值。t分布表如下:
t分布表

以本文中的例子为例,假设置信水平wie$\alpha=0.05$,查表得T值为2.132(单侧检验)。假设A工艺的标准差为$5\sqrt5$,可计算得出t=4,大于T。因此可以拒绝原假设。