Fork me on GitHub

统计学之假设检验详解

参考:https://cosx.org/2010/11/hypotheses-testing/

0. 背景

在实际生产生活中,我们经常需要对一些逻辑推理进行真假判断,例如

如果你打了某种疫苗P,就不会得某种流行病Q
如果一个疑似病人隔离了14天还没确诊,那他就没有被感染新冠肺炎

在统计学里面,不会像上面那样说,而是会说:

如果你打了某种疫苗 ,就有95%的把握不会得流行病Q
如果一个疑似病人隔离了14天还没确诊,那他就有95%的把握没有被感染新冠肺炎

其中的把握水平,在统计推断中用“置信水平”来代替。置信水平是可以人为选取的。

1. 从一个硬币的例子来引入假设检验

如何从统计推断的角度来判断一个逻辑推理是否正确呢?通常,我们会给定一个置信水平,然后判断该逻辑推理是否在这个置信水平下成立。这里重新举一个硬币的例子,来引入置信水平的概念。
假设有如下命题:

if P then Q
P: 在 100 次投掷中,得到 90 次正面,10 次反面。
Q: 硬币不是均匀的。

我们想知道,如果P成立,判断Q成立的把握有多大。很多时候(但不是所有时候),在统计推断里面,要证明的结论都是直觉上可能性比较大的,直接证明可能不太方便,可以反其道行之,证明Q的反面是否成立,来推断出Q是否成立。为此,列出如下原假设和备择假设:

H0: 硬币是均匀的(P)
Ha: 硬币是不均匀的(not P)

如果原假设为真,即硬币是均匀的,就不可能会发生这样极端的事情比如:在 100 次投掷中,得到 90 次正面,10 次反面。如果真的观察到了这么极端的事情,就有把握认为硬币不是均匀的,则拒绝原假设,选择备选假设。如果观察到的是60次正面,40个反面,则没有特别大的把握拒绝原假设,这枚硬币是否有偏,需要更多的证据来证明(这通常意味着做更多的实验,比如再投1000次)。

即使观测到100次投掷中90次正面10次反面,也不能说硬币一定是不均匀的(也即不能百分之百的把握拒绝原假设)。如果原假设为真,但是拒绝了原假设,这种情况称为第一类错误。发生第一类错误的概率,称为显著性水平,用$\alpha$表示。$1-\alpha$称为置信度或者置信水平,它表示我们根据抽样样本对总体参数的估计的可靠性。$\alpha$一般是人为定的,如0.05,0.01.给定置信水平后,就可以去利用一些统计学的知识去检验原假设是否需要拒绝。
如果原假设是错误的,但是没有拒绝原假设,则称为第二类错误。如果要求犯第一类错误的概率尽可能小,就会导致第二类错误的概率增大;反之,如果要求第二类错误的Giallo极可能小,就会导致第一类错误的概率增大。在实际中需要权衡。权衡的方式就是调节$\alpha$。在实际中,我们通常认为犯第一类错误的后果比犯第二类错误的后果更为严重。例如,关于打疫苗会后会不会得病的命题,我们通常会将原假设写成:会得病,然后去搜集数据试图拒绝原假设。此时犯第一类错误的后果是比较严重的(实际会得病却认为不会得病,会放松警惕造成大流行),而犯第二类错误的后果不是很严重(实际不糊得病,却没有拒绝原假设,只是会将打疫苗的部分人隔离起来造成一定的不便)

再强调一下,一般都是先提出需要建议的假设,再搜集数据,这是统计推断的原则之一。因为如果现有了数据再提出假设,容易有主观干扰。
到这里,我们还是没有解答如何去检验原假设是否需要被拒绝。别急,接着往下看。

2. P值

如何去定义一个事件是否“极端”呢?首先我们引入“更极端”的概念。更极端,意味着概率更小。例如,91次正面9次反面,比90次正面10次反面,更为极端。因此,很自然地,我们只需要描述出原假设为真,第一类错误恰好为$\alpha$时的事件,然后判断出当前样本集合里面的事件是否比它更极端,就能判断是否要在当前显著性水平下拒绝原假设了。当然,直接这样比较麻烦,可以转换一下思路:计算出发生比当前事件(90次正面,10次反面)更极端的事件的概率P,判断P与$\alpha$的大小,如果$P<\alpha$,则说明如果原假设为真时,发生当前事件的概率很极端(比我们给定的显著性水平$\alpha$还低),因此说明原假设不合理,于是可以拒绝原假设了。此时发生第一类错误的概率小于$\alpha$。这里的概率P,称为P值
在硬币投掷实验中,正面出现的次数服$X$服从一个二项分布:$X\sim B(n,p)$,其中$n=100,p-0.5$。根据中心极限定理,二项分布的极限分布是正态分布,因此可以由均值为$np=50$,方差为$np(1-p)=25$的正态分布来近似。我们用这个近似的正态分布的两端去考察所谓“更极端”的事件。取$\alpha=0.05$,由正态分布的性质不难得到,$P$值等于$X<10$或$x>90$的概率值,等于$2\times P(X<10)=1.2442e-15$。这个小于我们给定的$\alpha$,因此该事件很极端,原假设不合理,拒绝原假设。