在现实世界中,几乎不可能从整个人群中得出统计数据。因此,需要对大量的数据进行解释,以得出有意义的结论。为此,从人群中抽取一些随机样本,计算一些统计量(例如均值、标准差、方差),并从收集的数据中得出关于关系的结论。
数据可以通过假设一个特定的结果,并使用统计方法来确认或拒绝这个假设来进行解释。这个假设被称为“假设”,用于此目的的统计测试被称为“假设检验”。在统计学中,假设是关于想要基于样本数据中的信息来验证的人群的陈述。
假设检验量化了在给定假设下实验的观察或结果。测试的结果使能够解释假设是否成立。换句话说,它表明是否可以确认或拒绝所做的观察。实验的观察或结果被称为“检验统计量”,这是从潜在人群的样本数据计算出的统计量或标准化值。
假设检验的假设被称为“零假设”。零假设是一种统计假设,表明从潜在人群中抽取的样本之间没有显著差异。它也被称为默认假设,用H0表示。相比之下,有一个术语称为“备择假设”,用H1表示。对于每一个零假设,都有一个与零假设相反的备择假设。换句话说,如果拒绝零假设,就无法拒绝备择假设。
确认或拒绝零假设的决定是通过解释测试结果来做出的。假设检验的结果可以使用p值或临界值来解释。p值是在给定假设的情况下推断观察值的概率。另一方面,临界值是定义测试统计量不太可能所在的区域的截止值。
假设检验可以通过以下三个步骤进行:
让通过一个抛硬币的例子来看看假设检验是如何执行的。给定一个硬币,确定硬币是否偏向于正面。如果说一个硬币偏向于正面,这意味着得到正面的概率大于0.5,即P(H) > 0.5。
抛硬币5次,并计算正面的数量。将正面的数量视为一个随机变量“X”。在统计假设检验理论中,它被称为检验统计量,即X = 5。
X = 测试统计量
抛硬币5次。
H H H H H H H H H T ...
有32种这样的观察结果。在这些32种可能性中,只有一种观察结果是5个正面。因此,检验统计量是X = 5。
现在,计算在硬币不偏向于正面的情况下X = 5的概率。P(X = 5 | 硬币不偏向于正面)。这里,假设是“硬币不偏向于正面”。在假设检验中,这个假设被称为零假设(H0)。
当硬币抛掷一次时,得到正面的概率,即P(H) = 1/2。同样,当硬币抛掷5次时,假设硬币不偏向于正面,得到正面的概率是1/2^5或1/32。
P(X = 5 | H0) ≈ 0.03 = 3%
这意味着,如果硬币不偏向于正面,在5次抛掷中得到5个正面的概率是3%。
在执行这个实验时,观察到X = 5。在假设检验中,如果零假设成立,通过实验观察到的检验统计量的值X = 5的概率是3%。
这里,检验统计量X = 5是观察到的事实,这是不容置疑的。因此,鉴于这一观察已经做出,如果假设也成立,这一观察的概率仅为3%,这是非常低的。
这个概率值称为p值;统计假设检验的结果。通常,如果p值小于或等于5%,则被认为是小的。这只是一个经验法则。
如果根据零假设做出的观察的概率小于或等于5%,那么可能假设(硬币不偏向于正面)是不正确的。因此,可以得出结论,零假设是不正确的。在这种情况下,假设硬币不偏向于正面被拒绝,确认了硬币是有偏见的。换句话说,备择假设(H1)没有被拒绝。
在这个实验中,设计了抛硬币5次。如果硬币抛掷3次或10次会怎样?概率值会改变。因此,这个实验依赖于抛掷的次数。这通常被称为样本大小。
现在,让将同样的实验修改为“抛硬币3次并计算正面的数量”。这里,新的检验统计量是3,即X = 3。因此,当硬币抛掷3次时,假设硬币不偏向于正面,得到正面的概率是1/2^3 = 1/8。
P(X = 3 | H0) = 0.125 = 12.5%
这意味着,如果硬币不偏向于正面,在3次抛掷中得到3个正面的概率是12.5%。
这个概率值远大于5%。因此,假设没有被拒绝,即硬币没有偏见。
假设检验的结果必须明智地解释,以对数据提出主张。结果可以以不同的方式解释。它们是p值和临界值。
统计假设检验可能会返回一个p值。p值定义为在零假设为真的情况下做出观察的概率。它是在零假设的假设下,使用检验统计量的样本分布计算的。
p值用于量化给定零假设的测试结果。这是通过将p值与阈值进行比较来完成的,阈值也被称为显著性水平,用希腊字母α表示。
通常,α值是0.05或5%。
p值与预定义的α值进行比较。当p值小于或等于α值时,实验结果被认为是显著的,拒绝零假设。
P(测试统计量 | H0) > α (5%): 没有拒绝H0
P(测试统计量 | H0) <= α (5%): 拒绝H0
假设进行了一个统计假设检验,以确定数据样本是否正态分布,并计算了一个p值为0.9,可以说,假设检验发现样本是正态分布的,在5%的显著性水平下没有拒绝零假设。
人们经常犯一个错误。有些人认为这是零假设(H0)为真的概率。
p值 = P(H0 | 数据)
这是错误的!不能对零假设(H0)发表任何声明。
相反,p值是在零假设(H0)为真的情况下,已经做出的观察的概率。
p值 = P(数据 | H0)
并非所有的统计测试都返回p值。相反,它们可能会返回一个临界值和相关的显著性水平以及检验统计量。
结果的解释与p值结果相似。不是将p值与预定义的显著性水平进行比较,而是将检验统计量与所选显著性水平下的临界值进行比较。
检验统计量 < 临界值: 没有拒绝H0
检验统计量 >= 临界值: 拒绝H0
使用临界值表示的结果与使用p值解释的结果相同。
在进行统计假设检验以确定数据样本是否正态分布时,计算出的检验统计量与5%显著性水平下的临界值进行比较,可以说,假设检验发现样本是正态分布的,在5%的显著性水平下没有拒绝零假设。
在假设检验中,使用相对较小的样本来回答有关人群参数的问题。总是有可能选择的样本不能代表人群;因此,总是有可能得出的错误结论。
假设检验提供了对某个假设的信心。换句话说,假设检验指的是使用统计分析来确定两个或更多数据样本之间观察到的差异是由于随机机会还是样本中的真实差异。