假设检验是统计学中的一种推断性分析方法,它允许基于代表性样本对整个总体做出假设。在大多数情况下,观察整个总体以了解其属性是不可能的。唯一的选择是选择一个随机样本,并使用统计学方法进行分析。在进行假设检验之前,必须首先建立一个假设。假设包括诸如“总体中两个群体之间存在差异”或“总体中体重和性别之间存在相关性”等。
需要证明的论点通常被称为备择假设(HA),而零假设(H0)则是其完全相反的假设。零假设表明实际上总体中没有发生新的事情。例如,在前面的例子中,零假设可以表述为:总体中体重和性别之间没有联系,两个群体之间没有差异。
假设检验的目的是查看是否可以拒绝零假设。在大多数情况下,拒绝零假设并不意味着备择假设是正确的。然而,在某些情况下,拒绝零假设可以导致接受备择假设。在执行假设检验时,可能会发生两种类型的错误:
第一类错误:当零假设实际上是真的时候拒绝零假设,这就是第一类错误。
第二类错误:当零假设实际上是假的时候接受零假设,这就是第二类错误。
假设检验分为两大类:
1) 参数检验——当样本具有正态分布时使用。一般来说,具有均值为0和方差为1的样本遵循正态分布。
2) 非参数检验——如果样本不遵循正态分布,则使用非参数检验。
根据要比较的样本数量,可以创建两种类型的假设检验:
• 单样本——如果只有一个样本需要与特定值进行比较,这被称为单样本。
• 双样本——如果正在比较两个或更多的样本。相关性和样本差异是这种情况下可以使用的两种测试。在这两种情况下,样本可以是配对的或不配对的。配对样本有时被称为依赖样本,而不配对样本被称为独立样本。
参数检验是一种参数预先确定且总体分布始终已知的检验。均值用于计算集中趋势。这些检验很常见,使得进行研究相对简单且耗时。非参数检验不作任何假设,使用中位数进行测量。Kruskal-Wallis、Mann-Whitney等是非参数检验的例子。本文将教什么是参数检验和非参数检验,参数和非参数检验的优点和缺点,参数和非参数统计学,以及参数和非参数检验之间的区别。
参数检验在统计学中提供了对原始总体均值的数据进行概括的一般化。这种检验也被称为假设检验。t检验是一种基于学生t检验的检验,通常用于这个值。这被称为参数检验。
t测量检验假设变量具有普通分布。在这种情况下,均值是已知的,或者被假设或被认为是已知的。使用总体方差来找到总体中的样本。使用区间尺度估计总体,并且假设变量。
下表列出了一些最常见的参数检验以及它们测量的内容。
非参数检验不需要总体分布。此外,非参数检验是一种不依赖于任何潜在假设的假设检验。非参数检验使用中位数。分布自由测试是这种方法测试的另一个名称。测试值在序数或名义水平上确定。当独立变量是非度量时,通常使用参数检验。这就是所谓的非参数检验。
下表列出了一些最常见的非参数检验以及它们测量的内容。
属性:
参数
非参数
1) 假设
是的,在
使用参数检验之前
不,在使用非参数检验之前
不作假设
2) 中心趋势值
参数检验的中心趋势是均值
非参数检验的中心趋势是中位数
3) 相关性
皮尔逊相关性
斯皮尔曼相关性
4) 概率分布
正态分布
任意分布
5) 总体知识
需要
不需要
6) 使用
用于寻找区间数据
用于寻找名义数据
7) 应用
适用于变量
适用于变量和属性
8) 示例
t检验,z检验
弗里德曼检验等
本文将解释何时使用每种检验:
• 要测试组均值,请使用参数分析。
• 使用非参数分析测试组中位数。
非参数检验类似于参数检验的平行宇宙。下表显示了相关的配对假设检验。
参数检验(均值)
非参数检验(中位数)
1样本t检验
1样本符号检验,1样本Wilcoxon
2样本t检验
Mann-Whitney检验
One-Way ANOVA
Kruskal-Wallis,Mood的中位数检验
具有一个因素和一个阻塞变量的因子设计
Friedman检验
原因1:参数检验可以很好地处理偏斜和非正态分布。
令人惊讶的是,如果遵循下表中的样本大小标准,参数检验可以很好地处理非正态连续数据。
参数分析
非正态数据的样本大小指南
1样本t检验
大于20
2样本t检验
每组应大于15
One-Way ANOVA
如果有2-9组,每组应大于15。
如果有10-12组,每组应大于20。
原因2:当每组的离散度不同时,参数检验可以很好地执行。
非参数检验不要求数据遵循正态分布,但它们有其他要求可能难以实现。而参数检验比较的组数据必须具有相同的离散度。如果组有不同的分布,非参数检验可能无法产生准确的结果。
原因3:由于参数检验的统计功效
通过比较可以看出,非参数检验的统计功效小于参数检验。
原因1:中位数更好地代表了研究领域。
可以在非正态数据上运行参数检验,并不意味着应该这样做。例如,中位数可以更好地测量偏斜分布的中心,如收入,当50%以上和50%以下时。即使普通人的收入保持不变,当样本中包含一些亿万富翁时,数学均值会急剧上升。
当分布足够偏斜时,尾部的变化对均值有很大影响,而中位数继续反映分布的中心。从每个分布中随机抽取100人的样本,均值统计上不同,但这两个分布的中位数没有显著差异。
原因2:样本量相当小。
如果不符合参数检验的样本量要求,并且不确定数据是否正态分布,应该使用非参数检验。当样本量有限时,可能无法识别数据的分布,因为分布测试缺乏提供有意义结果的能力。
在这种情况下,陷入了困境,没有可行的解决方案。非参数检验本身就有较低的功效,当将这与小样本量结合起来时,就有了双重打击!
原因3:无法消除序数或排名数据或异常值。
异常值可以极大地影响典型参数检验的结果,这些检验只能检查连续数据。另一方面,一些非参数检验可以处理序数和排名数据,同时避免异常值。检查非参数检验的假设,因为每个检验都有不同的数据要求。
选择参数检验和非参数检验的需求通常被认为当数据不符合参数检验假设时出现。当样本量有限且数据非正态时,就会发生这种情况。然而,虽然参数检验通常可以处理非正态数据,但其他因素往往发挥作用。另一方面,非参数检验有严格的假设,不能忽视。
选择均值还是中位数来描述数据分布的中心通常是决定因素。
• 如果均值充分代表分布中心,并且样本量足够大,请考虑使用参数检验。它们更强大。