在数据科学项目中,经常需要对数据进行分析以预测整个总体的值。这种分析通常从探索性数据分析和推断统计开始,通过这些方法,能够获得样本的信息。接下来,将利用这些信息来预测总体的值。
假设检验是一种统计方法,它允许使用样本数据来确认对总体的观察是否在期望的误差水平内成立。通过假设检验,可以确定是否有足够的统计证据来支持关于总体的假设是真还是假。
在机器学习中,为了使模型可信并进行预测,使用假设检验。当使用样本数据训练模型时,对总体做了一些假设。通过进行假设检验,验证这些假设是否在期望的显著性水平下成立。
以回归模型为例,当通过线性回归模型拟合一条直线时,得到了线的斜率和截距。假设检验用于确认在线性回归模型中beta系数是否显著。每次运行线性回归模型时,都会测试这条线是否显著,即检查系数是否显著。
进行假设检验的关键步骤如下:
1. 制定假设
2. 确定显著性水平
3. 确定测试类型
4. 计算检验统计量的值和p值
5. 做出决策
下面详细看看这些步骤:
制定假设是关键步骤之一,需要制定以下两个假设:
H₀(零假设):基于对总体的普遍信念的初始主张。
H₁(备择假设):对零假设的挑战。这是想要证明为真的主张。
在制定零假设和备择假设时,应该考虑的主要点是零假设总是看是否确认现有观念。因此,它有符号≥或<和≠。
确定显著性水平,也称为α,是假设检验中样本均值落在临界区域的比例。它通常设置为5%或0.05,这意味着有5%的机会会接受备择假设,即使零假设是正确的。
根据要求的严重性,也可以选择1%的较低显著性水平。
确定检验统计量并计算其值是假设检验中的关键步骤。检验统计量是数据集的数值摘要,它将数据简化为一个值,可以用来进行假设检验。
选择测试类型,根据预测变量是定量的还是分类的来选择测试统计量的类型。以下是一些常用的定量数据测试统计量:
预测变量类型 | 分布类型 | 期望测试 | 属性
定量 | 正态分布 | Z检验 | 大样本量,已知总体标准差
定量 | T分布 | T检验 | 样本量小于30,未知总体标准差
定量 | 正偏分布 | F检验 | 想要比较3个或更多变量
定量 | 负偏分布 | 需要特征转换以进行假设检验
分类 | 无 | 卡方检验 | 测试独立性,拟合优度
Z统计量-Z检验:当样本遵循正态分布时使用。它基于总体参数如均值和标准差来计算。
单样本Z检验用于将样本均值与总体均值进行比较。双样本Z检验用于比较两个样本的均值。
T统计量-T检验:当样本遵循T分布且总体参数未知时使用。T分布类似于正态分布,它比正态分布短,尾部更平。
如果样本量小于30且总体参数未知,使用T分布。这里也可以使用单样本T检验和双样本T检验。
F统计量-F检验:对于涉及三个或更多组的样本,更喜欢F检验。对多个组进行T检验会增加第一类错误的机会。在这种情况下使用方差分析(ANOVA)。
方差分析(ANOVA)可以确定三个或更多组的平均值是否不同。ANOVA使用F检验来统计测试均值的相等性。
F统计量用于数据正偏且遵循F分布时。F分布始终为正且向右倾斜。
F = 样本均值之间的变异性 / 样本内部的变异性
对于负偏数据,需要进行特征转换。
卡方检验:对于分类变量,将执行卡方检验。以下是两种类型的卡方检验:
卡方独立性检验 - 使用卡方检验来确定两个分类变量之间是否存在显著关系。
卡方拟合优度检验 - 帮助确定样本数据是否正确代表了总体。
关于模型的决策,检验统计量用于计算P值。P值衡量支持零假设的证据强度。如果P值小于显著性水平,拒绝零假设。
if p-value < α,则有统计学上显著的证据反对零假设,因此拒绝零假设并接受备择假设。
if p-value > α,则没有统计学上显著的证据反对零假设,因此未能拒绝零假设。
在做出决策时,了解测试中可能发生的错误是很重要的。
1) 第一类错误 - 当零假设为真时拒绝它。第一类错误的概率用α表示。第一类错误也称为假设检验的显著性水平。
2) 第二类错误 - 当零假设为假时未能拒绝它。第二类错误的概率用β表示。
import statsmodels.api as sm
# 创建拟合模型,使用了普通最小二乘法
lr = sm.OLS(y_train, X_train_lm).fit()
# 一旦训练了模型,可以使用命令查看测试的摘要
print(lr.summary())
Prob (F-statistic) - F统计量告诉回归的拟合优度。希望F统计量的概率尽可能低,以拒绝零假设。
P值在列P>|t|中给出 - 如上所述,对于一个好的模型,希望这个值小于显著性水平。