线性回归模型的假设检验与诊断

在构建线性回归模型时，数据清洗和变量准备是至关重要的步骤。完成这些工作后，接下来就是评估模型的预测能力。曾经构建了一个线性回归模型，并得到了5%的平均绝对百分比误差（MAPE）、82%的基尼系数和高R平方值。这些指标用于衡量线性回归模型的预测能力。在保险行业销售预测中，这样的基尼系数和MAPE被认为是远高于平均水平的。为了验证整体预测，使用了时间外样本来评估聚合业务。然而，惊讶地发现预期业务总量甚至不到实际业务的80%。尽管提升和一致比率很高，还是不明白哪里出了问题。因此，决定深入研究模型的统计细节。在更好地理解模型后，开始从不同维度分析模型。在仔细检查残差图后，发现其中一个预测变量与输出变量之间存在平方关系。

从那以后，在阅读模型的预测能力之前，都会验证模型的所有假设。本文将带了解线性回归的所有假设以及如何验证这些假设，并使用残差图来诊断关系。

线性回归模型的假设

线性回归模型有许多假设。在建模时，通常检查五个假设，具体如下：

结果与预测变量之间的关系是线性的。
对于每个结果值，误差项的平均值几乎等于零。
误差项具有恒定的方差。
误差是不相关的。
误差是正态分布的，或者有足够的样本量来依赖大样本理论。

需要注意的是，这些假设都不能通过R平方图、F统计量或其他模型准确性图表来验证。另一方面，如果任何假设被违反，准确性图表可能会给出误导性的结果。

如何使用残差进行诊断

残差分析通常是图形化的。通常查看以下两类图表：

分位数图：这种图表用于评估残差的分布是否为正态分布。图表显示的是残差分位数的实际分布与完全正态分布残差之间的关系。如果图表完全覆盖在对角线上，残差就是正态分布的。下面是一个近似正态分布残差的分位数图的示例。
散点图：这种图表用于评估模型假设，如恒定方差和线性，并识别潜在的异常值。下面是一个完美残差分布的散点图。

在上面的图表中，可以看到残差正态分布的假设被明显违反了。

为了简单起见，采用了单变量回归模型来分析残差曲线。多变量也采用类似的方法。假设预测变量和输出变量的实际关系如下：

y = 3x^2 + 2x + 1

在不了解关系类型的情况下，从以下方程开始分析：

y = ax + b

能否使用残差曲线来诊断这种拟合不良？在构建了一个全面的模型后，检查了所有的诊断曲线。下面是最终线性方程残差的Q-Q图。Q-Q图看起来略微偏离基线，但在基线的两侧。这表明残差大致以正态方式分布。

下面是残差的散点图：

清楚地看到残差的平均值没有限制在零。还看到了残差平均值的抛物线趋势。这表明预测变量也以平方形式存在。现在，让将初始方程修改为以下方程：

y = ax^2 + bx + c

下面是新方程残差的新散点图：

现在清楚地看到了随机分布和近似零残差平均值。

每个线性回归模型都应该在所有残差图上进行验证。这些回归图指导从正确的方程形式开始。也可能对之前关于回归的文章感兴趣（）。

构建预测模型的变量选择与转换技术

本文介绍了构建预测模型时，如何选择合适的变量集以及对变量进行转换的技术。

罕见事件预测与客户流失分析

本文介绍了在罕见事件背景下，如何通过预测客户流失倾向并提供保留优惠来减少损失，以及构建适用于罕见事件的逻辑回归模型的步骤。

线性回归模型的假设检验与诊断