在构建线性回归模型时,数据清洗和变量准备是至关重要的步骤。完成这些工作后,接下来就是评估模型的预测能力。曾经构建了一个线性回归模型,并得到了5%的平均绝对百分比误差(MAPE)、82%的基尼系数和高R平方值。这些指标用于衡量线性回归模型的预测能力。在保险行业销售预测中,这样的基尼系数和MAPE被认为是远高于平均水平的。为了验证整体预测,使用了时间外样本来评估聚合业务。然而,惊讶地发现预期业务总量甚至不到实际业务的80%。尽管提升和一致比率很高,还是不明白哪里出了问题。因此,决定深入研究模型的统计细节。在更好地理解模型后,开始从不同维度分析模型。在仔细检查残差图后,发现其中一个预测变量与输出变量之间存在平方关系。
从那以后,在阅读模型的预测能力之前,都会验证模型的所有假设。本文将带了解线性回归的所有假设以及如何验证这些假设,并使用残差图来诊断关系。
线性回归模型有许多假设。在建模时,通常检查五个假设,具体如下:
需要注意的是,这些假设都不能通过R平方图、F统计量或其他模型准确性图表来验证。另一方面,如果任何假设被违反,准确性图表可能会给出误导性的结果。
残差分析通常是图形化的。通常查看以下两类图表:
在上面的图表中,可以看到残差正态分布的假设被明显违反了。
为了简单起见,采用了单变量回归模型来分析残差曲线。多变量也采用类似的方法。假设预测变量和输出变量的实际关系如下:
y = 3x^2 + 2x + 1
在不了解关系类型的情况下,从以下方程开始分析:
y = ax + b
能否使用残差曲线来诊断这种拟合不良?在构建了一个全面的模型后,检查了所有的诊断曲线。下面是最终线性方程残差的Q-Q图。Q-Q图看起来略微偏离基线,但在基线的两侧。这表明残差大致以正态方式分布。
下面是残差的散点图:
清楚地看到残差的平均值没有限制在零。还看到了残差平均值的抛物线趋势。这表明预测变量也以平方形式存在。现在,让将初始方程修改为以下方程:
y = ax^2 + bx + c
下面是新方程残差的新散点图:
现在清楚地看到了随机分布和近似零残差平均值。
每个线性回归模型都应该在所有残差图上进行验证。这些回归图指导从正确的方程形式开始。也可能对之前关于回归的文章感兴趣()。