机器学习中的偏差与方差

在构建机器学习模型之前,需要准备两种数据集:一种是用于训练模型的“训练数据”,另一种是用于监测模型在未知数据上的准确性的“测试数据”。

什么是偏差方差

与“训练数据”相关的整体误差称为偏差。当训练数据的误差增加或训练数据的准确性降低时,称之为高偏差;相反,当训练数据的误差减少或训练数据的准确性提高时,称之为低偏差。

高偏差:高训练数据误差/低训练数据准确性。

低偏差:低训练数据误差/高训练数据准确性。

与“测试数据”相关的整体误差称为方差,而偏差与“训练数据”相关。当与测试数据相关的误差增加时,称之为高方差,反之则为低方差。

方差:高测试数据误差/低测试数据准确性。

低方差:低测试数据误差/高测试数据准确性。

真实世界的例子

考虑一个名叫“Shivam”的学生,他正在为IIT入学考试做准备。Shivam参加了一个辅导课程,以实现他被IIT录取的目标。在过去的两年里,这个辅导课程一直在帮助Shivam。在这个辅导课程中,Shivam将参加多次模拟考试来评估他的准备情况。这是Shivam的“训练数据”。经过两年的学习后,Shivam将参加JEE考试,这将作为Shivam的“测试数据”,因为它将评估Shivam的输出准确性。

假设Shivam在辅导课程的模拟考试中表现异常出色。这被认为是低偏差,因为训练准确性高且训练误差低。如果Shivam在这些辅导模拟测试中表现不佳,那么,猜对了,这被认为是高偏差。

现在让看看方差,因为它与测试数据相关。最终的JEE考试是Shivam的测试数据。经过两年的紧张准备,Shivam在参加JEE考试时可能会感到紧张或自信(取决于训练)。如果Shivam在考试中获得了高百分位数,这是一个低方差的情况。因为测试准确性高且测试误差低。如果Shivam在JEE考试中表现糟糕,那么这就是一个高方差的情况。

偏差方差权衡

本节文章将探讨偏差、方差和模型误差之间的关系。在下面的图表中,X轴表示算法的复杂性或多项式的度数,而Y轴表示模型提供的错误。这里的主要目标是通过平衡偏差和方差来减少Y轴上的错误。

方差由黄色曲线表示,很明显,随着算法复杂性或多项式度数的增加,方差增加,导致Y轴上的模型错误呈指数增长。然而,偏差在白色曲线中的行为不同:随着X轴上算法复杂性的增加,偏差的平方呈指数下降,导致Y轴上的模型错误减少。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485