机器学习模型校准的重要性

对于大多数人来说,天气预报的屏幕图像应该是一个熟悉的画面。人工智能模型预测今天有40%的降雨概率,周三和周四各有50%的概率。这里,人工智能/机器学习模型讨论的是发生概率,这是有趣的部分。现在的问题是,这个人工智能/机器学习模型值得信赖吗?

作为数据科学/机器学习的学者,会经历构建各种监督机器学习模型(包括分类和回归模型)的阶段。还会查看不同的模型参数,这些参数告诉模型的性能如何。一个重要但可能不太被理解的模型可靠性参数是模型校准。校准告诉可以信任模型预测的程度。本文探讨了模型校准的基础知识及其在机器学习操作周期中的相关性。尽管模型校准也适用于回归模型,但将专门看分类示例来掌握基础知识。

模型校准的必要性

维基百科将校准放大为“在测量技术和计量学中,校准是将被测设备提供的测量值与已知精度的校准标准进行比较。”

在典型的分类机器学习模型中,模型输出两个重要信息。一个是预测的类别标签(例如,将电子邮件分类为垃圾邮件或非垃圾邮件),另一个是预测的概率。在二元分类中,sci-kit learn库提供了一个名为model.predict_proba(test_data)的方法,以数组形式给出目标为0和1的概率。预测下雨的模型可以给出40%的下雨概率和60%的不下雨概率。对分类器估计的不确定性感兴趣。在典型的用例中,模型预测的概率对非常感兴趣,例如天气模型、欺诈检测模型、客户流失模型等。例如,可能对回答这个问题感兴趣,这个客户偿还贷款的概率是多少?

假设有一个机器学习模型,它基于某些特征预测患者是否患有癌症。模型预测特定患者没有癌症(好的,一个令人高兴的场景!)。但如果预测概率是40%,那么医生可能希望进行更多测试以得出一定的结论。这是一个典型的场景,其中预测概率至关重要,对非常感兴趣。模型校准帮助提高模型的预测概率,从而使模型的可靠性提高。它还帮助解读从模型预测中观察到的预测概率。不能想当然地认为,当模型给出0.8的预测概率时,其信心是给出0.4的预测概率的两倍。

还必须理解,校准与模型的准确性不同。模型的准确性定义为模型所做的正确预测数除以模型所做的总预测数。必须清楚地理解,可以有一个准确但不校准的模型,反之亦然。

校准曲线

可以通过创建校准图或可靠性图来检查模型的校准。校准图揭示了模型预测的概率与数据中的真实类别概率之间的差异。如果模型校准良好,期望看到从原点开始的45度直线(表明估计概率始终与经验概率相同)。

将尝试使用一个玩具数据集来理解校准图,以具体化对主题的理解。以下数据包含模型预测的概率和True y值。当按概率排序时,处理数据更容易。

结果概率被划分为多个表示可能结果范围的箱子。例如,可以创建[0-0.1),[0.1-0.2)等,共10个箱子。对于每个箱子,计算阳性样本的百分比。对于校准良好的模型,期望百分比对应于箱子中心。如果取区间[0.9-1.0)的箱子,箱子中心是0.95,对于校准良好的模型,期望阳性样本(标签为1的样本)的百分比为95%。

可以在折线图中绘制平均预测值(箱子的中点)与每个箱子中真正阳性的比例,以检查模型的校准。可以看到理想曲线和实际曲线之间的差异,表明模型需要校准。假设获得的点在对角线下方。在这种情况下,表明模型高估了(模型预测的概率过高)。如果点在对角线上方,可以估计模型在其预测中过于保守(概率太小)。让也看一下下面的实际随机森林模型曲线图像。

Brier分数

不需要视觉信息来估计模型校准。可以使用Brier分数来测量校准。Brier分数类似于均方误差,但在稍微不同的上下文中使用。它的值从0到1,0表示完全校准,Brier分数越低,模型校准越好。

Brier分数是用于测量概率预测准确性的统计指标。它主要用于二元分类。假设概率模型预测特定日子有90%的降雨机会,而那天确实下雨了。Brier分数可以使用以下公式计算,

Brier Score = (forecast-outcome)^2

在上面的案例中,Brier分数计算为(0.90-1)^2 = 0.01。一组观察的Brier分数是各个Brier分数的平均值。

另一方面,如果模型预测有97%的概率会下雨,但实际上并没有下雨,那么在这种情况下计算的Brier分数将是,

Brier Score = (0.97-0)^2 = 0.9409

Brier分数越低越好。

校准过程

现在,让尝试了解校准过程是如何工作的,而不涉及太多细节。

一些算法,如逻辑回归,显示出良好的固有校准标准,这些模型可能不需要校准。另一方面,像SVM、决策树等模型可能从校准中受益。校准是在模型做出预测后的重新缩放过程。

有两种流行的机器学习模型概率校准方法,即:

(a) Platt Scaling (b) Isotonic Regression

本文不打算详细介绍上述方法背后的数学实现。然而,让从旁观者的角度看看这两种方法。

Platt Scaling用于具有S形可靠性曲线的小数据集。它可以被松散地理解为在模型的校准图上放置一个S形曲线,以修改模型的预测概率。

上述图像显示了在模型的可靠性曲线上施加Platt校准曲线如何修改曲线。可以看到,在校准过程中,校准曲线上的点被拉向理想线(虚线)。

Isotonic Regression是一种更复杂的方法,需要更多的数据。Isotonic Regression的主要优点是它不要求模型的可靠性曲线是S形的。然而,这种方法对异常值敏感,适用于大型数据集。

值得注意的是,在模型开发的实际实施中,像sklearn这样的标准库支持轻松的模型校准(sklearn.calibration.CalibratedClassifier)。

  • 模型校准提供了对模型预测不确定性的洞察或理解,从而使最终用户能够理解模型的可靠性,特别是在关键应用中。
  • 在预测概率感兴趣的案例中,模型校准对非常有价值。
  • 可靠性曲线和Brier分数为提供了模型校准水平的估计。
  • Platt缩放和Isotonic回归是流行的校准水平缩放方法,可以提高预测概率
沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485