在机器学习领域,经常遇到两种类型的问题:回归问题和分类问题。回归问题涉及到的因变量是连续的,而分类问题中的因变量是离散的。构建机器学习模型时,会使用多种评估指标来检验模型的质量和性能。对于分类模型,常用的评估指标包括准确率、混淆矩阵、分类报告(精确度、召回率、F1分数)和AUC-ROC曲线。本文将深入探讨最常见且著名的评估指标——混淆矩阵,并详细解释其各个组成部分。
如果已经熟悉混淆矩阵,请直接跳至文章的第四部分。混淆矩阵是实际值与预测值的视觉表示。它衡量机器学习分类模型的性能,并呈现为表格结构。在二元分类问题中,混淆矩阵看起来像这样:
混淆矩阵代表了实际值与预测值的不同组合。逐一定义它们:
TP(真正例)
:实际为正类且预测为正类的数据点。FP(假正例)
:实际为负类但错误预测为正类的值。也称为第一类错误。FN(假负例)
:实际为正类但错误预测为负类的值。也称为第二类错误。TN(真负例)
:实际为负类且预测为负类的数据点。以股市崩盘预测项目为例。这是一个二元分类问题,其中1表示股市将崩盘,0表示股市不会崩盘。假设数据集中有1000条记录。让看看以下混淆矩阵:
在这个矩阵中,可以这样分析模型:
准确率:通过将正确预测的总数除以所有预测来计算。
召回率/敏感度:召回率是检查正确预测的正类结果占总正类结果的比例。
精确度:精确度检查在所有正类预测结果中,实际为正类结果的比例。
F贝塔分数:F贝塔分数是精确度和召回率的调和平均值,它捕捉了两者的贡献。贡献取决于以下公式中的贝塔值。默认的贝塔值为1,这给F1分数的公式,其中精确度和召回率的贡献相同。F1分数越高,模型越好。贝塔值<1时,更重视精确度而不是召回率;贝塔值>1时,更重视召回率。
可以使用上述股市崩盘示例计算所有上述指标的值。