ROC曲线与交叉验证的方差分析

接收者操作特征(ROC)曲线是评估分类器性能的一种工具,它通过比较真阳性率(TPR)和假阳性率(FPR)来展示模型的性能。在ROC曲线上,理想情况下的点位于左上角,即FPR为零,TPR为一。虽然这种情况在现实中很少见,但更大的曲线下面积(AUC)通常意味着更好的性能。ROC曲线的“陡峭度”也很重要,因为希望在最小化FPR的同时最大化TPR。

本例展示了通过K折交叉验证生成的不同数据集的ROC响应。通过这些曲线,可以计算出平均AUC,并观察当训练集被分割成不同子集时曲线的方差。这大致展示了分类器输出如何受到训练数据变化的影响,以及由K折交叉验证生成的不同分割之间的差异。

数据加载与准备

导入了包含3个类别的鸢尾花植物数据集,每个类别对应一种鸢尾花植物。其中一个类别可以从其他两个类别中线性分离出来;后者则不能。在下面的步骤中,通过丢弃“virginica”类别(class_id=2)来二值化数据集。这意味着“versicolor”类别(class_id=1)被视为正类,“setosa”作为负类(class_id=0)。

import numpy as np from sklearn.datasets import load_iris iris = load_iris() target_names = iris.target_names X, y = iris.data, iris.target X, y = X[y != 2], y[y != 2] n_samples, n_features = X.shape # 添加噪声特征以增加问题的难度 random_state = np.random.RandomState(0) X = np.concatenate([X, random_state.randn(n_samples, 200 * n_features)], axis=1)

分类与ROC分析

在这里,运行了一个带有交叉验证的SVC分类器,并按折叠方式绘制ROC曲线。注意,定义机会水平(虚线ROC曲线)的基线是一个总是预测最频繁类别的分类器。

import matplotlib.pyplot as plt from sklearn import svm from sklearn.metrics import RocCurveDisplay, auc from sklearn.model_selection import StratifiedKFold n_splits = 6 cv = StratifiedKFold(n_splits=n_splits) classifier = svm.SVC(kernel="linear", probability=True, random_state=random_state) tprs = [] aucs = [] mean_fpr = np.linspace(0, 1, 100) fig, ax = plt.subplots(figsize=(6, 6)) for fold, (train, test) in enumerate(cv.split(X, y)): classifier.fit(X[train], y[train]) viz = RocCurveDisplay.from_estimator(classifier, X[test], y[test], name=f"ROC fold {fold}", alpha=0.3, lw=1, ax=ax, plot_chance_level=(fold == n_splits - 1)) interp_tpr = np.interp(mean_fpr, viz.fpr, viz.tpr) interp_tpr[0] = 0.0 tprs.append(interp_tpr) aucs.append(viz.roc_auc) mean_tpr = np.mean(tprs, axis=0) mean_tpr[-1] = 1.0 mean_auc = auc(mean_fpr, mean_tpr) std_auc = np.std(aucs) ax.plot(mean_fpr, mean_tpr, color="b", label=r"Mean ROC (AUC = %0.2f $\pm$ %0.2f)" % (mean_auc, std_auc), lw=2, alpha=0.8) std_tpr = np.std(tprs, axis=0) tprs_upper = np.minimum(mean_tpr + std_tpr, 1) tprs_lower = np.maximum(mean_tpr - std_tpr, 0) ax.fill_between(mean_fpr, tprs_lower, tprs_upper, color="grey", alpha=0.2, label=r"$\pm$ 1 std. dev.") ax.set(xlabel="False Positive Rate", ylabel="True Positive Rate", title=f"Mean ROC curve with variability\n(Positive label '{target_names[1]}')") ax.legend(loc="lower right") plt.show()
沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485