ROC曲线与交叉验证

接收者操作特征（ROC）曲线是一种用于评估二分类系统性能的工具。它通过比较真阳性率（TPR）和假阳性率（FPR）来展示模型的性能。在ROC曲线上，理想情况下的点是左上角，即FPR为零，TPR为一。虽然这种情况在现实中很少见，但更大的曲线下面积（AUC）通常意味着更好的性能。ROC曲线的“陡峭度”也很重要，因为它理想地最大化了TPR，同时最小化了FPR。

本例展示了不同数据集的ROC响应，这些数据集是通过K折交叉验证生成的。通过这些曲线，可以计算出平均AUC，并观察当训练集被分割成不同子集时曲线的方差。这大致显示了分类器输出如何受到训练数据变化的影响，以及由K折交叉验证生成的不同分割之间的差异。

为了准备数据，导入了鸢尾花植物数据集，该数据集包含3个类别，每个类别对应一种鸢尾花植物。其中一个类别可以从其他两个类别中线性分离出来；后者则不能相互线性分离。在接下来的步骤中，通过丢弃“virginica”类别（class_id=2）来二值化数据集。这意味着“versicolor”类别（class_id=1）被视为正类，“setosa”作为负类（class_id=0）。

为了使问题更具挑战性，还添加了噪声特征。然后，运行了一个带有交叉验证的SVC分类器，并逐折绘制ROC曲线。注意，定义偶然水平（虚线ROC曲线）的基线是一个总是预测最频繁类别的分类器。

代码实现


import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import StratifiedKFold
from sklearn import svm
from sklearn.metrics import RocCurveDisplay, auc

# 加载数据集
iris = load_iris()
X, y = iris.data, iris.target
X, y = X[y != 2], y[y != 2]  # 二值化数据集

# 添加噪声特征
random_state = np.random.RandomState(0)
n_samples, n_features = X.shape
X = np.concatenate([X, random_state.randn(n_samples, 200 * n_features)], axis=1)

# 设置交叉验证
n_splits = 6
cv = StratifiedKFold(n_splits=n_splits)

# 初始化分类器
classifier = svm.SVC(kernel="linear", probability=True, random_state=random_state)

# 初始化绘图
fig, ax = plt.subplots(figsize=(6, 6))
mean_fpr = np.linspace(0, 1, 100)
tprs = []
aucs = []

# 交叉验证和绘制ROC曲线
for fold, (train, test) in enumerate(cv.split(X, y)):
    classifier.fit(X[train], y[train])
    viz = RocCurveDisplay.from_estimator(classifier, X[test], y[test], name=f"ROC fold {fold}", alpha=0.3, lw=1, ax=ax)
    interp_tpr = np.interp(mean_fpr, viz.fpr, viz.tpr)
    interp_tpr[0] = 0.0
    tprs.append(interp_tpr)
    aucs.append(viz.roc_auc)

# 计算平均AUC和标准差
mean_tpr = np.mean(tprs, axis=0)
mean_tpr[-1] = 1.0
mean_auc = auc(mean_fpr, mean_tpr)
std_auc = np.std(aucs)

# 绘制平均ROC曲线和标准差
ax.plot(mean_fpr, mean_tpr, color="b", label=r"Mean ROC (AUC = %0.2f $\pm$ %0.2f)" % (mean_auc, std_auc), lw=2, alpha=0.8)
std_tpr = np.std(tprs, axis=0)
tprs_upper = np.minimum(mean_tpr + std_tpr, 1)
tprs_lower = np.maximum(mean_tpr - std_tpr, 0)
ax.fill_between(mean_fpr, tprs_lower, tprs_upper, color="grey", alpha=0.2, label=r"$\pm$ 1 std. dev.")

# 设置图表标题和图例
ax.set(xlabel="False Positive Rate", ylabel="True Positive Rate", title=f"Mean ROC curve with variability\n(Positive label '{iris.target_names[1]}')")
ax.legend(loc="lower right")
plt.show()

随机搜索与网格搜索的比较

本文比较了随机搜索和网格搜索在优化线性SVM的超参数时的效果和效率。

网格搜索与连续减半搜索比较

本文比较了在支持向量机(SVC)估计器中，使用连续减半搜索(HalvingGridSearchCV)和网格搜索(GridSearchCV)进行参数搜索的效果，并展示了两者的效率和准确性。

ROC曲线与交叉验证

代码实现

随机搜索与网格搜索的比较

网格搜索与连续减半搜索比较

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485

ROC曲线与交叉验证

代码实现

随机搜索与网格搜索的比较

网格搜索与连续减半搜索比较

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢 联系电话：17898875485

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485