多指标网格搜索示例

在机器学习中,模型的选择和调优是一个重要的步骤。网格搜索(GridSearchCV)是一种常用的方法,它通过遍历给定的参数网格来寻找最优的模型参数。在scikit-learn库中,可以通过设置评分参数(scoring)来使用多个评估指标同时进行网格搜索。下面是一个使用决策树分类器(DecisionTreeClassifier)和多个评估指标进行网格搜索的示例。

首先,需要导入必要的库。这包括numpy、matplotlib、scikit-learn中的一些模块,如make_hastie_10_2、accuracy_score、make_scorer、GridSearchCV和DecisionTreeClassifier。

import numpy as np from matplotlib import pyplot as plt from sklearn.datasets import make_hastie_10_2 from sklearn.metrics import accuracy_score, make_scorer from sklearn.model_selection import GridSearchCV from sklearn.tree import DecisionTreeClassifier

接下来,生成一个数据集,并定义评分参数。在这个例子中,使用AUC和准确率(Accuracy)作为评估指标。

X, y = make_hastie_10_2(n_samples=8000, random_state=42) scoring = { "AUC": "roc_auc", "Accuracy": make_scorer(accuracy_score) }

然后,设置网格搜索的参数,包括决策树的最小样本分割数(min_samples_split)的范围,并指定使用AUC作为refit属性,以便在最佳参数设置下重新训练模型。

gs = GridSearchCV( DecisionTreeClassifier(random_state=42), param_grid={ "min_samples_split": range(2, 403, 20) }, scoring=scoring, refit="AUC", n_jobs=2, return_train_score=True ) gs.fit(X, y)

网格搜索完成后,可以通过gs.cv_results_获取每个评分器的得分,并绘制结果。

plt.figure(figsize=(13, 13)) plt.title("GridSearchCV evaluating using multiple scorers simultaneously", fontsize=16) plt.xlabel("min_samples_split") plt.ylabel("Score") ax = plt.gca() ax.set_xlim(0, 402) ax.set_ylim(0.73, 1) X_axis = np.array(results["param_min_samples_split"].data, dtype=float) for scorer, color in zip(sorted(scoring), ["g", "k"]): for sample, style in (("train", "--"), ("test", "-")): sample_score_mean = results["mean_%s_%s" % (sample, scorer)] sample_score_std = results["std_%s_%s" % (sample, scorer)] ax.fill_between(X_axis, sample_score_mean - sample_score_std, sample_score_mean + sample_score_std, alpha=0.1 if sample == "test" else 0, color=color) ax.plot(X_axis, sample_score_mean, style, color=color, alpha=1 if sample == "test" else 0.7, label="%s (%s)" % (scorer, sample)) best_index = np.nonzero(results["rank_test_%s" % scorer] == 1)[0][0] best_score = results["mean_test_%s" % scorer][best_index] ax.plot([X_axis[best_index], ] * 2, [0, best_score], linestyle="-.", color=color, marker="x", markeredgewidth=3, ms=8) ax.annotate("%0.2f" % best_score, (X_axis[best_index], best_score + 0.005)) plt.legend(loc="best") plt.grid(False) plt.show()

通过这个示例,可以看到如何使用scikit-learn的GridSearchCV进行多指标网格搜索,并使用决策树分类器进行模型选择和评估。这种方法可以帮助找到最优的模型参数,从而提高模型的性能。

在实际应用中,可以根据具体问题选择合适的评估指标,并调整参数网格的范围。此外,还可以尝试使用其他类型的模型,如支持向量机、随机森林等,以找到最适合特定问题的模型。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485