K最近邻分类器与网格搜索优化

在机器学习领域,K最近邻(KNeighborsClassifier)算法是一种基于距离的分类方法,它通过测量不同特征值之间的距离来进行分类。尽管KNeighborsClassifier能够内部计算最近邻,但预先计算这些最近邻可以带来一些好处,比如更精细的参数控制、多次使用时的缓存,或者自定义实现。

在本文中,将使用管道的缓存特性来缓存KNeighborsClassifier在多次拟合过程中的最近邻图。首次调用时,由于需要计算邻居图,所以速度较慢;而后续调用则更快,因为不需要重新计算图。虽然由于数据集较小,这里的持续时间很短,但当数据集变大,或者需要搜索的参数网格较大时,这种优化的收益可能会更加显著。

以下是使用Python的scikit-learn库实现上述优化的代码示例。首先,导入了必要的模块,并加载了一个数字识别的数据集。然后,定义了一个KNeighborsTransformer来计算最近邻图,并设置了一个KNeighborsClassifier来使用这个图进行分类。还创建了一个临时目录来缓存图的计算结果,以便在调整分类器的超参数时可以重复使用。

from tempfile import TemporaryDirectory import matplotlib.pyplot as plt from sklearn.datasets import load_digits from sklearn.model_selection import GridSearchCV from sklearn.neighbors import KNeighborsClassifier, KNeighborsTransformer from sklearn.pipeline import Pipeline # 加载数据集 X, y = load_digits(return_X_y=True) # 定义最近邻的数量列表 n_neighbors_list = [1, 2, 3, 4, 5, 6, 7, 8, 9] # 创建一个变换器来计算最近邻图 graph_model = KNeighborsTransformer(n_neighbors=max(n_neighbors_list), mode="distance") # 创建一个分类器模型,使用预计算的距离 classifier_model = KNeighborsClassifier(metric="precomputed") # 使用临时目录来缓存图的计算结果 with TemporaryDirectory(prefix="sklearn_graph_cache_") as tmpdir: # 创建一个完整的模型管道 full_model = Pipeline(steps=[("graph", graph_model), ("classifier", classifier_model)], memory=tmpdir) # 定义参数网格 param_grid = {"classifier__n_neighbors": n_neighbors_list} # 创建网格搜索模型 grid_model = GridSearchCV(full_model, param_grid) # 拟合模型 grid_model.fit(X, y) # 绘制网格搜索的结果 fig, axes = plt.subplots(1, 2, figsize=(8, 4)) axes[0].errorbar(x=n_neighbors_list, y=grid_model.cv_results_["mean_test_score"], yerr=grid_model.cv_results_["std_test_score"]) axes[0].set(xlabel="n_neighbors", title="分类准确率") axes[1].errorbar(x=n_neighbors_list, y=grid_model.cv_results_["mean_fit_time"], yerr=grid_model.cv_results_["std_fit_time"], color="r") axes[1].set(xlabel="n_neighbors", title="拟合时间(含缓存)") fig.tight_layout() plt.show()

上述代码首先定义了一个包含不同数量最近邻的列表,然后创建了一个KNeighborsTransformer对象来计算最近邻图,并设置了一个KNeighborsClassifier对象来使用这个图进行分类。还为模型管道指定了一个临时目录来缓存图的计算结果,这样在调整分类器的超参数时就可以避免重复计算。

通过使用网格搜索(GridSearchCV),可以系统地遍历不同的参数组合,找到最佳的参数设置。在这个过程中,由于最近邻图的计算结果被缓存,所以当使用相同的图进行多次拟合时,可以显著提高效率。

最后,使用matplotlib库绘制了网格搜索的结果,包括不同数量最近邻下的分类准确率和拟合时间。这可以帮助直观地了解不同参数设置对模型性能的影响。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485