K最近邻分类器与网格搜索优化

在机器学习领域，K最近邻(KNeighborsClassifier)算法是一种基于距离的分类方法，它通过测量不同特征值之间的距离来进行分类。尽管KNeighborsClassifier能够内部计算最近邻，但预先计算这些最近邻可以带来一些好处，比如更精细的参数控制、多次使用时的缓存，或者自定义实现。

在本文中，将使用管道的缓存特性来缓存KNeighborsClassifier在多次拟合过程中的最近邻图。首次调用时，由于需要计算邻居图，所以速度较慢；而后续调用则更快，因为不需要重新计算图。虽然由于数据集较小，这里的持续时间很短，但当数据集变大，或者需要搜索的参数网格较大时，这种优化的收益可能会更加显著。

以下是使用Python的scikit-learn库实现上述优化的代码示例。首先，导入了必要的模块，并加载了一个数字识别的数据集。然后，定义了一个KNeighborsTransformer来计算最近邻图，并设置了一个KNeighborsClassifier来使用这个图进行分类。还创建了一个临时目录来缓存图的计算结果，以便在调整分类器的超参数时可以重复使用。


from tempfile import TemporaryDirectory
import matplotlib.pyplot as plt
from sklearn.datasets import load_digits
from sklearn.model_selection import GridSearchCV
from sklearn.neighbors import KNeighborsClassifier, KNeighborsTransformer
from sklearn.pipeline import Pipeline

# 加载数据集
X, y = load_digits(return_X_y=True)

# 定义最近邻的数量列表
n_neighbors_list = [1, 2, 3, 4, 5, 6, 7, 8, 9]

# 创建一个变换器来计算最近邻图
graph_model = KNeighborsTransformer(n_neighbors=max(n_neighbors_list), mode="distance")
# 创建一个分类器模型，使用预计算的距离
classifier_model = KNeighborsClassifier(metric="precomputed")

# 使用临时目录来缓存图的计算结果
with TemporaryDirectory(prefix="sklearn_graph_cache_") as tmpdir:
    # 创建一个完整的模型管道
    full_model = Pipeline(steps=[("graph", graph_model), ("classifier", classifier_model)], memory=tmpdir)
    # 定义参数网格
    param_grid = {"classifier__n_neighbors": n_neighbors_list}
    # 创建网格搜索模型
    grid_model = GridSearchCV(full_model, param_grid)
    # 拟合模型
    grid_model.fit(X, y)

    # 绘制网格搜索的结果
    fig, axes = plt.subplots(1, 2, figsize=(8, 4))
    axes[0].errorbar(x=n_neighbors_list, y=grid_model.cv_results_["mean_test_score"], yerr=grid_model.cv_results_["std_test_score"])
    axes[0].set(xlabel="n_neighbors", title="分类准确率")
    axes[1].errorbar(x=n_neighbors_list, y=grid_model.cv_results_["mean_fit_time"], yerr=grid_model.cv_results_["std_fit_time"], color="r")
    axes[1].set(xlabel="n_neighbors", title="拟合时间（含缓存）")
    fig.tight_layout()
    plt.show()

上述代码首先定义了一个包含不同数量最近邻的列表，然后创建了一个KNeighborsTransformer对象来计算最近邻图，并设置了一个KNeighborsClassifier对象来使用这个图进行分类。还为模型管道指定了一个临时目录来缓存图的计算结果，这样在调整分类器的超参数时就可以避免重复计算。

通过使用网格搜索(GridSearchCV)，可以系统地遍历不同的参数组合，找到最佳的参数设置。在这个过程中，由于最近邻图的计算结果被缓存，所以当使用相同的图进行多次拟合时，可以显著提高效率。

最后，使用matplotlib库绘制了网格搜索的结果，包括不同数量最近邻下的分类准确率和拟合时间。这可以帮助直观地了解不同参数设置对模型性能的影响。

数据科学中的邻近分析技术

本文探讨了数据科学中邻近分析技术的应用，包括TSNE、核密度估计、最近邻分类和异常检测等。

鸢尾花数据集的K最近邻分类器决策边界分析

本网页通过Python代码演示了在鸢尾花数据集上使用K最近邻分类器，并分析了不同参数权重对决策边界的影响。

K最近邻分类器与网格搜索优化

数据科学中的邻近分析技术

鸢尾花数据集的K最近邻分类器决策边界分析

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：15216758379

K最近邻分类器与网格搜索优化

数据科学中的邻近分析技术

鸢尾花数据集的K最近邻分类器决策边界分析

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢 联系电话：15216758379

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：15216758379