最近邻分类与邻域成分分析

最近邻分类是一种基于实例的学习算法,它通过测量不同特征值之间的距离来预测数据点的类别。而邻域成分分析(Neighborhood Components Analysis,简称NCA)是一种线性变换方法,旨在最大化训练集上的随机最近邻分类准确率。本文将展示如何使用这两种方法对数据进行分类,并绘制出决策边界

数据集与特征选择

使用鸢尾花数据集作为示例,该数据集包含150个样本,每个样本有4个特征。为了简化问题,只选取其中的两个特征进行分析。数据集被分为训练集和测试集,其中测试集占总数据的70%。

最近邻分类器

最近邻分类器通过计算数据点之间的欧几里得距离来确定其类别。在本例中,使用1个邻居(即k=1)来预测新数据点的类别。这种方法简单直观,但可能对噪声和异常值敏感。

邻域成分分析

邻域成分分析是一种降维技术,它通过学习数据的线性变换来提高最近邻分类器的性能。NCA的目标是找到一个线性变换,使得变换后的数据在训练集上的最近邻分类准确率最大化。

决策边界的绘制

为了比较最近邻分类器和经过NCA变换后的最近邻分类器的性能,绘制了它们的决策边界。决策边界是分类器用来区分不同类别的边界,它可以帮助直观地理解分类器是如何工作的。

代码实现

以下是使用Python和scikit-learn库实现最近邻分类器和NCA的代码示例。代码中包含了数据加载、模型训练、决策边界绘制等步骤。

import matplotlib.pyplot as plt from matplotlib.colors import ListedColormap from sklearn import datasets from sklearn.inspection import DecisionBoundaryDisplay from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier, NeighborhoodComponentsAnalysis from sklearn.pipeline import Pipeline from sklearn.preprocessing import StandardScaler n_neighbors = 1 dataset = datasets.load_iris() X, y = dataset.data[:, [0, 2]], dataset.target X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, test_size=0.7, random_state=42) h = 0.05 # step size in the mesh # Create color maps cmap_light = ListedColormap(['#FFAAAA', '#AAFFAA', '#AAAAFF']) cmap_bold = ListedColormap(['#FF0000', '#00FF00', '#0000FF']) names = ["KNN", "NCA, KNN"] classifiers = [ Pipeline([ ("scaler", StandardScaler()), ("knn", KNeighborsClassifier(n_neighbors=n_neighbors)), ]), Pipeline([ ("scaler", StandardScaler()), ("nca", NeighborhoodComponentsAnalysis()), ("knn", KNeighborsClassifier(n_neighbors=n_neighbors)), ]), ] for name, clf in zip(names, classifiers): clf.fit(X_train, y_train) score = clf.score(X_test, y_test) _, ax = plt.subplots() DecisionBoundaryDisplay.from_estimator(clf, X, cmap=cmap_light, alpha=0.8, ax=ax, response_method="predict", plot_method="pcolormesh", shading="auto") # Plot also the training and testing points plt.scatter(X[:, 0], X[:, 1], c=y, cmap=cmap_bold, edgecolor='k', s=20) plt.title(f"{name} (k={n_neighbors})") plt.text(0.9, 0.1, f"{score:.2f}", size=15, ha="center", va="center", transform=plt.gca().transAxes,) plt.show()

运行上述代码后,可以得到两个分类器的决策边界图,以及它们在测试集上的准确率。通过比较这些结果,可以评估NCA对最近邻分类器性能的影响。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485