最近邻分类是一种基于实例的学习算法,它通过测量不同特征值之间的距离来预测数据点的类别。而邻域成分分析(Neighborhood Components Analysis,简称NCA)是一种线性变换方法,旨在最大化训练集上的随机最近邻分类准确率。本文将展示如何使用这两种方法对数据进行分类,并绘制出决策边界。
使用鸢尾花数据集作为示例,该数据集包含150个样本,每个样本有4个特征。为了简化问题,只选取其中的两个特征进行分析。数据集被分为训练集和测试集,其中测试集占总数据的70%。
最近邻分类器通过计算数据点之间的欧几里得距离来确定其类别。在本例中,使用1个邻居(即k=1)来预测新数据点的类别。这种方法简单直观,但可能对噪声和异常值敏感。
邻域成分分析是一种降维技术,它通过学习数据的线性变换来提高最近邻分类器的性能。NCA的目标是找到一个线性变换,使得变换后的数据在训练集上的最近邻分类准确率最大化。
为了比较最近邻分类器和经过NCA变换后的最近邻分类器的性能,绘制了它们的决策边界。决策边界是分类器用来区分不同类别的边界,它可以帮助直观地理解分类器是如何工作的。
以下是使用Python和scikit-learn库实现最近邻分类器和NCA的代码示例。代码中包含了数据加载、模型训练、决策边界绘制等步骤。
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
from sklearn import datasets
from sklearn.inspection import DecisionBoundaryDisplay
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier, NeighborhoodComponentsAnalysis
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
n_neighbors = 1
dataset = datasets.load_iris()
X, y = dataset.data[:, [0, 2]], dataset.target
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, test_size=0.7, random_state=42)
h = 0.05 # step size in the mesh
# Create color maps
cmap_light = ListedColormap(['#FFAAAA', '#AAFFAA', '#AAAAFF'])
cmap_bold = ListedColormap(['#FF0000', '#00FF00', '#0000FF'])
names = ["KNN", "NCA, KNN"]
classifiers = [
Pipeline([
("scaler", StandardScaler()),
("knn", KNeighborsClassifier(n_neighbors=n_neighbors)),
]),
Pipeline([
("scaler", StandardScaler()),
("nca", NeighborhoodComponentsAnalysis()),
("knn", KNeighborsClassifier(n_neighbors=n_neighbors)),
]),
]
for name, clf in zip(names, classifiers):
clf.fit(X_train, y_train)
score = clf.score(X_test, y_test)
_, ax = plt.subplots()
DecisionBoundaryDisplay.from_estimator(clf, X, cmap=cmap_light, alpha=0.8, ax=ax, response_method="predict", plot_method="pcolormesh", shading="auto")
# Plot also the training and testing points
plt.scatter(X[:, 0], X[:, 1], c=y, cmap=cmap_bold, edgecolor='k', s=20)
plt.title(f"{name} (k={n_neighbors})")
plt.text(0.9, 0.1, f"{score:.2f}", size=15, ha="center", va="center", transform=plt.gca().transAxes,)
plt.show()
运行上述代码后,可以得到两个分类器的决策边界图,以及它们在测试集上的准确率。通过比较这些结果,可以评估NCA对最近邻分类器性能的影响。