在本示例中,将探索如何使用邻域成分分析(NCA)来学习一个距离度量,该度量可以最大化最近邻分类的准确性。通过可视化的方法,可以比较原始点空间与通过NCA学习到的距离度量。更多详细信息,请参考用户指南。
首先,创建了一个包含9个样本的3类数据集,并在原始空间中绘制这些点。在这个例子中,关注点编号3的分类。点编号3与其他点之间的连接线厚度与它们之间的距离成比例。
import matplotlib.pyplot as plt
import numpy as np
from matplotlib import cm
from scipy.special import logsumexp
from sklearn.datasets import make_classification
from sklearn.neighbors import NeighborhoodComponentsAnalysis
# 创建数据集
X, y = make_classification(n_samples=9, n_features=2, n_informative=2, n_redundant=0, n_classes=3, n_clusters_per_class=1, class_sep=1.0, random_state=0)
# 绘制原始点
plt.figure(1)
ax = plt.gca()
for i in range(X.shape[0]):
ax.text(X[i, 0], X[i, 1], str(i), va="center", ha="center")
ax.scatter(X[i, 0], X[i, 1], s=300, c=cm.Set1(y[i]), alpha=0.4)
ax.set_title("原始点")
ax.axes.get_xaxis().set_visible(False)
ax.axes.get_yaxis().set_visible(False)
ax.axis("equal")
在上述代码中,首先导入了必要的库,然后使用make_classification
函数创建了一个数据集。接着,使用matplotlib
库来绘制这些点,并设置了图表的标题和轴的可见性。
接下来,使用NCA来学习一个嵌入,并在变换后的点上绘制这些点。然后,取嵌入并找到最近邻。
# 使用NCA学习嵌入
nca = NeighborhoodComponentsAnalysis(max_iter=30, random_state=0)
nca.fit(X, y)
# 绘制嵌入后的点
plt.figure(2)
ax2 = plt.gca()
X_embedded = nca.transform(X)
relate_point(X_embedded, i, ax2)
for i in range(len(X)):
ax2.text(X_embedded[i, 0], X_embedded[i, 1], str(i), va="center", ha="center")
ax2.scatter(X_embedded[i, 0], X_embedded[i, 1], s=300, c=cm.Set1(y[i]), alpha=0.4)
ax2.set_title("NCA嵌入")
ax2.axes.get_xaxis().set_visible(False)
ax2.axes.get_yaxis().set_visible(False)
ax2.axis("equal")
plt.show()
在这段代码中,首先创建了一个NeighborhoodComponentsAnalysis
实例,并使用fit
方法来学习嵌入。然后,使用transform
方法将原始数据转换为嵌入空间,并绘制了转换后的点。