K-Means聚类算法演示

在本演示中，将探讨K-Means聚类算法在手写数字数据集上的表现，并通过不同的初始化策略来比较运行时间和聚类结果的质量。手写数字数据集包含了从0到9的手写数字图像，目标是将这些图像分组，使得同一组中的图像代表相同的数字。

数据集加载

首先，需要加载手写数字数据集。这个数据集包含了1797个样本，每个样本有64个特征，代表图像中的像素值。可以通过以下代码来加载数据集：


from sklearn.datasets import load_digits
data, labels = load_digits(return_X_y=True)
n_samples, n_features = data.shape
n_digits = np.unique(labels).size
print(f"# digits: {n_digits}; # samples: {n_samples}; # features {n_features}")

输出结果将显示数据集中的数字种类数、样本数和特征数。

评估基准定义

接下来，定义一个评估基准来比较不同的K-Means初始化方法。在这个基准中，将创建一个管道，使用StandardScaler对数据进行缩放，然后训练并计时管道的拟合过程。此外，还将通过不同的指标来衡量聚类的性能。


from sklearn import metrics
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler

def bench_k_means(kmeans, name, data, labels):
    t0 = time()
    estimator = make_pipeline(StandardScaler(), kmeans).fit(data)
    fit_time = time() - t0
    results = [name, fit_time, estimator[-1].inertia_]
    clustering_metrics = [
        metrics.homogeneity_score,
        metrics.completeness_score,
        metrics.v_measure_score,
        metrics.adjusted_rand_score,
        metrics.adjusted_mutual_info_score,
    ]
    results += [m(labels, estimator[-1].labels_) for m in clustering_metrics]
    results += [
        metrics.silhouette_score(data, estimator[-1].labels_, metric="euclidean", sample_size=300)
    ]
    return results

上述代码定义了一个函数bench_k_means，用于评估K-Means初始化方法的性能。函数接受一个K-Means实例、策略名称、数据和标签作为输入，并返回包括运行时间、惯性和聚类质量指标的结果。

基准测试运行

将比较三种初始化方法：k-means++、随机初始化和基于PCA投影的初始化。对于k-means++和随机初始化，将分别运行4次以评估其随机性；而对于基于PCA的初始化，由于其确定性，只需要运行一次。


from sklearn.cluster import KMeans
from sklearn.decomposition import PCA

print("="*82)
print("init\t\ttime\tinertia\t homo\tcompl\tv-meas\tARI\tAMI\tsilhouette")
kmeans = KMeans(init="k-means++", n_clusters=n_digits, n_init=4, random_state=0)
bench_k_means(kmeans=kmeans, name="k-means++", data=data, labels=labels)

kmeans = KMeans(init="random", n_clusters=n_digits, n_init=4, random_state=0)
bench_k_means(kmeans=kmeans, name="random", data=data, labels=labels)

pca = PCA(n_components=n_digits).fit(data)
kmeans = KMeans(init=pca.components_, n_clusters=n_digits, n_init=1)
bench_k_means(kmeans=kmeans, name="PCA-based", data=data, labels=labels)
print("="*82)

运行上述代码后，将得到每种初始化方法的性能比较结果，包括运行时间、惯性和聚类质量指标。

结果可视化

PCA可以将数据从原始的64维空间投影到低维空间，例如2维空间。这样，就可以在新的空间中绘制数据和聚类的可视化展示。


import matplotlib.pyplot as plt

reduced_data = PCA(n_components=2).fit_transform(data)
kmeans = KMeans(init="k-means++", n_clusters=n_digits, n_init=4)
kmeans.fit(reduced_data)

h = 0.02
x_min, x_max = reduced_data[:, 0].min() - 1, reduced_data[:, 0].max() + 1
y_min, y_max = reduced_data[:, 1].min() - 1, reduced_data[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))

Z = kmeans.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

plt.figure(1)
plt.clf()
plt.imshow(Z, interpolation="nearest", extent=(xx.min(), xx.max(), yy.min(), yy.max()), cmap=plt.cm.Paired, aspect="auto", origin="lower")
plt.plot(reduced_data[:, 0], reduced_data[:, 1], "k.", markersize=2)
centroids = kmeans.cluster_centers_
plt.scatter(centroids[:, 0], centroids[:, 1], marker="x", s=169, linewidths=3, color="w", zorder=10)
plt.title("K-means clustering on the digits dataset (PCA-reduced data)\nCentroids are marked with white cross")
plt.xlim(x_min, x_max)
plt.ylim(y_min, y_max)
plt.xticks(())
plt.yticks(())
plt.show()

上述代码将数据投影到2维空间，并使用K-Means聚类算法对数据进行聚类。然后，绘制了数据点和聚类中心，聚类中心用白色的叉号标记。

脚本总运行时间

使用k-means聚类文本文档
比较K-Means和MiniBatchKMeans聚类算法
二分K-Means与常规K-Means性能比较
GMM初始化方法

k-means聚类算法的假设条件演示

本文通过生成不同类型的数据集来展示k-means聚类算法在不同情况下的表现，包括非最优聚类数量、各向异性分布、不等方差和大小不一的聚类。

K-Means++ 初始质心选择示例

通过sklearn.cluster.kmeans_plusplus函数生成聚类初始种子的示例，展示了K-Means++初始化方法的输出结果。

K-Means聚类算法演示

数据集加载

评估基准定义

基准测试运行

结果可视化

脚本总运行时间

k-means聚类算法的假设条件演示

K-Means++ 初始质心选择示例

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485

K-Means聚类算法演示

数据集加载

评估基准定义

基准测试运行

结果可视化

脚本总运行时间

k-means聚类算法的假设条件演示

K-Means++ 初始质心选择示例

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢 联系电话：17898875485

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485