K-means聚类算法初始化策略

在聚类分析中，K-means算法是一种广泛使用的技术，它通过迭代地移动聚类中心来最小化样本到其最近聚类中心的距离。然而，K-means算法的性能很大程度上依赖于初始聚类中心的选择。本文将探讨不同的初始化策略对K-means算法运行时间和结果质量的影响。

数据集加载

首先加载了一个包含0到9的手写数字的“digits”数据集。在聚类分析中，希望将图像分组，使得同一张图像上的手写数字是相同的。使用Python的NumPy库和scikit-learn库中的load_digits函数来加载数据集。


import numpy as np
from sklearn.datasets import load_digits

data, labels = load_digits(return_X_y=True)
(n_samples, n_features), n_digits = data.shape, np.unique(labels).size
print(f"# digits: {n_digits}; # samples: {n_samples}; # features {n_features}")

上述代码片段展示了如何加载数据集，并打印出数据集中的数字种类数、样本数和特征数。

评估基准定义

在定义评估基准时，目标是比较不同的KMeans初始化方法。基准将包括创建一个使用StandardScaler进行数据缩放的管道；训练并计时管道拟合；通过不同的指标测量获得的聚类的性能。


from time import time
from sklearn import metrics
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler

def bench_k_means(kmeans, name, data, labels):
    ""“评估KMeans初始化方法的基准测试。
    参数：
    kmeans : KMeans实例
        一个已经设置了初始化方法的:class:`~sklearn.cluster.KMeans`实例。
    name : str
        给策略命名。它将用于在表格中显示结果。
    data : ndarray形状(n_samples, n_features)
        要聚类的数据。
    labels : ndarray形状(n_samples,)
        用于计算需要一些监督的聚类指标的真实标签。
    """
    t0 = time()
    estimator = make_pipeline(StandardScaler(), kmeans).fit(data)
    fit_time = time() - t0
    results = [name, fit_time, estimator[-1].inertia_]
    # 定义只需要真实标签和估计器标签的指标
    clustering_metrics = [
        metrics.homogeneity_score,
        metrics.completeness_score,
        metrics.v_measure_score,
        metrics.adjusted_rand_score,
        metrics.adjusted_mutual_info_score,
    ]
    results += [m(labels, estimator[-1].labels_) for m in clustering_metrics]
    # 轮廓系数需要完整的数据集
    results += [
        metrics.silhouette_score(data, estimator[-1].labels_, metric="euclidean", sample_size=300)
    ]
    # 显示结果
    formatter_result = "{:9s}\t{:.3f}s\t{:.0f}\t{:.3f}\t{:.3f}\t{:.3f}\t{:.3f}\t{:.3f}"
    print(formatter_result.format(*results))

上述代码定义了一个基准测试函数bench_k_means，它接受一个KMeans实例、策略名称、数据和标签作为输入，并返回包括运行时间、惯性、同质性、完整性、V度量、调整后的Rand指数、调整后的互信息和轮廓系数在内的结果。

基准测试运行

将比较三种方法：使用k-means++的初始化，这是一种随机方法，将运行初始化4次；随机初始化，这也是一种随机方法，将运行初始化4次；基于PCA投影的初始化，将使用PCA的组件来初始化KMeans。这种方法是确定性的，只需要一次初始化。


from sklearn.cluster import KMeans
from sklearn.decomposition import PCA

print("="*82)
print("init\t\ttime\tinertia\t homo\tcompl\tv-meas\tARI\tAMI\tsilhouette")
kmeans = KMeans(init="k-means++", n_clusters=n_digits, n_init=4, random_state=0)
bench_k_means(kmeans=kmeans, name="k-means++", data=data, labels=labels)
kmeans = KMeans(init="random", n_clusters=n_digits, n_init=4, random_state=0)
bench_k_means(kmeans=kmeans, name="random", data=data, labels=labels)
pca = PCA(n_components=n_digits).fit(data)
kmeans = KMeans(init=pca.components_, n_clusters=n_digits, n_init=1)
bench_k_means(kmeans=kmeans, name="PCA-based", data=data, labels=labels)
print("="*82)

上述代码运行了基准测试，比较了三种不同的初始化方法，并打印出了每种方法的性能指标。

PCA降维后的结果可视化

PCA可以将数据从原始的64维空间投影到低维空间。然后，可以使用PCA将数据投影到2维空间，并在这个新空间中绘制数据和聚类。


import matplotlib.pyplot as plt

reduced_data = PCA(n_components=2).fit_transform(data)
kmeans = KMeans(init="k-means++", n_clusters=n_digits, n_init=4)
kmeans.fit(reduced_data)

# 网格的步长。减小以提高VQ的质量。
h = 0.02
# 网格中的点 [x_min, x_max]x[y_min, y_max]。
# 绘制决策边界。为此，将为网格中的每个点分配一个颜色。
x_min, x_max = reduced_data[:, 0].min() - 1, reduced_data[:, 0].max() + 1
y_min, y_max = reduced_data[:, 1].min() - 1, reduced_data[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))

# 为网格中的每个点获得标签。使用最后训练的模型。
Z = kmeans.predict(np.c_[xx.ravel(), yy.ravel()])
# 将结果放入颜色图
Z = Z.reshape(xx.shape)
plt.figure(1)
plt.clf()
plt.imshow(Z, interpolation="nearest", extent=(xx.min(), xx.max(), yy.min(), yy.max()), cmap=plt.cm.Paired, aspect="auto", origin="lower")
plt.plot(reduced_data[:, 0], reduced_data[:, 1], "k.", markersize=2)
# 将质心绘制为白色的X
centroids = kmeans.cluster_centers_
plt.scatter(centroids[:, 0], centroids[:, 1], marker="x", s=169, linewidths=3, color="w", zorder=10)
plt.title("K-means clustering on the digits dataset (PCA-reduced data)\nCentroids are marked with white cross")
plt.xlim(x_min, x_max)
plt.ylim(y_min, y_max)
plt.xticks(())
plt.yticks(())
plt.show()

上述代码使用PCA将数据降维到2维，并使用K-means算法对降维后的数据进行聚类。然后，它绘制了聚类的决策边界、数据点和聚类中心。

脚本总运行时间

脚本的总运行时间为0分钟0.806秒。

使用k-means聚类文本文档
使用K-Means进行颜色量化
比较K-Means和MiniBatchKMeans聚类算法
K-means聚类

数据聚类分析与KMeans算法

本文探讨了KMeans聚类算法在处理不同数据分布时的表现，包括非等方差、非等大小聚类，以及如何通过高斯混合模型解决这些问题。

K-Means++聚类算法初始化种子生成

本页面介绍了K-Means++聚类算法的初始化种子生成过程，包括Python代码示例和结果展示。

K-means聚类算法初始化策略

数据集加载

评估基准定义

基准测试运行

PCA降维后的结果可视化

脚本总运行时间

数据聚类分析与KMeans算法

K-Means++聚类算法初始化种子生成

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485

K-means聚类算法初始化策略

数据集加载

评估基准定义

基准测试运行

PCA降维后的结果可视化

脚本总运行时间

数据聚类分析与KMeans算法

K-Means++聚类算法初始化种子生成

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢 联系电话：17898875485

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485