OPTICS聚类算法演示

OPTICS（Ordering Points To Identify the Clustering Structure）是一种基于密度的聚类算法，它能够识别出高密度的核心样本，并以此为基础扩展出不同的聚类。与DBSCAN算法相比，OPTICS不需要事先指定邻域的大小（即epsilon值），而是通过一个参数xi来控制聚类的最小密度。本演示使用生成的数据，这些数据被设计成具有不同密度的聚类，以便更直观地展示算法的效果。

在本例中，首先使用OPTICS算法的Xi聚类检测方法，然后通过设置特定的可达性阈值来模拟DBSCAN算法的效果。可以看到，通过改变DBSCAN中的阈值选择，可以恢复出OPTICS的Xi方法所识别的不同聚类。这种灵活性使得OPTICS算法在处理不同密度的聚类时具有优势。

为了生成样本数据，使用了numpy库中的随机数生成函数。通过设置不同的均值和标准差，创建了六个不同密度的聚类。这些聚类被设计成在二维空间中分布，以便可以通过图形化的方式直观地展示聚类结果。


import matplotlib.pyplot as plt
import numpy as np
from sklearn.cluster import OPTICS, cluster_optics_dbscan

# 设置随机种子以保证结果的可重复性
np.random.seed(0)

# 生成样本数据
n_points_per_cluster = 250
C1 = [-5, -2] + 0.8 * np.random.randn(n_points_per_cluster, 2)
C2 = [4, -1] + 0.1 * np.random.randn(n_points_per_cluster, 2)
C3 = [1, -2] + 0.2 * np.random.randn(n_points_per_cluster, 2)
C4 = [-2, 3] + 0.3 * np.random.randn(n_points_per_cluster, 2)
C5 = [3, -2] + 1.6 * np.random.randn(n_points_per_cluster, 2)
C6 = [5, 6] + 2 * np.random.randn(n_points_per_cluster, 2)
X = np.vstack((C1, C2, C3, C4, C5, C6))

# 初始化OPTICS算法
clust = OPTICS(min_samples=50, xi=0.05, min_cluster_size=0.05)

# 运行算法
clust.fit(X)
labels_050 = cluster_optics_dbscan(reachability=clust.reachability_, core_distances=clust.core_distances_, ordering=clust.ordering_, eps=0.5)
labels_200 = cluster_optics_dbscan(reachability=clust.reachability_, core_distances=clust.core_distances_, ordering=clust.ordering_, eps=2)

# 绘制结果
plt.figure(figsize=(10, 7))
G = matplotlib.gridspec.GridSpec(2, 3)
ax1 = plt.subplot(G[0, :])
ax2 = plt.subplot(G[1, 0])
ax3 = plt.subplot(G[1, 1])
ax4 = plt.subplot(G[1, 2])

# 绘制可达性图
colors = ["g.", "r.", "b.", "y.", "c."]
for klass, color in enumerate(colors):
    Xk = space[labels == klass]
    Rk = reachability[labels == klass]
    ax1.plot(Xk, Rk, color, alpha=0.3)
ax1.plot(space[labels == -1], reachability[labels == -1], "k.", alpha=0.3)
ax1.plot(space, np.full_like(space, 2.0, dtype=float), "k-", alpha=0.5)
ax1.plot(space, np.full_like(space, 0.5, dtype=float), "k-.", alpha=0.5)
ax1.set_ylabel("Reachability (epsilon distance)")
ax1.set_title("Reachability Plot")

# 绘制OPTICS聚类结果
colors = ["g.", "r.", "b.", "y.", "c."]
for klass, color in enumerate(colors):
    Xk = X[clust.labels_ == klass]
    ax2.plot(Xk[:, 0], Xk[:, 1], color, alpha=0.3)
ax2.plot(X[clust.labels_ == -1, 0], X[clust.labels_ == -1, 1], "k+", alpha=0.1)
ax2.set_title("Automatic Clustering\nOPTICS")

# 绘制DBSCAN聚类结果（epsilon=0.5）
colors = ["g.", "r.", "b.", "c."]
for klass, color in enumerate(colors):
    Xk = X[labels_050 == klass]
    ax3.plot(Xk[:, 0], Xk[:, 1], color, alpha=0.3)
ax3.plot(X[labels_050 == -1, 0], X[labels_050 == -1, 1], "k+", alpha=0.1)
ax3.set_title("Clustering at 0.5 epsilon cut\nDBSCAN")

# 绘制DBSCAN聚类结果（epsilon=2.0）
colors = ["g.", "m.", "y.", "c."]
for klass, color in enumerate(colors):
    Xk = X[labels_200 == klass]
    ax4.plot(Xk[:, 0], Xk[:, 1], color, alpha=0.3)
ax4.plot(X[labels_200 == -1, 0], X[labels_200 == -1, 1], "k+", alpha=0.1)
ax4.set_title("Clustering at 2.0 epsilon cut\nDBSCAN")

plt.tight_layout()
plt.show()

通过上述代码，首先导入了必要的库，包括matplotlib用于绘图，numpy用于数据处理，以及sklearn中的OPTICS和cluster_optics_dbscan函数用于聚类。接着，设置了随机种子以确保结果的可重复性，并生成了六个不同密度的聚类。

在初始化OPTICS算法时，设置了最小样本数、xi值和最小聚类大小。这些参数控制了算法的敏感度和聚类的结果。然后，运行了算法并得到了聚类标签。为了展示不同阈值下的聚类效果，分别使用了0.5和2.0的epsilon值来模拟DBSCAN算法的效果。

最后，使用matplotlib的subplot功能来创建一个2x3的子图布局，并在每个子图中绘制了不同的聚类结果。可达性图展示了每个点的可达性值，而其他三个子图则分别展示了OPTICS聚类结果和两种不同epsilon值下的DBSCAN聚类结果。通过这些图形，可以直观地比较不同聚类算法的效果。

K-Means与MiniBatchKMeans聚类算法性能比较

本文对比了K-Means和MiniBatchKMeans两种聚类算法的性能，并展示了如何生成数据集、执行聚类以及结果的可视化。

图像分割的谱聚类算法示例

本网页介绍了如何使用谱聚类算法进行图像分割的示例，包括代码实现和结果展示。

OPTICS聚类算法演示

K-Means与MiniBatchKMeans聚类算法性能比较

图像分割的谱聚类算法示例

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：15216758379

OPTICS聚类算法演示

K-Means与MiniBatchKMeans聚类算法性能比较

图像分割的谱聚类算法示例

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢 联系电话：15216758379

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：15216758379