多维缩放分析示例

多维缩放分析(MDS)是一种用于数据降维的技术,它能够在低维空间中保持数据点之间的相对距离。非度量多维缩放(NMDS)是MDS的一种变体,它不强制保持点之间的距离比例,因此在某些情况下可以提供更灵活的可视化。以下是一个使用Python和scikit-learn库进行MDS和NMDS分析的示例。

生成数据和添加噪声

首先,生成一些随机数据,并添加一些噪声以模拟真实世界的数据。这些数据将被用于MDS和NMDS分析。

import numpy as np from sklearn.metrics import euclidean_distances n_samples = 20 seed = np.random.RandomState(seed=3) X_true = seed.randint(0, 20, 2 * n_samples).astype(float) X_true = X_true.reshape((n_samples, 2)) # 将数据中心化 X_true -= X_true.mean() # 计算欧几里得距离 similarities = euclidean_distances(X_true) # 向相似度矩阵添加噪声 noise = np.random.rand(n_samples, n_samples) noise = noise + noise.T noise[np.arange(noise.shape[0]), np.arange(noise.shape[0])] = 0 similarities += noise

执行MDS和NMDS分析

接下来,使用scikit-learn库中的MDS类来执行MDS和NMDS分析。对于MDS,设置metric=True以保持距离比例;对于NMDS,设置metric=False以允许更灵活的可视化。

from sklearn.manifold import MDS mds = MDS(n_components=2, max_iter=3000, eps=1e-9, random_state=seed, dissimilarity='precomputed') pos = mds.fit(similarities).embedding_ nmds = MDS(n_components=2, metric=False, max_iter=3000, eps=1e-12, dissimilarity='precomputed', random_state=seed, n_init=1) npos = nmds.fit_transform(similarities, init=pos)

数据重缩放和旋转

为了使结果更易于比较,对MDS和NMDS的结果进行重缩放和旋转,以匹配原始数据的分布。

from sklearn.decomposition import PCA # 重缩放数据 pos *= np.sqrt((X_true**2).sum()) / np.sqrt((pos**2).sum()) npos *= np.sqrt((X_true**2).sum()) / np.sqrt((npos**2).sum()) # 旋转数据 clf = PCA(n_components=2) X_true = clf.fit_transform(X_true) pos = clf.fit_transform(pos) npos = clf.fit_transform(npos)

最后,使用matplotlib库来可视化MDS和NMDS的结果。将原始数据点、MDS结果和NMDS结果分别用不同颜色的点表示,并添加图例以区分它们。

import matplotlib.pyplot as plt from matplotlib.collections import LineCollection fig = plt.figure(1) ax = plt.axes([0.0, 0.0, 1.0, 1.0]) s = 100 plt.scatter(X_true[:, 0], X_true[:, 1], color="navy", s=s, lw=0, label="真实位置") plt.scatter(pos[:, 0], pos[:, 1], color="turquoise", s=s, lw=0, label="MDS") plt.scatter(npos[:, 0], npos[:, 1], color="darkorange", s=s, lw=0, label="NMDS") plt.legend(scatterpoints=1, loc="best", shadow=False) # 绘制连接线 start_idx, end_idx = np.where(pos) segments = [[X_true[i, :], X_true[j, :]] for i in range(len(pos)) for j in range(len(pos))] values = np.abs(similarities) lc = LineCollection(segments, zorder=0, cmap=plt.cm.Blues, norm=plt.Normalize(0, values.max())) lc.set_array(similarities.flatten()) lc.set_linewidths(np.full(len(segments), 0.5)) ax.add_collection(lc) plt.show()
沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485