调整互信息指标（AMI）

调整互信息（AMI）是一种衡量两个聚类结果相似度的指标，它考虑了随机性的影响。在聚类分析中，经常需要比较不同的聚类结果，以评估它们的质量。AMI指标通过调整互信息（MI）来考虑随机性的影响，从而提供了一个更加准确的相似度度量。

在信息论中，互信息（MI）是一种衡量两个随机变量之间共享信息量的指标。然而，MI值通常会随着聚类数量的增加而增加，即使两个聚类之间实际上并没有更多的信息共享。为了解决这个问题，AMI指标对MI进行了调整，以消除这种随机性的影响。

具体来说，对于两个聚类结果U和V，AMI的计算公式如下：


AMI(U, V) = [MI(U, V) - E(MI(U, V))] / [avg(H(U), H(V)) - E(MI(U, V))]

其中，MI(U, V)表示两个聚类结果之间的互信息，E(MI(U, V))表示互信息的期望值，H(U)和H(V)分别表示两个聚类结果的熵，avg表示平均值。

AMI指标具有以下特点：

与标签的绝对值无关：标签或聚类标签值的排列不会改变分数值。
对称性：交换U（真实标签）和V（预测标签）将返回相同的分数值。
当两个分区完全相同时，AMI返回值为1.0。
随机分区（独立标签）的预期AMI值平均约为0，因此可以是负数。

需要注意的是，AMI指标的计算速度通常比其他指标（如调整兰德指数）慢一个数量级。此外，AMI指标的值是以调整后的自然对数（nats）为单位的。

AMI指标的计算可以通过以下Python代码实现：


from sklearn.metrics.cluster import adjusted_mutual_info_score

# 完美标签的示例
adjusted_mutual_info_score([0, 0, 1, 1], [0, 0, 1, 1])
# 输出：1.0

# 完全分割的类成员示例
adjusted_mutual_info_score([0, 0, 0, 0], [0, 1, 2, 3])
# 输出：0.0

AMI指标在聚类性能评估中非常有用，特别是在真实地面真相未知的情况下，可以用来衡量两种独立标签分配策略在同一数据集上的一致性。

在实际应用中，AMI指标可以与其他聚类评估指标（如调整兰德指数、互信息等）一起使用，以全面评估聚类结果的质量。

谱嵌入算法介绍

本文介绍了谱嵌入算法，即Laplacian Eigenmaps，这是一种基于图拉普拉斯矩阵的特征向量进行数据降维的方法。

调整兰德指数（ARI）在聚类评估中的应用

本文介绍了调整兰德指数（Adjusted Rand Index, ARI）的概念、计算方法和在聚类评估中的应用。

调整互信息指标（AMI）

谱嵌入算法介绍

调整兰德指数（ARI）在聚类评估中的应用

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485

调整互信息指标（AMI）

谱嵌入算法介绍

调整兰德指数（ARI）在聚类评估中的应用

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢 联系电话：17898875485

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485