聚类分析基础与应用

聚类分析是一种将一组对象分组的任务,使得同一组(称为一个聚类)中的对象在某种意义上比其他组(聚类)中的对象更相似。以下是一个基于美国人口的收入和债务寻找聚类的示例图:

聚类分析是工业中广泛使用的一种主观建模技术。常见的聚类应用之一是基于人口统计、交易行为或其他行为属性的客户组合细分。

为何需要聚类分析?

尽管决策树等客观建模技术在分析行业占主导地位,但聚类技术因其生成自然聚类且不依赖于任何驱动目标函数而具有优势。因此,这样的聚类可以用来分析不同目标属性的组合。例如,如果一个决策树是基于未来3个月内的客户盈利能力构建的,这种细分就不能用于制定每个细分的保留策略。如果细分是通过聚类开发的,那么保留和盈利能力策略都可以建立在这些细分上。

因此,聚类通常用于对组合进行初步分析。在对组合有了良好的理解之后,使用客观建模技术构建特定策略。

聚类分析的行业标准技术

在统计学中,有许多算法可以生成聚类,但将详细讨论两种在行业中广泛使用的技术:

  1. 层次聚类:这种技术基于最简单的原则,即靠近基点的数据点将表现得比远离基点的数据点更相似。例如,如果希望将6名学生分为聚类,层次聚类将依次对这些学生进行分组,可以在任何想要的聚类数量停止这个过程。
  2. k-means聚类:这种技术在分析行业中更常用,因为它能够处理大量的数据点。FASTCLUS是SAS用来生成k-means聚类的算法。让尝试分析它的工作原理。

层次聚类从个体数据点开始,依次将它们组合起来以找到最终的聚类,而k-means聚类从一些初始聚类开始,然后尝试重新分配数据点到k个聚类中以最小化总惩罚项。因此,对于大量的数据点,k-means使用的迭代次数远少于层次聚类。

讨论了聚类分析及其类型后,让将这些概念应用于一个商业案例。以下是一个尝试解决的简单案例:美国银行X希望了解其客户基础的概况,以构建针对性的活动。

  1. 假设构建:这是整个过程中最关键一步。尝试识别所有可能有助于细分组合的变量,无论其可用性如何。让为这个例子列出一个清单。
  2. 变量的初步筛选:一旦有了所有可能的变量,就开始根据数据的可用性选择变量。
  3. 数据可视化:在开始任何分析之前,了解选定变量中的人群分布非常重要。
  4. 数据清洗:聚类分析对异常值非常敏感。在考虑的所有变量上清洗数据非常重要。
  5. 变量聚类:这一步是为了聚类捕获数据中相似属性的变量,并只选择每个变量聚类中的一个变量,不会显著降低分离度。
  6. 聚类:可以根据观察的数量使用文章中讨论的任何一种技术。对于更大的样本,使用k-means。
  7. 聚类收敛:一个好的聚类分析应该所有聚类都有5-30%的总体基数的人口。
  8. 聚类分析:在验证了聚类分析的收敛性之后,需要确定每个聚类的行为。

如所见,使用聚类可以更好地了解组合。还可以利用每个聚类的概况构建针对性策略。在本文的第二部分,将讨论:

  • 何时可以说聚类分析是结论性的?
  • 每种技术在哪些不同场景中占主导地位?
  • 两种技术何时都会失败?
  • 当两种技术都失败时的逐步解决方案。
沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485