金融机构数字化交易分析案例研究

在数字化交易技术如PayTM或BHIM UPI成为日常生活不可或缺的一部分的今天,这些技术不仅是个人层面的关键,也是每个金融机构的核心。执行支付交易或资金转移变得非常流畅,有多种可能的选项(如网上银行、ATM、信用卡或借记卡、UPI、POS机等)在后端运行可靠的系统。

进行的每一笔交易都会生成相应的描述信息,例如:

本文将讨论一个金融机构使用聚类(一种流行的机器学习算法)来为其客户基础定制产品的真实世界用例。

案例研究背后的动机

作为金融机构,始终重要的是根据客户不同的兴趣提供定制化的优惠。对于任何金融机构来说,捕捉到理想的360度客户视图是一个重大挑战。

那么如何解决这个问题呢?

上述问题的解决方案可以通过使用金融机构内部的交易数据来部分解决。可以将客户执行的交易根据交易描述信息聚类到不同的类别中。这种方法可以用来标记交易是否用于食品、体育、服装、账单支付、家庭等。如果客户的大多数交易出现在特定类别中,那么就可以更好地估计他/她的偏好。

采取的方法

让了解如何处理这个问题声明以及采取的关键步骤来找出解决方案。

从所有交易及其描述信息映射到每个客户开始这个过程。首先,有一个重要的任务,即确定聚类(或类别或主题)的数量。

为了实现这个目标,使用主题建模。主题建模是一种无监督的文档分类方法,即使不确定在寻找什么,它也能找到自然的项目组。它主要使用潜在狄利克雷分配(LDA)来拟合主题模型。

它将每个文档(即交易)视为主题的混合体,每个主题视为词汇的混合体。这里有一个例子:词汇预算可能出现在电影政治主题中。

LDA的基本假设是样本中的每个观察结果都来自一个任意未知的分布,这个分布可以通过一个生成统计模型来解释。

让看看这种方法如何解决问题。存在一个生成统计模型,它生成了所有来自未知任意分布的交易描述中的词汇(即未知组或主题)。尝试估计/构建一个统计模型,以便它预测一个词汇属于特定主题的概率。

已经通过手动查看主题中的顶级关键词来固定主题的总数。这可能略有不一致,需要一个主观的方式来评估正确的主题数量。使用主题一致性度量来识别正确的主题数量。

主题一致性应用于主题的前N个词汇。它定义为主题中词汇的成对词汇相似度分数的平均值/中位数。一个好的模型将生成一致的主题,即具有高主题一致性分数的主题。

好的主题是可以由一个简短的标签来描述的主题;因此,这就是主题一致性度量所捕捉的。

已经固定了主题/聚类的总数(即案例中的7个主题)。应该开始将这些交易描述信息分配给主题。单独的主题建模可能无法准确将文档分配给主题。

在这里,使用主题建模的输出以及一些更多的特征来使用K-Means聚类对交易描述信息进行聚类。在这里,将专注于为K-Means聚类构建一个特征集。

基本特征:

  • 词汇计数、数字计数、特殊符号计数
  • 最长数字序列长度、数字-字符比率
  • 平均值、最大词汇长度等
  • 交易的周、日和月,是否包含日期,是否为周末交易等
  • 月初或月末的前5天进行的交易
  • 公共假期和节日交易等

查找特征:

  • 使用行业顶级品牌和常用名词作为查找名称。计算与特定行业相关的交易描述中的词汇数量。
  • 食品:蔬菜、Dominos、FreshDirect、Subway等。
  • 体育:棒球、Adidas、足球、钉鞋等。
  • 健康:药房、医院、健身房等。
  • 账单和EMI:政策、电力、报表、时间表、取款、手机等。
  • 娱乐:Netflix、Prime节目、Spotify、Soundcloud、酒吧
  • 电子商务:亚马逊、沃尔玛、eBay、Ticketmaster等。
  • 其他:Uber、Airbus、包装商等。

主题建模特征:

对使用TF-IDF度量生成的一元和二元DTM矩阵执行主题建模。为每个交易描述的每个主题获得两组7个不同的概率,分别为一元和二元DTM矩阵。

最后的想法

为每个交易描述制作了大约30个特征,并执行K-Means聚类,将每个交易描述分配给7个聚类之一。

结果显示,接近聚类中心的观察结果大多被正确地标记了主题。远离聚类中心的一些观察结果被分配了错误的主题标签。在手动审查的350个交易描述中,大约有240个(约69%的准确率)交易描述被正确地标记了适当的主题。

现在至少对内部客户偏好和兴趣有了基本的估计。可以发送定制化的优惠和选项,以保持他们的参与并改善业务。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485