在本文中,将跟随行业专家Sakshi Gujral的引导,深入了解流失分析的关键细节,并学习一些实用的技巧,以提高在实际应用中流失分析的结果。
Sakshi Gujral目前在Concentrix担任数据科学家,同时在IIIT-Delhi攻读博士学位。她是一位GATE学者和UGC-NET资格者,也是国防研究发展组织的校友。Sakshi在TCS和Genpact等公司有5年的行业经验,解决金融、医疗保健和电信领域的数据科学问题。她的研究工作涉及机器学习、自然语言处理和物联网领域。
可以通过LinkedIn与Sakshi联系。
客户保留对于企业分析其增长和有效的工作策略至关重要。在本次数据小时中,Sakshi将讨论导致业务因流失而退化的因素,特别是在电信公司中。
简单来说,假设有一个名叫Rahul的男孩,他过去常常从零售店购买杂货。但现在,Rahul从在线商店订购他的杂货。Rahul从零售店转移到在线商店。因此,Rahul是零售店的“流失”。当一个人突然停止使用公司X的服务并转向提供服务的公司Y时,那个人就被称为公司X的流失。原因可能是更多的福利、更好的选择、易于访问的客户服务等。流失分析有助于确定所有这些问题。
当一家公司面临高流失率时,最终公司的收益会减少。这也会影响公司在股票市场的市值。因此,公司失去了品牌价值,这是裁员的主要原因。
在过去的几年里,已经注意到数百万人转向了某些特定的电信公司,因为它提供免费的数据和通话服务。由于在线申请容易,SIM卡上门递送,人们频繁地更换他们的服务提供商以获得更好的体验。
因此,在破产之前,关注流失率以改进商业策略是必要的。
一些流失分析正在产生广泛影响的公司包括电信、游戏行业、本地商店、餐馆、银行、购物中心等。
现在将从数据科学和分析的角度来理解这个问题。
数据集获取和理解:首先,需要完整的数字化数据,包含所有有助于分析流失的特征。为此,将使用Python代码和标准数据集,这将帮助了解数据块应该是什么样子的,特别是对于电信行业。
数据丰富和准备:在实时场景中,总是以非常混乱的形式接收数据。所以首先,需要丰富它并准备它,以便可以轻松理解它。
探索性数据分析:分析意味着在数据中找到隐藏的趋势。
处理数据集中的不平衡:经常看到数据集中的不平衡;它可能是由于特定客户类别或群体的偏见性质而发生的。
执行建模:将使用机器学习和深度学习建模以更好地理解。
评估和分析结果:最后,将评估上述过程的发现。
将在本项目中使用的数据集是“IBM电信流失数据集”。它有33个独立变量,表明了一个虚构电信公司的客户特征。流失列(响应变量)表明客户是否在上个月离开了。类‘NO’表示在过去几个月没有离开公司的客户端。类‘YES’表示在过去几个月离开了公司的客户端。
以下是Sakshi为今天的项目准备的Python笔记本。这里是电信流失Excel;可以看到33列。
以下是所有列的名称图。将分别了解它们。所有这些不同的参数将帮助了解流失。
现在目标列是“Churn Label”,如下所示的屏幕截图。它要么是YES要么是NO,如前所述。
在下面的饼图中,可以清楚地看到数据集偏向于“YES”。因此,处理这里的类别不平衡很重要。在这里使用SMOTE。SMOTE是“合成少数过采样技术”,有助于处理不平衡的数据集。因此,从原始数据集中,生成了一些更多的样本。
在Python笔记本中,数据中已经存在的隐藏趋势将帮助在后期决定需要应用哪种机器学习模型。
以下是将在本项目中查看的要点。现在,将开始丰富数据以应用机器学习模型。应用了分类和浮点列的组合;需要使它们以机器学习算法可以快速处理的格式。预处理后,取出了一些统计数据,如平均值和标准差。在最后两列中,可以看到‘CLTV’(客户保留更长时间)和‘流失原因’,这两者都非常重要。因此,在这个文本数据上应用了MP来发现趋势,使客户转向另一家公司。还可以分析其他公司的数据,并设计产品,以便客户将来不会离开。
以下是相关性;可以看到高度相关的变量接近1。例如,‘Total Charges’是0.93,表明如果服务费用是实惠的,那么客户将停留更长时间。
使用以下代码,将研究分布,这在任何机器学习问题中都非常重要。它帮助决定将要使用的算法。
现在,需要分离医学和分类值。在下面的图表中,可以看到性别分布方面的流失。可以得出结论,就性别而言,流失没有太大差异。
在下面的图表中,可以看到,选择更长时间计划的客户显示出更多的保留。对他们来说,流失率要低得多。
下面的图表令人兴奋,显示随着任期的增加,流失的机会减少。
通过所有这些图表,正试图弄清楚哪些因素是导致更高流失率的原因,哪些不是。这样就可以努力弥补漏洞以减少流失;例如,可以告诉电信公司提供更长时间的计划和折扣,以便流失率将减少。
对于最后一列,“Churn Reason”,将所有客户文本以词云的形式呈现,为此应用了NLP的某部分。可以看到所有导致流失的原因。
图表显示了流失分数与邮政编码、纬度、经度、任期等之间的关系。
下面的草图图显示了测试数据上0和1标签的分布。