罕见事件预测与客户流失分析

在商业分析中,因客户流失导致的损失可能高达数百万美元。为了减少这种流失,预测个别客户的流失倾向并向这些客户提出保留优惠是至关重要的。这种情况是罕见事件建模的一个典型案例,在医疗保健分析中也很常见。在这种分析中,面临两个挑战:由于样本量小导致的预测准确性问题,以及为了制定可实施的策略,预测的准确性需要极高,因为过多的误报会不必要地增加保留预算。

为什么不仅仅在人群中建立逻辑回归模型?

问题在于,众所周知,逻辑模型的最大似然估计会受到小样本偏差的影响。偏差的程度强烈依赖于两个类别中较少见的那个类别的案例数量。尝试估计以下样本的偏差程度:

A. 在1000个样本中有20个事件(响应率:2%) B. 在10000个样本中有180个事件(响应率:1.8%) C. 在1000个样本中有990个事件(响应率:99%)

在尝试计算偏差之前,不要看下面的答案。正确答案是C > A > B。C会遭受最大的小样本偏差问题。感到困惑了吗?不是说这个问题存在于事件太少的情况下吗?问题不在于事件的罕见性,而在于两个结果中较少见的那个结果的案例数量可能很小。为什么“A>B”?这仅仅是因为人口规模。尽管B的响应率低于A,但A比B更受问题的困扰。因此,样本规模越小,小样本偏差的风险就越高。

在这类问题中的解决方案是什么?

在这类问题中,解决方案比普通的逻辑回归模型要复杂一些。在这种情况下,通过创建有偏样本来增加事件的比例。现在,在创建的样本上运行逻辑回归。一旦得到了最终的Logit方程,就将方程转换以适应整个人群。

让考虑手头的案例,并逐步进行。有50,431个客户,其中531个在12个月内流失。需要预测流失的概率,同时尽量减少误报。

步骤1:选择有偏样本

总人口中非流失者的数量是49,900。计划取1000个客户的样本。作为经验法则,选择样本大小的25%作为响应者。因此,从531个流失客户中选择250个客户。其余的750个来自49,900个基础。这个1000个客户的样本是将要分析的有偏样本。

步骤2:开发回归模型

现在在选定的有偏样本上构建逻辑回归模型。确保满足所有逻辑回归的假设,并得到合理的提升,因为提升在转换后往往会降低。

步骤3:在人群中叠加方程:

使用步骤2中找到的方程,获取整个人群中每个十分位数的流失者数量。在下面的表格中,-Log odds(预测)直接来自回归方程。使用这个函数,可以找到每个十分位数的预测流失。

步骤4:求解截距和斜率转换

使用实际和预测的十分位数的对数几率值,找到将样本方程转换为人群方程所需的斜率和截距。这个方程由以下给出, {-Log odds(实际)} = 斜率 * {-Log odds(预测)} + 截距 使用每个对应每个十分位数的10个数据点找到斜率和截距。 在这种情况下,斜率是0.63,截距是1.66。

步骤5:在时间外样本上验证方程:

一旦得到了最终的Logit函数方程,现在在时间外样本上验证它。对于手头的案例,取不同的队列并编制提升图表。如果模型在时间外也能保持,就可以放心了。
沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485