罕见事件预测与客户流失分析

在商业分析中，因客户流失导致的损失可能高达数百万美元。为了减少这种流失，预测个别客户的流失倾向并向这些客户提出保留优惠是至关重要的。这种情况是罕见事件建模的一个典型案例，在医疗保健分析中也很常见。在这种分析中，面临两个挑战：由于样本量小导致的预测准确性问题，以及为了制定可实施的策略，预测的准确性需要极高，因为过多的误报会不必要地增加保留预算。

为什么不仅仅在人群中建立逻辑回归模型？

问题在于，众所周知，逻辑模型的最大似然估计会受到小样本偏差的影响。偏差的程度强烈依赖于两个类别中较少见的那个类别的案例数量。尝试估计以下样本的偏差程度：


    A. 在1000个样本中有20个事件（响应率：2%）
    B. 在10000个样本中有180个事件（响应率：1.8%）
    C. 在1000个样本中有990个事件（响应率：99%）

在尝试计算偏差之前，不要看下面的答案。正确答案是C > A > B。C会遭受最大的小样本偏差问题。感到困惑了吗？不是说这个问题存在于事件太少的情况下吗？问题不在于事件的罕见性，而在于两个结果中较少见的那个结果的案例数量可能很小。为什么“A>B”？这仅仅是因为人口规模。尽管B的响应率低于A，但A比B更受问题的困扰。因此，样本规模越小，小样本偏差的风险就越高。

在这类问题中的解决方案是什么？

在这类问题中，解决方案比普通的逻辑回归模型要复杂一些。在这种情况下，通过创建有偏样本来增加事件的比例。现在，在创建的样本上运行逻辑回归。一旦得到了最终的Logit方程，就将方程转换以适应整个人群。

让考虑手头的案例，并逐步进行。有50,431个客户，其中531个在12个月内流失。需要预测流失的概率，同时尽量减少误报。

步骤1：选择有偏样本


    总人口中非流失者的数量是49,900。计划取1000个客户的样本。作为经验法则，选择样本大小的25%作为响应者。因此，从531个流失客户中选择250个客户。其余的750个来自49,900个基础。这个1000个客户的样本是将要分析的有偏样本。

步骤2：开发回归模型


    现在在选定的有偏样本上构建逻辑回归模型。确保满足所有逻辑回归的假设，并得到合理的提升，因为提升在转换后往往会降低。

步骤3：在人群中叠加方程：


    使用步骤2中找到的方程，获取整个人群中每个十分位数的流失者数量。在下面的表格中，-Log odds（预测）直接来自回归方程。使用这个函数，可以找到每个十分位数的预测流失。

步骤4：求解截距和斜率转换


    使用实际和预测的十分位数的对数几率值，找到将样本方程转换为人群方程所需的斜率和截距。这个方程由以下给出，
    {-Log odds（实际）} = 斜率 * {-Log odds（预测）} + 截距
    使用每个对应每个十分位数的10个数据点找到斜率和截距。
    在这种情况下，斜率是0.63，截距是1.66。

步骤5：在时间外样本上验证方程：


    一旦得到了最终的Logit函数方程，现在在时间外样本上验证它。对于手头的案例，取不同的队列并编制提升图表。如果模型在时间外也能保持，就可以放心了。

线性回归模型的假设检验与诊断

本文介绍了线性回归模型的基本假设，如何通过残差分析来验证这些假设，并提供了实际案例来说明如何诊断和修正模型。

数据可视化与QlikView的集合分析

本文介绍了QlikView中的集合分析功能，如何通过集合分析为数据可视化添加上下文，以及如何使用集合分析来提高数据报告和仪表板的行动导向性。

罕见事件预测与客户流失分析

为什么不仅仅在人群中建立逻辑回归模型？

在这类问题中的解决方案是什么？

线性回归模型的假设检验与诊断

数据可视化与QlikView的集合分析

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485

罕见事件预测与客户流失分析

为什么不仅仅在人群中建立逻辑回归模型？

在这类问题中的解决方案是什么？

线性回归模型的假设检验与诊断

数据可视化与QlikView的集合分析

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢 联系电话：17898875485

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485