曾经只有一些运筹学课程背景,对于加入分析行业感到害怕,因为自认为比不过一个统计学12年级的学生。但不到一个月,意识到分析行业并不要求必须拥有统计学或经济学的硕士学位,而是需要有结构化的思维和敏锐的数学直觉。用了不到三个月的时间就构建并实施了第一个逻辑回归模型。在印度,大多数人仍然使用基本的分析工具,如分类回归树(CART)、回归分析和时间序列分析。仍然害怕使用复杂的统计技术,比如神经网络和生存分析。去年,在某个分析项目中使用了生存分析,并意识到了这个工具的强大之处,而不必深入到工具背后的统计学中。本文将帮助判断生存分析是否适合下一个项目。文章将以一个案例研究结束,将在下一篇文章中使用生存分析来解决这个案例。
回归模型有一个单一的输出函数。以逻辑回归为例,输出是响应函数,只能取两个值。在其他模型中,可以将输出函数定义为单一目标函数。例如,如果正在构建一个客户流失模型,预测客户是否会在未来三个月内流失,逻辑模型的目标如下:
f(x) = 0 如果未来三个月内没有流失
f(x) = 1 如果客户在未来三个月内流失
假设想要分析可能提前流失的客户,并限制这类客户的获取。为了简单起见,假设只有两个变量:性别和任期。在2013年1月构建了一个逻辑模型,发现在100名男性中,有30人在2013年1月之前流失,而在100名女性中,只有10人在2013年1月之前流失。模型将女性视为更好的客户群体,但由于某些原因,没有将这一因素纳入获取策略。现在,站在2013年7月,如果查看与逻辑模型相同的人群,100名男性中有35人流失,100名女性中有55人流失。
结果似乎已经发生了变化。在过去的六个月里,女性流失率很高,而男性群体在这段时间内似乎非常稳定。现在观察到,与男性群体相比,女性在2013年1月的任期较短。在这种情况下,可能的解决方案是采用相同的月份批次/获取来构建模型。现在只考虑在2012年1月之前获得的客户。得到了一个由50名男性和10名女性组成的群体。然而,减少了来自新批次的噪声,但也减少了构建模型的群体。如何解决这个问题?
对于这些结果未知的数据,称为截断数据
。可以在不损害模型准确性的情况下将这些数据包含在生存分析模型中。这是因为生存分析的输出或目标变量是死亡(本例中为客户流失)和在册时间(客户的任期)的组合。
生存分析在分析中有四大应用:
以下是一些特定行业的应用实例:
是在线零售连锁店Mazon的分析团队负责人。收到了有限数量的报价,每个客户成本为200美元。如果客户在其整个生命周期内至少消费20000美元,报价就能收支平衡。希望尽早针对可能消费20000美元的客户。有他们的会员卡细分(白金卡较贵,金卡较便宜)以及他们对上次营销活动的反应率。已经针对这个报价针对客户进行了一年的营销。现在希望从过去的反应数据中学习,并据此进行针对性营销。需要找出应该针对哪个客户群体进行这个报价。有一个基于过去类似测试活动的数据分析,将基于此构建策略。
在这种情况下,需要使用生存分析,因为因变量是对活动的反应时间。这同样包含了截断数据,即至今未反应的人。将在下一篇文章中解决这个案例研究,届时将详细说明如何进行生存分析以找出早期反应的客户群体。
在过去的三年里,意识到分析项目并不总是由业务创建的。业务本身受到过去从分析团队看到的业务价值的约束。学习新的建模技术并从下一代分析项目中学习,使能够看到业务看不到的价值。希望了解最近学到的新技术及其应用。在这里开始讨论生存分析的目的并不仅限于这项技术。