在预测建模领域,回归分析(线性或逻辑回归)和决策树是两种常用的技术。回归分析通过拟合输入变量的组合来生成预测,而决策树则将连续变量分桶,从而对总体人群进行分段。尽管决策树简化了分析,但由于对同一桶内数据点的不敏感,可能会损失一些预测能力。然而,决策树之所以具有与回归模型相似的预测能力,是因为它有效地捕捉了协方差项。本文将探讨如何结合这两种技术的优势,以创建更强大的预测模型,并可能使模型提升高达120%。
回归分析假设连续变量保持原样,并通过拟合曲线为每个输入变量组合生成预测。而决策树(CART/CHAID)则将这些连续变量转换为桶,从而对总体人群进行分段。虽然将变量转换为桶可能使分析更简单,但由于对同一桶内数据点的不敏感,可能会损失一些预测能力。
决策树通过尽可能多的离散桶来划分人群。例如,想要找到一个人购买宝马车的概率。决策树会将人群划分为尽可能多的离散桶。尽管树无法区分37岁和90岁或15万美元和100万美元的薪水,但年龄和薪水之间的协方差使得决策树的预测能力很强。而逻辑回归则利用Logit函数(如下所示)来创建预测。一个典型的方程可能如下所示:
P(Y=1) = 1 / (1 + e^(-(a + bX + cZ)))
其中a、b和c是常数。
有两种基本技术可以捕捉目标变量的协方差和不连续性:一是二元变量与不连续关系,这是一种在几乎所有模型中都使用的技术。如果不熟悉这种技术,它不过是在强输入变量与输出变量之间存在不连续关系时标记变量。二是引入协方差变量,这是一种很少使用的技术,因为这样的变量很难理解和解释业务。这两种技术都能很好地捕捉协方差和不连续变量。
假设在上节讨论的人群中,薪水在10万美元到20万美元之间且年龄超过35岁的人形成了一个异常高宝马车接受率(30%)的群体。如果使用上述两种技术,模型能否捕捉到这个异常高的接受群体?回归模型是否仍然比决策树更好?答案是不,回归模型无法有效地捕捉这个群体。为什么分桶技术无法捕捉到这一点?原因是分桶是在一维变量上进行的,而在总体人群中,薪水范围10万美元到20万美元可能与其他人没有区别。正如上图所示,当在总体人群中分析时,收入桶10万美元到20万美元的响应率并没有区别。但当加上年龄>=35岁的初始切割时,这个桶变得非常不同。
在处理许多这样的问题后,发现以下解决方案非常实用。回归和决策树都有优点。为什么不结合这两种方法的优点呢?在许多模型中使用了这种技术,并每次都惊喜地获得了额外的预测能力。有两种方法可以结合这两种方法:一是引入一个新的协变量,这是一种快速有效的方法。二是制作两个替代模型,这是一种耗时但更有效的方法,特别是在异常桶具有合理大小时。在这种方法中,分别为确定的桶(年龄>35岁,薪水>20万美元>10万美元)和其余人群构建两个回归模型。然后按照以下逻辑添加两个函数。
g(x) = f(x) + Z
这里,g(x)是确定桶的方程,f(x)是其余人群的方程。Z与上一个块中定义的相同。
让思考一下刚刚做了什么?决策树之所以成为一个更好的模型,是因为一个隐藏的口袋,这是一个二维桶。即使在不使用区间变量的连续行为的限制下,决策树也变得非常高效,以减少特定群体中的假阳性。通过在逻辑回归中引入这个群体的标志,为回归提供了决策树能够捕捉的额外维度。因此,通过额外使用年龄、薪水等区间变量的连续行为,新的逻辑回归变得比决策树更强大。
使用这种技术有两个主要局限性:一是多重共线性,对于模型,当VIF因子变得不可接受时,用于创建新输入函数的变量数量应该减少。二是高协方差,当两个项之间的总体协方差很高时,这种技术就会失败。这是因为将不得不创建太多的桶,因此,引入回归模型的变量太多。这将引入非常高的共线性到回归中。通常,遵循一个经验法则,即不在父树中制作超过6个叶子。这首先捕捉了最重要的协方差桶,并且不引入上述两个问题。同时确保最终桶在业务上有意义,不仅仅是噪音。