结合回归与决策树的优势以提升预测模型

在预测建模领域，回归分析（线性或逻辑回归）和决策树是两种常用的技术。回归分析通过拟合输入变量的组合来生成预测，而决策树则将连续变量分桶，从而对总体人群进行分段。尽管决策树简化了分析，但由于对同一桶内数据点的不敏感，可能会损失一些预测能力。然而，决策树之所以具有与回归模型相似的预测能力，是因为它有效地捕捉了协方差项。本文将探讨如何结合这两种技术的优势，以创建更强大的预测模型，并可能使模型提升高达120%。

两种建模技术的简要概述

回归分析假设连续变量保持原样，并通过拟合曲线为每个输入变量组合生成预测。而决策树（CART/CHAID）则将这些连续变量转换为桶，从而对总体人群进行分段。虽然将变量转换为桶可能使分析更简单，但由于对同一桶内数据点的不敏感，可能会损失一些预测能力。

简单案例研究以理解两种技术的优缺点

决策树通过尽可能多的离散桶来划分人群。例如，想要找到一个人购买宝马车的概率。决策树会将人群划分为尽可能多的离散桶。尽管树无法区分37岁和90岁或15万美元和100万美元的薪水，但年龄和薪水之间的协方差使得决策树的预测能力很强。而逻辑回归则利用Logit函数（如下所示）来创建预测。一个典型的方程可能如下所示：

P(Y=1) = 1 / (1 + e^(-(a + bX + cZ)))

其中a、b和c是常数。

解决回归建模不足的行业标准技术

有两种基本技术可以捕捉目标变量的协方差和不连续性：一是二元变量与不连续关系，这是一种在几乎所有模型中都使用的技术。如果不熟悉这种技术，它不过是在强输入变量与输出变量之间存在不连续关系时标记变量。二是引入协方差变量，这是一种很少使用的技术，因为这样的变量很难理解和解释业务。这两种技术都能很好地捕捉协方差和不连续变量。

这些方法可能失败的场景

假设在上节讨论的人群中，薪水在10万美元到20万美元之间且年龄超过35岁的人形成了一个异常高宝马车接受率（30%）的群体。如果使用上述两种技术，模型能否捕捉到这个异常高的接受群体？回归模型是否仍然比决策树更好？答案是不，回归模型无法有效地捕捉这个群体。为什么分桶技术无法捕捉到这一点？原因是分桶是在一维变量上进行的，而在总体人群中，薪水范围10万美元到20万美元可能与其他人没有区别。正如上图所示，当在总体人群中分析时，收入桶10万美元到20万美元的响应率并没有区别。但当加上年龄>=35岁的初始切割时，这个桶变得非常不同。

猜到了技巧吗？

在处理许多这样的问题后，发现以下解决方案非常实用。回归和决策树都有优点。为什么不结合这两种方法的优点呢？在许多模型中使用了这种技术，并每次都惊喜地获得了额外的预测能力。有两种方法可以结合这两种方法：一是引入一个新的协变量，这是一种快速有效的方法。二是制作两个替代模型，这是一种耗时但更有效的方法，特别是在异常桶具有合理大小时。在这种方法中，分别为确定的桶（年龄>35岁，薪水>20万美元>10万美元）和其余人群构建两个回归模型。然后按照以下逻辑添加两个函数。

g(x) = f(x) + Z

这里，g(x)是确定桶的方程，f(x)是其余人群的方程。Z与上一个块中定义的相同。

这种方法如何工作？这种技巧如何创造如此有影响力的结果？

让思考一下刚刚做了什么？决策树之所以成为一个更好的模型，是因为一个隐藏的口袋，这是一个二维桶。即使在不使用区间变量的连续行为的限制下，决策树也变得非常高效，以减少特定群体中的假阳性。通过在逻辑回归中引入这个群体的标志，为回归提供了决策树能够捕捉的额外维度。因此，通过额外使用年龄、薪水等区间变量的连续行为，新的逻辑回归变得比决策树更强大。

使用这种技术有两个主要局限性：一是多重共线性，对于模型，当VIF因子变得不可接受时，用于创建新输入函数的变量数量应该减少。二是高协方差，当两个项之间的总体协方差很高时，这种技术就会失败。这是因为将不得不创建太多的桶，因此，引入回归模型的变量太多。这将引入非常高的共线性到回归中。通常，遵循一个经验法则，即不在父树中制作超过6个叶子。这首先捕捉了最重要的协方差桶，并且不引入上述两个问题。同时确保最终桶在业务上有意义，不仅仅是噪音。

数据分析客户细分与实施策略

本文探讨了数据分析在业务决策中的应用，客户对数据分析的不同理解和期望，以及如何通过客户细分来提高数据分析的有效性。

聚类分析基础与应用

本文介绍了聚类分析的基本概念、重要性以及在商业中的应用，包括聚类分析的定义、为何需要聚类、行业标准技术以及执行聚类分析的步骤。

结合回归与决策树的优势以提升预测模型

两种建模技术的简要概述

简单案例研究以理解两种技术的优缺点

解决回归建模不足的行业标准技术

这些方法可能失败的场景

猜到了技巧吗？

这种方法如何工作？这种技巧如何创造如此有影响力的结果？

数据分析客户细分与实施策略

聚类分析基础与应用

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485

结合回归与决策树的优势以提升预测模型

两种建模技术的简要概述

简单案例研究以理解两种技术的优缺点

解决回归建模不足的行业标准技术

这些方法可能失败的场景

猜到了技巧吗？

这种方法如何工作？这种技巧如何创造如此有影响力的结果？

数据分析客户细分与实施策略

聚类分析基础与应用

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢 联系电话：17898875485

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485