构建预测模型的变量选择与转换技术

在构建预测模型的过程中,变量的广度(多样性)和深度(数据的分布和正确的转换)至关重要。本文将介绍业界在创建或转换变量时使用的一些技术,并讨论如何从下一篇文章中创建的详尽列表中选择正确的变量集。

变量类型

为了使讨论更简单,分析更结构化,将讨论的变量分为以下几类:

  • 基础变量集
  • 派生变量集
  • 数学转换变量集
  • 二进制变量集
  • 协变量集

将考虑以下商业案例来创建这些变量集:预测一家保险公司分支机构在未来三个月的总业务量。

创建基础变量集

正确完成这一步,就已经完成了一半的工作。没有固定的程序来获取正确的基础变量集。以下是获取详尽基础变量集的两种方法:

  1. 创建可能影响因变量的假设(在此甚至不关心这个变量的数据是否可用)
  2. 列出所有可用的变量(在此甚至不关心这个变量是否可能影响因变量)

在这里,尝试找到所有可能的变量,这些变量可以在分析中收集,而不需要考虑为最终模型筛选它们。每个假设都属于以下三个类别之一:

  • 人口统计变量:这些变量定义了数据点的可量化统计信息。在当前业务案例中,将包括分支机构的位置、销售经理的数量、分支机构中的职位混合等变量。
  • 行为变量:这些变量来自主题的过去表现。在当前案例中,将包括分支机构上个季度的业务量、分支机构业务的票面大小、分支机构销售经理的绩效指标等变量。
  • 心理测量变量:对于当前业务案例,希望包括分支机构的净推荐值、分支机构员工的满意度评分等变量。这些通常来自调查的变量是心理测量变量。

创建派生变量集

在完成基础变量列表后,继续创建派生变量。这些变量具有更好的预测能力,并且非常稳定。这些变量是一个以上的基本变量的组合。让看看如何为手头的案例形成派生变量。以下是可能的变量:

a. 每个资源产生的收入 = 分支机构的收入 / 销售经理的数量 b. 分支机构的投资回报 = 分支机构的收入 / 分支机构的总成本 c. 分支机构的成立年限 = 今天的日期 - 分支机构开业日期 d. 高级与初级员工的比例 = 高级员工数量 / 初级员工数量

这个列表可以继续。努力创建所有可能影响因变量的组合。想要了解更多关于派生变量的想法,请阅读这篇文章。

创建数学转换集

到这一步,已经拥有所有基础和派生变量。现在是为每个变量找到最佳可能的转换的时候了。尝试检查所有可能的数学转换,如正弦、余弦、对数、指数、平方、平方根等。一旦为每个变量都找到了所有转换,必须选择最能模仿因变量的转换。这种转换应该来自商业意义和统计方法。以下是如何选择每个变量的最佳转换的方法:

使用只有两个步骤(逐步)的回归模型和实际的因变量。选择在这两个步骤中进入模型的转换。检查找到的最佳拟合转换是否在商业上讲得通,并在最终模型中使用它。对于当前问题,Log(Total Revenue)可能是比Total Revenue更好的变量,因为随着总收入的增加,预测的边际增加会减少。

创建二进制变量集

在回归模型中创建二进制变量是非常重要的。找到因变量和所有其他独立变量之间的二元图。找到关系在二元图中断裂的区间。对于手头的案例,假设分支机构的表现在“高级与初级员工比例”在0.9到1.1之间时最佳。在这种情况下,将在0.9和1.1之间创建一个二进制变量。它将如下所示:

Bin = 1 for 0.9 < Ratio < 1.1 Bin = 0 otherwise

将把这个二进制变量包含在回归模型中。

创建协变量集

这是回归模型的X因素。这一步结合了CART模型的最佳切割,显著提高了回归模型的预测能力。想要了解更多关于这种技术的细节,请阅读这篇文章。

在完成变量收集后,以下是完成回归模型的顺序:

  1. 清理每个因变量和自变量的数据。
  2. 为因变量选择最佳的预测变量。
  3. 创建回归模型
  4. 使用诊断图检查回归模型的假设(想要了解更多细节,请阅读这篇文章)。
  5. 检查模型的预测能力。
  6. 检查模型的稳定性。
  7. 创建实施工具。
沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485