在构建预测模型的过程中,变量的广度(多样性)和深度(数据的分布和正确的转换)至关重要。本文将介绍业界在创建或转换变量时使用的一些技术,并讨论如何从下一篇文章中创建的详尽列表中选择正确的变量集。
为了使讨论更简单,分析更结构化,将讨论的变量分为以下几类:
将考虑以下商业案例来创建这些变量集:预测一家保险公司分支机构在未来三个月的总业务量。
正确完成这一步,就已经完成了一半的工作。没有固定的程序来获取正确的基础变量集。以下是获取详尽基础变量集的两种方法:
在这里,尝试找到所有可能的变量,这些变量可以在分析中收集,而不需要考虑为最终模型筛选它们。每个假设都属于以下三个类别之一:
在完成基础变量列表后,继续创建派生变量。这些变量具有更好的预测能力,并且非常稳定。这些变量是一个以上的基本变量的组合。让看看如何为手头的案例形成派生变量。以下是可能的变量:
a. 每个资源产生的收入 = 分支机构的收入 / 销售经理的数量
b. 分支机构的投资回报 = 分支机构的收入 / 分支机构的总成本
c. 分支机构的成立年限 = 今天的日期 - 分支机构开业日期
d. 高级与初级员工的比例 = 高级员工数量 / 初级员工数量
这个列表可以继续。努力创建所有可能影响因变量的组合。想要了解更多关于派生变量的想法,请阅读这篇文章。
到这一步,已经拥有所有基础和派生变量。现在是为每个变量找到最佳可能的转换的时候了。尝试检查所有可能的数学转换,如正弦、余弦、对数、指数、平方、平方根等。一旦为每个变量都找到了所有转换,必须选择最能模仿因变量的转换。这种转换应该来自商业意义和统计方法。以下是如何选择每个变量的最佳转换的方法:
使用只有两个步骤(逐步)的回归模型和实际的因变量。选择在这两个步骤中进入模型的转换。检查找到的最佳拟合转换是否在商业上讲得通,并在最终模型中使用它。对于当前问题,Log(Total Revenue)可能是比Total Revenue更好的变量,因为随着总收入的增加,预测的边际增加会减少。
在回归模型中创建二进制变量是非常重要的。找到因变量和所有其他独立变量之间的二元图。找到关系在二元图中断裂的区间。对于手头的案例,假设分支机构的表现在“高级与初级员工比例”在0.9到1.1之间时最佳。在这种情况下,将在0.9和1.1之间创建一个二进制变量。它将如下所示:
Bin = 1 for 0.9 < Ratio < 1.1
Bin = 0 otherwise
将把这个二进制变量包含在回归模型中。
这是回归模型的X因素。这一步结合了CART模型的最佳切割,显著提高了回归模型的预测能力。想要了解更多关于这种技术的细节,请阅读这篇文章。
在完成变量收集后,以下是完成回归模型的顺序: