构建预测模型的变量选择与转换技术

在构建预测模型的过程中，变量的广度（多样性）和深度（数据的分布和正确的转换）至关重要。本文将介绍业界在创建或转换变量时使用的一些技术，并讨论如何从下一篇文章中创建的详尽列表中选择正确的变量集。

变量类型

为了使讨论更简单，分析更结构化，将讨论的变量分为以下几类：

基础变量集
派生变量集
数学转换变量集
二进制变量集
协变量集

将考虑以下商业案例来创建这些变量集：预测一家保险公司分支机构在未来三个月的总业务量。

创建基础变量集

正确完成这一步，就已经完成了一半的工作。没有固定的程序来获取正确的基础变量集。以下是获取详尽基础变量集的两种方法：

创建可能影响因变量的假设（在此甚至不关心这个变量的数据是否可用）
列出所有可用的变量（在此甚至不关心这个变量是否可能影响因变量）

在这里，尝试找到所有可能的变量，这些变量可以在分析中收集，而不需要考虑为最终模型筛选它们。每个假设都属于以下三个类别之一：

人口统计变量：这些变量定义了数据点的可量化统计信息。在当前业务案例中，将包括分支机构的位置、销售经理的数量、分支机构中的职位混合等变量。
行为变量：这些变量来自主题的过去表现。在当前案例中，将包括分支机构上个季度的业务量、分支机构业务的票面大小、分支机构销售经理的绩效指标等变量。
心理测量变量：对于当前业务案例，希望包括分支机构的净推荐值、分支机构员工的满意度评分等变量。这些通常来自调查的变量是心理测量变量。

创建派生变量集

在完成基础变量列表后，继续创建派生变量。这些变量具有更好的预测能力，并且非常稳定。这些变量是一个以上的基本变量的组合。让看看如何为手头的案例形成派生变量。以下是可能的变量：


        a. 每个资源产生的收入 = 分支机构的收入 / 销售经理的数量
        b. 分支机构的投资回报 = 分支机构的收入 / 分支机构的总成本
        c. 分支机构的成立年限 = 今天的日期 - 分支机构开业日期
        d. 高级与初级员工的比例 = 高级员工数量 / 初级员工数量

这个列表可以继续。努力创建所有可能影响因变量的组合。想要了解更多关于派生变量的想法，请阅读这篇文章。

创建数学转换集

到这一步，已经拥有所有基础和派生变量。现在是为每个变量找到最佳可能的转换的时候了。尝试检查所有可能的数学转换，如正弦、余弦、对数、指数、平方、平方根等。一旦为每个变量都找到了所有转换，必须选择最能模仿因变量的转换。这种转换应该来自商业意义和统计方法。以下是如何选择每个变量的最佳转换的方法：


        使用只有两个步骤（逐步）的回归模型和实际的因变量。选择在这两个步骤中进入模型的转换。检查找到的最佳拟合转换是否在商业上讲得通，并在最终模型中使用它。对于当前问题，Log(Total Revenue)可能是比Total Revenue更好的变量，因为随着总收入的增加，预测的边际增加会减少。

创建二进制变量集

在回归模型中创建二进制变量是非常重要的。找到因变量和所有其他独立变量之间的二元图。找到关系在二元图中断裂的区间。对于手头的案例，假设分支机构的表现在“高级与初级员工比例”在0.9到1.1之间时最佳。在这种情况下，将在0.9和1.1之间创建一个二进制变量。它将如下所示：


        Bin = 1 for 0.9 < Ratio < 1.1
        Bin = 0 otherwise

将把这个二进制变量包含在回归模型中。

创建协变量集

这是回归模型的X因素。这一步结合了CART模型的最佳切割，显著提高了回归模型的预测能力。想要了解更多关于这种技术的细节，请阅读这篇文章。

在完成变量收集后，以下是完成回归模型的顺序：

清理每个因变量和自变量的数据。
为因变量选择最佳的预测变量。
创建回归模型。
使用诊断图检查回归模型的假设（想要了解更多细节，请阅读这篇文章）。
检查模型的预测能力。
检查模型的稳定性。
创建实施工具。

数据可视化：瀑布图在商业分析中的应用

本文探讨了瀑布图在商业分析中的应用，包括如何使用瀑布图来反映业务目标与实际表现的差异，并提供了在Qlikview中创建瀑布图的详细步骤。

线性回归模型的假设检验与诊断

本文介绍了线性回归模型的基本假设，如何通过残差分析来验证这些假设，并提供了实际案例来说明如何诊断和修正模型。

构建预测模型的变量选择与转换技术

变量类型

创建基础变量集

创建派生变量集

创建数学转换集

创建二进制变量集

创建协变量集

数据可视化：瀑布图在商业分析中的应用

线性回归模型的假设检验与诊断

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：15216758379

构建预测模型的变量选择与转换技术

变量类型

创建基础变量集

创建派生变量集

创建数学转换集

创建二进制变量集

创建协变量集

数据可视化：瀑布图在商业分析中的应用

线性回归模型的假设检验与诊断

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢 联系电话：15216758379

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：15216758379