在任何分析或数据挖掘活动中,分析师能够从数据中提取洞察和趋势的能力是区分优秀分析师与普通分析师的关键。这种能力也是诸如Kaggle上运行的比赛的核心。从更大的角度来看,正是这种从数据中提取信息的能力,区分了像谷歌、亚马逊和第一资本这样的公司与它们的竞争对手。
每次尝试创建竞争优势时,都涉及到两个关键步骤:
这两个步骤同样重要。本文将重点讨论第一步,并在以后的文章中讨论第二步。
构建一个全面的数据集需要时间和努力。在转换变量和提取信息上花费的时间越多,模型预期表现就越好。不能完全也不应该完全依赖工具来识别趋势、洞察或关系。
虽然可能会单独使用日期和时间值,但通过考虑日期和时间的差异来创建新变量可能会更有价值。这里有一个假设的例子:一个填写申请表需要几天的申请者可能比在30分钟内填写相同申请表的人对产品的兴趣/动机要小。同样,对于银行来说,从在线门户登录详情发送到客户登录之间的时间流逝可能显示客户使用在线门户的意愿。
另一个例子是,住在银行分行附近的客户比住在远处的客户更有可能有更多的参与度。
不要仅仅保留数据集中的过去输入和输出,从中创建比率可能会增加很多价值。过去使用的一些比率包括:输入/输出(过去的表现)、生产力、效率和百分比。例如,为了预测一个分行的信用卡销售的未来表现,像信用卡销售/销售人员或信用卡销售/市场营销支出这样的比率比仅仅使用分行销售的绝对卡数更有力量。
通过查看变量的变化和图表以及输出,可以看到对变量应用基本变换是否创造了更好的关系。最常用的变换包括对数、指数、二次和三角变换。例如,Log(市场营销支出)可能与销售相比,与绝对市场营销支出有更具代表性的关系。
Log(市场营销支出)
影响者可以显著影响研究行为。影响者可以是各种形式和大小。它可能是组织的一个员工、组织的代理人或组织的一个客户。引入这些相关实体的影响可以显著提高模型的性能。例如,由一部分经纪人(而不是所有经纪人)发起的贷款可能更有可能在锁定期后转移到不同的实体。同样,可能有一部分销售人员参与其中,他们向客户进行更多的交叉销售。
许多企业面临某种季节性。它可能是由税收优惠、节日季节或天气驱动的。如果情况是这样,需要确保为正确的周期选择数据和变量。
本文可以提供更多关于如何在建模时应对季节性影响的详细信息。