在生活中,可能在某个时刻都曾接触过回归分析。即使从未构建过模型,理论上也一定学习过这种预测模型技术。本文将通过讨论两个在构建逻辑回归模型预处理步骤中简单却常被低估的概念——权重证据(Weight of Evidence,简称WOE)和信息价值(Information Value,简称IV)——来重新引起大家对它们的关注。
本文将按照以下结构进行:
让开始吧!
首先,都知道逻辑回归是解决分类问题的一种方法。特别是,这里关注的是二元分类问题。逻辑回归模型接受分类和数值数据作为输入,并输出事件发生的概率。使用这种方法可以解决的示例问题包括:
以上所有陈述都有两个结果(购买与不购买,违约与不违约,下雨与不下雨)。因此,可以构建二元逻辑回归模型。逻辑回归是一种参数方法,这意味着:
有了这个基本理解,让理解为什么需要特征选择。
在这个数字时代,拥有海量的数据。然而,并非所有可用的特征都对每个模型预测有用。都听说过“垃圾进,垃圾出!”的说法。因此,为模型选择正确的特征至关重要。特征的选择基于特征的预测强度。例如,假设想要预测一个人是否会在餐厅购买新的鸡肉食谱。如果有一个特征——“食品偏好”,其值为{素食者,非素食者,蛋奶素食者},几乎可以肯定这个特征将清楚地区分出有更高购买这道菜概率的人和永远不会购买的人。因此,这个特征具有很高的预测能力。
可以使用信息价值的概念来量化特征的预测能力,稍后将进行描述。
逻辑回归是一种需要计算线性方程的参数方法。这要求所有特征都是数值型的。然而,数据集中可能包含分类特征,这些特征可能是名义上的或有序的。有许多插补方法,如独热编码或简单地为分类特征的每个类别分配一个数字。这些方法各有优缺点。然而,这里不会讨论这些。
在逻辑回归的情况下,可以使用WOE(权重证据)的概念来插补分类特征。
在提供了所有背景信息之后,终于来到了今天的主题!计算任何特征的权重证据的公式如下:
WOE = \ln\left(\frac{事件发生次数/总样本数}{非事件发生次数/总样本数}\right)
在解释这个公式背后的直觉之前,让举一个虚拟的例子:
权重证据告诉单个特征相对于其独立特征的预测能力。如果特征的任何类别/箱中事件发生的比例与非事件发生的比例相比很大,将得到一个高的WOE值,这反过来说明该特征的类别将事件与非事件分开。例如,考虑上述例子中特征X的类别C,事件发生的比例(0.16)与非事件发生的比例(0.37)相比非常小。这意味着如果特征X的值为C,目标值更有可能是0(非事件)。WOE值只告诉有多确信该特征将帮助正确预测事件发生的概率。
现在知道WOE衡量每个箱/类别的特征的预测能力,WOE的其他好处是什么?
讨论了WOE值之后,WOE值告诉每个箱的特征的预测能力。然而,一个代表整个特征预测能力的单一值将有助于特征选择。IV的方程如下:
IV = \sum (WOE \times (事件发生次数百分比 - 非事件发生次数百分比))
注意,(事件发生次数百分比 - 非事件发生次数百分比)这一项与WOE的符号相同,因此确保IV始终是一个正数。如何解释IV值?下面的表格给出了一个固定的规则,帮助为模型选择最佳特征:
信息价值 | 预测能力 |
---|---|
<0.02 | 无用 |
0.02至0.1 | 弱预测器 |
0.1至0.3 | 中等预测器 |
0.3至0.5 | 强预测器 |
>0.5 | 可疑 |