逻辑回归模型中的WOE和IV概念解析

在生活中,可能在某个时刻都曾接触过回归分析。即使从未构建过模型,理论上也一定学习过这种预测模型技术。本文将通过讨论两个在构建逻辑回归模型预处理步骤中简单却常被低估的概念——权重证据(Weight of Evidence,简称WOE)和信息价值(Information Value,简称IV)——来重新引起大家对它们的关注。

本文将按照以下结构进行:

  • 逻辑回归简介
  • 特征选择的重要性
  • 分类特征的良好插补器需求
  • WOE(权重证据)
  • IV(信息价值)

让开始吧!

1. 逻辑回归简介

首先,都知道逻辑回归是解决分类问题的一种方法。特别是,这里关注的是二元分类问题。逻辑回归模型接受分类和数值数据作为输入,并输出事件发生的概率。使用这种方法可以解决的示例问题包括:

  • 给定客户数据,客户购买公司推出的新产品的概率是多少?
  • 给定所需数据,银行客户违约贷款的概率是多少?
  • 给定过去一个月的天气数据,明天下雨的概率是多少?

以上所有陈述都有两个结果(购买与不购买,违约与不违约,下雨与不下雨)。因此,可以构建二元逻辑回归模型。逻辑回归是一种参数方法,这意味着:

  1. 首先,假设一个函数形式或形状。在逻辑回归的情况下,假设
  2. 需要预测权重/系数bi,使得对于观测值x的事件发生概率接近1,如果目标的实际值为1,而如果目标的实际值为0,则概率接近0。

有了这个基本理解,让理解为什么需要特征选择

2.特征选择的重要性

在这个数字时代,拥有海量的数据。然而,并非所有可用的特征都对每个模型预测有用。都听说过“垃圾进,垃圾出!”的说法。因此,为模型选择正确的特征至关重要。特征的选择基于特征的预测强度。例如,假设想要预测一个人是否会在餐厅购买新的鸡肉食谱。如果有一个特征——“食品偏好”,其值为{素食者,非素食者,蛋奶素食者},几乎可以肯定这个特征将清楚地区分出有更高购买这道菜概率的人和永远不会购买的人。因此,这个特征具有很高的预测能力。

可以使用信息价值的概念来量化特征的预测能力,稍后将进行描述。

3. 分类特征的良好插补器需求

逻辑回归是一种需要计算线性方程的参数方法。这要求所有特征都是数值型的。然而,数据集中可能包含分类特征,这些特征可能是名义上的或有序的。有许多插补方法,如独热编码或简单地为分类特征的每个类别分配一个数字。这些方法各有优缺点。然而,这里不会讨论这些。

在逻辑回归的情况下,可以使用WOE(权重证据)的概念来插补分类特征。

4. 权重证据(WOE)

在提供了所有背景信息之后,终于来到了今天的主题!计算任何特征的权重证据的公式如下:

WOE = \ln\left(\frac{事件发生次数/总样本数}{非事件发生次数/总样本数}\right)

在解释这个公式背后的直觉之前,让举一个虚拟的例子:

权重证据告诉单个特征相对于其独立特征的预测能力。如果特征的任何类别/箱中事件发生的比例与非事件发生的比例相比很大,将得到一个高的WOE值,这反过来说明该特征的类别将事件与非事件分开。例如,考虑上述例子中特征X的类别C,事件发生的比例(0.16)与非事件发生的比例(0.37)相比非常小。这意味着如果特征X的值为C,目标值更有可能是0(非事件)。WOE值只告诉有多确信该特征将帮助正确预测事件发生的概率。

现在知道WOE衡量每个箱/类别的特征的预测能力,WOE的其他好处是什么?

  1. WOE值可以用于插补分类特征,并将其转换为数值特征,因为逻辑回归模型要求所有特征都是数值型的。
  2. 仔细检查WOE公式和要解决的逻辑回归方程,可以看到特征的WOE与对数几率有线性关系。这确保了特征与对数几率具有线性关系的要求得到满足。
  3. 由于上述原因,如果连续特征与对数几率没有线性关系,可以将特征分箱,并用其WOE值替换每个箱,以代替原始特征。因此,WOE是逻辑回归的良好变量转换方法。
  4. 如果按升序排列数值特征,WOE值都是线性的,知道该特征与目标特征有正确的线性关系。然而,如果特征的WOE是非线性的,应该要么丢弃它,要么考虑其他变量转换以确保线性。因此,WOE为提供了一个检查与因变量线性关系的工具。
  5. WOE比独热编码更好,因为独热编码需要创建h-1个新特征来容纳一个有h个类别的分类特征。这意味着模型不需要预测h-1个系数(bi)而不是1。然而,在WOE变量转换中,只需要计算特征的单个系数。

讨论了WOE值之后,WOE值告诉每个箱的特征的预测能力。然而,一个代表整个特征预测能力的单一值将有助于特征选择。IV的方程如下:

IV = \sum (WOE \times (事件发生次数百分比 - 非事件发生次数百分比))

注意,(事件发生次数百分比 - 非事件发生次数百分比)这一项与WOE的符号相同,因此确保IV始终是一个正数。如何解释IV值?下面的表格给出了一个固定的规则,帮助为模型选择最佳特征:

信息价值 预测能力
<0.02 无用
0.02至0.1 弱预测器
0.1至0.3 中等预测器
0.3至0.5 强预测器
>0.5 可疑
  1. WOE有助于检查特征与其因变量之间的线性关系,以便在模型中使用。
  2. WOE是连续和分类特征的良好变量转换方法。
  3. WOE比独热编码更好,因为这种变量转换方法不会增加模型的复杂性。
  4. IV是特征预测能力的良好度量,它还有助于指出可疑特征。
沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485