决策树中的信息增益与熵

在构建决策树的过程中,选择合适的分裂点是至关重要的。本文将引导了解信息增益这一关键指标,它是选择最优分裂点和构建稳健决策树的核心。将深入计算细节,探索实例,并为提供在决策树领域有效导航的知识。

目录

  • 视频解释
  • 熵与纯度
  • 信息增益公式
  • 计算熵
  • 熵的性质
  • 计算分裂点熵的步骤
  • 性能与类别分裂示例
  • 常见问题解答

视频解释

如果更倾向于通过视听格式学习概念,有以下视频解释本文的全部内容。如果不感兴趣,可以继续阅读。

熵与纯度

考虑这三个节点。能猜出哪个节点需要更多的信息来描述它们吗?如所见,节点3是一个纯节点,因为它只包含一个类别。而节点2的纯度较低,节点1是最不纯的节点,因为它包含了类别的混合。节点1中类别的百分比分布是50%。因此,随着节点的不纯度增加,需要更多的信息来描述它们。这就是为什么节点1需要比其他节点更多的信息。

信息增益公式

可以说,更不纯的节点需要更多的信息来描述。让继续一个例子。看看分裂点,特别是右边的——它导致的节点比左边的分裂点更不均匀,后者产生了完全均匀的节点。能从中推断出什么?右边的分裂点给出的信息增益较少。因此,可以说,更高的信息增益会导致更均匀或更纯的节点。信息增益可以这样计算:

计算熵

但是,这里的是什么?如何计算它?让看看如何做到这一点。可以这样计算熵:

熵 = -∑(Pi * log2(Pi))

这里P1、P2和P3是节点中每个类别的百分比。以这个节点为例——

这里打板球的学生百分比是0.5,不打板球的学生百分比当然也是0.5。现在如果使用公式计算熵:

熵 = 0.5 * log2(0.5) - 0.5 * log2(0.5)

因为以2为底0.5的对数是-1,所以这个节点的熵将是1。让考虑另一个节点——

可以看到它是一个纯节点,因为它只包含一个类别。在这种情况下,打板球的学生百分比是0,不打的是1。所以应用这些数字的公式后,可以想象熵将为零。当比较这里的熵值时,可以看到:

较低的熵意味着更纯的节点,较高的熵意味着较不纯的节点。

熵的性质

现在让看看熵的性质。与基尼不纯度和卡方一样,它也只适用于分类目标值。熵越低,信息增益越高,这将导致更均匀或更纯的节点。这两个基本上是熵的性质。

计算分裂点熵的步骤

首先计算父节点的熵。然后计算每个子节点的熵。最后,将使用与计算基尼时相同的步骤计算这个分裂点的加权平均熵。

性能与类别分裂示例

节点的权重将是该节点中的样本数除以总样本数。在父节点中,如果子节点的加权大于父节点,将不考虑该分裂。因为它返回的是不纯度比父节点更高的节点。让使用这两个分裂点并计算两者的熵——

让从班级表现开始。这是基于非常熟悉的表现得到的分裂点——

父节点熵 = -(0.5 * log2(0.5) + 0.5 * log2(0.5))

结果是1。对于子节点“高于平均水平”,打板球的概率是0.57,不打的概率是0.43。当插入这些值时:

子节点熵 = -(0.57 * log2(0.57) + 0.43 * log2(0.43))

熵结果是0.98。对于子节点“低于平均水平”,做同样的事情,打板球的概率是0.33,不打的概率是0.67。当将这些值插入公式时,得到:

子节点熵 = -(0.33 * log2(0.33) + 0.67 * log2(0.67))

最后,基于课堂表现的分裂点的加权熵将是该节点的权重乘以该节点的熵的总和——

Q1. 信息增益在决策树算法中的目的是什么?
A.信息增益通过评估使用该特征进行分裂时不确定性或熵的减少,来评估决策树中特征的有效性。
Q2. 在决策树中使用信息增益有什么缺点?
A. 信息增益可能对具有更多级别的属性表现出偏见,难以处理连续特征,并对不相关的属性敏感,限制了其鲁棒性。
Q3. 在决策树中,基尼、熵和信息增益有什么不同?
A. 基尼衡量不纯度,熵评估混乱程度,信息增益量化了当节点根据特定特征分裂时不确定性的减少。这些指标在决策树算法中扮演不同的角色。
Q4. 决策树中的信息增益可以是负数吗?
A. 不,决策树中的信息增益不能是负数。它表示通过根据特定特征分裂节点实现的不确定性的积极减少,指导构建树的过程。
沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485