在构建决策树的过程中,选择合适的分裂点是至关重要的。本文将引导了解信息增益这一关键指标,它是选择最优分裂点和构建稳健决策树的核心。将深入计算细节,探索实例,并为提供在决策树领域有效导航的知识。
如果更倾向于通过视听格式学习概念,有以下视频解释本文的全部内容。如果不感兴趣,可以继续阅读。
考虑这三个节点。能猜出哪个节点需要更多的信息来描述它们吗?如所见,节点3是一个纯节点,因为它只包含一个类别。而节点2的纯度较低,节点1是最不纯的节点,因为它包含了类别的混合。节点1中类别的百分比分布是50%。因此,随着节点的不纯度增加,需要更多的信息来描述它们。这就是为什么节点1需要比其他节点更多的信息。
可以说,更不纯的节点需要更多的信息来描述。让继续一个例子。看看分裂点,特别是右边的——它导致的节点比左边的分裂点更不均匀,后者产生了完全均匀的节点。能从中推断出什么?右边的分裂点给出的信息增益较少。因此,可以说,更高的信息增益会导致更均匀或更纯的节点。信息增益可以这样计算:
但是,这里的熵
是什么?如何计算它?让看看如何做到这一点。可以这样计算熵:
熵 = -∑(Pi * log2(Pi))
这里P1、P2和P3是节点中每个类别的百分比。以这个节点为例——
这里打板球的学生百分比是0.5,不打板球的学生百分比当然也是0.5。现在如果使用公式计算熵:
熵 = 0.5 * log2(0.5) - 0.5 * log2(0.5)
因为以2为底0.5的对数是-1,所以这个节点的熵将是1。让考虑另一个节点——
可以看到它是一个纯节点,因为它只包含一个类别。在这种情况下,打板球的学生百分比是0,不打的是1。所以应用这些数字的公式后,可以想象熵将为零。当比较这里的熵值时,可以看到:
较低的熵意味着更纯的节点,较高的熵意味着较不纯的节点。
现在让看看熵的性质。与基尼不纯度和卡方一样,它也只适用于分类目标值。熵越低,信息增益越高,这将导致更均匀或更纯的节点。这两个基本上是熵的性质。
首先计算父节点的熵。然后计算每个子节点的熵。最后,将使用与计算基尼时相同的步骤计算这个分裂点的加权平均熵。
节点的权重将是该节点中的样本数除以总样本数。在父节点中,如果子节点的加权熵大于父节点,将不考虑该分裂。因为它返回的是不纯度比父节点更高的节点。让使用这两个分裂点并计算两者的熵——
让从班级表现开始。这是基于非常熟悉的表现得到的分裂点——
父节点熵 = -(0.5 * log2(0.5) + 0.5 * log2(0.5))
结果是1。对于子节点“高于平均水平”,打板球的概率是0.57,不打的概率是0.43。当插入这些值时:
子节点熵 = -(0.57 * log2(0.57) + 0.43 * log2(0.43))
熵结果是0.98。对于子节点“低于平均水平”,做同样的事情,打板球的概率是0.33,不打的概率是0.67。当将这些值插入公式时,得到:
子节点熵 = -(0.33 * log2(0.33) + 0.67 * log2(0.67))
最后,基于课堂表现的分裂点的加权熵将是该节点的权重乘以该节点的熵的总和——