在构建决策树模型时,选择最佳的分支节点对模型的有效性至关重要。其中一种强大的方法是基尼不纯度决策树。本文将深入探讨如何利用基尼不纯度来确定决策树中的最佳分支。将探索概念、计算和现实世界的影响,为提供一个全面的了解,了解它如何增强决策树模型的精确性和可靠性。无论是初学者还是经验丰富的数据从业者,揭开这个基本算法背后的秘密将使能够充分发挥决策树在数据分析中的潜力。
基尼不纯度是决策树算法中用来量化数据集不纯度或混乱程度的一个度量。在二元分类问题中,它评估了当随机选择一个数据点并根据特定节点中类别的分布分配类别标签时,错误分类的可能性。它的范围是0到0.5,其中0表示一个完全纯净的节点(所有实例都属于同一类别),0.5表示最大不纯度(类别分布相等)。在决策树中,它通过识别导致数据子集更加同质化的特征来帮助选择最佳分支,最终有助于创建准确可靠的预测模型。
决策树使用多种算法来确定最佳分支。首先来看其中最常见和流行的算法,即基尼不纯度。它测量节点的不纯度,计算公式如下:
基尼不纯度 = 1 - ∑(p_i)^2
其中,p_i 是每个类别的成功概率的平方和。考虑到有n个类别。
在实际计算基尼不纯度决策树以确定最佳分支之前,让先看看它的一些特性。根据决策树中的基尼不纯度来决定最佳分支,正如之前讨论的,基尼不纯度是:
基尼不纯度告诉节点的不纯度。基尼不纯度越低,可以安全地推断出节点的纯度越高,因此节点的同质性更高。
基尼不纯度仅在有分类目标的场景中有效。它不适用于连续目标。这是一个非常重要的要点。例如,如果想要预测房价或已租出的自行车数量,基尼不纯度不是正确的算法。它只执行二元分割,要么是/否,成功/失败等。因此,它只会将节点分成两个子节点。这些是基尼不纯度的特性。
现在让看看计算分支基尼不纯度的步骤。
步骤1:计算子节点的基尼不纯度
首先,计算子节点的基尼不纯度,正如已经讨论过的决策树中的基尼不纯度是:
基尼不纯度 = 1 - ∑(p_i)^2
其中,p_i 是每个类别的成功概率的平方和。考虑到有n个类别。
步骤2:计算分支的基尼不纯度
一旦计算了子节点的基尼不纯度,就使用两个子节点的加权不纯度来计算分支的基尼不纯度决策树。这里的权重由两个节点中的样本数量决定。让通过一个例子来看这些计算,这将帮助更好地理解这一点。
对于在班级表现上的分割,记住这个分割是这样的:
有两个类别,一个是“高于平均水平”,另一个是“低于平均水平”。
高于平均水平
当关注高于平均水平时,有14名学生,其中8名打板球,6名不打。打板球的概率将是8除以14,大约是0.57,同样,不打板球的概率将是6除以14,大约是0.43。这里为了简单起见,已经将计算结果四舍五入,而不是取确切的数字。
低于平均水平
同样,当看低于平均水平时,计算了所有的数字,这里是——打板球的概率是0.33,不打板球的概率是0.67。
现在让计算高于平均水平的子节点的基尼不纯度,这里是计算——
它将是1减去每个类别成功概率的平方,对于打板球是0.57,对于不打板球是0.43。所以经过这个计算后,基尼不纯度大约是0.49。低于平均水平的节点将进行相同的计算作为基尼不纯度。对于低于平均水平:
它大约是0.44。现在暂停一下,分析这些数字。
现在要计算决策树中班级表现分割的基尼不纯度,将取两个节点的加权基尼不纯度,高于平均水平和低于平均水平。在这种情况下,一个节点的权重是该节点中的样本数量除以父节点中的总样本数量。所以对于这里的高于平均水平的节点,权重将是14/20,因为有14名学生的表现高于总共20名学生的平均水平。
低于平均水平的权重是6/20。
因此,加权基尼不纯度将是该节点的权重乘以该节点的基尼不纯度。班级表现分割的加权基尼不纯度决策树计算结果如下:
步骤3:计算类别分割的基尼不纯度
类似地,已经捕获了类别分割的基尼指数决策树,大约是0.32。现在,如果比较每个分割的两个基尼不纯度——可以看到类别分割的基尼不纯度更低。因此,类别将是这个决策树的第一个分割。