决策树算法是一种流行的机器学习技术,它能够处理分类和回归问题。与线性模型不同,决策树不需要数据遵循特定的假设,如同方差性、多重共线性或无自相关性。决策树通过一系列基于数据属性的基本决策规则来预测目标变量的值。这些决策规则通常以if-then-else表达式的形式编写。树越深,规则越复杂,模型的准确性也越高。
决策树分析是一种通用的预测建模工具,广泛应用于各个领域。决策树通常使用算法方法构建,该方法识别多种分割数据集的方式,基于某些因素。它是最广泛使用和实用的监督学习算法之一。决策树是一种非参数监督学习方法,可用于分类和回归应用。目标是构建一个模型,使用从数据属性派生的基本决策规则来预测目标变量的值。
本文探讨了为什么决策树易于解释其结构,并提供了许多示例来理解决策树算法的流程。通过动手演示,还将了解如何分裂决策树的节点,并通过Python使用流行数据集实现它。
决策树的一个主要优点是其直观性,因为它的工作方式与思维方式完全相同。例如,决定职业选择或购买产品或房屋时的日常决策与决策树模型相似。下面的例子将帮助理解结构是如何构建的,以及为什么它与思维方式相似。
在上述例子中,尝试根据薪水和财产来了解一个人是否获得贷款。可以考虑Y变量(贷款批准)列。有两个输入参数:X1变量——薪水(以卢比计)和X2变量——财产(土地或房屋)。构建了一个小型决策树。
条件1:如果薪水低于16000卢比,需要检查他们是否有财产。如果有,就给他们贷款。条件2:如果薪水超过16000卢比,就给他们贷款。上述例子非常容易理解结构。但在继续之前,需要了解一些重要的问题。
问题1->在决策树中使用的专业术语是什么?将通过下面的例子来理解。问题2->为什么在图像1中首先选择薪水列而不是财产列?以薪水列为例构建树。但是,当处理现实世界的数据集时,不能随机选择列。阅读下一节,了解在实时中使用的过程。
现在,考虑图像3中的数据集,以详细理解。同样,需要在构建决策树模型之前回答这个问题。下面数据集中的哪一列必须被选为根节点?要回答上述问题,需要检查每一列的优劣以及它成为根节点的资质。要了解将使用哪一列:
Gini不纯度、熵和信息增益。逐一通过动手示例来理解。Gini不纯度在决策树中:如何手工理解?首先,将计算第1列信用历史的Gini不纯度。同样,必须计算其他列如薪水和财产的Gini不纯度。将得到的值是属性的不纯度。因此,值越小,不纯度越小,值的范围在0-1之间。
在上述图像4中,得到了每个类别的Gini。G(Low) = 12/25 G(medium) = 12/25 G(High) = 0然后计算了整个信用历史列的总Gini。让理解公式。n = 该类别在列信用历史中的总数量T = 实例的总数量。在例子中,是14(在图像3中有14行)。
例如:nlow/T可以写成5/14。这里从图像4中看到的Credit_history(low)的计数中得到5(第3列)。最后,得到了列信用历史的不纯度= 0.171。现在,必须像对信用历史特征所做的那样,为每个特征计算Gini。计算完两个特征的Gini后,得到了列不纯度薪水= 0.440和财产= 0.428。
类似地,继续选择分支节点的过程,可以构建决策树。现在,将尝试使用不同的方法来执行相同的构建决策树的过程。熵和信息增益的概念熵也是衡量随机性或不纯度的一种方法。它有助于进一步分裂节点并做出正确的决策。熵的公式如下:
但使用熵时,也会使用信息增益。因此,信息增益有助于了解从每个特征中获得的信息量。但在进一步讨论之前,需要了解为什么需要熵和信息增益,以及为什么需要使用它们。让考虑在Gini中使用的例子。在那里,有信用历史、薪水和财产。
再次,必须从零开始。所说的从零开始是什么意思?必须从每个属性计算熵和获得的信息,并选择根节点。这意味着有两种流行的解决问题的方法1. Gini,2. 熵和信息增益。已经学会了如何使用Gini构建决策树。从这里开始,将了解如何逐步使用熵和信息增益构建决策树。
在计算输入属性的熵之前,需要计算目标或输出变量的熵。在数据集中,输出变量是贷款状态。选择3个属性中的一个作为在图像3中看到的数据集的根节点。需要计算所有3个独立属性的信息增益。
在上述图像11中,计算了信用历史的熵。可以将计算分为两个步骤,以更好地理解上述数学。步骤1:熵已经计算了信用_history列中每个类别的熵。得到,E(Low) = 0.971 E(Medium) = 0.971 E(High) = 0然后计算整个信用历史列的总信息。在步骤1结束时,所做的数学与在Gini不纯度部分所做的相同。然后得到了一个值。I(Credit History) = 0.693步骤2:信息增益这是最简单的步骤;必须从E(Dependent)中减去I(independent)。可以在图像9和图像10中找到公式。
IG(Credit History) = 0.247必须为剩余的特征计算熵和信息增益,就像对信用历史特征所做的那样,在图像11中。重复相同的过程后,得到图像12上述图像显示,信用历史是根节点的最佳属性,因为信息增益更多。