决策树之基尼不纯度

2024/6/1 来源:不详

前言:如果你懂基本的概率知识,这部分就是小儿科。如果不懂,建议先去补习一下概率论。

在文章中,我们得出结论,为了找到给定一列标了标签的样本的最佳分割,所有这些都归结为评估候选分割的质量,也就是说,我们应该找到允许我们比较不同分割的特定标准。

例如,我们从鸢尾花数据集中取一组样本,如上图所示,每个点代表一个样本,样本的种类(如setosa,versicolor,virginica)用不同的颜色标记。此外,我们选择一个属性(例如petal_width),然后根据所选属性对样本排序。如图所示,所有的样本都在选择属性的坐标上对齐。所以问题是在哪里分割列表?在这篇文章中,我们将介绍一种被称为基尼不纯的标准,我们可以应用它来评估切分的质量。什么叫做“基尼不纯度”?人们可以将基尼系数不纯解释为一种情况的概率,即人们从一组随机抽取两个样本,而这两个样本的值不同例子例如,对于一组统一的值,如[1,1,1,1],不可能画出两个不同值的样本。结果,该组的基尼不纯度为零。给定一组具有{n}唯一值的样本X,可得到该组的Gini不纯度,公式如下:

我们也可以将上述公式展开改写为:

其中,P(x_i)是随机抽样中找到一个值为xi的样本的概率。样本的数量大于或等于nnn,其中一个可以有多个相同值的样本。由上式定义的Gini不纯度概念背后的直觉可以解释为随机选择与替换博弈中找到两个标签不同的样本的概率。下面是我们如何用随机选择游戏推导公式的程序:步骤1):从组中随机抽取一个样本,那么样本值xi的概率为P(xi)。我们将样本放回组中进行下一次选择,因为这是有替换的选择。步骤2):随机抽取另一个样本,那么第二次抽取的样本再次为值xi的概率为P(xi)。步骤3):由于上述两步是独立的,两个样本值xi的概率为(P(xi))2步骤4):有n个组中不同的值,的概率的步骤(1)和(2)为每个值(P(xi))2的极限值,然后,即概率的场景,我们随机画两个样品和他们是相同的值。step5):然后排除步骤(4)中事件的概率,得到随机选取的两个样本值不同的期望情况的概率,即该组的Gini杂质G(L)。例如,我们有一组4个样品为[花式彩,setosa,setosa,setosa]。如果我们从替换组中随机选择两个样本,那两个样品是不同的值的概率将是

为了计算上述概率,我们可以将其分解为以下两种情况:案例1:我们挑选的第一个样本是versicolor,他的概率是1/4;我们挑选的第二个样本是versicolor。那么概率就是1/4X1/4=1/16。案例2:我们挑选的第一个样本是setosa,他的概率是3/4;我们挑选的第二个样本是setosa。那么概率就是3/4X3/4=9/16。排除以上两种情况,得到两个样本值不同的概率,即该组的基尼不纯度。

基尼增益现在,有了基尼不纯的定义和直觉,让我们回到决策树的分裂问题来看看如何应用基尼不纯。在决策树的背景下,基尼不纯的度量被用来评估分割的质量,我们将一个样本列表分割成两个子组。每一组的样品越一致,就越容易决定如何对样品进行分类,即一组的基尼系数越低,就越容易对该组的样品进行正确的标签。在上面的例子中(versicolor,setosasetosa,setosa),如果我们被要求猜测一个随机选择的样本的值,有更好的机会,我们可以把这一组分成两个子组,以便在每个子群的值更均匀,即减少分裂后的总体基尼杂质。因此,我们减少了猜测值的不确定性。通过枚举所有可能的分割,可以发现最佳的分割是[花斑]和[setosa,setosa,setosa]的子组,其中每个子组包含统一的值,即每个子组的基尼杂质被减少到零。我们将有%的把握猜测每个子组内样本的标签。基尼不纯的减少也称为“基尼增益”。分割的质量是用基尼系数来衡量的。基尼系数越高,分割越好。对于一组L,我们将其划分为两个子组L1,L2,该分割的gini增益定义如下:

分割后的子组{L1,L2}的整体Gini不纯度为各子组的Gini不纯度之和,按其相对于原组的比例加权。例如,让我们用基尼系数来衡量L=[versicolor,setosa,setosa,setosa]组的两个候选个体的质量:

如上面的结果所知,Candidate2是一个更好的分割,这确实是证实的基尼增益如上所示。

转载请注明:
http://www.3g-city.net/gjyzz/7182.html
  • 上一篇文章:

  • 下一篇文章:
  • 网站首页 版权信息 发布优势 合作伙伴 隐私保护 服务条款 网站地图 网站简介

    温馨提示:本站信息不能作为诊断和医疗依据
    版权所有2014-2024 冀ICP备19027023号-6
    今天是: