第六篇:经济学-基尼指数

基尼指数

基尼指数简介

  基尼指数(gini coefficient)代表了模型的不纯度,基尼指数越小,则不纯度越低;基尼指数越大,则不纯度越高,这和信息增益比是相反的。

  假设一个训练集有$K$个类别,样本属于第$k$个类别的概率为$pk$,则它的基尼指数为
$$
G(p) = \sum
{k=1}^K p_k (1-pk) = 1 – \sum{k=1}^K p_k^2
$$
  如果是二分类问题,其中一个分类的概率为$p$,则它的基尼指数为
$$
G(p) = 2 p(1-p)
$$
  对于某一个训练集$D$,假设训练集有$K$个类别,并且第$k$个类别有$Ck$个样本,则$D$的基尼指数为
$$
G(D) = 1 – \sum
{k=1}^K ({\frac {|C_k|} {|D|}})^2
$$
  对于某一训练集$D$,如果根据特征$T$的某个特征值是否等于$t$把$D$分成两个子集$D_1$和$D_2$
$$
D_1 = {(x,y)\in{D}|A(x)=t},\quad D_2 = D-D_1
$$
则$D$的基尼指数为
$$
G(D,A) = ({\frac {|D_1|} {|D|}})G(D_1) + ({\frac {|D_2|} {|D|}})G(D_2)
$$
  基尼指数$G(D)$表示$D$的不确定性,基尼指数$G(D,A)$表示经过$T=t$分割后$D$的不确定性。基尼指数越大,样本集合的不确定性也就越大,不纯度越高。

上一篇
下一篇
Copyright © 2022 Egon的技术星球 egonlin.com 版权所有 青浦区尚茂路798弄 联系方式-13697081366