Glossaire



| 2 | 3 | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z |

Gini (Coefficient) de l'Impureté d'un Noeud

Dans les modules d'Arbres de Classification et de Régression (par exemple, GC&RT, Arbres Interactifs), l'option par défaut pour mesurer la qualité d'ajustement dans les problèmes de classification est le coefficient de Gini ; en outre, diverses options permettent de spécifier les probabilités de classification a priori. Le choix des probabilités a priori peut influer sur les divisions qui sont choisies dans l'arbre final, et affecter dans une mesure importante la précision du modèle final C&RT pour la prédiction de certaines classes particulières. Ci-dessous, une présentation et un descriptif de ces questions.

Probabilités a priori et Coefficient de Gini de l'Impureté du Noeud

D'après Breiman, Friedman, Olshen et Stone (1984), la mesure de Gini de l'impureté d'un noeud (que STATISTICA utilise par défaut dans le module GC&RT et par conséquent, dans le module Boosting - Arbres de Décision) se définit comme suit (pages 28 & 38) :

et

sont tels que

p ( j | t ) représente la probabilité estimée qu'une observation appartienne au groupe j sachant qu'elle est dans le noeud t,

p ( j , t ) représente la probabilité estimée qu'une observation appartienne au groupe j et au noeud t ,

p ( t ) représente la probabilité estimée qu'une observation appartienne au noeud t, ,

représente la probabilité a priori du groupe j,

N j ( t ) représente le nombre de membres du groupe j dans le noeud t,

et N j représente la taille du groupe j.

Par conséquent, les probabilités a priori jouent un rôle dans chacun des calculs des Mesures de Gini pour les différents noeuds. Toutefois, Breiman et al. ont également montré que lorsque les probabilités a priori sont estimées à partir des données,

Ceci peut entraîner des taux de mauvaise classification plus importants dans les groupes sous-representés (voir le paragraphe Probabilités a priori et Coûts de Mauvais Classement, ci-dessous).

Probabilités a priori et Coûts de Mauvais Classement

Lorsque vous spécifiez des coûts de mauvais classement qui ne sont pas uniformes dans une analyse GC&RT, le coefficient de Gini est modifié pour tenir compte de ces coûts (page 113) :

C ( i | j ) représente le coût de mauvaise classification d'une observation de la classe j dans la classe i. Cette fonctionnalité permet à l'utilisateur de pénaliser certains types de mauvaises classification dans l'analyse. Toutefois, comme nous l'avons indiqué dans le paragraphe Probabilités a priori et Coefficient de Gini de l'Impureté du Noeud, p ( j | t ) est fonction de p ( j ), la probabilités a priori de la classe j. Par conséquent, pour un C ( i | j ) et un p ( j ) donnés, nous pouvons trouver C ' ( i | j ) et p ' ( j ), tels que

Par conséquent, si C ' ( i | j ) est identique pour tous les i j et que nous pouvons trouver p ' ( j ), tels que la relation ci-dessus soit satisfaite, cet ajustement des probabilités a priori peut avoir le même effet au final que la spécification de coûts de mauvaise classification non-uniformes.  Cette propriété peut se vérifier empiriquement dans les problèmes de classification où l'une des classes est sous-représentée dans les données.  Dans ce cas, avec des coûts de mauvaise classification uniformes, les probabilités a priori qui sont estimées à partir des proportions d'échantillons vont produire un modèle qui tend à ne pas tenir suffisamment compte de la classe sous-représentée.  Toutefois, lorsqu'on augmente les probabilités a priori de la classe sous-représentée, le modèle va tendre à mieux classer les observations dans ce groupe.