Partager :

Concepts Fondamentaux en Statistique


Techniques Exploratoires Multivariées :

Arbres de Classification


Sommaire :


Principes Fondamentaux

Les arbres de classification permettent de prévoir l'affectation d'observations ou d'objets à des classes d'une variable dépendante catégorielle à partir de leurs mesures sur une ou plusieurs variables prédictives.  Les arbres de décision constituent l'une des principales techniques utilisées en Data Mining. Le module Arbres de Décision (Classification) met à votre disposition diverses techniques permettant de calculer des arbres de classifications binaires, basés sur des divisions univariées pour les variables catégorielles, des variables prédictives ordonnées (mesurées sur au moins une échelle ordinale), ou un mélange des deux types de prédicteurs.  Il vous offre également des options pour calculer des arbres de classification sur la base de divisions de combinaison linéaire pour des variables prédictives sur une échelle d'intervalles.  

Le but des arbres de classification consiste à prévoir ou expliquer les réponses d'une variable dépendante catégorielle, c'est pourquoi les techniques de ce module sont assez proches des méthodes plus traditionnelles d'Analyse Discriminante, de Classification, de Tests Non-Paramétriques et d'Estimation Non-Linéaire. La flexibilité des arbres de classification en fait une option analytique très attrayante, mais qui ne doit toutefois pas remplacer complètement les méthodes plus traditionnelles. En fait, lorsque les hypothèses traditionnellement plus rigoureuses des méthodes traditionnelles sont remplies (théoriques et relatives à la distribution), il est toujours préférable d'utiliser ces dernières.  Mais comme technique exploratoire, ou en dernier ressort lorsque les méthodes traditionnelles échouent, les arbres de classification, de l'avis de nombreux spécialistes, fournissent de très bons résultats.  

Qu'est-ce qu'un arbre de classification ? Imaginez que vous souhaitiez concevoir un système permettant de trier des pièces de monnaie en différentes classes (par exemple, 2 ?, 1 ?, 20 cents et 5 cents).  Supposez qu'il existe une mesure qui différencie ces pièces, disons le diamètre, et que nous pouvons utiliser pour concevoir un système hiérarchique afin de trier les pièces.  Vous pourriez faire rouler les pièces sur un rail étroit qui ferait tomber par une fente les pièces de 5 cents.  Si la pièce correspond à la fente, elle est classée dans la classe 5 cents, sinon elle continue son sillage jusqu'à une fente du diamètre de 20 cents.  Si la pièce tombe dans la fente correspondante, elle est classée avec les pièces de 20 cents, sinon elle continue son parcours jusqu'à ce qu'une fente au diamètre des pièces de 1 ? se présente, et ainsi de suite.  Vous venez de construire un arbre de classification. Le processus de décision que vous avez utilisé pour votre arbre de classification constitue une méthode efficace pour classer une pile de pièces, et d'une manière générale, peut s'appliquer à de nombreux problèmes de classification.  

L'étude et l'utilisation des arbres de classification n'est pas très répandue dans le domaine des probabilités et des statistiques (Ripley, 1996), mais les arbres de classification sont largement utilisés en médecine (diagnostics), pour les calculs scientifiques (structures des données), en botanique (classification), et en psychologie (théorie de la décision).  Les arbres de classification se prêtent volontiers à une représentation graphique, plus simple à interpréter que des résultats purement numériques.  

Les arbres de classification peuvent être parfois extrêmement complexes. Cependant, des procédures graphiques peuvent aider à l'interprétation de ces arbres, même complexes. Si vous vous intéressez principalement aux conditions produisant une certaine classe de réponse, par exemple, une réponse Élevée, vous pourrez produire des Courbes d'Isoréponse en 3D pour identifier le noeud terminal de l'arbre de classification qui classe la plupart des observations avec des réponses Élevées.  

Dans l'exemple ci-dessus, nous pourrions "suivre les branches" menant au noeud terminal 8 pour comprendre les conditions qui conduisent à un prix Élevé.  

Le fait que les arbres de classification se prêtent bien à une représentation graphique et qu'ils soient d'une relative facilité d'interprétation est sans doute à l'origine de la popularité de cette technique, mais leur nature hiérarchique et leur souplesse sont deux caractéristiques plus générales des arbres de classification.  

La nature hiérarchique et la flexibilité des arbres de classification est décrite dans la rubrique Caractéristiques des Arbres de Classification.  Pour des informations sur les techniques et calculs des arbres de classification, voir la rubrique Méthodes de Calcul.  

Nature Hiérarchique des Arbres de Classification

Breiman et al. (1984) donnent de nombreux exemples d'utilisation des arbres de classification. L'un d'eux concerne des patients cardiaques : lors de leur admission à l'hôpital, ces patients subissent souvent des dizaines de tests afin d'obtenir des mesures physiologiques telles que les pulsations cardiaques, la pression sanguine, etc... De nombreuses informations sont également collectées, telles que l'âge du patient ou son passé médical. Les patients peuvent ainsi être suivis pour voir s'ils survivent après une attaque cardiaque, disons, au moins 30 jours.

Il pourrait être utile pour développer des traitements contre les attaques cardiaques, et pour faire progresser la médecine sur la fragilité cardiaque, d'utiliser les mesures prises juste après l'admission à l'hôpital afin d'identifier les patients à haut risque (ceux qui risquent de ne pas survivre au moins 30 jours). Un arbre de décision développé par Breiman et al. (1984) pour résoudre ce problème était un arbre de décision très simple, composé de trois questions. L'arbre de décision binaire peut être décrit par cette formule : "Si la pression sanguine systolique minimale du patient pendant les 24 premières heures est supérieure à 91, si l'âge du patient est supérieur à 62,5 ans, et si le patient présente une tachycardie des sinus, alors, et dans ce cas seulement, le patient n'aura pas une espérance de vie supérieure à 30 jours".

De cette formule, il est facile de tirer une représentation sous la forme d'un "arbre" de classification. Une série (hiérarchique) de questions permet d'arriver à la décision finale qui sera fonction des réponses à l'ensemble des questions précédentes. De la même manière, la relation d'une feuille à un arbre sur lequel elle grandit peut être décrite par la hiérarchie des divisions des branches (en partant du tronc) menant à la dernière branche sur laquelle se situe la feuille. La nature hiérarchique des arbres de classification est l'une de leurs principales caractéristiques (l'analogie avec les arbres ne doit toutefois pas aller trop loin ; la plupart des arbres de classification sont dessinés vers le bas, et il est plus propre de les comparer à un système de "racines de décision" menant aux radicelles, image certes moins poétique...).

La nature hiérarchique des arbres de classification s'apparente à la procédure de prise de décision utilisée dans l'analyse discriminante. Une analyse discriminante linéaire traditionnelle sur des données d'attaques cardiaques produirait un ensemble de coefficients définissant la combinaison linéaire des mesures de pression sanguine, de l'âge du patient et de la tachycardie des sinus différenciant le mieux les patients à moindre risque de ceux à haut risque. Le résultat de chaque patient pour cette discrimination linéaire serait calculé comme un indice synthétique des mesures de chaque patient sur les trois variables prédictives, pondéré par les coefficients respectifs de la fonction discriminante. L'affectation prévue de chaque patient dans la classe des patients à haut risque ou à faible risque se ferait alors en considérant simultanément les résultats des patients sur les trois variables prédictives. Appelons P (la pression sanguine systolique minimum pendant une période de 24 heures), A (l'âge en années) et T (la présence de tachycardie des sinus : 0 = absence ; 1 = présence) les variables prédictives ; p, a et t, sont les coefficients correspondants de la fonction discriminante linéaire et c est le "point de rupture" de la fonction discriminante pour séparer les deux classes de patients cardiaques. L'équation de décision de chaque patient serait de la forme, "si pP + aA + tT - c est inférieur ou égal à zéro, le patient est à moindre risque, sinon le patient est à haut risque".

Par analogie, l'arbre de classification développé par Breiman et al. (1984) serait de la forme hiérarchique suivante, où p, a et t prendraient respectivement les valeurs -91, -62.5 et 0 : "Si p + P est inférieur ou égal à zéro, le patient est a faible risque ; sinon, si a + A est inférieur ou égal à zéro, le patient est à faible risque ; sinon, si t + T est inférieur ou égal à zéro, le patient est à faible risque ; sinon le patient est à haut risque". Si les procédures de décision de l'analyse discriminante et des arbres de classification peuvent sembler similaires, car les deux procédures utilisent des coefficients et des équations de classification, il faut néanmoins souligner les différences entre les décisions simultanées de l'Analyse Discriminante et les décisions hiérarchiques des arbres de classification.

La distinction entre les deux approches peut être faîte en considérant la manière dont chaque analyse serait réalisée dans la Régression. Puisque le risque dans l'exemple de Breiman et al. (1984) est une variable dépendante dichotomique, les prévisions de l'Analyse Discriminante pourraient être reproduites par une régression multiple simultanée du risque en fonction des trois variables prédictives pour tous les patients. Les prévisions de l'arbre de classification pourraient être reproduites uniquement par trois régressions simple séparées, où nous réaliserions tout d'abord une régression du risque en fonction de P pour tous les patients, puis une régression en fonction de A pour les patients non classés dans le groupe des patients à faible risque dans la première régression, et enfin, une régression du risque en fonction de T pour les patients non classés dans la catégorie des patients à faible risque dans la seconde régression. Ceci illustre clairement la nature simultanée des décisions dans l'Analyse Discriminante par opposition à la nature récursive, hiérarchique de celles-ci dans les arbres de classification. Une particularité des arbres de classification qui n'est pas sans conséquences.

Flexibilité des Arbres de Classification

Les arbres de classification se distinguent également par leur flexibilité. Nous avons déjà évoqué la possibilité qu'offrent les arbres de classification d'étudier les effets des variables prédictives, une à une, plutôt que toutes à la fois, mais les arbres de classification sont plus flexibles que les analyses traditionnelles à bien d'autres égards. La possibilité qu'offrent les arbres de classification de réaliser des divisions univariées, en examinant les effets des prédicteurs un à un, a des implications sur les types de prédicteurs pouvant être analysés. Dans l'exemple de Breiman et al. (1984) sur les attaques cardiaques, la pression sanguine et l'âge étaient des prédicteurs continus, mais la présence de tachycardie des sinus était un prédicteur catégoriel (deux niveaux). Même si la tachycardie était mesurée comme un prédicteur catégoriel à trois niveaux (par exemple avec la codification 0 = absence ; 1 = présence ; 3 = inconnu ou incertain), sans dimension continue sous-jacente représentée par les valeurs affectées à ses niveaux, nous pourrions toujours réaliser simplement des divisions univariées sur les variables prédictives. D'autres décisions seraient ajoutées à notre arbre de classification pour exploiter l'information complémentaire de risque fournie par cette catégorie supplémentaire. En résumé, les arbres de classification peuvent être calculés pour des prédicteurs catégoriels, des prédicteurs continus, ou toute combinaison des deux types de prédicteurs lors de l'utilisation de divisions univariées.

Les analyses discriminantes linéaires traditionnelles nécessitent que les variables prédictives soient mesurées sur au moins une échelle d'intervalle. Pour les arbres de classification basés sur des divisions univariées de variables prédictives mesurées sur une échelle ordinale, il est intéressant de savoir que toute transformation monotone des variables prédictives (c'est-à-dire, toute transformation qui préserve l'ordre des valeurs sur la variable) produit des divisions donnant les mêmes classes prévues pour les observations ou objets (si vous utilisez la méthode de sélection de divisions univariées de type CART, voir Breimen et al., 1984). Par conséquent, vous pouvez calculer des arbres de classification basés sur des divisions univariées sans vous préoccuper qu'un changement unitaire sur un prédicteur continu représente un changement unitaire sur la dimension sous-jacente des valeurs de la variable prédictive ; il est seulement nécessaire que les prédicteurs soient mesurés sur au moins une échelle ordinale. En résumé, les hypothèses sur le niveau de mesure des variables prédictives sont moins contraignantes.

Les arbres de classification ne sont pas limités à des divisions univariées sur les variables prédictives. Lorsque des prédicteurs continus sont effectivement mesurés sur au moins une échelle d'intervalle, les divisions de combinaisons linéaires, proches des divisions en analyse discriminante linéaire, peuvent être calculées pour les arbres de classification. Toutefois, les divisions de combinaison linéaire calculées dans le module Arbres de Décision (Classification) différent à certains égards des divisions de combinaison linéaire calculées dans le module Analyse Discriminante. Dans l'analyse discriminante linéaire, le nombre de fonctions discriminantes linéaires pouvant être extraites correspond au minimum entre le nombre de variables prédictives et le nombre de classes de la variable dépendante, moins un. L'approche récursive du module Arbres de Décision (Classification) ne possède pas cette restriction. Par exemple, nous pourrions réaliser des dizaines de divisions de combinaisons linéaires, récursives avec des dizaines de variables prédictives mais seulement deux classes sur la variable dépendante. Ceci est à comparer avec l'unique division de combinaison linéaire pouvant être réalisée par une analyse discriminante linéaire traditionnelle non-récursive, laissant potentiellement inutilisée une partie importante de l'information contenue dans les variables prédictives.

Considérez maintenant la situation dans laquelle il y a de nombreuses catégories mais peu de prédicteurs. Imaginez que vous souhaitez classer des pièces de monnaie en différentes classes (disons, 2 euros, 1 euro, 20 cents et 5 cents) sur la seule base de leur épaisseur et de leur diamètre. En utilisant les analyses discriminantes linéaires traditionnelles, vous pouvez extraire, au mieux, deux fonctions discriminantes linéaires et les pièces ne seront classées convenablement que s'il n'existe pas plus de deux dimensions, représentées par des combinaisons linéaires de l'épaisseur et du diamètre, sur lesquelles les pièces différent. À nouveau, l'approche proposée dans le module Arbres de Décision (Classification) ne connaît pas cette limite quant au nombre de divisions de combinaison linéaire pouvant être formées.

L'approche proposée dans le module Arbres de Décision (Classification) pour des divisions de combinaisons linéaires peut aussi être utilisée comme méthode d'analyse pour construire des arbres de classification en utilisant des divisions univariées. En fait, une division univariée est juste un cas particulier de division de combinaison linéaire. Imaginez une division de combinaison linéaire dans laquelle les coefficients définissant le composé pondéré sont nuls pour toutes les variables prédictives, sauf un. Comme les résultats du composé pondéré ne dépendent que des résultats de la variable prédictive possédant le coefficient non nul, la division obtenue sera une division univariée.

L'approche proposée dans le module Arbres de Décision (Classification) pour la Méthode de sélection de divisions univariées basée sur l'analyse discriminante des prédicteurs catégoriels et ordonnés et pour la Méthode de sélection de combinaison linéaire basée sur l'analyse discriminante des prédicteurs ordonnés est une adaptation des algorithmes utilisés dans QUEST (Quick, Unbiased, Efficient Statistical Trees). QUEST est un programme d'arbres de classification développé par Loh et Shih (1997) qui utilise une variante de l'analyse discriminante quadratique récursive et qui comprend de nombreuses caractéristiques innovantes pour améliorer la précision et l'efficacité des arbres de classification calculés.

Les algorithmes utilisés dans QUEST sont assez techniques (pour une description de ces algorithmes, voir la rubrique Notes sur les Algorithmes de Calcul), mais le module Arbres de Décision (Classification) offre également le choix d'une méthode de sélection des divisions basée sur une approche conceptuelle plus simple. La méthode de Sélection de division univariée de type CART est une adaptation des algorithmes utilisés dans CART, dont vous trouverez une description dans l'ouvrage de Breiman et al. (1984). CART (Classification And Regression Trees) est un programme d'arbres de classification qui utilise une grille de recherche exhaustive de toutes les divisions univariées possibles pour trouver les divisions d'un arbre de classification.

Les options d'analyses QUEST et CART sont très complémentaires l'une de l'autre. Les recherches CART peuvent être particulièrement longues avec de nombreuses variables prédictives possédant de nombreux niveaux, et sont biaisées par le choix de variables prédictives avec davantage de niveaux pour les divisions, mais dans la mesure où elle utilise une recherche exhaustive, elle permet de trouver les divisions produisant la meilleure classification (dans l'échantillon d'apprentissage, mais pas nécessairement dans les échantillons de validation croisée).

QUEST est rapide et non biaisée. QUEST est beaucoup (le terme est faible) plus rapide que CART lorsque les variables prédictives ont des dizaines de niveaux (Loh et Shih, 1997, rapportent une analyse réalisée par QUEST en 1 seconde CPU, qui a pris 30.5 heures CPU pour CART). Puisque QUEST n'est pas biaisé par la sélection des variables pour les divisions, c'est aussi un avantage certain lorsque certaines variables prédictives ont peu de niveaux et que d'autres en ont beaucoup (des prédicteurs possédant de nombreux niveaux ont une forte probabilité de produire des "théories dues au hasard" qui ajustent bien les données mais qui possèdent un faible pouvoir prédictif, voir Doyle, 1973, Quinlan et Cameron-Jones, 1995). Enfin, QUEST ne sacrifie pas la précision de prévision au profit de la rapidité d'exécution (Lim, Loh, et Shih, 1997). Ensemble, les options QUEST et CART vous permettent d'exploiter pleinement la flexibilité des Arbres de Classification.

Puissance et Pièges des Arbres de Classification

Les avantages des arbres de classification sur les méthodes traditionnelles comme l'analyse discriminante linéaire, du moins dans certaines applications, peuvent s'illustrer par un simple exemple (fictif). Dans un soucis d'impartialité, nous examinerons un second exemple dans lequel l'analyse discriminante linéaire est plus performante que les arbres de classification.

Supposez que vous disposez des coordonnées en Longitude et en Latitude de 37 orages ayant atteint la puissance d'un ouragan, pour deux types d'ouragans – les ouragans Baro et les ouragans Trop. Les données fictives ci-dessous ont servi à illustrer les propos de Elsner, Lehmiller, et Kimberlain (1996), qui ont étudié les différences entre les ouragans barocliniques et tropicaux de l'Atlantique Nord. Les données sont contenues dans le fichier de données Barotrop.sta.

Une analyse discriminante linéaire de la Classe des ouragans (Baro ou Trop) en utilisant la Longitude et la Latitude comme prédicteurs ne permet de classer correctement que 20 des 37 ouragans (54%). Un Arbre de Classification de la Classe en utilisant l'option Recherche exhaustive de divisions univariées de type CART permet de classer correctement les 37 ouragans. Vous trouverez ci-dessous le graphique de l'arbre de décision :

Les titres du graphique indiquent que l'arbre de classification possède 2 divisions et 3 noeuds terminaux. Les noeuds terminaux, parfois appelés "feuilles terminales", correspondent aux points de l'arbre au delà desquels plus aucune décision n'est prise. Dans ce graphique, les noeuds terminaux sont représentés par des pointillés rouges, tandis que les noeuds de décision restants ou noeuds de division sont représentés par des lignes pleines noires. L'arbre démarre par le noeud de décision supérieur, également appelé noeud racine. Dans le graphique, il porte le numéro 1 (dans l'angle supérieur gauche) pour indiquer qu'il s'agit du premier noeud. Au départ, les 37 ouragans appartiennent tous à ce noeud racine et sont provisoirement classés comme des ouragans Baro, comme l'indique l'étiquette Baro dans l'angle supérieur droit du noeud racine. Baro est la classe initiale parce que les Baro sont en légère supériorité numérique par rapport aux Trop, comme le montre l'histogramme du noeud racine. La légende qui permet de distinguer les histogrammes des ouragans Baro et Trop apparaît dans l'angle supérieur gauche du graphique.

Le noeud racine se sépare pour former deux nouveaux noeuds. Le texte situé sous le noeud racine décrit la division. Il indique que les ouragans avec des coordonnées inférieures ou égales à 67,75 en Longitude sont affectés au noeud numéro 2 et provisoirement classés comme des ouragans Trop ; les ouragans avec des coordonnées supérieures à 67,75 en Longitude sont affectés au noeud numéro 3 et classés comme des ouragans Baro. Les valeurs 27 et 10 reportées sous les noeuds 2 et 3 respectivement, indiquent le nombre d'observations affectées à chacun de ces deux noeuds enfant à partir de leur parent, le noeud racine. De la même manière, le noeud 2 est ensuite séparé. La division affecte les 9 ouragans dont les coordonnées en Longitude sont inférieures ou égales à 62,5 au noeud numéro 4 et ces 9 ouragans sont classés dans la catégorie Baro ; les 18 ouragans restants, dont les coordonnées en Longitude sont supérieures à 62,5, sont affectés au noeud numéro 5 et classés dans la catégorie Trop.

Le diagramme de l'arbre synthétise toute cette information d'une manière simple et directe, en vous donnant toute l'information dont vous avez besoin en moins de temps qu'il n'en faut pour lire les deux précédents paragraphes. Pour aller à l'essentiel, les histogrammes représentés à l'intérieur des noeuds terminaux de l'arbre indiquent que l'arbre de classification classe parfaitement les ouragans. Chacun des noeuds terminaux est "propre" et ne contient aucun ouragan mal classé. Toute l'information du diagramme de l'arbre est également disponible dans la feuille de données de la structure de l'arbre ci-dessous :

Structure de l'Arbre (barotrop.sta)

ARBRES

DÉCISION

Noeuds enfants, n obs./classe,

classe prévue & condition de segm. des noeuds

 

Nœud

Gauche

branche

Droite

branche

n ds cls

BARO

n ds cls

TROP

Prév.

classe

Segm.

const.

Segm.

variable

1

2

3

4

5

2

4

 

 

 

3

5

 

 

 

19

  9

10

  9

  0

18

18

  0

  0

18

BARO

TROP

BARO

BARO

TROP

-67.75

-62.50

 

 

 

LONGITUD

LONGITUD

 

 

 

Remarque : dans la feuille de données, les noeuds 3 à 5 sont identifiés comme des noeuds terminaux parce qu'aucune division n'est réalisée sur ces noeuds. Notez également le signe des Constantes de division affichées dans la feuille de données, par exemple, -67,75 pour la division au noeud 1. Dans le graphique de l'arbre, la Condition de division au noeud 1 est décrite comme LONGITUD £ 67,75 et non (l'équivalent) -67,75 + LONGITUD £ 0. Le but est simplement d'économiser de la place sur le graphique.

Lors de la réalisation de divisions univariées, il est possible de classer les variables prédictives sur une échelle de 0 à 100 représentant leur importance potentielle pour expliquer les réponses de la variable dépendante (voir Breiman et Cie. (1984), pp. 146-150 pour la manière de calculer ces rangs). Dans notre exemple, la Longitude est très importante contrairement à la Latitude.

Un arbre de classification sur la Classe en utilisant l'option Méthode de sélection de divisions univariées basée sur une analyse discriminante produit des résultats similaires. La feuille de données de la structure de l'arbre pour cette analyse montre que les divisions de -63,4716 et -67,7516 sont très proches des divisions trouvées en utilisant la recherche exhaustive de divisions univariées de type CART, bien qu'un ouragan Trop dans le noeud terminal 2 soit mal classé dans Baro.

Structure de l'Arbre (barotrop.sta)

ARBRES

DÉCISION

Noeuds enfants, n obs./classe,

classe prévue & condition de segm. des noeuds

 

Nœud

Gauche

branche

Droite

branche

n ds cls

BARO

n ds cls

TROP

Prév.

classe

Segm.

const.

Segm.

variable

1

2

3

4

5

2

 

4

 

 

3

 

5

 

 

19

  9

10

  0

10

18

  1

17

17

0

BARO

BARO

TROP

TROP

BARO

-63.4716

 

-67.7516

 

 

LONGITUD

 

LONGITUD

 

 

Un nuage de points catégorisé de la Longitude selon la Latitude montre clairement pourquoi l'analyse discriminante linéaire échoue si misérablement dans la prévision de la Classe alors que l'arbre de classification réussit aussi bien.

Le tracé montre clairement qu'il n'existe aucune relation linéaire forte entre les coordonnées en longitude ou en latitude avec la Classe, pas plus qu'il n'en existe entre une quelconque combinaison linéaire de la longitude et de la latitude avec la Classe. La Classe n'est pas liée à la longitude ni à la latitude, du moins de façon linéaire. La division réalisée par l'AD (Fonction Discriminante Linéaire) du graphique est presque aléatoire pour tenter de séparer les ouragans Trop prévus (au-dessus de la ligne de division) des ouragans Baro prévus (sous la ligne de division). Les divisions univariées C&RT, parce qu'elles ne se limitent pas à une simple combinaison linéaire des résultats de la longitude et latitude, trouvent les "points de rupture" sur la dimension Longitude qui permettent la meilleure classification possible (dans ce cas, parfaite) de la Classe d'ouragans.

Examinons maintenant les pièges des arbres de classification à travers les données reportées ci-dessous (concernant toujours des ouragans). Ces données sont issues du fichier de données Barotro2.sta.

L'analyse discriminante linéaire des Classes d'ouragans (Baro ou Trop) en utilisant les prédicteurs Longitude et Latitude, permet de classer parfaitement les 37 ouragans. L'arbre de classification sur la Classe en utilisant la recherche exhaustive de divisions univariées de type CART permet également de classer parfaitement les 37 ouragans, mais l'arbre nécessite 5 divisions produisant 6 noeuds terminaux. Quels sont les résultats les plus faciles à interpréter ? Dans l'analyse discriminante linéaire, les coefficients canoniques bruts de la fonction discriminante de la Longitude et de la Latitude sur l'unique fonction discriminante sont respectivement de 0.122073 et -0.633124 ; les ouragans avec la plus forte longitude et la plus basse latitude sont classés dans Trop. L'interprétation pourrait être la suivante : les ouragans situés dans l'Atlantique Ouest aux plus basses latitudes ont plus de chances d'être des ouragans Trop, tandis que les ouragans situés plus à l'Est de l'Atlantique, aux plus hautes latitudes sont généralement des ouragans Baro.

Le graphique de l'arbre en utilisant la recherche exhaustive de divisions univariées de type CART est reporté ci-dessous (pour reproduire ces résultats, vous devez également sélectionner le bouton d'option Arrêt direct de type FACT dans l'onglet Options d'arrêt) :

Nous pourrions décrire méthodiquement les divisions de cet arbre de classification, tout comme dans l'exemple précédent, mais en raison du nombre de divisions, l'interprétation serait nécessairement plus complexe que celle fournie par la seule fonction discriminante à partir de l'analyse discriminante linéaire.

Rappelez-vous qu'en décrivant la flexibilité du module Arbres de Décision (Classification), nous avons mentionné une option disponible dans ce module pour les divisions de combinaison linéaire basées sur une méthode discriminante pour des prédicteurs ordonnés, utilisant les algorithmes de QUEST. Le graphique de l'arbre de classification utilisant des divisions de combinaison linéaire est donné ci-dessous :

Remarquez que dans cet arbre, une seule division fournit une prévision parfaite. Chacun des noeuds terminaux est "propre", sans aucun ouragan mal classé. La combinaison linéaire utilisée pour séparer le noeud racine en noeud enfant gauche et en noeud enfant droit est donnée par l'inégalité "F(0) * -.2342" : si un ouragan possède un résultat inférieur ou égal à -.2342 avec la fonction de division—en abrégé F(0)— il sera alors affecté au noeud enfant gauche et à la classe Baro ; sinon il sera affecté au noeud enfant droit et à la classe Trop. Les coefficients de la fonction de division (0,011741 pour la Longitude et -0,060896 pour la Latitude) ont les mêmes signes et sont du même ordre de grandeur que les coefficients de la fonction discriminante linéaire correspondante à partir de l'analyse discriminante linéaire. Les deux analyses sont donc très similaires, du moins en termes de prévision de la Classe d'ouragans.

Pour conclure cette affaire de puissance et de pièges, les résultats produits par les arbres de classification dépendent essentiellement de l'option d'analyse utilisée pour les produire. Pour trouver des modèles qui donnent une bonne prévision, ils est essentiel de bien comprendre la nature des relations entre le prédicteur et les variables dépendantes.

Nous avons vu que les arbres de décision sont un ensemble hiérarchique et très flexible de techniques permettant de prévoir l'affectation d'observations ou d'objets aux classes d'une variable dépendante catégorielle, en fonction des valeurs prises sur une ou plusieurs variables prédictives. Ce rappel étant fait, examinons maintenant plus en détail les méthodes de calcul des arbres de classification.

Les techniques et problèmes de calcul des arbres de classification sont décrits dans la rubrique Méthodes de Calcul. Pour plus d'informations sur les objectifs des arbres de classification, voir la rubrique Principes Fondamentaux de l'Introduction.

Spécifier les Critères de Précision de la Prévision

Le but des arbres de classification consiste simplement à obtenir une prévision aussi précise que possible. Malheureusement, il est difficile de donner une définition simple de la précision d'une prévision. Pour résoudre ce problème, disons simplement que la prévision la plus précise est celle qui possède les coûts minimum. Le terme coûts ne doit pas vous déconcerter. Dans de nombreuses applications, les coûts correspondent en fait à la proportion d'observations mal classées. La notion de coûts permet de généraliser, dans la majorité des situations de prévision, l'idée que la meilleure prévision est celle qui possède la plus faible part d'observations mal classées.

Il est nécessaire de minimiser les coûts, et non pas simplement la proportion d'observations mal classées, lorsque certaines mauvaises prévisions sont plus graves que d'autres, ou lorsque certaines mauvaises prévisions se produisent plus fréquemment que d'autres. Les coûts pour un joueur qui perd un seul pari (ou prévision) sur lequel il a misé toute sa fortune sont plus importants que ceux de perdre de nombreux paris (ou prévisions) dont les enjeux sont infimes. À l'inverse, les coûts pour la perte de nombreux petits enjeux peuvent être plus important que ceux pour la perte quelques enjeux plus importants. Il faut alors s'attacher à concentrer proportionnellement plus d'efforts pour minimiser les pertes sur les enjeux dont les pertes (erreurs de prévision) coûtent le plus.

Probabilités a priori. Minimiser les coûts revient à minimiser la part d'observations mal classées lorsque les Probabilités a priori sont proportionnelles aux tailles de classes et lorsque les Coûts de mauvais classement sont égaux pour toutes les classes. Penchons-nous tout d'abord sur la question des Probabilités a priori. Les Probabilités a priori indiquent, sans que l'on dispose d'aucune connaissance préalable des valeurs des variables prédictives de notre modèle, la probabilité qu'une observation ou qu'un objet se situe dans l'une des classes. Par exemple, dans une étude sur les échecs scolaires à l'Université, nous pouvons constater généralement moins d'abandons en cours d'année que d'étudiants terminant l'année universitaire (c'est-à-dire, qu'il existe différents taux de référence) ; ainsi, la probabilité a priori qu'un étudiant abandonne en cours d'année est plus faible que celle qu'il reste à l'université.

Les probabilités a priori que nous utilisons pour minimiser les coûts peuvent largement affecter la classification des observations ou des objets. Si nous ne nous intéressons pas aux différents pourcentages de départ dans l'étude, ou si nous savons qu'il existe sensiblement autant d'observations dans chaque classe, nous pouvons utiliser des probabilités a priori égales. Si en revanche les tailles de classes reflètent ces différents pourcentages de départ (ce que nous obtiendrions avec un échantillon de probabilités), nous utiliserons des probabilités a priori estimées à partir des effectifs des différentes classes de l'échantillon. Enfin, si nous connaissons précisément les pourcentages de départ (par exemple, à partir d'une étude précédente), nous pouvons spécifier des probabilités a priori personnalisées pour utiliser cette information dans l'analyse. Par exemple, les probabilités a priori des porteurs d'un gène récessif peuvent être deux fois plus élevées que pour les individus présentant un trouble causé par ce gène récessif. L'idée est que l'importance relative des probabilités a priori associées à chaque classe permettent d'ajuster (réduire) le nombre d'objets mal classés dans chaque classe. Minimiser les coûts revient à minimiser la proportion globale d'observations mal classées lorsque les probabilités a priori sont proportionnelles aux tailles de classe (avec des Coûts de mauvais classement identiques pour chaque classe), parce que la prévision doit être meilleure dans les classes les plus importantes pour produire un taux de mauvais classement global plus faible.

Coûts d'erreur de classement. Nous souhaitons, dans certains cas, obtenir un classement plus précis pour certaines classes que pour d'autres, et ce, indépendamment des tailles relatives de classes. Quelle que soit leur fréquence relative, nous souhaitons prévoir plus précisément les porteurs d'une maladie contagieuse que ceux d'une maladie non contagieuse. Si nous acceptons le principe que nous perdons peu en évitant une personne non contagieuse (éviter d'avoir une personne non-contagieuse ne pose pas de problème ni de danger, et induit un coût limité), mais que nous perdons énormément en n'évitant pas une personne contagieuse (il est possible de contracter la maladie en approchant ou en interagissant sans le savoir avec une personne contagieuse), nous pouvons affecter des coûts d'erreur de classement plus élevés pour le mauvais classement d'un malade contagieux dans la catégorie non contagieux et inversement, des coûts d'erreur de classement plus faibles pour le mauvais classement d'une personne non contagieuse dans la catégorie contagieux. Au risque de nous répéter, minimiser les coûts revient à minimiser la proportion d'observations mal classées lorsque les Probabilités a priori sont proportionnelles aux tailles de classes et que les Coûts de mauvais classement sont identiques pour chaque classe.

Pondérations d'observations. Plus concrètement, l'utilisation de pondérations d'observations avec une variable de pondération agissant comme multiplicateur d'observations sur des données agrégées permet également de traiter la question de minimisation des coûts. Il est intéressant de savoir qu'au lieu d'utiliser des pondérations d'observations sur des données agrégées, vous pouvez spécifier les probabilités a priori et/ou les coûts de mauvais classement appropriés pour obtenir les mêmes résultats, en évitant le traitement supplémentaire requis pour l'analyser d'observations multiples avec les mêmes valeurs pour toutes les variables. Supposez que dans des données agrégées avec deux classes contenant chacune le même nombre d'observations, nous ayons un coefficient égal à 2 pour toutes les observations de la première classe, et égal à 3 pour toutes les observations de la seconde classe. Si vous spécifiez des probabilités a priori de 0,4 et 0,6 respectivement, des coûts de mauvais classement égaux, et que vous analysez les données sans pondérations d'observations, vous obtiendrez la même proportion d'observations mal classées qu'en spécifiant des probabilités a priori proportionnelles aux tailles de classes, avec des coûts de mauvais classement égaux, et en utilisant les pondérations d'observations pour analyser vos données agrégées. Vous obtiendrez également les mêmes proportions d'observations mal classées si vous spécifiez des probabilités a priori égales, des coûts de mauvais classement tels que les coûts d'affectation erronée des observations de la classe 1 à la classe 2 représentent 2/3 de ceux d'affectation des observations de la classe 2 à la classe 1, et que vous analysez vos données sans pondération d'observations.

Dans le module Arbres de Décision (Classification), les pondérations d'observations sont traitées strictement comme des multiplicateurs d'observations. Les pourcentages de mauvais classement d'une analyse portant sur des données agrégées avec des pondérations d'observations seront identiques à ceux obtenus pour la même analyse à partir d'observations dupliquées (autant de fois qu'indiqué par le coefficient multiplicateur) dans le fichier de données. Diverses options vous permettent de spécifier vos probabilités a priori : elles peuvent être Estimées à partir des tailles de classes, Égales pour tous les groupes ou Personnalisées. Les Coûts de mauvais classement peuvent être Égaux pour tous les groupes ou Personnalisés. Si vous utilisez des Coûts de mauvais classement personnalisés, le programme calculera des Probabilités a priori Ajustées en utilisant les procédures décrites par Breiman et al. (1984), et l'analyse se déroulera comme si des Probabilités a priori Ajustées et des Coûts de mauvais classement égaux avaient été spécifiés pour l'analyse.

Les relations entre les probabilités a priori, coûts de mauvais classement et pondérations d'observations deviennent rapidement complexes dans toutes les situations sauf les plus élémentaires (pour les détails, voir Breiman et al, 1984; Ripley, 1996). Dans les situations où minimiser les coûts revient à minimiser le pourcentage de mauvais classement, ces questions ne posent toutefois aucun problème. Les Probabilités a priori, coûts de mauvais classement, et pondérations d'observations sont abordées ici pour illustrer les nombreuses situations pouvant être traitées en utilisant le concept de minimisation des coûts, par opposition aux situations prédictives plus limitées (mais sans doute plus concrètes) pouvant être traitées en utilisant le concept plus restreint (mais plus simple) de minimisation des pourcentages de mauvais classement. Par ailleurs, minimiser les coûts est l'un des objectifs d'un Arbre de Classification, et nous aborderons ce problème plus en détail au cours de la quatrième et dernière étape de l'analyse d'un Arbre de Classification, où nous cherchons à trouver l'arbre "optimal", qui possède les coûts estimés minimum. Selon le type de problème de prévision à résoudre, il peut être important de bien comprendre l'idée de réduction des coûts estimés pour comprendre les résultats de l'analyse.

Choix des Divisions

La deuxième étape élémentaire de l'analyse des arbres de classification consiste à sélectionner les divisions des variables prédictives à utiliser pour prévoir l'appartenance des observations ou objets aux classes des variables dépendantes de l'analyse. Comme nous pouvons nous y attendre compte tenu de la nature hiérarchique des arbres de classification, ces divisions sont sélectionnées une à une, en commençant par la division du noeud racine, puis en continuant avec les divisions des noeuds enfants obtenus jusqu'à la fin de la division, les noeuds enfants n'ayant pas été séparés devenant alors des noeuds terminaux. Trois Méthodes de sélection de division sont proposées dans le module Arbres de Décision (Classification). La première des méthodes est l'option Divisions univariées basées sur une analyse discriminante pour des variables prédictives catégorielles ou ordonnées.

Divisions univariées basées sur une méthode discriminante. La première étape pour sélectionner la division lorsque l'option Divisions univariées des prédicteurs catégoriels basées sur une analyse discriminante est sélectionnée consiste à déterminer le meilleur noeud terminal pour diviser l'arbre courant, et la variable prédictive à utiliser pour réaliser la division. Pour chaque noeud terminal, les niveaux p sont calculés pour les tests de significativité des relations des membres de classes avec les niveaux de chaque variable prédictive. Pour des prédicteurs catégoriels, les niveaux p sont calculés par des tests d'indépendance du Chi² des classes et niveaux du prédicteur catégoriel présents pour ce noeud. Pour des prédicteurs ordonnés, les niveaux p sont calculés par des ANOVA sur les membres de classe pour les valeurs du prédicteur ordonné présent pour ce noeud. Si le plus faible des niveaux p calculés est inférieur au niveau p ajusté de Bonferroni pour les comparaisons multiples (par défaut : 0,05 mais vous pouvez spécifier tout autre seuil), la variable prédictive produisant le plus petit niveau p est choisie pour diviser la classe correspondante. Si aucun niveau p inférieur au p critique n'est trouvé, les niveaux p sont calculés pour des tests statistiques robustes aux violations de distribution, comme le F de Levene. Vous trouverez des informations sur la sélection de variables prédictives et des noeuds lorsqu'aucun niveau p n'est inférieur au seuil spécifié dans l'ouvrage de Loh et Shih (1997).

L'étape suivante consiste à déterminer la division. Pour des prédicteurs ordonnés, l'algorithme de classification par les k-moyennes en 2 classes de Hartigan et Wong (1979, voir aussi le module Classifications) permet de créer deux "super-classes" pour le noeud. Les deux racines sont trouvées grâce à une équation quadratique décrivant la différence des moyennes des "super-classes" sur le prédicteur ordonné, et les valeurs de division correspondant à chaque racine sont calculées. La division la plus proche de la moyenne d'une "super-classe" est sélectionnée. Pour des prédicteurs catégoriels, des variables muettes (dummies) représentant les niveaux du prédicteur catégoriel sont construites, puis les méthodes de décomposition en valeurs singulières sont appliquées pour transformer les variables muettes en un ensemble de prédicteurs ordonnés non redondants. Les procédures pour des prédicteurs ordonnés sont alors appliquées et la division obtenue est retranscrite sur les niveaux originaux de la variable catégorielle et représente un contraste entre deux ensembles de niveaux de la variable catégorielle. Vous trouverez plus d'informations sur ces procédures dans l'ouvrage de Loh et Shih (1997). Bien qu'elles soient compliquées, ces procédures permettent de réduire le biais lié à l'utilisation de la méthode de recherche exhaustive de type C&RT pour sélectionner les divisions. Ce biais dû à la sélection de variables avec plus de niveaux pour les divisions, peut fausser l'interprétation de l'importance relative des prédicteurs pour expliquer les réponses de la variable dépendante (Breiman et. al., 1984).

Divisions de combinaison linéaire basées sur une analyse discriminante. La deuxième méthode de sélection de division disponible est l'option Divisions de combinaison linéaire des prédicteurs ordonnés basées sur une analyse discriminante pour des variables prédictives ordonnées (les prédicteurs doivent toutefois être mesurés sur au moins des échelles d'intervalles). D'une façon étonnante, cette méthode fonctionne en traitant les prédicteurs continus à partir desquels des combinaisons linéaires sont réalisées de manière semblable au traitement des prédicteurs catégoriels dans la méthode précédente. Des méthodes de décomposition en valeurs singulières sont utilisées pour transformer les prédicteurs continus en un nouvel ensemble de prédicteurs non redondants. Les procédures permettant de créer les "super-classes" et trouver la division la plus proche de la moyenne d'une "super-classe" sont alors appliquées et les résultats sont retranscrits sur les prédicteurs continus originaux et représentent une division univariée de combinaison linéaire des variables prédictives.

Recherche exhaustive de divisions univariées style-CART. La troisième option de sélection de division est l'option Recherche exhaustive de divisions univariées de type C&RT pour des variables prédictives catégorielles ou ordonnées. Cette option examine chaque division possible, pour chaque variable prédictive, à chaque noeud, afin de trouver la division produisant la meilleure amélioration de la qualité d'ajustement (ou la plus forte réduction du manque d'ajustement). Quels sont les éléments qui déterminent le domaine des divisions possibles pour un noeud ? Pour des variables prédictives catégorielles avec k niveaux pour un noeud, il existe 2(k -1) - 1 contrastes possibles entre deux ensembles de niveaux de prédicteurs. Pour des prédicteurs ordonnés avec k niveaux distincts pour un noeud, il existe k -1 points centraux entre les différents niveaux. Le nombre de divisions possibles à étudier peut donc devenir très important lorsqu'il existe de nombreux prédicteurs avec de nombreux niveaux à étudier pour un grand nombre de noeuds.

Comment déterminer l'amélioration de la Qualité d'ajustement ? Dans le module Arbres de Décision (Classification), trois indicateurs de Qualité d'ajustement sont proposés. La Mesure de Gini d'impureté du noeud est une mesure qui tend vers zéro lorsqu'une seule classe est présente dans un noeud (avec des probabilités a priori Estimées à partir des tailles de classe et des Coûts de mauvais classement Égaux, la Mesure de Gini se définit comme la somme des produits de tous les couples de proportions de classes présentes sur le noeud ; elle atteint son maximum lorsque les tailles de classe pour le noeud sont égales). La Mesure de Gini est la mesure de qualité d'ajustement retenue par les développeurs de C&RT (Breiman et. al., 1984). Les deux autres options disponibles sont la mesure du Chi², similaire au Chi² de Bartlett (Bartlett, 1948), et la mesure du G², similaire au Chi² du maximum de vraisemblance (comme il est calculé par exemple dans le module Analyse Log-Linéaire). L'option de recherche exhaustive de divisions univariées de type C&RT fonctionne en recherchant les divisions qui maximisent la réduction de la mesure de la qualité d'ajustement sélectionnée. Lorsque l'ajustement est parfait, la classification est parfaite.

Quand Arrêter la Division

La troisième étape d'un arbre de classification consiste à déterminer le moment où il faut arrêter la division. Si aucune limite n'est imposée quant au nombre de divisions à réaliser dans les arbres de classification, vous pourrez éventuellement obtenir une classification "pure", chaque noeud terminal ne contenant qu'une seule classe d'observations ou d'objets. Toutefois, une classification "pure" est souvent peu réaliste. Même le simple arbre de classification d'un trieur de pièces, peut produire des classements incorrects pour des pièces tordues ou si l'usure a modifié la taille des rails du sillage. Nous pourrions sans doute remédier à ce problème en effectuant d'autres classements sur les pièces tombant dans chaque rainure, mais pour des raisons pratiques, il faut arrêter le classement à un moment donné et considérer que les pièces ont été raisonnablement bien classées.

De même, si les classements observés sur la variable dépendante ou les niveaux de la variable prédictive dans un arbre de classification sont mesurés avec une part d'erreur ou contiennent du "bruit", il est peu réaliste de continuer à trier jusqu'à ce que chaque noeud terminal soit "pur". Dans le module Arbres de Décision (Classification), deux options vous permettent de déterminer le moment où la division doit s'arrêter. Ces deux options sont liées au choix de la règle d'arrêt spécifiée pour l'analyse.

N minimum. Une option permettant de déterminer le moment où la division prend fin consiste à permettre à la division de continuer jusqu'à ce que tous les noeuds terminaux soient propres (purs) ou ne contiennent plus qu'un nombre minimum spécifié d'observations ou d'objets. Cette option est disponible si vous sélectionnez un Élagage sur l'erreur de classement ou un Élagage sur l'écart (déviance) comme Règle d'arrêt pour l'analyse. Vous pouvez spécifier le nombre minimum d'observations souhaité dans le champ d'édition N Minimum et la division s'arrêtera lorsque les noeuds terminaux contenant plusieurs classes ne posséderont pas plus que le nombre d'observations ou d'objets spécifié.

Fraction d'objets. L'autre option qui permet de contrôler le moment où la division doit s'arrêter consiste à permettre à la division de continuer jusqu'à ce que les noeuds terminaux soient purs ou ne contiennent pas plus d'observations qu'une certaine fraction minimum spécifiée de la taille d'une ou plusieurs classes. Cette option est disponible lorsque vous sélectionnez le bouton d'option Arrêt direct de type FACT comme Règle d'arrêt dans l'analyse (FACT est un programme d'Arbres de Classification développé par Loh et Vanichestakul, 1988, qui est un précurseur de QUEST). La fraction minimum désirée peut être spécifiée en termes de Fraction d'objets et, si vous utilisez des probabilités a priori Égales et des tailles de classes égales, la division s'arrêtera quand tous les noeuds terminaux contenant plus d'une classe, n'auront pas plus d'observations que la fraction spécifiée des tailles de classes d'une ou plusieurs classes. Si les probabilités a priori utilisées dans l'analyse ne sont pas égales, la division s'arrêtera quand tous les noeuds terminaux contenant plus d'une classe n'auront pas plus d'observations que la fraction spécifiée d'une ou plusieurs classes.

Sélectionner l'Arbre 'Optimal'

Après une soirée sur un champ de course, un joueur studieux calcule un gigantesque arbre de classification avec de nombreuses divisions qui estiment parfaitement les résultats gagnants, placés, partants et non partants pour chaque cheval de chaque race. Espérant devenir riche, le joueur prend une copie de cet arbre de classification pour les courses du lendemain, regarde les chevaux qui vont courir en utilisant les résultats de l'arbre de classification, réalise ses prévisions, place ses paris ... et quitte le champ de course beaucoup moins riche qu'il ne l'espérait. Le pauvre joueur aura compris trop tard qu'un arbre de classification calculé à partir d'un échantillon d'apprentissage dans lequel les résultats sont déjà connus ne pourra par répéter parfaitement les résultats dans un second échantillon de test indépendant. L'arbre de classification du joueur a eu une performance médiocre en validation-croisée. Les gains du joueur auraient pu être plus importants avec un plus petit arbre de classification qui n'aurait pas parfaitement classé l'échantillon d'apprentissage, mais qui aurait bien prévu l'échantillon de test.

Quelques généralisations sur la manière de constituer un arbre de classification "optimal". Cet arbre doit être suffisamment complexe pour expliquer les phénomènes connus, et en même temps aussi simple que possible. Il doit exploiter l'information permettant d'augmenter la précision prédictive et ignorer l'information superflue. Il doit conduire, autant que possible, à une plus grande compréhension du phénomène qu'il décrit. Bien sûr, ces mêmes caractéristiques s'appliquent à toutes les théories scientifiques, c'est pourquoi il nous faut tenter d'être plus précis sur ce qui constitue l'arbre de classification "optimal". Les options disponibles dans le module Arbres de Décision (Classification) permettent d'utiliser l'une ou l'autre (ou les deux) des deux stratégies permettant d'obtenir l'arbre "optimal" à partir des tous les arbres possibles. La première de ces stratégies consiste à développer l'arbre juste à la bonne taille, cette dernière étant déterminée par l'utilisateur à partir des résultats de recherches précédentes, du diagnostic d'une analyse précédente, ou même de votre intuition. L'autre stratégie consiste à utiliser un ensemble de procédures bien structurées et documentées développés par Breiman et al. (1984) dans la sélection de l'arbre "optimal". Ces procédures ne sont pas infaillibles, comme le reconnaissent volontiers Breiman et al. (1984), mais au moins elles éliminent la partie subjective pour sélectionner l'arbre "optimal".

Arrêt direct de type FACT. Décrivons tout d'abord la première stratégie, dans laquelle l'utilisateur spécifie la taille de l'arbre de classification. C'est cette stratégie qui est utilisée lorsque vous sélectionnez le bouton d'option Arrêt direct de type FACT comme Règle d'arrêt pour l'analyse, et que vous spécifiez une Fraction d'objets pour définir la taille désirée de l'arbre. Le module Arbres de Décision (Classification) vous offre plusieurs options pour établir un diagnostic afin de déterminer si le choix de la taille de l'arbre est raisonnable. Plus précisément, trois options permettent de réaliser des validations croisées de l'arbre de classification sélectionné.

Validation croisée de l'échantillon test. Le premier type de validation-croisée (et le plus utilisé) est la validation croisée de l'échantillon de test. Dans ce type de validation croisée, l'arbre de classification est calculé à partir de l'échantillon d'apprentissage, et la précision de la prévision est testée en l'appliquant sur l'appartenance prévue des membres de classes dans l'échantillon de test. Des coûts supérieurs dans l'échantillon de test par rapport aux coûts de l'échantillon d'apprentissage (souvenez vous, les coûts sont égaux à la proportion d'observations mal classées lorsque les probabilités a priori sont Estimées et que les Coûts de mauvais classement sont Égaux), indiquent une mauvaise validation croisée et un arbre de taille différente pourrait permettre une meilleure validation croisée. Les échantillons de test et d'apprentissage peuvent être créés en collectant deux groupes de données indépendants, ou si vous disposez d'un échantillon d'apprentissage suffisamment important, en réservant une partie des observations sélectionnées de manière aléatoire (entre un tiers ou la moitié), comme échantillon de test.

Dans le module Arbres de Décision (Classification), la validation-croisée de l'échantillon de test s'effectue à l'aide d'une Variable avec des identifiants d'échantillons contenant des codes permettant d'identifier à quel échantillon (apprentissage ou test) appartient chaque observation ou objet. Vous pouvez afficher les résultats de la Matrice de mauvais classement de l'Échantillon de test afin d'étudier le nombre d'observations ou d'objets de l'échantillon de test, pour chaque classe observée (colonnes), qui sont affectés par erreur dans une mauvaise classe (lignes). Cette feuille de données reporte également le coût de validation croisée (VC) et l'écart-type du coût de VC sur la base des mauvais classements de l'échantillon de test. La feuille de données des Classes prévues de l'échantillon de test donne pour chaque objet ou observation de l'échantillon de test, le numéro d'observation ou d'objet (ou le nom d'observation, si disponible), la classe observée, la classe prévue, ainsi que le noeud terminal dans l'arbre de classification auquel l'objet a été affecté.

Validation croisée par v-ensembles (v-fold). Le deuxième type de validation-croisée proposé dans le module Arbres de Décision (Classification) est la validation croisée par v-ensembles. Ce type de validation croisée est utile quand aucun échantillon de test n'est disponible et que l'échantillon d'apprentissage est trop petit pour en extraire un échantillon de test. La valeur personnalisée de v pour la validation croisée par v-ensembles (la valeur par défaut est 3) détermine le nombre de sous-échantillons aléatoires, de taille aussi proche que possible, qui seront constitués à partir de l'échantillon d'apprentissage. L'arbre de classification de taille spécifiée est calculé v fois, en éliminant à chaque fois l'un des sous échantillons des calculs, et en utilisant ce sous-échantillon comme échantillon de test pour la validation croisée. Ainsi chaque sous-échantillon est utilisé v - 1 fois dans l'échantillon d'apprentissage et juste une fois dans l'échantillon de test. La moyenne des coûts de VC calculés pour chacun des v échantillons de test est alors calculée pour donner l'estimation par v-ensembles des coûts de VC, qui peut être affiché, avec son erreur-type, dans la feuille de données de la Séquence de l'arbre.

Validation croisée globale. Le troisième type de validation-croisée disponible dans le module Arbres de Décision (Classification) est la validation croisée globale. Dans la validation croisée globale, toute l'analyse est répliquée un certain nombre de fois (3 fois par défaut) en maintenant une partie de l'échantillon d'apprentissage égale à 1 autant de fois que spécifié, et en utilisant tour à tour chacun de ces échantillons maintenus comme un échantillon de test pour effectuer la validation croisée de l'arbre de classification sélectionné. Ce type de validation croisée n'apporte rien par rapport à une validation croisée par v-ensembles si vous utilisez l'Arrêt direct de type FACT, mais peut s'avérer très utile pour valider la méthode lorsque vous utilisez des techniques automatiques de sélection de l'arbre (pour des détails, voir Breiman et. al., 1984). Ceci nous amène à la seconde des deux stratégies utilisée pour sélectionner l'arbre "optimal" : la sélection automatique de l'arbre basée sur une technique développée par Breiman et al. (1984) appelée élagage par validation croisée avec coûts-complexité minimum.

Élagage par validation croisée avec coûts-complexité minimum. Dans le module Arbres de Décision (Classification), vous utilisez la méthode d'Élagage par validation croisée avec coûts-complexité minimum si vous sélectionnez le bouton d'option Élagage sur l'erreur de classement comme Règle d'arrêt et un élagage par validation croisée avec déviance-complexité minimum si vous sélectionnez le bouton d'option Élagage sur l'écart (déviance) comme Règle d'arrêt. La seule différence entre ces deux options est la mesure d'erreur de prévision qui est utilisée. L'Élagage sur l'erreur de classement utilise les Coûts déjà maintes fois évoqués (qui représentent un pourcentage de mauvais classement lorsque les probabilités a priori sont Estimées et que les Coûts de mauvais classement sont Égaux). L'Élagage sur l'écart (déviance) utilise une mesure basée sur les principes du maximum de vraisemblance, et appelée déviance (voir Ripley, 1996). Nous nous intéresserons à l'élagage par validation croisée avec coûts-complexité (terme utilisé par Breiman et. al., 1984), puisque l'élagage avec déviance-complexité ne diffère que par la mesure de l'erreur de prévision qui est utilisée.

Les coûts nécessaires pour réaliser un élagage par coût-complexité sont calculés à mesure que l'arbre se développe, en démarrant par la division du noeud racine jusqu'à sa taille maximum, définie par le N Minimum spécifié. Les coûts de l'échantillon d'apprentissage sont recalculés dès qu'une division est ajoutée à l'arbre, produisant une séquence de coûts généralement décroissants (indiquant une meilleure classification) en fonction du nombre de divisions dans l'arbre. Les coûts de l'échantillon d'apprentissage sont appelés coûts de resubstitution pour les distinguer des coûts de VC, parce que la validation croisée par v-ensembles est effectuée pour chaque division ajoutée à l'arbre. Utilisez les coûts de VC estimés à partir de la validation croisée par v-ensembles comme coûts pour le noeud racine. Remarque : vous pouvez demander un arbre de taille égale au nombre de noeuds terminaux, puisque pour des arbres binaires, la taille de l'arbre commence à un (le noeud racine) et augmente de un à chaque division ajoutée. Définissez maintenant un paramètre dit paramètre de complexité dont la valeur initiale est zéro, et pour chaque arbre (y compris le premier, avec uniquement le noeud racine), calculez la valeur d'une fonction définie par les coûts de l'arbre plus le produit du paramètre de complexité par la taille de l'arbre. Augmentez le paramètre de complexité de façon continue jusqu'à ce que la valeur de la fonction pour le plus grand arbre dépasse la valeur de la fonction pour un arbre de plus petite taille. Considérez l'arbre de plus petite taille comme le nouveau plus grand arbre, et continuez à augmenter le paramètre de complexité de façon continue jusqu'à ce que la valeur de la fonction pour ce plus grand arbre dépasse la valeur de la fonction pour un arbre de plus petite taille, et ainsi de suite jusqu'à ce que le noeud racine soit le plus grand arbre (les personnes familiarisées avec les analyses numériques reconnaîtront l'utilisation d'une fonction de pénalité dans cet algorithme. La fonction est une combinaison linéaire des coûts (qui, d'une manière générale, décroissent avec la taille de l'arbre) et de la taille de l'arbre (qui augmente de façon linéaire). À mesure que le paramètre de complexité augmente, les arbres importants sont de plus en plus pénalisés pour leur complexité, jusqu'à ce qu'un seuil discret soit atteint, seuil pour lequel les coûts plus importants d'un arbre de plus petite taille l'emporteront sur les coûts de complexité d'un arbre plus grand).

La séquence des arbres les plus importants qui est obtenue par cet algorithme possède un certain nombre de propriétés intéressantes. Les arbres sont imbriqués, parce que les arbres successivement coupés contiennent tous les noeuds de l'arbre suivant (plus petit) de la séquence. Initialement, de nombreux noeuds sont souvent coupés pour aller d'un arbre au suivant (plus petit) dans la séquence, mais moins de noeuds tendent à être coupés à l'approche du noeud racine. La séquence des arbres les plus importants est par ailleurs coupée de façon optimale, puisque pour chaque taille d'arbre dans la séquence, il n'existe aucun autre arbre de même taille avec des coûts inférieurs. Vous trouverez les démonstrations et/ou les explications de ces propriétés dans l'ouvrage de Breiman et al. (1984).

Sélection de l'arbre après élagage. Sélectionnons maintenant l'arbre "optimal" à partir de la séquence des arbres élagués de façon optimale. Le critère naturel est celui des coûts de VC. Bien que vous puissiez choisir l'arbre "optimal" avec le coût de VC minimum, vous aurez souvent plusieurs arbres avec des coûts de VC proches de ce minimum. Breiman et al. (1984) proposent de choisir comme arbre "optimal", l'arbre le plus petit (le moins complexe) dont les coûts de VC ne différent pas trop du coût de VC minimum. Ils suggèrent d'utiliser la "règle 1 - Erreur-Type" pour faire ce choix, c'est-à-dire, de retenir comme arbre "optimal", le plus petit arbre dont les coûts de VC n'excèdent pas le coût de VC minimum plus 1 fois l'Erreur-type des coûts de VC de l'arbre ayant le coût de VC minimum.

Dans le module Arbres de Décision (Classification) vous pouvez définir un coefficient différent de 1 (par défaut) comme Règle Err-T. La valeur 0,0 retiendrait ainsi comme arbre "optimal" celui qui possède le coût de VC minimum. Des valeurs supérieures à 1,0 pourraient retenir comme arbre "optimal", des arbres beaucoup plus petits que l'arbre dont le coût de VC est minimum.

Un avantage certain de la procédure de sélection "automatique" de l'arbre est qu'elle permet d'éviter un "surajustement" ou un "sous-ajustement" des données. Le graphique ci-dessous montre un tracé type des Coûts de resubstitution et des Coûts de VC pour la série des arbres successivement élagués.

Comme vous pouvez le constater sur le graphique, les Coûts de resubstitution (par exemple, le pourcentage de mauvais classement de l'échantillon d'apprentissage) diminuent de façon continue à mesure que la taille de l'arbre augmente. Au contraire, les coûts de VC tendent rapidement vers le minimum lorsque la taille de l'arbre augmente initialement, puis augmentent lorsque la taille de l'arbre devient très importante. Notez que l'arbre "optimal" sélectionné est proche du point d'inflexion de la courbe, c'est-à-dire, proche du point où nous avons une baisse initiale importante des coûts de VC et une taille de l'arbre qui commence à augmenter. La procédure de sélection "automatique" de l'arbre est conçue pour sélectionner l'arbre le plus simple (plus petit) avec des coûts de VC proches du minimum, ce qui permet d'éviter la perte de précision dans la prévision en raison d'un "sous-ajustement" ou d'un "surajustement" des données (notez la similarité avec la logique du tracé des valeurs propres pour déterminer le nombre de facteurs à conserver dans une analyse factorielle).

Comme nous l'avons vu précédemment, l'élagage par validation croisée avec coûts-complexité minimum et la sélection de l'arbre "optimal" sont véritablement des procédures "automatiques". Les algorithmes prennent toutes les décisions pour sélectionner l'arbre "optimal", sauf peut-être, la spécification d'une valeur pour la Règle de l'erreur-type. Une question qui se pose avec l'utilisation de ces procédures "automatiques" est la manière dont les résultats peuvent être répliqués compte tenu du processus "automatique" utilisé, la réplication pouvant conduire à sélectionner des arbres de tailles très différente. C'est ici qu'intervient la validation croisée globale. Comme nous l'avons déjà expliqué, la validation croisée globale permet de répliquer l'analyse entière un certain nombre de fois (3 par défaut) en maintenant à l'écart une partie des observations à utiliser dans un échantillon de test pour la validation croisée de l'arbre de classification sélectionné. Si la moyenne des coûts des échantillons de test, appelée coûts de VC globaux, dépasse les coûts de VC de l'arbre sélectionné, ou si l'erreur-type des coûts de VC globaux dépasse l'erreur-type des coûts de VC de l'arbre sélectionné, c'est une indication que la procédure de sélection "automatique" de l'arbre permet une trop grande variabilité dans la sélection de l'arbre au lieu de sélectionner systématiquement l'arbre avec des coûts estimés minimum.

Arbres de classification et méthodes traditionnelles. Comme nous l'avons vu dans les méthodes utilisées pour calculer les arbres de classification, ces derniers diffèrent résolument des méthodes statistiques traditionnelles à de nombreux égards pour prévoir l'appartenance des membres de classe sur une variable dépendante catégorielle. Elles utilisent une hiérarchie de prévisions, s'appliquant parfois à des observations uniques, pour affecter les observations aux classes prévues. Les méthodes traditionnelles utilisent des techniques simultanées pour faire une et une seule prévision de l'affectation à des classes, pour chacune des observations. À d'autres égards, comme le but d'obtenir une prévision précise, les arbres de classification s'apparentent aux méthodes traditionnelles. Le temps nous dira si les arbres de classification sont suffisamment robustes pour être acceptés au même titre que les méthodes traditionnelles.

Pour plus d'informations sur les arbres de classification, voir la rubrique Principes Fondamentaux. Pour des informations sur la nature hiérarchique et la flexibilité des arbres de classification, voir la rubrique Caractéristiques des Arbres de Classification.

Probabilités a priori, Mesure de Gini de l'Impureté d'un Noeud et Coûts

d'Erreur de Classement

Dans les modules d'Arbres de Classification et de Régression (par exemple, GC&RT, Arbres Interactifs), l'option par défaut pour mesurer la qualité d'ajustement dans les problèmes de classification est le coefficient de Gini ; en outre, diverses options permettent de spécifier les probabilités de classification a priori. Le choix des probabilités a priori peut influer sur les divisions qui sont choisies dans l'arbre final, et affecter dans une mesure importante la précision du modèle final C&RT pour la prédiction de certaines classes particulières. Ci-dessous, une présentation et un descriptif de ces questions.

Probabilités a priori et Mesure de Gini de l'Impureté du Noeud

D'après Breiman, Friedman, Olshen et Stone (1984), la mesure de Gini de l'impureté d'un noeud (que STATISTICA utilise par défaut dans le module GC&RT et par conséquent, dans le module Boosting - Arbres de Décision) se définit comme suit (pages 28 & 38)

et

sont tels que

p ( j | t ) représente la probabilité estimée qu'une observation appartienne au groupe j sachant qu'elle est dans le noeud t,

p ( j , t ) représente la probabilité estimée qu'une observation appartienne au groupe j et au noeud t,

p ( t ) représente la probabilité estimée qu'une observation appartienne au noeud t, ,

représente la probabilité a priori du groupe j,

N j ( t ) représente le nombre de membres du groupe j dans le noeud t,

et N j représente la taille du groupe j.

Par conséquent, les probabilités a priori jouent un rôle dans chacun des calculs des Mesures de Gini pour les différents noeuds. Toutefois, Breiman et al. ont également montré que lorsque les probabilités a priori sont estimées à partir des données,

Ceci peut entraîner des taux de mauvaise classification plus importants dans les groupes sous-representés (voir le paragraphe Probabilités a priori et Coûts d'Erreur de Classement, ci-dessous).

Probabilités a priori et Coûts d'Erreur de Classement

Lorsque vous spécifiez des coûts d'erreur de classement qui ne sont pas uniformes dans une analyse GC&RT, la mesure de Gini est modifiée pour tenir compte de ces coûts (page 113) :

C ( i | j ) représente le coût de l'erreur de classement d'une observation de la classe j dans la classe i. Cette fonctionnalité permet à l'utilisateur de pénaliser certains types de mauvaises classification dans l'analyse. Toutefois, comme nous l'avons indiqué dans le paragraphe Probabilités a priori et Mesure de Gini de l'Impureté du Noeud, p ( j | t ) est fonction de p ( j ), la probabilités a priori de la classe j. Par conséquent, pour un C ( i | j ) et un p ( j ) donnés, nous pouvons trouver C ' ( i | j ) et p ' ( j ), tels que

Par conséquent, si C ' ( i | j ) est identique pour tous les i j et que nous pouvons trouver p ' ( j ), tels que la relation ci-dessus soit satisfaite, cet ajustement des probabilités a priori peut avoir le même effet au final que la spécification de coûts d'erreur de classement non-uniformes.  Cette propriété peut se vérifier empiriquement dans les problèmes de classification où l'une des classes est sous-représentée dans les données.  Dans ce cas, avec des coûts d'erreur de classement uniformes, les probabilités a priori qui sont estimées à partir des proportions d'échantillons vont produire un modèle qui tend à ne pas tenir suffisamment compte de la classe sous-représentée.  Toutefois, lorsqu'on augmente les probabilités a priori de la classe sous-représentée, le modèle va tendre à mieux classer les observations dans ce groupe.

Comparaisons avec d'Autres Programmes d'Arbres de Classification

De nombreux programmes d'arbres de classification ont été développés pour permettre de prévoir l'affectation d'observations ou d'objets aux classes d'une variable dépendante catégorielle à partir des mesures d'une ou plusieurs variables prédictives. Le module Arbres de Décision (Classification) offre toutes les fonctionnalités des programmes QUEST (Loh & Shih, 1997) et CART (Breiman et. al., 1984) pour calculer des arbres de classification binaires basés sur des divisions univariées pour des variables prédictives catégorielles, des variables prédictives ordonnées (mesurées sur au moins une échelle ordinale), ou un mélange des deux types de prédicteurs. Il permet également de calculer des arbres de classification basés sur des divisions de combinaisons linéaires pour des variables prédictives sur une échelle d'intervalle.

Certains programmes d'arbres de classification, FACT (Loh & Vanichestakul, 1988) et THAID (Morgan & Messenger, 1973), ainsi que les programmes associés AID, (Automatic Interaction Detection, Morgan et Sonquist, 1963), et CHAID, (Chi-Square Automatic Interaction Detection, Kass, 1980) réalisent des divisions multi-niveaux au lieu des divisions binaires lors du calcul des arbres de classification. Une division multi-niveaux divise un noeud parent en plus de deux noeuds enfants, alors qu'une partition binaire produit toujours deux noeuds enfants (quel que soit le nombre de niveaux de la variable de division ou du nombre de classes de la variable dépendante). Notez toutefois, qu'il n'y a aucun avantage à réaliser des divisions multi-niveaux, puisque chaque division multi-niveaux peut être représentée par une série de divisions binaires, mais il peut en revanche y avoir des inconvénients. Dans certains programmes réalisant des divisions multi-niveaux, les variables prédictives peuvent n'être utilisées que pour une seule division ; les arbres de classification obtenus peuvent être trop courts pour refléter la réalité, et même sans intérêt (Loh et Shih, 1997). Un problème plus sérieux concerne le biais induit par la sélection des variables pour les divisions. Ce biais est possible dans les programmes comme THAID (Morgan et Sonquist, 1973) qui utilisent une recherche exhaustive pour trouver les divisions (pour une présentation, voir Loh et Shih, 1997). Le biais dans la sélection de variable est le biais induit par la sélection de variables à plus de niveaux pour les divisions, biais qui peut fausser l'interprétation de l'importance relative des prédicteurs dans l'explication des réponses de la variable dépendante (Breiman et. al., 1984).

Vous pouvez éviter ce biais dans la sélection des variables en utilisant les options de division basée sur l'analyse discriminante du module Arbres de Décision (Classification). Ces options utilisent les algorithmes de QUEST (Loh & Shih, 1997). L'option de recherche exhaustive pour des divisions univariées de type CART du module arbres de classification vous permet de trouver les divisions produisant la meilleure classification possible dans l'échantillon d'apprentissage (mais pas nécessairement dans les échantillons indépendants de validation croisée). Pour des divisions fiables, ou des calculs plus rapides, nous vous recommandons d'utiliser les options de division basées sur l'analyse discriminante.

Notes sur les Algorithmes de Calcul

Divisions basées sur une méthode discriminante. Les algorithmes utilisés pour réaliser des divisions basées sur une méthode discriminante sont dérivés de QUEST (Quick, Unbiased, Efficient Statistical Trees). QUEST est un programme d'arbres de classification développé par Loh et Shih (1997) qui emploie une analyse discriminante quadratique récursive modifiée et contient un certain nombre de fonctionnalités innovantes pour améliorer la fiabilité et l'efficacité des arbres de décision qu'il calcule.

Pour des divisions univariées, QUEST utilise des tests statistiques pour sélectionner les variables subissant les divisions. Pour trouver les divisions, l'algorithme de classification 2-moyennes de Hartigan et Wong (1979, voir aussi le module Classifications), les méthodes de décomposition de la valeur singulière (Schneider et Barker, 1973), et les techniques d'analyse discriminante quadratique récursive (McLachlan, 1992) sont utilisées. Des algorithmes similaires sont utilisés pour les divisions de combinaisons linéaires. Loh et Shih (1997) donnent une description détaillée des algorithmes utilisés dans QUEST.

Recherche de divisions univariées de type CART. La Méthode de Sélection de Divisions Univariées de type CART est une adaptation des algorithmes utilisés dans CART, comme décrit par Breiman et al. (1984). CART (Classification And Regression Trees) est un programme d'arbre de classification qui utilise une recherche de grille exhaustive de toutes les divisions univariées possibles pour trouver les divisions d'un arbre de classification. Pour des variables prédictives catégorielles avec k niveaux présents sur un noeud, il existe 2(k -1) -1 contrastes possibles entre deux ensembles de niveaux du prédicteur. Pour des prédicteurs ordonnés avec k niveaux distincts présents sur un noeud, il existe k -1 points centraux entre les niveaux distincts. Ainsi on peut voir que le nombre de divisions possibles à examiner peut devenir très important pour de nombreux prédicteurs avec de nombreux niveaux, lesquels devant être examinés sur de nombreux noeuds. L'option de recherche exhaustive de divisions univariées de type CART fonctionne en recherchant la divisions qui permet de réduire le plus la valeur de l'indicateur de qualité d'ajustement sélectionné. Les méthodes de sélection de divisions CART sont présentées en détail par Breiman et. al. (1984).

Arrêt direct. L'option d'arrêt direct de type FACT utilise les techniques de FACT. FACT est un programme d'arbres de classification développé par Loh et Vanichestakul (1988) qui est un précurseur de QUEST. L'utilisation de l'arrêt direct comme règle d'arrêt pour l'arbre de classification est abordée dans l'ouvrage de Loh et Vanichestakul (1988).

Élagage coût-complexité minimum pour la validation croisée. Les options d'élagage dans la règle d'arrêt utilisent les techniques de CART, et sont détaillées dans l'ouvage de Breiman et al. (1984).





Arbre de Régression pour Prévoir la Pauvreté

Cet exemple concerne l'analyse des données présentées dans la rubrique Exemple 1 : Régression Standard du module Régression Multiple. Il permet d'illustrer la manière dont les arbres de régression peuvent parfois produire des solutions à la fois simples et facilement interprétables.

Fichier de données. Cet exemple s'appuie sur le fichier de données Poverty.sta. Ouvrez ce fichier à l'aide de la commande Ouvrir des Exemples du menu Fichier ; vous le trouverez dans le répertoire Fichiers de Données. Les données représentent l'évolution de la population entre les recensements de 1960 et de 1970 sur une sélection aléatoire de 30 comtés américains. Le nom des observations du fichier de données contient le nom de ces comtés.

L'information relative aux différentes variables est accessible par la boîte de dialogue de Spécifications de Toutes les Variables (pour y accéder, sélectionnez la commande Spécs de toutes les Variables du menu Données).

Problématique. L'objectif de cette étude consiste à analyser les indicateurs liés à la pauvreté, c'est-à-dire les variables qui permettent de prévoir au mieux la part de foyers situés en deçà du seuil de pauvreté dans un comté. Nous allons par conséquent traiter la variable 3 (Pt_Pauvr) comme variable dépendante (ou critère), et toutes les autres variables comme des variables indépendantes (ou prédicteurs).

Configuration de l'analyse. À une exception près (la validation croisée v-ensembles), nous utiliserons les paramètres analytiques par défaut du module Modèles d'Arbres de Classification et de Régression (GC&RT). Sélectionnez la commande Modèles d'Arbres de Classification et de Régression du menu Data Mining afin d'accéder au Panneau de Démarrage. Sélectionnez C&RT Standard comme Type d'analyse (c'est-à-dire, acceptez le paramétrage par défaut) puis cliquez sur le bouton OK afin d'accéder à la boîte de dialogue C&RT Standard - Spécifications. Dans l'onglet Base, cliquez sur le bouton Variables et sélectionnez la variable  PT_PAUVR comme variable dépendante, et toutes les autres variables comme prédicteurs continus. Ne cochez pas l'option Réponse catégorielle (var. dépendante catégorielle dans cet exemple, dans la mesure où la variable PT_PAUVR (pourcentage de familles en deçà du seuil de pauvreté) représente des données continues.

Cliquez ensuite sur l'onglet Validation et cochez l'option Validation croisée v-ensembles (v-fold). Comme indiqué dans la rubrique Introduction - Principes Fondamentaux, cette option s'avère particulièrement utile lorsque le fichier de données ne comporte pas suffisamment d'observations pour produire une estimation plus stable de l'arbre de taille optimale. Cliquez sur le bouton OK pour démarrer l'analyse ; la progression des calculs est indiquée dans la boîte de dialogue Calculs en cours..., avant l'apparition de la boîte de dialogue GC&RT - Résultats.

Étude des Résultats. Cliquez sur le bouton Diagramme de l'arbre dans la boîte de dialogue Résultats - onglet Synthèse afin de produire la représentation suivante :

La solution apparaît très simple et facile d'interprétation. Cliquez sur la bouton Exploration de l'arbre afin d'examiner en détail la solution : L'Explorateur de l'Arbre apparaît sous forme d'un Classeur (voir la section Examen d'Arbres Conséquents : Des Outils Spécifiques de Gestion de l'Analyse dans la rubrique Introduction - Principes Fondamentaux - Deuxième Partie) qui fournit une synthèse de l'arbre de décision et des conditions de division avec des statistiques (de classification) pour chaque noeud (intermédiaire) de division (représenté par le symbole ) ou noeud terminal (représenté par le symbole ).

L'un des avantages de la représentation de l'Explorateur de l'Arbre sous forme d'un Classeur (voir aussi la section Les Calculs et Solutions Spécifiques de STATISTICA C&RT dans la rubrique Introduction - Principes Fondamentaux - Deuxième Partie) concerne la possibilité de produire des "animations" de la solution finale. Par exemple, mettez en surbrillance (cliquez sur) le Noeud 1. Puis à l'aide des flèches de votre clavier, déplacez vous sure les noeuds inférieurs de l'arbre de décision. Vous allez ainsi constater que les divisions successives produisent des noeuds de plus en plus purs, c'est-à-dire avec des réponses de plus en plus homogènes comme le montre l'écart-type plus faible de la courbe normale.

Nous allons passer à l'interprétation des résultats de cet arbre de décision dans un instant ; pour le moment, cliquez sur le bouton Séquence de l'arbre dans l'onglet Synthèse.

L'arbre numéro 8 est l'arbre le moins complexe (avec le plus petit nombre de noeuds terminaux) qui possède les coûts de validation croisée les plus faibles (Coûts de VC) ; c'est la raison pour laquelle il a été choisi comme l'arbre de "taille optimale". Cliquez sur le bouton Séquence des coûts afin de produire la représentation suivante :

Remarque : le coût de resubstitution de l'échantillon qui a permis de déterminer les divisions augmente à mesure que le processus d'élagage s'opère (en fait, à mesure que les numéros des arbres augmentent en passant de 1 à 10, le nombre de noeuds terminaux diminue, c'est-à-dire que les arbres consécutifs sont de plus en plus élagués) ; nous pouvions nous y attendre puisque l'ajustement des données à partir desquelles l'arbre est calculé va être d'autant moins bon que nous avons un nombre de noeuds terminaux faible. Toutefois, il est intéressant de constater que le coût de VC (échantillon de validation croisée) diminue dans un premier temps, puis remonte brutalement à partir de l'arbre numéro 8, ce qui révèle l'existence d'un "surajustement" des données pour les arbres de décision 1 à 7, c'est-à-dire qu'ils ont produit des résultats propres à l'échantillon à partir duquel les divisions ont été calculées, conduisant à une moins bonne précision de la prévision dans les échantillons de validation croisée (les v-ensembles successifs, c'est-à-dire des échantillons de validation croisée tirés de façon aléatoire).

Il ne faut pas sous-estimer l'importance de l'outil de Validation croisée v-ensembles (voir la description de cette option dans la boîte de dialogue Spécifications - onglet Validation) dans la détermination et le test de l'arbre de "taille optimale". Sans cet outil, notamment sur des jeux de données de taille faible à modérée, il serait extrêmement difficile d'élaguer convenablement afin d'éviter le surajustement des données, et produire un arbre de décision permettant de réaliser de bonnes" prévisions.

Interprétation des Résultats. Dans la mesure où il apparaît que l'arbre de décision final (l'arbre numéro 8) est effectivement l'arbre de "taille optimale" pour ces données, nous devons maintenant interpréter ces résultats pour prévoir la pauvreté dans les 30 comtés ? Retournons à l'Explorateur de l'Arbre ; il n'existe qu'un seul noeud de division (conditions de division) :

Si la variable PT_PHONE (part de foyers équipés d'une installation téléphonique) est inférieure à 72, le taux de pauvreté est plus important ; la moyenne est de 29,62 si la condition est vérifiée (PT_PHONE<72), contre 19,18 si elle ne l'est pas (PT_PHONE>=72). Ce résultat est cohérent : les comtés les plus aisés, avec une part de personnes défavorisées plus faible, possèdent vraisemblablement davantage de foyers équipés d'une installation téléphonique.

Il est intéressant de constater que ces résultats, très simples à exprimer, ne viennent pas nécessairement confirmer en intégralité les résultats obtenus dans l'Exemple 1: Régression Standard du module Régression Multiple.




Reconnaissance de Formes (Classification de Chiffres)

Cet exemple illustre l'utilisation des arbres de classification dans une problématique de reconnaissance de formes. Ce fichier d'exemple est également présenté dans le cadre du module Arbres de Décision [Classification].

Les données de l'analyse ont été produites de la même manière qu'une calculette défectueuse afficherait des chiffres sur un écran numérique (pour une description de la manière dont ces données ont été produites, voir Breiman et. al., 1984). Les classes observées de la variable dépendante Chiffre sont constituées des valeurs zéro à neuf que nous avons entrées sur le clavier de la calculette. Nous avons 7 prédicteurs catégoriels, Var1 à Var7. Les niveaux de ces prédicteurs catégoriels (0 = absent ; 1 = présent) correspondent à la présence ou à l'absence de chacun des 7 segments digitaux (3 segments horizontaux et 4 verticaux) sur l'affichage digital lorsque nous avons entré la valeur sur le clavier. La correspondance entre les variables prédictives et les segments est la suivante : Var1 - horizontal supérieur, Var2 - vertical supérieur gauche, Var3 - vertical supérieur droit, Var4 - horizontal du milieu, Var5 - vertical inférieur gauche, Var6 - vertical inférieur droit, et Var7 - horizontal inférieur. Les 10 premières observations du fichier sont illustrées ci-dessous.  Vous trouverez le fichier de données complet avec ses 500 observations dans le fichier d'exemple Digit.sta. Ouvrez ce fichier de données à l'aide de la commande Ouvrir des Exemples du menu Fichier ; ce fichier se situe dans le dossier Fichiers de Données de votre installation STATISTICA.

Spécifier l'Analyse. À deux exceptions près (c'est-à-dire la spécification des Probabilités a priori et de la Validation croisée v-ensembles), nous utiliserons les options analytiques par défaut du module Modèles d'Arbres de Classification et de Régression (GC&RT). Sélectionnez cette option dans le menu Data Mining afin d'accéder au Panneau de Démarrage.

Nous allons réaliser une analyse GC&RT standard ; vous pouvez donc cliquer sur le bouton OK afin d'accéder à la boîte de dialogue C&RT Standard - Spécifications. La variable dépendent dans notre cas est de nature catégorielle ; dans l'onglet Base, vous pouvez donc cocher l'option Réponse catégorielle (var. dépendante catégorielle). Cliquez ensuite sur le bouton Variables afin d'accéder à une boîte de dialogue standard de sélection de variables. Sélectionnez la variable Chiffre comme variable Dépendante et les variables Var1 à Var7 comme Prédicteurs catégoriels, puis cliquez sur le bouton OK. Vous n'avez pas besoin de spécifier explicitement les Codes des facteurs ni les Codes des réponses dans la mesure où nous allons tous les utiliser ici ; STATISTICA va déterminer automatiquement ces codes à partir des données.

Dans l'onglet Classification nous allons accepter la plupart des options par défaut (c'est-à-dire des Coûts de mauvaise classification Égaux et la Mesure de Gini comme indicateur de Qualité d'ajustement) ; nous allons simplement sélectionner le bouton d'option Égales dans le cadre Probabilités a priori. Enfin, dans l'onglet Validation, cochez l'option Validation croisée par v-ensembles (v-fold), et acceptez tous les autres paramètres par défaut.

Cliquez sur le bouton OK pour exécuter les calculs. Une boîte de dialogue va apparaître pour indiquer la progression des analyses ; la validation croisée par v-ensembles peut parfois s'avérer très longue (dans la mesure où l'analyse est répétée v fois). À l'issue des calculs, la boîte de dialogue GC&RT - Résultats apparaît.

Étude des Résultats. Sélectionnez l'onglet Synthèse, puis cliquez sur le bouton Diagramme de l'arbre afin de représenter l'arbre final sélectionné par le programme (par validation croisée).

Comme c'est souvent le cas, l'arbre final est trop grand pour être affiché dans un simple graphique ; il s'agit d'un problème récurrent dans ce type d'analyse (voir aussi la section Les Calculs et Solutions Spécifiques de STATISTICA C&RT dans la rubrique Introduction - Principes Fondamentaux - Deuxième Partie). Vous pouvez naturellement utiliser les outils de zoom proposés dans les graphiques afin de naviguer dans l'arbre et examiner des parties ou zones spécifiques de l'arbre de décision.

Vous pouvez également cliquer sur le bouton Arbre déroulant dans la boîte de dialogue GC&RT - Résultats - onglet Synthèse afin de représenter l'arbre de décision dans une fenêtre avec des barres de défilement ; d'une certaine manière, cette option permet de créer un graphique beaucoup plus grand sur lequel vous allez déplacer une fenêtre (déroulante et redimensionnable) de visualisation.

Une autre manière, souvent plus efficace et informative, consiste à examiner les arbres de décision importants de STATISTICA dans un Explorateur d'Arbres de type Classeur, qui vous permet de naviguer dans des arbres de décision de taille et de complexité quasiment illimitée. Cliquez sur le bouton Exploration de l'arbre afin de représenter cet explorateur.

L'Explorateur de l'Arbre (voir la section Examen d'Arbres Conséquents : Des Outils Spécifiques de Gestion de l'Analyse dans la rubrique Introduction - Principes Fondamentaux - Deuxième Partie) fournit une synthèse de l'arbre de décision et des conditions de division avec les statistiques (de la classification) pour chaque noeud (intermédiaire) de division (matérialisé par le symbole ) ou noeud terminal ( ). Si vous examinez attentivement l'arbre de décision, vous allez constater que la classification finale est très bonne, avec des noeuds terminaux quasiment purs.

Revenez à présent à la boîte de dialogue des Résultats, sélectionnez l'onglet Classification puis cliquez sur le bouton Valeurs prévues vs. observées par classes. Vous allez ainsi produire une matrice des classifications observées et prévues, ainsi qu'une synthèse graphique des classifications observées en fonction des classifications prévues.

STATISTICA a utilisé la validation croisée par v-ensembles (v-fold) pour sélectionner l'arbre numéro 5 dans la séquence d'arbres. Cliquez sur le bouton Séquence de l'arbre dans l'onglet Synthèse afin de produire la feuille de données de la Séquence de l'arbre.

L'arbre numéro 5 est l'arbre de décision le moins complexe (avec le nombre de noeuds terminaux le plus faible) avec un coût de validation croisée (Coûts de VC) d'un écart-type à l'intérieur du coût de VC le plus faible (voir la description de la Règle de l'erreur-type dans l'onglet Validation) ; c'est la raison pour laquelle il a été sélectionné comme arbre de "taille optimale". Cliquez sur le bouton Séquence des coûts afin de représenter ces résultats sous une forme graphique.

Remarque : le coût de resubstitution de l'échantillon qui a permis de déterminer les divisions augmente à mesure que le processus d'élagage s'opère (en fait, à mesure que les numéros des arbres augmentent en passant de 1 à 14, le nombre de noeuds terminaux diminue, c'est-à-dire que les arbres consécutifs sont de plus en plus élagués) ; nous pouvions nous y attendre puisque l'ajustement des données à partir desquelles l'arbre est calculé va être d'autant moins bon que nous avons un nombre de noeuds terminaux faible. Toutefois, il est intéressant de constater que le coût de VC (échantillon de validation croisée) diminue dans un premier temps, ce qui révèle l'existence d'un "surajustement" des données pour les arbres de décision 1 à 4, cs'est-à-dire qu'ils ont produit des résultats propres à l'échantillon à partir duquel les divisions ont été calculées, conduisant à une moins bonne précision de la prévision dans les échantillons de validation croisée (les v-ensembles successifs, c'est-à-dire des échantillons de validation croisée tirés de façon aléatoire).

Cet exemple, que Breiman, et al. (1984) ont abordé en détail, démontre l'intérêt de la validation croisée par v-ensembles (v-fold) pour déterminer l'arbre de taille optimale. En fait, sans cet outil appliqué à l'ensemble des arbres de la séquence d'arbres, il est facile de passer à côté de la meilleure solution (arbre) c'est-à-dire de la solution la plus adéquate pour les données.

Didacticiels

Vous pouvez visionner l'intégralité de la série de tutoriels Le Data Mining en 35 Leçons avec STATISTICA en remplissant le formulaire d'inscription. Vous serez alors notifié(e) automatiquement de la disponibilité des nouveaux épisodes et recevrez d'autres informations utiles.

StatSoft propose par ailleurs une série de didacticiels et présentations interactives décrivant pas-à-pas différentes opérations que vous pouvez réaliser à l'aide de STATISTICA. Si vous souhaitez voir aborder un thème particulier, merci de nous écrire.