Partager :

Concepts Fondamentaux en Statistique


Data Mining :

Modèles d'Arbres de Classification et de Régression



Sommaire :


Introduction

Le module STATISTICA Modèles Généraux d'Arbres de Classification/Régression (GC&RT) vous permet de construire des arbres de classification et de régression afin de prévoir les valeurs des variables dépendantes continues (régression) et des variables prédictives catégorielles (classification). Le programme intègre l'algorithme classique C&RT popularisé par Breiman et al. (Breiman, Friedman, Olshen, & Stone, 1984 ; voir aussi Ripley, 1996), et offre différentes méthodes d'élagage et de validation croisée, en plus des méthodes puissantes de validation croisée par v-ensembles (v-fold). En outre, le programme vous permet de spécifier des plans d'expériences de type ANCOVA (voir les modules MANOVA et GLM) avec des effets et interactions de facteurs continus et catégoriels, c'est-à-dire pour que les calculs portent sur les matrices du modèle des variables prédictives. Vous trouverez une bonne introduction aux arbres de classification, et notamment concernant l'algorithme QUEST (Quick, Unbiased, Efficient Statistical Trees), dans le cadre du module Arbres de Décision (Classification), et l'essentiel de l'introduction suivante présente la même information, dans un cadre sensiblement différent. Un autre algorithme similaire de construction d'arbres est l'algorithme CHAID (Chi-square Automatic Interaction Detector ; voir Kass, 1980) ; le module Modèles CHAID de STATISTICA s'appuie sur cet algorithme.

Problèmes de Classification et de Régression

STATISTICA contient différents algorithmes permettant de prévoir des variables continues ou des variables catégorielles à partir d'un ensemble de prédicteurs continus et/ou d'effets de facteurs catégoriels. Par exemple, dans les modules Modèle Linéaire Général (GLM) et Modèles Généraux de Régression (GRM), vous pouvez spécifier une combinaison linéaire (modèle) de prédicteurs continus et d'effets de facteurs catégoriels (par exemple, avec des effets d'interaction d'ordre deux et trois) afin de prévoir une variable dépendante continue. Dans le module Modèles Généraux d'Analyse Discriminante (GDA), vous pouvez spécifier des modèles de ce type pour prévoir des variables catégorielles, c'est-à-dire résoudre des problèmes de classification.  

Problèmes de régression. Les problèmes de régression sont généralement ceux pour lesquels nous cherchons à prévoir les valeurs d'une variable continue à partir d'une ou plusieurs variables prédictives catégorielles et/ou continues.  Par exemple, si nous cherchons à prévoir le prix de vente d'appartements dans un quartier résidentiel (il s'agit d'une variable dépendante continue) à partir d'un certain nombre de prédicteurs continus (par exemple, la surface en mètres carrés) mais également de prédicteurs catégoriels (par exemple, le style d'immeuble [moderne, ancien], le code postal de la commune, etc... ; remarque : cette dernière variable est une variable catégorielle même si elle contient des valeurs numériques ou des codes). Si vous utilisez une régression multiple, ou d'autres modèles linéaires généraux (GLM) pour prévoir le prix de vente de ces appartements, vous allez chercher à déterminer une équation linéaire de ces variables qui vous permettra alors de calculer les prix de vente théoriques. STATISTICA offre un certain nombre de procédures analytiques pour ajuster des modèles linéaires (GLM, GRM, Régression), différents types de modèles non-linéaires (par exemple, Modèles Linéaires/Non-Linéaires Généralisés (GLZ) , Modèles Additifs Généralisés (GAM), etc...), ou d'autres modèles non-linéaires totalement personnalisés (voir le module Estimation Non-Linéaire),dans lesquels vous pouvez saisir  toute équation contenant des paramètres à estimer par le programme. Le module Modèles CHAID (GCHAID) de STATISTICA permet également d'analyser des problèmes de régression, et produit des résultats analogues à (du même type que) ceux calculés par le module GC&RT. Remarque : différentes architectures de réseaux de neurones [disponibles dans STATISTICA Réseaux de Neurones (SNN)] sont également bien adaptées pour résoudre des problèmes de régression.

Problèmes de classification. Les problèmes de classification sont généralement ceux pour lesquels nous cherchons à prévoir les valeurs d'une variable dépendantes catégorielle (appartenance à un groupe, classe, etc...) à partir d'une ou plusieurs variables prédictives catégorielles et/ou continue. Par exemple, vous pouvez chercher à prévoir ceux qui vont obtenir leur diplôme à l'issue d'un cursus universitaire, ou les clients qui vont renouveler leur abonnement. Ce sont des exemples de problèmes élémentaires de classification binaire, dans lesquels la variable dépendante catégorielle ne peut prendre que deux modalités distinctes et mutuellement exclusives. Dans d'autres cas, nous pouvons chercher à prévoir lequel parmi différents produits concurrents (par exemple, marques de véhicules) une personne va se tourner pour son achat, ou quel type de défaillance survient avec différents types de moteurs. Dans ce cas, il existe plusieurs catégories ou classes pour la variable dépendante catégorielle. STATISTICA propose un certain nombre de méthodes pour analyser des problèmes de classification et calculer des classifications prévues, à partir de prédicteurs continus (par exemple, une régression logit binomiale ou multinomiale dans GLZ), à partir de prédicteurs catégoriels (par exemple, une Analyse Log-Linéaire< de tables de fréquences à entrées multiples), ou à partir des deux (par exemple, par des modèles de type ANCOVA dans GLZ ou GDA). Le module Modèles CHAID de STATISTICA permet également d'analyser des problèmes de classification, et produit des résultats analogues à (du même type que) ceux calculés par le module GC&RT. Remarque : différentes architectures de réseaux de neurones [disponibles dans STATISTICA Réseaux de Neurones (SNN)] sont également bien adaptées pour résoudre des problèmes de classification.

Arbres de Classification et de Régression (C&RT)

D'une manière générale, l'objectif des analyses reposant sur des algorithmes d'arbres de décision consiste à déterminer un ensemble de conditions logiques de partition (division) du type Si...-Alors... afin de prévoir aussi précisément que possible les valeurs ou classifications prévues des observations.

Arbres de Classification

Par exemple, considérons un exemple largement référencé dans la littérature et qui concerne un problème de classification présenté par Fisher [1936 ; voir aussi les modules Analyse Discriminante et Modèles Généraux d'Analyse Discriminante (GDA)]. Le fichier d'exemple, Irisdat.sta, contient la longueur et la largeur des sépales et des pétales pour trois types d'iris (Sétosa, Versicol et Virginic). L'objectif de l'analyse consiste à savoir comment faire la différence entre ces trois types de fleurs, sur la base des quatre mesures de longueur et de largeur des pértales et sépales dont nous disposons. L'analyse discriminante va estimer différentes combinaisons linéaires des variables prédictives afin de calculer des scores (ou probabilités) de classification qui vont nous permettre de déterminer la classification prévue de chaque observation (voir aussi la rubrique Analyse Discriminante - Exemple pour une présentation de ce type d'analyse). En revanche, l'arbre de classification va déterminer un ensemble de conditions logiques (au lieu des équations linéaires) permettant de prévoir ou classifier les observations :

L'interprétation de cet arbre de décision est assez simple : si la largeur des pétales est inférieure ou égale à 0,8, la fleur respective peut être affectée à la classe Setosa ; si la largeur des pétales est supérieure à 0,8 et inférieure ou égale à 1,75, nous pouvons classer la fleur respective dans la catégorie Versicol ; dans les autres cas, nous pouvons affecter la fleur à la catégorie Virginic.

Arbres de Régression

L'approche générale qui permet d'obtenir des prévisions à partir de quelques conditions logiques élémentaires peut également s'appliquer aux problèmes de régression. L'Exemple 1 du module Régression Multiple (voir également l'Exemple 2 de GC&RT) repose sur le fichier de données Poverty.sta, qui contient les chiffres du recensement de population de 1960 et de 1970 pour une sélection aléatoire de 30 comtés. La question qui nous intéresse (dans cet exemple) consiste à déterminer les indicateurs de la pauvreté, c'est-à-dire les variables qui permettent de prévoir la part de familles situées en deçà du seuil de pauvreté dans un comté. Une nouvelle analyse de ces données à l'aide d'un arbre de régression [en utilisant une validation croisée v-ensembles (voir la rubrique Introduction - Principes Fondamentaux - Deuxième Partie) pour trouver le meilleur arbre ; voir aussi l'Exemple 2], conduit aux résultats suivants :

À nouveau, l'interprétation de ces résultats est assez simple : Les comtés dont la part de foyers disposant d'une installation téléphonique est supérieure à 72% ont généralement un taux de pauvreté plus faible. Le taux de pauvreté est en revanche plus important dans les comtés où 72% ou moins des foyers disposent d'une installation téléphonique, et où le solde migratoire (entre les deux recensements de population de 1960 et 1970) est inférieur à -8,3 (moins 8,3). Ces résultats sont relativement simples à interpréter, et se présentent de manière assez intuitive : Il est des comtés plutôt riches (dans lesquels la plupart des foyers disposent d'un téléphone), et dans lesquels la pauvreté est assez faible. À l'inverse, il est d'autres comtés moins aisés, dans lesquels les familles ont moins les moyens de financer une installation téléphonique, qui possèdent un déficit migratoire important ; c'est dans ces comtés que nous retrouvons la part la plus forte de familles en dessous du seuil de pauvreté.

L'examen rapide du nuage de points des valeurs observées en fonction des valeurs prévues montre comment la discrimination entre les deux derniers groupes s'explique particulièrement bien par l'arbre de décision.

Voir également la rubrique Principes Fondamentaux - Deuxième Partie.

Remarque : il existe quatre différents types d'algorithmes d'arbres de décision dans STATISTICA : CHAID (Kass, 1980 ; voir la rubrique Modèles CHAID - Introduction),  C&RT (Breiman, Friedman, Olshen et Stone, 1984 ; voir le module Modèles d'Arbres de Classification et de Régression), QUEST (Loh et Shih, 1997 ; voir le module Arbres de Décision [Classification]), et Arbres de Décision Interactifs (C&RT, CHAID) ; voir également la rubrique CHAID, C&RT et QUEST pour plus d'informations. Pour une présentation des différences entre les différents algorithmes de calcul, voir aussi les rubriques Arbres Interactifs (C&RT, CHAID) - Introduction et Valeurs Manquantes dans GC&RT, GCHAID et les Arbres de Décision Interactifs.

Introduction - Principes Fondamentaux - Deuxième Partie

Avantages des Méthodes de Classification et de Régression (C&RT)

Comme nous l'avons déjà mentionné, les analystes disposent d'une large gamme de méthodes à leur disposition (toutes disponibles dans STATISTICA) pour analyser des problèmes de classification ou de régression. Les techniques d'arbres de classification, lorsqu'elles fonctionnent et permettent de produire de bonnes prévisions ou classifications prévues (c'est-à-dire, exactes et précises) à partir de quelques conditions logiques élémentaires (du type si... alors...), présentent un certain nombre d'avantages sur de nombreuses autres techniques.

Simplicité des résultats. Dans la plupart des cas, l'interprétation des résultats synthétisés dans un arbre de décision est relativement simple. Cette simplicité permet non seulement une classification rapide des nouvelles observations (il est beaucoup plus aisé de vérifier si une ou deux conditions logiques sont remplies, plutôt que de calculer des scores de classification pour chacun des groupes possibles, ou des valeurs prévues sur la base de tous les prédicteurs, en utilisant éventuellement des équations complexes de modèles non-linéaires) ; elle permet également de produire des "modèles" beaucoup plus simples pour expliquer pourquoi les observations sont classées ou prévues de telle ou telle manière (par exemple, dans les problèmes analytiques auxquels les entreprises sont confrontés, il est beaucoup plus simple de présenter quelques conditions logiques élémentaires au management, que des équations plus ou moins complexes ; comparez par exemple les résultats présentés dans cette section pour l'étude du fichier de données Poverty.sta par un arbre de régression aux résultats présentés dans le cadre de l'Exemple 1 du module Régression Multiple).

Des méthodes d'arbres de décision non-paramétriques et non-linéaires. Les résultats des méthodes d'arbres de classification ou de régression se présentent sous la forme d'une séquence de (quelques) conditions logiques (du type si... alors...) que nous appellerons les "noeuds" des arbres. Par conséquent, il n'existe aucune hypothèse implicite quant à la linéarité des relations sous-jacentes entre les variables prédictives et la variable dépendante, ni quant à l'existence d'une fonction de liaison non-linéaire spécifique [comme c'est le cas par exemple dans le module Modèles Linéaires/Non-Linéaires Généralisés (GLZ)] ni même quant à leur nature monotone. Par exemple, si nous étudions une variable continue de dépenses, cette variable peut parfaitement être liée positivement à une variable Revenus si le revenu est inférieur à un certain seuil, mais lui être liée négativement si les revenus sont supérieurs à un autre seuil (c'est-à-dire que l'arbre de décision peut mettre en évidence différentes divisions sur la base d'une même variable de Revenus, révélant ainsi l'existence de relations non-monotones entre les variables). C'est la raison pour laquelle les méthodes d'arbres de décision sont particulièrement bien adaptées aux tâches de data mining, dans lesquelles nous ne disposons généralement que de connaissances a priori limitées, et où nous ne disposons ni de théories, ni de prévisions cohérentes quant aux variables qui sont corrélées, ni à la manière dont elles le sont. Dans ce type d'analyses de données, les méthodes d'arbres de décision permettent souvent de mettre en évidence des relations simples entre un nombre restreint de variables, alors que ces relations peuvent parfaitement être occultées par d'autres techniques analytiques.

Les Calculs et Solutions Spécifiques de STATISTICA GC&RT

Les calculs permettant de trouver les meilleures conditions de division pour construire un arbre à la fois simple mais également utile et informatif sont assez complexes. Veuillez vous reporter à Breiman et al. (1984) pour une présentation de leur algorithme CART® et davantage d'informations concernant la théorie générale et les calculs  spécifiques permettant de construire des arbres de classification et de régression ; le module GC&RT de STATISTICA intègre ces techniques et les enrichit de diverses manières (voir aussi le paragraphe Modèles de prédicteurs de type ANCOVA). Ripley (1996) propose une excellente approche des méthodes d'arbres de classification et de régression, qu'il compare à d'autres approches de reconnaissance de structure et de réseaux de neurones. Vous trouverez également dans la section Détail des Calculs diverses informations relatives au fonctionnement de l'algorithme C&RT. Ci-dessous, une brève présentation de certaines des solutions statistiques et des spécificités de STATISTICA C&RT.

Éviter le Surajustement : Élagage, Validation Croisée et Validation Croisée par V-ensembles (V-fold)

L'un des principaux problèmes qui survient lorsque vous appliquez des arbres de régression ou des arbres de classification à de "véritables" données contenant beaucoup de bruit aléatoire concerne le moment où vous devez décider d'arrêter la division. Par exemple, si vous disposez d'un jeu de données comportant 10 observations, et que vous réalisez 9 divisions (déterminées par 9 conditions du type si... alors...), vous pouvez prévoir parfaitement chaque observation. D'une manière générale, si vous n'effectuez qu'un nombre suffisant de divisions, vous pourrez vraisemblablement "prévoir" (ou "reproduire" serait un terme plus approprié) vos données originales (à partir desquelles vous avez déterminé les divisions). Bien entendu, vous n'êtes pas assuré(e) de pouvoir reproduire des résultats complexes (avec de nombreuses divisions) sur un échantillon de nouvelles observations ; vraisemblablement, ça ne sera pas le cas.

Cette question importante est également abordée dans la littérature sur les méthodes d'arbres de classification et de régression, ainsi que dans les réseaux de neurones dans le cadre de la thématique sur le "surapprentissage" ou le "surajustement". Si on ne l'arrête pas, l'algorithme de l'arbre de décision va finalement "extraire" toute l'information contenue dans les données, notamment l'information qui n'est pas et ne peut pas être prévue dans la population à partir de l'ensemble de prédicteurs utilisés, c'est-à-dire la variation aléatoire ou le bruit. L'idée générale consiste donc à arrêter de produire de nouveaux noeuds de division lorsque les noeuds successifs n'apportent globalement que peu d'amélioration à la prévision. Par exemple, si vous pouvez prévoir correctement 90% des observations à partir de 10 divisions, et que vous pouvez en prévoir correctement 90,1% à partir de 11 divisions, il n'est pas très judicieux d'ajouter cette onzième division dans l'arbre. STATISTICA offre différents critères pour arrêter automatiquement le processus de division (lors de la construction de l'arbre de décision), et vous en trouverez un descriptif dans le section Détail des Calculs.

Une fois que l'algorithme de construction de l'arbre s'est arrêté, il est toujours bon de tester la qualité de prévision de l'arbre obtenu sur des échantillons d'observations qui n'ont pas été utilisées dans les calculs originaux. Ces méthodes permettent un "élagage" de l'arbre, c'est-à-dire de permettre éventuellement (et dans l'idéal) de sélectionner un arbre plus simple que celui obtenu initialement lorsque l'algorithme de construction de l'arbre s'est arrêté, mais également de trouver un arbre permettant de prévoir les valeurs ou les classifications prévues avec autant de précision les "nouvelles" observations.

Validation croisée. Une approche (décrite plus en détail dans la rubrique Détail des Calculs) consiste à appliquer l'arbre calculé sur un ensemble d'observations (l'échantillon d'apprentissage) à un ensemble totalement indépendant d'observations (l'échantillon de test). Si la plupart voire la totalité des divisions déterminées par l'analyse réalisée sur l'échantillon d'apprentissage sont surtout basées sur du "bruit aléatoire", la prévision sur l'échantillon de test sera assez mauvaise. Vous pourrez alors en conclure que l'arbre sélectionné n'est pas très bon (utile), et qu'il n'est pas de la "bonne taille".

Validation croisée par v-ensembles (v-fold). En poursuivant ce raisonnement (décrit dans la cadre de la validation croisée, ci-dessus), pourquoi ne pas également répéter l'analyse plusieurs fois, en tirant aléatoirement à chaque fois un échantillon différent à partir des données, pour chaque taille d'arbre en démarrant à la racine de l'arbre, et en l'appliquant à la prévision des observations issues des échantillons de test sélectionnés aléatoirement. Nous pouvons alors utiliser (interpréter ou accepter pour nos résultats finaux) l'arbre qui possède la meilleure précision moyenne pour les valeurs prévues ou les classifications prévues de la validation croisée. Dans la plupart des cas, cet arbre ne sera celui qui possède le plus de noeuds terminaux, c'est-à-dire l'arbre le plus complexe. Cette méthode d'élagage de l'arbre, et de sélection d'un arbre plus petit à partir d'une séquence d'arbres, peut se révéler extrêmement puissante, et donne de très bons résultats sur les jeux de données les plus petits (voir aussi la rubrique Détail des Calculs ou le descriptif de la boîte de dialogue Spécifications Rapides - onglet Validation pour plus d'informations). Cette étape essentielle permet de trouver des modèles d'arbres utiles (pour la prévision), mais en raison des nombreux calculs qu'elle implique, cette méthode est souvent absente des logiciels d'arbres de classification ou de régression. Le module GC&RT (ainsi que le module GCHAID) de STATISTICA intègre ces techniques.

Examen d'Arbres Conséquents : Des Outils Spécifiques de Gestion de l'Analyse

Un autre problème qui survient lorsque nous appliquons des méthodes d'arbres de classification ou de régression, concerne la taille de l'arbre final qui peut devenir très importante. En pratique, lorsque les données d'entrée sont complexes, et qu'elles contiennent, par exemple, de nombreuses catégories différentes pour des problèmes de classification et de nombreux prédicteurs possibles pour réaliser cette classification, les arbres produits peuvent devenir gigantesques. Ce n'est pas tant un problème de calcul qu'un problème de présentation de l'arbre sous une forme aisément accessible à l'analyste, ou au "commanditaire" de l'étude.

STATISTICA offre trois manières différentes d'examiner des arbres complexes. Comme pour tous les graphiques dans STATISTICA, vous pouvez "naviguer" dans le graphique représentant la solution finale (arbre) à l'aide des outils traditionnels de zoom. Ainsi, par exemple, vous pouvez agrandir rapidement une zone de l'arbre qui vous intéresse plus particulièrement, et utiliser le bouton Déplacer le Zoom afin de vous déplacer sur le graphique (voir aussi le paragraphe Naviguer dans (zoomer sur) le graphique de l'arbre de synthèse, ci-dessous).

Outils de balayage et sélection dans les diagrammes de l'arbre. Vous pouvez également cliquer sur le bouton Balayage de l'arbre dans l'onglet Synthèse de la boîte de dialogue des Résultats et utiliser la loupe pour sélectionner les noeuds individuels de l'arbre. Lorsque vous déplacez la loupe sur un noeud de l'arbre, une bulle d'information apparaît avec les statistiques de synthèse de ce noeud.

Cliquez sur un noeud pour le sélectionner (mettre en surbrillance), et choisissez l'une des options de la barre d'outils flottante ("Commandes d'Habillage") ou du menu contextuel du noeud correspondant.

Fenêtre déroulante de l'arbre. Vous pouvez également afficher le diagramme de l'arbre de synthèse dans une fenêtre déroulante.

D'une certaine manière, cette méthode vous permet de déplacer la fenêtre (redimensionnable) sur un graphique beaucoup plus grand de l'arbre.

Exploration de l'arbre. Toutefois, la manière la plus pratique (et la plus efficace du point de vue de l'interface-utilisateur) d'examiner l'information contenue dans les arbres consiste à utiliser l'explorateur d'arbres. Dans le module GC&RT (et dans le module GCHAID) de STATISTICA, vous pouvez visualiser l'arbre à l'aide d'un classeur efficace d'exploration de l'arbre.

Par exemple, l'illustration ci-dessus est tirée d'une analyse menée sur le fichier de données Digit.sta. L'objectif de l'analyse consistait à prévoir précisément un chiffre (compris entre 0 et 9) à partir de 7 prédicteurs "bruités" (pour une description de la manière dont ces données ont été générées, voir Breiman et. al., 1984). Les résultats finaux de l'arbre sont reportés dans le classeur d'exploration de l'arbre, qui distingue clairement les noeuds de division () des noeuds terminaux () de l'arbre. Pour accéder aux statistiques et autres informations (par exemple, règle de division) associées à chaque noeud, mettez simplement le noeud en surbrillance et examinez le graphique de synthèse situé dans le volet droit. Dans l'exemple ci-dessus, le Noeud de division numéro 16 identifie une division sur la variable Var2 : si cette dernière est égale à 0, les observations respectives sont classées dans le Noeud 18 (c'est-à-dire qu'elle sont considérées représenter le chiffre Trois) ; si la variable Var2 est différente de 0, les observations respectives sont alors classées dans la catégorie Neuf.

Vous pouvez développer ou contracter les noeuds de division, de la même manière que vous le faites avec vos dossiers dans l'explorateur MS Windows. C'est sans doute la manière la plus efficace d'étudier des modèles d'arbres complexes, et à ce jour, seul STATISTICA intègre cette fonctionnalité nécessaire pour étudier et présenter les résultats.

Une autre fonctionnalité intéressante du classeur d'exploration de l'arbre concerne la possibilité qui vous est offerte de visualiser rapidement l'effet des divisions consécutives sur les noeuds enfants produits sous une forme "d'animation". Par exemple, vous trouverez ci-dessous les résultats de synthèse d'une analyse de régression. Pour reproduire cette animation, placez le pointeur de la souris dans le volet gauche et sélectionnez (mettez en surbrillance) le noeud racine, puis utilisez les touches de déplacement du clavier pour passer d'une division de l'arbre à une autre.

L'éclatement de l'échantillon global en sous-groupes (noeuds), plus purs (homogènes, c'est-à-dire avec une variance plus faible), est évident dans cette illustration.

Naviguer dans (zoomer sur) le graphique de l'arbre de synthèse. Naturellement, vous pouvez également naviguer dans le diagramme traditionnel de l'arbre de synthèse, à l'aide des boutons Zoom Avant et Zoom Arrière disponibles dans STATISTICA.

Ces outils vous permettent de voir tous les détails de diagrammes larges et complexes.

Analyser des Modèles de Type ANCOVA

Les algorithmes classiques d'arbres de classification et de régression (Breiman et. al., 1984) vous permettent d'utiliser à la fois des variables prédictives catégorielles et continues (voir aussi la rubrique Détail des Calculs). Toutefois, dans la pratique, il n'est pas rare de combiner ce type de variables dans des modèles de prédicteurs de type analyse de variance/covariance (ANCOVA) avec des effets principaux ou des effets d'interaction pour des prédicteurs catégoriels et continus. Cette méthode pour analyser des modèles codifiés comme une ANCOVA est relativement nouvelle, et à ce jour, seulement proposée dans les modules GC&RT et GCHAID de STATISTICA. Toutefois, il est facile de voir dans quelle mesure ces modèles de prédicteurs codés permettent de généraliser ces puissantes techniques de classification et de régression à l'analyse de données issues de plans d'expériences (pour un exemple, veuillez vous reporter à la présentation détaillée des méthodes de plans d'expériences dans le cadre de l'amélioration de la qualité du module Plans d'Expériences des Statistiques Industrielles).

Remarque : l'interface-utilisateur et les méthodes permettant de spécifier les modèles dans GC&RT sont identiques à celles utilisées dans GLM, GRM, GLZ, PLS et GDA (vous trouverez une description complète de la syntaxe de l'analyse permettant de spécifier des modèles de type ANOVA/ANCOVA dans le cadre de GLM). D'où un gros avantage de cette méthode pour l'analyse de vos données : vous pouvez appliquer des modèles de prédicteurs identiques en utilisant des méthodes très différentes pour analyser des problèmes de type régression [c'est-à-dire, à l'aide du Modèle Linéaire Général (GLM), divers Modèles Linéaires/Non-Linéaires Généralisés (GLZ), des Modèles PLS (Partial Least Squares) ou des Modèles CHAID (GCHAID)] ou pour analyser des problèmes de type classification [par exemple, à l'aide des Modèles CHAID (GCHAID), des Modèles d'Analyse Discriminante (GDA), ou des Modèles Linéaires/Non-Linéaires Généralisés (GLZ) applicables].

Remarque : STATISTICA propose quatre grands types d'algorithmes de construction d'arbres : CHAID (Kass (1980 ; voir la rubrique CHAID - Introduction),  C&RT (Breiman, Friedman, Olshen et Stone, 1984 ; voir le module Modèles d'Arbres de Classification et de Régression ) et QUEST (Loh et Shih, 1997 ; voir le module Arbres de Décision (Classification)) ; voir aussi la rubrique CHAID, C&RT et QUEST pour plus d'informations.

Détail des Calculs

Le processus de calcul des arbres de classification et de régression peut se caractériser par quatre étapes élémentaires :

  • Spécification des critères de précision de la prévision

  • Choix des divisions

  • Quand la division doit-elle s'arrêter

  • Sélection de l'arbre de la "bonne taille".  

Ces étapes sont assez proches de celles présentées dans le cadre du module Arbres de Décision (Classification). Voir également la rubrique Formules de Calcul.

Spécification des Critères de Précision de la Prévision

Les algorithmes des arbres de classification et de régression (C&RT) cherchent généralement à trouver la meilleure précision prédictive possible. D'un point de vue opérationnel, la prévision la plus précise se définit comme la prévision avec les coûts minimaux. La notion de coûts a été développée pour généraliser à toute une gamme de situations de prévision, l'idée que la meilleure prévision est celle qui possède le plus faible taux d'erreur de classement. Dans la plupart des applications, les coûts se mesurent en termes de part d'observations mal classées, ou de variance. Dans ce contexte, il en résulte par conséquent que nous pourrons considérer qu'une prévision est meilleure dès lors qu'elle possède le plus faible taux d'erreur de classement, ou la plus petite variance. Le besoin de recourir à une minimisation des coûts, plutôt qu'à une proportion d'observations mal classées, provient du fait que l'échec de certaines prévisions est plus catastrophique que d'autres, ou que l'échec de certaines prévisions est plus fréquent que d'autres.

Probabilités a priori. Dans le cas d'une réponse catégorielle (problème de classification), minimiser les coûts revient à minimiser la part d'observations mal classées lorsque les probabilités a priori sont proportionnelles aux tailles de classes et lorsque les coûts de mauvais classement sont égaux pour toutes les classes.

Les probabilités a priori que nous utilisons pour minimiser les coûts peuvent largement affecter la classification des observations ou des objets. Si nous ne nous intéressons pas aux différents pourcentages de départ dans l'étude, ou si nous savons qu'il existe sensiblement autant d'observations dans chaque classe, nous pouvons utiliser des probabilités a priori égales. Si en revanche les tailles de classes reflètent ces différents pourcentages de départ (ce que nous obtiendrions avec un échantillon de probabilités), nous utiliserons des probabilités a priori estimées à partir des effectifs des différentes classes de l'échantillon. Enfin, si nous connaissons précisément les pourcentages de départ (par exemple, à partir d'une étude précédente), nous pouvons spécifier des probabilités a priori reflétant cette information. L'idée, c'est que l'importance relative des probabilités a priori affectées à chaque classe permet "d'ajuster" l'importance d'une erreur de classement pour chaque classe. Les probabilités a priori ne sont en revanche pas nécessaire pour construire un arbre de régression.

Coûts de mauvais classement. Nous souhaitons, dans certains cas, obtenir un classement plus précis pour certaines classes que pour d'autres, et ce, indépendamment des tailles relatives de classes. Si nous utilisons le critère des coûts de mauvais classement pour la précision de la prévision, minimiser les coûts revient à minimiser la proportion d'observations mal classées lorsque les Probabilités a priori sont proportionnelles aux tailles de classes et que les Coûts de mauvais classement sont identiques pour chaque classe.

Pondérations d'observations. Dans le module Modèles d'Arbres de Classification et de Régression de STATISTICA, les pondérations d'observations sont traitées strictement comme des multiplicateurs d'observations. Par exemple, les pourcentages de mauvais classement d'une analyse portant sur des données agrégées avec des pondérations d'observations seront identiques à ceux obtenus pour la même analyse à partir d'observations dupliquées (autant de fois qu'indiqué par le coefficient multiplicateur) dans le fichier de données

Plus concrètement, l'utilisation de pondérations d'observations avec une variable de pondération agissant comme multiplicateur d'observations sur des données agrégées permet également de traiter la question de minimisation des coûts. Il est intéressant de savoir qu'au lieu d'utiliser des pondérations d'observations sur des données agrégées, vous pouvez spécifier des probabilités a priori et/ou des coûts de mauvais classement appropriés pour obtenir les mêmes résultats, en évitant le traitement supplémentaire requis pour l'analyse d'observations multiples avec les mêmes valeurs pour toutes les variables. Supposez que dans des données agrégées avec deux classes contenant chacune le même nombre d'observations, nous ayons un coefficient égal à 2 pour toutes les observations de la première classe, et égal à 3 pour toutes les observations de la seconde classe. Si vous spécifiez des probabilités a priori de 0,4 et 0,6 respectivement, des coûts de mauvais classement égaux, et que vous analysez les données sans pondérations d'observations, vous obtiendrez la même proportion d'observations mal classées qu'en spécifiant des probabilités a priori proportionnelles aux tailles de classes, avec des coûts de mauvais classement égaux, et en utilisant les pondérations d'observations pour analyser vos données agrégées. Vous obtiendrez également les mêmes proportions d'observations mal classées si vous spécifiez des probabilités a priori égales, des coûts de mauvais classement tels que les coûts d'erreur d'affectation des observations de la classe 1 à la classe 2 représentent 2/3 des coûts

Choix des divisions

La deuxième étape élémentaire de l'analyse des arbres de classification et de régression consiste à sélectionner les divisions des variables prédictives à utiliser pour prévoir l'appartenance des observations ou objets aux classes des variables dépendantes catégorielles, ou pour prévoir les valeurs des variables dépendantes (de réponse) continues de l'analyse. En termes généraux, le programme va rechercher à chaque noeud, la division qui permet d'obtenir la plus grande amélioration de la précision prédictive. C'est ce que nous mesurons généralement à l'aide d'une mesure d'impureté du noeud, qui nous fournit une indication de l'homogénéité relative (l'inverse de l'impureté) des observations dans les noeuds terminaux. Si toutes les observations dans chaque noeud terminal possèdent des valeurs identiques, l'impureté du noeud est minimale, l'homogénéité est maximale, et la prévision est parfaite (au moins sur les observations utilisées dans les calculs ; la validité prédictive sur de nouvelles observations est bien évidemment une autre affaire...).

Pour les problèmes de classification, le module GC&RT de STATISTICA propose à l'utilisateur trois mesures d'impureté : l'indice de Gini, le Chi-deux et le G-deux. L'indice de Gini d'impureté du noeud est l'indicateur le plus répandu pour les problèmes de classification. Comme toutes les mesures d'impureté, il tend vers zéro lorsqu'une seule classe est présente dans un noeud. Avec des probabilités a priori estimées à partir des tailles de classe et des coûts de mauvais classement égaux, l'indice de Gini se définit comme la somme des produits de tous les couples de proportions de classes présentes dans le noeud ; il atteint son maximum lorsque les tailles de classe du noeud sont égales. L'indice de Gini est égal à zéro si toutes les observations d'un noeud appartiennent à la même classe. La mesure du Chi-deux est similaire au Chi-deux standard que nous calculons pour des classifications observées et théoriques (avec des probabilités a priori ajustées en fonction des coûts de mauvais classement) et la mesure du G-deux s'apparente au Chi-deux du maximum de vraisemblance (comme il est calculé par exemple dans le module Analyse Log-Linéaire). Pour les problèmes de régression, le programme va automatiquement utiliser le critère de l'écart des moindres carrés (similaire à ce que nous calculons dans une régression des moindres carrés). Vous trouverez davantage d'informations dans la rubrique Formules de Calcul.

Quand la division doit-elle s'arrêter

Comme nous l'avons déjà évoqué dans le rubrique Principes Fondamentaux - Deuxième Partie, la division peut se poursuivre, dans l'absolu, jusqu'à ce que toutes les observations soient parfaitement classées ou prévues. Toutefois, aller aussi loin n'aurait guère de sens dans la mesure où nous finirions avec une structure d'arbre aussi complexe et "fastidieuse" que le fichier de données original (avec de nombreux noeuds ne contenant qu'une seule observation), et vraisemblablement un très faible pouvoir prédictif sur de nouvelles observations. Il est donc nécessaire de définir des règles d'arrêt raisonnables. Dans le module GC&RT, vous disposez de deux options pour contrôler le processus de division ; plus précisément, le N minimum et la Fraction d'objets.

N minimum. Une manière de contrôler la division consiste à lui permettre de continuer jusqu'à ce que tous les noeuds terminaux soient purs ou qu'ils ne contiennent pas plus qu'un certain nombre minimum d'observations ou d'objets. Dans le module GC&RT, c'est ce que vous permet de faire l'option N minimum en vous permettant de spécifier le nombre minimum d'observations souhaitées pour contrôler le processus de division. Cette option est disponible si vous sélectionnez un Élagage selon l'erreur de mauvaise classification, un Élagage sur l'écart (déviance) ou un Élagage sur la base de la variance comme Règle d'arrêt pour l'analyse.  

Fraction d'objets. Une autre manière de contrôler le moment où la division doit s'arrêter consiste à permettre à la division de continuer jusqu'à ce que les noeuds terminaux soient purs ou ne contiennent pas plus d'observations qu'une fraction minimum donnée de la taille d'une ou plusieurs classes. Cette option est disponible lorsque vous utilisez un Arrêt direct de type FACT comme Règle d'arrêt dans l'analyse. Dans le module GC&RT, vous pouvez spécifier la fraction minimum désirée en termes de Fraction d'objets. Pour les problèmes de classification, si vous utilisez des probabilités a priori égales et des tailles de classes égales, la division s'arrêtera lorsque tous les noeuds terminaux constitués de plusieurs classes, ne compteront pas plus d'observations que la fraction spécifiée des tailles de classes d'une ou plusieurs classes. Si les probabilités a priori utilisées dans l'analyse ne sont pas égales, la division s'arrêtera quand tous les noeuds terminaux constitués de plusieurs classes n'auront pas plus d'observations que la fraction spécifiée pour une ou plusieurs classes. Voir Loh et Vanichestakul, 1988 pour plus d'informations.

Élagage et Sélection de l'Arbre de "Taille Optimale"

La taille de l'arbre dans les analyses d'arbres de classification et de régression est une question importante, dans la mesure où un arbre sur-dimensionné n'apporte rien, sinon une plus grande complexité dans l'interprétation des résultats. Tentons de généraliser ce qui constitue un arbre "bien dimensionné". Il doit s'agir d'un arbre suffisamment complexe pour expliquer les faits connus, et en même temps être aussi simple que possible. Il doit exploiter au maximum l'information permettant d'accroître la précision prédictive du modèle et au contraire, délaisser l'information inutile de ce point de vue. Il doit, dans la mesure du possible, conduire à une meilleure compréhension des phénomènes qu'il décrit. Les options disponibles dans le module GC&RT vous permettent d'utiliser l'une ou l'autre, voire les deux stratégies différentes qui sont disponibles pour sélectionner l'arbre de la "bonne taille" parmi tous les arbres possibles. La première stratégie consiste à développer l'arbre jusqu'à ce qu'il atteigne la bonne taille, cette dernière étant déterminée par l'utilisateur, à partir des connaissances issues d'une recherche antérieure, d'une information diagnostique résultant d'analyses précédentes, ou même de l'intuition. L'autre stratégie consiste à utiliser un ensemble de procédures structurées et bien documentées, mises au point par Breiman et al. (1984) pour sélectionner l'arbre de la "bonne taille". Ces procédures ne sont pas infaillibles comme le reconnaissent volontiers Breiman et al. (1984), mais au moins elles éliminent la partie subjective pour sélectionner l'arbre "optimal".

Arrêt direct de type FACT. Commençons par examiner la première stratégie où l'utilisateur indique la taille jusqu'à laquelle il souhaite que l'arbre se développe. C'est cette stratégie que vous suivez lorsque vous sélectionnez un arrêt direct de type FACT comme règle d'arrêt pour l'analyse, et que vous spécifiez une fraction d'objets pour définir la taille désirée de l'arbre. Le module GC&RT vous offre plusieurs options pour établir un diagnostic afin de déterminer si le choix de la taille de l'arbre est raisonnable. Plus précisément, trois options permettent de réaliser des validations croisées de l'arbre de classification sélectionné : l'Échantillon de test, la Validation croisée par v-ensembles (v-fold), et le Coût-Complexité minimum.  

Validation croisée sur l'échantillon test. Le premier type de validation-croisée (et le plus utilisé) est la validation croisée sur un échantillon de test. Dans ce type de validation croisée, l'arbre de décision est calculé à partir de l'échantillon d'apprentissage, et nous testons sa précision prédictive en l'appliquant sur l'échantillon de test pour prévoir la classe d'appartenance. Des coûts supérieurs dans l'échantillon de test par rapport aux coûts de l'échantillon d'apprentissage indiquent une mauvaise validation croisée.  Si c'est le cas, un arbre de taille différente produira peut-être une meilleure validation croisée. Nous constituons les échantillons de test et d'apprentissage en collectant deux groupes de données indépendants, ou, si nous disposons d'un échantillon d'apprentissage suffisamment important, en prélevant aléatoirement une partie des observations sélectionnées (entre un tiers ou la moitié) pour l'échantillon de test.

Dans le module GC&RT, la validation-croisée sur l'échantillon de test s'effectue en spécifiant une variable avec des identifiants d'échantillons contenant des codes permettant d'identifier à quel échantillon (apprentissage ou test) chaque observation ou objet appartient. Veuillez vous reporter à la description de l'onglet Validation ou de la boîte de dialogue de Spécifications Rapides pour plus d'informations.

Validation croisée par v-ensembles (v-fold). Le deuxième type de validation-croisée disponible dans le module GC&RT est la validation croisée par v-ensembles. Ce type de validation croisée est utilisé si aucun échantillon de test n'est disponible et que l'échantillon d'apprentissage est trop petit pour en extraire un échantillon de test. La valeur personnalisée de v pour la validation croisée par v-ensembles (la valeur par défaut est 3) détermine le nombre de sous-échantillons aléatoires, de taille aussi proche que possible, qui seront constitués à partir de l'échantillon d'apprentissage. Un arbre de la taille spécifiée est calculé v fois, en éliminant à chaque fois l'un des sous échantillons des calculs, et en utilisant ce sous-échantillon comme échantillon de test pour la validation croisée. Ainsi chaque sous-échantillon est utilisé v - 1 fois dans l'échantillon d'apprentissage et juste une fois dans l'échantillon de test. La moyenne des coûts de validation croisée (VC) de chacun des v échantillons de test est alors calculée pour donner l'estimation par v-ensembles des coûts de VC.

Élagage par validation croisée avec coûts-complexité minimum. Dans le module GC&RT, vous réalisez un élagage par validation croisée avec coûts-complexité minimum si vous sélectionnez le bouton d'option Élagage sur l'erreur de classement comme Règle d'arrêt. À l'inverse, vous réalisez un élagage par validation croisée avec déviance-complexité minimum si vous sélectionnez le bouton d'option Élagage sur l'écart (déviance) comme Règle d'arrêt. La seule différence entre ces deux options est la mesure de l'erreur de prévision qui est utilisée. L'Élagage sur l'erreur de classement utilise des coûts représentant le taux de mauvais classement lorsque les probabilités a priori sont estimées et que les coûts de mauvais classement sont égaux. En revanche, l'Élagage sur l'écart (déviance) utilise une mesure basée sur les principes du maximum de vraisemblance, et appelée déviance (voir Ripley, 1996). Pour plus d'informations concernant les algorithmes utilisés dans le module GC&RT pour réaliser un Élagage par validation croisée avec coûts-complexité minimum, voir aussi les sections Introductions et Méthodes de Calcul du module Arbres de Décision [Classification].

La séquence des arbres obtenus par cet algorithme possède un certain nombre de propriétés intéressantes. Les arbres sont imbriqués, parce que les arbres successivement coupés contiennent tous les noeuds de l'arbre suivant (plus petit) dans la séquence. Initialement, nous élaguons souvent de nombreux noeuds pour aller d'un arbre à l'arbre suivant (plus petit) dans la séquence, mais nous avons moins tendance à élaguer à mesure que nous nous approchons du noeud racine. La séquence des arbres les plus importants est également élaguée de façon optimale, puisque pour chaque taille d'arbre dans la séquence, il n'existe aucun autre arbre de même taille avec des coûts inférieurs. Vous trouverez les démonstrations et/ou les explications de ces propriétés dans l'ouvrage de Breiman et al. (1984).  

Sélection de l'arbre après élagage. L'élagage, tel que nous l'avons présenté ci-dessus, produit souvent une série d'arbres élagués de façon optimale. L'étape suivante consiste à utiliser un critère adapté pour sélectionné l'arbre de la "bonne taille" à partir de cet ensemble d'arbres optimaux. Un critère naturel est celui des coûts de validation croisée (VC). Bien qu'il soit techniquement possible de choisir l'arbre "optimal" comme étant celui qui possède le coût de VC minimum, il existe souvent plusieurs arbres dont les coûts de VC sont proches de ce minimum. Breiman et al. (1984) proposent de choisir comme arbre "optimal", l'arbre le plus petit (le moins complexe) dont les coûts de VC ne différent pas sensiblement du coût de VC minimum. Ils suggèrent d'utiliser la "règle 1 - Erreur-Type" pour faire ce choix, c'est-à-dire, de retenir comme arbre "optimal", le plus petit arbre dont les coûts de VC n'excèdent pas le coût de VC minimum plus 1 fois l'erreur-type des coûts de VC de l'arbre avec le coût de VC minimum. Dans le module GC&RT vous pouvez définir un coefficient différent de 1 (par défaut) comme règle d'erreur-type. La valeur 0,0 permettrait ainsi de retenir comme arbre "optimal" celui qui possède le coût de VC minimum. Des valeurs supérieures à 1,0 permettraient au contraire de retenir comme arbre "optimal", des arbres beaucoup plus petits que l'arbre avec les coûts de VC minimum. Un autre avantage de la procédure de sélection "automatique" de l'arbre est qu'elle permet d'éviter un "surajustement" ou un "sous-ajustement" des données.

Comme nous l'avons vu précédemment, l'élagage par validation croisée avec coûts-complexité minimum et la sélection de l'arbre "optimal" sont véritablement des procédures "automatiques". Les algorithmes prennent toutes les décisions nécessaires pour sélectionner l'arbre "optimal", sauf peut-être, la spécification d'une valeur pour la règle de l'erreur-type. Quelle que soit la manière dont l'arbre a été construit ou élagué, STATISTICA GC&RT propose une option dans la boîte de dialogue des résultats pour réaliser une validation croisée par v-ensembles (dans l'onglet Synthèse de la boîte de dialogue des Résultats) qui permet de calculer le coût de validation croisée de chaque arbre de la séquence finale des arbres (s'il n'a pas été déjà calculé, c'est-à-dire sélectionné dans l'onglet Validation de la boîte de dialogue Spécifications Rapides du module GC&RT). Cette option vous permet de tester comment chaque arbre "se comporte" lorsque vous réalisez une validation croisée à plusieurs reprises sur différents échantillons tirés aléatoirement à partir des données. Remarque : vous pouvez également accéder aux résultats complets d'un arbre donné de la séquence finale des arbres, afin de voir en détail comment l'arbre final choisi par le programme se compare aux autres arbres qui peuvent produire des coûts similaires de mauvais classement avec une plus grande complexité (c'est-à-dire avec davantage de noeuds terminaux).

Remarque : Valeurs manquantes. Les valeurs manquantes des variables prédictives sont traitées différemment dans le module GC&RT et dans le module Arbres de Décision Interactifs. Dans la mesure où le module Arbres de Décision Interactifs ne reconnaît pas les matrices du modèle de type ANCOVA, il est plus souple pour gérer les valeurs manquantes. Plus précisément, dans le module GC&RT, les observations avec des valeurs manquantes dans au moins une des variables prédictives sont exclues du processus de construction de l'arbre de décision (même si vous demandez des remplaçants ; ces remplaçants ne sont utilisés que pour calculer les valeurs ou classifications prévues) ; dans le module Arbres de Décision Interactifs, les variables (et les valeurs manquantes pour ces variables) sont considérées une à une, et les observations possédant des valeurs manquantes sur les prédicteurs ne sont exclues du processus de construction de l'arbre de décision que si ces variables sont utilisées pour les divisions et qu'aucun remplaçant pertinent n'a été demandé ni sélectionné. Veuillez vous reporter également à la rubrique Valeurs Manquantes dans GC&RT, GCHAID et les Arbres de Décision Interactifs pour plus d'informations.

Formules de Calcul

Dans STATISTICA Modèles d'Arbres de Classification/Régression, les estimations de précision se calculent à l'aide de différentes formules pour les variables dépendantes catégorielles et continues (problèmes de classification et de régression). Pour les problèmes de classification (variable dépendante catégorielle), la précision se mesure en termes de taux de bonne classification du modèle, alors que dans le cas de la régression (variable dépendante continue), la précision se mesure en termes d'erreur quadratique moyenne du prédicteur.

Outre les mesures de précision, les indicateurs suivants permettent de mesurer l'impureté du noeud dans les problèmes de classification : La mesure de Gini, la mesure du Chi² généralisé, et la mesure du G² généralisé. La mesure du Chi² s'apparente à la valeur standard du Chi² qui est calculée pour les classifications observées et théoriques (avec des probabilités a priori ajustées pour les coûts d'erreur de classement), et la mesure du G² s'apparente au Chi² du maximum de vraisemblance (tel qu'il est calculé par exemple dans le module Estimation Log-Linéaire). La mesure de Gini est l'indicateur d'impureté de noeud le plus fréquemment utilisé dans le cadre des problèmes de classification ; il est décrit ci-dessous.

Pour les variables dépendantes continues (problèmes de régression), c'est la mesure de l'écart des moindres carrés (LSD) de l'impureté qui s'applique automatiquement.

Estimation de la Précision en Classification

Dans les problèmes de classification (variable dépendante catégorielle), trois indicateurs de précision sont utilisés : l'estimateur de resubstitution, l'estimateur de l'échantillon de test, et la validation croisée v-fold (v-ensemble). Nous allons définir ces estimateurs ici.

Estimateur de resubstitution. L'estimateur de resubstitution représente la proportion d'observations mal classées par le modèle de classification construit à partir de l'échantillon tout entier. Cet estimateur se calcule de la manière suivante :

X représente la fonction de l'indicateur ;

X = 1, si la condition est vérifiée

X = 0, si la condition n'est pas vérifiée

et d (x) représente le modèle de classification.

L'estimateur de resubstitution se calcule en utilisant le même jeu de données qui est utilisé pour la construction du modèle de classification d .

Estimateur de l'échantillon de test. Le nombre total d'observation est réparti en deux sous-échantillons Z1 et Z2. L'estimation de l'échantillon de test représente la proportion d'observations du sous-échantillon Z2, mal classées par le modèle de classification construit à partir du sous-échantillon Z1. Cet estimateur se calcule de la manière suivante :

Soit un échantillon d'apprentissage Z de taille N que nous répartissons en deux sous-échantillons Z1 et Z2 de taille N1 et N2, respectivement.

Z2 représente le sous-échantillon qui n'est pas utilisé dans la construction du modèle de classification.

Validation croisée par v-ensembles (v-fold). Le nombre total d'observations est réparti en v sous-ensembles Z1, Z2, ..., Zv de taille aussi proche que possible. L'estimateur de validation croisée par v-ensembles (v-fold) représente la proportion d'observations du sous-échantillon Z qui se trouvent mal classées par le modèle de classification construit à partir du sous-échantillon Z -  Zv. Cet estimateur se calcule de la manière suivante :

Soit un échantillon d'apprentissage Z de taille N que nous partageons en v sous-ensembles Z1, Z2, ..., Zv de taille aussi proche que possible N1, N2, ..., Nv, respectivement.

est calculé à partir du sous-échantillon Z - Zv .

Estimation de la Précision en Régression

Dans les problèmes de régression (variable dépendante continue), trois indicateurs de précision sont utilisés : l'estimateur de resubstitution, l'estimateur de l'échantillon de test, et la validation croisée v-fold (v-ensemble). Nous allons définir ces estimateurs ici.

Estimateur de resubstitution. L'estimateur de resubstitution représente l'estimation de l'erreur quadratique théorique en utilisant le modèle de prévision de la variable dépendante continue. Cet estimateur se calcule de la manière suivante :

où l'échantillon d'apprentissage Z est constitué des éléments (xi,yi),i = 1,2,...,N. L'estimateur de resubstitution se calcule en utilisant le même jeu de données utilisé pour construire le modèle de prévision d .

Estimateur de l'échantillon de test. Le nombre total d'observation est réparti en deux sous-échantillons Z1 et Z2. L'estimation de l'erreur quadratique moyenne de l'échantillon de test se calcule de la manière suivante :

Soit un échantillon d'apprentissage Z de taille N que nous répartissons en deux sous-échantillons Z1 et Z2 de taille N1 et N2, respectivement :

Z2 représente le sous-échantillon qui n'est pas utilisé dans la construction du modèle de prévision.

Validation croisée par v-ensembles (v-fold). Le nombre total d'observations est réparti en v sous-ensembles Z1, Z2, ..., Zv de taille aussi proche que possible. Le sous-échantillon Z -  Zv permet de construire le modèle de prévision d. Ensuite, nous calculons l'estimateur de validation croisée par v-ensembles (v-fold) à partir de l'échantillon Zv de la manière suivante :

Soit un échantillon d'apprentissage Z de taille N que nous partageons en v sous-ensembles Z1, Z2, ..., Zv de taille aussi proche que possible N1, N2, ..., Nv, respectivement.

se calcule à partir du sous-échantillon Z -  Zv .

Estimation de l'Impureté du Noeud : le Coefficient de Gini

La mesure de Gini permet de mesurer l'impureté d'un noeud.  Elle s'utilise habituellement lorsque la variable dépendante est une variable catégorielle, et se définit ainsi :

lorsque vous n'avez pas défini de coûts d'erreur de classement ni probabilités a priori différentes,

 

si vous avez spécifié des coûts d'erreur de classement ou des probabilités a priori différentes,

où la somme s'effectue sur toutes les catégories k. p( j / t) représente la probabilité de la catégorie j dans le noeud t et C(i / j ) représente la probabilité de l'erreur de classement d'une observation de la catégorie j dans la catégorie i.

Remarque : le fait de spécifier des probabilités a priori égales ou différentes peut largement affecter la précision du modèle final d'arbre de décision pour la prévision de classes particulières.

Estimation de l'Impureté d'un Noeud : Écart des Moindres Carrés (LSD)

L'écart des moindres carrés (LSD) permet de mesurer l'impureté d'un noeud lorsque la variable de réponse est continue.  Il se calcule de la manière suivante :

Nw(t) représente le nombre pondéré d'observations dans le noeud t, wi représente la valeur de la variable de pondération de l'observation i,  fi représente la valeur de la variable d'effectifs,  yi représente la valeur de la variable de réponse, et y(t)  représente la moyenne pondérée du noeud t.

Valeurs Manquantes dans GC&RT, GCHAID

et dans les Arbres de Décision Interactifs

Lorsque les variables prédictives d'une analyse CHAID et/ou C&RT contiennent de nombreuses valeurs manquantes, les résultats produits par les modules Modèles d'Arbres de Classification et de Régression (GC&RT) et Modèles CHAID (GCHAID) peuvent différer de ceux produits par le module Arbres de Décision Interactifs. Ces différences tiennent à la manière dont les valeurs manquantes sont gérées dans ces modules.

Valeurs manquantes dans GC&RT et dans GCHAID. GC&RT et GCHAID permettent de traiter des modèles prédictifs de type ANCOVA, c'est-à-dire une combinaison de variables prédictives continues et/ou catégorielles. Dans certains cas, ces fonctionnalités s'avèrent particulièrement utiles, notamment lorsqu'il s'agit de codifier (et éventuellement détecter) automatiquement des interactions entre les variables prédictives continues (et catégorielles), ou pour spécifier d'autres modèles personnalisés (de type ANCOVA) comme vous pouvez le faire dans GLM, GRM, etc... Toutefois, ces fonctionnalités nécessitent une approche différente dans la gestion des valeurs manquantes pour les variables prédictives.

Valeurs manquantes dans GCHAID. D'une manière générale, c'est toute l'observation qui est éliminée de l'analyse dans GCHAID si elle comporte des valeurs manquantes dans au moins une variable prédictive catégorielle ou continue. En d'autres termes, les observations sont exclues des analyses dès lors qu'elles possèdent au moins une valeurs manquante dans au moins une des variables prédictives. Si vous ne souhaitez pas inclure les (codes des) valeurs manquantes de façon explicite dans vos analyses, vous pouvez toujours leur affecter une valeur ou un code spécifique avant de réaliser l'analyse, par exemple, la moyenne pour les prédicteurs continus, ou un code distinct pour les prédicteurs catégoriel. En affectant une valeur numérique distincte aux valeurs manquantes, ces données peuvent alors être traitées comme des observations valides dans l'analyse, et ces valeurs manquantes peuvent apparaître importantes pour prévoir la variable de sortie étudiée.

Valeurs manquantes dans GC&RT. Sur le principe, les valeurs manquantes sont gérées de la même manière dans GC&RT que dans GCHAID, à la différence près que d'autres options permettent d'identifier des variables de division remplaçantes. Plus précisément, lorsqu'une observation possède des valeurs manquantes sur une variable prédictive particulière qui est choisie pour une division, il est possible de classer (prévoir) cette observation en choisissant un prédicteur continu "similaire" (remplaçant) avec des données valides (sélectionnez le bouton d'option Remplaçant dans la boîte de dialogue GC&RT - Résultats - onglet Observations). Remarque : les observations qui possèdent des valeurs manquantes sur un prédicteur ne participent pas au processus de construction de l'arbre proprement dit, contrairement au module Arbres de Décision Interactifs, qui permet de gérer les valeurs manquantes variable-par-variable, c'est-à-dire que les observations ne sont exclues du processus de construction de l'arbre de décision qu'à partir du moment où elles possèdent des valeurs manquantes (et aucun remplaçant) pour une variable choisie pour une division particulière.

Valeurs manquantes dans les Arbres de Décision Interactifs. Dans le module d'Arbres de Décision Interactifs, vous ne pouvez pas définir de modèle de type ANCOVA. En revanche, les variables peuvent être "considérées" par l'algorithme respectif de construction de l'arbre de décision une à une. Par exemple, si vous avez deux variables prédictives, X1 et X2, avec de nombreuses valeurs manquantes sur la variable X2. Au noeud racine (avant de réaliser la première division), toutes les observations valides dans chaque variable sont prises en compte pour déterminer la meilleure division (suivante). Si cette division est réalisée sur la base des valeurs de X1, toutes les observations vont alors être conservées pour l'analyse ; si la division est réalisée sur X2 (et que vous n'avez demandé aucun remplaçant ou qu'il n'est pas possible d'en spécifier pour l'analyse respective), seules les observations avec des données valides pour X2 seront conservées dans l'analyse pour les divisions ultérieures. Cette approche est différente de celle utilisée dans les modules GCHAID et GC&RT pour la gestion des valeurs manquantes (voir ci-dessus), où ces observations sont exclues au niveau du noeud racine (bien qu'il soit possible de reporter des prévisions pour ces observations, s'il est possible de spécifier des remplaçants pour l'analyse respective, et que vous en avez demandé).

Autres Manières de Gérer les Valeurs Manquantes. La conclusion de tout ceci, c'est que vous pourrez parfois constater des résultats très différents entre les modules GCHAID et GC&RT d'une part, et les résultats des Arbres de Décision Interactifs d'autre part, pour des analyses équivalentes, lorsque les données d'entrée comportent de nombreuses valeurs manquantes sur les variables prédictives. Si vous constatez ces divergences importantes, c'est l'indication évidente que la structure des valeurs manquantes sur les variables prédictives constitue elle-même un prédicteur important de la variable dépendante (de sortie) étudiée, et qu'elle mérite une étude approfondie. Ainsi, par exemple, pour des variables catégorielles, vous pouvez aisément spécifier un code distinct (et valide) pour représenter les valeurs manquantes. Vous pourrez alors intégrer ces valeurs dans toutes les analyses, c'est-à-dire qu'elles pourront apparaître comme des valeurs (diagnostiques) importantes pour les divisions de certains noeuds et donc, pour construire l'arbre de décision (par exemple, "Si Revenu=Élevé ou Manquant, alors..."). Dans tous les cas, si un jeu de données comporte de nombreuses valeurs manquantes sur les variables prédictives, la distribution des valeurs manquantes peut devenir elle-même une variable prédictive importante, et vous pouvez appliquer un certain nombre d'opérations de nettoyage et de transformation des données initiales afin de convertir ce "manque d'observation" (valeurs manquantes) en information exploitable.

Importance des Prédicteurs dans STATISTICA GC&RT,

Arbres de Décision Interactifs et Boosting d'Arbres de Décision

Différentes analyses STATISTICA intègrent des fonctionnalités de construction d'arbres de décision basés sur les algorithmes C&RT :

Modèles d'Arbres de Classification et de Régression (GC&RT)

Arbres de Décision Interactifs (C&RT, CHAID)

Boosting - Arbres de Classification et de Régression

D'une manière générale dans STATISTICA, l'importance des variables (prédictives) dans ces modules se calcule en sommant - pour tous les noeuds de l'arbre ou des arbres de décision - la diminution (delta) de l'impureté du noeud (delta(I) pour les arbres de classification) ou de l'estimateur de resubstitution (delta(R) pour les arbres de régression), et en exprimant ces sommes par rapport à la somme la plus importante rencontrée sur l'ensemble des prédicteurs (la variable la plus importante). Remarque : cette approche est différente de la notion d'importance des variables ou des prédicteurs adoptée par Breiman et al. Plus précisément, ces auteurs n'abordent l'importance des variables que dans le cadre des variables de division, et des divisions de remplaçants (voir aussi, par exemple, la description de l'option Nombre de remplaçants dans la boîte de dialogue Arbres de Décision Interactifs - Spécifications - onglet Avancé relative à C&RT). La grande différence réside dans le fait que Breiman et al. suggèrent de ne sommer que les valeurs delta des véritables variables de division pour chaque division respective et leurs remplaçants, mais pas pour les variables qui fournissent des divisions "alternatives". Ainsi, alors que STATISTICA (et d'autres programmes comme Quest de Loh et Shi, 1997) calculent la somme (de delta) pour tous les prédicteurs et pour tous les noeuds (et pour tous les arbres, dans le module Boosting - Arbres de Décision), d'autres programmes ne calculent que la somme des véritables variables de division qui sont choisies dans les différents noeuds (ou leurs remplaçants).

Ces deux approches présentent chacune leurs avantages et leurs inconvénients. Imaginons qu'un prédicteur particulier "arrive" pour toutes les divisions en seconde position, c'est-à-dire qu'il constitue la deuxième meilleure alternative (division) aux prédicteurs qui ont en fait été choisis à chaque noeud. Si vous utilisez la méthode de Breiman et al pour le calcul de l'importance, cette variable sera totalement ignorée et ne sera pas identifiée comme une variable importante. La signification de "l'importance" dans ce cas s'établit par rapport à une solution finale (arbre de décision) spécifique, et si un prédicteur n'est jamais choisi pour une division (ou un remplaçant), il ne sera alors pas considéré comme un prédicteur important dans cette solution finale (arbre de décision) spécifique.

Dans STATISTICA, cette variable (que nous appellerons v1) pourrait être identifiée comme la variable la plus importante. En effet, elle peut avoir des valeurs fortes de delta pour plusieurs noeuds, sans toutefois être "utilisée" par une division (c'est-à-dire qu'il n'existe aucune division basée sur  v1) ; une autre variable (par exemple, v2) peut en revanche être utilisée à la place et son pouvoir prédictif, totalement exploité sur les premières divisions de l'arbre de décision, avec par conséquent, des valeurs de delta assez faibles sur la plupart des autres noeuds. Ce type de "configuration" peut conduire à une "sur-évaluation" de l'importance du prédicteur choisi (c'est-à-dire, du prédicteur v1 par rapport au prédicteur v2 qui a été retenu à une ou plusieurs reprises pour une division).

Pour synthétiser, STATISTICA vous permet de voir les valeurs de l'importance pour des prédicteurs n'ayant jamais été choisis (c'est-à-dire l'approche qui est en fait retenue par Breiman et. al, en présence de remplaçants). L'approche utilisée dans STATISTICA (et dans d'autres programmes) présente l'avantage de permettre l'identification des variables avec un potentiel prédictif important par rapport au résultat étudié ; l'information donnée par la statistique d'importance telle qu'elle est définie par Breiman et al. est finalement assez redondante avec celle qui est fournie par l'arbre de décision  lui-même, où les divisions les plus proches de la racine de l'arbre sont plus importantes (produisant un meilleur ajustement du modèle) que celles qui sont situées plus bas dans l'arbre de décision.

Pour plus d'informations concernant cette question, voir aussi l'ouvrage de Breiman et al. (1984, p. 146-148).

Reconnaissance de Formes (Classification)

Cet exemple illustre l'utilisation des arbres de classification dans une problématique de reconnaissance de formes.

Les données de l'analyse ont été produites de la même manière qu'une calculette défectueuse afficherait des chiffres sur un écran numérique (pour une description de la manière dont ces données ont été produites, voir Breiman et. al., 1984). Les classes observées de la variable dépendante Chiffre sont constituées des valeurs zéro à neuf que nous avons entrées sur le clavier de la calculette. Nous avons 7 prédicteurs catégoriels, Var1 à Var7. Les niveaux de ces prédicteurs catégoriels (0 = absent ; 1 = présent) correspondent à la présence ou à l'absence de chacun des 7 segments digitaux (3 segments horizontaux et 4 verticaux) sur l'affichage digital lorsque nous avons entré la valeur sur le clavier. La correspondance entre les variables prédictives et les segments est la suivante : Var1 - horizontal supérieur, Var2 - vertical supérieur gauche, Var3 - vertical supérieur droit, Var4 - horizontal du milieu, Var5 - vertical inférieur gauche, Var6 - vertical inférieur droit, et Var7 - horizontal inférieur. Les 10 premières observations du fichier sont illustrées ci-dessous.  Vous trouverez le fichier de données complet avec ses 500 observations dans le fichier d'exemple Digit.sta. Ouvrez ce fichier de données à l'aide de la commande Ouvrir des Exemples du menu Fichier ; ce fichier se situe dans le dossier Fichiers de Données de votre installation STATISTICA.

Spécifier l'Analyse. À deux exceptions près (c'est-à-dire la spécification des Probabilités a priori et de la Validation croisée v-ensembles), nous utiliserons les options analytiques par défaut du module Modèles d'Arbres de Classification et de Régression (GC&RT). Sélectionnez cette option dans le menu Data Mining afin d'accéder au Panneau de Démarrage.

Nous allons réaliser une analyse GC&RT standard ; vous pouvez donc cliquer sur le bouton OK afin d'accéder à la boîte de dialogue C&RT Standard - Spécifications. La variable dépendent dans notre cas est de nature catégorielle ; dans l'onglet Base, vous pouvez donc cocher l'option Réponse catégorielle (var. dépendante catégorielle). Cliquez ensuite sur le bouton Variables afin d'accéder à une boîte de dialogue standard de sélection de variables. Sélectionnez la variable Chiffre comme variable Dépendante et les variables Var1 à Var7 comme Prédicteurs catégoriels, puis cliquez sur le bouton OK. Vous n'avez pas besoin de spécifier explicitement les Codes des facteurs ni les Codes des réponses dans la mesure où nous allons tous les utiliser ici ; STATISTICA va déterminer automatiquement ces codes à partir des données.

Dans l'onglet Classification nous allons accepter la plupart des options par défaut (c'est-à-dire des Coûts de mauvaise classification Égaux et la Mesure de Gini comme indicateur de Qualité d'ajustement) ; nous allons simplement sélectionner le bouton d'option Égales dans le cadre Probabilités a priori. Enfin, dans l'onglet Validation, cochez l'option Validation croisée par v-ensembles (v-fold), et acceptez tous les autres paramètres par défaut.

Cliquez sur le bouton OK pour exécuter les calculs. Une boîte de dialogue va apparaître pour indiquer la progression des analyses ; la validation croisée par v-ensembles peut parfois s'avérer très longue (dans la mesure où l'analyse est répétée v fois). À l'issue des calculs, la boîte de dialogue GC&RT - Résultats apparaît.

Étude des Résultats. Sélectionnez l'onglet Synthèse, puis cliquez sur le bouton Diagramme de l'arbre afin de représenter l'arbre final sélectionné par le programme (par validation croisée).

Comme c'est souvent le cas, l'arbre final est trop grand pour être affiché dans un simple graphique ; il s'agit d'un problème récurrent dans ce type d'analyse (voir aussi la section Les Calculs et Solutions Spécifiques de STATISTICA C&RT dans la rubrique Introduction - Principes Fondamentaux - Deuxième Partie). Vous pouvez naturellement utiliser les outils de zoom proposés dans les graphiques afin de naviguer dans l'arbre et examiner des parties ou zones spécifiques de l'arbre de décision.

Vous pouvez également cliquer sur le bouton Arbre déroulant dans la boîte de dialogue GC&RT - Résultats - onglet Synthèse afin de représenter l'arbre de décision dans une fenêtre avec des barres de défilement ; d'une certaine manière, cette option permet de créer un graphique beaucoup plus grand sur lequel vous allez déplacer une fenêtre (déroulante et redimensionnable) de visualisation.

Une autre manière, souvent plus efficace et informative, consiste à examiner les arbres de décision importants de STATISTICA dans un Explorateur d'Arbres de type Classeur, qui vous permet de naviguer dans des arbres de décision de taille et de complexité quasiment illimitée. Cliquez sur le bouton Exploration de l'arbre afin de représenter cet explorateur.

L'Explorateur de l'Arbre (voir la section Examen d'Arbres Conséquents : Des Outils Spécifiques de Gestion de l'Analyse dans la rubrique Introduction - Principes Fondamentaux - Deuxième Partie) fournit une synthèse de l'arbre de décision et des conditions de division avec les statistiques (de la classification) pour chaque noeud (intermédiaire) de division (matérialisé par le symbole ) ou noeud terminal ( ). Si vous examinez attentivement l'arbre de décision, vous allez constater que la classification finale est très bonne, avec des noeuds terminaux quasiment purs.

Revenez à présent à la boîte de dialogue des Résultats, sélectionnez l'onglet Classification puis cliquez sur le bouton Valeurs prévues vs. observées par classes. Vous allez ainsi produire une matrice des classifications observées et prévues, ainsi qu'une synthèse graphique des classifications observées en fonction des classifications prévues.

STATISTICA a utilisé la validation croisée par v-ensembles (v-fold) pour sélectionner l'arbre numéro 5 dans la séquence d'arbres. Cliquez sur le bouton Séquence de l'arbre dans l'onglet Synthèse afin de produire la feuille de données de la Séquence de l'arbre.

L'arbre numéro 5 est l'arbre de décision le moins complexe (avec le nombre de noeuds terminaux le plus faible) avec un coût de validation croisée (Coûts de VC) d'un écart-type à l'intérieur du coût de VC le plus faible (voir la description de la Règle de l'erreur-type dans l'onglet Validation) ; c'est la raison pour laquelle il a été sélectionné comme arbre de "taille optimale". Cliquez sur le bouton Séquence des coûts afin de représenter ces résultats sous une forme graphique.

Remarque : le coût de resubstitution de l'échantillon qui a permis de déterminer les divisions augmente à mesure que le processus d'élagage s'opère (en fait, à mesure que les numéros des arbres augmentent en passant de 1 à 14, le nombre de noeuds terminaux diminue, c'est-à-dire que les arbres consécutifs sont de plus en plus élagués) ; nous pouvions nous y attendre puisque l'ajustement des données à partir desquelles l'arbre est calculé va être d'autant moins bon que nous avons un nombre de noeuds terminaux faible. Toutefois, il est intéressant de constater que le coût de VC (échantillon de validation croisée) diminue dans un premier temps, ce qui révèle l'existence d'un "surajustement" des données pour les arbres de décision 1 à 4, c'est-à-dire qu'ils ont produit des résultats propres à l'échantillon à partir duquel les divisions ont été calculées, conduisant à une moins bonne précision de la prévision dans les échantillons de validation croisée (les v-ensembles successifs, c'est-à-dire des échantillons de validation croisée tirés de façon aléatoire).

Cet exemple, que Breiman, et al. (1984) ont abordé en détail, démontre l'intérêt de la validation croisée par v-ensembles (v-fold) pour déterminer l'arbre de taille optimale. En fait, sans cet outil appliqué à l'ensemble des arbres de la séquence d'arbres, il est facile de passer à côté de la meilleure solution (arbre) c'est-à-dire de la solution la plus adéquate pour les données.

Didacticiels

Vous pouvez visionner l'intégralité de la série de tutoriels Le Data Mining en 35 Leçons avec STATISTICA en remplissant le formulaire d'inscription. Vous serez alors notifié(e) automatiquement de la disponibilité des nouveaux épisodes et recevrez d'autres informations utiles.

StatSoft propose par ailleurs une série de didacticiels et présentations interactives décrivant pas-à-pas différentes opérations que vous pouvez réaliser à l'aide de STATISTICA. Si vous souhaitez voir aborder un thème particulier, merci de nous écrire.