Partager :

Concepts Fondamentaux en Statistique


Data Mining :

Arbres de Décision Interactifs (C&RT, CHAID)



Sommaire :


Introduction

Le module STATISTICA Arbres de Décision Interactifs (C&RT, CHAID) permet de construire ("développer") des arbres de classification et de régression ainsi que des arbres de décision CHAID sur la base de méthodes de calcul automatiques, de règles personnalisées et de critères que vous spécifiez dans une interface graphique très conviviale (outils de balayage), ou une combinaison des deux. L'objectif de ce module consiste à offrir un environnement très convivial pour construire vos arbres de classification ou de régression (à l'aide des méthodes classiques C&RT ou CHAID) afin de permettre à l'utilisateur de tester différents prédicteurs et critères de division en complément des fonctionnalités de construction automatique d'arbres de décision proposées dans les modules Modèles d'Arbres de Classification et de Régression (GC&RT) et Modèles CHAID (GCHAID) de STATISTICA.

Vous pouvez utiliser le module Arbres de Décision Interactifs (C&RT, CHAID) pour construire des arbres de décision en vue de prévoir des variables dépendantes continues (régression) et des variables dépendantes catégorielles (classification). Le programme intègre l'algorithme C&RT classique, vulgarisé par Breiman et al. (Breiman, Friedman, Olshen, & Stone, 1984 ; voir aussi Ripley, 1996) ainsi que l'algorithme CHAID (Chi-square Automatic Interaction Detector; see Kass, 1980).

Spécificités du Module Arbres de Décision Interactifs (C&RT, CHAID)

Bien que l'essentiel des fonctionnalités du module Arbres de Décision Interactifs (C&RT, CHAID) soient présentes dans d'autres procédures de construction d'arbres de décision de STATISTICA et de STATISTICA Data Miner, ce programme offre un certain nombre de spécificités :

  • Le programme est particulièrement optimisé pour des jeux de données extrêmement importants, et dans la plupart des cas, il n'est pas nécessaire que les observations soient stockées en local pour vos analyses.

  • Dans la mesure où le module Arbres de Décision Interactifs ne permet pas l'utilisation de matrices de type ANCOVA, il est plus souple dans la gestion des valeurs manquantes ; par exemple, dans les analyses CHAID, le programme va gérer les prédicteurs un à un pour déterminer la meilleure division (à l'étape suivante) ; dans le module Modèles CHAID (GCHAID), les observations qui possèdent des valeurs manquantes dans au moins un des prédicteurs catégoriels sont éliminées de l'analyse. Voir aussi la rubrique Valeurs Manquantes dans GC&RT, GCHAID, et dans les Arbres de Décision Interactifs pour plus d'informations.

  • Vous pouvez réaliser des analyses conditionnelles en supprimant de façon interactive certaines branches individuelles, ou en développant d'autres branches, et en observant diverses statistiques pour les différents arbres de décision (modèles).

  • Vous pouvez développer (étendre) automatiquement certaines parties de l'arbre de décision et spécifier manuellement des divisions pour d'autres branches ou noeuds. Par exemple, si certaines variables prédictives sont difficilement mesurables, ou ne peuvent l'être pour des raisons économiques (par exemple, l'information relative aux Revenus individuels est généralement difficile à obtenir dans une enquête), vous pouvez identifier et appliquer d'autres prédicteurs et divisions pour les noeuds afin d'éviter d'avoir à intégrer ces variables (par exemple, remplacer les Revenus par le Nombre de pièces dans la résidence principale).

  • Vous pouvez définir des divisions spécifiques. Cette fonctionnalité est intéressante lorsque vous devez construire des solutions à la fois simples et parcimonieuses qu'il s'agit de présenter et mettre en oeuvre simplement (par exemple, une division à un niveau de Revenus < 20.345 € est moins "pratique" qu'une division à un niveau de Revenus < 20 K€).

  • Vous pouvez rapidement copier les arbres de décision dans de nouveaux projets afin d'explorer d'autres divisions et méthodes pour développer les branches.

  • Vous pouvez sauvegarder l'intégralité des arbres de décision (projets) pour une utilisation ultérieure. Lorsque vous ouvrez à nouveau vos projets, l'arbre de décision sera fidèlement restauré, tel qu'il était lors de son enregistrement.

Méthodes pour Construire des Arbres de Régression et de Classification

STATISTICA intègre une sélection complète d'algorithmes pour construire des arbres de décision dans le cadre de vos tâches de régression et de classification.

Méthodes de construction automatique du modèle (machine learning). L'objectif initial et les applications traditionnelles des techniques d'arbres de classification et de régression consistait à offrir une alternative aux différentes méthodes linéaires et non-linéaires de data mining prédictif ; vous trouverez davantage d'informations à cet égard dans les rubriques d'aide du module Arbres de Décision [Classification], qui intègre l'algorithme QUEST (Quick, Unbiased, Efficient Statistical Trees) développé par Loh et Shih (1997) ; dans les rubriques d'aide du module Modèles d'Arbres de Classification et de Régression  (GC&RT), qui intègre les méthodes C&RT (voir aussi Breiman, Friedman, Olshen, & Stone, 1984) ; et dans les rubriques d'aide du module Modèles CHAID (GCHAID). Ces modules propose un éventail large et complet de techniques puissantes, qui sont parfaitement adaptées dans le cadre d'analyses de data mining prédictif. Toutes ces méthodes vont identifier automatiquement le meilleur modèle (arbre de décision) en utilisant des méthodes de calcul sophistiquées, et, dès lors que le problème analytique a été bien défini (par exemple, après sélection des variables), l'utilisateur n'a pas à intervenir (ou de manière très marginale) pour obtenir de bonnes solutions qui vont permettre de produire des prévisions ou des classifications prévues précises. En fait, dans de nombreux cas, ces techniques vont produire des modèles de meilleure qualité que tout autre modèle linéaire, non-linéaire ou solution basée sur les Réseaux de Neurones (voir aussi Hastie, Tibshirani et Friedman, 2001, pour une présentation).

Construire des arbres de décision de façon interactive. Par opposition, une autre méthode de construction des arbres de décision qui est largement utilisée en recherche appliquée et dans l'exploration des données s'appuie sur la connaissance d'un expert par rapport au domaine étudié, et nécessite des choix interactifs (sur la manière de développer l'arbre de décision) de la part de ces experts pour parvenir à de "bons" modèles (valides) de prévision ou de classification prédictive. En d'autres termes, au lieu de construire automatiquement les arbres de décision, à l'aide d'algorithmes sophistiqués pour choisir les meilleurs prédicteurs et divisions (permettant de développer les branches de l'arbre de décision), l'utilisateur a ici la possibilité de déterminer manuellement les variables à intégrer dans l'arbre de décision, et la manière de diviser ces variables pour créer les branches de l'arbre de décision. L'utilisateur a donc la possibilité de tester différentes variables et scénarios, et dans l'idéal, mieux comprendre le phénomène étudié, en combinant son expertise avec les possibilités analytiques et les options permettant de construire l'arbre de décision (voir également le paragraphe suivant).

Combiner les techniques. En pratique, il est souvent utile de combiner des méthodes automatiques de construction d'arbres avec une expertise propre à un domaine particulier et diverses hypothèses. Vous pouvez développer certaines parties de l'arbre de décision à l'aide de méthodes automatiques puis affiner et modifier les choix réalisés par le programme (pour développer les branches de l'arbre de décision) sur la base de votre expertise. L'utilisation conjointe de méthodes automatiques et interactives pour construire l'arbre de décision s'avère également très utile lorsque certaines variables choisies automatiquement pour certaines divisions ne sont pas aisément observables par manque de fiabilité ou pour des raisons économiques (c'est-à-dire, les coûts à engager pour obtenir ces mesures seraient trop élevés). Par exemple, imaginons que l'analyse automatique sélectionne à un moment donné une variable Revenus comme un bon prédicteur de la division suivante ; cependant, il se peut que vous ayez des difficultés à obtenir des données fiables pour les revenus dans le nouvel échantillon auquel vous souhaitez appliquer les résultats de l'analyse en cours (par exemple, pour prévoir un comportement particulier, comme la décision d'achat d'un individu dans un catalogue de VPC). Dans ce cas, vous pouvez choisir une variable "remplaçante", c'est-à-dire une variable que vous pouvez facilement observer et qui est vraisemblablement corrélée ou proche de la variable Revenu (du point de vue de son pouvoir prédictif ; par exemple, une variable Niveau d'étude (dernier diplôme obtenu) peut être liée à la variable Revenu et avoir un pouvoir prédictif similaire ; si la plupart des individus sont assez peu enclins à révéler leurs revenus, il y a beaucoup plus de chances pour qu'ils indiquent leur niveau d'étude, et cette dernière variable peut donc être plus facilement mesurée).

Le module STATISTICA Arbres de Décision Interactifs (C&RT, CHAID) offre un environnement à la fois flexible et convivial pour développer les arbres de décision ou des portions (branches) de ces arbres de façon algorithmique (automatique) et manuelle. Il constitue un outil extrêmement puissant dans le cadre des analyses interactives de données et de construction de modèles qui vient compléter et enrichir la large gamme de techniques proposées dans STATISTICA Data Miner pour déterminer automatiquement des modèles pertinents de prévision et de classification prévue.

Comparaison entre le Module Arbres de Décision Interactifs et les Modules

GC&RT et GCHAID

Bien que les méthodes disponibles dans le module Arbres de Décision Interactifs soient très proches et à certains égards, plus souples que celles proposées dans les modules Modèles d'Arbres de Classification et de Régression (GC&RT) et Modèles CHAID (GCHAID), il existe des différences importantes entre ces procédures, chacune ayant ses propres avantages et inconvénients.

Validation Croisée v-ensembles (v-fold) et Séquence des Arbres de Décision

La technique de la validation croisée v-ensembles (v-fold) est utilisée dans différentes procédures analytiques de STATISTICA afin d'éviter le surajustement des données. En bref, lorsque vous ajustez un modèle à un jeu de données, vous pouvez rendre le modèle tellement complexe (c'est-à-dire, avec un grand nombre de paramètres) qu'il va permettre de reproduire quasiment parfaitement les données. Le problème, bien évidemment, c'est que ce type de modèle risque de produire de piètres résultats si vous l'appliquez sur de nouvelles données, c'est-à-dire, si vous utilisez ce modèle pour réaliser des prévisions ou calculer des classifications prévues sur des observations n'ayant pas été utilisées dans l'ajustement du modèle. D'une manière générale, lorsque vous ajustez un modèle complexe à des jeux de données relativement petits (par rapport à la complexité du modèle), vous prenez également en compte divers aspects ésotériques de votre échantillon spécifique dans l'analyse (l'échantillon d'apprentissage qui va servir à estimer les paramètres), que vous ne pourrez pas généraliser à la population dans son ensemble, et qui par conséquent, perdra toute utilité pour la prévision.

Certains modules de STATISTICA, comme les modules Modèles d'Arbres de Classification et de Régression  (GC&RT) ou Arbres de Décision [Classification], vous permettent d''utiliser les méthodes de validation croisée v-ensembles afin d'ajuster v fois l'ensemble de la série d'arbres de décision (produits par l'algorithme correspondant de construction de l'arbre de décision) sur les différents sous-échantillons de données, et de tester le pouvoir prédictif (validité) de ces modèles. Cette technique vous permet de tester les étapes du processus automatique de construction de l'arbre de décision, et de sélectionner (automatiquement) un arbre de décision particulier qui apparaît plus robuste et valide, c'est-à-dire qui produit les prévisions les plus justes sur les observations qui n'ont pas participé au processus de construction du modèle (arbre de décision). La validation croisée v-ensembles de la séquence d'arbres de décision constitue un outil extrêmement utile et puissant de data mining prédictif, dans la mesure où il conduit généralement à des modèles simples ayant une validité prédictive optimale.

Dans le module Arbres de Décision Interactifs (C&RT, CHAID), vous ne pouvez appliquer la validation croisée v-ensembles (v--fold) qu'à des arbres de décision individuels, et non à la séquence entière des arbres de décision. Dans la mesure où vous (l'utilisateur) pouvez construire des arbres de décision de façon interactive et développer (étendre) ou supprimer (élaguer) des branches de l'arbre de décision sans avoir à construire une séquence d'arbres (du plus simple au plus complexe), le programme ne va pas appliquer de validation croisée v-ensembles pour choisir le meilleur arbre de décision. En revanche, vous pouvez estimer l'erreur (coût) de validation croisée v-ensembles de l'arbre final construit (choisi) automatiquement, afin de vous faire une idée de l'utilité de la solution pour la prévision de nouvelles observations.

Rien ne garantit que les arbres de décision interactifs vont pouvoir se généraliser sur de nouvelles observations. L'impossibilité d'appliquer des méthodes de validation croisée v-ensembles (v-fold) à une séquence d'arbres de décision calculés par un algorithme (de façon systématique) afin de sélectionner la solution ayant la meilleure validité prédictive constitue l'une des principales lacunes de tous les programmes utilisant un processus interactif de construction des arbres de décision. En bref, vous ne pouvez pas savoir si la solution finale d'un modèle d'arbres de décision que vous avez retenu après diverses analyses interactives poussées, pourra être généralisé sur de nouveaux échantillons, c'est-à-dire produire des prévisions ou des classifications prévues exactes pour de nouvelles observations.

Des Différences dans les Procédures de Calcul

Un autre problème dont vous devez être conscient(e) lorsque vous utilisez les différentes méthodes d'arbres de décision proposées dans STATISTICA tiennent au fait que ces techniques peuvent produire des solutions qui ne sont pas uniques. Lorsque vous utilisez par exemple une Régression Multiple par les moindres carrés, il existe généralement une et une seule solution correcte et optimale pour les paramètres de l'équation linéaire de la régression. Ce n'est pas nécessairement le cas dans les techniques de construction d'arbres de décision.

Par exemple, considérons l'algorithme CHAID (voir aussi la rubrique Un Algorithme Simple pour Construire des Arbres de Décision : CHAID et CHAID Exhaustif). Tout d'abord, l'algorithme va créer des prédicteurs catégoriels à partir des différents prédicteurs continus en répartissant les distributions continues respectives selon un certain nombre de catégories, composées approximativement du même nombre d'observations. Dans le module Modèles CHAID, cette étape se répète à chaque noeud de l'arbre de décision afin d'obtenir le meilleur pouvoir prédictif à chaque stade du processus de construction automatique de l'arbre de décision. Dans le module Arbres de Décision Interactifs (C&RT, CHAID), par défaut, cette procédure de "répartition" de l'étendue des valeurs des prédicteurs continus en intervalles discrets ne s'applique qu'une seule fois, au début de l'analyse. De cette manière, les analyses portant sur des jeux de données gigantesques sont plus rapides, avec de meilleurs temps de réponse pour les analyses interactives, et en évitant des calculs inutiles dans la mesure où les utilisateurs vont généralement choisir manuellement les intervalles de valeurs pour les divisions. Toutefois, sur des jeux de données complexes qui produisent des arbres (règles de division) de plus en plus compliqué(e)s, ces deux procédures (initialisation des intervalles pour les prédicteurs continus à chaque noeud dans un cas, contre initialisation une seule fois au début de l'analyse) peuvent produire des arbres de décision totalement différents (Remarque : le module Arbre de Décision Interactifs contient un certain nombre d'options pour contrôler le moment et la manière de créer des intervalles à partir des valeurs des prédicteurs continus).

Autre exemple, dans le cadre du module CHAID, où des différences minimes dans les données ou les procédures de calcul peuvent produire des résultats très différents.  En effet, le programme, lors des opérations automatiques (développement de l'arbre de décision), peut rencontrer deux variables prédictives qui vont améliorer de façon identique l'ajustement global ; la question qui se pose alors est de savoir lequel choisir. A un moment donné, cette décision est arbitraire, mais la manière dont cette question est tranchée (quelle variable est retenue) peut largement affecter les choix ultérieurs et par conséquent, l'arbre global (en fait, il n'est pas rare que certains programmes produisent des résultats différents pour un ordre différent des variables prédictives).

Encore un autre cas de figure, où les analyses CHAID et C&RT réalisées dans les modules GCHAID ou GC&RT puis dans le module Arbres de Décision Interactifs peuvent produire des résultats différents : lorsque les données d'entrée contiennent des valeurs manquantes dans les variables prédictives. Vous trouverez davantage d'informations sur ces différences dans la rubrique Valeurs Manquantes dans GC&RT, GCHAID, et dans les Arbres de Décision Interactifs.

Un quatrième exemple encore où des méthodes similaires de construction d'arbres de décision peuvent produire des résultats assez différents : lorsque vous utilisez des divisions de remplaçants. En effet, vous pouvez choisir des variables remplaçantes (manuellement ou automatiquement) pour une division ou les valeurs prédictives de certaines observations sont manquantes. Le programme va alors simplement utiliser une variable remplaçante similaire pour effectuer la division. Selon le nombre de remplaçants autorisés, vous pouvez à nouveau obtenir des résultats très différents.

Les techniques de construction d'arbres de décision sont des algorithmes heuristiques, et non des méthodes exactes d'estimation. Ce qu'il faut savoir, c'est que les méthodes d'arbres de décision reposent sur des algorithmes et pas sur des solutions analytiques précises à des équations. Ces algorithmes sont généralement très complexes et en pratique, produisent souvent des résultats utiles et interprétables. Toutefois, les solutions spécifiques ne sont pas "exactes" au sens où différents analystes ou chercheurs vont toujours obtenir des résultats identiques, ou quasiment identiques, avec un logiciel (algorithmes) et des données similaires. De ce point de vue, ces techniques ne sont pas très différentes d'autres algorithmes de Machine Learning qui produisent souvent des résultats très utiles (dans une optique de prévision ou de classification prédictive) même si ces résultats ne sont pas nécessairement uniques (par exemple, il peut exister d'autres arbres de décision avec une utilité comparable), interprétables, ni ne permettent d'inférer les "paramètres" généraux de la population.

Présentation du Programme

Le module Arbres de Décision Interactifs (C&RT, CHAID) intègre différents algorithmes d'arbres de classification et de régression (C&RT), vulgarisé par Breiman et al. (Breiman, Friedman, Olshen, & Stone, 1984 ; voir aussi Ripley, 1996) ainsi que les méthodes CHAID et CHAID Exhaustif (Chi-square Automatic Interaction Detector ; voir Kass, 1980). Les méthodes de calcul sont quasiment identiques à celles implémentées dans les modules Modèles d'Arbres de Classification et de Régression (GC&RT) et Modèles CHAID (GCHAID) de STATISTICA, et sont décrites ici en détail.

Le module Arbres de Décision Interactifs (C&RT, CHAID) offre un grand nombre d'options permettant à l'utilisateur de déterminer de façon interactive tous les aspects du processus de construction de l'arbre de décision. Vous pouvez sélectionner les variables à utiliser pour chaque division (branche) à partir d'une liste de variables possibles, déterminer la manière et le critère de division d'une variable, développer (étendre) l'arbre de décision de façon interactive, branche par branche ou niveau par niveau, développer automatiquement l'arbre de décision tout entier, supprimer ("élaguer") des branches individuelles de l'arbre de décision, et bien davantage. Toutes ces options sont accessibles dans une interface graphique efficace, dans laquelle vous pouvez "balayer" l'arbre actuel, c'est-à-dire, sélectionner un noeud spécifique pour y développer une branche, élaguer une branche, etc...

Vous disposez d'un large éventail d'options de résultats afin de représenter et analyser l'arbre de décision, comme celles qui sont proposées par ailleurs dans les modules Modèles d'Arbres de Classification et de Régression (GC&RT) et Modèles CHAID (GCHAID). Vous pouvez représenter les arbres de décision sous la forme d'un Diagramme de l'arbre (graphiques) ou par l'intermédiaire d'une interface unique, dans un Explorateur d'Arbres (voir la rubrique Les Calculs et Solutions Spécifiques de STATISTICA GCHAID), qui s'apparente à l'arborescence (structure hiérarchique de répertoires) des Classeurs STATISTICA. En outre, différents tableaux numériques et graphiques de synthèse vous permettent d'examiner en détail les différents résultats.

Comme pour tous les modules de data mining prédictif, vous avez la possibilité de sauvegarder les règles de décision de l'arbre final (qu'il s'agisse d'une problématique de régression ou de classification) de différentes manières en vue du déploiement sur vos projets de data mining, notamment en C/C++, en STATISTICA Visual Basic ou en PMML. Par conséquent, vous pouvez convertir rapidement et efficacement les arbres de décision finaux calculés à l'aide de ce module en solutions pour prévoir ou classer de nouvelles observations.

Arbres de Décision Interactifs (C&RT, CHAID)

Le principal objectif du module Arbres de Décision Interactifs (C&RT, CHAID) consiste à vous permettre de contrôler totalement et de façon interactive le processus de construction de l'arbre de décision (voir la rubrique Introduction). Vous pouvez par conséquent vous reporter aux exemples des modules Modèles d'Arbres de Classification et de Régression (GC&RT), Modèles CHAID (GCHAID) et Arbres de Décision [Classification], puis reproduire les analyses à l'aide du module Arbres de Décision Interactifs (C&RT, CHAID). Vous pourrez alors réaliser différentes analyses conditionnelles, modifier des branches particulières des arbres de décision produits, etc..., afin de tester la robustesse des solutions obtenues, ou savoir dans quelle mesure il est possible de trouver des arbres de décision avec une même validité prédictive, mais avec d'autres variables de division. Nous allons illustrer cette démarche ici à l'aide du fichier de données Poverty, que nous avons déjà décrit, par exemple, dans l'Exemple du module Modèles d'Arbres de Classification et de Régression (GC&RT).

Arbre de Régression pour Prévoir la Pauvreté

Cet exemple vise à analyser des données, présentées par ailleurs dans l'Régression Multiple du module Régression Multiple et dans l'Exemple Arbre de Régression pour Prévoir la Pauvreté. Il illustre la manière dont les arbres de régression peuvent parfois créer des solutions simples et aisément interprétables. Dans l'Exemple 2 du module Arbres de Classification et de Régression (GC&RT), nous avons construit automatiquement l'arbre de décision illustré ci-dessous :

La solution est relativement simple et efficace. Toutefois, nous souhaitons construire un arbre de décision encore plus simple, notamment pour ce qui concerne les seuils ou valeurs de division spécifiques de chaque prédicteur. En pratique, il est généralement plus efficace d'utiliser des valeurs de division simples à communiquer (par exemple, pour les présenter au management) et à "administrer" (par exemple, si PT_PHONE < 50% alors ..., plutôt que si PT_PHONE < 72% alors...), en particulier si cette simplification ne se fait au détriment de la qualité globale du modèle prédictif que de façon très marginale.

Fichier de données. Cet exemple se fonde sur le fichier de données Poverty.sta. Ouvrez ce fichier de données à l'aide de la commande Ouvrir des Exemples du menu Fichier ; ce fichier de données se situe dans le répertoire Fichiers de Données. Les données représentent l'évolution de la population entre les recensements de 1960 et de 1970 sur une sélection aléatoire de 30 comtés américains. Le nom des observations du fichier de données contient le nom de ces comtés.

L'information relative aux différentes variables est accessible par la boîte de dialogue de Spécifications de Toutes les Variables (pour y accéder, sélectionnez la commande Spécs de Toutes les Variables du menu Données).

Problématique. L'objectif de cette étude consiste à analyser les indicateurs liés à la pauvreté, c'est-à-dire les variables qui permettent de prévoir au mieux le part de foyers situés en deçà du seuil de pauvreté dans un comté. Nous allons par conséquent traiter la variable 3 (Pt_Pauvr) comme variable dépendante (ou critère), et toutes les autres variables comme des variables indépendantes (ou prédicteurs).

Configuration de l'analyse. Sélectionnez la commande Arbres de Décision Interactifs (C&RT, CHAID) dans le menu Statistiques - Data Mining afin d'accéder à la boîte de dialogue Arbres de Décision Interactifs (Panneau de Démarrage). Dans la boîte de dialogue Arbres de Décision Interactifs (Panneau de Démarrage) - onglet Base, sélectionnez une Analyse de Régression comme Type d'analyse (dans la mesure où l'indicateur de pauvreté retenu est une variable continue), et sélectionnez C&RT comme Méthode de construction du modèle.

Cliquez sur le bouton OK afin d'accéder à la boîte de dialogue Arbres de Décision Interactifs - Spécifications (dans le cas présent, la boîte de dialogue s'appelle ITrees C&RT - Options Étendues). Cliquez ensuite sur le bouton Variables et sélectionnez la variable PT_POOR comme variable dépendante et toutes les autres variables comme prédicteurs continus, puis cliquez sur le bouton OK.

Cliquez sur le bouton OK dans cette boîte de dialogue afin d'exécuter l'analyse et accéder à la boîte de dialogue ITrees - Résultats.

Construction Manuelle de l'Arbre de Décision

Le module Arbres de Décision Interactifs (C&RT, CHAID) ne construit par défaut aucun arbre de décision ; par conséquent, lors de l'apparition de la boîte de dialogue Itrees - Résultats, aucun arbre n'est produit (si vous cliquez sur le bouton Diagramme de l'arbre à ce stade, un simple rectangle sera produit, pour représenter le noeud racine).

Étude des statistiques des prédicteurs. Examinons tout d'abord les statistiques initiales des prédicteurs. Dans la boîte de dialogue Itrees - Résultats - onglet Gestionnaire, cliquez sur le bouton Stats sur les prédicteurs.

Sélection d'une division. Cette feuille de données reporte les statistiques de la division pour la division initiale (Noeud 1) ; dans la mesure où nous traitons un problème de régression avec une variable dépendante continue, la statistique reportée dans cette feuille de données représente la somme des carrés expliquée par la division correspondante. De toute évidence, la variable PT_PHONE (pourcentage de foyers équipés d'une installation téléphonique) est le meilleur prédicteur (initial). Pour connaître la division spécifique qui est proposée par le programme de façon automatique, cliquez sur le bouton Personnaliser divisions dans la boîte de dialogue Arbres de Décision Interactif - onglet Gestionnaire.

Par défaut, la meilleure division pour la variable PT_PHONE s'établi à la valeur 72.00, c'est-à-dire 72% (de foyers équipés d'une installation téléphonique). Pour simplifier l'interprétation finale de l'arbre de décision, arrondissons cette valeur à 75% (c'est-à-dire, "si trois foyers sur quatre (ou davantage) des foyers disposent d'une installation téléphonique, alors..."), en définissant le Critère de division du prédicteur continu à 75. Quittons ensuite cette boîte de dialogue en cliquant sur le bouton Développer.

Étude de l'arbre de décision dans l'Explorateur de l'arbre (classeur). Examinons à présent l'arbre de décision actuel à l'aide de l'option Explorateur de l'arbre, qui nous permet également d'obtenir la répartition des valeurs observées. Dans la boîte de dialogue ITrees - Résultats - onglet Synthèse, cochez l'option Histogramme de la réponse dans le Classeur de l'arbre, puis cliquez sur le bouton Exploration de l'arbre.

L'un des intérêts d'avoir cet explorateur de l'arbre de décision dans un classeur (voir aussi la rubrique Examen d'Arbres Conséquents : Des Outils Spécifiques de Gestion de l'Analyse) est que vous pouvez de cette manière explorer la solution finale à l'aide de petites "animations". Commencez par mettre en surbrillance (cliquez sur) le Noeud 1. Utilisez ensuite les flèches de déplacement de votre clavier pour accéder aux autres noeuds de l'arbre de décision. Vous pouvez alors constater la manière dont les divisions successives vont produire des noeuds de plus en plus purs, c'est-à-dire des réponses de plus en plus homogènes comme le montre l'écart-type de plus en plus faible de la courbe normale.

Développer (Étendre) Automatiquement l'Arbre de Décision,
Balayage de l'Arbre de Décision

Terminons notre arbre de décision et développant automatiquement l'arbre de décision jusqu'à son "point d'arrêt" final, conformément aux critères d'arrêt que nous avons acceptés (par défaut) dans la boîte de dialogue Arbres de Décision Interactifs - Spécifications - onglet Arrêt ; nous allons également utiliser les outils de balayage de l'arbre dans cet optique.

Dans la boîte de dialogue Itrees - Résultats - onglet Gestionnaire, cliquez sur le bouton Balayage de l'arbre. Si vous avez sélectionné (ou laissé les paramètres par défaut inchangés) d'afficher les résultats dans un classeur, l'arbre de décision en cours apparaîtra sous forme d'un graphique déroulant dans le classeur par défaut des résultats.

En outre, la boîte de dialogue Commandes d'Habillage apparaît également. Vous pouvez sélectionner l'une des options proposées et retourner dans l'interface-utilisateur de balayage de l'arbre pour étudier les résultats (par exemple, si vous développez ou élaguez l'arbre de décision) ; les mêmes options sont également accessibles par le menu contextuel, lorsque vous cliquez avec le bouton droit de la souris sur le curseur de balayage (en forme de loupe avec viseur).

Cliquons à présent sur le bouton Développer l'arbre afin de finaliser automatiquement l'arbre de décision. Ci-dessous, l'arbre final développé automatiquement.

Comme vous pouvez le constater, le programme a de nouveau choisi la variable PT_PHONE pour réaliser la division.

Modifier une Branche de l'Arbre de Décision

Pour savoir si une autre variable aurait pu produire une bonne division au noeud 3, cliquez à nouveau sur le bouton Balayage de l'arbre, sélectionnez le noeud numéro 3, puis cliquez sur le bouton Statistiques sur les prédicteurs. Remarque : en mode balayage/habillage, la feuille de données produite apparaît automatiquement dans une fenêtre individuelle, que vous pouvez conserver à l'écran (et regarder se mettre à jour). Une fois cette feuille de données produite, le programme va automatiquement retourner en mode balayage afin de vous permettre de sélectionner d'autres statistiques et d'autres opérations d'extension/élagage de l'arbre de décision.

Il apparaît que la variable PT_RURAL (Pourcentage de la population vivant milieu rural) peut produire une division de "qualité" assez proche à la division (choisie automatiquement) réalisée sur la variable PT_PHONE. Pour que la division repose sur la variable PT_RURAL, sélectionnez le noeud numéro 3 (s'il n'est pas déjà sélectionné/en surbrillance), puis cliquez sur le bouton Divisions personnalisées.

La boîte de dialogue Sélection et Division Personnalisées d'une Variable va alors apparaître. Dans cette boîte de dialogue, cliquez sur le bouton Sélectionner un prédicteur et sélectionnez PT_RURAL comme prédicteur pour cette division.

Cliquez à présent sur le bouton Développer afin de retourner à l'interface-utilisateur de balayage de l'arbre.

Cliquez enfin sur le bouton Annuler pour quitter le mode de balayage, et retourner à la boîte de dialogue ITrees - Résultats.

Conclusion et Comparaisons

Nous pourrions maintenant comparer la qualité d'ajustement de ce diagramme avec celui qui a été produit automatiquement par le programme. Par exemple, vous pouvez simplement démarrer une autre analyse identique dans le module Arbres de Décision Interactifs (C&RT, CHAID), et développer l'arbre sans rien modifier aux divisions automatiques. L'arbre de décision qui est produit automatiquement n'utilise que la variable PT_PHONE, avec une division assez différente au noeud 1. Si vous utilisez l'option Estimation du risque dans la boîte de dialogue ITrees - Résultats - onglet Synthèse, vous allez constater que l'arbre construit de façon automatique est effectivement meilleur que celui que nous avons construit manuellement. Nous pouvions nous y attendre dans la mesure où les méthodes automatiques de construction d'arbres de décision vont systématiquement regarder l'amélioration maximale de l'ajustement global du modèle à chaque division.

Toutefois, en construisant manuellement les arbres de décision et en les explorant, il est généralement possible d'avoir une meilleure vision des données, d'identifier d'autres prédicteurs importants (différents de ceux choisis automatiquement par le programme), et d'intégrer des contraintes pratiques relatives aux variables prédictives que vous pouvez mesurer (avec fiabilité, précision et avec vos contraintes budgétaires) pour mesurer de nouvelles observations. Par exemple, certains prédicteurs choisis automatiquement par le programme peuvent s'avérer difficilement mesurables sur le terrain, comme l'information relative aux Revenus d'un individu. Il peut s'avérer extrêmement difficile d'obtenir cette donnée, même si des analyses antérieures, réalisées sur des données historiques, ont montré qu'il s'agissait d'un prédicteur important. Dans ce cas, vous pouvez exclure manuellement les divisions sur la variable Revenus lors de la construction du modèle, dans la mesure où, d'un point de vue pratique, cette information n'est pas disponible pour prévoir de nouvelles observations.

Comparaison avec les résultats GC&RT - Arbre de Régression pour Prévoir la Pauvreté. Vous pouvez constater que les résultats de cet exemple sont notablement différents de ceux produits dans le cadre de la rubrique GC&RT - Arbre de Régression pour Prévoir la Pauvreté (comme illustré au début de cet exemple). Nous pouvions nous y attendre 1) d'une manière générale, compte tenu des différences de procédures de calcul (également décrites dans la section Des Différences dans les Procédures de Calcul de l'Introduction), et 2) dans la mesure où nous avons utilisé l'option de validation croisée v-ensembles (v--fold) pour toute la séquence de l'arbre dans l'Exemple afin d'obtenir un arbre de décision (valide) "robuste".

Rappelons que les techniques de construction d'arbres de décision sont des algorithmes heuristiques et s'ils permettent généralement de mettre en évidence des aspects intéressants et de trouver des modèles prédictifs utiles, il ne constituent pas nécessairement les seuls modèles pertinents pour des données particulières.

Didacticiels

Vous pouvez visionner l'intégralité de la série de tutoriels Le Data Mining en 35 Leçons avec STATISTICA en remplissant le formulaire d'inscription. Vous serez alors notifié(e) automatiquement de la disponibilité des nouveaux épisodes et recevrez d'autres informations utiles.

StatSoft propose par ailleurs une série de didacticiels et présentations interactives décrivant pas-à-pas différentes opérations que vous pouvez réaliser à l'aide de STATISTICA. Si vous souhaitez voir aborder un thème particulier, merci de nous écrire.