Partager : |
Concepts Fondamentaux en Statistique
Data Mining :
Les Modèles CHAID : Des Arbres de Classification
bien adaptés pour la Segmentation en Marketing et CRM
Sommaire :
- Introduction
- Un Algorithme Simple pour Construire des Arbres de Décision : CHAID et CHAID Exhaustif
- Les Calculs et Solutions Spécifiques de STATISTICA GCHAID
- CHAID, C&RT et QUEST
- Valeurs Manquantes dans GC&RT, GCHAID, et dans les Arbres de Décision Interactifs
Introduction
L'acronyme CHAID signifie en fait "Chi-squared Automatic Interaction Detector". Il s'agit de l'une des méthodes d'arbres de classification les plus anciennes, initialement proposée par Kass (1980 ; d'après Ripley, 1996, l'algorithme CHAID est une version modifiée de l'algorithme THAID développé par Morgan et Messenger, 1973). Contrairement aux algorithmes du module Modèles d'Arbres de Classification et de Régression (GC&RT) de STATISTICA, la méthode CHAID va "construire" des arbres de décision non-binaires (c'est-à-dire des arbres de décision dans lesquels nous pouvons avoir plus de deux branches connectées à un même noeud (racine)), en utilisant un algorithme assez simple qui est particulièrement bien adapté à l'analyse des fichiers de données les plus volumineux. En outre, dans la mesure où l'algorithme CHAID va généralement produire de nombreuses tables de fréquences d'ordre multiple (par exemple, pour la classification d'une variable de réponse catégorielle avec de nombreuses catégories, sur la base de prédicteurs catégoriels avec de nombreuses modalités), il est devenu extrêmement populaire en marketing, pour des études de segmentation du marché.
CHAID est l'un des trois grands types d'algorithmes disponibles dans STATISTICA pour la construction d'arbres de décision ; les autres méthodes disponibles reposent sur les algorithmes C&RT (voir le module Modèles d'Arbres de Classification et de Régression ; voir aussi Breiman, et al., 1984) et QUEST (Quick, Unbiased, Efficient Statistical Trees ; voir le module Arbres de Classification ; voir aussi Loh et Shih, 1997).
En particulier, la plupart des questions évoquées dans la rubrique GC&RT - Introduction - Principes Fondamentaux s'appliquent également à GCHAID : ces deux techniques permettent de construire des arbres de décision, dans lesquels chaque noeud (non-terminal) identifie une condition de division, afin de produire une prévision (des variables dépendantes continues) ou une classification (des variables dépendantes catégorielles) optimale. Par conséquent, ces deux types d'algorithmes peuvent s'appliquer aussi bien à des problématiques de régression qu'à des problématiques de classification (voir le paragraphe Problèmes de Classification et de Régression dans la rubrique GC&RT - Introduction - Principes Fondamentaux ; QUEST ne peut en revanche s'appliquer qu'à des problématiques de classification).
Voir également les rubriques Un Algorithme Simple pour Construire des Arbres de Décision : CHAID et CHAID Exhaustif et Les Calculs et Solutions Spécifiques de STATISTICA GCHAID.
Remarque : il existe quatre grands types d'algorithmes dans STATISTICA pour construire des arbres de décision : CHAID (Kass, 1980 ; voir la rubrique Modèles CHAID - Introduction - Principes Fondamentaux), C&RT (Breiman, Friedman, Olshen et Stone, 1984 ; voir le module Modèles d'Arbres de Classification et de Régression), QUEST (Loh and Shih, 1997 ; voir le module Arbres de Classification), et Arbres de Décision Interactifs (C&RT, CHAID) ; voir aussi la rubrique CHAID, C&RT et QUEST pour plus d'informations. Pour une présentation plus approfondie des différences entre ces différents algorithmes, voir aussi les rubriques Arbres de Décision Interactifs (C&RT, CHAID) - Introduction - Principes Fondamentaux et Valeurs Manquantes dans GC&RT, GCHAID, et dans les Arbres de Décision Interactifs.
Remarque : Valeurs manquantes. Les valeurs manquantes des variables prédictives sont traitées différemment dans le module CHAID et dans le module Arbres de Décision Interactifs. Dans la mesure où le module Arbres de Décision Interactifs ne reconnaît pas les matrices du modèle de type ANCOVA, il est plus souple pour gérer les valeurs manquantes. Plus précisément, dans le module CHAID, les observations avec des valeurs manquantes dans au moins une des variables prédictives sont exclues du processus de construction de l'arbre de décision (même si vous demandez des remplaçants ; ces remplaçants ne sont utilisés que pour calculer les valeurs ou classifications prévues) ; dans le module Arbres de Décision Interactifs, les variables (et les valeurs manquantes pour ces variables) sont considérées une à une, et les observations possédant des valeurs manquantes sur les prédicteurs ne sont exclues du processus de construction de l'arbre de décision que si ces variables sont utilisées pour les divisions et qu'aucun remplaçant pertinent n'a été demandé ni sélectionné. Veuillez vous reporter également à la rubrique Valeurs Manquantes dans GC&RT, GCHAID et les Arbres de Décision Interactifs pour plus d'informations.
Un Algorithme Simple pour Construire des Arbres de Décision :
CHAID et CHAID Exhaustif
L'acronyme CHAID signifie en fait Chi-squared Automatic Interaction Detector. Ce nom provient de l'algorithme utilisé pour la construction d'arbres de décision (non-binaires), et qui, pour les problèmes de classification (lorsque la variable dépendante est de nature catégorielle) se sert d'un test du Chi² pour déterminer la meilleure division suivante à chaque étape ; pour les problèmes de régression (variable dépendante continue), le programme va en fait calculer des tests F. Plus précisément, l'algorithme procède de la manière suivante :
Préparation des prédicteurs. Tout d'abord, STATISTICA va créer des prédicteurs catégoriels à partir de chacun des prédicteurs continus, en répartissant la distribution des différents prédicteurs continus en un certain nombre de catégories d'effectifs sensiblement égaux. Pour les prédicteurs catégoriels, les catégories (classes) sont définies "naturellement".
Regroupement de catégories. STATISTICA va ensuite examiner les prédicteurs afin de déterminer pour chacun, le couple de catégories (du prédicteur) les plus semblables (c'est-à-dire significativement moins différentes) par rapport à la variable dépendante ; pour les problèmes de classification (où la variable est également catégorielle), le programme va calculer un test du Chi² (Chi-deux de Pearson) ; pour les problèmes de régression (où la variable dépendante est continue), le programme va calculer des tests F. Si le test respectif, pour un couple donné de catégories du prédicteur, ne peut être considéré comme significatif eu égard à une valeur alpha-de-fusion, le programme va alors regrouper les catégories correspondantes du prédicteur et répéter ce processus (c'est-à-dire, rechercher le couple suivant de catégories, qui à présent peuvent être des catégories précédemment fusionnées). Si le couple respectif de catégories du prédicteur est statistiquement significatif (inférieur à la valeur correspondante du alpha-de-fusion), le programme va alors calculer (éventuellement) une valeur-p ajustée de Bonferroni pour l'ensemble des catégories du prédicteur respectif.
Sélection d'une variable de division. STATISTICA va ensuite choisir pour la division, la variable prédictive qui possède la plus faible valeur-p ajustée, c'est-à-dire la variable prédictive qui permet de produire la division la plus significative ; si la plus petite valeur-p ajustée (Bonferroni) des prédicteurs est supérieure à une certaine valeur alpha-de-division, le processus de division prend fin, et le noeud respectif est un noeud terminal.
Ce processus se poursuit jusqu'à ce qu'il ne soit plus possible de réaliser d'autres divisions (compte tenu des valeurs alpha-de-fusion et alpha-de-division).
Remarque : Valeurs manquantes. Les valeurs manquantes présentes dans les variables prédictives ne sont pas gérées de la même manière dans les modules Modèles CHAID (GCHAID) et Modèles d'Arbres de Classification et de Régression (GC&RT) d'une part, et dans le module Arbres de Décision Interactifs d'autre part. Dans la mesure où le module Arbres de Décision Interactifs ne reconnaît pas les matrices du modèle de type ANCOVA, il est plus souple dans la gestion des valeurs manquantes. Voir la rubrique Valeurs Manquantes dans GC&RT, GCHAID, et dans les Arbres de Décision Interactifs pour plus d'informations.
Les Algorithmes CHAID et CHAID Exhaustif.
L'algorithme CHAID Exhaustif, est une modification de l'algorithme élémentaire CHAID, qui réalise des regroupements et des tests plus poussés des variables prédictives, et qui nécessite donc des ressources et des temps de calcul plus importants. Plus précisément, le regroupement des catégories se poursuit (sans qu'aucune valeur alpha-de-fusion n'intervienne) jusqu'à ce qu'il ne reste plus que deux catégories pour chaque prédicteur. Le programme opère alors comme indiqué ci-dessus dans le paragraphe Sélection d'une variable de division, et sélectionne parmi les prédicteurs, celui qui permet d'obtenir la division la plus significative. Pour des jeux de données importants, constitués de nombreuses variables prédictives, cette modification de l'algorithme plus basique, CHAID, peut nécessiter des temps de calculs très longs.
Remarque : il existe quatre grands types d'algorithmes dans STATISTICA pour construire des arbres de décision : CHAID (Kass, 1980 ; voir la rubrique Modèles CHAID - Introduction - Principes Fondamentaux), C&RT (Breiman, Friedman, Olshen et Stone, 1984 ; voir le module Modèles d'Arbres de Classification et de Régression), QUEST (Loh and Shih, 1997 ; voir le module Arbres de Classification), et Arbres de Décision Interactifs (C&RT, CHAID) ; voir aussi la rubrique CHAID, C&RT et QUEST pour plus d'informations. Pour une présentation plus approfondie des différences entre ces différents algorithmes, voir aussi les rubriques Arbres de Décision Interactifs (C&RT, CHAID) - Introduction - Principes Fondamentaux et Valeurs Manquantes dans GC&RT, GCHAID, et dans les Arbres de Décision Interactifs.
Les Calculs et Solutions Spécifiques de STATISTICA GCHAID
L'algorithme de calcul élémentaire permettant de construire des arbres de classification ou de prévision dans CHAID est présenté dans la rubrique Un Algorithme Simple pour Construire des Arbres de Décision : CHAID et CHAID Exhaustif. L'implémentation de cet algorithme dans STATISTICA est très complète, et offre de nombreuses options pour déterminer le regroupement des catégories, pour la validation croisée, etc... En outre, comme dans le cadre des Modèles d'Arbres de Classification et de Régression (GC&RT), ce module vous permet non seulement d'utiliser la méthode classique pour traiter les prédicteurs catégoriels et continus afin de construire l'arbre de décision, mais vous permet également de combiner les prédicteurs dans des modèles de prédicteurs de type ANCOVA, compatibles avec ceux des modules GLM, GRM, GLZ, GDA, PLS, GC&RT, etc... Voir aussi la section Les Calculs et Solutions Spécifiques de STATISTICA GC&RT dans la rubrique GC&RT - Introduction - Principes Fondamentaux - Deuxième Partie.
Examen d'Arbres Conséquents : Des Outils Spécifiques de Gestion de l'Analyse. Un problème qui survient lorsque nous appliquons des méthodes d'arbres de classification ou de régression, concerne la taille de l'arbre final qui peut devenir très importante. En pratique, lorsque les données d'entrée sont complexes, et qu'elles contiennent, par exemple, de nombreuses catégories différentes pour des problèmes de classification et de nombreux prédicteurs possibles pour réaliser cette classification, les arbres produits peuvent devenir gigantesques. Ce n'est pas tant un problème de calcul qu'un problème de présentation de l'arbre sous une forme aisément accessible à l'analyste, ou au "commanditaire" de l'étude.
STATISTICA offre trois manières différentes d'examiner des arbres complexes. Comme pour tous les graphiques dans STATISTICA, vous pouvez "naviguer" dans le graphique représentant la solution finale (arbre) à l'aide des outils traditionnels de zoom. Ainsi, par exemple, vous pouvez agrandir rapidement une zone de l'arbre qui vous intéresse plus particulièrement, et utiliser le bouton Déplacer le Zoom afin de vous déplacer sur le graphique (voir aussi le paragraphe Naviguer dans (zoomer sur) le graphique de l'arbre de synthèse).
Outils de balayage et sélection dans
les diagrammes de l'arbre. Vous pouvez également cliquer sur le
bouton Balayage de l'arbre dans
l'onglet Synthèse de la boîte de dialogue
des Résultats
et utiliser
la loupe pour sélectionner les noeuds individuels de l'arbre.
Lorsque vous déplacez la loupe sur un noeud de l'arbre, une bulle d'information
apparaît avec les statistiques de synthèse de ce noeud.
Cliquez sur un noeud pour le sélectionner (mettre en surbrillance), et choisissez l'une des options de la barre d'outils flottante ("Commandes d'Habillage") ou du menu contextuel du noeud correspondant.
Fenêtre déroulante de l'arbre. Vous pouvez également afficher le diagramme de l'arbre de synthèse dans une fenêtre déroulante.
D'une certaine manière, cette méthode vous permet de déplacer la fenêtre (redimensionnable) sur un graphique beaucoup plus grand de l'arbre.
Exploration de l'arbre. Toutefois, la manière la plus pratique (et la plus efficace du point de vue de l'interface-utilisateur) d'examiner l'information contenue dans les arbres consiste à utiliser l'explorateur d'arbres. Dans le module GCHAID (et dans le module GC&RT) de STATISTICA, vous pouvez visualiser l'arbre à l'aide d'un classeur efficace d'exploration de l'arbre.
Cet explorateur de l'arbre de décision est présenté en détail dans le cadre du module GC&RT, dans la section Examen d'Arbres Conséquents : Des Outils Spécifiques de Gestion de l'Analyse.
Analyser des Modèles de Type ANCOVA. Les algorithmes classiques CHAID vous permettent d'utiliser à la fois des variables prédictives catégorielles et continues (voir aussi la rubrique Un Algorithme Simple pour Construire des Arbres de Décision : CHAID et CHAID Exhaustif). Toutefois, dans la pratique, il n'est pas rare de combiner ce type de variables dans des modèles de prédicteurs de type analyse de variance/covariance (ANCOVA) avec des effets principaux ou des effets d'interaction pour des prédicteurs catégoriels et continus. Cette méthode pour analyser des modèles codifiés comme une ANCOVA est relativement nouvelle, et à ce jour, seulement proposée dans les modules GC&RT et GCHAID de STATISTICA. Toutefois, il est facile de voir dans quelle mesure ces modèles de prédicteurs codés permettent de généraliser ces puissantes techniques de classification et de régression à l'analyse de données issues de plans d'expériences (pour un exemple, veuillez vous reporter à la présentation détaillée des méthodes de plans d'expériences dans le cadre de l'amélioration de la qualité du module Plans d'Expériences des Statistiques Industrielles).
Remarque : l'interface-utilisateur et les méthodes permettant de spécifier les modèles dans GCHAID sont identiques à celles utilisées dans GLM, GRM, GLZ, PLS, GDA et GC&RT (vous trouverez une description complète de la syntaxe de l'analyse permettant de spécifier des modèles de type ANOVA/ANCOVA dans le cadre de GLM). D'où un gros avantage de cette méthode pour l'analyse de vos données : vous pouvez appliquer des modèles de prédicteurs identiques en utilisant des méthodes très différentes pour analyser des problèmes de type régression [c'est-à-dire, à l'aide du Modèle Linéaire Général (GLM), divers Modèles Linéaires/Non-Linéaires Généralisés (GLZ), des Modèles PLS (Partial Least Squares) ou des Modèles d'Arbres de Classification et de Régression (GC&RT))] ou pour analyser des problèmes de type classification [par exemple, à l'aide des Modèles d'Arbres de Classification et de Régression (GC&RT)), des Modèles d'Analyse Discriminante (GDA), ou des Modèles Linéaires/Non-Linéaires Généralisés (GLZ) applicables].
Remarque : STATISTICA propose quatre grands types d'algorithmes de construction d'arbres : CHAID (Kass (1980 ; voir la rubrique CHAID - Introduction), C&RT (Breiman, Friedman, Olshen et Stone, 1984 ; voir le module Modèles d'Arbres de Classification et de Régression ) et QUEST (Loh et Shih, 1997 ; voir le module Arbres de Décision (Classification)) ; voir aussi la rubrique CHAID, C&RT et QUEST pour plus d'informations.
CHAID, C&RT et QUEST
Pour des problématiques de classification (variable dépendante catégorielle), vous pouvez utiliser l'un de ces trois algorithmes (tous disponibles dans STATISTICA) pour construire votre arbre de décision dans une optique prédictive. QUEST est généralement plus rapide que les deux autres algorithmes, mais sur de grosses volumétries, la mémoire nécessaire peut être très importante, et peut donc interdire l'utilisation de cet algorithme QUEST pour résoudre des problèmes de classification sur des jeux de données importants.
Pour des problèmes de régression (variable dépendante continue), l'algorithme QUEST ne peut s'appliquer, et il est donc nécessaire de recourir aux algorithmes CHAID et C&RT. CHAID permet de construire des arbres de décision non-binaires qui tendent à être plus "étendus". C'est ce qui a donné ses lettres de noblesse à la méthode CHAID, particulièrement utilisée en marketing : CHAID produit souvent de nombreux noeuds terminaux connectés à une même branche, et qu'il est possible de synthétiser aisément dans un simple tableau à double entrée avec différentes catégories pour chacune des variables ou dimensions du tableau. Ce type de représentation correspond bien aux problématiques des analystes en marketing qui font de la segmentation ; par exemple, cet algorithme peut identifier une division sur une variable Revenu, avec 4 catégories (groupes) bien distinctes d'individus ayant des comportements d'achat différents (par exemple, le type de véhicule le plus susceptible d'être acheté). C&RT en revanche produit systématiquement des arbres de décision binaires, qui peuvent parfois s'avérer plus difficiles à interpréter et/ou présenter.
Du point de vue de l'efficacité de la prévision, il est difficile de privilégier telle ou telle méthode, et cette question est encore sujette à de nombreux débats à l'heure actuelle. D'un point de vue pragmatique, puisque STATISTICA est en mesure de calculer les résultats très rapidement, même sur de très grosses volumétries, il est conseillé d'appliquer différents algorithmes, et même de comparer entre eux les arbres de décision personnalisés de façon interactive avant de choisir le modèle le mieux adapté et le plus performant sur la base de l'erreur de prévision. Bien évidemment, STATISTICA Data Miner intègre diverses fonctionnalités permettant de combiner les prévisions issues de différents modèles - même des modèles de nature complètement différents (par exemple, des modèles d'arbres de classification, des modèles d'analyse discriminante et des Réseaux de Neurones) - et l'expérience a montré que ces types de prévisions sont souvent plus pertinentes que les prévisions issues d'un seul modèle. Pour une présentation des techniques permettant de combiner les prévisions issues de différents modèles, voir par exemple Witten et Frank, 2000.
Valeurs Manquantes dans GC&RT, GCHAID et dans les
Arbres de Décision Interactifs
Lorsque les variables prédictives d'une analyse CHAID et/ou C&RT contiennent de nombreuses valeurs manquantes, les résultats produits par les modules Modèles d'Arbres de Classification et de Régression (GC&RT) et Modèles CHAID (GCHAID) peuvent différer de ceux produits par le module Arbres de Décision Interactifs. Ces différences tiennent à la manière dont les valeurs manquantes sont gérées dans ces modules.
Valeurs manquantes dans GC&RT et dans GCHAID. GC&RT et GCHAID permettent de traiter des modèles prédictifs de type ANCOVA, c'est-à-dire une combinaison de variables prédictives continues et/ou catégorielles. Dans certains cas, ces fonctionnalités s'avèrent particulièrement utiles, notamment lorsqu'il s'agit de codifier (et éventuellement détecter) automatiquement des interactions entre les variables prédictives continues (et catégorielles), ou pour spécifier d'autres modèles personnalisés (de type ANCOVA) comme vous pouvez le faire dans GLM, GRM, etc... Toutefois, ces fonctionnalités nécessitent une approche différente dans la gestion des valeurs manquantes pour les variables prédictives.
Valeurs manquantes dans GCHAID. D'une manière générale, c'est toute l'observation qui est éliminée de l'analyse dans GCHAID si elle comporte des valeurs manquantes dans au moins une variable prédictive catégorielle ou continue. En d'autres termes, les observations sont exclues des analyses dès lors qu'elles possèdent au moins une valeurs manquante dans au moins une des variables prédictives. Si vous ne souhaitez pas inclure les (codes des) valeurs manquantes de façon explicite dans vos analyses, vous pouvez toujours leur affecter une valeur ou un code spécifique avant de réaliser l'analyse, par exemple, la moyenne pour les prédicteurs continus, ou un code distinct pour les prédicteurs catégoriel. En affectant une valeur numérique distincte aux valeurs manquantes, ces données peuvent alors être traitées comme des observations valides dans l'analyse, et ces valeurs manquantes peuvent apparaître importantes pour prévoir la variable de sortie étudiée.
Valeurs manquantes dans GC&RT. Sur le principe, les valeurs manquantes sont gérées de la même manière dans GC&RT que dans GCHAID, à la différence près que d'autres options permettent d'identifier des variables de division remplaçantes. Plus précisément, lorsqu'une observation possède des valeurs manquantes sur une variable prédictive particulière qui est choisie pour une division, il est possible de classer (prévoir) cette observation en choisissant un prédicteur continu "similaire" (remplaçant) avec des données valides (sélectionnez le bouton d'option Remplaçant dans la boîte de dialogue GC&RT - Résultats - onglet Observations). Remarque : les observations qui possèdent des valeurs manquantes sur un prédicteur ne participent pas au processus de construction de l'arbre proprement dit, contrairement au module Arbres de Décision Interactifs, qui permet de gérer les valeurs manquantes variable-par-variable, c'est-à-dire que les observations ne sont exclues du processus de construction de l'arbre de décision qu'à partir du moment où elles possèdent des valeurs manquantes (et aucun remplaçant) pour une variable choisie pour une division particulière.
Valeurs manquantes dans les Arbres de Décision Interactifs. Dans le module d'Arbres de Décision Interactifs, vous ne pouvez pas définir de modèle de type ANCOVA. En revanche, les variables peuvent être "considérées" par l'algorithme respectif de construction de l'arbre de décision une à une. Par exemple, si vous avez deux variables prédictives, X1 et X2, avec de nombreuses valeurs manquantes sur la variable X2. Au noeud racine (avant de réaliser la première division), toutes les observations valides dans chaque variable sont prises en compte pour déterminer la meilleure division (suivante). Si cette division est réalisée sur la base des valeurs de X1, toutes les observations vont alors être conservées pour l'analyse ; si la division est réalisée sur X2 (et que vous n'avez demandé aucun remplaçant ou qu'il n'est pas possible d'en spécifier pour l'analyse respective), seules les observations avec des données valides pour X2 seront conservées dans l'analyse pour les divisions ultérieures. Cette approche est différente de celle utilisée dans les modules GCHAID et GC&RT pour la gestion des valeurs manquantes (voir ci-dessus), où ces observations sont exclues au niveau du noeud racine (bien qu'il soit possible de reporter des prévisions pour ces observations, s'il est possible de spécifier des remplaçants pour l'analyse respective, et que vous en avez demandé).
Autres Manières de Gérer les Valeurs Manquantes. La conclusion de tout ceci, c'est que vous pourrez parfois constater des résultats très différents entre les modules GCHAID et GC&RT d'une part, et les résultats des Arbres de Décision Interactifs d'autre part, pour des analyses équivalentes, lorsque les données d'entrée comportent de nombreuses valeurs manquantes sur les variables prédictives. Si vous constatez ces divergences importantes, c'est l'indication évidente que la structure des valeurs manquantes sur les variables prédictives constitue elle-même un prédicteur important de la variable dépendante (de sortie) étudiée, et qu'elle mérite une étude approfondie. Ainsi, par exemple, pour des variables catégorielles, vous pouvez aisément spécifier un code distinct (et valide) pour représenter les valeurs manquantes. Vous pourrez alors intégrer ces valeurs dans toutes les analyses, c'est-à-dire qu'elles pourront apparaître comme des valeurs (diagnostiques) importantes pour les divisions de certains noeuds et donc, pour construire l'arbre de décision (par exemple, "Si Revenu=Élevé ou Manquant, alors..."). Dans tous les cas, si un jeu de données comporte de nombreuses valeurs manquantes sur les variables prédictives, la distribution des valeurs manquantes peut devenir elle-même une variable prédictive importante, et vous pouvez appliquer un certain nombre d'opérations de nettoyage et de transformation des données initiales afin de convertir ce "manque d'observation" (valeurs manquantes) en information exploitable.
Arbre de Classification CHAID
Cet exemple illustre l'analyse de données immobilières à Boston (Harrison & Rubinfeld, 1978), reportées par Lim, Loh et Shih (1997). Ce fichier de données est également utilisé dans le cadre de l'Exemple 2 : Divisions Univariées Basées sur une Méthode Discriminante pour des Prédicteurs Catégoriels et Ordonnés du module Arbres de Décision [Classification]. Les prix médians des transactions immobilières s'établissent à des niveaux classés comme Faible, Moyen et Élevé sur la variable dépendante Prix. Nous disposons d'un prédicteur catégoriel, Cat1, et 12 prédicteurs ordonnés, Ord1 à Ord12. L'échantillon de test est en fait une simple, réplication de l'échantillon d'apprentissage. La variable avec les identifiants d'échantillons est la variable Échant et elle contient les codes 1 pour l'échantillon d'Apprentissage et 2 pour l'échantillon de Test. Le fichier de données complet contient 1.012 observations dans le fichier d'exemple Boston2.sta. Ouvrez ce fichier de données à l'aide de la commande Ouvrir des Exemples du menu Fichier ; ce fichier se situe dans le répertoire Fichier de Données de votre installation STATISTICA. Ci-dessous, un extrait du fichier de données :
Spécifier l'Analyse. Démarrez l'analyse en sélectionnant la commande Modèles CHAID dans le menu Data Mining afin d'accéder à la boîte de dialogue Modèles CHAID - Panneau de Démarrage. Sélectionnez l'option CHAID Standard comme Type d'analyse dans l'onglet Base puis cliquez sur le bouton OK afin d'accéder à la boîte de dialogue Modèles CHAID - Spécifications Rapides (CHAID Standard). Dans l'onglet Base, cliquez sur le bouton Variables ; dans la boîte de dialogue de spécification des variables, sélectionnez la variable Prix comme variable Dépendante, la variable Cat1 comme Prédicteur catégoriel, et les variables Ord1 à Ord12 comme Prédicteurs continus ; cliquez sur le bouton OK. Cochez ensuite l'option Réponse catégorielle (var. dépendante catégorielle). Cliquez sur le bouton Codes réponse et cliquez sur le bouton Tous dans la boîte de dialogue Sélectionnez les codes de la réponse catégorielle afin de sélectionner l'ensemble des codes. Répétez cette opération pour sélectionner tous les codes des facteurs en cliquant sur le bouton Codes facteurs et en cliquant sur le bouton Tous dans la boîte de dialogue Codes des variables indépendantes (Facteurs).
Cliquez sur l'onglet Validation et cochez l'option Validation croisée v-ensembles (v-fold). Cliquez également sur le bouton Échantillon de Test afin d'accéder à la boîte de dialogue Validation Croisée. Cliquez sur le bouton Variable avec ID d'Échantillons et sélectionnez la variable Échant. Le Code de l'échantillon d'analyse est (par défaut) Apprentissage ; il ne vous reste donc qu'à sélectionner le bouton d'option Actif dans le cadre Statut.
Cliquez sur le bouton OK dans la boîte de dialogue Validation Croisée afin de retourner à la boîte de dialogue Modèles CHAID - Spécifications Rapides.
Nous pouvons conserver tous les autres paramètres par défaut et cliquer sur le bouton OK afin de démarrer l'analyse et accéder à la boîte de dialogue Modèles CHAID - Résultats.
Étude des Résultats. Cliquons tout d'abord sur le bouton Diagramme de l'arbre dans l'onglet Synthèse afin d'examiner le graphique de synthèse. Remarque : vous pouvez utiliser les outils standard de zoom sur certaines sections particulières de l'arbre de décision.
Comme indiqué dans la rubrique Les Calculs et Solutions Spécifiques de STATISTICA GCHAID (voir aussi la section Les Calculs et Solutions Spécifiques de STATISTICA C&RT dans la rubrique Introduction - Principes Fondamentaux - Deuxième Partie), la manière la plus simple (et bien souvent la plus efficace du point de vue de l'interface-utilisateur) d'examiner l'information contenue dans un arbre de décision consiste à utiliser l'explorateur de l'arbre. Cliquez sur le bouton Exploration de l'arbre afin d'accéder à l'arbre de décision final dans un Explorateur d'Arbres de type Classeur.
Comme indiqué dans la rubrique Arborescence du Classeur, il est très facile d'étudier des arbres de décision gigantesques en cliquant sur les différents noeuds dans le volet de gauche, et en observant les modifications au niveau de la distribution des observations affectées au noeud correspondant dans le volet de droite. En fait, vous pouvez créer des sortes d'animations de cette manière.
Examen des noeuds individuels. Il est souvent intéressant d'examiner plus en détail les résultats des noeuds les plus purs, c'est-à-dire qui ne contiennent pratiquement que des observations appartenant à une même classe. Dans notre exemple, le noeud numéro 10 est un noeud de ce type. Cliquez sur l'onglet Noeud et sélectionnez la valeur 10 dans la liste Identifiant du noeud. Cliquez ensuite sur le bouton Histogramme de la variable dépendante du noeud, et sur le bouton Tracé des coordonnées parallèles du noeud.
Comme vous pouvez le constater, les tarifs Faibles de l'immobilier pour des observations de ce noeud sont associés à une structure des valeurs des prédicteurs illustrée dans le graphique de droite. Ce type de tracé de la structure des valeurs pour chaque observation sur l'ensemble des variables prédictives donne une bonne image de la structure globale des observations classées dans un noeud particulier (ou censées appartenir à ce noeud sur la base d'une prévision).
Naturellement, dans une optique prédictive, la séquence des conditions de division (si... alors...) menant au noeud qui nous intéresse - tel qu'il apparaît dans le diagramme de l'arbre ou dans l'Explorateur de l'Arbre (Classeur) - est particulièrement intéressant et informatif.
Didacticiels
Vous pouvez visionner l'intégralité de la série de tutoriels Le Data Mining en 35 Leçons avec STATISTICA en remplissant le formulaire d'inscription. Vous serez alors notifié(e) automatiquement de la disponibilité des nouveaux épisodes et recevrez d'autres informations utiles.
StatSoft propose par ailleurs une série de didacticiels et présentations interactives décrivant pas-à-pas différentes opérations que vous pouvez réaliser à l'aide de STATISTICA. Si vous souhaitez voir aborder un thème particulier, merci de nous écrire.

Autres Méthodes
STATISTICA Data Miner offre la gamme la plus riche du marché en termes de solutions de data mining, avec une interface-utilisateur extrêmement simple à utiliser, basée sur des icônes pour :


- Drill-Down Interactif
- Sélection et Filtrage des Prédicteurs
- Modèles d'Arbres de Classification et de Régression (C&RT)
- Modèles CHAID : Des Arbres de Classification bien adaptés pour la Segmentation en Marketing et CRM
- Arbres de Décision Interactifs (CandRT, CHAID)
- Boosting d'Arbres de Classification et de Régression (Stochastic Gradient Boosting Trees)
- Forêts Aléatoires (ou Forêts Décisionnelles)
- Classification Généralisée EM et k-Moyennes : des techniques performantes de segmentation
- MARSplines (Multivariate Adaptive Regression Splines)
- Machine Learning : SVM (Séparateurs à Vaste Marge), Réseaux Bayésiens et K-Plus Proches Voisins
- Modèles Additifs Généralisés (GAM)
- Règles d'Association ou la Problématique du Panier de la Ménagère
- Regroupement de Modalités pour du Data Mining Prédictif
- Qualité d'Ajustement (Classification, Prévision)
- Déploiement Rapide de Modèles Prédictifs (PMML/XML)