Partager :

Concepts Fondamentaux en Statistique


Data Mining :

Regroupement de Modalités pour du Data Mining Prédictif



Sommaire :


Introduction

L'objectif du module Regroupement de Modalités consiste à préparer les prédicteurs catégoriels comportant de nombreuses classes dans les projets de data mining prédictif. De nombreuses méthodes analytiques proposées dans STATISTICA Data Miner deviennent inefficaces lorsque les analyses portent sur des prédicteurs catégoriels constitués chacun de centaines voire de milliers de classes. Ce type de variables est malgré tout très courant dans de nombreux domaines où les techniques de data mining peuvent mettre en évidence des aspects intéressants.

Parmi les variables prédictives catégorielles constituées de nombreuses classes, citons par exemple les codes postaux, le code APE des entreprises, qui permet de répartir les entreprises en fonction de leur Activité Principale Exercée, selon la codification NAF (Nomenclature d'Activité Française) de l'INSEE, ou leur équivalent américain, les codes SIC (Standard Industrial Classification, ou encore les plus récents codes NAICS à 6 chiffres). Il existe plus de 700 codes NAF que les entreprises de biens et services enregistrent régulièrement dans leur data warehouses avec les coordonnées de leurs clients afin d'exploiter cette information dans diverses campagnes marketing. Le problème vient du fait que de nombreuses procédures analytiques comme les modèles linéaires (voir le module GLM), la régression logistique (voir le module GLZ), etc..., ne sont pas en mesure de traiter des variables prédictives catégorielles comportant autant de classes. Par exemple, la rubrique Modèle Linéaire Général - Introduction - Synthèse des Calculs montre que les matrices construites à partir de ce type de prédicteurs deviennent rapidement gigantesques, et sont par conséquent inexploitables pour construire des modèles linéaires (valides) pour de la prévision.

Regroupement de Modalités pour de la Prévision

La solution à ce problème consiste à regrouper les classes de ces prédicteurs (comportant plusieurs centaines voire plusieurs milliers de catégories) afin d'obtenir un ensemble restreint de groupes "agrégés", chacun étant constitué de nombreuses classes individuelles du prédicteur catégoriel original. Plus précisément, le module Regroupement de Modalités et les noeuds correspondants de STATISTICA Data Miner vont appliquer un algorithme de type CHAID afin d'identifier une combinaison de classes satisfaisante, au regard d'une variable particulière, catégorielle ou continue de sortie, qui nous intéresse. Le principe générale est assez simple : le programme va essayer différents regroupements de modalités et trouver la meilleure combinaison permettant de maximiser l'intensité de la relation entre la variable nouvellement créée (agrégée) et la variable de sortie.

En pratique, les calculs qui permettent de déterminer le "meilleur" regroupement de modalités possible dans une optique de prévision d'une variable particulière peuvent s'avérer très ardus. Dans STATISTICA, c'est un algorithme de type CHAID qui effectue cette tâche. Cet algorithme permet généralement d'identifier de très bons regroupements des modalités des variables prédictives catégorielles respectives ; sachez cependant que la codification finale (après regroupement des modalités) peut ne pas représenter la solution optimale (la meilleure recodification possible), mais simplement une recodification "acceptable" (un optimum local), suffisante pour permettre à l'utilisateur de réaliser ses analyses ultérieures.

Pour plus d'informations concernant l'algorithme CHAID, voir la rubrique Modèles CHAID (GCHAID) et Arbres Interactifs (C&RT, CHAID).

Présentation du Programme

Le module Regroupement de Modalités de STATISTICA Data Miner permet d'identifier et d'appliquer automatiquement un schéma efficace de regroupement de modalités pour prévoir une variable catégorielle ou continue à partir d'un ou plusieurs prédicteurs catégoriels comportant de nombreuses classes (par exemple, les codes SIC qui comportent plus de 10.000 modalités). Le programme utilise un algorithme performant de type CHAID afin de déterminer les meilleurs regroupements de modalités permettant d'obtenir une relation forte avec la variable de sortie respective. Vous pouvez ensuite utiliser les variables recodifiées (avec désormais moins de modalités) dans vos analyses ultérieures avec les outils de data mining prédictif disponibles dans STATISTICA Data Miner.

Utiliser les Codes-Produits pour Construire un Modèle Prédictif

Cet exemple s'appuie sur le fichier de données AnalyzingSICCodes.sta. Ce fichier de données contient une variable dépendante catégorielle dans laquelle nous avons enregistré la profitabilité d'une transaction avec nos clients dans différents domaines, recodifiée dans une variable Codes-Produits.

L'objectif de l'analyse consiste à recodifier les Codes-Produits en un nombre restreint de catégories (agrégées) afin de pouvoir les utiliser dans la construction d'un modèle.

Spécification de l'Analyse

Ouvrez le fichier de données à l'aide de la commande Ouvrir des Exemples du menu Fichier ; ce fichier se situe dans le dossier Fichiers de Données.

Sélectionnez ensuite la commande Regroupement de Modalités pour du Data Mining Prédictif dans le menu Data Mining afin d'accéder à la boîte de dialogue Regroupement de Modalités (Panneau de Démarrage).

Dans la mesure où la variable Bénéfice sur Contrat que nous allons utiliser est de nature catégorielle, sélectionnez le bouton d'option Variable dépendante catégorielle (Classification) dans le groupe Type d'analyse de l'onglet Base.

Cliquez sur le bouton Variables et sélectionnez la variable Bénéfice sur Contrat comme variable dépendante, la variable Codes-Produits comme variable prédictive catégorielle, et la variable Codes-Produits(Regroupé) (qui existe déjà dans le fichier de données) comme variable de sortie.

Puisque la variable Bénéfice sur Contrat est une variable catégorielle, sélectionnez le bouton d'option Variable dépendante catégorielle (Classification) dans le groupe Type d'analyse de l'onglet Base.

Nous pouvons à présent démarrer l'analyse et recodifier la variable de sortie ; cliquons pour ce faire sur le bouton Synthèse. Remarque : ces calculs peuvent prendre un certain temps, aussi, ne vous étonnez pas de voir apparaître un sablier au cours de vos analyses.

Étude des Résultats

deux feuilles de données sont produits, et la recodification finale est enregistrée dans la variable de sortie Codes-Produits(Regroupé). Remarque : si vous aviez sélectionné une variable portant un autre nom, c'est ce nom qui aurait été automatiquement créé.

Feuille de données des résultats. La feuille de données des résultats contient une information synthétique permettant de connaître les modalités (codes) de la variable d'entrée originale Codes-Produits qui ont été regroupées dans le prédicteur nouvellement recodifié.

Les paramétrages par défaut ne produisent apparemment par de résultats très probants dans la mesure où un seul groupe a été mis en évidence (identifié) par l'algorithme de division (CHAID). Afin de nous assurer de ne pas passer à côté de regroupements pertinents de Codes Produits pour nos futures analyses (prédictions), retournons à la boîte de dialogue Regroupement de Modalités (Panneau de Démarrage) - onglet Avancé et fixons l'option N min pour l'arrêt (% d'obs.) à 2. Ceci va permettre à l'algorithme d'explorer un éventail beaucoup plus important de divisions, qui vont vraisemblablement produire davantage de groupes (combinaisons de Codes-Produits) dans les résultats finaux [pour le détail des calculs, veuillez consulter les rubriques Modèles CHAID (GCHAID) et Arbres Interactifs (C&RT, CHAID)].

Cliquez à nouveau sur le bouton Synthèse, et examinons maintenant les résultats avec ces nouveaux paramétrages.

Cette fois, l'algorithme a identifié 6 groupes de Codes-Produits ayant une forte relation avec la variable de sortie qui nous intéresse (Bénéfice sur Contrat). Les conventions d'appellation des catégories nouvellement recodifiées, qui sont constituées d'ensembles de classes du prédicteur catégoriel original, sont décrites dans la rubrique Regroupement de Modalités (Panneau de Démarrage). En résumé, un libellé Groupek(l) représente une catégorie k nouvellement recodifiée, et la valeur l de classes ou catégories (modalités) du prédicteur catégoriel original qu'elle regroupe.

La seconde feuille de données contient une ligne pour chaque code (classe) original, ainsi que la nouvelle catégorie à laquelle il appartient (après recodification).

Ces deux feuilles de données de synthèse contiennent donc toute l'information nécessaire pour reconstituer la manière dont la recodification s'est opérée.

Variable de sortie. En outre, la variable de sortie sélectionnée pour l'analyse est automatiquement recodifiée en fonction des nouvelles classes agrégées. À nouveau, les conventions d'appellation utilisées pour cette variable sont décrites dans la rubrique Regroupement de Modalités (Panneau de Démarrage).

Vous pouvez également afficher l'Éditeur de Valeurs-Texte de la variable de sortie Codes-Produits(Regroupé) afin d'examiner la nature des résultats de la recodification appliquée (voir aussi les rubriques Utiliser l'Éditeur de Valeurs-Texte et Remarques sur les Valeurs-Texte et les Valeurs Textuelles).

Didacticiels

Vous pouvez visionner l'intégralité de la série de tutoriels Le Data Mining en 35 Leçons avec STATISTICA en remplissant le formulaire d'inscription. Vous serez alors notifié(e) automatiquement de la disponibilité des nouveaux épisodes et recevrez d'autres informations utiles.

StatSoft propose par ailleurs une série de didacticiels et présentations interactives décrivant pas-à-pas différentes opérations que vous pouvez réaliser à l'aide de STATISTICA. Si vous souhaitez voir aborder un thème particulier, merci de nous écrire.