Partager :

Concepts Fondamentaux en Statistique


Data Mining :

Drill-Down Interactif



Sommaire :


Introduction

Introduction

L'une des étapes préliminaires dans de nombreux projets de data mining consiste à explorer les données de façon interactive, afin d'avoir une première "impression" des types de variables des analyses, et de leurs possibles relations.  STATISTICA et STATISTICA Data Miner offrent une gamme étendue de méthodes d'analyse exploratoire des données, ainsi que d'analyse graphique des données (data mining graphique ou visuel). L'objectif du Drill-Down Interactif est de fournir une combinaison d'outils graphiques, d'analyse exploratoire et de croisements qui vont vous permettre d'étudier rapidement la distribution des variables des analyses, leurs relations avec d'autres variables, et d'identifier les observations appartenant à des sous-groupes spécifiques dans les données.

Un exemple rapide. Pour une meilleure illustration technique du fonctionnement de ce puissant outil, veuillez vous reporter à la section suivante. Dans une optique introductive, considérons le petit exemple suivant. Imaginons que vous disposez de données relatives au Sexe, à l'Âge, à la Région, au Produit Commandé (A, B ou C), au Revenu, et au dernier Diplôme obtenu pour l'ensemble de vos clients. L'outil de Drill-Down Interactif vous permet de sélectionner les variables qui vous intéressent (par exemple, toutes celles qui sont mentionnées ci-dessus) et d'aller explorer interactivement ce qui se passe "à l'intérieur" de chacune d'elles, par exemple, en cliquant simplement sur des modalités particulières dans les histogrammes respectifs, afin d'être en mesure de répondre à des questions élémentaires du type :

"Les hommes sont-ils plus diplômés que les femmes dans cet échantillon ?"

ou à des questions plus complexes :

"Peut-on dire que seules les femmes les plus diplômées, qui se situent dans les tranches inférieures de revenu, achètent souvent le produit A, rarement le produit B, et jamais le produit C, mais que ce comportement ne se vérifie que pour les résidents de la région Île-de-France ?"

Comment Fonctionne le Drill-Down Interactif

La métaphore du forage ("drill-down") dans le contexte du data mining résume bien les opérations élémentaires de ce processus analytique : le programme vous permet de sélectionner des observations issues de jeux de données gigantesques en sélectionnant des sous-groupes sur la base de modalités spécifiques ou d'intervalles de valeurs de certaines variables intéressantes ; d'une certaine manière, vous pouvez mettre en évidence les "couches les plus profondes" ou les "strates" de vos données en étudiant des sous-ensembles d'observations de plus en plus petits, déterminés par des filtres logiques de plus en plus complexes (sur le même principe que les filtres de sélection disponibles dans STATISTICA).

Prenons un exemple simple (basé sur le fichier d'exemple de STATISTICA, Sports.sta).  Imaginons que vous devez analyser les résultats d'une enquête réalisée auprès de gérants de bars (de type PMU) par rapport à leur préférence déclarée pour un certain nombre de sports (voir également les rubriques Exemple 3 : Tables de Fréquences, Exemple 4 : Tris Croisés et Exemple 5 : Tableaux Croisés, relatifs aux Tableaux Croisés dans le module Statistiques Élémentaires). Les personnes interrogées ont exprimé leurs préférences par rapport aux différents types de sports en indiquant dans quelles mesure ils s'intéressaient généralement aux sports télévisés respectifs ; les valeurs correspondantes (étiquettes) Toujours, Souvent, Parfois et Jamais ont été enregistrées dans le fichier de données. Un histogramme élémentaire de l'intérêt déclaré pour la Formule1 a cet aspect :

L'histogramme (graphique en barres) indique que 39 individus se sont déclarés Toujours intéressés par Formule1. La table de fréquence et l'histogramme d'un autre sport populaire - le Football - sont également reportés ci-dessous.

Supposons à présent que vous souhaitiez sélectionner les 39 individus ayant déclaré un intérêt prononcé pour le Formule1 (représentés par la barre intitulée Toujours), afin de poursuivre l'exploration de ces individus. L'outil de Drill-Down vous permet de mettre en surbrillance cette barre, d'effectuer l'opération de drill down, et de visualiser divers résultats graphiques et numériques pour d'autres variables également contenues dans le jeu de données, mais uniquement pour les observations sélectionnées. Par exemple, après avoir réalisé l'opération de drill-down sur la catégorie Toujours, les résultats devraient être les suivants :

La table de fréquences de Football se met à jour automatiquement afin de refléter les effectifs de la catégorie sélectionnée Football-Toujours. Vous pouvez poursuivre l'opération de drill-down en ne sélectionnant maintenant que les personnes s'étant déclarés Toujours intéressées par la Formule1, et ainsi que suite.

Variables catégorielles et continues. Les variables sélectionnées pour l'opération de drill-down peuvent être catégorielles ou continues. Pour les variables catégorielles, les catégories parmi lesquelles vous pouvez choisir pour l'opération suivante de drill-down sont (généralement) directement disponibles dans les données (par exemple, une variable Sexe avec les deux modalités Homme et Femme) ; pour les variables continues, il existe un certain nombre de méthodes différentes pour ventiler les valeurs en catégories : vous pouvez demander un certain nombre de catégories dans lesquelles vous allez répartir l'étendue des valeurs de la variable continue de drill-down, vous pouvez spécifier l'incrément des catégories consécutives, ou vous pouvez spécifier des bornes spécifiques pour les variables continues du drill-down. Par exemple, pour une variable continue Revenu, vous pouvez définir des tranches (de revenu) adaptées à votre projet, puis réaliser une opération de drill-down sur ces tranches afin d'étudier la distribution des variables à l'intérieur de chaque tranche.

Mise en évidence des observations individuelles. À tout moment, vous avez la possibilité "d'extraire" les observations (personnes interrogées) appartenant au sous-ensemble actuel. Par exemple, si votre jeu de données contient les coordonnées des personnes interrogées, vous pouvez extraire les individus fortement intéressés par la Formule1 et le Football (Formule1=Toujours et Football=Toujours), afin de faire la promotion d'un événement spécial par un mailing.

Drilling "up". La nature interactive du Drill Down vous permet non seulement de forer les données ou les bases de données par drill-down (en sélectionnant des groupes d'observations avec des filtres de sélection de plus en plus spécifiques et complexes), mais également d'effectuer l'opération inverse ("drill-up") : vous pouvez, à tout moment, sélectionner des groupes de variables (catégories) précédemment sélectionnées et les désélectionner dans la liste des conditions du drill-down ; lors du traitement des données, le programme ne va retenir que les observations répondant à ces nouveaux filtres de sélection logiques, et actualiser les résultats en conséquence.

Applications du Drill-Down Interactif

L'exemple illustré précédemment dans la section Comment Fonctionne le Drill-Down Interactif est très simple, et ne présente que les fonctionnalités élémentaires du programme. La véritable puissance de STATISTICA Drill-Down Interactif réside dans les différents résultats auxiliaires qui peuvent être mis à jour automatiquement lors de l'exploration interactive par drill-down/up. Vous pouvez sélectionner une liste de variables à étudier, et calculer pour les observations sélectionnées :

  • des statistiques descriptives et des tables de fréquences ;

  • des boîtes à moustaches synthétisant la distribution de variables continues ;

  • des nuages de points matriciels synthétisant la relation entre les variables continues ;

  • toutes les autres analyses statistiques et graphiques disponibles dans STATISTICA en extrayant les observations appartenant au sous-ensemble actuel ;

Par exemple, vous pouvez analyser les types d'achats effectués par des clients selon différents critères démographiques, étudier l'efficacité de certains médicaments dans différents groupes de traitement, selon différentes tranches d'âges, etc..., ou extraire les clients potentiels pour un nouveau produit, à partir d'une base de données de clients existants, sur la base d'une étude minutieuse de segments apparents (marchés) identifiés par drill-down.

Drill-Down interactif et OLAP (On-Line Analytic Processing - Traitement Analytique En Ligne)

A priori, le Drill-Down Interactif (exploration de tableaux multidimensionnels) s'apparente fortement aux fonctionnalités offerte par les outils spécifiques OLAP. Les outils OLAP permettent aux utilisateurs de requêter rapidement une base de données pour extraire les observations et l'information synthétique concernant ces observations, en tirant parti des fonctionnalités optimisées du Serveur OLAP, offertes par certaines plates-formes spécifiques de bases de données (par exemple Oracle, ou MS SQL Server), et permettant généralement d'améliorer significativement les performances par rapport aux outils traditionnels de requête (non-OLAP). Cependant, les principaux avantages de STATISTICA Drill-Down Interactif par rapport à OLAP sont les suivants :

(a)  son étroite intégration avec les outils de catégorisation et l'environnement exploratoire de STATISTICA (les fonctionnalités analytiques fournies par STATISTICA Drill-Down Interactif sont beaucoup plus complètes et généralistes que les outils-type OLAP, et permettent de réaliser des opérations flexibles de "drill up", ou d'étudier rapidement des graphiques de synthèse complexes, des statistiques descriptives détaillées, etc...), et

(b)  le fait que STATISTICA Drill-Down Interactif ne se limite pas à une plate-forme de bases de données particulière et ne nécessite pas la présence d'un Serveur OLAP spécifique (par exemple, il peut travailler directement sur les fichiers de donnés STATISTICA). En outre, en connectant l'application STATISTICA à une base de données (distante) pour un traitement direct sur le serveur de données [voir la rubrique Technologie de l'Interface Directe avec les Bases de Données (IDBD) (Présentation Technique)], vous pouvez réaliser efficacement des opérations de drill-down sur toute source de données, que les outils OLAP spécifiques soient présents ou non sur le serveur.

Mise à Jour Automatique des Graphiques et Statistiques

de Synthèse après Chaque Opération de Drill-Down

Vous pouvez demander que l'outil de Drill-Down Interactif mette à jour automatiquement les résultats après chaque opération de drill-down. Dans le Panneau de Démarrage, cochez l'option Mise à jour auto. des résultats, ou dans l'onglet Options, cochez l'option Créer des feuilles de données et des graphiques dans des fenêtres individuelles...., qui produisent le même effet (ces deux cases à cocher sont "liées" et le fait de cocher l'une d'elles va automatiquement activer l'autre). À partir de ce moment là, toutes les feuilles de résultats (sauf la feuille de données d'entrée produite par l'option Enregistrer les données brutes (vars sélectionnées) dans l'onglet Base) et les graphiques seront automatiquement produits dans des fenêtres individuelles (et non pas envoyées, par exemple, dans des classeurs), et se mettront à jour automatiquement après chaque opération de drill-down ou de drill-up.

Exemple. Ouvrez le fichier d'exemple Employees.sta ; ce fichier contient le nom de salariés (fictifs) de la société "Au Bon Bretzel". Faites apparaître la boîte de dialogue Drill-Down Interactif (Panneau de Démarrage), cliquez sur le bouton Vars d'exploration, et sélectionnez les variables Sexe, Département et Educ comme variables catégorielles du drill-down. Puis dans l'onglet Étudier, cliquez sur le bouton Variables à étudier, et sélectionnez les variables Ancienneté et Salaire.

Cochez ensuite l'option Mise à jour auto. des résultats dans le Panneau de Démarrage, ou cliquez sur l'onglet Options et cochez l'option Créer des feuilles de données et des graphiques dans des fenêtres individuelles.... (qui produisent le même effet, c'est-à-dire que ces deux cases à cocher sont "liées" et le fait de cocher l'une va automatiquement activer l'autre). Retournez dans l'onglet Étudier et cliquez sur les boutons Nuage matriciel et Histogrammes (remarque : si vous produisez de nombreux histogrammes, vous pouvez supprimer ceux qui ne vous intéressent pas ; seuls ceux qui demeurent à l'écran seront mis à jour automatiquement).

Réalisons à présent nos opérations de drill-down (-up) comme d'habitude. Dès que l'état du drill-down change (c'est-à-dire après chaque opération de drill-down et de drill-up), les histogrammes et le nuage de points matriciel affichés à l'écran vont se mettre à jour pour ne tenir compte que des observations sélectionnées par le statut actuel du drill-down.

Par exemple, nous avons ci-dessous les synthèses graphiques du département "emballage" et pour les hommes uniquement.

En explorant interactivement les synthèses graphiques produites par les opérations de drill down/drill up dans des fenêtres individuelles qui se mettent à jour automatiquement, il est très facile de mettre en évidence des écarts structurels entre les différents groupes (combinaisons de catégories) des variables à étudier sélectionnées.

Didacticiels

Vous pouvez visionner l'intégralité de la série de tutoriels Le Data Mining en 35 Leçons avec STATISTICA en remplissant le formulaire d'inscription. Vous serez alors notifié(e) automatiquement de la disponibilité des nouveaux épisodes et recevrez d'autres informations utiles.

StatSoft propose par ailleurs une série de didacticiels et présentations interactives décrivant pas-à-pas différentes opérations que vous pouvez réaliser à l'aide de STATISTICA. Si vous souhaitez voir aborder un thème particulier, merci de nous écrire.