Partager :

Concepts Fondamentaux en Statistique


Data Mining :

Sélection et Filtrage des Prédicteurs



Sommaire :


Introduction

L'une des tâches principales en data mining prédictif consiste à sélectionner des prédicteurs parmi une liste de nombreux candidats. Par exemple, lorsque nous collectons des données par des méthodes (informatiques) automatisées, il n'est pas rare que les mesures soient collectées pour des milliers, voire des centaines de milliers de prédicteurs (ou davantage). Malheureusement, les méthodes analytiques standard du data mining prédictif, comme les réseaux de neurones, les arbres de classification et de régression, les modèles linéaires généralisés ou les modèles linéaires généraux deviennent inutilisables lorsque le nombre de prédicteurs dépasse quelques centaines de variables (bien que la plupart des méthodes analytiques dans STATISTICA soient en mesure de traiter plus d'un millier de prédicteurs).

Les méthodes mises en oeuvre dans le module de Sélection et Filtrage des Prédicteurs ont été spécifiquement développées pour traiter des jeux de données très importants, avec de nombreux prédicteurs catégoriels et/ou continus, pour des problèmes de type régression ou classification. Vous pouvez sélectionner un sous-ensemble de prédicteurs parmi une liste importante de candidats sans avoir à faire d'hypothèses quant aux relations sous-jacentes entre les prédicteurs et les variables dépendantes ou de sortie (c'est-à-dire que nous n'avons pas besoin de savoir si ces relations sont linéaires ni même monotones). Par conséquent, ce module peut effectuer un traitement préalable idéal pour du data mining prédictif, et sélectionner des ensembles "raisonnablement petits" de prédicteurs qui sont vraisemblablement liés aux variables dépendantes (de sortie), pour réaliser d'autres analyses, avec les méthodes disponibles dans STATISTICA et STATISTICA Data Miner pour des problèmes de régression et de classification.

Limites des Méthodes pour la Prévision et la Classification

La plupart des techniques de prévision de variables continues ou de classification prédictive de variables catégorielles à partir de k prédicteurs et N observations nécessitent (a) de stocker des matrices de taille au moins égale à k*(k+1)/2, c'est-à-dire les éléments inférieurs (sous la diagonale) de la matrice, (b) ou de traiter le fichier de données de façon itérative (de façon répétée) afin d'optimiser une certaine fonction des données ; cette opération nécessite donc généralement le stockage du jeu de données complet de taille k*N pour un accès rapide.  

Par exemple, pour réaliser les calculs nécessaires dans le cadre d'une régression linéaire simple ou d'une analyse discriminante linéaire, le programme doit tout d'abord calculer la matrice de toutes les variables prédictives. La mémoire nécessaire pour stocker la matrice de corrélations (dans sa forme compacte avec juste les éléments inférieurs de la matrice, c'est-à-dire avec une taille de k*(k*1)/2), dépassent rapidement les capacités de la plupart des plates-formes matérielles. Ensuite, pour ajuster des modèles linéaires, le programme doit inverser la matrice de corrélations (covariance), ce qui, d'un point de vue numérique constitue une tâche ardue lorsque la matrice d'entrée est très grande (par exemple, k=2000 ; contient (2000*20001/2)=2.001.000 éléments), en raison des erreurs d'arrondis qui vont se cumuler pour finalement "fausser" les calculs à un point où les résultats finaux peuvent devenir numériquement très instables.

Le "Problème" du Nombre de Dimensions

Le "problème du nombre de dimensions" (Bellman, 1961, Bishop, 1995) fait généralement référence aux difficultés que nous rencontrons pour ajuster des modèles, estimer des paramètres, ou optimiser une fonction lorsque nous avons de nombreuses dimensions, généralement dans le cadre des réseaux de neurones. À mesure que le nombre de dimensions de l'espace des données d'entrée (c'est-à-dire le nombre de prédicteurs) augmente, il devient de plus en plus difficile (avec une difficulté exponentielle) de trouver des optima globaux pour l'espace des paramètres, c'est-à-dire d'ajuster des modèles. En pratique, la complexité des réseaux de neurones devient ingérable lorsque le nombre d'entrées du réseau de neurones dépasse une centaine d'entrées, voire moins selon la complexité de l'architecture du réseau de neurones respectif. Par conséquent, il est nécessaire d'un point de vue pratique de filtrer et sélectionner, lorsque nous avons affaire à un grand nombre de variables (prédictives) en entrée, celles qui sont vraisemblablement utiles pour prévoir les sorties (variables dépendantes) qui nous intéressent.

Calculer des Statistiques Linéaires

L'une des solutions envisageables pour répondre au problème de sélection des prédicteurs parmi un très grand nombre de prédicteurs potentiels consiste à calculer des corrélations élémentaires entre chaque prédicteur et la variable dépendante qui nous intéresse. Pour des problèmes de type régression (avec une variable dépendante continue), le programme pourrait simplement calculer les coefficients de corrélation standard puis sélectionner parmi les prédicteurs, ceux qui ont la plus forte corrélation avec la variable dépendante. Le problème avec cette approche, c'est que le coefficient de corrélation standard mesure précisément les relations linéaires ; toutefois, la plupart des relations dans les applications concrètes sont non-linéaires, et la plupart (pour ne pas dire tous) les algorithmes spécifiques pour du data mining prédictif, ne reposent en fait pas sur des relations linéaires ni même monotones entre les prédicteurs et la variable dépendante étudiés (par exemple, STATISTICA Réseaux de Neurones, Modèles Généraux d'Arbres de Classification et de Régression (GC&RT), Modèles CHAID Généraux, Modèles Linéaires/Non-Linéaires Généralisés, Modèles Additifs Généralisés (GAM), etc...). Par conséquent, l'utilisation de cette stratégie biaiserait les résultats des analyses ultérieures, tout simplement parce que le processus de sélection et filtrage lui-même favoriserait certains modèles et résultats particuliers (modèles linéaires, et modèles avec des relations monotones) et donc, "prédestinerait" certains résultats.

Filtrage des Variables dans le Module STATISTICA Sélection et Filtrage des Prédicteurs

La solution retenue pour sélectionner les prédicteurs dans ce module ne fait aucune hypothèse quant au type ni à la forme particulière des relations entre les prédicteurs et les (classes de) variables dépendantes qui nous intéressent. En revanche, le programme va appliquer une "notion de relations" généralisée lors du filtrage des prédicteurs, un à la fois, pour des problèmes de régression ou de classification. Par conséquent, il est possible de soumettre la liste des prédicteurs sélectionnés de cette manière à des algorithmes de régression ou de classification linéaire ou non-linéaire, vous permettant d'utiliser une procédure de construction de modèle en deux étapes pour des problèmes constitués de centaines de milliers voire plus d'un million de prédicteurs potentiels. La méthode utilisée dans STATISTICA Sélection et Filtrage des Prédicteurs (FSL) est optimisée pour des jeux de données gigantesques et pour une interface directe avec des bases de données colossales, en ne nécessitant généralement que deux balayages des données. L'algorithme est décrit plus en détail dans la rubrique Détail des Calculs.

Tirer Parti de la Chance

Un dernier commentaire : vous devez savoir que les procédures mises en oeuvre dans ce module ne doivent pas être utilisées avec, ou plutôt "combinées avec" des méthodes statistiques traditionnelles de tests d'hypothèses. Plus précisément, il serait tout simplement faux de sélectionner par exemple 10 prédicteurs parmi 10.000 prédicteurs possible à l'aide de ces méthodes, puis d'ajuster des modèles, et appliquer enfin des tests de significativité statistique sur les résultats que nous interpréterions comme s'ils avaient été prévus a-priori. Bien évidemment, les niveaux de significativité statistique dans ce cas ne pourraient s'interpréter comme les taux d'erreur alpha habituels pour tester des hypothèses a-priori (par exemple, la probablité d'obtenir des relations de cette intensité ou plus importante encore entre ces prédicteurs et la variable dépendante, alors qu'en fait, aucune relation n'existe dans la population). Néanmoins, comme nous l'avons déjà indiqué précédemment dans cette rubrique, il est simplement une nécessité pratique pour de nombreuses tâches de data mining de filtrer et extraire les prédicteurs les plus probables parmi une liste importante de prédicteurs potentiels. Ainsi, les prédicteurs choisis et les résultats obtenus par le module STATISTICA Sélection et Filtrage des Prédicteurs doivent être interprétés dans la plupart des cas comme des solutions heuristiques permettant d'identifier des groupes de variables méritant davantage d'attention (et de validation) pour du data mining prédictif et la construction de modèles.

Détail des Calculs

L'algorithme de sélection et filtrage des prédicteurs peut s'appliquer à la fois à des problèmes de régression (avec une variable dépendante continue) et à des problèmes de classification (avec une variable dépendante catégorielle).

Variables Dépendantes Continues

Par défaut, dans le cadre de variables dépendantes continues, le programme va calculer le ratio entre la variance inter-catégories et la variance intra-catégories (de la variable dépendante) pour les intervalles des variables prédictives déterminés en fonction de leur nature (continues ou catégorielles). Les variables dépendantes continues peuvent éventuellement être "transformées" en variables catégorielles pour les besoins des analyses de Sélection et Filtrage des Prédicteurs ; dans ce cas, les analyses se déroulent comme indiqué dans le paragraphe Variables Dépendantes Catégorielles, ci-dessous. Cette option permet de traiter des variables dépendantes continues fortement asymétriques, ou qui possèdent des valeurs particulièrement aberrantes.

Pour les prédicteurs continus, le programme va diviser l'étendue des valeurs de chaque prédicteur en k intervalles [par défaut, 10 intervalles ; pour "affiner" la sensibilité de l'algorithme à différents types de relations monotones et/ou non-monotones, vous pouvez modifier cette valeur dans la boîte de dialogue Sélection et Filtrage des Prédicteurs (Panneau de Démarrage)]. Les prédicteurs catégoriels ne sont en revanche aucunement transformés. La boîte de dialogue Sélection et Filtrage des Prédicteurs - Résultats propose un certain nombre d'options permettant de trier la liste des valeurs F et p associées à chaque prédicteur, afin d'afficher les meilleurs prédicteurs en utilisant la valeur F ou la valeur p comme critère de l'importance des prédicteurs.

Variables Dépendantes Catégorielles

Pour des problèmes de classification (ou des problèmes de régression, lorsque vous avez éventuellement "transformé" les variables continues en variables catégorielles pour les besoins de l'analyse), le programme va calculer la statistique du Chi² et la valeur p de chaque variable prédictive. Pour les prédicteurs continus, le programme va diviser l'étendue des valeurs de chaque prédicteur en k intervalles [par défaut, 10 intervalles ; pour "affiner" la sensibilité de l'algorithme à différents types de relations monotones et/ou non-monotones, vous pouvez modifier cette valeur dans la boîte de dialogue Sélection et Filtrage des Prédicteurs (Panneau de Démarrage)]. Les prédicteurs catégoriels ne sont en revanche aucunement transformés. La boîte de dialogue Sélection et Filtrage des Prédicteurs - Résultats propose un certain nombre d'options permettant de trier la liste des valeurs F et p associées à chaque prédicteur, afin d'afficher les meilleurs prédicteurs en utilisant la valeur F ou la valeur p comme critère de l'importance des prédicteurs.

Didacticiels

Vous pouvez visionner l'intégralité de la série de tutoriels Le Data Mining en 35 Leçons avec STATISTICA en remplissant le formulaire d'inscription. Vous serez alors notifié(e) automatiquement de la disponibilité des nouveaux épisodes et recevrez d'autres informations utiles.

StatSoft propose par ailleurs une série de didacticiels et présentations interactives décrivant pas-à-pas différentes opérations que vous pouvez réaliser à l'aide de STATISTICA. Si vous souhaitez voir aborder un thème particulier, merci de nous écrire.