StatSoft Logo

 N°9

La Newsletter STATISTICA
(Janvier 2009)

 

 


 

Coup de Projecteur...

Le Data Mining : Enjeux et Outils

Le data mining est un processus analytique destiné à explorer de grosses volumétries de données afin de mettre en évidence des relations systématiques entre des variables et/ou d'identifier des phénomènes cachés contenus dans les données.  Les résultats sont ensuite validés sur de nouveaux groupes d'individus afin de réussir à prévoir de manière aussi fiable que possible ces phénomènes !

Le data mining est une discipline très en vogue qui se distingue de la statistique traditionnelle par le fait qu'aucune hypothèse a priori n'est nécessaire sur les données. L'engouement pour le data mining tient aux facteurs suivants :

  • La gestion des données est facilitée par la puissance accrue des ordinateurs, et par des moyens de collecte et de stockage de données toujours plus performants
  • Les entreprises doivent manipuler des quantités d'informations de plus en plus importantes sous la contrainte des optimisations qu'elles doivent mettre en oeuvre afin de préserver leur avantage concurrentiel.
  • Les entreprises prennent de plus en plus conscience qu'au delà de l'usage courant que chacun fait de ses données, celles-ci renferment également des "pépites" invisibles à l'oeil nu.

Bien que délicates à mettre en oeuvre, les méthodes de data mining sont très efficaces pour la compréhension approfondie de l'information que recèle un ensemble de données.

L
e data mining prédictif est le type de data mining le plus courant et il possède sans doute les applications commerciales les plus directes : gestion de la relation client, maintenance préventive, détection de fraudes, etc….


STATISTICA Data Miner Plus
Une méthodologie pas-à-pas !

Il est de plus en plus courant en data mining de recourir à des solutions reposant sur des processus analytiques simples, plutôt que de créer des outils généralistes toujours plus complexes. L’approche proposée dans STATISTICA Data Miner Plus vous permet, au travers d’une interface graphique intuitive, de mettre en œuvre ces techniques, même pour les novices en data mining, puisqu’il s’agit simplement de suivre un processus analytique pas-à-pas. Grâce à des boîtes de dialogue intuitives, vous pouvez réaliser différentes tâches de data mining, comme de la régression, de la classification ou du clustering. Vous pouvez également construire rapidement votre propre méthodologie pas-à-pas comme solution personnalisée. Vous sauvegardez ensuite ces assistants pour les déployer sous forme de projets afin d’effectuer du scoring sur de nouvelles données.

STATISTICA Data Miner Plus va décomposer le processus de data mining en différentes phases, du requêtage des bases de données externes au déploiement final des solutions, et se résume généralement aux étapes suivantes :

..

1. Identifier les données qui vont servir à l’apprentissage

  • Connexion à des bases de données ODBC ou compatibles OLEDB
  • Connexion aux fichiers de données STATISTICA

2. Nettoyer les données et supprimer les prédicteurs redondants

  • Méthodes efficaces et flexibles d’échantillonnage des données (échantillonnage simple, stratifié, systématique, etc...)
  • Autres manières d’identifier et recodifer les valeurs manquantes
  • Identification des points aberrants
  • Transformation des données avant de passer à l’étape suivante
  • Identification et suppression des prédicteurs redondants

3. Identifier les prédicteurs influents parmi une vaste palette de prédicteurs qui sont fortement liés à la variable dépendante (de sortie ou cible)

  • Sélection des prédicteurs sur de grosses volumétries (par exemple, plusieurs milliers de variables)
  • Détection des interactions importantes entre les prédicteurs à l’aide de méthodes d’arbres de décision

4. Générer un ensemble de modèles pertinents

  • Tirer parti des techniques de pointe disponibles dans STATISTICA Data Miner Plus pour le data mining prédictif
  • Déléguer les tâches nécessitant des calculs intensifs à WebSTATISTICA, et libérer votre ordinateur en local pour d’autres tâches
 

5. Réaliser une évaluation comparative automatique des modèles pour identifier le modèle optimal, avec le meilleur compromis entre performances et complexité


6. Déployer le modèle sur de nouvelles données à l’aide des outils intégrés et efficaces de déploiement

..  

Un exemple technique, proposé ci dessous, va illustrer un projet de data mining qui a été réalisé rapidement et efficacement à l’aide de STATISTICA Data Miner Plus.

..

 NA Illustration de l'approche STATISTICA Data Miner Plus


Retour au Sommaire


Logo StatSoft France  |  2 rue Louis Pergaud  | 94700 Maisons-Alfort  |  www.statsoft.fr  |  info@statsoft.fr