Le
data mining est un processus
analytique destiné à
explorer de grosses volumétries de données afin
de mettre
en évidence des relations systématiques
entre des variables et/ou d'identifier des
phénomènes cachés contenus dans les
données.
Les résultats sont ensuite validés sur de
nouveaux
groupes d'individus afin de réussir
à prévoir
de manière aussi fiable que possible ces
phénomènes !
Le
data mining est une discipline très en vogue qui se
distingue de la
statistique traditionnelle par le fait qu'aucune hypothèse a priori n'est
nécessaire sur les données. L'engouement pour le data mining
tient aux facteurs suivants :
- La
gestion des données est facilitée par la
puissance accrue des ordinateurs, et par des moyens de
collecte et de stockage de données toujours plus performants
- Les
entreprises doivent manipuler des quantités
d'informations de plus en plus importantes sous la contrainte des
optimisations
qu'elles
doivent mettre en oeuvre afin de préserver leur avantage
concurrentiel.
- Les
entreprises prennent de plus en plus conscience qu'au delà
de l'usage
courant que
chacun fait de ses données, celles-ci renferment
également des "pépites"
invisibles à l'oeil nu.
Bien que délicates
à mettre en oeuvre, les
méthodes de data mining sont très efficaces pour
la compréhension
approfondie de l'information que recèle un ensemble de
données.
Le data
mining prédictif est le type de data
mining le plus courant et il possède sans doute les
applications
commerciales les plus directes : gestion de la relation client,
maintenance préventive, détection de fraudes,
etc….
STATISTICA
Data Miner Plus
Une méthodologie pas-à-pas !
Il est de plus en
plus courant en
data mining de recourir à des solutions reposant sur des
processus analytiques
simples, plutôt que de créer des outils
généralistes toujours plus complexes.
L’approche proposée dans STATISTICA Data
Miner Plus vous permet, au
travers d’une interface graphique intuitive, de mettre en
œuvre ces techniques,
même pour les novices en data mining, puisqu’il
s’agit simplement de suivre un
processus analytique pas-à-pas. Grâce à
des boîtes de dialogue intuitives, vous
pouvez réaliser différentes tâches de
data mining, comme de la régression, de
la classification ou du clustering. Vous pouvez également
construire rapidement
votre propre méthodologie pas-à-pas comme
solution personnalisée. Vous
sauvegardez ensuite ces assistants pour les déployer sous
forme de projets afin
d’effectuer du scoring sur de nouvelles données.
STATISTICA Data Miner Plus
va décomposer le processus de data mining en
différentes phases, du requêtage
des bases de données externes au déploiement
final des solutions, et se résume
généralement aux étapes suivantes :
..
1. Identifier les données qui
vont servir à l’apprentissage
- Connexion à des bases
de données ODBC ou
compatibles OLEDB
- Connexion
aux fichiers de données STATISTICA
2. Nettoyer les données et
supprimer les prédicteurs redondants
- Méthodes efficaces et
flexibles d’échantillonnage
des données (échantillonnage simple,
stratifié, systématique, etc...)
- Autres manières
d’identifier et recodifer les
valeurs manquantes
- Identification
des points aberrants
- Transformation
des données avant de passer à
l’étape suivante
- Identification
et suppression des prédicteurs
redondants
3. Identifier les prédicteurs influents
parmi une vaste palette de
prédicteurs qui sont fortement liés à
la variable dépendante (de sortie ou
cible)
- Sélection des
prédicteurs sur de grosses
volumétries (par exemple, plusieurs milliers de variables)
- Détection
des interactions importantes entre les
prédicteurs à l’aide de
méthodes d’arbres de décision
4. Générer un ensemble de
modèles
pertinents
- Tirer parti des techniques de
pointe disponibles
dans STATISTICA
Data Miner Plus pour
le data mining prédictif
- Déléguer
les tâches nécessitant des calculs
intensifs à WebSTATISTICA, et
libérer votre ordinateur en local pour
d’autres tâches
5. Réaliser une évaluation
comparative automatique des modèles pour identifier
le modèle optimal, avec le meilleur compromis entre
performances et complexité
6. Déployer le modèle sur de
nouvelles données à l’aide des outils
intégrés et efficaces de déploiement
..
Un exemple technique, proposé ci
dessous, va illustrer
un projet de data mining qui a été
réalisé rapidement et efficacement à
l’aide de STATISTICA Data Miner Plus.
..
Illustration
de l'approche STATISTICA
Data Miner Plus