Glossaire
Data Mining
Le data mining est un processus analytique destiné à explorer de grosses volumétries de données (habituellement en marketing) afin de mettre en évidence des phénomènes récurrents et/ou des relations systématiques entre les variables, puis en validant nos conclusions sur de nouveaux groupes d'individus. Le but final du data mining étant de prévoir ; le data mining prédictif est le type de data mining le plus courant et il possède sans doute les applications commerciales les plus directes.
Le processus suit donc trois étapes :
Exploration initiale,
Construction d'un modèle ou identification des phénomènes avec validation/vérification, et enfin
Déploiement (c'est-à-dire l'application du modèle à de nouvelles données afin de générer des prévisions).
Étape 1 : Exploration. Cette étape commence généralement par la préparation des données qui peut prendre la forme de nettoyage des données, de transformations des données, de sélection de sous-groupes d'enregistrements, et, si vous travaillez sur des jeux de données comportant de nombreuses variables (ce qui est souvent le cas dans les applications "de terrain"), d'opérations de sélection des prédicteurs pour ramener le nombre de variables à un échelon raisonnable (en fonction des méthodes statistiques envisagées). Ensuite, selon la nature du problème analytique, cette première étape du processus du data mining peut s'attacher à identifier de façon élémentaire les meilleurs prédicteurs pour un modèle de régression, ou à mener des analyses exploratoires poussées faisant appel à une large palette de méthodes statistiques et graphiques [voir la rubrique Analyse Exploratoire des Données et Techniques de Data Mining] afin de déterminer les variables les plus pertinentes et déterminer la complexité et/ou la nature générale des modèles à prendre en compte à l'étape suivante.
Étape 2 : Construction du modèle et validation. Au cours de cette étape, nous considérons généralement différents modèles et retenons le meilleur, c'est-à-dire celui qui possède la meilleure performance prédictive (c'est-à-dire qui explique la dispersion étudiée et qui produit des résultats robustes entre les échantillons). Ceci peut sembler assez simple de prime abord, mais en fait, il s'agit souvent d'un processus très complexe. Il existe un certain nombre de techniques développées dans cette optique, dont bon nombre reposent sur l'évaluation dite "compétitive" des modèles : nous appliquons en fait différents modèles sur le même jeu de données et comparons ensuite leurs performances pour retenir le meilleur. Parmi ces techniques, qui sont souvent considérées comme l'outil essentiel du data mining prédictif, citons : Bagging (Voting, Averaging), Boosting, Stacking (Stacked Generalizations), et Méta-Learning.
Étape 3 : Déploiement. Cette dernière étape consiste à utiliser le modèle que nous avons identifié comme étant le meilleur lors de l'étape précédente, et à l'appliquer sur de nouvelles données afin de produire des prévisions ou des estimations de la variable qui nous intéresse.
Le concept du data mining a gagné en popularité comme outil de gestion marketing puisqu'on attend qu'il mette en évidence des structures connues pouvant aider à la décision en conditions d'incertitude. Récemment, nous avons assisté à l'émergence d'un intérêt certain pour le développement de nouvelles techniques analytiques spécifiquement destinées à traiter des questions du data mining (par exemple, Arbres de Décision (Classification), Modèles d'Arbres de Classification et de Régression, Modèles CHAID, MARSplines (Multivariate Adaptive Regression Splines)). Mais le data mining reste largement basé sur les concepts traditionnels statistiques de l'Analyse Exploratoire des Données et de leur modélisation, dont il partage à la fois l'approche générale et les techniques spécifiques.
Toutefois, une différence fondamentale entre le data mining et l'approche traditionnelle de l'Analyse Exploratoire des Données tient au fait que le data mining est plus orienté vers les applications que vers la nature des phénomènes sous-jacents. En d'autres termes, le data mining s'attache moins à identifier les relations spécifiques entre les variables. Par exemple, la mise en évidence de la nature de fonctions sous-jacentes ou de certains types de relations interactives, multivariées entre des variables ne constitue pas l'objectif principal du Data Mining. En revanche, il va s'attacher à trouver une solution permettant de produire des prédictions utiles. Ainsi, le data mining utilise une approche de type "boîte noire" pour explorer les données et découvrir des connaissances, et utilise non seulement des techniques traditionnelles d'analyse exploratoire des données mais aussi de réseaux de neurones qui savent produire des prévisions correctes, sans pour autant identifier la nature spécifique des relations entre les variables sur lesquelles les prévisions sont fondées.
Le data mining est souvent considéré comme "un mélange de statistiques, d'IA [Intelligence Artificielle], et d'exploration dans des bases de données" (Pregibon, 1997, p. 8). Ce n'est que très récemment que les statisticiens ont commencé à s'y intéresser et le data mining était encore considéré comme un "gros mot en Statistiques" il y a peu (Pregibon, 1997, p. 8). En raison de son utilisation croissante, ce champ s'impose de plus en plus comme un domaine important (même en statistiques), en forte croissance, où des avancées théoriques importantes ont été réalisées (voir par exemple, le récent compte-rendu annuel sur les Conférences Internationales sur la Découverte de Connaissances et le Data Mining, organisées en partenariat en 1997 avec l'Association Américaine de Statistiques).
Pour plus d'informations sur les techniques du data mining, voir la rubrique STATISTICA Réseaux de Neurones Automatisés ; pour une présentation plus complète du data mining, veuillez vous reporter aux ouvrages de Fayyad, Piatetsky-Shapiro, Smyth, et Uthurusamy (1996). Vous pourrez trouver différents articles couvrant le domaine du data mining dans Proceedings from the American Association of Artificial Intelligence Workshops on Knowledge Discovery in Databases publié par les Presses de l'AAAI (par exemple, Piatetsky-Shapiro, 1993; Fayyad & Uthurusamy, 1994).
Il existe de nombreux ouvrages traitant de la théorie et de la pratique du data mining ; les ouvrages suivants (en langue anglaise) constituent un échantillon de la littérature généraliste récente sur le data mining, avec différentes approches et perspectives :
Berry, M., J., A., & Linoff, G., S., (2000). Mastering data mining. New York: Wiley.
Edelstein, H., A. (1999). Introduction to data mining and knowledge discovery (3rd ed). Potomac, MD: Two Crows Corp.
Fayyad, U. M., Piatetsky-Shapiro, G., Smyth, P., & Uthurusamy, R. (1996). Advances in knowledge discovery & data mining. Cambridge, MA: MIT Press.
Han, J., Kamber, M. (2000). Data mining: Concepts and Techniques. New York: Morgan-Kaufman.
Hastie, T., Tibshirani, R., & Friedman, J. H. (2001). The elements of statistical learning : Data mining, inference, and prediction. New York: Springer.
Pregibon, D. (1997). Data Mining. Statistical Computing and Graphics, 7, 8.
Weiss, S. M., & Indurkhya, N. (1997). Predictive data mining: A practical guide. New York: Morgan-Kaufman.
Westphal, C., Blaxton, T. (1998). Data mining solutions. New York: Wiley.
Witten, I. H., & Frank, E. Data mining. New York: Morgan-Kaufmann.
Grands Concepts en Data Mining
Voir également les rubriques :
Empilement Généralisé. Voir Stacking.
Voting. Voir Bagging.
Stacking (Empilement Généralisé)
Réduction des Données (en Data Mining)
Le Data mining est souvent perçu comme une extension des concepts de data warehousing. Voir aussi la rubrique Data Warehousing.