Le Data Mining avec STATISTICA Data Miner


STATISTICA Data Miner offre la gamme la plus riche de solutions de data mining du marché, avec une interface extrêmement conviviale, basée sur des icônes.

Il met à votre disposition différents systèmes complets, totalement intégrés et clé en mains de solutions spécifiques de data mining applicables à de nombreux domaines et applications dans l'entreprise. Le produit peut s'accompagner de services de déploiement et de formation sur site si vous le souhaitez. Les solutions de data mining sont organisées autour des procédures puissantes contenues dans cinq modules, que vous pouvez utiliser de façon interactive, et/ou pour créer, tester et déployer de nouvelles solutions :

Explorateur Segmenteur Général avec Drill-Down
Classification Supervisée et Non Supervisée
Modélisation Générale et Exploration Multivariée
Prévisions et Séries Chronologiques
Modélisation par Réseaux de Neurones
et bien plus encore...


Cliquez ici pour plus d'informations sur STATISTICA Data Miner.

Les sections suivantes présentent les concepts généraux du data mining  :


Data Mining

StatSoft définit le Data Mining comme un processus analytique destiné à explorer de grosses volumétries de données (généralement des données commerciales ou marketing) afin de mettre en évidence une certaine structure [Data Mining Screenshot]et/ou des relations systématiques entre des variables, puis de valider ces conclusions en appliquant les modèles identifiés sur de nouveaux groupes de données. Le processus suit donc trois étapes : exploration, construction d'un modèle ou définition d'une structure, et validation/vérification. Dans l'idéal, si la nature des données le permet, le processus est répété par itérations jusqu'à ce qu'un modèle "robuste" soit obtenu. Toutefois, en pratique, les options qui s'offrent à nous pour valider le modèle lors de l'analyse sont souvent limitées, et par conséquent, les résultats initiaux ont souvent un statut heuristique pouvant influencer le processus décisionnel (par exemple, "Les données semblent indiquer que la probabilité d'utiliser des somnifères s'accroît avec l'âge, plus rapidement chez les femmes que chez les hommes").

Le concept de Data Mining s'impose de plus en plus comme un outil d'information stratégique et d'orientation puisqu'il est censé mettre en évidence des structures destinées à aider à prendre les bonnes décision dans des conditions d'incertitude relative. Plus récemment, de nouvelles techniques analytiques ont émergé, avec une orientation marquée vers le Data Mining commercial (par exemple, Arbres de Décision (Classification), Modèles d'Arbres de Classification et de Régression, Modèles CHAID). Mais le Data Mining reste basé sur les concepts d'Analyse Exploratoire des Données et de modélisation dont il partage à la fois l'approche générale et les techniques spécifiques.

Toutefois, une différence fondamentale entre le Data Mining et l'approche traditionnelle de l'Analyse Exploratoire des Données ) tient au fait que le Data Mining est davantage orienté vers les applications, que vers la nature intrinsèque des phénomènes. En d'autres termes, le Data Mining s'attache relativement moins à identifier les relations spécifiques entre les variables étudiées. Par exemple, mettre en évidence la nature des fonctions sous-jacentes ou les types particuliers de corrélations, multivariées et interactives entre des variables ne constitue pas l'objectif principal du Data Mining. En revanche, le Data Mining va chercher une solution qui permet de produire des prévisions pertinentes et utiles. Ainsi, le Data Mining utilise une approche "boîte noire" pour explorer les données et utilise, outre les techniques traditionnelles d'Analyse Exploratoire des Données ), d'autres techniques comme les Réseaux de Neurones qui peuvent produire des prévisions correctes, sans toutefois pouvoir identifier la nature spécifique des corrélations entre les variables sur lesquelles les prévisions sont fondées.

Le Data Mining est souvent considéré comme "un mélange de statistiques, d'IA [Intelligence Artificielle], et d'exploration de base de données" (Pregibon, 1997, p. 8), sur lequel (jusque dans un passé très récent) les statisticiens ne s'étaient pas réellement penchés, et qui était même un "gros mot en Statistiques" (Pregibon, 1997, p. 8). En raison de son utilisation croissante, ce champ s'impose de plus en plus comme un domaine important (même en statistiques), en forte croissance, où des avancées théoriques importantes ont été réalisées (voir par exemple, le récent compte-rendu annuel des Conférences Internationales sur le Knowledge Discovery et le Data Mining, organisées en partenariat en 1997 avec l'Association Américaine de Statistiques).

Pour plus d'informations sur les techniques de Data Mining, voir le paragraphe Analyse Exploratoire des Données et Techniques de Data Mining ; voir aussi le paragraphe Réseaux de Neurones ; pour une présentation plus approfondie du Data Mining, veuillez vous reporter aux ouvrages de Fayyad, Piatetsky-Shapiro, Smyth, et Uthurusamy (1996). Vous pourrez trouver des articles intéressants sur le Data Mining dans Proceedings from the American Association of Artificial Intelligence Workshops on Knowledge Discovery in Databases publié par les Presses de l'AAAI (par exemple, Piatetsky-Shapiro, 1993; Fayyad & Uthurusamy, 1994).

Le Data mining est souvent considéré comme l'extension naturelle du concept de data warehousing (voir ci-dessous).

Haut de la Page

Data Warehousing

StatSoft définit le data warehousing comme un processus d'organisation du stockage de grosses volumétries, multidimensionnelles, de données dans la perspective de faciliter la récupération de l'information pertinente pour l' analyser. [Illustration ODBC] La ligne de produits STATISTICA offre une approche à deux tiers pour le stockage des données, où le premier tiers est constitué de fichiers en local avec une structure élémentaire ; ce premier tiers peut devenir une composante du second tiers (dans le cadre des Systèmes Entreprise de STATISTICA avec des fonctionnalités de data warehousing).

Premier tiers. Le premier tiers correspond aux fichiers de données STATISTICA (avec l'extension *.sta), à la fois compacts, élémentaires (en 2 dimensions) et très efficaces en termes de stockage et de portabilité. Ces fichiers résident habituellement sur le disque dur de l'utilisateur final, en local. Ils reconnaissent différents types de données et des fichiers d'une taille quasi-illimitée (avec un nombre illimté d'enregistrements et de champs (variables) par enregistrement).

STATISTICA est optimisé pour le traitement de fichiers de données avec des volumétries extrêmement importantes et offre le possibilité de traiter directement les fichiers de données sur des serveurs distants, sans avoir à importer préalablement les données en local (voir le paragraphe suivant sur "le deuxième tiers"). Cette technologie, proposée dans toutes les versions entreprise de STATISTICA, permet d'améliorer les performances de façon importante (par rapport à une importation des données préalable au traitement), et vous permet des jeux de données dont la taille dépasse les capacités de stockage de votre ordinateur en local (par exemple, plusieurs Teraoctets de données).

Deuxième tiers. Le deuxième tiers (l'entrepôt de données [ou le data warehouse] de STATISTICA qui réside sur le serveur) est proposé dans les versions Entreprise de STATISTICA : STATISTICA Entreprise (SEDAS) et STATISTICA Entreprise/QC. (SEWSS). Il offre une fonctionnalité flexible de travail collaboratif et s'intègre parfaitement avec les autres composantes du data warehouse de l'entreprise (par exemple, d'autres entrepôts de données organisés autour du cadre de Systèmes évolutifs de Gestion de Bases de Données (par exemple, Oracle, Sybase, ms SQL Server) ; voir aussi les informations concernant le traitement "direct" des données situées sur des serveurs distants sur la page La Technologie IDBD).
Haut de la Page

On-Line Analytic Processing (OLAP)

Le terme On-Line Analytic Processing - OLAP (ou Fast Analysis of Shared Multidimensional Information - FASMI) fait référence à la technologie qui permet à des utilisateurs travaillant sur des bases de données multidimensionnelles, de produire des synthèses ("vues") descriptives ou comparatives, en ligne, de leurs données et autres requêtes analytiques. Malgré le terme "on-line", les analyses dites OLAP n'ont pas besoin d'être réalisées en temps réel ; le terme fait plutôt référence à des analyses portant sur des bases de données multidimensionnelles (qui peuvent, de toute évidence, contenir des informations mises à jour de façon dynamique) et réalisées grâce à des requêtes "multidimensionnelles" efficaces tenant compte des différents types de données. Les fonctionnalités OLAP peuvent être intégrées dans les systèmes de gestion de bases de données (à l'échelle de l'entreprise) permettant aux analystes et décisionnaires de suivre les performances de l'entreprise (par exemple, divers aspects d'un processus de production ou le nombre et le type de transactions réalisées sur différents sites) ou du marché. Les résultats produits par les techniques OLAP peuvent être élémentaires (par exemple, de simples tables de fréquences, des statistiques descriptives, ou des tableaux croisés) ou plus complexes (par exemple, ils peuvent faire intervenir des ajustements saisonniers, la suppression de points aberrants ou d'autres formes de nettoyage des données). Bien que les techniques de Data Mining puissent s'appliquer à différents types d'information brute ou non-structurée, elles peuvent également s'utiliser sur des vues ou sur d'autres synthèses des données qui sont produites par OLAP pour une connaissance plus approfondie, et souvent plus multidimensionnelle. De ce point de vue, les techniques de Data Mining peuvent être considérées comme une approche analytique différente (servant d'autres objectifs qu'OLAP). Voir aussi le module STATISTICA Drill-Down Interactif (intégré à STATISTICA Data Miner).

Haut de la Page

Travail Collaboratif

Logiciel conçu pour permettre à un groupe d'utilisateurs travaillant en réseau de collaborer sur des projets spécifiques. La fonctionnalité de travail collaboratif peut mettre à votre disposition divers services et outils de communication (par exemple, par e-mail), de développement collaboratif de documents, d'analyses, de comptes-rendus, d'analyse statistique, de planification ou de recherche d'information. Les documents peuvent comporter du texte, des images ou toute autre forme d'information (par exemple, des documents multimédia). Voir aussi les Systèmes Entreprise de STATISTICA.

Systèmes Évolutifs

Un logiciel évolutif (par exemple, les (e.g., Systèmes Entreprise de STATISTICA ou un système de gestion de base de données [SGBD] comme MS SQL Server ou Oracle) est un logiciel capable d'évoluer (par exemple, ajouter de nouveaux utilisateurs) pour répondre aux besoins futurs, sans nécessiter une réorganisation de ses opérations (par exemple, pour répartir les données en plus petits segments) destinée à éviter une dégradation de ses performances. Par exemple, un réseau évolutif permet à l'administrateur du réseau d'ajouter de nombreux nouveaux utilisateurs sans avoir à repenser le système de base. à l'inverse, la structure des répertoires DOS n'est PAS évolutive (dans la mesure où l'ajout de nouveaux fichiers peut nécessiter la répartition de ceux-ci dans des sous-répertoires). Voir aussi les Systèmes Entreprise de STATISTICA.

Haut de la Page

Analyse Exploratoire des Données et Techniques de Data Mining

Analyse Exploratoire des Données et Tests d'Hypothèses. Par opposition aux tests d'hypothèses traditionnels qui permettent de vérifier des hypothèses a priori quant aux relations entre des variables (par exemple, "Il existe une corrélation positive entre l'AGE d'une personne et sa prédisposition à PRENDRE des RIQUES"), l'analyse exploratoire des données permet de mettre en évidence des relations systématiques entre des variables lorsqu'il n'existe pas d'hypothèse (ou qu'une hypothèse incomplète) a priori concernant la nature de ces relations. [ Corrélations] Lors de la phase exploratoire de l'analyse des données, nous prenons généralement en compte de nombreuses variables et nous les confrontons en utilisant toute une gamme de techniques pour mettre en évidence des structures ou des phénomènes systématiques.

Techniques statistiques en Analyse Exploratoire des Données. Les méthodes statistiques d'analyse exploratoire des données se fondent à la fois sur des techniques statistiques élémentaires, et sur des techniques exploratoires multivariées spécifiques, plus avancées, qui permettent de mettre en évidence des typologies ou des structures particulières et systématiques dans des jeux de données multidimensionnels.

Techniques exploratoires élémentaires. Les méthodes statistiques élémentaires d'exploration des données regroupent des techniques comme l'analyse de la distribution des variables (par exemple pour identifier une distribution très asymétrique ou non-normale, comme une structure bimodale), l'étude de vastes matrices de corrélations afin d'identifier les coefficients supérieurs à un certain seuil (voir l'exemple ci-dessus), [Classifications] ou l'examen de table de fréquence d'ordre multiple (par exemple, étudier systématiquement et "section par section", chaque combinaison des modalités des variables indépendantes).

Techniques exploratoires multivariées. Parmi les techniques exploratoires multivariées spécifiquement destinées à mettre en évidence des typologies ou des structures dans des jeux de données multidimensionnels (ou univariés comme des séries de mesures), citons notamment: les Classifications, l'Analyse Factorielle, l'Analyse Discriminante, l'Analyse de Proximité, l'Analyse Log-Linéaire, l'Analyse Canonique, la Régression Linéaire Pas-à-Pas et la Régression Non-Linéaire (par exemple, Logit), l'Analyse des Correspondances, l'Analyse de Séries Chronologiques, les Modèles Additifs Généralisés, les Arbres de Décision (Classification), les Modèles d'Arbres de Classification et de Régression ou encore les Modèles CHAID.

[Exemple avec STATISTICA Réseaux de Neurones] Réseaux de Neurones. Les Réseaux de Neurones sont des techniques analytiques modélisées à partir des processus d'apprentissage (hypothétiques) du système cognitif et des fonctions neurologiques du cerveau ; ils permettent de prévoir de nouvelles observations (pour des variables spécifiques) à partir d'autres observations (pour les mêmes variables ou d'autres) après un processus dit d'apprentissage sur les données existantes.

Pour plus d'informations, voir le paragraphe sur les Réseaux de Neurones  ; voir aussi le descriptif du programme STATISTICA Réseaux de Neurones Automatisés.

Techniques graphiques d'analyse exploratoire des données (représentation des données). Les méthodes de représentation graphique des données sont également des techniques puissantes d'analyse exploratoire des données permettant d'identifier des relations, des tendances, et des biais "cachés" dans des jeux de données non structurés.

[Balayage] Balayage. Le balayage est sans conteste la plus courante et historiquement la plus ancienne des techniques d'analyse exploratoire graphique des données ; il s'agit en fait d'une méthode interactive permettant de sélectionner à l'écran certains points spécifiques (ou certains groupes de points) et d'identifier leurs caractéristiques (communes), ou d'examiner leur effet sur les relations avec les variables étudiées. Ces relations entre variables peuvent être représentées par des fonctions ajustées (par exemple, des courbes en 2D ou des surfaces de réponse en 3D) et leurs intervalles de confiance ; ainsi, par exemple, vous pouvez visualiser l'évolution de ces fonctions lorsque vous supprimez ou en rajoutez interactivement (de façon temporaire) certains groupes de données spécifiques. Par exemple, l'une des nombreuses applications de la technique de balayage consiste à sélectionner (c'est-à-dire, mettre en surbrillance) dans un nuage de points matriciel, tous les points correspondant à une modalité particulière (par exemple, le revenu "moyen", puis de visualiser les groupes en surbrillance sur la première ligne du graphique à quatre composantes, voir l'illustration à gauche) : afin de visualiser dans quelle mesure ces observations spécifiques contribuent aux relations avec les autres variables du fichier de données (par exemple, la corrélation entre "Endettement" et "Assiette d'imposition" dans cet exemple).



[Balayage animé] Lorsque vous utilisez le balayage animé dans STATISTICA, vous pouvez définir un balayage dynamique qui va se déplacer sur des intervalles successifs d'une variable indépendante (par exemple, le "revenu" mesuré sur une échelle continue ou sur une échelle discrète [à 3 modalités] comme dans l'illustration ci-dessus) et ainsi examiner la dynamique de la contribution d'une variable indépendante sur les relations avec d'autres variables du même jeu de données. STATISTICA met à votre disposition un outil particulièrement riche et convivial de techniques de balayage, de balayage animé interactif, de balayage analytique en sélectionnant les attributs de certains points spécifiques, etc...

Autres techniques graphiques d'Analyse Exploratoire des Données.Il existe d'autres techniques exploratoires analytiques graphiques comme l'ajustement et la représentation de fonctions, le lissage des données, la superposition et la fusion de plusieurs représentations graphiques, la catégorisation des données, la division/fusion de sous-groupes de données dans un graphique, l'agrégation de données dans un graphique, l'identification et le marquage de groupes de données répondant à certains critères spécifiques, les dégradés, le tracé d'intervalles et de zones de confiance (ellipses), la création de graphiques en mosaïque de type Voronoï, les plans spectraux, la compression intégrée [Compression en Couches](voir l'exemple à gauche), ainsi que la projection des courbes d'isoréponse, les techniques de réduction de l'image des données, la rotation interactive (et continue) avec stratification animée (sections croisées) des représentations en 3D, ou la mise en surbrillance sélective de séries et blocs spécifiques de données. (pour plus d'informations sur ces techniques graphiques (ou d'autres) dans STATISTICA, voir la section sur les graphiques).

Vérification des résultats de l'Analyse Exploratoire des Données. L'exploration des données ne peut constituer que la première étape de l'analyse et ses résultats ne peuvent être considérés au mieux que comme une approche préalable tant qu'ils ne sont pas confirmés, par exemple, à l'aide de validation croisée, en utilisant d'autres données (ou un sous-ensemble indépendant). Si les résultats de l'analyse exploratoire tendent à mettre en évidence un certain modèle, vous pourrez vérifier sa validité en appliquant ce modèle à de nouvelles données et en testant son ajustement (par exemple, en testant son pouvoir prédictif). Les filtres de sélection d'observations peuvent également permettre de définir rapidement des sous-groupes de données (par exemple, pour l'estimation et la vérification), et pour tester la robustesse des résultats.

Haut de la Page

Réseaux de Neurones

Les Réseaux de Neurones sont des techniques analytiques modélisées à partir des processus d'apprentissage (hypothétiques) du système cognitif et des fonctions neurologiques du cerveau ; ils permettent de prévoir de nouvelles observations (pour des variables spécifiques) à partir d'autres observations [Réseaux de Neurones](pour les mêmes variables ou d'autres) après un processus dit d'apprentissage sur les données existantes. Les Réseaux de Neurones constituent l'une des techniques du Data Mining.

La première étape consiste à concevoir une architecture spécifique pour le réseau (avec un nombre spécifique de "couches", chacune étant constituée d'un certain nombre de "neurones"). La taille et la structure du réseau dépendent de la nature (par exemple, de la complexité formelle) du phénomène étudié. Comme ce dernier est généralement méconnu à ce stade de l'étude, cette tâche est souvent un processus laborieux " par tâtonnement" (désormais, sachez qu'il existe des logiciels de réseau de neurones utilisant des techniques d'intelligence artificielle pour vous aider lors de cette étape fastidieuse de recherche de la "meilleure" architecture neuronale).

Le nouveau réseau est alors soumis au processus dit "d'apprentissage". Au cours de cette phase, les neurones appliquent un processus itératif aux entrées (variables) afin d'ajuster les poids du réseau et prédire de manière optimale (en termes plus traditionnels, nous parlerions de trouver le meilleur "ajustement") le jeu de données utilisé lors du processus "d'apprentissage". Après la phase d'apprentissage sur des données existantes, le nouveau réseau est près et peut être utilisé pour générer des prévisions.

Le "réseau" ainsi obtenu à l'issue du processus "d'apprentissage" représente une structure mise en évidence dans les données. Par conséquent, dans cette approche, le "réseau" est l'équivalent fonctionnel d'un modèle qui représente les relations entre des variables dans l'approche traditionnelle de la construction d'un modèle [STATISTICA Réseaux de Neurones - Exemple]. Toutefois, contrairement aux modèles traditionnels, ces relations ne peuvent pas, dans un "réseau,", être exprimées avec les termes habituels que nous utilisons en statistiques ou dans leur méthodologie pour décrire les relations entre les variables (comme par exemple, "A est positivement corrélé à B mais uniquement pour les observations qui ont une valeur faible pour C et forte pour D"). Certains réseaux de neurones peuvent produire des prévisions extrêmement précises ; ils n'en utilisent pas moins une approche fondamentalement a-théorique (on pourrait même dire "une boîte noire"). Cette approche ne s'attache qu'aux considérations pratiques, c'est-à-dire, au pouvoir prédictif de la solution et non pas à la nature du mécanisme sous-jacent ni au respect d'une "théorie" quelconque concernant le phénomène sous-jacent

Toutefois, soulignons que les techniques de Réseaux de Neurones peuvent également être utilisées dans le cadre d'analyses qui sont destinées à construire des modèles explicatifs dans la mesure où les Réseaux de Neurones permettent de rechercher les variables ou les groupes de variables pertinentes d'un jeu de données ; les résultats de ces explorations peuvent alors faciliter le processus de construction d'un modèle. En outre, sachez qu'il existe désormais un logiciel de réseaux de neurones qui utilise des algorithmes sophistiqués pour rechercher les variables d'entrée les plus pertinentes, et donc contribuant (potentiellement) le plus directement au processus de construction du modèle.

L'un des principaux avantages des réseaux de neurones réside dans le fait qu'ils sont capables, en théorie, d'approcher tout type de fonction continue ; le chercheur n'a donc pas besoin de formuler d'hypothèses quant au modèle sous-jacent, ni même, dans une certaine mesure, quelles sont les variables qui sont importantes. Un gros inconvénient tient toutefois au fait que la solution finale dépend des conditions initiales du réseau, et donc, comme nous l'avons déjà indiqué, qu'il est quasiment impossible "d'interpréter" la solution en termes analytiques traditionnels, comme ceux que nous utilisons lorsque cherchons à construire des théories pour expliquer un phénomène donné.

Certains auteurs ont souligné le fait que les réseaux de neurones utilisent, ou du moins, sont censés utiliser des modèles avec de nombreux calculs réalisés en parallèle. Par exemple, Haykin (1994) défini le réseau de neurones comme suit :

[STATISTICA Neural Networks Example]

"un processeur qui distribue massivement les calculs en parallèle et qui possède une propension naturelle à stocker de la connaissance expérimentale et à la rendre utilisable. Il ressemble de ce point de vue au cerveau à deux égards : (1) La connaissance est acquise par le réseau grâce à un processus d'apprentissage, et (2) Les forces des connexions interneurales connues comme les poids synaptiques sont utilisées pour stocker cette connaissance." (p. 2).

Toutefois, comme l'a souligné Ripley (1996), la plupart des applications contemporaines de réseaux de neurones fonctionnent sur des ordinateurs avec un seul processeur et il assure que des gains de temps importants peuvent être obtenus, non seulement en développant des logiciels qui tirent parti de l'architecture multiprocesseurs de l'ordinateur, mais aussi en créant de meilleurs algorithmes (plus efficaces) d'apprentissage.

Les Réseaux de Neurones constituent l'une des méthodes utilisées en Data Mining ; voir aussi le paragraphe Analyse Exploratoire des Données. Pour plus d'informations sur les réseaux de neurones, voir Haykin (1994), Masters (1995), Ripley (1996), et Welstead (1994). Pour plus d'informations sur les réseaux de neurones comme outil statistique, voir Warner et Misra (1996). Voir aussi le descriptif de STATISTICA Réseaux de Neurones Automatisés.

Haut de la Page