STATISTICA Data Miner


Flyer de STATISTICA Data Miner

En bref...

STATISTICA Data Miner offre la gamme la plus riche du marché en termes de solutions de data mining, avec une interface-utilisateur extrêmement simple à utiliser, basée sur des icônes pour :
    Découvrir des tendances cachées
    Modéliser et expliquer les phénomènes connus
    Prévoir le futur

STATISTICA Data Miner intègre l'ensemble des fonctionnalités de STATISTICA Statistiques Avancées et de STATISTICA Réseaux de Neurones Automatisés.
Il propose en plus un certain nombre de solutions spécifiques de data mining, totalement intégrées et automatisées, prêtes à déployer "en l'état" (mais également facilement personnalisables) pour de nombreuses applications professionnelles et commerciales. Le produit peut également s'accompagner de services de déploiement et de formation sur site. Les solutions de data mining sont organisées autour des procédures puissantes de cinq modules, que vous pouvez utiliser de façon interactive, et/ou pour construire, tester et déployer de nouvelles solutions.

  • Explorateur/Segmenteur Général avec Drill-Down
  • Classification Supervisée et Non-Supervisée
  • Modélisation Générale et Exploration Multivariée
  • Prévisions et Séries Chronologiques
  • Modélisation par Réseaux de Neurones, et bien plus encore...
Il existe également des "solutions packagées" adaptées à vos besoins spécifiques.

Le programme est servi sur CD-ROM avec un jeu de documentation.

Fonctionnalités de STATISTICA Data Miner

Réalisez vos analyses dans votre navigateur Internet

Sommaire

Spécificités de STATISTICA Data Miner

Le système le plus efficace et le plus complet d'outils conviviaux pour l'ensemble de votre processus de data mining - allant des requêtes sur les bases de données à la production des rapports finaux.
  • À notre connaissance, la gamme la plus complète de méthodes de data mining (par exemple, la sélection la plus riche de techniques de clustering, d'architectures de réseaux de neurones, d'arbres de décision (classification ou régression), de modélisation multivariée (notamment MARSplines), et de nombreuses autres techniques prédictives ; la plus large gamme de graphiques et de procédures de représentation) ;
  • Une gamme complète de projets de data mining (solutions), prêts à l'emploi, conçus pour évaluer des modèles alternatifs (en utilisant les méthodes du bagging (voting, averaging), boosting, stacking, meta-learning, etc...), et pour produire des rapports de synthèse de qualité ;
  • Une interface-utilisateur très simple, basée sur le glisser-déplacer, utilisable par les novices, tout en étant flexible, personnalisable et donnant accès en un seul clic, aux scripts sous-jacents ;
  • Des outils interactifs et puissants d'exploration des données (drilling, slicing, dicing), avec la gamme la plus complète d'outils interactifs de visualisation et de graphiques exploratoires ;
  • Possibilité de gérer/traiter plusieurs flux de données simultanément ;
  • Optimisé pour traiter des jeux de données gigantesques (avec notamment des options de sélection/filtrage, même sur plus d'un million de variables, et/ou de tirage d'échantillons aléatoires simples ou stratifiés en utilisant les procédures d'échantillonnage aléatoire certifiées DIEHARD ; voir la page Benchmarks comparatifs des performances sur de gros jeux de données (en anglais)) ;
  • Accès optimisé en lecture (et en écriture) sur de grosses bases de données, grâce à la technologie IDBD (Interface Directe avec les Bases de Données) qui lit les données de façon asynchrone directement sur les serveurs de bases de données distants (en utilisant le calcul partagé si le serveur permet ce type de traitement), sans avoir à "importer" les données ni créer de copie en local ;
  • Un moteur de déploiement flexible s'intégrant dans un environnement de développement personnalisé, vous permettant de gérer des objets (noeuds) analytiques optimisés du data mining grâce aux scripts standard et rapides en Visual Basic (VB est intégré dans le système) ;
  • Déploiement très rapide et efficace grâce aux fichiers PMML (Predictive Models Markup Language) en syntaxe XML pour réaliser des prévisions, classifications prédictives ou clustering prédictifs sur de gros jeux de données ; les modèles peuvent être partagés entre les versions monoposte ou par WebSTATISTICA Data Miner (version Client-Serveur), voir ci-dessous ;
  • Écriture des valeurs prévues, classifications, probabilités de classification, résidus de la prévision,... dans les bases de données externes pour vos analyses futures. Grâce à la technologie IDBD (Interface Directe avec les Bases de Données) qui permet de lire/écrire des informations dans une base de données externe, vous pouvez analyser et calculer les scores sur des jeux de données très importants (c'est-à-dire mettre à jour les valeurs prévues, probabilités de classification,... dans la base de données) ;
  • Architecture ouverte, basée sur la technologie COM, options d'automatisation illimitées et possibilités d'extensions personnalisées (grâce aux langages standard VB (intégré), Java, ou C++) ;
  • Options bureautique ou Client-Serveur,
  • L'Architecture Multithreading et en Traitement Distribué (proposée dans la version Client-Serveur) permet d'atteindre des niveaux de performance incomparables, grâce à la technologie du traitement parallèle, utilisée dans les super-ordinateurs, et qui permet de répartir les calculs sur les différents ordinateurs du serveur (travaillant en parallèle) pour traiter rapidement les projets intensifs de data mining ;
  • Options d'intégration complète avec le web (grâce à WebSTATISTICA qui permet de réaliser toutes les opérations de data mining, notamment la construction interactive de modèles, à partir du navigateur Internet de tout ordinateur connecté au Web). Ce système entreprise ultra-sophistiqué d'analyse des données et de data mining vous permet de gérer vos projets par l'intermédiaire du Web, et permet à vos collaborateurs situés "à l'autre bout du couloir ou à l'autre bout du monde" de travailler ensemble.

STATISTICA Data Miner est véritablement une application unique en terme de richesse, de puissance, de technologie et de souplesse des interfaces-utilisateur disponibles :
  • Le choix d'algorithmes le plus vaste du marché (basés sur la technologie STATISTICA) pour des problèmes de classification, de prévision, de clustering et de modélisation ;
  • Accès et traitement direct de grosses volumétries de données stockées dans des bases de données distantes ; requêtes lourdes déléguées au serveur ;
  • Écriture des valeurs prévues, classifications, probabilités de classification, etc..., calculés à partir des modèles entraînés, directement dans une base de données externe ; scores pour des bases de données gigantesques grâce à un ou plusieurs modèles déployés ;
  • Accès à des fichiers de données gigantesques sur votre ordinateur Windows en local ; dans la mesure où les requêtes spécialisées sur des data warehouses personnalisés peuvent être coûteuses (parce qu'elles peuvent nécessiter l'intervention de consultants spécialisés), il peut être plus efficace de télécharger même de grosses bases de données sur votre machine en local ; ces fichiers de données peuvent alors être traités avec une rapidité incomparable grâce aux routines de STATISTICA Data Miner ;
  • Les modèles de projets de data mining peuvent être sélectionnés à partir des menus ; en quelques clics, vous pouvez appliquer des méthodes avancées telles que les techniques de meta-learning (voting, bagging, etc...) à vos problèmes analytiques spécifiques ;
  • Intégration de diverses méthodes et technologies dans un même projets de data mining, allant des cartes de contrôle qualité et analyses de capabilité du processus, analyse de Weibull, puissance de test, ou modèles linéaires et non linéaires, à des méthodes avancées et automatisées de recherche d'architectures de réseaux de neurones ; toutes les procédures de STATISTICA peuvent être sélectionnées sous forme de noeuds pour des projets de data mining, et vous n'avez aucun travail de programmation, ni de développement personnalisé pour utiliser ces procédures ;
  • Data mining visuel/graphiques : Toutes les possibilités graphiques de STATISTICA sont accessibles pour le data mining ; vous n'avez qu'à choisir parmi les centaines de types de graphiques pour représenter vos données après nettoyage, segmentation, ou drill-down ;
  • Interface-utilisateur intuitive et intégration complète avec les solutions reconnues et plébiscitées de STATISTICA : vous n'aurez besoin que de quelques minutes pour vous familiariser avec l'interface ;
  • Parfaite intégration avec les applications bureautiques (STATISTICA) et Web (WebSTATISTICA) de StatSoft ; vous pouvez explorer, forer (drill-down), représenter de manière interactive tous vos résultats intermédiaires ;
  • Vous pouvez organiser vos résultats sous forme de rapports, feuilles de données, graphiques,..., ou les publier sur le Web ;
  • Accès à toute la bibliothèque fonctionnalités analytiques de STATISTICA ;
  • Mise à jour automatique des analyses et résultats dès que les données changent ;
  • Architecture ouverte. Intégrez vos propres algorithmes et méthodes ou utilisez des algorithmes externes ;
  • Système entièrement programmable et personnalisable (grâce aux langages de programmation standard comme le langage Visual Basic intégré, C++, C#, Java, etc...). Développez des systèmes ultra-personnalisés de data mining, spécialement adaptés à vos besoins ;
  • Déployez automatiquement les solutions en quelques secondes grâce aux outils intégrés, ou ajoutez le code-machine généré automatiquement pour le déploiement (par exemple, en C++, PMML) à vos propres programmes.

Cliquez ici pour plus d'informations sur les spécificités de STATISTICA Data Miner

Haut de la Page

STATISTICA Data Miner en installation Client-Serveur (via WebSTATISTICA)

La version bureautique de STATISTICA Data Miner est conçue pour l'environnement Windows. La version Client-Serveur de STATISTICA Data Miner est en revanche indépendante de la plate-forme sur le poste Client et se présente dans une interface basée sur le navigateur Internet ; la partie Serveur fonctionne avec les principaux systèmes d'exploitation des serveurs Web (par exemple, UNIX Apache) et avec les serveurs Wintel.

  • Parfaite intégration des outils de data mining entre les versions bureautiques et WebSTATISTICA : les modèles créés sur une plate-forme (bureautique ou STATISTICA Entreprise Server), s'exécutent parfaitement sur l'autre ; les modèles entraînés sur une plate-forme (bureautique ou STATISTICA Entreprise Server) peuvent être déployés sur l'autre plate-forme.
  • Évaluation des projets en calcul distribué et en multithreading : le programme va automatiquement tirer parti des architectures multiprocesseurs et/ou de l'architecture d'un serveur constitué de plusieurs ordinateurs pour évaluer des modèles par plusieurs processus simultanés (multithreading, calcul distribué) ; les installations de WebSTATISTICA Data Miner vous permettent donc de tirer pleinement parti de ces architectures, en offrant une puissance de calcul quasi-infinie permettant d'attaquer des bases de données extrêmement vastes pour vos projets de data mining.
  • Grande souplesse de WebSTATISTICA : analysez les données par lots (en mode "batch"), recevez des notifications par e-mail lorsque les résultats sont prêts ; partagez les résultats de vos projets de data mining dans des dossiers spécifiques (sur le serveur) ; etc...
  • Intégrez les données d'entrée, dépositaires, analystes, et utilisateurs des résultats de vos projets de data mining, où qu'ils se trouvent dans le monde ; WebSTATISTICA vous permet de vous connecter à des données situées sur un serveur (par l'intermédiaire d'Internet), de partager vos analyses avec d'autres professionnels du data mining, où qu'ils se trouvent au monde, et de déployer les solutions et les résultats pour les utilisateurs situés dans des endroits même reculés (par exemple, des directeurs d'établissement implantés en zone rurale, des ingénieurs exploitant des plates-formes de forage, des bateaux en transit maritime, etc...) ; à partir du moment où une connexion à Internet (même à faible débit) est disponible, vous pouvez faire participer ces individus à votre projet de data mining.
  • Idéal pour apprendre le data mining : les étudiants (ou stagiaires) peuvent analyser les données depuis leur domicile ou leur bureau, partout où une connexion à Internet est disponible ; les professionnels peuvent, quant à eux, terminer leurs travaux aux lieux et heures qui leur conviennent. WebSTATISTICA permet à tous et toutes de gagner en expérience en utilisant les outils de data mining les plus avancés, actuellement disponibles !
Haut de la Page


Des "Solutions Packagées" Adaptées à vos Besoins Spécifiques

Les "Solutions Packagées" de STATISTICA Data Miner sont constituées de services de consulting pour le développement initial du modèle, de sessions de formations et de projets (modèles) spécifiques de STATISTICA Data Miner, développés spécifiquement pour des domaines et applications particuliers. Chaque solution est composée au minimum de deux jours de consulting sur site et de différents modèles relatifs au domaine spécifique. Financièrement compétitives, les solutions actuellement proposées sont les suivantes :

  • Solutions CRM pour les Applications de Segmentation de Clientèle
  • Solutions CRM pour les Applications de VPC (Vente Par Correspondance)
  • Solutions pour la Gestion du Risque
  • Solutions pour la Gestion du Risque et le Traitement des Demandes de Prêts
  • Solutions pour la Gestion et la Prévision des Événements Rares
  • Solutions de Séries Chronologiques et de Prévisions Commerciales
Haut de la Page


Technologie Avancée du Logiciel = Interface Élégante et Efficace

Les noeuds et "objets" d'analyse de STATISTICA. Au coeur de STATISTICA Data Miner, plus de 300 procédures STATISTICA ultra-optimisées, efficaces et très rapides, sont présentées à l'utilisateur sous forme de noeuds, permettant de spécifier les relations entre les procédures (objets) et de contrôler la logique du projet (ainsi que le "flux" de données). Cette architecture flexible et personnalisable permet de "transporter" l'ensemble des fonctionnalités des procédures statistiques et analytiques dans un environnement de data mining sous la forme d'objets analytiques autonomes. Derrière chaque noeud, des scripts élémentaires (objets d'analyse) en langage Visual Basic, accessibles par les utilisateurs avancés du système STATISTICA Data Miner, vont définir le flux des données au travers du projet, tandis que les analyses numériques sont réalisées par les procédures analytiques de STATISTICA. Ces objets, qui permettent de nettoyer et/ou filtrer les données, ou d'analyser ces données, sont organisés dans l'Explorateur de Noeuds.
Les noeuds disponibles dans l'explorateur de noeuds (et donc disponibles pour le projet de data mining) sont les suivants :
  • Noeuds pour l'entrée et l'acquisition des données. Vous pouvez créer et stocker ici les scripts nécessaires pour vous connecter à des sources de données (protégées) situées sur un serveur distant. Bien entendu, vous pouvez également analyser des fichier de données STATISTICA ou une définition générique des données pour le traitement direct de bases de données distantes (voir la page IDBD). Dans ce dernier cas, vous n'avez pas à créer de noeud (script) particulier.
  • Noeuds pour le filtrage, le nettoyage et la vérification des données, le filtrage des prédicteurs, et l'échantillonnage. Ces options sont essentielles en data mining pour détecter et corriger des informations erronées qui risquent de biaiser les conclusions finales. Les fonctionnalités d'échantillonnage permettent d'analyser de très grands jeux de données (voir la page Benchmarks comparatifs des performances sur de gros jeux de données (en anglais)), en permettant de tirer des échantillons aléatoires ou stratifiés pour d'autres analyses. Les options de filtrage des prédicteurs permettent de sélectionner automatiquement les variables informatives (prédicteurs) parmi des centaines voire des milliers de prédicteurs possibles (voir également le paragraphe Sélection et Filtrage des Prédicteurs).
  • Noeuds analytiques. Ces noeuds contiennent toutes les fonctionnalités analytiques et graphiques de STATISTICA ; vous disposez de plusieurs centaines de procédures pour traiter tous les problèmes analytiques pouvant intervenir dans votre projet de data mining.

Création d'un projet de data mining. Vous n'avez qu'à connecter ces noeuds dans l'espace de travail du data mining.

L'espace de travail du data mining est un environnement analytique très efficace, convivial et organisé dans lequel vous pouvez vous déplacer et connecter des données, des analyses et des résultats en déplaçant simplement des icônes que vous connectez entre elles par des flèches. Vous pouvez ouvrir, modifier et exécuter simultanément autant d'espaces de travail de data mining que vous le souhaitez et déplacer des noeuds (objets) d'un espace de travail ou d'un explorateur de noeuds à un autre. L'espace de travail se divise en quatre sections :

  • Source des données. Cette section permet de spécifier la ou les sources des données (par exemple, des fichiers de données STATISTICA, la représentation des données pour le traitement direct de données situées sur des serveurs distants, des programmes générant des données par programmation, pour une utilisation en modélisation avancée).
  • Préparation des données, nettoyage, transformation. Les noeuds contenus dans cette section acceptent une ou plusieurs sources de données en entrée, et vont créer une ou plusieurs sources de données (filtrées, nettoyées, transformées) pour vos analyses ultérieures.
  • Modélisation, classification, prévision, analyse des données. Les noeuds situés dans cette section vont réaliser les analyses numériques.
  • Rapports. Cette section contient les résultats des analyses.
La création d'un projet de Data Mining est simple : sélectionnez tout d'abord une source de données ; appliquez ensuite tout type de préparation, nettoyage ou transformation des données que vous jugez nécessaire ; connecter alors les analyses souhaitées à vos données nettoyées ; il ne vous reste alors plus qu'à étudier et/ou publier les résultats. La plupart des utilisateurs de STATISTICA Data Miner n'auront jamais besoin d'aller au-delà de cette simple interface-utilisateur interactive.


Spécifier des modèles complexes. L'interface-utilisateur simple -- basée sur des sélections à la souris dans des menus et explorateurs -- vous permet de mettre en oeuvre des modèles même très avancés. Vous pouvez sélectionner parmi plusieurs "modèles" souples et complets de projets pour traiter les tâches les plus courantes en data mining. Par exemple, pour trouver un bon modèle permettant d'évaluer le risque-client des nouveaux clients sur la base de données historiques contenant différents indicateurs (prédicteurs) potentiellement intéressants, vous pouvez simplement sélectionner le projet Modèles Avancés de Régression.
Tout ce qu'il vous reste alors à faire est de connecter vos données historiques, spécifier les variables à analyser, puis "entraîner" le projet ; ainsi, en quelques secondes seulement (le temps de sélectionner le fichier de données, les variables, l'outil "flèche" permettant de connecter les données), le programme va automatiquement :

  • Créer deux échantillons pour l'apprentissage du modèle et sa validation croisée pour éviter le surapprentissage ;
  • Appliquer une régression linéaire par recherche exhaustive du meilleur modèle, des algorithmes standard d'arbres de régression, CHAID et CHAID exhaustif, un réseau de neurones perceptron multicouches à 3 couches, et un réseau de neurones de fonction radiale de base pour trouver un bon modèle de prédiction du risque-crédit ;
  • Combiner toutes les réponses dans un méta-apprentisseur qui va choisir le meilleur modèle, ou combiner les prédictions issues de plusieurs modèles.

Après avoir appliqué ces techniques de pointe pour la modélisation de relations linéaires, non-linéaires ou même chaotiques, vous êtes prêt(e) pour le déploiement. Connectez tout simplement la source des nouvelles données (nouveaux clients) au noeud Calculer la Meilleure Prévision de Tous les Modèles, et le programme va automatiquement appliquer les modèles entraînés afin d'obtenir la meilleur prévision possible.

Rapidité. Les noeuds analytiques (objets) offrent toutes les fonctionnalités de STATISTICA, encapsulées dans des noeuds que vous pouvez personnaliser à façon en utilisant le langage standard Visual Basic. Les analyses sont réalisées par les modules analytiques optimisés de STATISTICA, qui n'ont cessé d'être améliorés au cours des deux dernières décennies pour augmenter la rapidité et la capacité de traitement ainsi que la précision (voir également la page Test sur la Précision (en anglais)).

Grands jeux de données. STATISTICA Data Miner utilise un certain nombre de technologies, spécifiquement développées pour optimiser le traitement de grands jeux de données, et permet de gérer des problèmes de calcul de grande envergure sur des bases de données très importantes. Vous pouvez par exemple traiter des jeux de données comportant plus d'un million de données, et filtrer automatiquement (par diverses méthodes) ces variables pour ne retenir que les meilleurs prédicteurs ou les variables les plus pertinentes (voir également le paragraphe Sélection et Filtrage des Prédicteurs et la page Benchmarks comparatifs des performances sur de gros jeux de données (en anglais)).

Personnaliser les analyses. Vous pouvez personnaliser les analyses ou opérations de nettoyage/filtrage implémentées par les noeuds de STATISTICA Data Miner en double-cliquant simplement sur les icônes respectives. Chaque icône offre des options pour personnaliser entièrement les opérations respectives. Par exemple, le fait de cliquer sur un noeud de réseau de neurones va ouvrir une boîte de dialogue (ainsi qu'une aide associée à cette boîte) pour personnaliser l'analyse spécifique (pour modifier le nombre d'itérations, le nombre de couches dans le réseau, le niveau de détail des résultats, etc...).

Enregistrement du projet. L'ensemble du projet (espace de travail) peut être enregistré avec toutes les personnalisations, les sources de données intermédiaires, les commentaires, etc... Les analyses de routine (par exemple, pour la mise à jour régulière d'un ensemble de modèles complexes de classification basés sur différentes méthodes) peuvent être enregistrées et être appliquées à tout moment en cliquant sur un simple bouton ("mise à jour").

Note Technique : Les Scripts des Noeuds de STATISTICA Data Miner. Les routines de calcul de STATISTICA Data Miner sont extrêmement rapides et ultra-optimisées. Par exemple, dans l'environnement Client-Serveur de WebSTATISTICA, le programme va automatiquement tirer profit des architectures multi-processeurs et/ou des différents ordinateurs du serveur (à condition de disposer du matériel nécessaire), pour évaluer les modèles par plusieurs processus simultanés (multithreading, calcul distribué). En outre, les routines de traitement ultra-optimisées sont sans commune mesure avec celles d'autres logiciels comme vous pourrez le constater dans les comparaisons deux à deux qui ont été réalisées (voir la rubrique Benchmarks sur la page d'accueil du site www.statsoft.com pour plus d'informations). Les utilisateurs avancés trouveront cependant la personnalisation du système particulièrement simple : Chaque noeud de STATISTICA Data Miner est constitué d'un script STATISTICA Visual Basic standardisé (qui appelle les procédures respectives de STATISTICA), vous donnant accès à des fonctions supplémentaires et une interface-utilisateur, permettant de personnaliser davantage les analyses. Il n'est pas nécessaire de modifier ou de personnaliser ces scripts. Toutefois, si votre département informatique ou des consultants souhaitent insérer des algorithmes propriétaires dans STATISTICA Data Miner, la procédure est très simple. Vous pouvez effectuer autant d'opérations numériques, propriétaires ou ultra-personnalisées, que vous le souhaitez à l'intérieur de ces scripts, pour modifier l'aspect des données, ou appliquer l'un des milliers de fonctions analytiques disponibles sous forme de simples appels de fonctions depuis C++ ou STATISTICA Visual Basic. Cette architecture ouverte généraliste de STATISTICA Data Miner offre de nombreux avantages spécifiques (pour un logiciel de data mining) ; vous trouverez davantage d'informations dans la section traitant des Spécificités).

  • Chaque noeud peut traiter plusieurs sources de données en entrée et plusieurs sources de données en sortie ; des opérations identiques peuvent être appliquées à plusieurs sources de données grâce à un seul noeud.
  • Une source de données peut être la représentation logique d'une base de données, ne résidant pas nécessairement (physiquement) sur la machine exécutant STATISTICA Data Miner. La base de données ne doit pas non plus être copiée en local, ce qui constitue un avantage énorme pour le traitement de jeux de données importants, qui sont souvent utilisés en data mining (voir la page concernant la Technologie IDBD).

  • Vous pouvez réaliser des opérations sur une ou plusieurs sources de données ; par exemple, vous pouvez fusionner des données issues de différentes bases de données distantes dans un même fichier de données, afin de les traiter avec les noeuds analytiques de STATISTICA Data Miner.
  • Visual Basic, lui-même, est un langage simple, orienté objet, disponible dans la plupart des programmes d'application standard. Il offre un nombre pratiquement illimité de ressources de programmation, de programmeurs expérimentés et talentueux, et d'applications tierce partie prêtes à l'emploi qui peuvent être intégrées avec STATISTICA Data Miner. De même, STATISTICA Data Miner peut être intégré à d'autres applications, par exemple, pour envoyer automatiquement les résultats vers le WEB ou par e-mail, ou pour exporter les résultats dans d'autres applications. En outre, une version de STATISTICA Data Miner entièrement basée sur le Web grâce à la technologie de WebSTATISTICA est disponible.
  • Les fonctionnalités d'enregistrement des macros vont automatiquement enregistrer les analyses interactives. Ces enregistrements peuvent alors aisément être convertis en scripts pour créer des noeuds personnalisés.
  • Lorsque cela est possible, les analyses de STATISTICA comportent des options pour générer le code STATISTICA Visual Basic pour le déploiement (par exemple, pour des réseaux de neurones entraînés) ; ces scripts peuvent être utilisés directement dans des scripts pour le déploiement de noeuds personnalisés.
Déploiement des solutions. Les résultats des analyses réalisées par STATISTICA Data Miner peuvent être déployées (appliquées à de nouvelles données ou utilisées dans d'autres systèmes automatisés de traitement des données) de plusieurs façons.
  • Déploiement automatique des modèles. Les modèles de data mining avec déploiement pour les principaux types d'analyses peuvent être sélectionnés par des options dans les menus déroulants : sélectionnez un modèle, connectez les données d'apprentissage pour estimer les modèles, et vous êtes prêt(e) pour appliquer la meilleure solution (solution moyenne, solution votée, etc...) aux nouvelles données. L'utilisateur final n'a besoin que de connecter les nouvelles données au noeud de déploiement pour calculer les prévisions, les classifications, etc...
  • Déploiement rapide des modèles prédictifs basé sur le langage PMML. Les options de Déploiement Rapide des Modèles Prédictifs constituent la manière la plus efficace et rapide pour calculer les prévisions à partir de modèles déjà entraînés ; en fait, vous aurez du mal à "battre" les performances (en termes de rapidité de calcul) de cet outil, même si vous écrivez votre propre code compilé en C++, à partir du code de déploiement (C, C++, ou C#) produit par les modèles respectifs. Les options de Déploiement Rapide de Modèles Prédictifs vous permettent de charger un ou plusieurs fichiers PMML contenant l'information du déploiement, et de calculer très rapidement (par un seul passage sur les données) les prévisions pour un grand nombre d'observations (pour un ou plusieurs modèles). Les fichiers PMML (Predictive Models Markup Language) peuvent être générés à partir de la plupart des procédures analytiques de data mining prédictif (ainsi que pour les options Classification Généralisée EM & k-Moyennes). Le langage PMML est basé sur le langage XML (Extensible Markup Language) et représente un ensemble de conventions de syntaxe standard particulièrement bien adapté au partage de l'information du déploiement dans une architecture Client-Serveur (par exemple, par l'intermédiaire de WebSTATISTICA).
  • Options de générateur de code C, C++, C#, Visual Basic. Des options de générateur de code sont également disponibles pour les problèmes de type régression (prévision de variables continues), classification (prévision de variables catégorielles) et clustering. Vous pouvez par exemple enregistrer le code C++ ou le code Visual Basic qui implémente la prévision à partir des algorithmes d'arbres de classification, d'analyse discriminante linéaire, de modèles linéaires généralisés, de réseaux de neurones, des solutions MARSplines (multivariate adaptive regression splines), ou de classification EM ou k-moyennes (apprentissage non supervisé), etc... Le code généré par ces options peut être rapidement intégré dans des programmes personnalisés pour le déploiement. Par exemple, le code Visual Basic généré à partir des modules analytiques de STATISTICA va s'intégrer parfaitement à l'architecture de STATISTICA Data Miner (voir Note Technique). À partir du code Visual Basic généré par STATISTICA, le déploiement de noeuds personnalisés peut être programmé en quelques minutes, même par des programmateurs novices ou inexpérimentés.
Haut de la Page


Utiliser STATISTICA Data Miner avec de Grosses Volumétries

Tous les logiciels de la gamme STATISTICA, notamment STATISTICA Data Miner, ont été spécifiquement optimisés pour traiter efficacement des jeux de données gigantesques (voir la page Benchmarks comparatifs des performances sur de gros jeux de données (en anglais)), avec des millions d'observations (enregistrements) et des millions de variables (champs).

Traiter des bases de données dépassant les capacités de stockage de votre ordinateur local. STATISTICA Data Miner (et éventuellement d'autres logiciels de la gamme STATISTICA) peut traiter directement les informations contenues dans des bases de données (distantes) grâce à sa technologie optimisée d'Interface Directe avec les Bases de Données (IDBD), qui combine les ressources du serveur de bases de données et de l'ordinateur local pour (a) réaliser les requêtes (en utilisant l'unité centrale du serveur où se trouve la base de données) et en même temps (b) traiter les enregistrements récupérés "à la volée" sur la machine locale (en utilisant le CPU de l'ordinateur local (client)). Vous pouvez ainsi traiter des bases de données dépassant les capacités de stockage de votre machine en local, et gagner significativement en performances puisque vous n'avez pas besoin d'importer préalablement les données sur la machine en local avant de pouvoir les traiter. La plupart des formats courants de bases de données sont compatibles, et vous disposez d'outils puissants pour définir la connexion à la base de données (requête).

Traiter des bases de données avec de très nombreuses variables (champs) : Les fonctionnalités de Sélection et Filtrage des Prédicteurs. Lorsque le nombre de variables du fichier de données d'entrée est extrêmement important, STATISTICA Data Miner peut sélectionner automatiquement des sous-ensembles de variables, parmi même plus d'un million de variables (candidates) pour du data mining prédictif. Des algorithmes très rapides et efficaces vont sélectionner les variables (caractéristiques) susceptibles d'être les prédicteurs les plus pertinents du fichier de données courant, sans introduire de biais dans la construction ultérieure des modèles de data mining prédictif.

Traitement de fichiers de données avec de très nombreuses observations (enregistrements) : Échantillonnage aléatoire souple et efficace. Les logiciels de la gamme STATISTICA (notamment STATISTICA Data Miner) peuvent traiter des fichiers de données avec un nombre d'observations (enregistrements) pratiquement illimité et offrent des procédures d'accès aux données fortement optimisées. Toutefois, l'utilisation de tous les enregistrements dans les analyses lorsque le nombre d'enregistrements est très important est (a) parfaitement inutile, (b) très long, et (c) souvent irréaliste voire impossible (dans certains cas extrêmes, la simple lecture des enregistrements peut prendre plusieurs heures). Pour accélérer le processus analytique, STATISTICA Data Miner comporte des outils sophistiqués pour tirer des échantillons aléatoires ou des échantillons aléatoires stratifiés issus de jeux de données énormes (bases de données). L'utilisateur peut rapidement tirer des échantillons aléatoires simples ou systématiques, de la taille souhaitée, avec ou sans remise, à partir de très nombreuses données (par exemple, avec plusieurs millions d'enregistrements) pour ses analyses ultérieures utilisant des outils de modélisation sophistiqués pouvant nécessiter plusieurs passages dans les données (par exemple les réseaux de neurones, les modèles linéaires généralisés, etc...). Le sous-échantillonnage aléatoire est basé sur le générateur validé de nombres aléatoires de STATISTICA. Notez que STATISTICA est l'un des rares logiciels à avoir passé avec succès les tests les plus poussés et les plus reconnus d'échantillonnage aléatoire (la série de tests DIEHARD (en anglais)).

Évaluation des projets en calcul distribué et en multithreading dans l'environnement Client-Serveur. L'installation WebSTATISTICA Client-Serveur de STATISTICA Data Miner offre d'autres avantages pour le traitement de très gros jeux de données. Le programme va automatiquement tirer parti de l'architecture multiprocesseurs et/ou des différents ordinateurs du serveur (à condition de disposer du matériel nécessaire), pour évaluer les modèles par plusieurs processus simultanés. En considérant la baisse des prix du matériel informatique en général et des serveurs puissants en particulier (avec plusieurs processeurs, ou des installations multi-serveurs), la possibilité de WebSTATISTICA Data Miner pour tirer pleinement parti de ces architectures offre une flexibilité infinie pour étendre et développer le système afin d'explorer des bases de données même immenses.

Haut de la Page


Outils de Data Mining

STATISTICA Data Miner offre la gamme la plus complète de techniques statistiques, exploratoires et de représentation disponible sur le marché, y compris des procédures de pointe, ultra-efficaces, de réseaux de neurones/machine learning et de classification. En outre, toutes les fonctionnalités analytiques de STATISTICA sont accessibles pour le data mining, sous forme de plus de 300 noeuds encapsulés que vous pouvez sélectionner dans un Explorateur de Noeuds, structuré et personnalisable, pour les déplacer dans l'espace de travail du data mining.

Les outils spécialisés de data mining sont optimisés pour une rapidité et une efficacité optimale. Ils peuvent être classés en cinq grandes catégories (chacune comprenant différents modules STATISTICA, certains n'étant proposés que dans l'environnement de STATISTICA Data Miner) :

Explorateur/Segmenteur Général avec Drill-Down. Un grand nombre de noeuds analytiques vous permet de créer des graphiques exploratoires, de calculer des statistiques descriptives, de croiser vos données, etc... Ces noeuds peuvent être connectés aux sources de données d'entrée, mais aussi à tous les résultats intermédiaires. Un module spécialisé de STATISTICA (STATISTICA Drill-Down Interactif) permet d'explorer de façon interactive les données en forant (drill-down) les variables sélectionnées, ou les catégories ou intervalles de valeurs de ces variables. Par exemple, vous pouvez effectuez un drill-down selon le Sexe, pour n'afficher la distribution du Revenu que pour les femmes ; vous pouvez poursuivre sur un groupe de revenu spécifique, pour explorer (par exemple créer une synthèse graphique pour) les variables sélectionnées, pour les femmes et pour ce groupe de revenu sélectionné uniquement. L'une des spécificités de STATISTICA Drill-Down Interactif est la possibilité qu'il offre de sélectionner et désélectionner les variables et les catégories utilisées pour le drill-down, dans n'importe quel ordre. Vous pourriez donc ensuite désélectionner la variable Sexe et afficher les graphiques et statistiques sélectionnées pour ce groupe de Revenu particulier, mais pour les hommes et les femmes ensemble cette fois. Une autre spécificité du Drill-Down Interactif est la diversité des méthodes de catégorisation ("slicing") proposées. Ainsi, le module Drill-Down Interactif fournit une souplesse énorme pour forer vos données ("slicing-and-dicing"). Vous pouvez utiliser STATISTICA Drill-Down Interactif sur des données brutes, des connexions à des bases de données pour le traitement direct de bases de données distantes ou pour tout résultat intermédiaire calculé dans un projet de STATISTICA Data Miner.

Classification Supervisée et Non Supervisée. STATISTICA Data Miner propose la plus grande sélection d'outils pour appliquer les techniques de classification du data mining (et construire les modèles respectifs que vous pouvez ensuite déployer), notamment les modèles linéaires généralisés (pour des réponses binomiales et multinomiales), les Arbres de Classification, les Modèles d'Arbres de Classification et de Régression (GTrees), les Modèles CHAID, les Classifications (avec les techniques de CAH pour de nombreuses données, et de classification généralisée par les k-moyennes et EM avec des options de validation croisée par v-ensembles pour déterminer automatiquement le meilleur nombre de clusters), et les Modèles Généraux d'Analyse Discriminante (avec notamment la sélection par recherche exhaustive des meilleurs prédicteurs). En outre, les nombreuses méthodes avancées de classification par réseaux de neurones disponibles dans STATISTICA Réseaux de Neurones Automatisés sont disponibles dans STATISTICA Data Miner et peuvent être utilisées à la place ou en complément d'autres techniques de classification.

  • Déploiement. Le programme permet, lorsque c'est possible, de générer le code C, C++, STATISTICA Visual Basic ou PMML (en syntaxe XML) pour le déploiement des solutions finales dans vos programmes personnalisés. Les modèles sont également disponibles automatiquement pour le déploiement après apprentissage ; tout ce qu'il vous reste à faire est alors de connecter les nouvelles données au noeud spécial du déploiement pour calculer les classifications prévues.

Modélisation Générale et Exploration Multivariée. STATISTICA Data Miner propose la plus grande sélection d'outils pour construire des modèles déployables de data mining, basés sur des techniques linéaires, non linéaires ou de réseaux de neurones ainsi que des outils d'exploration de données. L'utilisateur a aussi la possibilité de construire des modèles prédictifs basés sur des techniques multivariées généralistes. En résumé, STATISTICA offre un ensemble complet de techniques, avec des modèles linéaires et non-linéaires de régression, des modèles linéaires généralisés, des modèles additifs généralisés, des arbres de régression et modèles CHAID, ou des méthodes avancées de réseaux de neurones ou de MARSplines (multivariate adaptive regression splines). STATISTICA Data Miner offre également diverses techniques qui ne sont généralement par proposées dans les logiciels de data mining, comme les méthodes PLS (pour la sélection des prédicteurs à partir d'un grand nombre de variables), les analyses de survie (pour analyser des données contenant des observations censurées, par exemple en recherche médicale et dans les études de contrôle qualité du secteur industriel), les techniques de modélisation d'équations structurelles (pour construire et évaluer la validité de modèles confirmatoires linéaires), l'analyse des correspondances (pour analyser la structure de tables complexes), l'analyse factorielle et l'analyse de proximité (pour explorer un grand nombre de variables), et bien d'autres.

Voir le descriptif du produit STATISTICA Statistiques Avancées pour une présentation complète des techniques d'exploration multivariée et de modélisation disponibles dans le produit.

  • Déploiement. Le programme permet, lorsque c'est possible, de générer le code C, C++, STATISTICA Visual Basic ou PMML (en syntaxe XML) pour le déploiement des solutions finales dans vos programmes personnalisés. Les modèles sont également disponibles automatiquement pour le déploiement après apprentissage ; tout ce qu'il vous reste à faire est alors de connecter les nouvelles données au noeud spécial du déploiement pour calculer les valeurs prévues.
Prévisions et Séries Chronologiques. STATISTICA Data Miner inclut une vaste sélection de techniques de prévision traditionnelles (c'est-à-dire non basées sur les réseaux de neurones), notamment par l'ARIMA, le lissage exponentiel avec des composantes saisonnières, la décomposition spectrale de Fourier, la décomposition saisonnière, l'analyse des décalages polynomiaux ou par régression, etc...), ainsi que des méthodes neuronales pour des données issues de séries chronologiques.
  • Déploiement. Les prévisions peuvent être automatiquement calculées pour plusieurs modèles dans les projets de data mining, et représentées sur un même graphique dans une optique comparative. Par exemple, vous pouvez calculer et comparer les prévisions issues de plusieurs modèles ARIMA, différentes méthodes de lissage exponentiel saisonnier et non-saisonnier et les meilleures architectures de réseaux de neurones de série chronologique (après avoir effectué une recherche parmi plus de 100 architectures différentes).

Modélisation par Réseaux de Neurones. Cet outil contient la gamme la plus complète de méthodes de réseaux de neurones disponible sur le marché. Cette puissante composante de STATISTICA Data Miner offre des outils pour aborder efficacement la plupart des problèmes du data mining (notamment la classification, la détection des structures cachées et des prévisions puissantes). La Modélisation par Réseaux de Neurones repose sur des Assistants automatiques qui utilisent des méthodes d'Intelligence Artificielle pour vous aider à résoudre les problèmes les plus difficiles qui peuvent survenir lors d'analyses neuronales avancées (comme la sélection de la meilleure architecture du réseau et la sélection du meilleur groupe de prédicteurs). Cet explorateur offre la plus vaste sélection de procédures et d'architectures de réseaux de neurones, avec des algorithmes ultra-optimisés : perceptrons multicouches, réseaux RBF (Fonction Radiale de Base), réseaux de neurones probabilistes (PNN), réseaux de neurones de régression généralisée (GRNN), cartes auto-organisatrices de Kohonen, modèles linéaires, réseaux en composantes principales et réseaux de clusters. Vous pouvez également évaluer des ensembles de réseaux de ces architectures. Les méthodes d'estimation utilisent les algorithmes de rétro-propagation, de descente du gradient conjugué, quasi-Newton, de Levenberg-Marquardt, de propagation rapide, delta-barre-delta, LVQ, de segmentation, et bien plus encore. Vous disposez en outre d'options pour la validation croisée, le bootstrap, le sous-échantillonnage, l'analyse de sensibilité, etc...

  • Déploiement. STATISTICA Réseaux de Neurones Automatisés offre des options pour générer le code C, C++, C# et STATISTICA Visual Basic pour un ou plusieurs réseaux entraînés ou pour des ensembles de réseaux. Ce code peut être rapidement incorporé dans vos programmes de déploiement personnalisés. En outre, vous pouvez sauvegarder les réseaux de neurones et les ensembles de réseaux de neurones entraînés, afin de les utiliser ultérieurement pour calculer les réponses prévues ou les classifications sur de nouvelles données. Vous pouvez alors déplacer un noeud de déploiement dans l'espace de travail du data miner pour réaliser les prévisions et les classifications prédictives à partir de réseaux de neurones entraînés automatiquement ; tout ce qu'il vous reste à faire (une fois les architectures des réseaux entraînées), c'est de connecter les données pour le déploiement.
Haut de la Page


Modules Spécialisés de Data Mining

La plupart des fonctions analytiques utilisées dans STATISTICA Data Miner sont pilotées par les moteurs de calcul des modules inclus dans les différents logiciels de la gamme STATISTICA (voir la page Les Modules Analytiques pour davantage d'informations sur ces modules) :

  • Les techniques de réseaux de neurones (la plus vaste gamme d'architectures actuellement disponible, des outils de résolution automatique des problèmes, des techniques avancées de sélection des prédicteurs).

  • Tous les Outils Graphiques de STATISTICA et les outils interactifs d'exploration/représentation ; les Statistiques Descriptives, Décompositions, et Analyses Exploratoires ; les Tables de Fréquence, Tableaux et Tris Croisés, Analyse de Réponses Multiples ; les Tests Non-paramétriques ; l'Ajustement de Distributions ; les Techniques de Puissance de Test.

  • Les Modèles Linéaires Généraux (GLM) ; les Modèles Généraux de Régression (GRM) ; les Modèles Linéaires Généralisés (GLZ) ; les Modèles PLS (Partial Least Squares) ; la Décomposition de la Variance et le Modèle Mixte ANOVA/ANCOVA ; l'Analyse de Survie/Temps à l'Échec ; l'Estimation Non-linéaire avec Régression Logit et Probit ; l'Analyse Log-Linéaire de Tables de Fréquences ; les Séries Chronologiques ; la Modélisation d'Équations Structurelles (SEPATH).

  • Les techniques de Classification ; l'Analyse Factorielle ; l'ACP "à la française" ; l'Analyse Canonique ; la Fiabilité et Analyse d'Échelle ; les Arbres de Décision ; l'Analyse des Correspondances ; l'Analyse de Proximité ; l'Analyse Discriminante ; l'Analyse Discriminante Générale (GDA).

  • Des modules optionnels de Cartes de Contrôle, d'Analyse de Processus, et de procédures de Plans d'Expériences.

Cependant, certains modules comportent des techniques ultra-spécialisées de data mining et autres techniques de modélisation de data mining qui ne sont proposées que dans STATISTICA Data Miner. Vous trouverez ci-dessous des informations techniques concernant ces modules.

SÉLECTION ET FILTRAGE DES PRÉDICTEURS. Ce module va automatiquement sélectionner des sous-ensembles de variables à partir de jeux de données ou de bases de données gigantesques pour un traitement direct. Le module peut traiter un nombre quasi-illimité de variables : il peut balayer plus d'un million de variables en entrée et retenir les meilleurs prédicteurs pour des tâches de régression ou de classification. Plus particulièrement, le programme comporte diverses options pour sélectionner les variables ("caractéristiques") susceptibles d'être utiles ou informatives dans des analyses spécifiques ultérieures. Les algorithmes spécifiques du module Sélection et Filtrage des Prédicteurs vont sélectionner les variables prédictives continues et catégorielles qui présentent une relation avec les variables dépendantes continues ou catégorielles, que cette relation soit simple (par exemple, linéaire) ou complexe (non-linéaire, non-monotone). Ainsi, le programme ne biaise pas la sélection en faveur d'un modèle en particulier que vous pourriez utiliser pour découvrir une meilleure règle finale, une équation, etc... pour réaliser la prévision ou la classification. Diverses options avancées de sélection des prédicteurs sont également disponibles. Ce module est particulièrement utile en complément de l'Interface Directe avec les Bases de Données (IDBD) (qui évite d'avoir à copier ou importer les données d'entrée sur la machine en local), puisqu'elle permet d'examiner de longues listes de variables en entrée, de sélectionner les candidats potentiels contenant l'information pertinente pour les analyses souhaitées, et de sélectionner automatiquement ces variables pour les analyses ultérieures avec d'autres noeuds du projet du data miner. Les sous-ensembles de variables ainsi sélectionnées par ce module pourront alors être soumises à d'autres méthodes de sélection des prédicteurs par réseaux de neurones, MAR Splines, classification ou régression linéaire, ou CHAID. Ces options permettent à STATISTICA Data Miner de gérer des fichiers de données de plusieurs giga ou téraoctets (voir la page Benchmarks comparatifs des performances sur de gros jeux de données (en anglais).

Haut de la Page


RÈGLES D'ASSOCIATION. Ce module comporte une implémentation complète de l'algorithme de détection a priori des règles d'association (également connu sous le nom "panier de la ménagère") du type "les clients qui commandent le produit A, commandent aussi généralement le produit B ou C" ou "les salariés satisfaits de l'initiative X, se plaignent également souvent de la question Y mais sont contents de la question Z" (voir Agrawal et Swami, 1993 ; Agrawal et Srikant, 1994 ; Han et Lakshmanan, 2001 ; voir également Witten et Frank, 2000). Le module STATISTICA Règles d'Association vous permet de traiter rapidement les associations (relations) sur de grands jeux de données, avec des "niveaux" prédéfinis pour la détection. Plus précisément, le programme va détecter des relations ou des associations entre des modalités spécifiques de vos variables catégorielles, dans de grands jeux de données. Il s'agit d'une tâche courante dans de nombreux projets de data mining s'appliquant à des bases de données contenant l'enregistrement des transactions des clients (par exemple, les articles achetés par chaque client), et dans le domaine du "text mining". Comme dans tous les modules de STATISTICA, les données contenues dans des bases de données externes peuvent être traitées directement par le module STATISTICA Règles d'Association (voir les informations concernant la Technologie IDBD) afin de permettre au programme de gérer efficacement des tâches analytiques très lourdes.

Les résultats peuvent être affichés dans des tableaux, mais aussi dans des graphiques en 2D et en 3D où les associations les plus fortes sont représentées par des traits plus épais entre les éléments respectifs :


 


Haut de la Page


DRILL-DOWN INTERACTIF. L'une des étapes préliminaires dans de nombreux projets de data mining consiste à explorer les données de façon interactive, afin d'avoir une première "impression" des types de variables des analyses, et de leurs possibles relations. L'objectif du Drill-Down Interactif est de fournir une combinaison d'outils graphiques, d'analyse exploratoire et de croisements qui vont vous permettre d'étudier rapidement la distribution des variables des analyses, leurs relations avec d'autres variables, et d'identifier les observations appartenant à des sous-groupes spécifiques dans les données.

Comment Fonctionne le Drill-Down Interactif. La métaphore du forage ("drill-down") dans le contexte du data mining résume bien les opérations élémentaires de ce processus analytique : le programme vous permet de sélectionner des observations issues de grands jeux de données en sélectionnant des sous-groupes sur la base de modalités spécifiques ou d'intervalles de valeurs de certaines variables intéressantes (par exemple le Sexe et le Montant Moyen de la Commande dans l'exemple ci-dessus) ; d'une certaine manière, vous pouvez mettre en évidence les "couches les plus profondes" ou les "strates" de vos données en étudiant des sous-ensembles d'observations de plus en plus petits, déterminés par des filtres logiques de plus en plus complexes.

Drilling "up." La nature interactive du Drill Down vous permet non seulement de forer les données ou les bases de données par drill-down (en sélectionnant des groupes d'observations avec des filtres de sélection de plus en plus spécifiques et complexes), mais également d'effectuer l'opération inverse ("drill-up") : vous pouvez, à tout moment, sélectionner des groupes de variables (catégories) précédemment sélectionnées et les désélectionner dans la liste des conditions du drill-down ; lors du traitement des données, le programme ne va retenir que les observations répondant à ces nouveaux filtres de sélection logiques, et actualiser les résultats en conséquence.

Applications du Drill-Down Interactif. L'exemple illustré précédemment est très simple, et ne présente que les fonctionnalités élémentaires du programme. La véritable puissance de STATISTICA Drill-Down Interactif réside dans les différents résultats auxiliaires qui peuvent être mis à jour automatiquement lors de l'exploration interactive par drill-down/up. Vous pouvez sélectionner une liste de variables à étudier, et calculer pour les observations sélectionnées :

  • des statistiques descriptives et des tables de fréquences ;
  • des boîtes à moustaches synthétisant la distribution de variables continues ;
  • des nuages de points matriciels synthétisant la relation entre des variables continues ;
  • toutes les autres analyses statistiques et graphiques disponibles dans STATISTICA en extrayant les observations appartenant au sous-ensemble actuel ;

Par exemple, vous pouvez analyser les types d'achats effectués par des clients selon différents critères démographiques, étudier l'efficacité de certains médicaments dans différents groupes de traitement, selon différentes tranches d'âges, etc..., ou extraire les clients potentiels pour un nouveau produit, à partir d'une base de données de clients existants, sur la base d'une étude minutieuse de segments apparents (marchés) identifiés par drill-down.

Haut de la Page


CLASSIFICATION GÉNÉRALISÉE EM & K-MOYENNES. Le module STATISTICA Classification Généralisée EM (Expectation Maximization) et k-Moyennes est une extension des techniques de classification proposées dans le module généraliste STATISTICA Classifications. Ce module a été spécifiquement conçu pour traiter de gros jeux de données, permettre la classification de variables continues et/ou catégorielles, et offrir la possibilité de réaliser un apprentissage non supervisé complet (clustering) pour la reconnaissance de structure, avec toutes les options nécessaires au déploiement de la classification prédictive. Diverses options de validation croisée (notamment des options de validation croisée modifiée par v-ensembles) permettent de choisir automatiquement et d'évaluer une solution finale optimale pour un problème de classification ; vous n'avez pas besoin de spécifier le nombre de clusters avant l'analyse puisque le programme va utiliser des méthodes automatiques (basées sur la validation croisée) pour choisir une solution de classification optimale (nombre de clusters) ! La technique de Classification avancée EM proposée dans ce module est parfois appelée classification probabiliste ou classification statistique. Le programme va classer les observations en fonction des variables continues et catégorielles, en supposant différentes distributions pour les variables des analyses (comme spécifié par l'utilisateur). Divers graphiques (par exemple, les tracés des distributions de la classification EM) et tableaux numériques sont produits, ainsi que des statistiques détaillées de la classification pour chaque observation. Ces méthodes sont optimisées pour traiter de très gros jeux de données, et différents résultats permettent de simplifier les analyses ultérieures en utilisant l'affectation des observations aux classes. Vous pouvez également déployer les solutions de la classification (en langage C, C++, C#, Visual Basic, ou PMML (basé sur la syntaxe XML)), pour classer de nouvelles observations.

Haut de la Page


MODÈLES ADDITIFS GÉNÉRALISÉS (GAM). Le module STATISTICA Modèles Additifs Généralisés met en oeuvre les méthodes développées et vulgarisées par Hastie et Tibshirani (1990) ; vous trouverez davantage d'informations dans l'ouvrage de Schimek (2000). Le programme permet de traiter des variables prédictives continues et catégorielles. Remarque : STATISTICA Statistiques Avancées propose une gamme complète de méthodes pour ajuster des modèles non-linéaires à vos données, comme le module d'Estimation Non Linéaire, le Modèle Linéaire Général, etc...

Fonctions de répartition et de liaison. Le programme permet à l'utilisateur de choisir parmi une large gamme de fonctions de répartition pour la variable dépendante, et de fonctions de liaison pour les effets des variables prédictives sur la variable dépendante :

Fonction de liaison Log : f(z) = log(z)
Fonction de liaison Inverse : f(z) = 1/z
Fonction de liaison Identité : f(z) = z

Distribution Binomiale :

Fonction de liaison Logit : f(z)=log(z/(1-z))

Lissage du nuage de points. Le programme utilise un lissage cubique avec des degrés de liberté définis par l'utilisateur pour trouver une (fonction de) transformation optimale des variables prédictives.

Résultats statistiques. Le programme va reporter un ensemble complet de résultats statistiques pour permettre d'évaluer l'adéquation du modèle, son ajustement et à interpréter les résultats. En particulier, les résultats incluent : l'historique des itérations de l'ajustement du modèle, des statistiques de synthèse avec notamment le R2 global (calculé à partir de la statistique de déviance), les degrés de liberté du modèle et des statistiques descriptives détaillées concernant des réponses prévues, les résidus et le lissage des variables prédictives. Les graphiques de résultats comprennent les tracés des réponses observées selon les résidus, des valeurs prévues selon les résidus, les histogrammes des valeurs observées et des résidus, les droites de Henry des résidus, et les tracés des résidus partiels de chaque prédicteur, représentant un ajustement par lissage spline cubique de la solution finale ; pour les réponses binaires (par exemple, pour les modèles logit), les courbes de Lift peuvent également être calculées.

Haut de la Page


MODÈLES D'ARBRES DE CLASSIFICATION ET DE RÉGRESSION (GTrees). Ce module met en oeuvre l'ensemble des méthodes décrites par Breiman, Friedman, Olshen et Stone (1984) sous la dénomination C&RT. Cependant, le module GTrees contient diverses extensions et options qui ne sont pas généralement par présentes dans l'implémentation de cet algorithme et qui s'avèrent particulièrement utiles pour les applications de data mining.

Interface-Utilisateur ; spécification des "modèles". En plus des analyses standard (décrites par Breiman, et al.), l'implémentation de ces méthodes dans STATISTICA vous permet d'utiliser des modèles de type ANOVA/ANCOVA avec des variables prédictives continues et/ou catégorielles, et leurs interactions. Trois interfaces-utilisateur différentes vous sont proposées pour spécifier les modèles (voir la page Analyser des Modèles Linéaires et Non-Linéaires). En résumé, vous pouvez spécifier vos modèles de type ANOVA/ANCOVA dans des boîtes de dialogue, à l'aide d'Assistants, ou en syntaxe de commande (du modèle) ; en-outre, la syntaxe de commande est compatible entre les modules, ce qui vous permet d'appliquer rapidement des modèles identiques à des analyses très différentes (par exemple, pour comparer la qualité de la classification en utilisant les Modèles Généraux d'Analyse Discriminante (GDA) ou les Modèles d'Arbres de Classification et de Régression (GTrees)).

Élagage de l'arbre, sélection, validation. Le programme propose un grand nombre d'options pour contrôler la construction de l'arbre, son élagage et la sélection de la meilleure solution (celle qui ajuste le mieux). Pour les variables dépendantes continues (critères), l'élagage de l'arbre peut être basé sur la variance, ou sur un élagage de type FACT. Pour les variables dépendantes catégorielles (critères), l'élagage de l'arbre peut être basé sur les erreurs de mauvaise classification, la variance ou un élagage de type FACT. Vous pouvez spécifier le nombre maximum de noeuds de l'arbre ou le n minimum par noeud. Des options permettent de valider le meilleur arbre de décision, en utilisant la validation croisée par V-ensembles, ou en appliquant l'arbre de décision aux nouvelles observations d'un échantillon de validation. Pour les variables dépendantes catégorielles (critères), c'est-à-dire pour des problèmes de classification, vous pouvez choisir diverses mesures pour modifier l'algorithme et évaluer la qualité de l'arbre de classification final. Vous pouvez spécifier des probabilités a priori et des risques de mauvaise classification personnalisés ; la qualité d'ajustement peut être mesurée par le coefficient de Gini, le Chi-deux et le G-deux.
Valeurs manquantes et division des remplaçants. Vous pouvez gérer les valeurs manquantes des prédicteurs en permettant au programme de déterminer les divisions des variables remplaçantes, c'est-à-dire des variables similaires à la variable respective utilisée pour une division particulière (noeud).

Modèles de type ANOVA/ANCOVA. En plus des analyses traditionnelles de type CART®, vous pouvez combiner des variables prédictives continues et catégorielles dans des modèles de type ANOVA/ANCOVA et réaliser les analyses utilisant une matrice du modèle pour les variables prédictives. Ceci vous permet d'évaluer et de comparer des modèles prédictifs complexes, et d'apprécier leur efficacité en termes de prévision et de classification à l'aide de diverses techniques analytiques (par exemple Modèle Linéaire Général, Modèles Linéaires Généralisés, Modèles Généraux d'Analyse Discriminante, etc...).

Explorateur d'arbres. Outre les représentations graphiques standard des arbres obtenus, vous pouvez afficher ces arbres dans un explorateur qui vous permet de réduire ou de développer les noeuds de l'arbre, et ainsi vérifier rapidement les principales informations de la classification ou du noeud respectif de l'arbre. Par exemple, vous pouvez mettre en surbrillance (cliquer sur) un noeud particulier dans l'explorateur et immédiatement observer la classification et le taux de mauvaise classification de ce noeud particulier. L'explorateur d'arbres est une fonctionnalité très efficace et intuitive pour examiner la structure d'arbres complexes, en utilisant des méthodes qui sont assez répandues dans les applications Windows pour visualiser des informations structurées de façon hiérarchique. Vous pouvez afficher plusieurs explorateurs simultanément, avec l'arbre final et différents sous-arbres obtenus après segmentation d'arbres plus importants, et en plaçant les différents explorateurs les uns à côté des autres afin de comparer la structure des arbres et des sous-arbres. L'explorateur d'arbres de STATISTICA est une innovation importante dans l'aide à l'interprétation d'arbres de décision complexes.

Arbres de Décision Interactifs. Vous pouvez aussi étudier les arbres de façon interactive, soit à l'aide des outils de balayage de STATISTICA, soit en plaçant les graphiques de grands arbres dans des fenêtres graphiques avec des barres de défilement pour inspecter ces graphiques importants dans des fenêtres déroulantes.

Résultats statistiques. Le module STATISTICA GTrees propose un grand nombre de résultats. Vous pouvez accéder aux résultats de synthèse de chaque noeud, aux résultats détaillés des classifications, aux gains, coûts de classification... Vous pouvez également produire différentes synthèses graphiques, notamment des histogrammes (pour les problèmes de classification) de chaque noeud, des tracés détaillés des variables dépendantes continues (par exemple, des droites de Henry, des nuages de points), et des tracés parallèles de coordonnées pour chaque noeud, donnant une vue synthétique de la structure des réponses pour des problèmes importants de classification. Comme dans toutes les procédures statistiques de STATISTICA, tous les résultats numériques peuvent être utilisés en entrée d'autres analyses, ce qui vous permet d'explorer rapidement et de poursuivre l'analyse des observations d'un noeud particulier (par exemple, vous pouvez utiliser le module GTrees pour produire une première classification des observations, puis utiliser le meilleur groupe de variables dans le module GDA afin de trouver d'autres variables pour les classifications ultérieures).

Générateurs de code C, C++, STATISTICA Visual Basic, SQL. L'information contenue dans l'arbre final peut être rapidement incorporée dans vos propres programmes personnalisés ou requêtes de bases de données grâce aux options complémentaires de générateur de code C, C++, STATISTICA Visual Basic, ou SQL. Le langage STATISTICA Visual Basic est généré sous une forme qui peut être aisément incorporée dans des noeuds personnalisés pour STATISTICA Data Miner.

Haut de la Page


MODÈLES CHAID (Chi-square Automatic Interaction Detection). Comme pour l'implémentation des Modèles d'Arbres de Classification et de Régression (GTrees) dans STATISTICA, le module Modèles CHAID est la mise en oeuvre complète de la technique originale, mais permet également d'étendre ces méthodes à l'analyse des modèles du type ANOVA/ANCOVA.
CHAID Standard. L'analyse CHAID peut porter à la fois sur des variables dépendantes continues et catégorielles (critères). Diverses options permettent de contrôler la construction des arbres hiérarchiques : l'utilisateur contrôle le n minimum par noeud, le nombre maximum de noeuds et les probabilités pour diviser ou fusionner les catégories. L'utilisateur peut également effectuer une recherche exhaustive de la meilleure solution (CHAID Exhaustif). Vous pouvez calculer les statistiques de validation par V-ensembles pour évaluer la stabilité de la solution finale. Pour les problèmes de classification, vous pouvez également spécifier des coûts de mauvaise classification personnalisés.

Modèles de type ANOVA/ANCOVA. Outre l'analyse CHAID traditionnelle, vous pouvez combiner des variables prédictives continues et catégorielles dans des modèles de type ANOVA/ANCOVA et réaliser les analyses utilisant une matrice du modèle pour les prédicteurs. Ceci vous permet d'évaluer et de comparer des modèles complexes de prédicteurs, et d'apprécier leur efficacité en termes de prévision et de classification à l'aide de diverses techniques analytiques (par exemple, Modèles Linéaires Généraux, Modèles Linéaires Généralisés, Analyse Discriminante Générale, Modèles d'Arbres de Classification et de Régression, etc...). Voir aussi la description de GLM (Modèle Linéaire GénéraL) et Modèles d'Arbres de Classification et de Régression (GTrees), ci-dessus pour plus d'informations.
Explorateur d'arbres. Comme les résultats binaires utilisés pour synthétiser les arbres de classification et de régression binaires (voir GTrees), vous pouvez étudier les résultats de l'analyse CHAID dans l'explorateur d'arbres de STATISTICA. L'explorateur d'arbres est une fonctionnalité très efficace et intuitive pour examiner la structure d'arbres complexes, et comparer plusieurs solutions côte à côte (dans plusieurs explorateurs d'arbres), en utilisant des méthodes qui sont assez répandues dans les applications Windows pour visualiser des informations structurées de façon hiérarchique. L'explorateur d'arbres de STATISTICA est une innovation importante dans l'aide à l'interprétation d'arbres de décision complexes. Pour plus d'informations, voyez également la description de l'explorateur d'arbres dans le cadre des Modèles d'Arbres de Classification et de Régression (GTrees).

Résultats statistiques. Le module STATISTICA Modèles CHAID propose un grand nombre de résultats. Vous pouvez accéder aux résultats de synthèse de chaque noeud, aux résultats détaillés des classifications, coûts de classification... Vous pouvez également produire différentes synthèses graphiques, notamment des histogrammes (pour les problèmes de classification) de chaque noeud, des tracés détaillés des variables dépendantes continues (par exemple, des droites de Henry, des nuages de points), et des tracés parallèles de coordonnées pour chaque noeud, donnant une vue synthétique de la structure des réponses pour des problèmes importants de classification. Comme dans toutes les procédures statistiques de STATISTICA, tous les résultats numériques peuvent être utilisés en entrée d'autres analyses, ce qui vous permet d'explorer rapidement et de poursuivre l'analyse des observations d'un noeud particulier (par exemple, vous pouvez utiliser le module GTrees pour produire une classification préliminaire des observations, puis utiliser le meilleur sous-ensemble de variables dans le module GDA afin de trouver d'autres variables pour les classifications ultérieures).

ARBRES DE DÉCISION INTERACTIFS (ARBRES DE CLASSIFICATION ET DE RÉGRESSION). Outre les modules de construction automatique d'arbres (par exemple, Modèles d'Arbres de Classification et de Régression, Modèles CHAID), STATISTICA Data Miner offre également des outils spécifiques pour construire ces arbres de façon interactive. Vous pouvez choisir la méthode (binaire) des Modèles d'Arbres de Classification et de Régression ou la méthode CHAID pour construire l'arbre (de décision), et à chaque étape, développer l'arbre de façon interactive (en choisissant la variable et le critère de division) ou de façon automatique. Lorsque vous développez les arbres de manière interactive, vous avez le contrôle de tous les aspects sur la manière de sélectionner et évaluer les candidats à chaque division, sur la manière de catégoriser les intervalles de valeurs des prédicteurs, etc... Les outils interactifs qui sont proposés dans ce module vous permettent de développer et élaguer les arbres afin d'évaluer rapidement la qualité de l'arbre de classification ou de régression et de calculer toutes les statistiques auxiliaires à chaque étape pour explorer la nature de chaque solution. Cet outil est extrêmement utile en data mining prédictif ainsi qu'en analyse exploratoire des données, et offre toutes les options nécessaires au déploiement automatique, pour la prévision ou la classification prévue de nouvelles observations (voir également la description de ces options dans le cadre des modules CHAID et Modèles d'Arbres de Classification et de Régression).

BOOSTING. Les recherches les plus récentes sur les algorithmes statistiques et de machine learning indiquent que certaines tâches "difficiles" d'estimation et de prévision (classification prévue), en utilisant des arbres boostés simples, peuvent produire des prévisions plus précises que des architectures de réseaux de neurones ou un seul arbre complexe. STATISTICA Data Miner contient un module avancé de Boosting permettant d'appliquer cette technique à des tâches de data mining prédictif. Vous avez le contrôle de tous les aspects de la procédure d'estimation et disposez de synthèses détaillées à chaque étape des procédures d'estimation afin de pouvoir suivre et évaluer la progression au cours des étapes successives. Les résultats sont constitués de la plupart des statistiques de synthèse standard de classification et de régression qui sont calculées dans le module Modèles d'Arbres de Classification et de Régression. Vous disposez également de méthodes automatiques pour le déploiement de la solution finale de l'arbre boosté pour la prévision de la classification ou de la régression.

FORÊTS ALÉATOIRES. Le module STATISTICA Forêts Aléatoires intègre l'algorithme des Forêts Aléatoires développé par Breiman. Cet algorithme peut également s'utiliser sur des problèmes de régression. Une forêt aléatoire est constituée de différents arbres élémentaires de classification, chacun étant en mesure de produire une réponse à partir d'un ensemble de valeurs des prédicteurs. Vous avez un contrôle total de tous les aspects de la procédure d'estimation et des paramètres du modèle, notamment la complexité des arbres ajustés aux données, le nombre maximum d'arbres composant la forêt, la manière d'arrêter l'algorithme lorsque des résultats pertinents ont été produits, etc... Ce module permet de traiter efficacement des jeux de données gigantesques avec un nombre considérable de variables (sans suppression de variables). Les résultats intègrent la plupart des statistiques de synthèse standard de classification et de régression calculés par le module Modèles d'Arbres de Classification et de Régression. Des méthodes automatiques sont disponibles pour le déploiement de la solution finale des Forêts Aléatoires pour les prévisions de la classification ou de la régression.

SÉPARATEURS À VASTE MARGE (SVM - Support Vector Machines). Cette méthode permet d'effectuer des tâches de régression et de classification en construisant des bornes de décision non-linéaires. En raison de la nature de l'espace des prédicteurs sur lequel ces bornes sont trouvées, les Séparateurs à Vaste Marge (SVM - Support Vector Machines) peuvent offrir une grande flexibilité dans la gestion des tâches plus ou moins complexes de classification et de régression. STATISTICA SVM intègre quatre types de modèles de Vecteurs de Support avec différents noyaux en plus des fonctions de base, notamment linéaire, polynomial, fonction radiale de base et sigmoïde. Ce module permet également de traiter des données déséquilibrées. La validation croisée, technique bien connue, permet de déterminer la meilleure valeur des différents paramètres du modèle parmi un ensemble de valeurs possibles. De nombreux graphiques et feuilles de données permettent de tester la qualité de l'ajustement et vous aident à interpréter les différents résultats. Des méthodes automatiques sont disponibles pour le déploiement de la solution finale des Séparateurs à Vaste Marge (SVM - Support Vector Machines) pour les prévisions de la classification ou de la régression.

RÉSEAUX BAYÉSIENS NAÏFS. La classification par les Réseaux Bayésiens Naïfs repose sur le Théorème Bayésien et donne généralement de très bons résultats lorsque le nombre de dimensions est élevé au niveau des entrées, grâce à son hypothèse simplificatrice d'indépendance entre les prédicteurs. Malgré cette hypothèse d'indépendence, les Réseaux Bayésiens Naïfs donnent souvent de meilleurs résultats que d'autres méthodes plus avancées de classification. Même si l'hypothèse d'indépendance entre les variables prédictives est rarement vérifiée, elle permet de simplifier considérablement la tâche de classification, dans la mesure où de calculer les densités conditionnelles de classes séparément pour chaque variable, c'est-à-dire qu'elle permet de ramener une tâche multidimensionnelle à un plusieurs tâches à une seule dimension. En outre, cette hypothèse ne semble pas affecter significativement les probabilités a posteriori, en particulier dans les zones proches des frontières de décision (zones d'incertitude), ce qui n'affecte donc en rien la tâche de classification. STATISTICA vous permet d'utiliser des prédicteurs catégoriels et offre diverses possibilités pour modéliser les prédicteurs numériques en vue de l'analyse. Vous pouvez utiliser les fonctions de densité normale, log-normale, gamma et poisson. STATISTICA intègre également des méthodes automatiques pour le déploiement du modèle final de Réseau Bayésien Naïf.

K PLUS PROCHES VOISINS. STATISTICA K Plus Proches Voisins est une méthode basée sur la mémoire qui, contrairement aux autres méthodes statistiques, ne nécessite aucun apprentissage (c'est-à-dire, aucun modèle à ajuster). Elle entre dans la catégorie des Méthodes de Prototypes. Elle fonctionne sur le principe intuitif que les objets les plus proches ont plus de chances d'appartenir à une même catégorie. Ainsi, dans les K Plus Proches Voisins, les prévisions s'appuient sur un ensemble d'exemples prototypes qui sont utilisés pour prévoir de nouvelles données sur la base d'un vote majoritaire (pour les tâches de classification - "voting") ou moyen (pour les tâches de régression - "averaging") sur un ensemble des K plus proches prototypes. Cette méthode permet de gérer des jeux de données gigantesques avec à la fois des prédicteurs catégoriels et continus. La validation croisée, technique bien connue, permet d'obtenir des estimations des paramètres du modèle qui sont inconnus. De nombreux graphiques et feuilles de données permettent de tester la qualité de l'ajustement et vous aident à interpréter les différents résultats. Des méthodes automatiques sont disponibles pour le déploiement de la solution finale des K Plus Proches Voisins pour les prévisions de la classification ou de la régression.

MAR Splines (MULTIVARIATE ADAPTIVE REGRESSION SPLINES). Le module STATISTICA MAR Splines (Multivariate Adaptive Regression Splines) est l'implémentation complète de la technique initialement proposée par Friedman (1991 ; Multivariate Adaptive Regression Splines, Annals of Statistics, 19, 1-141) ; dans STATISTICA Data Miner, les options MARSplines ont été améliorées pour permettre de traiter des problèmes de régression et de classification, avec des prédicteurs continus et catégoriels.

Le programme, qui en termes de fonctionnalités peut être considéré comme une généralisation et une modification des Arbres de Régression et de Classification et Régression Multiple (GC&RT) pas-à-pas, a été spécifiquement développé (optimisé) pour traiter de très gros jeux de données. De nombreux résultats et diagnostiques étendus vous permettent d'évaluer, graphiquement et par des tableaux, la qualité de la solution MAR Splines.

Générateurs de code C/C++, C#, STATISTICA Visual Basic, PMML basé sur la syntaxe XML. L'information contenue dans le modèle peut être rapidement incorporée dans vos propres programmes grâce aux options facultatives (complémentaires) de générateur de code C/C++/C#, STATISTICA Visual Basic, ou PMML (basé sur la syntaxe XML). Le langage STATISTICA Visual Basic est généré sous une forme qui peut être aisément incorporée dans des noeuds personnalisés pour STATISTICA Data Miner. Les fichiers PMML (Predictive Models Markup Language) contenant l'information pour le déploiement peuvent être utilisés avec les options de Déploiement Rapide de Modèles Prédictifs pour calculer les prévisions sur un grand nombre d'observations de manière très efficace ; les fichiers PMML sont totalement portables, et l'information de déploiement produite par la verion bureautique de STATISTICA Data Miner peut être utilisée dans WebSTATISTICA Data Miner (c'est-à-dire au niveau du serveur dans les installations Client-Serveur), et réciproquement.

QUALITÉ D'AJUSTEMENT. Le module STATISTICA Qualité d'Ajustement calcule diverses statistiques de qualité d'ajustement pour des variables de réponse continues et catégorielles (pour des problèmes de régression et de classification). Ce module est un outil spécifiquement développé pour inclure des applications de data mining dans les projets "d'évaluation compétitive de modèles" afin de choisir la meilleure solution. Le programme utilise en entrée les valeurs prévues ou les classifications calculées par l'un des modules de régression ou de classification de STATISTICA, et calcule de nombreuses statistiques d'ajustement et synthèses graphiques pour chaque classification ou réponse ajustée. Les statistiques de Qualité d'ajustement des réponses continues comportent les écarts des moindres carrés (LSD), l'écart moyen, l'erreur quadratique relative, l'erreur absolue relative, et le coefficient de corrélation. Pour les problèmes de classification (pour des variables de réponse catégorielles), le programme va calculer le Chi-deux, le G-deux (le Chi-deux du maximum de vraisemblance), le pourcentage de désaccord (taux de mauvaise classification), la perte quadratique, et des statistiques de perte d'informations.

DÉPLOIEMENT RAPIDE DE MODÈLES PRÉDICTIFS. Le module de Déploiement Rapide de Modèles Prédictifs vous permet de charger un ou plusieurs fichiers PMML (Predictive Models Markup Language) contenant l'information nécessaire au déploiement, et de calculer très trapidement (en un seul passage sur les données) les prévisions pour un très grand nombre d'observations (pour un ou plusieurs modèles). Vous pouvez générer les fichiers PMML dans la plupart des modules de data mining prédictif (ainsi que par les options de Classification Généralisée EM & k-Moyennes). Le langage PMML est un ensemble de conventions de syntaxe standard basé sur XML (Extensible Markup Language), particulièrement bien adapté au partage de l'information de déploiement dans une architecture Client-Serveur (par exemple, par l'intermédiaire de WebSTATISTICA).

Les options de Déploiement Rapide de Modèles Prédictifs constituent la manière la plus rapide et la plus efficace pour calculer des prévisions à partir de modèles déjà entraînés. Tous les modèles sont déjà pré-programmés sous une forme générique dans un programme compilé ultra-optimisé ; le code PMML ne fournit que les paramètres estimés, etc... des modèles entraînés, ce qui permet au module de Déploiement Rapide de Modèles Prédictifs de calculer les prévisions ou les classifications prévues (ou l'affectation aux clusters) en un seul passage sur les données. En fait, vous aurez du mal à "battre" les performances (en termes de rapidité de calcul) de cet outil, même si vous écrivez votre propre code compilé en C++, à partir du code de déploiement (C, C++, ou C#) produit par les modèles respectifs.

Remarque : le module de Déploiement Rapide de Modèles Prédictifs va également calculer automatiquement les statistiques de synthèse de chaque modèle, et si les classifications ou les valeurs observées sont disponibles, le programme va automatiquement calculer les indices de qualité d'ajustement des modèles participants, notamment les courbes de Gain et de Lift pour un ou plusieurs modèles (avec des courbes de lift et de gain superposées), pour des problèmes de classification binaires ou multinomiaux (catégories multiples).

Haut de la Page


La version Client-Serveur de STATISTICA Data Miner

et le Data Mining par WebSTATISTICA

Dans la version bureautique de STATISTICA Data Miner, tous les calculs sont réalisés sur l'ordinateur en local, et les ressources d'autres ordinateurs ne sont utilisées que si l'Interface Directe avec les Bases de Données (IDBD) externes est établie. L'IDBD est une technologie qui permet de lire les données de manière asynchrone, directement sur les serveurs distants de bases de données (en utilisant la technologie du calcul distribué si le serveur permet ce type de traitement), sans avoir à "importer" préalablement les données, ni à créer de copie des données en local. Les enregistrements sont récupérés et envoyés à STATISTICA de façon asynchrone par le processeur du serveur de base de données, tandis que STATISTICA les traite simultanément en utilisant le processeur local.

L'Architecture Client-Serveur. Lorsque vous utilisez une version Client-Serveur de STATISTICA Data Miner, l'ordinateur local ne pilote que l'interface-utilisateur du Data Miner, et tous les calculs sont réalisés sur le serveur. L'architecture Client-Serveur qui utilise les technologies avancées du multithreading et du calcul distribué (voir ci-dessous) et peut éventuellement utiliser les ressources de plusieurs ordinateurs du serveur (travaillant en parallèle), offre des avantages évidents lorsque vos projets de data mining sont importants (par exemple, pour des traitements nécessitant de nombreux calculs ou pour des jeux de données particulièrement importants), puisque ces tâches peuvent être déléguées aux serveurs, en libérant les ressources de votre ordinateur local pour d'autres tâches.

Technologie Multithreading, Calcul Distribué. Mais la mise en place d'une architecture Client-Serveur de STATISTICA Data Miner, basée sur la technologie de WebSTATISTICA offre de nombreux autres avantages. La plate-forme WebSTATISTICA utilise la technologie avancée du calcul distribué et du multithreading, permettant une gestion optimale des tâches intensives. Cette technologie permet un traitement rapide de projets, même très importants, avec des calculs intensifs, en tirant parti des différentes CPU du serveur, voire des différents serveurs travaillant en parallèle. Ci-dessus, l'illustration d'un projet en cours de traitement sur un serveur disposant de quatre processeurs, avec le suivi des performances du serveur, indiquant que les ressources des quatre CPU sont entièrement utilisées en mode multithreading lors de l'exécution d'un même projet de STATISTICA Data Miner, nécessitant de très nombreux calculs.

En outre, l'architecture WebSTATISTICA est indépendante de la plate-forme (système d'exploitation), avec une interface-utilisateur basée sur le navigateur Web, et offre la possibilité de gérer efficacement et à grande échelle, les projets ou les groupes d'utilisateurs situés "à l'autre bout du couloir ou à l'autre bout du monde".

L'Interface-Utilisateur de WebSTATISTICA Data Miner. La mise en oeuvre de STATISTICA Data Miner par l'intermédiaire de WebSTATISTICA permet aux utilisateurs de créer, modifier, et exécuter les projets de data mining sur un poste client, dans une interface-utilisateur basée sur le navigateur Web qui est quasiment identique à celle que vous utilisez dans les installations bureautiques.

Par conséquent, la partie cliente de l'application ("front end") peut être exécutée depuis tout ordinateur (même un ordinateur portable) connecté à Internet. Toutefois, les calculs et autres opérations sur les données sont réalisés par le serveur (distant) qui dispose généralement de processeurs plus puissants et de capacités de stockage plus importantes (avec une architecture optimisée pour des performances maximales grâce au multithreading et au calcul distribué).

Les différents aspects de l'interface-utilisateur de STATISTICA Data Miner peuvent être exécutés par un ou plusieurs utilisateurs simultanément depuis tout ordinateur dans le monde (à condition qu'il soit connecté à Internet, même avec une connexion à faible débit), et le serveur effectue tous les calculs et opérations sur les données, en fonction des droits d'accès et de sécurité des projets et classes d'utilisateurs respectifs, définis par l'administrateur du réseau.

Haut de la Page

STATISTICA Data Miner est compatible avec les systèmes d'exploitation Windows XP, Windows Server 2003, Windows Vista, Windows 7 et Windows Server 2008.

Configuration minimum :

  • Système d'exploitation : Windows XP ou ultérieur
  • RAM : 1 Go
  • Processeur : 2 GHz

Configuration recommandée :

  • Système d'exploitation : Windows Server 2003 ou ultérieur
  • RAM : 4 Go
  • Processeur : 2,0 GHz, 64-bit, double coeur

Versions natives en 64-bits et versions optimisées pour les ordinateurs multiprocesseurs disponibles.

Didacticiels

Vous pouvez visionner l'intégralité de la série de tutoriels Le Data Mining en 35 Leçons avec STATISTICA en remplissant le formulaire d'inscription. Vous serez alors notifié(e) automatiquement de la disponibilité des nouveaux épisodes et recevrez d'autres informations utiles.

StatSoft propose par ailleurs une série de didacticiels et présentations interactives décrivant pas-à-pas différentes opérations que vous pouvez réaliser à l'aide de STATISTICA. Si vous souhaitez voir aborder un thème particulier, merci de nous écrire.