STATISTICA










STATISTICA Data Miner permet-il une évaluation compétitive des modèles ?

Nous fournissons une vaste sélection de projets prédéfinis de Data Miner (ou "espaces de travail") qui permettent une "évaluation comparative des modèles". Vous pouvez modifier ces projets, les enregistrer dans des fichiers et les exécuter à nouveau ultérieurement, soit :
(a) de façon interactive - en cliquant sur des objets analytiques spécifiques (représentés par des icônes dans l'espace de travail) et glissant des flèches de connexion pour modifier le modèle, en ajoutant des noeuds de filtrage, etc..., ou
(b) automatiquement - par exemple, en affectant l'intégralité du projet déployable à un bouton de la barre d'outils (en rendant l'espace de travail totalement invisible).

Par exemple, imaginons que vous cherchiez à résoudre (de façon interactive) un problème de classification :

1.Vous allez ouvrir le projet générique de Classification, le connecter à votre jeu de données (en glissant une flèche pour relier les icônes respectives), définir les variables à prendre en compte (c'est-à-dire sélectionner les variables prédictives à partir de votre source de données), puis exécuter le projet.

2. Dans le cadre de l'exécution de ce projet, STATISTICA Data Miner va utiliser tous les algorithmes applicables de classification (par exemple, dans la famille des arbres de décision, des réseaux de neurones, des analyses discriminantes...), et produire (entre autres résultats organisés de façon hiérarchique dans les dossiers d'un classeur), une synthèse comparative des taux de mauvais classement pour les différents modèles.

3. Ensuite, vous allez pouvoir examiner les résultats afin de déterminer si vous êtes d'accord avec le classement par défaut des modèles produits par le Data Miner. Nous vous mettons ici en garde contre le data mining de type "boîte noire" ; par exemple, dans une analyse de ce type, vous pouvez obtenir une excellente discrimination/classification pour des groupes sans véritable intérêt pour vous, et en revanche une discrimination médiocre sur des groupes qui sont associés à un coût de mauvais classement élevé. Remarque : les nombreux résultats graphiques disponibles dans STATISTICA Data Miner sont extrêmement utiles dans cette optique.

4. Vous pouvez sélectionner le modèle final que vous souhaitez utiliser en déconnectant simplement les flèches des autres modèles ou vous pouvez copier/coller le modèle choisi (icône) dans iun nouvel espace de travail du Data Miner. Dans tous les cas, vous pouvez à présent utiliser ("déployer") le modèle pour effectuer une classification des nouvelles observations si vous le souhaitez.

5. En outre -- et nous pensons qu'il s'agit là de l'un des principaux avantages de STATISTICA Data Miner sur ses concurrents -- le système est entièrement personnalisable et programmable. Par exemple, vous pouvez aisément désélectionner certaines observations ou variables, appliquer des filtres personnalisés, des procédures de nettoyage, des transformations, etc..., puis ré-exécuter l'analyse. Vous pouvez même ajouter simplement vos propres algorithmes analytiques (classification), ou insérer un filtre d'échantillonnage aléatoire avant de réexécuter les analyses plusieurs fois pour vous assurer de la robustesse de vos résultats (classement des méthodes).

STATISTICA Data Miner offre-t-il des fonctionnalités pour générer le code des modèles précédemment estimés (par exemple, des équations avec des paramètres estimés) pour une exécution/déploiement rapide ?

Oui, et le code source est accessible aux utilisateurs, ce qui permet de le modifier, etc...

Comment STATISTICA Data Miner exécute-t-il les requêtes (une seule fois ou de façon répétitive pour chaque analyse) ?

Pour les fichiers de taille modérée à importante (par exemple, plusieurs Mégaoctets), la requête peut être exécutée une fois pour créer une source de données sous la forme d'une feuille de données STATISTICA active. Pour les fichiers de données de taille très importante (de l'ordre de plusieurs gigaoctets, téraoctets), vous avez la possibilité d'analyser vos données "directement" (c'est-à-dire sans avoir à les importer, ni créer de copie des données en local) puis de ré-exécuter la requête à chaque fois que le projet est recalculé/mis à jour.

Comment fonctionne l'option "Exécuter Jusqu'à ce Noeud" (accessible en cliquant avec le bouton droit de la souris sur un noeud) ?

Si vous demandez à mettre à jour un noeud k, tous les noeuds situés "en amont" de ce noeud k (c'est-à-dire qui alimentent le noeud k), en commençant au descripteur d'entrée et à travers les noeuds précédents k-1, k-2 ... seront mis à jour. En d'autres termes, si vous utilisez l'option Exécuter Jusqu'à ce Noeud pour le Noeud k, tous les noeuds menant au Noeud k seront recalculés. Remarque : les classeurs peuvent ou non être mis à jour, selon que le noeud actuel ou les noeuds précédents vont ou non produire des documents à placer dans des classeurs...)

Que signifie l'option "Données d'un projet déployé ; ne plus estimer les modèles" ? Quelle implication au fait que les paramètres ne sont pas ré-estimés ?

Lorsqu'un Descripteur d'Entrée est identifié comme des "Données d'un Projet Déployé", certains noeuds (qui peuvent créer des valeurs prévues ou des classifications prédites comme les réseaux de neurones , algorithmes de classification, procédures de prévision) vont rapidement calculer les valeurs prédites, classifications, ou solutions sur la base des paramètres précédemment estimés. Par exemple, supposons que vous disposiez de deux jeux de données : un échantillon d'apprentissage à partir duquel vous souhaitez calculer des paramètres pour une régression linéaire multiple , afin de prédire une variable continue spécifique (par exemple, la solvabilité pour un emprunt), et un second échantillon auquel vous souhaitez appliquer l'équation de la régression issue de l'échantillon d'apprentissage (cet échantillon et qui peut contenir de nouveaux dossiers de candidature pour un prêt, sur lesquels vous souhaitez rapidement calculer la solvabilité).

Vous allez donc tout d'abord créer un noeud de régression et connecter l'échantillon d'apprentissage (avec les sélections désirées de variables, etc...). Après avoir calculé l'analyse de régression multiple (après avoir mis à jour le noeud de régression multiple), vous allez pouvoir connecter l'échantillon de test ou d'application (descripteur d'entrée) et le marquer pour le Déploiement. À présent, lorsque vous allez mettre à jour votre projet, les estimations de paramètres de l'échantillon d'apprentissage vont s'appliquer automatiquement aux données Déployées et les valeurs prédites seront calculées pour toutes les observations de cet échantillon.

Ainsi, par exemple, vous allez pouvoir connecter l'échantillon de test à l'Événement Sync de la Feuille de Données pour demander la mise à jour automatique. De cette manière, après avoir saisi une nouvelle observation (par exemple, si vous avez reçu de nouveaux dossier de candidature au crédit) la valeur prédite (solvabilité pour un emprunt) sera automatiquement calculée. Si cette analyse est configurée "on-line" (par exemple, à travers le Web), un agent préposé aux prêts sera en mesure de donner une réponse préliminaire très rapide concernant les possibilités de crédit/emprunt en exécutant simplement les données pertinentes au travers du projet (déjà entraîné) du Data Miner sous forme de données déployées.

Un véritable système peut être encore plus "intelligent" : Imaginons que vous ayez créé un Événement Sync personnalisé pour l'échantillon d'apprentissage. Ainsi, dès que de nouvelles données deviennent disponibles pour l'échantillon d'apprentissage (par exemple, vous recevez une confirmation au sujet de la solvabilité d'un individu qui vous permet de mettre à jour et recalculer la ou les équations du modèle sur l'échantillon d'apprentissage), le système va être en mesure de mettre à jour automatiquement la ou les équations du modèle ("réapprentissage" ou "réentraînement"), puis actualiser automatiquement le score de solvabilité pour toutes les demandes de crédit/emprunts (dans l'échantillon de test). En outre, sachez que vous pouvez utiliser toute une gamme de méthodes, notamment les réseaux de neurones, les régressions non-linéaires, etc... pour enrichir votre modèle, afin de garantir que le meilleur type de modèle (et pas uniquement le même modèle avec les meilleurs paramètres) sera toujours utilisé pour évaluer le risque de non solvabilité d'un client.

Peut-on connecter plusieurs jeux de données (et "sources de données" - par exemple des requêtes) avec des descripteurs d'entrée différents au même noeud analytique ou au même ensemble de noeuds ?

Oui, vous avez la possibilité de connecter plusieurs jeux de données (et "sources de données" - par exemple des requêtes) avec des descripteurs d'entrée différents au même noeud analytique, etc... ; voir aussi la réponse à la question sur le déploiement, ci-dessus).

J'étais en cours de traitement d'un fichier de données important (6.000*300), lorsque j'ai reçu un message "Préparation des Sous-Ensembles". Que signifie ce message ? Ce fichier est-il trop important pour être traité en une seule fois ?

Non, ce message peut être produit par certaines procédures spécifiques que vous avez sans doute utilisées. Sachez que 6.000 observations par 300 variables est en fait un très petit fichier pour STATISTICA. Cependant, pour des jeux de données véritablement gigantesques (par exemple, de l'ordre du Gigaoctet ou du téraoctet) il est parfois conseillé de partitionner les données; cette procédure peut aisément être réalisée dans le système en utilisant les noeuds respectifs de filtrage et de sous-échantillonnage. En fait, notre expérience nous a montré que pour traiter des problèmes importants sur des bases de données gigantesques (gigaoctets, téraoctets), un déploiement personnalisé est presque toujours nécessaire pour répondre aux besoins du client, et pour optimiser les analyses. De ce point de vue, STATISTICA Data Miner est un outil particulièrement bien adapté, dans la mesure où les personnalisations peuvent être réalisées facilement et efficacement dans son système en architecture ouverte, grâce à STATISTICA Visual Basic (qui est utilisé comme le "pilote" ou le "ciment" qui peut appeler des routines personnalisées et ultra-optimisées). En outre, la version Entreprise de STATISTICA Data Miner offre une technologie permettant le traitement rapide de jeux de données importants, "directement" sur les serveurs distants (c'est-à-dire sans avoir à importer les données ni à créer de copies sur la machine en local).

Peut-on combiner, disons, 20 noeuds ou davantage dans un seul ? (y aura-t-il assez de place pour autant de noeuds dans un seul panneau de l'espace de travail du Data Miner ?)

STATISTICA Data Miner peut traiter plus de noeuds que vous n'en aurez sans doute jamais l'utilité pour un seul projet (lors de nos tests, nous n'avons jamais été confrontés à des limites structurelles du système de ce point de vue). Cependant, STATISTICA Data Miner vous propose un certain nombre d'outils pour organiser vos projets conséquents de Data Miner de diverses manières. Vous pouvez ainsi combiner le code de plusieurs noeuds dans un seul, ou repositionner les noeuds dans l'espace de travail, pour organiser de la manière la plus accessible, l'ensemble des icônes (noeuds) à l'écran. En outre, en plus des méthodes automatiques, il existe des méthodes simples pour améliorer la lisibilité d'un projet à l'écran, par exemple en superposant les icônes correspondantes ou en créant un seul noeud analytique avec du code qui va regrouper différentes "étapes" comme par exemple, "toutes les opérations de nettoyage et de filtrage."

Proposez-vous une version Client-Serveur (ou multi-tiers) de STATISTICA Data Miner ?

Oui, nous proposons une version Client-Serveur de STATISTICA Data Miner par l'intermédiaire de l'environnement STATISTICA Entreprise Server qui offre des performances optimisées et la possibilité de répartir les tâches de travail entre plusieurs CPU et ordinateurs du serveur (voir le descriptif de STATISTICA Entreprise Server pour plus d'informations).

Existe-t-il une version de STATISTICA Data Miner pour Unix/Linux ?

Oui, grâce à l'environnement STATISTICA Entreprise Server qui permet de s'affranchir des contraintes de plate-forme (voir le descriptif de STATISTICA Entreprise Server pour plus d'informations).

Le coût d'une version mono-utilisateur de STATISTICA Data Miner s'applique-t-il à la partie Client ou à la partie Serveur du Data Miner ?

Sauf si vous avez reçu une proposition faisant explicitement mention d'une "Version Client-Serveur", le prix est celui d'une application mono-poste ou en client "lourd", c'est-à-dire où tous les calculs sont réalisés sur la CPU de la machine en local. L'architecture Client-Serveur (et multi-tiers) de STATISTICA Data Miner (où tous les calculs et les requêtes particulièrement lourds peuvent être délégués au serveur), nécessitent l'environnement STATISTICA Entreprise Server qui offre des performances optimisées et la possibilité de répartir les tâches de travail entre plusieurs CPU et ordinateurs du serveur (voir le descriptif de STATISTICA Entreprise Server pour plus d'informations).

Nous travaillons avec des jeux de données gigantesques (certains sont de l'ordre du téraoctet). Quelle est la taille maximum des jeux de données accessibles par STATISTICA Data Miner ?

À notre connaissance, il n'existe pas d'autres limites que celles de l'ordinateur ou de la configuration du système d'exploitation nécessaire pour traiter de gros fichiers. En outre, comme nous l'avons déjà mentionné, la version Entreprise de STATISTICA Data Miner offre la technologie qui permet de traiter rapidement des jeux de données gigantesques, "directement" sur les serveurs distants (c'est-à-dire sans avoir à importer préalablement les données, ni à créer de copie de ces données sur la machine en local). Les fichiers de données que vous pouvez traiter peuvent donc être extrêmement importants, mais évidemment, de nombreuses analyses seraient inappropriées (ou du moins, il ne serait pas raisonnable de les appliquer) sur ce type de jeux de données ; au contraire, la bonne approche consiste à tirer des échantillons aléatoires pour les analyser. STATISTICA Data Miner offre diverses méthodes pour créer des sous-ensembles aléatoires.

Nous nous intéressons à une fonctionnalité particulière de la version Entreprise (plus précisément, il s'agit de la possibilité de déléguer les tâches lourdes au serveur) mais un seul de nos collaborateurs va utiliser le système. La version Entreprise de STATISTICA Data Miner est-elle disponible pour un seul utilisateur ?

Oui, la version bureautique, comme la version Entreprise de STATISTICA Data Miner sont toutes deux proposées par "paliers de un utilisateur". La version Entreprise de STATISTICA Data Miner offre la possibilité de déléguer tous les calculs et les requêtes particulièrement lourds au serveur.

Les noeuds analytiques ou de filtrage de STATISTICA Data Miner peuvent-ils être exécutés conditionnellement ?

Oui ; les fonctionnalités de STATISTICA Data Miner sont elles-même des objets totalement accessible qui peuvent être programmés depuis STATISTICA Visual Basic ou tout autre langage. Par conséquent, vous pouvez accéder à l'objet STATISTICA Data Miner actuel depuis les scripts du projet en cours. L'objet Data Miner reconnaît les méthodes et propriétés qui vous permettent de requêter le nombre de "parents" qui envoient des données au noeud (c'est-à-dire combien de noeuds sont connectés au niveau des entrées) et le nombre "d'enfants" qui reçoivent des données depuis le noeud (c'est-à-dire combien de noeuds sont connectés aux descripteurs d'entrée des données qui sont créés par le noeud actuel).

Chaque connexion entre les noeuds reconnaît elle-même diverses propriétés, notamment si la connexion respective est ou non active. Vous pouvez également créer des noeuds de façon dynamique depuis les scripts.

Combiner des noeuds conditionnels et des noeuds dynamiques. Grâce à ces propriétés, l'utilisateur a la possibilité de créer des projets ultra-personnalisés et intelligents. Par exemple, si une analyse particulière a créé des valeurs qui sont à l'intérieur de paramètres prédéfinis (par exemple, à l'intérieur des limites de spécification d'un projet d'ingénierie), seul un rapport de synthèse standard sera créé (c'est-à-dire que seule la connexion au noeud standard de statistiques descriptives sera activé). En revanche, dès qu'une observation hors-contrôle survient, il est possible de connecter automatiquement un noeud de carte de contrôle qualité. En outre, vous pouvez même développer votre projet de façon dynamique en créant le noeud de contrôle qualité le mieux adapté pour mieux mettre en évidence le problème et pour diagnostiquer ses causes. En d'autres termes, un noeud actuel peut créer des types d'analyses de façon dynamique (les noeuds suivants) qui s'adaptent le mieux au problème qui est détecté par le noeud actuel. Cette fonctionnalité ajoute une dimension d'intelligence totalement nouvelle dans la conception même des projets de data mining !

Haut de la Page
Demande de Devis
Page d'Accueil de Dell Software



[StatSoft]
Tour W La Défense 8, 102 Terrasse Boieldieu - 92085 Paris La Défense CĂ©dex

Tél : +33 (0)1-40-904-600 - Fax : +33 (0)1-47-788-070
[StatSoft]e-mail: info.statistica@quest.com

©Copyright StatSoft 1984-2016.
StatSoft, le logo StatSoft, STATISTICA, STATISTICA Entreprise/QC, STATISTICA Entreprise, Data Miner, SEPATH et GTrees sont des marques déposées par StatSoft.