Partager :

Concepts Fondamentaux en Statistique


Data Mining :

Déploiement Rapide de Modèles Prédictifs



Sommaire :


Introduction

Le module STATISTICA Déploiement Rapide de Modèles Prédictifs permet de produire rapidement des prévisions à partir d'un ou plusieurs modèles déjà entraînés, en utilisant l'information stockée dans le code de déploiement PMML (Predictive Model Markup Language) universel. Vous pouvez éventuellement réintégrer cette information dans le fichier de données ou la base de données en cours [si les données d'entrée représentent une requête vers une base de données pour un traitement par une Interface Directe avec la Base de Données (IDBD)] pour d'autres analyses portant sur d'autres variables de votre fichier de données actuel ou de votre data warehouse. Le langage PMML est basé sur les conventions XML d'encodage de l'information (résultats) issue des projets de data mining. Le module Déploiement Rapide de Modèles Prédictifs est particulièrement efficace pour produire des prévisions sur de grosses volumétries (nombreuses observations) dans la mesure où il n'effectue qu'un seul passage (lecture) sur les données, et qu'il ne stocke les données que pour une seule observation à la fois.

Le module Déploiement Rapide de Modèles Prédictifs vous permet de tester plusieurs modèles simultanément, et produit différents résultats destinés à comparer les prévisions issues des différents modèles. Vous pouvez également enregistrer les données pour vos traitements ultérieurs, avec d'autres variables de votre fichier de données actuel. Cette fonctionnalité est particulièrement intéressante pour réaliser des analyses approfondies du pouvoir prédictif des différents modèles.

Réintégrer des Statistiques (Scores) dans une Base de Données Externe

Le module de Déploiement Rapide de Modèles Prédictifs vous permet de réintégrer (ré-écrire) les statistiques calculées (prévisions, classifications prévues, probabilités de classification, résidus) dans votre fichier de données actuel ; cette option, accessible dans la boîte de dialogue Déploiement Rapide de Modèles Prédictifs - onglet Base, est naturellement proposée pour les feuilles de données STATISTICA, mais également pour les bases de données externes, connectées par une Interface Directe avec la Base de Données (IDBD). Cette fonctionnalité permettant, par exemple, de fusionner les probabilités de classification calculées par différents modèles dans une base de données ou un data warehouse existants est particulièrement intéressante dans le cadre des applications de data mining afin de déployer des modèles sur de grosses volumétries de données (par exemple, afin de calculer les probabilités que certains clients d'une base-clients gigantesque achètent des produits à l'issue de l'envoi d'un catalogue, dans le cadre d'une campagne de vente par correspondance). Dans la mesure où le traitement de jeux de données gigantesques sur des bases de données externes (à distance) s'effectue de façon très efficace par l'intermédiaire de l'IDBD (par exemple, ne nécessitant que peu de mémoire sur l'ordinateur exécutant la module Déploiement Rapide de Modèles Prédictifs), cette méthode de déploiement de modèle déjà entraînés pour du data mining peut parfaitement s'étendre à des jeux de données extrêmement importants.

Configurer la connexion IDBD pour la réintégration des statistiques. Bien évidemment, pour être en mesure de réintégrer les statistiques calculées sur les observations dans la base de données, la connexion IDBD (Interface Directe avec les Bases de Données) doit être correctement configurée (par exemple, avec un accès en Lecture/Écriture dans la boîte de dialogue Options de la Requête). En outre, les champs (variables) de la base de données dans lesquels vous allez écrire doivent déjà exister dans la base de données, et doivent être du bon type (par exemple, vous ne pouvez pas écrire une information numérique dans les champs de données de type Texte). Pour plus d'informations concernant les options permettant de configurer la connexion IDBD, veuillez vous reporter à la rubrique Technologie de l'Interface Directe avec les Bases de Données (IDBD) (Présentation Technique) et au descriptif de la boîte de dialogue Options de la Requête.

Modules Analytiques (Modèles) permettant de Générer du Code PMML

Les modules analytiques suivants de data mining prédictif permettent de produire de code du déploiement au format PMML, et sont par conséquent compatibles avec le module de Déploiement Rapide de Modèles Prédictifs :

Modèles Linéaires par les Moindres Carrés

Régression Multiple

Modèle Linéaire Général (GLM)

Modèles Généraux de Régression (GRM)

Modèles Généraux d'Analyse Discriminante (GDA)

Modèles Non-Linéaires

Modèles Linéaires/Non-Linéaires Généralisés (GLZ)

MARSplines (Multivariate Adaptive Regression Splines)

Modèles d'Arbres de Décision

Modèles Généraux d'Arbres de Classification et de Régression (GC&RT)

Modèles CHAID Généraux et Exhaustifs (GCHAID)

Arbres de Décision Interactifs (C&RT, CHAID)

Boosting - Arbres de Classification et de Régression

Clustering (Apprentissage Non-Supervisé et Classification Prédictive)

Classification Généralisée EM et k-Moyennes

Réseaux de Neurones

Vous pouvez enregistrer les modèles de Réseaux de Neurones au format PMML et les tester par le module de Déploiement Rapide de Modèles Prédictifs module si le modèle respectif ou l'ensemble de modèles prévoit uniquement une seule variable dépendante (de sortie) continue ou catégorielle ; utilisez les fonctionnalités respectives afin d'appliquer des réseaux déjà entraînés dans STATISTICA Réseaux de Neurones afin de prévoir simultanément plusieurs sorties continues et/ou catégorielles (voir aussi l'option Exécuter un Modèle Existant dans la boîte de dialogue Réseaux de Neurones (Panneau de Démarrage) - onglet Avancé).

Extensions PMML

Bien que le langage universel PMML constitue un environnement prometteur permettant de s'affranchir des contraintes de plates-formes et d'applications dans le cadre du data mining, il n'en demeure pas moins limité dans la mesure où il ne permet de mettre en oeuvre que de manière assez rudimentaire, les méthodes qui sont définies. Par conséquent, dans la plupart des cas, des extensions spécifiques ont dû être ajoutées à ce langage universel afin de permettre aux utilisateur d'exploiter pleinement les fonctionnalités avancées des méthodes respectives proposées dans STATISTICA.

Présentation du Programme

Le module STATISTICA Déploiement Rapide de Modèles Prédictifs est en mesure de lire plusieurs fichiers PMML et/ou .snn (STATISTICA Réseaux de Neurones) afin de calculer les valeurs ou les classes prévues à partir des modèles entraînés. Vous pouvez éventuellement ré-écrire cette information dans le fichier de données ou la base de données en cours [si les données d'entrée représentent une requête vers une base de données pour un traitement par une Interface Directe avec la Base de Données (IDBD)] pour d'autres analyses portant sur d'autres variables de votre fichier de données actuel ou de votre data warehouse. Vous pouvez générer le code PMML dans la plupart des modules de data mining prédictif de STATISTICA, notamment les méthodes de classification disponibles dans le module Classification Généralisée EM et k-Moyennes. Le programme peut également calculer les valeurs prévues (selon le cas), les indices de qualité d'ajustement (lorsque les valeurs observées sont disponibles), ainsi que les courbes simple ou comparatives de lift et de gain pour des problèmes binomiaux ou multinomiaux de classification.

Déploiement Rapide de Modèles Prédictifs

En utilisant le module de Déploiement Rapide de Modèles Prédictifs, vous pouvez charger un ou plusieurs fichiers PMML (Predictive Models Markup Language) contenant des informations de déploiement, et de calculer très rapidement (en un seul passage dans les données) les prévisions pour un grand nombre d'observations (pour un ou plusieurs modèles). Les fichiers PMML peuvent être générés à partir de pratiquement tous les modules de data mining prédictif (ainsi que dans Classification Généralisée EM et par les k-Moyennes). PMML est un langage XML (Extensible Markup Language) basé sur une syntaxe universelle de l'industrie.

Tout d'abord, créez un modèle prédictif et enregistrez-le au format PMML (extension. Xml).  

2. Ouvrez un nouveau jeu de données qui a les mêmes noms de variables que ceux qui ont été utilisés lorsque vous avez créé le modèle.

3. Insérez une nouvelle variable dans le jeu de données. Nommez la Prédiction.

4. Sélectionnez la commande Déploiement Rapide de Modèles Prédictifs du menu déroulant Data Mining.

5. Sélectionnez la commande Modèles Disponibles et naviguez jusqu'à l'emplacement du fichier PMML. Sélectionnez le fichier désiré. 

Le module va reconnaitre les variables dépendantes et les prédicteurs.

Didacticiels

Vous pouvez visionner l'intégralité de la série de tutoriels Le Data Mining en 35 Leçons avec STATISTICA en remplissant le formulaire d'inscription. Vous serez alors notifié(e) automatiquement de la disponibilité des nouveaux épisodes et recevrez d'autres informations utiles.

StatSoft propose par ailleurs une série de didacticiels et présentations interactives décrivant pas-à-pas différentes opérations que vous pouvez réaliser à l'aide de STATISTICA. Si vous souhaitez voir aborder un thème particulier, merci de nous écrire.