Partager :

Concepts Fondamentaux en Statistique


Data Mining :

Qualité d'Ajustement, Classification, Prévision



Sommaire :


Calculs: Introduction

Introduction. Le module Qualité d'Ajustement de STATISTICA (STATISTICA Data Miner) est un outil généraliste destiné à évaluer les modèles prédictifs de variables dépendantes continues et de classification prédictive. Le programme va calculer diverses statistiques de qualité d'ajustement sur la base des valeurs ou des classifications observées et prévues, puis produire divers graphiques de synthèse. Ce module peut s'utiliser avec la plupart des procédures statistiques de construction de modèles prédictifs pour des variables continues ou catégorielles (dans le cadre de problèmes de régression et de classification respectivement).

Le programme attend en entrée une variable contenant les valeurs ou classifications observées, ainsi qu'une ou plusieurs variables contenant les valeurs ou classifications prévues, issues d'un ou plusieurs modèles différents.

Statistiques de Qualité d'Ajustement. Vous pouvez calculer diverses statistiques synthétiques de qualité d'ajustement pour vos variables dépendantes continues et catégorielles. La plupart de ces statistiques sont présentées en détail dans l'ouvrage de Witten et Frank (2000)dans le cadre des prévisions ; d'autres statistiques sont également présentées dans l'ouvrage de Makridakis et Wheelwright (1983).

Statistiques de qualité d'ajustement pour des problèmes de régression. Pour les variables continues, le programme va calculer :

  • Écarts des moindres carrés (LSD), erreur quadratique moyenne

  • Écart moyen, erreur absolue moyenne

  • Erreur quadratique relative, erreur quadratique relative moyenne

  • Coefficient de corrélation (Coefficient de corrélation de Pearson)

Voir aussi la rubrique Détail des Calculs pour plus d'informations.

Statistiques de qualité d'ajustement pour des problèmes de classification (pour des variables catégorielles). Pour les variables catégorielles, le programme va calculer :

Voir aussi la rubrique Détail des Calculs pour plus d'informations.

Détail des Calculs

Le module Qualité d'Ajustement permet de calculer diverses statistiques, sur des variables continues ou catégorielles (problèmes de régression et de classification respectivement), afin de refléter la qualité/précision de prévisions ou de classifications prévues. Voir aussi la rubrique Introduction pour plus d'informations.

Variables continues. Pour les variables continues (problèmes de régression), les statistiques suivantes sont calculées :

Écart des moindres carrés (LSD), erreur quadratique moyenne

 

N - Nombre d'observations ou somme des poids

E i - Valeur prévue (c'est-à-dire, théorique ou attendue) de i

O i - Valeur observée de l'observation i

Écart moyen, erreur absolue moyenne

N - Nombre d'observations ou somme des poids

E i - Valeur prévue (c'est-à-dire, théorique ou attendue) de l'observation i

O i - Valeur observée de l'observation i

Erreur quadratique relative, erreur quadratique relative moyenne

N - Nombre d'observations ou somme des poids

E i  - Valeur prévue (c'est-à-dire, théorique ou attendue) de l'observation i

O i - Valeur observée de l'observation i

Écart absolu relatif, erreur absolue relative moyenne

N - Nombre d'observations ou somme des poids

E i  - Valeur prévue (c'est-à-dire, théorique ou attendue) de l'observation i

O i - Valeur observée de l'observation i

Coefficient de corrélation (de Pearson)

 

N - Nombre d'observations ou somme des poids

E i - Valeur prévue (c'est-à-dire, théorique ou attendue) de l'observation i

- Moyenne des valeurs prévues

O i  - Valeur observée de l'observation i

 - Moyenne des valeurs observées

Variables catégorielles. Pour les variables catégorielles (problèmes de classification), vous pouvez calculer les statistiques suivantes :

Chi-deux de Pearson

N - Nombre de classes observées

E i  - Nombre d'observations de classe observée i qui appartiennent à la classe prévue i (effectifs théoriques/attendus de la classe observée i)

O i  - Nombre d'observations dans la classe i (effectifs observés)

Remarque : cette valeur est nulle lorsque la classification est parfaite (c'est-à-dire lorsque les classifications prévues sont identiques aux classifications observées).

G-deux (Chi-deux du maximum de vraisemblance)

 

N - Nombre de classes observées

E i  - Nombre d'observations de classe observée i qui appartiennent à la classe prévue i (effectifs théoriques/attendus de la classe observée i)

O i - Nombre d'observations dans la classe i (effectifs observés)

Pourcentage de divergence (taux de mauvais classement)

La mesure du pourcentage de divergence se calcule comme le pourcentage d'observations dont la classification théorique diverge (est différente) de la classification observée.

Indices de Qualité d'Ajustement sur les Prévisions d'une Régression

Cet exemple s'appuie sur l'Exemple Régression Standard du module Régression Multiple. Cet exemple utilise le fichier de données Poverty.sta, qui contient les données relatives aux recensements de population américains de 1960 et 1970 sur une sélection aléatoire de 30 comtés. Le nom des comtés apparaît en noms d'observations.

Nature du problème. L'objectif de l'étude consiste à mettre en évidence les facteurs corrélés à la pauvreté, c'est-à-dire à identifier les variables qui permettent de prévoir au mieux le pourcentage de familles se situant en dessous du seuil de pauvreté dans un comté. Nous avons donc traité la variable 3 (Pt_Pauvr) comme variable dépendante (de critère), et toutes les autres variables comme des variables indépendantes ou prédictives pour cette analyse de régression.

L'analyse de régression. Suivez les instructions de l'Exemple: Régression Standard du module Régression Multiple jusqu'au moment où la feuille de données contenant les valeurs prévues et les résidus est calculée. Dans l'onglet Enregistrer de la boîte de dialogue Analyse des Résidus, cliquez sur le bouton Enregistrer résidus & valeurs prévues.

Après avoir cliqué sur ce bouton, assurez-vous de bien sauvegarder la variable 3 Pt_Pauvr avec les valeurs prévues et les résidus dans la boîte de dialogue Variables à enregistrer avec les prévisions/résidus.

La feuille de données produite va alors contenir les valeurs observées et prévues, produites par la régression (ainsi que différentes statistiques relatives aux résidus).

Remarque : cette feuille de données est automatiquement marquée comme Feuille de données active, et apparaît au premier-plan de l'application (c'est-à-dire qu'elle apparaît devant tous les autres document dans l'espace de travail STATISTICA) ; les nouvelles analyses vont donc automatiquement utiliser cette feuille de données en entrée.

Calculs de qualité d'ajustement. Sélectionnez à présent la commande Qualité d'Ajustement, Classification, Prévision dans le menu Data Mining afin d'accéder à la boîte de dialogue Qualité d'Ajustement, Classification, Prévision (Panneau de Démarrage). Assurez-vous que la feuille de données nouvellement créée avec les valeurs observées et prévues par la régression est effectivement la feuille de données sélectionnée pour l'analyse ; si ce n'est pas le cas, utilisez le bouton Ouvrir afin de sélectionner cette feuille de données. Cliquez sur le bouton Variables et sélectionnez la variable Pt_Pauvr comme variable avec les valeurs observées, et la variable Prévue comme variable avec les prévisions. Dans l'onglet Avancé du Panneau de Démarrage, cochez ensuite toutes les cases à cocher du groupe Statistiques des VD continues.

Cliquez ensuite sur le bouton OK afin d'accéder à la boîte de dialogue des Résultats, puis cliquez sur le bouton Synthèse des mesures de qualité d'ajustement.

Remarque : le coefficient de corrélation calculé pour les valeurs observées et prévues est identique au coefficient de corrélation multiple calculé dans l'Exemple 1 du module Régression Multiple. Toutefois, dans la mesure où le module Qualité d'Ajustement ne "sait" pas que les valeurs prévues ont été calculées par une régression multiple, l'Erreur quadratique moyenne est en fait la moyenne des sommes des écarts au carré entre les valeurs prévues et les valeurs observées. Pour comparaison, vous pouvez produire la table ANOVA dans le module Régression Multiple ; vous allez constater que l'erreur quadratique moyenne reportée ici est sensiblement différente, dans la mesure où cette valeur se calcule comme la somme des écrats au carré divisée par le nombre de degrés de liberté des résidus (de la régression).

Le principal apport du module Qualité d'Ajustement est qu'il vous permet de calculer rapidement divers indices de qualité d'ajustement (pour le détail, veuillez vous reporter à la rubrique Détail des Calculs), pour différents modèles et différentes analyses. Par exemple, nous pourrions à présent utiliser d'autres techniques statistiques (par exemple, voir l'Exemple : Arbres de Régression et Prévision de la Pauvreté du module Modèles d'Arbres de Classification et de Régression) afin de calculer les valeurs prévues, et calculer les mêmes indices de qualité d'ajustement que ci-dessus, afin de comparer la qualité de l'ajustement des prévisions produites par les différents modèles. Pour un exemple (problème de classification) de la manière dont ces calculs peuvent nous permettre de tester (comparativement) différents modèles de classification prédictive dans un projet de data mining, voir la rubrique : Data Mining Prédictif pour une Variable de Sortie Catégorielle (Classification) dans la section d'exemples de STATISTICA Data Miner.

Didacticiels

Vous pouvez visionner l'intégralité de la série de tutoriels Le Data Mining en 35 Leçons avec STATISTICA en remplissant le formulaire d'inscription. Vous serez alors notifié(e) automatiquement de la disponibilité des nouveaux épisodes et recevrez d'autres informations utiles.

StatSoft propose par ailleurs une série de didacticiels et présentations interactives décrivant pas-à-pas différentes opérations que vous pouvez réaliser à l'aide de STATISTICA. Si vous souhaitez voir aborder un thème particulier, merci de nous écrire.