Partager :

Concepts Fondamentaux en Statistique


Statistiques Élémentaires :

Statistiques Descriptives



Introduction

Les statistiques descriptives sont calculées séparément pour chaque variable et elles donnent des informations élémentaires telles que la moyenne, les valeurs minimum et maximum, différentes mesures de dispersion, ainsi que des indications sur la forme de la distribution de la variable. Ces statistiques sont présentées dans cette introduction (voir aussi la boîte de dialogue Statistiques Descriptives pour une liste complète). Pour les statistiques descriptives, vous pouvez sélectionner toutes les variables de vos données et produire une table séquentielle de statistiques "descriptives" pour ces variables (une variable par ligne). Les mesures de dispersion sont constituées de l'écart-type et de l'erreur-type (l'erreur-type est l'écart-type de la distribution d'échantillonnage d'une moyenne). De nombreux tests de normalité vous sont proposés (la distribution des variables suit-elle la distribution normale ?). Veuillez vous reporter à la boîte de dialogue Statistiques Descriptives pour une description de toutes les options disponibles.

Pour d'autres rubriques concernant les statistiques descriptives, voir :

"Véritable" Moyenne et Intervalle de Confiance

Voir aussi la rubrique Analyse Exploratoire des Données et Techniques de Data Mining.

"Véritable" Moyenne et Intervalle de Confiance

La statistique descriptive la plus courante est sans conteste la moyenne. La moyenne donne une information importante quant à la "tendance centrale" d'une variable à condition d'être reportée avec ses intervalles de confiance. Comme nous l'avons déjà dit, nous nous intéressons souvent à une statistique (comme la moyenne) dans un échantillon, parce qu'elle nous permet de tirer des conclusions sur la population. Les intervalles de confiance de la moyenne nous donnent un intervalle de valeurs autour de la moyenne dans lequel nous pouvons nous attendre à trouver la "véritable" moyenne (c'est-à-dire la moyenne de la population, ou espérance mathématique), avec un certain niveau d'erreur (voir également les Concepts Élémentaires).

Dans le module Statistiques Élémentaires, vous pouvez demander des intervalles de confiance pour tout niveau p  ; par exemple, si la moyenne de l'échantillon est de 23 et si les limites inférieures et supérieures de l'intervalle de confiance à p = 0,05 sont respectivement 19 et 27, nous pouvons en déduire que la moyenne de la population se trouvera, comprise à 95% entre 19 et 27. Plus le niveau p est faible, plus l'intervalle est large, ce qui permet d'augmenter la certitude de l'estimation, et réciproquement ; il en est ainsi des prévisions météorologiques : plus la prédiction est "vague" (c'est-à-dire plus l'intervalle de confiance est grand), plus elle aura de chance de se réaliser.

Notez que la largeur de l'intervalle de confiance dépend de la taille de l'échantillon et de la dispersion des données. Plus la taille de l'échantillon est grande, plus la moyenne est fiable. Plus la dispersion est forte, moins la moyenne est fiable (voir aussi, la rubrique Concepts Élémentaires). Le calcul des intervalles de confiance se base sur l'hypothèse que la variable est distribuée normalement dans la population. L'estimation peut s'avérer incorrecte lorsque cette hypothèse est violée, sauf si la taille de l'échantillon est suffisamment grande, c'est-à-dire si n = 100 ou plus.

Forme de la Distribution ; Normalité

Un aspect important de la "description" d'une variable est la forme de sa distribution, qui nous renseigne sur la fréquence des valeurs dans différents intervalles de la variable. Plus précisément, un chercheur s'intéresse généralement à la manière dont une distribution peut être approchée par la distribution normale (voir aussi la rubrique Concepts Élémentaires). De simples statistiques descriptives peuvent donner des informations intéressantes pour répondre à cette question. Par exemple, si l'asymétrie (qui mesure l'écart de la distribution à une symétrie parfaite) est clairement différente de 0, cette distribution sera dite asymétrique, alors que la distribution normale est parfaitement symétrique. Si l'aplatissement (qui mesure la "hauteur" de la distribution) est clairement différent de 0, la distribution sera plus plate ou plus pointue que la distribution normale ; l'aplatissement de la distribution normale est égal à 0.

Vous pouvez obtenir des informations plus précises grâce à divers tests de normalité pour déterminer la probabilité que l'échantillon soit issu d'une population distribuée normalement (par exemple le test de Kolmogorov-Smirnov ou le test W de Shapiro-Wilk). Cependant, aucun de ces tests ne peut remplacer un examen visuel des données par un histogramme (c'est-à-dire un graphique donnant la distribution des fréquences d'une variable). Pour générer simplement un histogramme à partir d'une feuille de données, effectuez un clic droit avec la souris (menu contextuel) sur une cellule de la variable étudiée puis sélectionnez l'option Histogramme dans le menu contextuel Graphiques des Données d'Entrée.

Ce graphique vous permet d'évaluer la normalité de la distribution empirique parce qu'il superpose la courbe normale à l'histogramme. Vous pouvez ainsi examiner les divers aspects qualitatifs de la distribution. Par exemple, une distribution peut être bimodale (c'est-à-dire présenter deux modes) révélant un échantillon hétérogène dont les éléments sont issus de deux populations différentes, chacune plus ou moins normalement distribuée. Dans ce cas, et pour comprendre la nature de la variable étudiée, vous devez rechercher une manière d'identifier quantitativement les deux sous-ensembles.

Autres Statistiques Descriptives

Le module Statistiques Élémentaires offre toute une gamme de statistiques descriptives couramment utilisées. Des statistiques descriptives ordinales, ou d'autres statistiques moins courantes (par exemple des centiles personnalisés, des moyennes harmoniques, etc...), sont proposées dans le module Tests Non-Paramétriques ; ce module propose en outre de nombreuses distributions non normales pouvant être utilisées pour ajuster des données. D'autres statistiques descriptives, plus spécifiques, sont également accessibles dans différents modules de STATISTICA.




Décompositions & ANOVA à 1 Facteur

Introduction. Vous pouvez calculer diverses statistiques descriptives (par exemple, des moyennes, écarts-types, corrélations, centiles, etc...) décomposées selon une ou plusieurs variables catégorielles (par exemple, selon le Sexe et la Région) et réaliser une Analyse de la Variance à un facteur par la procédure Décompositions et ANOVA à 1 Facteur, accessible depuis le Panneau de Démarrage du module Statistiques Élémentaires. pour cet exemple, nous utiliserons le fichier Adstudy.sta (pour ouvrir le fichier Adstudy.sta, sélectionner la commande Ouvrir des Exemples du menu Fichier ; vous trouverez ce fichier de données dans le répertoire Fichiers de Données). Après avoir choisi la procédure Décompositions et ANOVA à 1 Facteur dans le Panneau de Démarrage, sélectionnez l'onglet Tables individuelles dans la boîte de dialogue Statistiques par Groupe (Décomposition), puis cliquez sur le bouton Variables  ; sélectionnez les Mesure1 à Mesure23 comme Variables dépendantes, et les variables Sexe (sexe du sondé, Homme et Femme) et Publicité (type de publicité projetée aux individus ; Coca et Pepsi) comme Variables de classement.

Cliquez sur le bouton Codes des variables de classement et sélectionnez tous les codes pour les deux variables de classement.

Pour sélectionner tous les codes d'une variable, vous pouvez soit entrer les numéros des codes dans les champs d'éditions respectifs, cliquer sur le bouton respectif Tous, ou encore saisir un astérisque (*) dans le champ d'édition respectif. Cliquer sur le bouton OK sans spécifier de valeur revient à sélectionner toutes les valeurs de toutes les variables. Cliquez sur le bouton OK dans la boîte de dialogue Statistiques par Groupe (Décomposition) pour accéder à la boîte de dialogue Statistiques par Groupes - Résultats. Cette boîte de dialogue offre de nombreuses options et procédures pour analyser les données intra-groupes, afin de mieux comprendre les différences entre les catégories des variables de classement.

Tableau de synthèse des moyennes. Vous pouvez sélectionner les statistiques à afficher par les boutons Synthèse : Table des statistiques ou Tables Détaillées à 2 entrées ; cliquez pour cela sur l'onglet Stats Descriptives et sélectionnez toutes les options dans le cadre Statistiques. À présent, cliquez sur le bouton Tables Détaillées à 2 entrées pour produire la feuille de données des résultats.

Cette feuille de données affiche les statistiques descriptives des variables sélectionnées, en fonction des groupes spécifiés (utilisez les barres de défilement pour visualiser les autres variables dans la feuille de données des résultats). Examinons, par exemple, les moyennes de chaque groupe de cette feuille de données ; nous pouvons constater une différence substantielle entre les moyennes des Hommes et des Femmes pour la variable Mesure1. Examinons à présent les moyennes des groupes Homme et Femme pour la variable Mesure1 ; vous pouvez constater une petite différence pour les groupes Pepsi et Coca entre les deux sexes. Ainsi, les groupes définis par le sexe semblent donc assez homogènes de ce point de vue.

ANOVA 1 facteur et comparaisons post-hoc de moyennes. Vous pouvez facilement tester la significativité de ces différences grâce au bouton Analyse de Variance dans l'onglet ANOVA & tests de la boîte de dialogue Résultats. Cliquez sur ce bouton pour afficher la feuille de données avec les résultats de l'analyse de variance univariée pour chaque variable dépendante.

La procédure d'Analyse de la Variance à 1 facteur donne des résultats statistiquement significatifs pour les Mesure5, Mesure7 et Mesure9. Ces résultats significatifs indiquent que les moyennes sont assez différentes entre les groupes. Revenons maintenant à la boîte de dialogue Résultats et cliquons sur l'onglet Tests Post-hoc pour réaliser des tests post-hoc sur les différences significatives entre les groupes individuels (moyennes). Vous devez d'abord sélectionner la ou les variables sur lesquelles vous allez effectuer les comparaisons. Dans cet exemple, cliquons sur le bouton Variables et sélectionnons la variable Mesure7. Vous pouvez choisir différents tests post-hoc (d'autres tests sont disponibles dans le module GLM)  ; cliquons sur le bouton Test LSD ou comparaisons planifiées.

Le test LSD est l'équivalent d'un test t pour des échantillons indépendants, basé sur les N des groupes utilisés dans la comparaison. Les résultats du test t pour des échantillons indépendants de l'Exemple 1 montraient une différence significative entre les réponses des Hommes et des Femmes pour la Mesure7. En utilisant la procédure Décompositions et ANOVA à 1 facteur, nous pouvons constater, par le test LSD, que la différence significative n'a lieu que lorsqu'on montre la publicité Pepsi aux femmes.

Représentation graphique des résultats. Ces différences peuvent être représentées graphiquement grâce aux nombreuses options graphiques de la boîte de dialogue Statistiques par Groupes - Résultats. Par exemple, pour comparer les distributions des variables sélectionnées selon les groupes spécifiés, cliquez sur le bouton Boîtes à moustaches catégorisées de l'onglet Stats Descriptives et sélectionnez le bouton d'option Médiane/Quartiles/Étendue dans la boîte de dialogue Type de Boîte à Moustaches. Cliquez alors sur le bouton OK et sélectionnez la ou les variables appropriées pour produire les graphiques. Ci-dessous, vous pouvez observez la boîte à moustaches de la variable Mesure7.

Vous pouvez constater, dans le tracé ci-dessus, qu'il semble exister une différence dans la distribution des valeurs de la variable Mesure7 entre le groupe Femme-Pepsi et le groupe Homme-Pepsi.

Corrélations intra-groupes. Observons maintenant les corrélations entre variables dans les groupes spécifiés. Revenez à la boîte de dialoguede dialogue Statistiques par Groupes - Résultats, puis cliquez sur l'onglet Corrélations. De nombreuses options sont disponibles dans cet onglet pour afficher différentes statistiques et informations complémentaires, outre les matrices de corrélation (intra-groupes). Dans notre exemple, modifiez l'option Valeur p pour la surbrillance à 0,001, puis cliquez sur le bouton Corrélations & covariances intra-groupes afin d'obtenir la boîte de dialogue de dialogue Sélectionnez les groupes. Elle vous permet de sélectionner un groupe (ou Tous les Groupes) pour les matrices de corrélation.

Dans l'Exemple 1, nous avons produit une matrice de corrélation. Elle indiquait que la corrélation entre les variables Mesure5 et Mesure9 (r = -0,47) était hautement significative (p<0,001). La procédure Décompositions et ANOVA à 1 facteur va vous permettre de poursuivre l'exploration de cette corrélation significative en calculant les corrélations selon les niveaux des variables de classement spécifiées. Dans la boîte de dialogue Sélectionnez les groupes, choisissez l'option TsGroupes puis cliquez sur le bouton OK pour produire les quatre matrices de corrélations.

Comme vous pouvez le constater, les résultats révèlent une structure des corrélations différente selon les groupes (par exemple, la corrélation est très importante dans le groupe Femme/Pepsi et plus faible dans les trois autres groupes). Aucune des corrélations entre la Mesure5 et la Mesure9 n'était significative au niveau 0,001 ; toutefois, en modifiant la valeur du champ d'édition Valeur p pour la surbrillance à 0,05 dans l'onglet Corrélations de la boîte de dialogue Résultats et en cliquant à nouveau sur le bouton Corrélations & covariances intra-groupes, vous pourrez constater que la corrélation entre la Mesure5 et la Mesure9 est significative à ce niveau (p=0,02) pour le groupe défini par le sexe Femme et la publicité Pepsi.

Remarque : l'option Tests d'homogénéité  : r, %ages, moyennes du Panneau de Démarrage du module Statistiques Élémentaires permet de tester des différences entre des coefficients de corrélation.

Nuages de points catégorisés. Les corrélations intra-groupes peuvent être représentées graphiquement en utilisant le bouton Nuages catégorisés dans l'onglet Corrélations de la boîte de dialogue Statistiques par Groupe - Résultats. Si vous cliquez sur ce bouton, vous devrez sélectionner les variables à analyser. Sélectionnez la Mesure5 dans la liste de choix multiple 1ère liste de variables et la Mesure9 dans la liste de choix multiple 2nde liste de variables puis cliquez sur le bouton OK pour produire le tracé.

Le nuage de points catégorisé ci-dessus indique clairement une forte corrélation négative entre la Mesure5 et la Mesure9 pour le groupe Femme/Pepsi.




Détection des Points Atypiques

Fichier de Données. Cet exemple est basé sur le fichier de sur le fichier de données Poverty.sta. Ouvrez ce fichier à l'aide de la commande Ouvrir des Exemples du menu Fichier ; vous trouverez ce fichier dans le répertoire Fichiers de Données. Les données représentent l'évolution de la population entre les recensements de 1960 et de 1970 sur une sélection aléatoire de 30 comtés américains.

Les spécifications des différentes variables sont accessibles par la boîte de dialogue Spécifications de Toutes les Variables (en sélectionnant la commande Spécs de toutes les Variables du menu Données).

Problématique. Dans d'autres exemples (par exemple, Régression Multiple - Exemple 1 : Régression Standard, GLM - Exemple 7 : Régression Simple, PLS - Exemple 1 : Régression Multiple), nous avons illustré la manière d'analyser les indicateurs liés à la pauvreté, c'est-à-dire les variables qui permettent de prévoir au mieux le part de foyers situés en deçà du seuil de pauvreté dans un comté. Au cours de ces analyses, nous avons identifié au moins un point atypique. Dans cet exemple, nous allons nous attacher à identifier tous les points atypiques présents dans le fichier de données.

Démarrer l'analyse. Sélectionnez la commande Statistiques Élémentaires dans le menu Statistiques pour afficher le Panneau de Démarrage du module Statistiques Élémentaires. Le module Statistiques Élémentaires offre à la fois une approche graphique et une approche quantitative pour détecter les points atypiques. Pour démarrer l'analyse, double-cliquez sur la commande Statistiques Descriptives afin d'accéder à la boîte de dialogue Statistiques Descriptives.

Approche graphique. Une approche courante pour détecter des points aberrants ou atypiques consiste à représenter une boîte à moustaches des données. Pour ce faire, cliquez sur le bouton Variables dans la boîte de dialogue Statistiques Descriptives afin d'accéder à une boîte de dialogue  standard de sélection de variables. Dans la mesure où nous cherchons à détecter tous les points atypiques, cliquez sur le bouton Tout, puis cliquez sur le OK dans la boîte de dialogue de sélection de variables. Dans l'onglet Base, cliquez à présent sur le bouton Boîtes à moustaches de toutes les variables.

De toute évidence, la variable N_AGRIC présente une forte dispersion par rapport aux autres variables. Sur ce premier graphique, les points atypiques et extrêmes ne sont pas représentés. Pour activer cette fonctionnalité, double-cliquez sur l'arrière-plan du graphique afin d'accéder à la boîte de dialogue Options du Graphique. Le volet d'options Tracé : Boîtes à Moustaches apparaît.

Cliquez sur le bouton Plus afin d'accéder à la boîte de dialogue Boîtes à Moustaches - Davantage d'Options, qui vous permet de définir d'autres options pour calculer les boîtes à moustaches, contrôler l'afficher des points atypiques et extrêmes, et utiliser la distribution tronquée de la variable dépendante pour calculer la moyenne/médiane. Dans la liste déroulante Points Atypiques, sélectionnez l'option Atyp. & Extrêmes.

Cliquez sur le bouton Fermer afin de retourner dans la boîte de dialogue Options du Graphique, puis cliquez sur le bouton OK afin de mettre à jour le graphique avec les points atypiques et les valeurs extrêmes.

Conformément à ce que nous attendions, il semble exister un point atypique dans la variable N_AGRIC.

Test de Grubbs. Le module Statistiques Élémentaires offre également un certain nombre de méthodes quantitatives pour détecter les points atypiques, parmi lesquelles le test de Grubbs. Pour réaliser ce test, retournez dans la boîte de dialogue Statistiques Descriptives et sélectionnez l'onglet Robustesse. Cet onglet contient diverses options pour reporter les moyennes winsorisées, les moyennes tronquées ainsi que la statistique du test de Grubbs dans la feuille de données des Statistiques Descriptives. Vous pouvez utiliser le test de Grubbs de détection des points atypiques (Grubbs 1969 ; Stefansky 1972) afin d'identifier, un à un, vos points atypiques. Il opère en quantifiant la distance entre un possible point aberrant et les autres points. La statistique du test de Grubbs (G) se calcule en effectuant le ratio entre le plus grand écart absolu à la moyenne de l'échantillon et l'écart-type de l'échantillon.

Dans l'onglet Robustesse, cochez l'option Test de Grubbs pour la détection des points atypiques.

Cliquez à présent sur le bouton Synthèse : Statistiques descriptives afin de produire une feuille de données contenant les statistiques descriptives de l'ensemble des variables.

Nous pouvons constater que la statistique du Test de Grubbs pour la variable N_AGRIC est égale à 4,88. Elle est associée à une valeur p de 0,00. Cette faible valeur p est la preuve que la variable N_AGRIC contient au moins un point atypique.

Recodification des points atypiques. Lorsque la présence de points atypiques est avérée, il appartient au chercheur de déterminer si le point atypique est une représentation fidèle de la propriété sous-jacente (variable) ou s'il s'agit au contraire d'erreurs de mesure ou d'autres anomalies qui ne doivent pas être modélisées.

Sélectionnez le fichier de données original Poverty.sta.

STATISTICA offre une fonctionnalité de "nettoyage des données" qui permet de recodifier (remplacer) les points atypiques. Pour accéder à cette fonctionnalité, sélectionnez la commande Recodifier les Points Atypiques dans le menu Données - Filtrage/Recodification des Données.

La boîte de dialogue Recodification des Points Atypiques et des Valeurs Rares/Extrêmes propose un certain nombre de tests pour identifier les points atypiques dans les variables catégorielles et continues. Pour les variables catégorielles, STATISTICA va considérer qu'une observation est un point atypique dès lors que le code ou la modalité (valeur-texte) associé apparaît avec une fréquence moindre que celle qui est spécifiée. Pour les variables continues, vous avez le choix entre différents tests, notamment un test de normalité, un test de Grubbs, un test des centiles et un test de Tukey. Tous ces tests peuvent être bilatéraux ou unilatéraux (à gauche ou à droite de la distribution).

Dans notre exemple, fixons la cellule Test de la variable N_AGRIC sur un test de Grubbs Bilatéral (cliquez pour ce faire sur la cellule Test puis sélectionnez le test souhaité dans la liste déroulante) et fixons la cellule des Paramètres à 0,05.

Comme indiqué précédemment, cette fonctionnalité vous permet également de recodifier les points atypiques identifiés. Pour ce faire, déplacez-vous vers la droite du tableau Paramètres de recodification. La colonne Type vous propose différentes options de recodification : Aucune Recodification, Remplacer par des VM (valeurs manquantes), Remplacer par un Valeur, Remplacer par la Moyenne, Remplacer par un Centile ou Remplacer par une Borne. Selon le type de recodification que vous choisissez, vous pouvez avoir à renseigner une valeur (par exemple, le centile) dans la colonne Valeur. Vous pouvez également appliquer des statuts d'observations (par exemple, Aucune Modification, Ignorer l'Observation, Marquer l'Observation, Cellule Marquée) afin de repérer aisément les points atypiques ainsi détectés.

Dans notre exemple, considérons que nous ne souhaitons pas recoder le point atypique. Nous souhaitons en revanche le marquer dans la feuille de données afin de déterminer s'il doit être recodé. Pour ce faire, sélectionnez dans la colonne Type l'option Aucune Modification, puis cliquez (une seule fois) dans la cellule Statut et sélectionnez l'option Marquer l'Observation dans la liste déroulante. La boîte de dialogue devrait avoir l'aspect suivant.

Par défaut, STATISTICA va créer une nouvelle feuille de données avec toutes les variables de la feuille de données actuelle. Vous pouvez modifier ce paramétrage ) l'aide des options du cadre Sortie ; conservons les paramètres par défaut dans cet exemple. Cliquez sur le bouton OK afin de produire la nouvelle feuille de données.

Si vous faites défiler la feuille de données jusqu'en bas, vous allez constater que le Comté de Shelby comporte 11.500 agriculteurs. C'est effectivement beaucoup plus que dans les autres comtés.

Pour plus d'informations sur les points atypiques, voir les rubriques Points Atypiques (ou Aberrants), Corrélations - Introduction - Points Atypiques et Approche Quantitative des Points Aberrants.




Comparaison Visuelle de plusieurs Variables

Fichier de Données. Cet exemple repose sur le fichier de données Adstudy.sta. Ouvrez ce fichier de données à l'aide de la commande Ouvrir des Exemples du menu Fichier ; ce fichier se situe dans le dossier Fichiers de données. Les données sont celles d'une enquête américaine (fictive) sur l'efficacité d'une publicité.

Démarrer l'Analyse. Dans le menu Statistiques, sélectionnez la commande Statistiques Élémentaires afin d'accéder à la boîte de dialogue Statistiques Élémentaires (Panneau de Démarrage). Pour démarrer l'analyse, double-cliquez sur l'option Statistiques descriptives afin d'accéder à la boîte de dialogue Statistiques Descriptives.

Une approche graphique courante pour détecter les points atypiques consiste à produire une boîte à moustaches des données. Les histogrammes permettent d'examiner la répartition des données. Les boutons Graphs 1 et Graphs 2 dans l'onglet Base permettent de représenter des graphiques composés, constitués d'une boîte à moustaches et d'un histogramme avec des statistiques descriptives. Ils permettent d'examiner visuellement une variable.

REMARQUE : Lorsque vous explorez visuellement une variable et que vous souhaitez que l'histogramme et la boîte à moustaches utilisent la même échelle, cliquez sur le bouton Comparaison graphique : synthèse au lieu des boutons Graph 1 ou Graph 2.

Nous souhaitons comparer visuellement plusieurs variables. Cliquons sur le bouton Variables dans la boîte de dialogue Statistiques Descriptives afin d'accéder à une boîte de dialogue de sélection d'une liste de variables. Sélectionnons les variables MESURE1-MESURE23 et cliquons sur le bouton OK.

Puis dans la boîte de dialogue Statistiques Descriptives - onglet Base, cliquons sur le bouton Comparaison Graphique : Synthèse.

Quatre graphiques composés sont produits. Vous pouvez comparer jusqu'à six variables par graphique.