Partager :

Concepts Fondamentaux en Statistique


Statistiques Élémentaires :

Statistiques dans les Tableaux Croisés



Sommaire :


Introduction

Les tableaux croisés nous permettent d'identifier les relations entre des variables. Le tableau suivant révèle une très forte relation entre deux variables : la variable Age (Adulte vs. Enfant) et la variable Gâteau (A vs. B).

 

GÂTEAU : A

GÂTEAU : B

 

ÂGE : ADULTE

50

  0

50

ÂGE : ENFANT

  0

50

50

 

50

50

100

Tous les adultes préfèrent le gâteau A, tandis que tous les enfants préfèrent le gâteau B. Dans ce cas, nous avons peu de doutes quant à la fiabilité de nos conclusions, parce qu'il est peu vraisemblable qu'une telle structure d'effectifs soit due au hasard, c'est-à-dire sans l'existence d'une "réelle" différence dans les préférences des adultes et des enfants par rapport aux gâteaux. Toutefois, dans la réalité, les relations entre variables sont souvent moins nettes, et se pose alors la question de savoir comment mesurer ces relations et comment évaluer leur fiabilité (significativité statistique). Cette section présente les mesures les plus courantes des relations entre deux variables catégorielles ; c'est-à-dire des mesures pour des tableaux à double entrée. Les techniques utilisées pour analyser simultanément des relations entre plus de deux variables (des tableaux croisés d'ordre supérieur) sont présentées dans le cadre des modules Analyse Log-Linéaire et Analyse des Correspondances.

Vous pouvez produire automatiquement des tableaux croisés contenant jusqu'à 6 variables (tables d'ordre 6). Les filtres de sélection peuvent néanmoins vous permettre de spécifier des tableaux d'ordre plus élevé (voire illimité). Toutes les mesures de relations entre des variables croisées sont reportées dans des tableaux à double entrée, même si elles ne représentent que des "segments" d'une table à entrées multiples plus vaste (voir la description de la boîte de dialogue Résultats des Tableaux Croisés).

Modèles Linéaires/Non-Linéaires Généralisés (GLZ). Une autre manière d'analyser des tableaux croisés consiste à utiliser le module Modèles Linéaires/Non-Linéaires Généralisés (GLZ). Ce module met à votre disposition les techniques du modèle linéaire généralisé et vous permet de réaliser des régressions multiples standard, pas à pas, ou par recherche exhaustive du meilleur modèle avec des prédicteurs catégoriels (ou continus), pour des variables dépendantes (de réponse) binomiales ou multinomiales.

Chi² de Pearson

Le Chi² de Pearson est le test de significativité le plus courant sur la relation entre des variables catégorielles. Cette mesure se fonde sur le fait qu'il est possible de calculer les fréquences théoriques (attendues) dans une table à double entrée (c'est-à-dire les fréquences auxquelles nous pourrions nous attendre en l'absence de relation entre les variables). Par exemple, supposez que nous demandions à 20 hommes et 20 femmes de choisir entre deux marques de sodas (les marques A et B). Si le sexe n'a pas d'influence sur le choix d'un soda particulier, nous pouvons nous attendre à trouver autant de sodas de la marque A et de la marque B pour chaque sexe. Le test du Chi² devient de plus en plus significatif à mesure que les résultats s'écartent de la structure attendue, c'est-à-dire diffèrent de cette structure de choix pour les hommes et les femmes.

La valeur du Chi² et son niveau de significativité dépendent du nombre total d'observations et du nombre de cellules dans la table. Conformément aux principes énoncés dans les Concepts Élémentaires, de faibles écarts entre les fréquences relatives des cellules et la structure attendue seront significatifs lorsque les effectifs seront importants.

La seule restriction à l'utilisation du Chi² (autre qu'une sélection aléatoire de l'échantillon) est que les effectifs théoriques ne doivent pas être trop faibles. Le Chi² teste en fait les probabilités sous-jacentes dans chaque cellule et lorsque les effectifs théoriques de la cellule sont inférieurs à 5 (c'est le seuil habituellement retenu), ces probabilités ne peuvent être estimées avec une précision suffisante. Pour une présentation plus approfondie, veuillez vous reporter à Everitt (1977), Hays (1988), ou Kendall et Stuart (1979).

Chi² du Maximum de Vraisemblance

Le Chi² du Maximum de Vraisemblance teste la même hypothèse que le Chi² de Pearson ; cependant, son calcul est basé sur la théorie du maximum de vraisemblance. En pratique, le Chi² du Maximum de Vraisemblance est souvent très proche du Chi² de Pearson. Pour plus d'informations concernant cette statistique, veuillez vous reporter à Bishop, Fienberg et Holland (1975), ou Fienberg, S. E. (1977) ; cette statistique est également abordée dans le cadre du module Analyse Log-Linéaire.

Modèles Linéaires/Non Linéaires Généralisés (GLZ). Une autre manière d'analyser des tableaux croisés consiste à utiliser le module Modèles Linéaires/Non-Linéaires Généralisés (GLZ). Ce module met à votre disposition les techniques du modèle linéaire généralisé et vous permet de réaliser des régressions multiples standard, pas à pas, ou par recherche exhaustive du meilleur modèle avec des prédicteurs catégoriels (ou continus), pour des variables dépendantes (de réponse) binomiales ou multinomiales (voir la rubrique Fonction de Liaison).

Correction de Yates

L'approximation du Chi² dans de petites tables 2 x 2 peut être améliorée en réduisant la valeur absolue des différences entre les effectifs théoriques et observés de 0,5 avant d'en prendre le carré (Correction de Yates). Cette correction, qui rend l'estimation plus conservatrice, est habituellement appliquée lorsque la table ne contient que de faibles effectifs observés, de sorte que certains effectifs théoriques deviennent inférieurs à 10 (pour plus d'informations sur cette correction, voir Conover, 1974 ; Everitt, 1977 ; Hays, 1988 ; Kendall et Stuart, 1979 ; et Mantel, 1974).

Test Exact de Fisher

Ce test n'est disponible que pour les tables 2 x 2, il est basé sur la logique suivante : étant donnés les fréquences marginales du tableau et en supposant que les deux facteurs de la table ne sont pas corrélés dans la population, quelle est la probabilité d'obtenir des effectifs différents ou inférieurs dans les cellules par rapport à ceux qui sont observés ? Pour un n faible, cette probabilité peut être calculée exactement en comptant toutes les tables possibles pouvant être construites à partir des fréquences marginales. Ainsi, le test exact de Fisher calcule la probabilité exacte sous hypothèse nulle d'obtenir la distribution courante des effectifs dans les cellules, ou une qui soit différente. Les deux probabilités, unilatérale et bilatérale, sont reportées.

Chi² de McNemar

Ce test s'applique lorsque les effectifs des tables 2 x 2 représentent des échantillons appariés. Par exemple, dans une étude de modèle avant/après, on peut comptabiliser le nombre d'étudiants ayant échoué à un test de mathématiques au début et à la fin du semestre. Deux valeurs du Chi² sont reportées : A/D et B/C. Le Chi² A/D teste l'hypothèse que les fréquences dans les cellules A et D (en haut à gauche, en bas à droite) sont identiques. Le Chi² B/C teste l'hypothèse que les fréquences dans les cellules B et C (en haut à droite, en bas à gauche) sont identiques.

Coefficient Phi

Le Phi² est une mesure de la corrélation entre deux variables catégorielles dans une table 2 x 2. Sa valeur est comprise entre 0 (indépendance entre les facteurs) et 1 (corrélation parfaite entre les deux facteurs de la table). Pour plus d’informations sur cette statistique, voir Castellan et Siegel (1988, p. 232).

Coefficient de Contingence

Le coefficient de contingence est un Chi² basé sur une mesure de la relation entre deux variables catégorielles (proposé par Pearson, l'auteur du test du Chi²). Son avantage sur le Chi² ordinaire est qu'il est plus facilement interprétable, puisque son intervalle de définition est [0;1] où 0 représente une indépendance parfaite. L'inconvénient de cette statistique est que sa borne supérieure est "limitée" par la taille de la table ; C ne peut atteindre la borne 1 que lorsque le nombre de catégories est infini (voir Siegel, 1956, p. 201).

V de Cramer


N

représente le nombre total d'observations

min(i-1)(j-1)

représente le minimum entre le nombre de dimensions en ligne moins 1 et le nombre de dimensions en colonnes moins 1

Puisque le V est basé sur la statistique du Chi², il peut s'interpréter comme l'écart au carré entre les effectifs théoriques et observés, ramené à un intervalle de 0 à 1 (ou légèrement inférieur à 1). Il s'utilise habituellement pour comparer les résultats de plusieurs tableaux. Pour plus d'informations concernant cette statistique, voir Bishop, Fienberg, Holland (1975, p. 385-387).

Corrélation Tétrachorique

Cette statistique n'est applicable qu'aux tables 2 x 2. Si la table 2 x 2 peut être considérée comme le résultat de deux variables continues, artificiellement transformées en deux catégories chacune, le coefficient de corrélation tétrachorique estimera la corrélation entre les deux. Cette statistique est souvent utilisée en Analyse de Fiabilité.

Interprétation des Mesures de Contingence

Un inconvénient majeur des mesures de contingence est qu'elles ne se prêtent pas facilement à des interprétations en termes de probabilités ou de "part de variance", contrairement, par exemple, au r de Pearson (voir la rubrique Corrélations). Il n'existe pas de mesure universellement acceptée de la relation entre des catégories qui permettrait une interprétation simple.

Tableaux Croisés

Introduction. Même si nous avons déjà tiré des conclusions temporaires dans nos précédents exemples (Exemple 3, Exemple 4), concernant l'enquête sur les sports, nous allons maintenant examiner d'autres tableaux. Plus particulièrement, nous allons déterminer le pourcentage de véritables fanatiques du sport parmi les personnes interrogées. C'est-à-dire, le nombre d'individus qui se sont déclarés Toujours intéressés par le Football, la Formule 1 et le Tennis à la télévision. Par opposition, nous produirons également le tableau du Football en fonction de la Formule 1 et de la Boxe.

Spécifier l'analyse. Ouvrez le fichier de données Sports.sta. Sélectionnez la commande Statistiques Élémentaires dans le menu Statistiques pour afficher le Panneau de Démarrage des Statistiques Élémentaires. Double-cliquez sur l'option Tris croisés. Dans l'onglet Tableaux Croisés de la boîte de dialogue Tableaux Croisés, spécifiez la table ; cliquez sur le bouton Spécifier les tables (sélection des variables) pour accéder à une boîte de dialogue de sélection des variables.

Vous pouvez sélectionner une ou plusieurs variables dans chacune des six listes pour créer des tableaux d'ordre multiple. Toutefois, dans cet exemple, nous allons nous contenter de spécifier deux tables : Football par Formule 1 par Tennis et Football par Formule 1 par Boxe. Par conséquent, dans la boîte de dialogue sélection des variables, nous allons sélectionner la variable Football dans la liste de choix multiple Liste1, la variable Formule 1 dans la liste de choix multiple Liste2, et les variables Tennis et Boxe dans la liste de choix multiple Liste3 et valider notre sélection en cliquant sur le bouton OK. En sélectionnant les variables de cette manière, nous allons créer deux tables dans lesquelles les niveaux de Tennis seront utilisés pour "découper" l'une des tables et Boxe pour "découper" l'autre table. En d'autres termes, chaque combinaison des niveaux de Football et de Formule 1 va être étudiée pour chaque niveau de Tennis (ou de Boxe). La boîte de dialogue Tableaux Croisés se présente maintenant comme ci-dessous :

Après avoir sélectionné vos tables, le bouton Visualisation/suppression de tables devient disponible (c'est-à-dire, non grisé). Si vous cliquez sur ce bouton, la boîte de dialogue Sélectionnez les tableaux à supprimer apparaît et vous permet de sélectionner les tables à étudier ou le cas échéant, à supprimer de la liste. À présent, cliquez sur le bouton OK dans la boîte de dialogue Tableaux et Tris Croisés pour obtenir la boîte de dialogue Résultats des Tableaux Croisés.

Il s'agit de la même boîte de dialogue que dans l'exemple sur les tableaux croisés (Exemple 4), à la différence près que le bouton Tableaux Croisés n'est plus disponible. À nouveau, dans l'onglet Options sélectionnez les informations à reporter dans les tables (par exemple, Pourcentages des effectifs en ligne, Pourcentages des effectifs totaux, etc...) ainsi que les statistiques à calculer (par exemple, tests de Chi² max vraisemblance & Pearson, Corrélation sur les rangs de Spearman, etc...). Puis cliquez sur le bouton Synthèse : Tableaux de synthèse ou sur le bouton Tableaux détaillés à double-entrée dans l'onglet Avancé.

Dans les deux cas, une boîte de dialogue intermédiaire apparaît et vous permet de sélectionner un tableau parmi les tableaux précédemment sélectionnés. Lorsque vous sélectionnez l'option Tout dans la boîte de dialogue Sélectionnez les tableaux à étudier, diverses feuilles de données seront produites pour chacune des tables listées dans cette boîte de dialogue.

Dans cet exemple, cliquez sur le bouton Synthèse  : Tableaux de synthèse et sélectionnez le tableau Football Formule 1 Tennis (voir également l'Exemple 3 qui présente l'utilisation du bouton Tableaux détaillés à double-entrée).

Comme vous pouvez le constater, 11 personnes interrogées dans notre échantillon de 100 individus se déclarent Toujours intéressées par le Football, la Formule 1 et le Tennis. Revenons maintenant à la boîte de dialogue Résultats des Tableaux Croisés, cliquons à nouveau sur le bouton Synthèse : Tableaux de synthèse puis sélectionnons la table Football Formule 1 Boxe et cliquons sur le bouton OK.

À nouveau, 11 personnes se sont déclarées Toujours intéressées par le Football, la Formule 1 et la Boxe.

Représentation graphique des tableaux croisés. Les résultats des tableaux croisés peuvent être représentés graphiquement grâce aux boutons Histogrammes Catégorisés, Tracés d'interactions de fréquences et Histogrammes en 3D dans cette boîte de dialogue (dans l'onglet Avancé). Comme pour les autres options des tableaux croisés dans la boîte de dialogue des résultats, la boîte de dialogue Sélectionnez les tableaux à étudier apparaît lorsque vous sélectionnez des options graphiques.

Synthèse. Pour conclure cette analyse, nous savons maintenant que 11 personnes interrogées sur 100 dans notre échantillon se déclarent toujours intéressés par le football, la formule 1 et le tennis. Nous pouvons donc affirmer sans grand risque qu'environ 10% de la clientèle des cafés des sports sont des amateurs de sports et regardent la plupart des sports populaires.

Didacticiels

Vous pouvez visionner l'intégralité de la série de tutoriels Le Data Mining en 35 Leçons avec STATISTICA en remplissant le formulaire d'inscription. Vous serez alors notifié(e) automatiquement de la disponibilité des nouveaux épisodes et recevrez d'autres informations utiles.

StatSoft propose par ailleurs une série de didacticiels et présentations interactives décrivant pas-à-pas différentes opérations que vous pouvez réaliser à l'aide de STATISTICA. Si vous souhaitez voir aborder un thème particulier, merci de nous écrire.