Partager :

Concepts Fondamentaux en Statistique


Statistiques Élémentaires :

Tris Croisés



Sommaire :


Introduction

Les tris croisés permettent d'afficher plusieurs tables à double entrées sous une forme compressée. Ce type de tableau s'explique très facilement par un exemple. Reprenons l'enquête sur les sports télévisés (dans un soucis de simplification, seules les réponses Toujours et Souvent ont été reportées ci-dessous).

STATISTICA

STATISTIQUES

ÉLÉMENTAIRES

Tris Croisés :

Pourcentages en Lignes

Facteur

FOOTBALL

TOUJOURS

FOOTBALL

SOUVENT

Total

Ligne

FORMULE1 : TOUJOURS

FORMULE1 : PARFOIS

92,31

61,54

7,69

38,46

66,67

33,33

FORMULE1 : Total

82,05

17,95

100,00

TENNIS : TOUJOURS

TENNIS : SOUVENT

87,50

87,50

12,50

12,50

66,67

33,33

TENNIS : Total

87,50

12,50

100,00

BOXE : TOUJOURS

BOXE : SOUVENT

77,78

100,00

22,22

0,00

52,94

47,06

BOXE : Total

88,24

11,76

100,00

Interprétation du Tableau de Tri Croisé

Dans ce tableau, nous pouvons voir différents tableaux à double entrée qui expriment l'intérêt déclaré par rapport au Football en fonction de l'intérêt exprimé pour la Formule1, le Tennis et la Boxe. Les entrées du tableau représentent les pourcentages de lignes, de sorte que la somme des pourcentages des différentes colonnes totalise 100%. Par exemple, la valeur située dans la partie supérieure gauche du tableau (92,31) nous indique que 92,31% de l'ensemble des personnes interrogées qui ont déclaré être toujours intéressées par la Formule1 ont également déclaré qu'elles étaient toujours intéressées par le Football. Plus bas, nous pouvons lire que pourcentage de personnes qui se sont déclarées toujours intéressées par le Tennis et qui se sont également déclarées toujours intéressées par le Football étaient 87,50% ; pour la Boxe, ce pourcentage est de 77,78%. Les pourcentages de la dernière colonne (Total Ligne) sont toujours exprimés par rapport au nombre total d'observations. La boîte de dialogue Résultats des Tableaux Croisés  offre de nombreuses options pour vous permettre de produire différents formats de tableaux croisés ; par exemple, vous pouvez afficher simultanément les effectifs par cellule, et les pourcentages en ligne, colonne et totaux dans un même tableau.

Interpréter un Tableau Croisé

Dans notre tableau d'exemple, nous pouvons voir les tables à double entrée illustrant l'intérêt déclaré pour le Football en fonction de l'intérêt pour le Baseball, le Tennis et la Boxe. Les entrées de la table représentent les pourcentages lignes, de sorte que les pourcentages en colonnes totalisent 100%. Par exemple, le nombre situé dans l'angle supérieur gauche de la feuille de données (92,31) indique que 92,31% des personnes interrogées ayant déclaré un intérêt systématique (toujours intéressées) pour le baseball, ont également un intérêt systématique (toujours intéressées) pour le football. Un peu plus bas, nous pouvons constater que le pourcentage de personnes toujours intéressées par le tennis et toujours intéressés par le football est de 87,50 % ; pour la boxe, ce nombre est de 77,78 %. Les pourcentages de la dernière colonne (Total Ligne) sont toujours relatifs au nombre total d'observations. La boîte de dialogue Résultats des Tableaux Croisés vous permet de produire différents formats de tableaux croisés ; par exemple, vous pouvez afficher simultanément dans la même table les effectifs des cellules, ainsi que les pourcentages en lignes, en colonnes et les pourcentages totaux.

Tables à Entrées Multiples avec Variables de Contrôle

Si nous ne croisons que deux variables, le tableau obtenu est un tableau à double entrée. Vous pouvez cependant généraliser ce principe à plus de deux variables. Par exemple, pour revenir à l'exemple du "soda" présenté précédemment (voir la rubrique Chi² de Pearson), nous pourrions ajouter une troisième variable dans nos données. Cette variable pourrait contenir des informations concernant la Région dans laquelle l'étude est menée (PACA, ou Lorraine).

 

SEXE

SODA

RÉGION

obs. 1

obs. 2

obs. 3

obs. 4

obs. 5

...

HOMME

FEMME

FEMME

FEMME

HOMME

...

A

B

B

A

B

...

PACA

LORRAINE

PACA

PACA

LORRAINE

...

Le croisement de ces variables produirait un tableau d'ordre 3 (à triple entrée) :

 

RÉGION : LORRAINE

RÉGION : PACA

 

SODA : A

SODA : B

 

SODA : A

SODA : B

 

S : HOMME

20

30

50

 5

45

50

S : FEMME

30

20

50

45

 5

50

 

50

50

100

50

50

100

En théorie, vous pouvez croiser autant de variables que vous le souhaitez dans un même tableau à entrées multiples. Toutefois, l'expérience montre qu'il est souvent difficile d'étudier et de "comprendre" des tableaux mettant en relation plus de 4 variables. Bien que l'option Tableaux Croisés permette de produire des tables d'une grande complexité, il est recommandé d'analyser les relations entre les facteurs dans ces tables en utilisant des techniques de modélisation comme l'Analyse Log-Linéaire ou l'Analyse des Correspondances).

Représentations Graphiques des Tables à Entrées Multiples

Comme pour toutes les analyses dans STATISTICA, de nombreuses options graphiques sont disponibles afin de vous aider à interpréter les tableaux. Vous pouvez produire des histogrammes "catégorisés doubles", des histogrammes en 3D,

ou des tracés curvilignes pour représenter les effectifs jusqu'à trois facteurs par graphique

des cascades de graphiques peuvent être produites pour des tableaux d'ordre supérieur.

Veuillez vous reporter à la boîte de dialogue des Résultats des Tableaux Croisés pour plus d'informations sur ces options graphiques.

Tris Croisés

Introduction. Les tris croisés constituent une méthode économique pour reporter simultanément plusieurs tableaux à double entrées. Poursuivons l'analyse de Exemple 3 : Tables de Fréquences. Nous souhaitons savoir si les personnes interrogées qui se sont déclarées intéressées par le football ont également exprimé un intérêt fort pour la formule 1 et le tennis. Comme nous l'avons déjà mentionné, nous pourrions peut-être retransmettre l'un de ces sports sur un écran TV si c'est le cas, et diffuser un sport complètement différent sur un autre afin d'attirer une nouvelle clientèle. Pour étudier la complémentarité des sports, c'est-à-dire, dans quelle mesure l'intérêt des personnes interrogées par rapport au football est corrélé à celui d'autres sports, calculons un tableau de tri croisé.

Spécifier l'analyse. Le fichier de données utilisé dans cet exemple est le fichier Sports.sta. Veuillez vous reporter à la procédure décrite dans l'Exemple 3 pour l'ouvrir. Sélectionnez la commande Statistiques Élémentaires dans le menu Statistiques pour afficher le Panneau de Démarrage du module Statistiques Élémentaires. Double-cliquez ensuite sur l'option Tableau et Tris croisés pour afficher la boîte de dialogue Tableaux et Tris Croisés et cliquez sur l'onglet Tris croisés.

Mise en forme du tableau. Le tableau de tri croisé est constitué d'un certain nombre de tableaux à double-entrée regroupés dans une même feuille de données. Pour comprendre comment ces tableaux sont construits, la meilleure manière consiste à étudier un tableau-type de tris croisés. Pour ce faire, dans la boîte de dialogue Tableaux et Tris Croisés, cliquez sur le bouton Spécifier les tables (sélection des variables) afin de sélectionner les variables du tableau.

Pour cet exemple, sélectionnez les variables 2-Formule1 à 14-Catch comme variables ligne dans la liste à choix multiples 1ère liste de variables et la variable 1-Football comme variable colonne dans la liste à choix multiples 2nde liste de variables.

Cliquez sur le bouton OK pour terminer la sélection, puis cliquez sur le bouton OK dans la boîte de dialogue Tableaux et Tris Croisés pour afficher la boîte de dialogue Résultats des Tableaux Croisés. Dans cette boîte de dialogue, cliquez sur le bouton Tris croisés de l'onglet Base pour produire la feuille de données avec les résultats.

Lecture du tableau. À nouveau, vous pouvez considérer ce tableau comme une combinaison de tableaux à double entrée. Par exemple, les quatre premières lignes du tableau donnent la répartition des effectifs du tableau à double entrée Football par Formule1. En d'autres termes, vous pouvez visualiser la distribution des 100 personnes interrogées dans les 4*4=16 cellules créées par le tableau croisé de l'intérêt des personnes interrogées pour le football et par la formule 1. À présent, tentons d'exprimer les résultats de diverses manières.

Effectifs bruts. Par défaut, le tableau de tri croisé comporte les effectifs bruts, comme illustré ci-dessus. Vous pouvez constater que 24 sondés (sur 100) se sont déclarés toujours intéressés par le football et toujours intéressés par la formule 1. Si vous examinez les trois premières lignes de la quatrième colonne, vous pouvez constater que sur les personnes intéressées qui déclarent n'être jamais intéressés par le football, seules 7 (0+1+6) déclarent un intérêt pour la formule 1 (Toujours (0), Souvent (1) ou Parfois (2)). Par conséquent, il semble que les deux sports (football et formule 1) plaisent dans une large mesure aux mêmes téléspectateurs.

Pourcentages. Revenons à la boîte de dialogue Résultats des Tableaux Croisés. Cette boîte de dialogue comporte des options vous permettant d'exprimer les entrées de la table en termes de pourcentage-colonne, pourcentage-ligne, ou pourcentage de l'effectif total. Vous pouvez également reporter les effectifs théoriques et/ou les résidus dans le tableau de tri croisé. Cliquez maintenant sur l'onglet Options, cochez l'option Pourcentages des effectifs en ligne et cliquez à nouveau sur le bouton Tris croisés dans l'onglet Base.

Lorsque vous cochez l'option Pourcentages des effectifs en ligne, l'option Tables séparées pour les %ages sélectionnés devient disponible dans l'onglet Avancé. Puisque chaque tableau peut contenir une somme importante d'informations, vous pouvez cocher cette option pour créer les pourcentages dans une feuille de données distincte de celle des effectifs bruts.

Si nous examinons la première ligne de la feuille de données ci-dessus, nous pouvons constater que parmi les individus qui se sont déclarés Toujours intéressés par la formule 1 (tous les individus de la première ligne), 85,71% se sont également déclarés Toujours intéressés par le football.

Trouver un sport indépendant du football. À présent, regardons les pourcentages totaux afin de trouver un sport indépendant du football. Pour ce faire, revenez à la boîte de dialogue Résultats des Tableaux Croisés et cochez l'option Pourcentages des effectifs totaux dans l'onglet Options (dans un soucis de lisibilité, désélectionnez l'option Pourcentages des effectifs en ligne). À nouveau, cliquez sur le bouton Tris croisés dans l'onglet Base pour produire une feuille de données avec ces effectifs.

Utilisez les barres de défilement pour faire apparaître les effectifs de la Gymnastique (voir ci-dessus). Les entrées de cette table sont maintenant exprimées en pourcentages des effectifs totaux. Ainsi 14 % des individus interrogés se déclarent Toujours intéressés par le Football et Toujours intéressés par la Gymnastique. Seules 7% de ces individus se déclarent Jamais intéressés par le Football et Jamais intéressés par la Gymnastique. Simultanément, 12% (2+2+8) des personnes interrogées se déclarent Jamais intéressées par le Football, mais Toujours (2%), Souvent (2%), ou Parfois (8%) intéressées par la Gymnastique. Ainsi, la gymnastique semble être une bonne alternative (pour la seconde TV grand-écran de votre café) au football, à la formule 1 ou au tennis, et peut attirer de nouveaux clients.

Statistiques. La section d'Introduction décrit certaines des statistiques les plus couramment utilisées pour exprimer la contingence ou la relation entre deux variables catégorielles. Regardons certaines de ces statistiques qui sont listées dans la boîte de dialogue Résultats des Tableaux Croisés, dans le cadre Statistiques des tableaux à double-entrée de l'onglet Options. La statistique de contingence la plus courante entre deux variables catégorielles étant le test du Chi², cochez l'option Chi² max vraisemblance & Pearson.

Une mesure de corrélation, proche du r de Pearson, est le R de Spearman, ou Rs. Cette mesure considère que les valeurs des variables comportent au moins l'information sur le rang. Cette hypothèse est raisonnable dans cet exemple puisqu'une personne qui se déclare Toujours intéressée par le football est sans doute plus "passionnée" de football qu'une personne qui se déclare seulement Souvent intéressée. Par conséquent, cochez également la case Corrélation sur les rangs de Spearman dans cet onglet.

Sélection d'un tableau. Maintenant que les statistiques sont sélectionnées, cliquez sur le bouton Tableaux détaillés à double-entrée dans l'onglet Avancé, pour sélectionner les tableaux de l'analyse. La boîte de dialogue Sélectionnez les tableaux à étudier apparaît et dresse la liste de tous les tableaux à double entrée disponibles.

Vous pouvez sélectionner les tableaux souhaités dans cette liste ou utiliser l'option Tout pour produire tous les tableaux à double-entrée. Pour cet exemple, sélectionnons le tableau Formule1 Football et cliquons sur le bouton OK de cette boîte de dialogue. Deux feuilles de données vont être produites pour chaque tableau sélectionné.

La première feuille de données comporte les effectifs observés (bruts) et toute autre sélection réalisée dans le cadre Calcul des tables de la boîte de dialogue Résultats des Tableaux Croisés - onglet Options (par exemple, Pourcentages des effectifs totaux). La seconde feuille de données comporte les résultats du test du Chi² et de la corrélation de Spearman.

La valeur du Chi² de Pearson pour ce tableau à double entrée est égale à 72,95, qui est statistiquement significatif (voir la rubrique Concepts Élémentaires pour une explication des tests de significativité). Le Rang R de Spearman est égal à 0,6785, ce qui montre une corrélation importante entre l'intérêt pour le football et pour la formule 1 dans cet échantillon.

Outre les méthodes mentionnées précédemment, vous pouvez visualiser graphiquement les tableaux de résultats à double entrée en cliquant sur le bouton Tracés d'interaction de fréquences dans l'onglet Avancé de la boîte de dialogue Résultats des Tableaux Croisés. Lorsque vous cliquez sur ce bouton, la boîte de dialogue Sélectionnez les tableaux à étudier apparaît. Sélectionnez le tableau Formule1 Football et cliquez sur le bouton OK pour produire le tracé d'interaction.

Vous pouvez également utiliser le bouton Histogrammes catégorisés dans l'onglet Avancé de la boîte de dialogue Résultats des Tableaux Croisés,

ou le bouton Histogrammes en 3D,

pour visualiser la distribution des effectifs dans les tableaux à double entrée sélectionnés.

Étude d'autres tableaux. Revenez à la boîte de dialogue Résultats des Tableaux Croisés et cliquez à nouveau sur le bouton Tableaux détaillés à double-entrée dans l'onglet Avancé. À présent, sélectionnez le tableau Gymnastique Football dans la boîte de dialogue Sélectionnez les tableaux à étudier et cliquez sur le bouton OK. Remarque  : les mêmes statistiques seront calculées pour ce tableau puisque vous n'avez pas modifié vos sélections pour ces options.

Il existe toujours une relation entre l'intérêt déclaré pour le Football et la Gymnastique. Mais elle n'est plus aussi forte (le R de Spearman est de 0,33). Le fait que même cette variable (Gymnastique) soit liée de façon significative au football indique que de nombreuses personnes interrogées (tirées de façon aléatoire dans des cafés des sports) sont en fait généralement intéressées par les sports télévisés, quels qu'ils soient.

Synthèse. Les conclusions de cette analyse sont (1) que la plupart des personnes interrogées dans l'étude étaient intéressées par la retransmission de tous les sports populaires à la télévision, c'est-à-dire, le football, la formule 1 et le tennis, et (2) que la diffusion d'épreuves de gymnastique de temps à autres pouvait attirer de nouveaux clients qui se sont déclarés explicitement non intéressés par le football.

Didacticiels

Vous pouvez visionner l'intégralité de la série de tutoriels Le Data Mining en 35 Leçons avec STATISTICA en remplissant le formulaire d'inscription. Vous serez alors notifié(e) automatiquement de la disponibilité des nouveaux épisodes et recevrez d'autres informations utiles.

StatSoft propose par ailleurs une série de didacticiels et présentations interactives décrivant pas-à-pas différentes opérations que vous pouvez réaliser à l'aide de STATISTICA. Si vous souhaitez voir aborder un thème particulier, merci de nous écrire.