Partager :

Concepts Fondamentaux en Statistique


Statistiques Élémentaires :

Tables de Fréquences (ou Tris à Plat)



Sommaire :


Objectifs

Les tables de fréquences ou tris à plat représentent la méthode la plus simple pour l'analyse des données catégorielles (nominales) (voir la rubrique Concepts Élémentaires). Elles sont souvent utilisées comme lors de la phase exploratoire de l'analyse pour visualiser la manière dont les différentes modalités sont distribuées dans l'échantillon. Par exemple, dans une enquête portant sur l'intérêt des spectateurs pour différents sports, on pourrait synthétiser les réponses des personnes interrogées sur le football dans la table de fréquences suivante :

Le tableau ci-dessus indique le nombre, la proportion et la proportion cumulée de personnes interrogées qui ont déclaré regarder (1) Toujours, (2) Souvent, (3) Parfois ou (4) Jamais le Football. Bien entendu, STATISTICA fournit de nombreuses options graphiques permettant de visualiser la distribution des données (voir la boîte de dialogue Tables de Fréquences).

Organisation des Données

Toute variable d'un fichier de données peut être analysée et affichée dans une table de fréquences. Outre la possibilité de tabuler selon les codes entiers, vous pouvez également choisir des codes spécifiques dans la table, spécifier des intervalles ou même des conditions logiques (arbitraires) qui permettront d'affecter des observations spécifiques à différentes catégories dans la table de fréquences.

Applications

Dans la plupart des projets de recherche, l'étape précédant l'analyse consiste à produire des tables de fréquences. Par exemple, dans une enquête, les tables de fréquences permettent de connaître le nombre d'hommes et de femmes participant à l'enquête, le nombre de personnes interrogées qui sont issues d'une catégorie particulière (ethnie, race, religion, etc...). Des informations sur des échelles de comportements (par exemple, l'intérêt pour le football) peuvent également être synthétisées par une table de fréquences. En recherche médicale, il est possible de connaître le nombre de patients présentant des symptômes particuliers ; en recherche industrielle, on s'intéressera plutôt à la fréquence de différentes causes de rupture des produits lors de tests destructifs (par exemple, quelles sont les pièces responsables du dysfonctionnement des télévisions sous des températures extrêmes ?). Habituellement, lorsque les données contiennent une ou plusieurs variables catégorielles, l'une des premières étapes de l'analyse consiste à produire des tables de fréquences à partir de ces variables catégorielles.

Tables de Fréquences

Introduction. L'exemple suivant est basé sur un fichier de données (fictives) illustrant les résultats d'une enquête. Supposez qu'il existe plusieurs "cafés des sports" dans votre ville. Dans chaque café vous disposez de deux ou trois télévisions grand-écran sur lesquelles sont diffusés différents événements sportifs. Puisque vous ne pouvez pas diffuser tous les événements sportifs disponibles simultanément à la télévision, vous souhaitez savoir quels sports intéressent le plus vos clients.

Vous réalisez, par conséquent, une enquête sur 100 clients (choisis au hasard à différents moments, dans différents cafés). Vous leur demandez d'exprimer leur intérêt pour différents types de sports à la télévision. Plus précisément, chaque personne interrogée reçoit une liste de 14 sports et doit indiquer son intérêt pour les sports respectifs en utilisant une échelle à 4 points. Les quatre notations possibles sur cette échelle sont les suivantes : (1) Toujours intéressé, (2) Souvent intéressé, (3) Parfois intéressé, et (4) Jamais intéressé. Vous trouverez ci-dessous une liste des quatorze sports inclus dans l'étude, dans la boîte de dialogue Spécifications de Toutes les Variables (accessible par la commande Spécs de toutes les Variables du menu Données).

Fichier de données. Les réponses ont été enregistrées dans le fichier d'exemple Sports.sta. Chaque variable de ce fichier représente un sport (voir ci-dessus), et chaque ligne représente les réponses d'une personne interrogée. Pour chaque sport, l'intérêt exprimé par l'individu est enregistré sur une échelle à quatre points, et des valeurs-texte permettent d'identifier les réponses. Ouvrez le fichier de données Sports.sta grâce à la commande Ouvrir des Exemples du menu Fichier ; vous trouverez ce fichier dans le répertoire Fichiers de Données.

Tables de fréquences. Vous pouvez d'abord observer l'intérêt suscité par les sports les plus populaires, c'est-à-dire le football, la formule 1 et le tennis. Sélectionnez la commande Statistiques Élémentaires dans le menu Statistiques pour afficher la boîte de dialogue Statistiques Élémentaires (Panneau de Démarrage) ; double-cliquez ensuite sur l'option Tables de fréquences pour afficher la boîte de dialogue Tables de Fréquences. Dans cette boîte de dialogue, cliquez sur le bouton Variables et sélectionnez les trois premières variables (c'est-à-dire, Football, Formule1, Tennis). Cliquez sur l'onglet Avancé pour les différentes options de mise en forme possibles des données. La boîte de dialogue Tables de Fréquence apparaît comme suit :

Cette boîte de dialogue comporte diverses options pour modifier l'affichage et la catégorisation des tables de fréquences ; divers tests de normalité et techniques graphiques pour vérifier visuellement la normalité des variables sont disponibles dans d'autres onglets de cette boîte de dialogue. Pour notre exemple, contentons-nous d'accepter la méthode de catégorisation par défaut (c'est-à-dire, Toutes les valeurs distinctes, avec étiquettes), et cliquons sur le bouton Synthèse : Tables de fréquence pour afficher les tables de fréquence, une pour chaque variable sélectionnée.

Comme vous pouvez le constater dans la feuille des résultats de la variable Football, 39% des individus interrogés se déclarent Toujours intéressés par le football ; 16% se déclarent Souvent intéressés, etc... Plus généralement, 81% des sondés expriment un certain intérêt (catégories Toujours, Souvent et Parfois combinées) et seuls 19% se déclarent Jamais intéressés.

Produire des histogrammes. Vous pouvez aisément produire des histogrammes illustrant les variables sélectionnées en revenant à la boîte de dialogue Tables de Fréquence et en cliquant sur le bouton Histogrammes.

À présent, examinons les résultats de la seconde variable (Formule1).

Vous pouvez constater que la plupart des sondés (37%) se déclarent Parfois intéressés par la formule1 à la télévision. 28% des individus se déclarent tout de même Toujours intéressés.

Options graphiques. La plupart de ces résultats peuvent être représentés graphiquement grâce aux options graphiques disponibles dans cette boîte de dialogue des Résultats. Cliquez dans l'onglet Stats Descriptives sur le bouton Boîtes à moustaches de toutes les variables. La boîte de dialogue Type de Boîtes à Moustaches apparaît. Sélectionnez le bouton d'option Moyenne/Erreur-Type/Écart-Type comme type de boîte à moustaches et cliquez sur le bouton OK pour produire le graphique.

La dispersion des réponses pour chacune de ces variables semble assez proche ; toutefois, l'intérêt pour le football semble plus élevé comme l'indique la moyenne plus faible des réponses pour cette variable (souvenez-vous que la valeur 1 indique un fort intérêt tandis que la valeur 4 représente un intérêt nul). Nous parvenons à la même conclusion en comparant les tables de fréquences de ces trois variables.

Examinons maintenant l'histogramme bivarié en 3D. Lorsque vous cliquez sur le bouton Histogrammes en 3D, distributions bivariées, vous devrez sélectionner les variables de ce tracé. Pour cet exemple, sélectionnez Football dans la 1ère liste de variables et Formule1 dans la 2nde liste de variables puis cliquez sur le bouton OK. Remarque : si vous sélectionnez plusieurs variables dans une liste, plusieurs histogrammes en 3D seront construits, un pour chaque couple de variables sélectionnées.

L'examen visuel de cette distribution bivariée met en évidence une corrélation entre les réponses données pour les variables Football et Formule 1. En fait, si vous avez réalisé une analyse de corrélations, vous avez pu remarquer une corrélation de 0,6785 entre ces deux variables, indiquant que les amateurs de football à la télévision regardent également la formule 1.

Synthèse. Nous savons maintenant (sans réelle surprise) que le football et la formule 1 sont les sports favoris des personnes interrogées dans notre échantillon. Nous aimerions à présent savoir s'il existe un "chevauchement" entre les sports. Par exemple, si la clientèle est constituée de passionnés de sport télévisé, regardant indifféremment du football, de la formule1 ou du tennis, peut-être est-il judicieux de ne diffuser qu'un de ces sports à la fois et réserver les autres écrans de télévision pour des sports assez différents, comme du patinage ou du catch permettant d'attirer une clientèle distincte. Voir l'Exemple 4 : Tris Croisés pour plus d'informations.

Didacticiels

Vous pouvez visionner l'intégralité de la série de tutoriels Le Data Mining en 35 Leçons avec STATISTICA en remplissant le formulaire d'inscription. Vous serez alors notifié(e) automatiquement de la disponibilité des nouveaux épisodes et recevrez d'autres informations utiles.

StatSoft propose par ailleurs une série de didacticiels et présentations interactives décrivant pas-à-pas différentes opérations que vous pouvez réaliser à l'aide de STATISTICA. Si vous souhaitez voir aborder un thème particulier, merci de nous écrire.