Partager :

Concepts Fondamentaux en Statistique


Statistiques Élémentaires :

Tests t pour des Échantillons Indépendants



Sommaire :


Introduction

Le test t est la méthode la plus courante pour évaluer les différences entre les moyennes de deux groupes. Par exemple, le test t peut être utilisé pour tester la différence entre les résultats d'un groupe de patients auquel on administrerait un médicament et un groupe témoin recevant un placebo. Théoriquement, vous pouvez utiliser le test t même sur des échantillons de très petite taille (par exemple n = 10 ; certains chercheurs affirment même que des échantillons plus petits peuvent être utilisés), tant que les variables sont distribuées normalement dans chaque groupe et que la dispersion des résultats dans les deux groupes n'est pas significativement différente (voir aussi la rubrique Concepts Élémentaires). Comme nous l'avons déjà mentionné, l'hypothèse de normalité peut être testée en examinant la distribution des données (grâce à un histogramme) ou en effectuant un test de normalité (par la commande Statistiques Descriptives). L'hypothèse d'homogénéité des variances peut se vérifier par un test F (proposé en sortie du test t) ou par le test de Levene, plus robuste (ainsi que la modification Brown-Forsythe de ce test). Si ces conditions ne sont pas satisfaites, vous pouvez encore tester les différences entre les moyennes des deux groupes en utilisant une alternative non-paramétrique au test t (voir le module Tests Non-Paramétriques).

Le niveau p reporté dans un test t représente la probabilité d'erreur associée à l'acceptation d'une hypothèse quant à l'existence d'une différence. En langage technique, il s'agit de la probabilité d'erreur de rejeter l'hypothèse selon laquelle il n'existe pas de différence entre les deux groupes d'observations dans la population alors qu'en réalité, l'hypothèse est vraie. Certains chercheurs préconisent un test unilatéral lorsque la différence prend le signe prévu (vous ne considérez alors qu'une seule des deux extrémités de la distribution de probabilité), ce qui permet de diviser par deux le niveau p standard reporté avec le test t (probabilité "bilatérale"). D'autres chercheurs recommandent en revanche d'utiliser systématiquement un test t bilatéral standard.

Pour obtenir des informations supplémentaires concernant les tests t pour des échantillons indépendants, voir les rubriques :

Organisation des Données

Organisation des Données

Afin d'effectuer le test t pour des échantillons indépendants, une variable indépendante (de classement) (par exemple, le Sexe) et au moins une variable dépendante (par exemple le résultat d'un test) sont nécessaires. Les moyennes de la variable dépendante sont comparées pour les groupes sélectionnés, sur la base des modalités spécifiques (codes de classement, par exemple homme et femme) de la variable indépendante. Les données suivantes peuvent être analysées avec un test t comparant les Taux de Globules Blancs moyens chez les hommes et chez les femmes :

 

SEXE

TGB

obs. 1

homme

111

obs. 2

homme

110

obs. 3

homme

109

obs. 4

femme

102

obs. 5

femme

104

 

TGB moyen chez les hommes = 110
TGB moyen chez les femmes = 103

Autre Organisation des Données

Parfois les données sont déjà arrangées (par exemple comme dans une feuille de données), et chaque colonne ou variable du fichier représente un groupe :

 

Homme

Femme

obs. 1

obs. 2

obs. 3

111

110

109

102

104

 

Remarque : la commande Test t pour des échantillons indépendants du module Statistiques Élémentaires peut également calculer des tests t pour des données présentées de cette manière. Sachez toutefois que cette disposition (mise en forme) est rare et peu recommandée si vous travaillez avec de gros fichiers de données. En pratique, tous les logiciels d'analyse de données, y compris STATISTICA, supposent des données mises en forme comme le montre la rubrique Organisation des Données. De cette manière, vous pouvez identifier chaque réponse individuelle ou chaque individu dans le fichier de données ; ainsi, lorsque vous étudiez plusieurs variables dépendantes, vous pouvez utiliser des méthodes multivariées basées sur les matrices de corrélations (intra-groupes) des variables.

Graphiques du Test t

Lors d'un test t, vous pouvez représenter les moyennes et les mesures de dispersion des deux groupes à l'aide d'une boîte à moustaches, directement à partir des feuilles de données, en sélectionnant simplement un test t (à l'aide des touches de déplacement ou de la souris) ; divers graphiques de la distribution des résultats par groupe peuvent aussi être produits directement à partir de la boîte de dialogue Test t pour des Échantillons Indépendants.

Ces graphiques permettent d'évaluer rapidement et de "visualiser intuitivement" l'intensité de la relation entre la variable de classement et la variable dépendante.

Comparaisons plus Complexes de Groupes

En pratique, il n'est pas rare de devoir comparer plus de deux groupes (par exemple, le médicament 1, le médicament 2 et un placebo) ou de comparer des groupes produits par plusieurs variables indépendantes tout en contrôlant l'influence individuelle de chacune d'elles (par exemple, le Sexe, le type de Médicament et la Posologie). Si c'est votre cas, vous devez analyser les données à l'aide d'une Analyse de Variance, qui peut être considérée comme une généralisation du test t. En réalité, pour comparer deux groupes, l'ANOVA donnera les mêmes résultats que le test t (t² [dl] = F[1,dl]). Mais dès que le modèle est plus complexe, l'ANOVA offre de nombreux avantages sur les tests t (même si vous effectuez une série de test t pour comparer diverses cellules du plan).

Statistiques Descriptives, Tests t et Corrélations

Cet exemple est basé sur le fichier d'exemple Adstudy.sta servi avec STATISTICA. Ce fichier est constitué de 25 variables et de 50 observations. Ces données (fictives) ont été collectées dans une étude publicitaire où les sondés, hommes et femmes, évaluaient deux publicités. Le sexe du sondé a été codé dans la variable 1 (Sexe : 1=homme, 2=femme). Chaque sondé a vu les deux publicités dans un ordre aléatoire (Publicité : 1=Cocaâ, 2=Pepsiâ). On leur a ensuite demandé d'évaluer l'attrait respectif des publicités sur 23 échelles différentes (Mesure01 à Mesure23). Sur chacune de ces échelles, le sondé devait donner une réponse comprise entre 0 et 9.

Ouvrir le module de Statistiques Élémentaires. Démarrez STATISTICA et ouvrez le fichier de données Adstudy.sta en sélectionnant la commande Ouvrir des Exemples du menu Fichier ; vous trouverez ce fichier de données dans le répertoire Fichiers de Données. Vous pouvez également ouvrir des fichiers de données à partir du Panneau de Démarrage de chaque module analytique. Par exemple, sélectionnez la commande Statistiques Élémentaires dans le menu Statistiques pour afficher le Panneau de Démarrage du module Statistiques Élémentaires.

Cliquez sur le bouton Ouvrir pour afficher la boîte de dialogue Sélectionnez une Feuille de Données  ; dans cette boîte de dialogue cliquez sur le bouton Fichiers pour sélectionner le fichier de données.

Corrélations. Tout d'abord, vérifions que les notes des échelles individuelles sont indépendantes, c'est-à-dire non corrélées (en d'autres termes, si certaines échelles ne mesurent pas la "même chose"). Dans le Panneau de Démarrage des Statistiques Élémentaires, sélectionnez l'option Matrices de Corrélations puis cliquez sur le bouton OK (vous pouvez également double-cliquer sur l'option Matrices de Corrélations).

La boîte de dialogueMatrices de Corrélations apparaît.

Vous pouvez sélectionner les variables dans une liste (c'est-à-dire, produire une matrice carrée) ou dans deux listes (c'est-à-dire produire une matrice rectangulaire). Dans cet exemple, cliquez sur le bouton 1 liste de variables afin d'accéder à la boîte de dialogue Sélectionnez les variables de l'analyse. Désélectionnez l'option N'afficher que les variables appropriées, et sélectionnez toutes les variables (par exemple, en cliquant sur le bouton Tout dans la boîte de dialogue de sélection des variables). Cliquez ensuite sur le bouton Synthèse.

Dans la mesure où l'analyse attend des variables continues mais que nous avons sélectionné des variables textuelles, vous allez recevoir un message d'alerte vous indiquant qu'il est possible que les résultats soient incohérents. La boîte de dialogue Variables textuelles ou comportant des valeurs-texte va apparaître. Dans cet exemple, nous souhaitons conserver les variables textuelles. Cliquez sur le bouton Poursuivre avec la sélection actuelle afin de produire une feuille de données avec les corrélations.

Corrélations significatives en surbrillance. Par défaut, la feuille de données va afficher tous les coefficients de corrélation significatifs au seuil p<0,05 (test bilatéral) dans une couleur différente (en surbrillance). Vous pouvez spécifier le niveau de significativité (alpha) à utiliser pour mettre en surbrillance les corrélations significatives dans la feuille de données. Pour modifier le niveau alpha, revenez à la boîte de dialogue Matrices de Corrélations, puis cliquez sur l'onglet Options et modifiez la valeur du Niveau p pour la surbrillance, par exemple, à 0,001. Cliquez à nouveau sur le bouton Synthèse pour afficher une nouvelle feuille de données dans laquelle toutes les corrélations correspondant à ce critère de significativité apparaîtront en surbrillance. Il sera plus facile de repérer les corrélations importantes (par exemple, dans cette feuille de données, la corrélation entre la Mesure05 et la Mesure09 est égale à -0,47). Cette forte corrélation indique que ces deux échelles de notation mesurent des aspects similaires de la perception que les personnes interrogées ont de la publicité (bien que l'une des mesure augmente lorsque l'autre diminue).

Deux options de la boîte de dialogue Matrices de Corrélations permettent de produire des feuilles de résultats avec des coefficients de corrélation et d'autres statistiques plus détaillées (par exemple, valeur p, N, r2, valeur t, etc...). Lorsque vous sélectionnez le bouton d'option Corrélations, niveaux p et N dans l'onglet Options, la valeur p et le N sont reportés avec les coefficients de corrélations (si vous avez choisi Cellule ignorée comme mode de traitement des valeurs manquantes dans la boîte de dialogue Matrices de Corrélations  ; si vous choisissez le mode Observations à VM ignorées, le N sera reporté dans la zone de titre de la feuille de données).

Le bouton d'option Tableau détaillé des résultats dans l'onglet Options de la boîte de dialogue Matrices de Corrélations n'est disponible que si moins de 20 variables ont été sélectionnées pour l'analyse, puisque de nombreuses informations sont automatiquement produites pour chaque corrélation.

Puisque nous avons sélectionné 25 variables dans notre exemple, cette option est inactive. Cliquez sur le bouton Une liste de variables dans la boîte de dialogue Matrice de Corrélations. Sélectionnez les variables 6 à 25 puis cliquez sur le bouton OK. Sélectionnez ensuite le bouton d'option Tableau détaillé des résultats dans l'onglet Options.

Cliquez sur le bouton Synthèse afin de produire une feuille de données contenant les statistiques descriptives correspondantes, le coefficient de corrélation, la valeur p et le N, ainsi que les pentes et ordonnées à l'origine des équations de régression de chaque variable dans la corrélation.

Vous pouvez utiliser cette option pour étudier des corrélations particulières individuelles (et non pour l'analyse exploratoire des données), puisque 22 cellules de la feuille de données contiennent des coefficients de corrélation dans ce format. Par conséquent, une matrice de corrélation 20x20 va générer une feuille de données de 8 800 cellules. Comme vous pouvez le constater ci-dessus, la corrélation entre la Mesure5 et la Mesure9 est hautement significative (p=0,0006), ce qui signifie que l'erreur d'acceptation de ce résultat n'est que de 6 sur 10 000. D'un point de vue technique, si vous tirez au hasard des échantillons de la même taille que notre échantillon, dans une population où ces deux variables ne sont pas corrélées, vous obtiendrez, dans six cas sur 10.000, un échantillon où la corrélation sera égale à -0,47 ou plus (c'est-à-dire dans ce cas, encore plus négative, voir la rubrique Concepts Élémentaires).

Produire un nuage de points. Pour représenter les corrélations entre les variables, revenez à la boîte de dialogue Matrices de Corrélations, cliquez sur l'onglet Avancé/tracé, puis cliquez sur le bouton Nuages de Points en 2D. Sélectionnez ensuite un nuage de points de la variable Mesure05 en fonction de la variable Mesure09 dans la boîte de sélection des variables. Le nuage de points des coefficients de corrélation sélectionnés va apparaître avec une droite de régression, des bandes de confiance à 95% et l'équation de la régression dans le titre.

Nuages de points produits par l'analyse, nuages de points produits par les options du menu Graphiques. Le nuage de points ci-dessus est produit en utilisant les spécifications sélectionnées dans la boîte de dialogue Matrices de Corrélations ; c'est-à-dire que les points de données inclus dans les calculs respectent les filtres de sélection définis pour cette analyse, et la méthode de traitement des valeurs manquantes (par exemple, observation à VM ignorée, cellule à VM ignorée, remplacement par la moyenne). Ainsi, par exemple, si vous représentez les variables Mesure05 et Mesure09, et que vous incluez dans l'analyse globale d'autres variables (par exemple, Mesure01), tout en ayant sélectionné l'option observation ignorée comme mode de traitement des valeurs manquantes, une observation sera exclue de l'analyse si elle contient au moins une valeur manquante dans au moins une des variables de l'analyse en cours (par exemple, dans la variable Mesure01), même si toutes les données sont valides pour les deux variables du nuage de points. Ainsi, en cas de valeurs manquantes dans différentes variables et observations, les tracés produits par les options de l'analyse (par exemple, le bouton Nuage de Points en 2D de la boîte de dialogue Matrices de Corrélations) peuvent être différents de ceux produits à partir du menu Graphiques correspondant.

Différences entre des Moyennes (Test t). À l'étape suivante de l'analyse, nous allons nous intéresser aux différences structurelles des réponses entre les hommes et les femmes. En particulier, les hommes peuvent utiliser des échelles de notation différentes, pouvant expliquer des notes supérieures ou inférieures à certaines questions. Le test t pour des échantillons indépendants nous permet de mettre en évidence ces éventuelles différences. Nous allons comparer la note moyenne dans chaque échelle pour les échantillons d'hommes et de femmes. Revenons au Panneau de Démarrage du module Statistiques Élémentaires (en cliquant sur le bouton Annuler dans la boîte de dialogue Matrices de Corrélations) et double-cliquons sur l'option Test t pour échantillons indépendants, par groupe afin d'accéder à la boîte de dialogue Test t pour des Échantillons Indépendants par Groupes.

Cliquez sur le bouton Variables pour accéder à la boîte de dialogue de sélection des variables. Vous pouvez sélectionner à la fois les variables indépendantes (de classement) et dépendantes pour l'analyse. Dans cet exemple, sélectionnez (mettez en surbrillance) les variables 3 à 25 (les variables contenant les réponses) comme variables dépendantes ; sélectionnez la variable Sexe comme variable indépendante, puis cliquez sur le bouton OK.

Après avoir sélectionné la variable de classement, STATISTICA va automatiquement vous proposer les codes utilisés dans cette variable pour identifier les groupes à comparer (dans ce cas, les codes sont Homme et Femme). Vous pouvez double-cliquer dans les champs d'édition Code du Groupe 1 ou Code du Groupe 2 pour afficher la boîte de dialogue Variable afin de visualiser et sélectionner les codes de chaque groupe.

D'autres procédures sont disponibles dans l'onglet Avancé de la boîte de dialogue Test t pour des Échantillons Indépendants par Groupes. Avant de réaliser l'analyse, vous pouvez visualiser la distribution des variables grâce aux options graphiques proposées dans cette boîte de dialogue. Par exemple, cliquez sur le bouton Boîtes à Moustaches pour tracer des boîtes à moustaches catégorisés selon la variable de classement, avec un tracé par variable dépendante. De la même façon, cliquez sur le bouton Histogrammes Catégorisés pour produire des histogrammes catégorisés (selon la variable de classement). Si vos sorties (voir la rubrique Gestionnaire de Sortie) sont actuellement dirigées vers un classeur (par défaut), vous pourrez rapidement visualiser tous les graphiques.

Des tracés de normalité catégorisés, des tracés de normalité par moitié catégorisés et des nuages de points sont également disponibles pour étudier la distribution de la variable dans chaque groupe.

Dans l'onglet Options, fixez la Valeur p pour la surbrillance à 0,05. Puis cliquez sur le bouton Synthèse afin de produire la feuille de données avec les résultats du test t.

Étude des résultats du test t. La façon la plus rapide d'explorer le tableau consiste à examiner la cinquième colonne (niveaux p) et de rechercher les valeurs de p qui sont inférieures au niveau de significativité conventionnel de 0,05 (voir la rubrique Concepts Élémentaires). Pour la plupart des variables dépendantes, les moyennes des deux groupes (Hommes et Femmes) sont très similaires. La seule variable pour laquelle le test t répond au niveau de significativité conventionnel de 0,05 est la Mesure07 avec une valeur p égale à 0,0087. L'examen des colonnes contenant les moyennes (voir les deux premières colonnes) révèle que les hommes utilisent des notes plus élevées sur cette échelle (5,46) que les femmes (3,63). La possibilité d'obtenir cette différence par pur hasard ne peut pas être entièrement écartée, même si nous considérons que ce test est valide (voir ci-dessous)  ; elle semble toutefois improbable puisque cette différence ne doit théoriquement se produire que 9 fois (environ) sur 1 000 (soit moins d'une fois sur 100) compte tenu de ce niveau de significativité. Nous reviendrons ultérieurement sur ce résultat, mais examinons d'abord les boîtes à moustaches de cette variable.

Revenons à la boîte à moustaches que nous avons précédemment tracée (voir ci-dessus dans le classeur ; vous pouvez aussi produire à nouveau ces graphiques en cliquant sur le bouton Boîtes à moustaches dans la boîte de dialogue. Sélectionnez le graphique de la variable Mesure07 puis double-cliquez sur le graphique afin d'ouvrir la boîte de dialogue Options du Graphique, sélectionnez l'onglet Tracé - Boîtes à Moust. et spécifiez l'option Moyenne en Point Central et l'option Écart-Type pour les Moustaches.

Cliquez ensuite sur le bouton OK pour produire un nouveau graphique mis à jour :

Le graphique met en évidence une structure inattendue : la dispersion dans le groupe des femmes est plus importante que dans celui des hommes. Si la dispersion des notes dans les deux groupes est effectivement différente, l'une des hypothèses théorique fondamentales du test t est alors violée (voir la rubrique Introduction), et vous devrez interpréter les différences entre les moyennes avec la plus grande réserve. En outre, les différences de dispersion sont généralement corrélées avec les moyennes, c'est-à-dire que la dispersion est généralement supérieure dans les groupes dont les moyennes sont les plus fortes. Cependant, c'est le contraire qui semble se produire ici. Dans des situations comme celle-ci, des chercheurs expérimentés pourraient conjecturer que la distribution de la Mesure07 n'est pas normale (pour les hommes, les femmes, ou les deux). Examinons tout d'abord le test d'homogénéité des variances pour vérifier que la différence observée sur le graphique est fiable.

Test d'homogénéité des variances. Revenons au tableau des résultats et recherchons les résultats du test F (à l'aide des barres de défilement). Le test F répond au niveau de significativité conventionnel de 0,05, ce qui suggère que les variances de la Mesure07 pour les Hommes et les Femmes sont significativement différentes. Toutefois, la différence entre les variances est relativement proche du seuil de significativité critique (le niveau p obtenu est de 0,029). La plupart des chercheurs considèreraient sans doute que ce seul fait n'est pas suffisant pour remettre en cause la validité du test t de différence entre les moyennes, compte tenu du niveau de significativité relativement élevé de cette différence (p=0,0087). À présent, examinons la distribution de la Mesure07, catégorisée selon la variable indépendante Sexe.

Histogramme catégorisé. Cliquez avec le bouton droit de la souris sur la feuille de données et sélectionnez la commande Graphiques des Données d'Entrée - Histogramme en 2D par... dans le menu contextuel.

La boîte de dialogue Variables de l'Histogramme apparaît. Par défaut, la variable Mesure7 est sélectionnée dans la liste X. Sélectionnez la variable Sexe comme variable de Catégorie puis cliquez sur le bouton OK. La boîte de dialogue Codes des Catégories apparaît ensuite, et vous permet de sélectionner les codes utilisés dans la variable de classement pour représenter les différents groupes ou catégories (choisissez Tous les codes). Cliquez ensuite sur le bouton OK pour produire le graphique.

Examen des distributions (Statistiques Descriptives). Revenez à la boîte de dialogue Statistiques Élémentaires (Panneau de Démarrage) (cliquez pour ce faire sur le bouton Annuler dans la boîte de dialogue Test t pour des Échantillons Indépendants, par Groupes) puis double-cliquez sur l'option Statistiques descriptives afin d'accéder à la boîte de dialogue Statistiques Descriptives. Dans cette boîte de dialogue, cliquez sur le bouton Variables et sélectionnez toutes les variables du fichier.

Par défaut, la feuille de données des Statistiques Descriptives reporte la moyenne, les N valides, l'écart-type et les valeurs minimum et maximum des variables sélectionnées. Cliquez sur l'onglet Avancé pour sélectionner le type de statistiques à calculer.

Dans cet exemple, acceptons la sélection de statistiques par défaut et cliquons sur le bouton Synthèse pour produire la feuille des résultats.

Options graphiques. La boîte de dialogue Statistiques Descriptives offre de nombreuses options graphiques pour visualiser les distributions des variables, ou les corrélations entre celles-ci. Si la plupart des graphiques disponibles dans cette boîte de dialogue sont également accessibles par les commandes du menu Graphiques, les graphiques produits par cette boîte de dialogue tiennent compte des filtres de sélection et du mode de traitement des valeurs manquantes en cours. Ainsi, par exemple, tout histogramme produit par les options de l'onglet Normalité ne va porter que sur les observations sélectionnées pour l'analyse en cours.

Didacticiels

Vous pouvez visionner l'intégralité de la série de tutoriels Le Data Mining en 35 Leçons avec STATISTICA en remplissant le formulaire d'inscription. Vous serez alors notifié(e) automatiquement de la disponibilité des nouveaux épisodes et recevrez d'autres informations utiles.

StatSoft propose par ailleurs une série de didacticiels et présentations interactives décrivant pas-à-pas différentes opérations que vous pouvez réaliser à l'aide de STATISTICA. Si vous souhaitez voir aborder un thème particulier, merci de nous écrire.