Partager :

Concepts Fondamentaux en Statistique


Statistiques Élémentaires :

Tests t pour Échantillons Appariés



Sommaire :


Dispersion Intra-Groupe

Comme nous l'avons expliqué dans la rubrique Concepts Élémentaires, l'intensité de la relation entre deux variables, mesurée par exemple par la différence entre les moyennes des deux groupes, dépend pour une grande part de la dispersion des valeurs à l'intérieur du groupe. Selon l'importance des différences de valeurs au sein de chaque groupe, une "différence brute" entre les moyennes des groupes pourra indiquer une relation forte, ou une relation faible entre la variable indépendante (de classement) et la variable dépendante. Par exemple, si le TGB [Taux de Globules Blancs] moyen est de 102 pour les hommes et de 104 pour les femmes, cette "petite" différence de 2 points apparaîtra extrêmement importante si toutes les valeurs des hommes sont comprises dans l'intervalle [101 ; 103] et toutes les valeurs des femmes dans l'intervalle [103 ; 105] ; par exemple, le sexe pourrait nous permettre de prévoir assez bien le Taux de Globules Blancs. En revanche, si la même différence de 2 est obtenue sur des résultats très disparates (par exemple avec un intervalle de variation de [0 ; 200]), la différence apparaîtra alors négligeable. En d'autres termes, la diminution de la Variation Intra-Groupe augmente la sensibilité de notre test.

Objectifs

Le test t pour des échantillons appariés nous permet de tirer parti d'un certain type de modèle dans lequel une part importante de la variation intra-groupe (appelée erreur) peut aisément être identifiée et éliminée de l'analyse. Plus précisément, si les deux groupes d'observations à comparer représentent un même échantillon d'individus, mesurés deux fois (par exemple, avant et après un traitement), une large part de la variation intra-groupe dans les deux groupes pourra être attribuée aux différences individuelles initiales entre les individus. Notez que dans un sens, nous ne sommes pas très loin du cas où les deux groupes sont entièrement indépendants (voir tests t pour des échantillons indépendants), puisque les différences individuelles contribuent aussi à la variance de l'erreur ; mais dans le cas d'échantillons indépendants, nous ne pouvons pas identifier (ou "retrancher") la variation due aux différences individuelles entre les individus. En revanche, lorsque le même échantillon est testé deux fois, il est possible d'identifier (ou de "retrancher") aisément cette variation. Plus précisément, au lieu de traiter chaque groupe séparément et d'analyser des résultats bruts, il est possible de regarder uniquement les différences entre les deux mesures (par exemple "avant le test" et "après le test") pour chaque individu. En retranchant le premier résultat au second pour chaque individu puis en analysant uniquement ces "différences pures" (par couple), nous éliminons toute la partie de la dispersion dans nos données qui est imputable aux différences de niveaux entre les différents individus. C'est précisément ce que fait le test t pour des échantillons appariés. En comparaison du tests t pour des échantillons indépendants, il produit toujours de "meilleurs" résultats (c'est-à-dire qu'il sera systématiquement plus sensible).

STATISTICA Puissance de Test. Le programme STATISTICA Puissance de Test est conçu pour vous permettre de calculer la puissance statistique de vos tests et d'estimer la taille d'échantillon requise lorsque vous planifiez vos expériences, et pour évaluer les effets expérimentaux de vos données. Vous trouverez dans ce module de nombreuses fonctionnalités pour vous permettre d'effectuer ces calculs rapidement et efficacement dans une large variété de situations d'analyses de données (y compris des tests d'indépendance et pour comparer deux corrélations indépendantes). Pour de plus amples informations sur l'acquisition de ce produit, contactez Dell Software.

Hypothèses

Les hypothèses théoriques du tests t pour des échantillons indépendants s'appliquent également aux tests pour des échantillons appariés c'est-à-dire que les différences par couple doivent être distribuées normalement. Si ces hypothèses ne sont pas satisfaites, vous devrez utiliser un test non-paramétrique (voir le module Tests Non-Paramétriques).

Organisation des Données

Techniquement, il est possible d'effectuer un test t pour des échantillons appariés sur tout couple de variables du fichier de données et les variables sont sélectionnées de la même manière que pour les corrélations (voir la rubrique Corrélations). Toutefois, ce test n'est pas parlant (ni rigoureux) si les valeurs des deux variables ne ni logiquement, ni méthodologiquement, sont comparables. Par exemple, si vous comparez le TGB [Taux de Globules Blancs] moyen dans un échantillon de patients avant et après le traitement, mais en utilisant une méthode de comptabilisation différente ou des unités de mesure différentes lors de la seconde mesure, une valeur du test t fortement significative pourra être artificielle ; c'est-à-dire imputable, par exemple, au changement d'unité de mesure. Ci-dessous, un exemple (une feuille de données) pouvant être analysé à l'aide d'un test t pour des échantillons appariés :


 

TGB

avant

TGB

après

obs. 1

obs. 2

obs. 3

obs. 4

obs. 5

...

111.9

109

143

101

80

...

113

110

144

102

80.9

...

 

Évolution moyenne du TGB

 "avant" et "après" = 1

La différence moyenne entre les deux périodes est assez faible (d = 1), par rapport à l'étendue des résultats bruts (80 à 143 dans le premier échantillon). Toutefois, l'analyse du test t pour des échantillons appariés est réalisée uniquement sur les différences par couples, sans tenir compte des résultats bruts ni de leur différence potentielle. Ainsi, cette différence particulière (c'est-à-dire 1) sera comparée, non pas aux résultats bruts, mais aux résultats des différences individuelles, qui sont relativement faibles : 0,2 (de 0,9 à 1,1). Compte tenu de la dispersion, la différence de 1 est très forte et peut produire une valeur t très significative.

Matrices de Tests t

Vous pouvez calculer des tests t pour des échantillons appariés sur de nombreuses variables et les étudier sous forme matricielle, avec possibilité d'ignorer les observations à valeurs manquantes ou d'ignorer les cellules à valeurs manquantes, comme dans les matrices de corrélations. Les recommandations présentées dans le cadre des corrélations s'appliquent également aux matrices de tests t, c'est-à-dire :

a. au problème des artifices causés par la suppression par couple des valeurs manquantes dans les tests t, et

b. au problème des tests qui sont significatifs de manière "aléatoire".

Comparaisons plus Complexes de Groupes

Pour un nombre d'"échantillons appariés" supérieur à deux (par exemple, avant le traitement, après le traitement 1 et après le traitement 2), vous devez utiliser une analyse de la variance avec mesures répétées. L'ANOVA avec mesures répétées peut être considérée comme une généralisation du test t pour des échantillons appariés ; elle offre diverses caractéristiques permettant d'augmenter la sensibilité globale de l'analyse. Par exemple, elle peut contrôler simultanément le niveau de la variable dépendante ainsi que d'autres facteurs, et/ou inclure dans le plan plusieurs variables dépendantes en inter-relation (MANOVA  ; pour plus d'informations, veuillez vous reporter au module ANOVA/MANOVA).

Didacticiels

Vous pouvez visionner l'intégralité de la série de tutoriels Le Data Mining en 35 Leçons avec STATISTICA en remplissant le formulaire d'inscription. Vous serez alors notifié(e) automatiquement de la disponibilité des nouveaux épisodes et recevrez d'autres informations utiles.

StatSoft propose par ailleurs une série de didacticiels et présentations interactives décrivant pas-à-pas différentes opérations que vous pouvez réaliser à l'aide de STATISTICA. Si vous souhaitez voir aborder un thème particulier, merci de nous écrire.