Partager : |
Concepts Fondamentaux en Statistique
Concepts Fondamentaux en Statistiques
Dans cette introduction, nous évoquerons brièvement les concepts statistiques élémentaires qui constituent les bases nécessaires à des analyses plus poussées dans tous les domaines de l'analyse statistique de données. Les thèmes abordés illustrent les hypothèses élémentaires de la plupart des méthodes statistiques et/ou ont été expliqués dans la recherche comme étant des composantes nécessaires à la compréhension générale de la "nature quantitative" de la réalité (Nisbett et al., 1987).
Pour des raisons de place, nous nous limiterons essentiellement aux aspects fonctionnels des concepts traités et la présentation sera succincte. Vous trouverez davantage d'informations sur chacun de ces concepts dans les rubriques Introduction et Aperçu et Exemples de ce manuel, ainsi que dans les ouvrages statistiques de référence. Nous vous recommandons en particulier la lecture des manuels introductifs suivants : Kachigan (1986), Runyon et Haber (1976) ; pour une présentation plus poussée de la théorie et des hypothèses statistiques, voir les ouvrages classiques de Hays (1988), Kendall et Stuart (1979).
Pour plus d'informations sur une rubrique particulière, cliquez simplement sur le lien correspondant ci-dessous :-
Pourquoi les relations entre les variables sont-elles importantes ?
-
Deux caractéristiques élémentaires de toute relation entre des variables
-
Comment déterminer quand un résultat est "vraiment" significatif
-
Pourquoi les relations plus fortes entre les variables sont-elles plus significatives
-
Pourquoi la significativité statistique est-elle fonction de la taille de l'échantillon
-
Pourquoi les faibles relations ne peuvent-elles être significatives que dans de grands échantillons
-
Est-ce qu'une "absence de relation" peut-être un résultat significatif ?
-
Comment mesurer l'intensité des relations entre des variables
-
Un "format général" commun à la plupart des tests statistiques
-
Comment se calcule le "niveau de significativité statistique"
-
Illustration de la manière d'utiliser la Loi Normale dans les raisonnements statistiques (induction)
-
Toutes les statistiques de test sont-elles normalement distribuées ?
-
Comment connaître les conséquences de la violation de l'hypothèse de normalité ?
Que sont les variables ? Les variables sont des objets que l'on mesure, contrôle ou manipule en recherche. Elles diffèrent à bien des égards, notamment dans le rôle qu'elles jouent dans nos recherches et dans le type de mesure que l'on peut leur appliquer.
Recherche corrélationnelle vs. expérimentale. La plupart des recherches empiriques rentrent clairement dans l'une de ces deux grandes catégories. En recherche corrélationnelle, on n'influence pas (ou du moins, on tente de ne pas influencer) les variables ; on se contente seulement de les mesurer et de rechercher les relations (corrélations) existant entre des variables, comme par exemple, la pression sanguine et le taux de cholestérol. En recherche expérimentale, on manipule les variables puis on étudie les effets de cette manipulation sur d'autres variables ; par exemple, un chercheur pourrait augmenter artificiellement la pression sanguine puis enregistrer le taux de cholestérol. L'analyse de données en recherche expérimentale consiste également à calculer les "corrélations" entre les variables ; plus précisément, entre les variables manipulées et celles qui sont affectées par cette manipulation. Cependant, les données expérimentales peuvent potentiellement fournir de meilleures informations du point de vue qualitatif : seules les données expérimentales peuvent mettre en évidence de manière concluante des relations causales entre les variables. Par exemple, s'il s'avère que lorsque nous modifions la variable A, la variable B est également modifiée, on peut alors conclure que "A influence B". Les données issues de la recherche corrélationnelle peuvent être seulement "interprétées" en terme de cause à effet sur la base des théories disponibles, mais les données corrélationnelles ne peuvent pas mettre en évidence de manière concluante la causalité.
Variables dépendantes vs. indépendantes. Les variables indépendantes sont celles qui sont manipulées tandis que les variables dépendantes sont seulement mesurées ou enregistrées. Cette distinction semble assez confuse du point de vue de la terminologie, puisque, comme le disent certains étudiants, "toutes les variables dépendent de quelque chose". Cependant, une fois que vous avez perçu l'utilité de cette distinction, elle devient indispensable. Les termes variable dépendante et variable indépendante s'appliquent essentiellement en recherche expérimentale où des variables sont manipulées et, en ce sens, sont "indépendantes" de la structure, des caractéristiques, des intentions initiales etc... des sujets. On s'attend à ce que d'autres variables soient "dépendantes" des conditions expérimentales ou de la manipulation. C'est-à-dire qu'elles dépendent de "ce que le sujet fera" en réponse. De façon assez contraire à la nature de cette distinction, ces termes sont aussi utilisés dans des études où on ne manipule pas littéralement les variables indépendantes, mais où on se contente d'affecter des sujets à des "groupes expérimentaux" sur la base de propriétés inhérentes aux sujets. Par exemple, si dans une expérience, on compare le taux de globules blancs entre des hommes et des femmes, le Sexe pourrait être appelé "variable indépendante" et le taux de globules blancs, "variable dépendante".
Échelles de mesure. Les variables diffèrent quant à la qualité de leur mesure, c'est-à-dire en fonction du nombre d'informations mesurables que leur échelle de mesure peut fournir. Il existe bien évidemment des erreurs dans toutes les mesures, qui déterminent la "quantité d'information" que l'on peut obtenir. Un autre facteur qui détermine la quantité d'information qui peut être fournie par une variable est son "type d'échelle de mesure". Plus précisément, les variables sont classées en différentes catégories : (a) nominale, (b) ordinale, (c) d'intervalle ou (d) ratio.
a. Les variables nominales ne permettent de faire que des classifications qualitatives. C'est-à-dire qu'elles ne peuvent être mesurées qu'en termes d'appartenance ou de non-appartenance à des catégories distinctes, sans qu'il soit possible de quantifier ni même de hiérarchiser ces catégories. Par exemple, tout ce que l'on peut dire est que deux individus sont différents sur la variable A (par exemple ils sont d'ethnie différente), mais on ne peut pas dire lequel "possède le plus" de la qualité représentée par la variable. Des exemples types de variables nominales sont le sexe, l'ethnie, la couleur, la ville, etc...
b. Les variables ordinales nous permettent de hiérarchiser (classer en rangs) les éléments mesurés : ceux qui ont moins et ceux qui ont plus de la qualité représentée par la variable, mais elles ne nous permettent toujours pas de dire "combien de plus". Un exemple type de variable ordinale est la PCS (Profession et Catégorie Socioprofessionnelle) du chef de famille. Par exemple, on sait que la catégorie Cadre Supérieur est supérieure à la catégorie Cadre Moyen, mais on ne peut pas dire si elle est, par exemple, supérieure de 18%. Cette distinction très importante entre les échelles nominale, ordinale et d'intervalle, représente elle-même un excellent exemple de variable ordinale. Ainsi, on peut dire que les mesures nominales fournissent moins d'information que les mesures ordinales, mais on ne peut pas dire "dans quelle mesure" ou comment cette différence peut être comparée à la différence entre les échelles ordinale et d'intervalle.
c. Les variables d'intervalles ne nous permettent pas seulement de hiérarchiser (ordre de rang) les éléments mesurés, mais également de quantifier et de comparer l'importance de leurs différences. Par exemple, la température, mesurée en degrés Fahrenheit ou Celsius, constitue une échelle d'intervalle. On peut dire qu'une température de 40 degrés est plus élevée qu'une température de 30 degrés et que l'augmentation de 20 à 40 degrés représente le double de l'augmentation de 30 à 40 degrés.
d. Les variables de Ratio sont très proches des variables d'intervalles, si ce n'est qu'outre les propriétés des variables d'intervalles, elles possèdent un zéro absolu identifiable ; ainsi elles permettent de dire que X est deux fois plus grand que Y. Des exemples types d'échelles de ratios sont des mesures dans le temps ou dans l'espace. Par exemple, puisque l'échelle de températures Kelvin est une échelle de ratio (elle possède un zéro absolu), on ne peut pas seulement dire qu'une température de 200 degrés est supérieure à une température de 100 degrés ; on peut également dire qu'elle est deux fois plus grande. Les échelles d'intervalles ne possèdent pas cette propriété de ratio. Cependant les procédures d'analyses statistiques de données ne font pas la distinction entre les propriétés d'intervalle et de ratio des échelles de mesure.
Relations entre les variables. Quel que soit leur type, deux ou plusieurs variables sont liées si, dans un échantillon d'observations, les valeurs de ces variables sont distribuées de manière logique. En d'autres termes, il existe une relation entre des variables si leurs valeurs se correspondent mutuellement pour les observations. Par exemple, les variables Sexe et Taux de Globules Blancs doivent être considérées comme liées si la plupart des hommes ont un taux élevé de globules blancs et si la plupart des femmes ont un taux faible, ou vice versa ; la Taille est liée au Poids parce que les individus grands sont habituellement plus lourds que les petits ; le QI (Quotient Intellectuel) est lié au Nombre d'Erreurs dans un test, parce que les individus qui possèdent un QI plus élevé font moins d'erreurs que les autres.
Pourquoi les relations entre les variables sont-elles importantes. D'une manière générale, le but ultime de toute recherche ou analyse scientifique consiste à mettre en évidence des relations entre des variables. La philosophie des Sciences nous enseigne qu'il n'y a pas d'autre façon de représenter la "signification" qu'en termes de relations entre des quantités ou des qualités ; les deux approches mettent en relation des variables. Par conséquent, les progrès scientifiques impliquent toujours la recherche de nouvelles relations entre variables. La recherche corrélationnelle implique la mesure de ces relations de la manière la plus simple et directe. Mais, la recherche expérimentale n'est pas très différente à cet égard. Par exemple, l'expérience mentionnée ci-dessus de comparaison du Taux de Globules Blancs entre les hommes et les femmes peut être décrite comme la recherche d'une corrélation entre les deux variables : Sexe et Taux de Globules Blancs. Les statistiques ne font rien d'autre que nous aider à évaluer les relations entre variables. En réalité, chacune des centaines de procédures décrites dans ce manuel peuvent être interprétées en termes d'évaluation de divers types de relations inter-variables.
Deux caractéristiques élémentaires de toute relation entre des variables. Les deux propriétés les plus élémentaires de toute relation entre des variables sont (a) l'importance (ou "intensité") de la relation et (b) sa fiabilité.
a. Importance (ou "intensité"). L'importance d'une relation est souvent plus facile à comparer et à mesurer que la fiabilité. Par exemple, si nous trouvons que tous les hommes de notre échantillon ont systématiquement un Taux de Globules Blancs plus élevé que n'importe quelle femme de l'échantillon, nous pouvons alors en conclure que l'intensité de la relation entre les deux variables (Sexe et Taux de Globules Blancs) est très forte dans notre échantillon. En d'autres termes, nous pouvons prévoir l'une à partir de l'autre (au moins parmi les membres de notre échantillon).
b. Fiabilité. La fiabilité d'une relation est un concept beaucoup moins intuitif, mais toutefois extrêmement important. La fiabilité fait référence à la "représentativité" du résultat trouvé dans notre échantillon spécifique par rapport à la population toute entière. En d'autres termes, elle nous indique dans quelle mesure nous avons des chances de trouver une relation similaire si l'expérience était menée sur d'autres échantillons issus de la même population. Souvenez-vous que le but "ultime" d'une étude se situe rarement au niveau de l'échantillon ; nous ne nous intéressons à un échantillon que dans la mesure où il nous donne des informations sur la population. Si notre étude répond à certains critères spécifiques (cf. intra), la fiabilité d'une relation entre les variables observées dans notre échantillon pourra être estimée et représentée quantitativement en utilisant une mesure standard (techniquement appelée niveau p ou niveau de significativité statistique, voir le paragraphe suivant).
Qu'est-ce que la "significativité statistique" (niveau p). La significativité statistique d'un résultat est une mesure estimée du degré auquel ce résultat est "vrai" (au sens "représentatif de la population"). Plus techniquement, la valeur du niveau p (en anglais : p-level, terme utilisé la première fois par Brownlee en 1960) représente un indice décroissant de la fiabilité d'un résultat. Plus le niveau p est élevé, et moins nous avons de chances pour que la relation observée entre les variables de l'échantillon soit un bon indicateur de la relation entre les variables respectives dans la population. Plus précisément, le niveau p représente la probabilité d'erreur qui est liée à l'acceptation d'un résultat observé comme valide, c'est-à-dire comme "représentatif de la population". Par exemple, un niveau p de 0,05 (c'est-à-dire 1/20) indique qu'il existe une probabilité de 5% pour que la relation entre les variables trouvées dans notre échantillon soit une "coïncidence" ou "due à la chance". En d'autres termes, sous l'hypothèse qu'il n'existe pas de relation entre ces variables dans la population mère, et que nous répétions nos expériences les unes après les autres, nous pouvons nous attendre, environ une fois sur 20, à obtenir une relation entre les variables étudiées égale ou supérieure à celle trouvée dans notre expérience initiale. Dans de nombreux domaines de recherche, un niveau p de 0,05 est souvent considéré comme une "limite" acceptable d'erreur.
Comment déterminer quand un résultat est "réellement" significatif. Il n'existe aucun moyen d'éviter l'arbitraire dans la décision finale, concernant le niveau de significativité à considérer comme réellement "significatif." C'est-à-dire, que le choix d'un certain niveau de significativité au delà duquel les résultats seront rejetés (non valides) est arbitraire. En pratique, la décision finale dépend souvent de la possibilité de prédire a priori le résultat ou de le trouver a posteriori à la suite de nombreuses analyses et comparaisons effectuées sur les données, des différents recoupements possibles sur les données, et des "traditions" en vigueur dans le domaine particulier de recherche. Habituellement, dans de nombreux domaines scientifiques, les résultats au seuil p £ 0,05 sont considérés comme statistiquement significatifs, mais souvenez-vous que ce niveau de significativité implique encore une probabilité d'erreur non négligeable de 5%. Les résultats significatifs au seuil p £ 0,01 sont généralement considérés comme statistiquement significatifs et au seuil p £ 0,005 ou p £ 0,001 comme "très" significatifs. Mais gardez à l'esprit que ces conventions demeurent arbitraires, et fondées de façon informelle sur une expérience générale de recherche.
Significativité statistique et nombre d'analyses réalisées. Il va sans dire que plus vous effectuez d'analyses sur des données particulières, plus vous obtiendrez de résultats atteignant le niveau de significativité statistique conventionnel "par chance". Par exemple, si vous calculez les corrélations entre dix variables (c'est-à-dire 45 coefficients de corrélation différents), vous pouvez vous attendre à trouver environ deux coefficients de corrélations (c'est-à-dire un vingtième) significatifs au seuil p £ 0,05 imputables à la chance, même si les valeurs des variables ont été choisies totalement au hasard et si ces variables ne sont pas corrélées dans la population. Certaines méthodes statistiques qui font appel à de nombreuses comparaisons, et qui ont ainsi de grandes chances de commettre de telles erreurs, comportent des "corrections" ou des ajustements pour le nombre total de comparaisons. Cependant, de nombreuses méthodes statistiques (particulièrement les analyses exploratoires de données) n'offrent aucun remède simple à ce problème. Par conséquent, c'est au chercheur d'évaluer avec précaution la fiabilité de résultats inattendus. Ce manuel contient de nombreux exemples et des conseils judicieux sur la manière de s'y prendre ; vous trouverez également de nombreuses informations dans la plupart des ouvrages techniques de recherche.
Intensité vs. fiabilité d'une relation entre des variables. Nous avons déjà dit que l'intensité et la fiabilité sont deux aspects différents d'une relation entre variables. Toutefois, elles ne sont pas totalement indépendantes. D'une manière générale, dans un échantillon d'une certaine taille, plus la relation entre les variables sera forte, et plus cette relation sera fiable (voir le paragraphe suivant).
Pourquoi les relations fortes entre variables sont-elles plus significatives. S'il n'existe aucune relation entre les variables respectives dans la population, nous avons de fortes chances de ne trouver aucune relation entre ces variables dans l'échantillon non plus. Ainsi, plus la relation sera forte dans l'échantillon, et moins nous aurons de chances de ne trouver aucune relation dans la population. Comme vous pouvez le constater, l'importance et la significativité d'une relation semblent étroitement liées, et nous pourrions calculer la significativité à partir de l'intensité et vice versa ; cependant, ce n'est vrai que quand la taille de l'échantillon reste constante, parce qu'une relation d'une certaine intensité pourra être soit très significative, soit non significative, selon la taille de l'échantillon (voir le paragraphe suivant).
Pourquoi la significativité d'une relation entre variables dépend de la taille de l'échantillon. S'il existe peu d'observations, il existe alors également peu de combinaisons possibles de modalités des variables, et donc la probabilité d'obtenir par chance une combinaison de valeurs indiquant une forte relation est relativement forte. Considérons l'exemple suivant. Si nous nous intéressons à deux variables ((1)Sexe avec les deux modalités homme et femme et (2) Taux de Globules Blancs avec les deux modalités fort et faible) et qu'il n'y a que quatre individus dans notre échantillon (deux hommes et deux femmes), la probabilité de trouver par chance, une relation de 100% entre les deux variables est d'un huitième, ce qui est très élevé. Plus précisément, il y a une chance sur huit pour que les deux hommes aient un Taux de Globules Blancs élevé et que les deux femmes aient un Taux de Globules Blancs bas, ou réciproquement. Considérons maintenant la probabilité d'obtenir par chance une telle combinaison parfaite pour un échantillon de 100 individus ; la probabilité d'obtenir ce résultat par chance est quasiment nulle. Prenons un exemple plus général. Imaginons une population théorique dans laquelle les valeurs moyennes de Taux de Globules Blancs chez les hommes et chez les femmes seraient exactement les mêmes. Inutile de dire que si nous commençons à répliquer une expérience simple consistant à tirer des couples d'échantillons (d'hommes et de femmes) d'une certaine taille à partir de cette population et que nous calculons la différence entre la moyenne du Taux de Globules Blancs dans chaque couple d'échantillon, la plupart des expériences donneront des résultats proches de 0. Cependant, de temps à autres, un couple d'échantillon produira une différence très éloignée de 0 entre les hommes et les femmes. Combien de fois cela se produira-t-il ? Plus la taille de l'échantillon dans chaque expérience sera faible, et plus nous aurons de chances d'obtenir ces résultats erronés, ce qui, dans le cas présent se traduirait par l'existence d'une relation significative entre le Sexe et le Taux de Globules Blancs dans un échantillon issu d'une population dans laquelle cette relation n'existe pas.
Exemple : "Ratio de bébés garçons et de bébés filles". Prenons l'exemple suivant issu de la recherche sur le raisonnement statistique (Nisbett et al., 1987). Soient deux hôpitaux : dans le premier, 120 bébés naissent quotidiennement contre seulement 12 dans l'autre. En moyenne, le rapport entre le nombre de bébés de sexe masculin et celui de sexe féminin naissant chaque jour dans chacun des deux hôpitaux est de 50/50. Cependant, un jour, dans l'un des deux hôpitaux, deux fois plus de filles que de garçons sont nés. Dans quel hôpital cela a-t-il le plus de chance de se produire ? La réponse est claire pour un statisticien, mais comme la recherche le montre, pas si évident pour un néophyte : il est beaucoup plus probable que cela se produise dans l'hôpital le plus petit (avec le moins de naissances quotidiennes). La raison est que, pour parler techniquement, la probabilité d'un écart aléatoire d'une taille donnée (écart à la moyenne de la population), décroît lorsque la taille de l'échantillon s'accroît.
Pourquoi les faibles relations ne peuvent être significatives que dans de grands échantillons. Les exemples des paragraphes précédents ont permis d'établir que si une relation entre des variables étudiées est "objectivement" faible (dans la population), il n'existe aucun moyen d'identifier cette relation dans une étude, sauf si l'échantillon est grand. Même si notre échantillon est en fait "parfaitement représentatif", l'effet ne sera pas statistiquement significatif si l'échantillon est petit. De la même manière, si une relation est "objectivement" très forte (dans la population), on peut la trouver très significative même si l'étude est fondée sur un petit échantillon. Considérons l'exemple suivant : si une pièce de monnaie est légèrement asymétrique et qu'en jouant à pile ou face, il est un peu plus probable de sortir le côté face que pile (par exemple 60% contre 40%), dix tirages au sort ne devraient pas être suffisants pour convaincre quelqu'un que la pièce est asymétrique, même si le résultat obtenu (six faces et quatre piles) était parfaitement représentatif du biais de la pièce. Est-ce à dire que 10 tirages sont insuffisants pour prouver quoi que ce soit ? Non car si l'effet en question était assez grand, dix tirages pourraient suffire. Par exemple, imaginez maintenant que la pièce est tellement asymétrique que quelle que soit la façon dont vous la lanciez, le résultat est face. Si vous avez lancé cette pièce dix fois et qu'à chaque fois la pièce est retombée sur le côté face, la plupart des gens vont considérer que la pièce est truquée. En d'autres termes, il devrait s'agir d'une indication suffisamment sérieuse que dans la population théorique, une infinité de tirages à pile ou face avec cette pièce produirait plus de face que de pile. Ainsi, si une relation est forte, nous pouvons la trouver significative même avec un petit échantillon.
Une "absence de relation" peut-elle constituer un résultat significatif ? Plus la relation entre les variables sera faible, et plus la taille d'échantillon nécessaire pour prouver que la relation est significative devra être grande. Par exemple, imaginez le nombre de lancés qui devrait être réalisés pour prouver qu'une pièce de monnaie est asymétrique, si son biais n'était que de 0,000001% ! Ainsi, la taille d'échantillon minimum nécessaire est inversement proportionnelle à la grandeur de l'effet à démontrer (plus la grandeur de l'effet à démontrer diminue, plus la taille de l'échantillon minimum nécessaire augmente). Lorsque la grandeur de l'effet tend vers 0, la taille d'échantillon nécessaire pour le prouver de façon concluante tend vers l'infini. En d'autres termes, s'il n'y a quasiment aucune relation entre deux variables, la taille de l'échantillon doit être presque égale à la taille de la population, qui est supposée infiniment grande. La significativité statistique représente la probabilité d'obtenir un résultat similaire en testant l'ensemble de la population. Ainsi, tout ce que nous pouvons trouver en testant la population toute entière est, par définition, le plus significatif possible, et englobe les résultats du type "aucune relation".
Comment mesurer l'intensité (la force) des relations entre variables. Les statisticiens ont développé de très nombreuses mesures de l'intensité des relations entre variables ; le choix d'une mesure spécifique dans des circonstances données dépend du nombre de variables impliquées, des échelles de mesures utilisées, de la nature des relations, etc... La plupart de ces mesures suivent toutefois un principe général : elles tentent d'une manière ou d'une autre d'évaluer la relation observée en la comparant à la "relation maximale imaginable" entre ces variables. Pour parler techniquement, une façon courante d'effectuer ces évaluations consiste à regarder dans quelle mesure les valeurs des variables sont différentes, puis de calculer la part de cette "différence globale" qui est expliquée par des occurrences particulières lorsque cette différenciation est "commune" dans les deux variables étudiées (ou plus). Pour parler moins techniquement, nous comparons "ce qui est commun dans ces variables" à "ce qui aurait pu avoir été commun si les variables avaient été parfaitement liées". Considérons un exemple simple. Disons que dans notre échantillon, l'indice de la moyenne du Taux de Globules Blancs est égal à 100 chez les hommes et à 102 chez les femmes. Nous pouvons donc dire qu'en moyenne, l'écart de chaque résultat individuel à la moyenne générale (101) contient une composante due au sexe de l'individu ; la taille de cette composante est 1. Cette valeur, d'un certain sens, représente une mesure de la relation entre le Sexe et le Taux de Globules Blancs. Cependant, cette valeur est une mesure très pauvre, parce qu'elle ne nous donne aucune information sur l'importance relative de cette composante, étant donné la "différence globale" des Taux de Globules Blancs. Considérons deux possibilités extrêmes :
a. Si tous les Taux de Globules Blancs des hommes étaient parfaitement égaux à 100, et ceux des femmes égaux à 102, tous les écarts à la moyenne générale dans notre échantillon seraient entièrement expliqués par le sexe. Nous pourrions alors dire que, dans notre échantillon, le Sexe est parfaitement corrélé au Taux de Globules Blancs, c'est-à-dire que la totalité (100%) des différences observées entre les individus quant à leur Taux de Globules Blancs est expliquée par leur sexe.
b. Si tous les Taux de Globules Blancs étaient compris dans l'intervalle [0 ; 1000], la même différence (de 2) entre la moyenne du Taux de Globules Blancs chez les hommes et chez les femmes n'expliquerait qu'une si faible part de la différence globale des résultats que nous la considérerions sans doute comme négligeable. Par exemple, un individu supplémentaire pourrait modifier voire inverser le sens de la différence. Par conséquent, une bonne mesure des relations entre les variables doit prendre en compte la différence globale des résultats individuels dans l'échantillon et évaluer la relation en termes de différence (relative) qui est expliquée par la relation étudiée.
"Format général" commun à la plupart des tests statistiques. Puisque l'objectif de la plupart des tests statistiques est d'évaluer les relations entre des variables, la plupart des tests statistiques suivent le format général décrit au paragraphe précédent. Pour parler techniquement, ils représentent un rapport des mesures de la différence commune des variables étudiées sur la différence globale de ces variables. Par exemple, ils représentent un rapport de la part de différence globale du Taux de Globules Blancs pouvant s'expliquer par le sexe, sur la différence globale du Taux de Globules Blancs. Ce ratio est habituellement appelé le ratio de la variance expliquée sur la variance totale. En statistiques, le terme variance expliquée n'implique pas nécessairement que l'on "comprenne le concept". Ce terme n'est utilisé que pour faire référence à la variance commune des variables étudiées, c'est-à-dire la part de la variance d'une variable qui est "expliquée" par les valeurs spécifiques de l'autre variable, et vice versa.
Comment se calcule le "niveau de significativité statistique". Supposons que nous ayons déjà calculé une mesure de la relation entre deux variables (comme expliqué ci-dessus). La question qui se pose alors est la suivante : cette relation est-elle significative ? Par exemple, est-ce que 40% de la variance expliquée entre les deux variables est suffisante pour considérer la relation comme significative ? La réponse est : "tout dépend". Plus précisément, la significativité dépend essentiellement de la taille d'échantillon. Comme nous l'avons expliqué précédemment, dans des échantillons très grands, même de très faibles relations entre les variables seront significatives, tandis que dans de très petits échantillons, même de très fortes relations peuvent ne pas être considérées comme significatives. Ainsi, afin de déterminer le niveau de significativité statistique, nous avons besoin d'une fonction qui représente la relation entre "l'intensité" et la "significativité" des relations entre deux variables, selon la taille de l'échantillon. La fonction que nous cherchons doit nous dire exactement "quelle est la probabilité d'obtenir une relation d'une intensité donnée (ou plus forte) à partir d'un échantillon d'une taille donnée, sachant que cette relation n'existe pas entre les variables dans la population". En d'autres termes, cette fonction doit nous donner le niveau de significativité (p) et nous indiquer la probabilité d'erreur de rejeter l'idée que cette relation n'existe pas dans la population. Cette hypothèse (qu'il n'y a pas de relation dans la population) est habituellement appelée hypothèse nulle. Elle serait idéale si la fonction de probabilité était linéaire, et par exemple, avait seulement des pentes différentes pour des échantillons de tailles différentes. Malheureusement, la fonction est plus complexe, et n'est pas toujours exactement la même ; cependant, dans la plupart des cas on connaît sa forme et nous pouvons l'utiliser pour déterminer les niveaux de significativité de nos résultats dans les échantillons d'une certaine taille. La plupart de ces fonctions appartiennent à un type général de fonction dit normal.
Pourquoi la "distribution normale" est-elle importante ? La "distribution normale" est importante parce que dans la plupart des cas, elle donne une bonne approximation de la fonction introduite au paragraphe précédent. La distribution de nombreux tests statistiques est Normale ou suit une forme pouvant être dérivée de la distribution Normale. D'un certain sens, pour parler philosophiquement, la Loi Normale représente l'une des "vérités empiriquement vérifiées de la nature générale de la réalité", et son statut peut être comparé à l'une des Lois Fondamentales des Sciences Naturelles. La forme exacte de la distribution normale (la fameuse "courbe en cloche") est définie par une fonction qui ne possède que deux paramètres : la moyenne et l'écart-type.
Une propriété de la Loi Normale est que 68% des ses observations sont comprises dans un intervalle de ±1fois l'écart-type autour de la moyenne, et que l'intervalle ±2 fois l'écart-type autour de la moyenne contient 95% des observations. En d'autres termes, dans une distribution Normale, les observations qui ont une valeur standardisée de moins de -2 ou plus de +2, ont une fréquence relative de 5% ou moins (une valeur standardisée signifie qu'une valeur est exprimée en terme de différence à la moyenne, rapportée à l'écart-type). Vous pouvez explorer les valeurs exactes des probabilités associées aux différentes valeurs de la Loi Normale en utilisant le Calculateur de Probabilités des Statistiques Élémentaires ; par exemple, si vous entrez 4 comme valeur Z (c'est-à-dire une valeur standardisée), la probabilité associée calculée par STATISTICA sera inférieure à 0,0001 parce que, dans la distribution normale, presque toutes les observations (c'est-à-dire plus de 99,99%) se trouvent à l'intérieur de l'intervalle défini par ±4 fois l'écart-type autour de la moyenne. L'animation ci-dessous représente diverses régions critiques associées à d'autres valeurs Z.
Illustration de la façon dont la distribution normale est utilisée en raisonnement statistique (induction). Revenons à l'exemple évoqué précédemment, où les couples d'échantillons d'hommes et de femmes ont été tirés d'une population où la valeur moyenne du Taux de Globules Blancs est exactement la même chez les hommes et chez les femmes. Bien que les résultats les plus probables de ces expériences (un couple d'échantillon par expérience) soient une différence du Taux de Globules Blancs moyen chez les hommes et chez les femmes dans chaque couple qui soit proche de zéro, de temps à autres, nous allons sans doute trouver une différence sensible dans un couple d'échantillons entre les hommes et les femmes. Combien de fois cela risque-t-il de se produire ? Si la taille de l'échantillon est assez grande, les résultats de ces réplications seront "normalement distribués", et donc connaissant la forme de la courbe normale, nous pouvons calculer précisément la probabilité d'obtenir "par chance" des résultats représentant divers niveaux d'écart à la moyenne hypothétique de la population (espérance mathématique) de 0. Si la probabilité calculée est tellement faible qu'elle satisfait au critère précédemment accepté de significativité statistique, nous n'avons qu'une possibilité : conclure que notre résultat nous donne une meilleure approximation de la population que "l'hypothèse nulle". Rappelez-vous que l'hypothèse nulle n'a été prise en compte que pour des "raisons techniques", comme un repère contre lequel notre résultat empirique était évalué.
Toutes les statistiques de test sont-elles normalement distribuées ? Pas toutes, mais la plupart de ces tests sont, soit fondés directement sur la Loi Normale, soit sur des distributions dérivées de la Loi Normale, comme la distribution du t, du F, ou du Chi². En général, ces tests nécessitent que les variables analysées soient elles-mêmes normalement distribuées dans la population, c'est-à-dire qu'elles satisfassent l'hypothèse appelée "hypothèse de normalité". Le problème peut survenir lorsqu'on cherche à utiliser un test fondé sur la Loi Normale pour analyser des données à partir de variables qui ne sont pas distribuées normalement (voir les tests de normalité des modules Tests Non Paramétriques ou Statistiques Élémentaires) mais ce n'est souvent pas pratique parce que ces tests sont habituellement moins puissants. Nous pouvons également, dans de nombreux cas, continuer à utiliser un test fondé sur la Loi Normale à condition que nos échantillons soient d'une taille suffisante. Cette dernière option est fondée sur un principe très important qui est largement responsable de la popularité des tests fondés sur la Loi Normale : c'est le Théorème Centrale Limite (TCL). Plus précisément, lorsque la taille d'un échantillon augmente, la moyenne empririque de l'échantillon tend vers une Loi Normale même si la distribution de la variable n'est pas une Loi Normale. L'animation ci-dessous illustre une série de distributions d'échantillonnage (créées à partir d'échantillons de taille croissante : 2, 5, 10, 15 et 30) en utilisant une variable aléatoire ne suivant pas une Loi Normale.
Lorsque la taille des échantillons augmente, nous pouvons constater que la forme de la distribution de la moyenne empirique devient normale. Remarque : pour n=30, la forme de cette distribution est "presque" parfaitement normale (voir l'ajustement qui suit fidèlement la distribution). Ce principe est appelé Théorème Central Limite (ce terme a été pour la première fois utilisé par Pólya en 1920 et est traduit de allemand "Zentraler Grenzwertsatz").
Comment connaître les conséquences de la violation de l'hypothèse de normalité ? Bien que la plupart des déclarations faites dans les précédents paragraphes puissent être prouvées mathématiquement, certaines n'ont pas de fondement théorique et ne peuvent être montrées qu'empiriquement, grâce à des expériences ou des simulations dites de Monte-Carlo. Dans ces expériences, de nombreux échantillons sont générés par l'ordinateur en suivant les spécifications prédéfinies et les résultats de ces échantillons sont analysés en utilisant toute une gamme de tests. De cette manière, nous pouvons empiriquement évaluer le type et l'importance des erreurs ou des biais rencontrés lorsque certaines hypothèses théoriques des tests utilisés ne sont pas satisfaites dans nos données. Plus précisément, les simulations de Monte-Carlo sont souvent utilisées avec des tests fondés sur la Loi Normale pour déterminer leur sensibilité à la violation de l'hypothèse de normalité des variables analysées dans la population. La conclusion générale de ces études est que les conséquences de ces violations portent moins à conséquence que ce à quoi nous aurions pu nous attendre. Bien que ces conclusions ne nous permettent pas d'ignorer l'hypothèse de normalité, elles ont permis de renforcer la popularité des tests fondés sur une distribution statistique dans tous les domaines de recherche.