Partager :

Concepts Fondamentaux en Statistique


Statistiques Fondamentales :

Tests Non-Paramétriques


Sommaire :


Principes Fondamentaux

Une explication succincte du concept de test de significativité. Pour comprendre l'idée des statistiques non-paramétriques (le terme "non-paramétrique" a été utilisé pour la première fois en anglais par Wolfowitz en 1942) vous devez préalablement comprendre ce que sont les statistiques paramétriques. La rubrique Concepts Élémentaires présente le concept de test de significativité statistique basé sur la distribution d'échantillonnage d'une statistique particulière (il est recommandé de lire ce chapitre avant de poursuivre). En résumé, si nous connaissons la distribution sous-jacente d'une variable, nous pouvons faire des prévisions sur la manière dont, sur plusieurs échantillons répétés et de même taille, cette statistique particulière va se comporter, c'est-à-dire, comment elle est distribuée. Par exemple, si nous prenons 100 échantillons aléatoires de 100 adultes chacun dans la population, et que nous calculons la taille moyenne en centimètres dans chaque échantillon, la distribution des moyennes standardisées (centrées-réduites) des échantillons va probablement tendre vers la Loi Normale (pour être précis, la Loi du t de Student à 99 degrés de liberté  ; voir ci-dessous). Maintenant, imaginons que nous prenions un échantillon supplémentaire dans une certaine ville ("Grandville") où les habitants sont plus grands que la population moyenne. Si la taille moyenne en centimètres dans cet échantillon dépasse la limite supérieure à 95% de la distribution t nous pourrons alors conclure qu'effectivement, les habitants de Grandville sont plus grands que la population moyenne.

Toutes les variables sont-elles distribuées normalement ? Dans l'exemple ci-dessus nous avons considéré, sur la base de notre connaissance, que dans des échantillons répétés de taille égale, la moyenne standardisée (de la taille en centimètres) suivait la Loi du t (avec une moyenne et une variance particulières). Toutefois, cela ne sera vrai que si, dans la population, la variable étudiée (la taille en centimètres dans notre exemple) est normalement distribuée, c'est-à-dire si la distribution des individus de tailles particulières suit la Loi Normale (la courbe en cloche). Pour de nombreuses variables, nous ne savons pas si c'est bien le cas. Par exemple, les revenus sont-ils distribués normalement dans la population ? Probablement pas. La prévalence des maladies rares n'est pas normalement distribuée dans la population, pas plus que le nombre d'accidents de la route. Il en est de même pour de nombreuses autres variables potentiellement intéressantes pour les chercheurs.

Taille d'échantillon. Un autre facteur rendant inapplicables des tests basés sur l'hypothèse de normalité de la distribution d'échantillonnage réside dans la taille de l'échantillon des données disponibles pour l'analyse (taille d'échantillon ; n). Nous pouvons supposer que la distribution d'échantillonnage est normale même si nous ne savons pas que la distribution de la variable dans la population est normale, à condition que notre échantillon soit suffisamment grand (par exemple, 100 observations ou plus). Si notre échantillon est très petit, ces tests ne peuvent être utilisés que si nous savons que la variable est distribuée normalement, or il n'y a aucune manière de tester cette hypothèse lorsque nous sommes en présence d'un petit échantillon.

Problèmes de mesure. L'application de tests basés sur l'hypothèse de normalité est également limitée par le défaut de mesure précise. Prenons pour illustrer ce problème, l'exemple du système de notation scolaire américain, dans lequel un "A" sanctionne un travail excellent, tandis qu'un "F" sanctionne un travail médiocre, toute lettre intermédiaire permettant de nuancer la notation. Considérons des étudiants dont nous étudions le "grade point average" (GPA). Est-ce qu'une moyenne A est deux fois meilleure qu'une moyenne C ? Est-ce que la différence entre une moyenne B et une moyenne A est comparable à la différence entre une moyenne D et une moyenne C ? D'une certaine manière, le GPA est une mesure grossière des performances scolaires, ne nous permettant pas d'établir autre chose qu'un classement des étudiants sur une échelle allant des "bons" élèves aux "cancres". Ce problème général de mesure est souvent évoqué dans les ouvrages statistiques en termes de types de mesures ou échelle de mesure. Sans rentrer dans le détail, la plupart des techniques statistiques comme l'analyse de la variance (et les tests t), les régressions, etc... considèrent que les mesures sous-jacentes ont au moins des qualités d'intervalle, ce qui signifie que des intervalles espacés régulièrement sur une échelle peuvent être interprétés (par exemple, B moins A est égal à D moins C). Toutefois, comme dans notre exemple, cette hypothèse est souvent indéfendable, et les données représentent davantage un rang de classement d'observations (échelle ordinale) que des mesures précises.

Méthodes paramétriques et non-paramétriques. Nous espérons, après cette introduction assez longue, avoir mis en évidence la nécessité pour des procédures statistiques de permettre le traitement de données de "moindre qualité", sur de petits échantillons, avec des variables dont on ne connaît pas la distribution. Plus précisément, les méthodes non-paramétriques ont été développées dans cette optique, lorsque le chercheur ne connaît pas les paramètres de la variable étudiée dans la population (d'où le terme non-paramétrique). En termes plus techniques, les méthodes non-paramétriques n'impliquent pas l'estimation de paramètres (comme la moyenne ou l'écart-type) décrivant la distribution de la variable étudiée dans la population. C'est pourquoi, ces méthodes sont aussi parfois appelées (et de façon plus appropriée) méthodes sans paramètres ou sans distributions.

Brève Introduction aux Procédures Non-Paramétriques

En fait, il existe au moins un équivalent non-paramétrique à chaque test paramétrique. D'une manière générale, ces tests sont regroupés dans les trois catégories suivantes :

· Tests d'homogénéité entre groupes (échantillons indépendants) ;

· Tests d'homogénéité entre variables (échantillons appariés) ;

· Tests de relations entre variables.

Homogénéité entre des groupes indépendants. En général, lorsque nous devons comparer la valeur moyenne d'une certaine variable dans deux échantillons, nous recourons au test t pour des échantillons indépendants (dans le module Statistiques Élémentaires) ; le test des suites de Wald-Wolfowitz, le test U de Mann-Whitney et le test de Kolmogorov-Smirnov pour 2 échantillons en constituent les équivalents non-paramétriques. Si nous avons plus de deux groupes, nous pouvons utiliser une analyse de variance (voir le module ANOVA/MANOVA ; son équivalent non-paramétrique est le test des rangs de Kruskal-Wallis ou le test de la médiane.

Homogénéité entre des groupes appariés. Pour comparer deux variables mesurées sur un même échantillon, nous utilisons habituellement un test t pour des échantillons appariés (accessible dans le module des Statistiques Élémentaires ; par exemple, si nous souhaitons comparer les résultats en mathématiques des mêmes étudiants entre le début et la fin du semestre). Les équivalents non-paramétriques à ce test sont le test des signes et le test de Wilcoxon pour des échantillons appariés. Si les variables étudiées sont de nature dichotomiques (c'est-à-dire "succès" ou "échec"), vous pourrez utiliser le test du Chi² de McNemar. Si vous disposez de plus de deux variables pour mesurer le même échantillon, vous pouvez utiliser une ANOVA à mesures répétées. Son équivalent non-paramétrique est l'analyse de variance à 2 facteurs de Friedman ou le test Q de Cochran (si la variable est catégorielle, par exemple, "succès" ou "échec"). Le Q de Cochran est particulièrement utile pour mesurer les modifications d'effectifs (proportions) au cours du temps.

Relations entre des variables. Pour exprimer une relation entre deux variables, nous pouvons calculer un coefficient de corrélation. Les équivalents non-paramétriques au coefficient de corrélation standard sont le R de Spearman, Tau de Kendall et le coefficient Gamma. Si les deux variables étudiées sont de nature qualitative (par exemple, "succès" ou "échec" en fonction du sexe "homme" ou "femme"), vous pourrez utiliser comme statistiques non-paramétriques pour tester la relation entre les deux variables, le test du Chi², le coefficient Phi et le test exact de Fisher. En outre, vous pouvez utiliser le coefficient de concordance de Kendall pour tester la relation simultanée entre plusieurs observations. Ce test est souvent utilisé pour exprimer "l'inter-taux" d'accord de juges indépendants devant noter (affecter des rangs) les mêmes stimuli.

Statistiques descriptives. Lorsque nos données ne sont pas normalement distribuées et que les mesures ne contiennent (au mieux) que des informations sur les rangs, le calcul des statistiques descriptives standard (par exemple, moyenne, écart-type) n'est pas nécessairement la méthode adéquate pour synthétiser nos données. Par exemple, en psychométrie, il est bien connu que l'estimation d'intensité d'un stimulus (par exemple, l'intensité perçue d'une lumière) est souvent une fonction logarithmique de la véritable intensité du stimulus (l'intensité est mesurée objectivement en Lux). Dans cet exemple, l'estimation de la moyenne simple (somme des évaluations rapportée au nombre de stimuli) n'est pas un bon indicateur de la véritable intensité moyenne des stimuli (dans cet exemple, il nous faudrait sans doute calculer une moyenne géométrique). Le module Test Non-Paramétriques permet de calculer toute une gamme de mesures de position (moyenne, médiane, mode, etc...) et de dispersion (variance, écart moyen, intervalle inter-quartiles, etc...) pour restituer au mieux nos données (voir les Statistiques Descriptives).

Quelle Méthode Utiliser et Dans Quel Contexte ?

Il n'est pas simple de vous donner des conseils simples quant à l'utilisation des procédures non-paramétriques. Chaque procédure non-paramétrique a ses propres forces et faiblesses. Par exemple, le test de Kolmogorov-Smirnov pour 2 échantillons n'est pas très sensible aux différences de position des distributions (par exemple, différences de moyennes) mais sera fortement affecté par les différences de forme. Le test de Wilcoxon pour échantillons appariés considère qu'il est possible d'affecter des rangs en fonction de l'importance de la différence entre des observations appariées. Si ce n'est pas le cas, il est préférable d'utiliser le test des Signes. D'une manière générale, si le résultat d'une étude est important (par exemple, une thérapie lourde et coûteuse est-elle efficace sur la santé des patients ?), il est recommandé de réaliser différents tests non-paramétriques ; si les différents tests fournissent des résultats contradictoires, vous devez chercher à comprendre la raison pour laquelle certains tests ont donné des résultats divergents. Les tests non-paramétriques sont statistiquement moins puissants (moins sensibles) que leurs équivalents paramétriques et s'il est important de détecter de petits effets (par exemple, ce complément alimentaire est-il nocif sur la santé des consommateurs  ?) il faut être très prudent lors du choix d'un test statistique.

Grands échantillons et méthodes non-paramétriques. Les méthodes non-paramétriques sont plus appropriées lorsque les échantillons sont de petite taille. Lorsque l'échantillon est assez grand (par exemple, n > 100) les tests non-paramétriques sont souvent inadaptés. La rubrique Concepts Élémentaires présente brièvement l'idée du théorème central limite. En résumé, lorsque les échantillons deviennent très grands, les moyennes d'échantillons suivent la Loi Normale, même si la variable respective n'est pas normalement distribuée dans la population. C'est la raison pour laquelle les méthodes paramétriques, souvent plus sensibles (c'est-à-dire dont la puissance statistique est plus grande) donnent en général de meilleurs résultats sur de grands échantillons. Toutefois, les tests de significativité de nombreuses statistiques non-paramétriques sont basés sur la théorie asymptotique (grands échantillons) ; c'est pourquoi, des tests significatifs pourront rarement être réalisés sur des échantillons de trop petite taille. Veuillez vous référer aux descriptions des tests spécifiques pour plus d'informations sur leur efficacité et leur puissance.

Corrélations Non-Paramétriques

Il existe trois types de coefficients de corrélation non-paramétriques largement utilisés : le R de Spearman, le Tau de Kendall et le coefficient Gamma. Notez que le Chi² calculé pour les tableaux d'effectifs à double entrée, constitue également une bonne mesure de la relation entre deux variables (croisées), et contrairement aux mesures de corrélation décrites ci-dessous, peut être utilisé pour des variables qui sont mesurées sur une simple échelle nominale.

R de Spearman. Le R de Spearman (Siegel & Castellan, 1988) considère que les variables étudiées ont été mesurées sur, au moins, une échelle ordinale (possibilité d'affecter des rangs), c'est-à-dire que les observations individuelles peuvent être classées dans deux séries ordonnées.

Tau de Kendall. Le Tau de Kendall est équivalent au R de Spearman quant aux hypothèses sous-jacentes. Sa puissance statistique est également du même ordre. Toutefois, le R de Spearman et le Tau de Kendall ont souvent des étendues différentes en raison de leur logique sous-jacente et de leurs formules de calcul très différentes. Siegel et Castellan (1988) expriment la relation entre les deux mesures sous forme d'une inégalité  :

-1 £ 3 * tau de Kendall - 2 * R de Spearman £ 1

Plus important encore, le Tau de Kendall et le R de Spearman s’interprètent différemment : le R de Spearman peut s’appréhender comme un coefficient de corrélation linéaire de Pearson standard ; c'est-à-dire qu'il s'interprète en termes de part de variance expliquée, à la différence près que le R de Spearman est calculé à partir des rangs. Le Tau de Kendall, en revanche, représente une probabilité c'est-à-dire qu'il s'agit de la différence entre la probabilité que les deux variables aient le même classement (ordre) dans les données observées contre la probabilité que les deux variables aient un ordre différent.

Gamma. La statistique Gamma (Siegel & Castellan, 1988) est préférable au R de Spearman ou au Tau de Kendall lorsque les données contiennent de nombreux ex-aequo. En termes d'hypothèses sous-jacentes, Gamma est équivalent au R de Spearman ou au Tau de Kendall ; en termes d'interprétation et de calculs, il est plus proche du Tau de Kendall que du R de Spearman. En résumé, Gamma est également une probabilité ; plus précisément, il se calcule comme la différence entre la probabilité que le rang de deux variables soit identique, moins la probabilité qu'il soit différent, divisé par 1 moins la probabilité d'ex-aequo. C'est pourquoi, Gamma est en fait équivalent au Tau de Kendall, à la différence que les ex-aequo sont ici, explicitement pris en compte.

Tables 2 x 2, Chi/V/Phi Deux, McNemar, Exact de Fisher

En saisissant les effectifs dans une table 2-à-2, vous pouvez calculer de nombreuses statistiques pour évaluer la relation entre deux variables dichotomiques. C'est pourquoi l'option 2 x 2 peut être utilisée comme une alternative aux corrélations lorsque les deux variables en question sont dichotomiques. STATISTICA va également calculer le test du Chi² de McNemar pour la significativité des changements. Dans ce cas, l'option 2 x 2 peut être vue comme une alternative au test t pour échantillons appariés lorsque les variables en question sont dichotomiques. Voir la boîte de dialogue Tables 2-à-2 - onglet Base pour plus de détails.

Chi² Observé contre Théorique

Vous pouvez évaluer l'ajustement des données (effectifs) d'un ensemble de données arbitraires (effectifs théoriques ou attendus). Sélectionnez l'option X² Observé vs Théorique dans la boîte de dialogue Tests Non-Paramétriques (Panneau de Démarrage) - onglet Base pour afficher la boîte de dialogue Effectifs Observés vs Théoriques, dans laquelle vous pouvez sélectionner deux variables, l'une avec les effectifs observés et l'autre contenant les effectifs théoriques. Les valeurs du Chi² standard seront alors calculées.

Corrélations (Spearman, tau de Kendall, Gamma)

Vous pouvez calculer trois alternatives au coefficient de corrélation linéaire de Pearson paramétrique : Rang R de Spearman, Tau de Kendall, et Gamma. Sélectionnez l'option Corrélations (Spearman, tau de Kendall, gamma) dans la boîte de dialogue Tests Non-Paramétriques (Panneau de Démarrage) - onglet Base pour afficher la boîte de dialogue Corrélations Non-paramétriques, à partir de laquelle vous pouvez sélectionner les variables et le type spécifique de corrélation à calculer (voir la rubrique Corrélations Non-Paramétriques). Vous pouvez choisir de calculer des corrélations non-paramétriques simples ou des matrices de corrélations non-paramétriques. Un Graphique des Données d'Entrée utile est le nuage de points avec lequel vous pouvez tracer facilement les corrélations. Un nuage de points matriciel pour toutes les variables peut également être produit. Remarque : les mesures alternatives non-paramétriques de contingence entre deux variables sont également disponibles dans le module Statistiques Élémentaires.

Rang R de Spearman. Le rang R de Spearman peut être considéré comme le coefficient de corrélation de Pearson (r de Pearson) régulier ; c'est-à-dire, en termes de proportion de variablité expliquée, excepté que le rang R de Spearman est calculé à partir des rangs. Le R de Spearman suppose que les variables considérées ont été mesurées sur au moins une échelle ordinale (rang) ; c'est-à-dire, les observations individuelles peuvent être classées dans deux séries ordonnées. Des descriptions détaillées de la statistique du rang R de Spearman, sa puissance et son efficacité peuvent être trouvées dans Gibbons (1985), Hays (1981), McNemar (1969), Siegel et Castellan (1988), Kendall (1948), Olds (1949), ou Hotelling et Pabst (1936).

Tau de Kendall. Le Tau de Kendall utilise les mêmes hypothèses que le R de Spearman. Sa puissance statistique est comparable. Toutefois, le R de Spearman et le tau de Kendall ont souvent des amplitudes différentes en raison de leur logique sous-jacente et de leurs formules de calcul très différentes. Siegel et Castellan (1988) expriment la relation entre les deux mesures sous la forme d'une inégalité :

-1 £ 3 * tau de Kendall - 2 * R de Spearman £ 1

Plus important encore, le tau de Kendall et le R de Spearman impliquent des interprétations différentes  : le R de Spearman peut être vu comme un coefficient de corrélation linéaire de Pearson standard ; c'est-à-dire qu'il s'interprète en termes de part de variance expliquée, sachant que le R de Spearman est calculé à partir des rangs. Le tau de Kendall, en revanche, représente une probabilité c'est-à-dire qu'il s'agit de la différence entre la probabilité que les deux variables ont le même ordre dans les données observées contre la probabilité que les deux variables ont un ordre différent.

Gamma. La statistique Gamma est préférable au R de Spearman ou au tau Kendall lorsque les données contiennent de nombreuses observations ex-aequo. En termes d'hypothèses sous-jacentes, Gamma est équivalent au R de Spearman ou au tau de Kendall ; en termes d'interprétation et de calculs, il est plus proche du tau de Kendall que du R de Spearman. En résumé, Gamma est également une probabilité ; plus précisément, il se calcule comme la différence entre la probabilité que le rang de deux variables soit identique, moins la probabilité qu'il diffère, divisé par 1 moins la probabilité d'ex-aequo. C'est pourquoi, Gamma est en fait équivalent du tau de Kendall, à la différence que les ex-aequo sont ici, explicitement pris en compte.

Test des Suites de Wald-Wolfowitz

Le test des suites de Wald-Wolfowitz est une alternative non-paramétrique au test t pour des échantillons indépendants. La procédure nécessite une organisation des données similaire à celle que vous utilisez pour un test t sur des échantillons indépendants (voir le module Statistiques Élémentaires). Plus précisément, le fichier de données doit contenir une variable de classement (variable indépendante) contenant au moins deux codes distincts permettant d'identifier l'appartenance de chaque observation à un groupe dans le fichier de données. Sélectionnez l'option Comparaison de deux échantillons indépendants (groupes) dans la boîte de dialogue Tests Non-Paramétriques (Panneau de Démarrage) - onglet Base pour afficher la boîte de dialogue Comparaison de Deux Groupes, dans laquelle vous pouvez sélectionner la variable de classement, une liste de variables dépendantes (variables pour lesquelles les deux groupes doivent être comparés), ainsi que les codes utilisés dans la variable de classement pour identifier les deux groupes.

Hypothèses et interprétations. Le test des suites de Wald-Wolfowitz fonctionne de la manière suivante  : Imaginez que vous souhaitez comparer des hommes et des femmes sur une variable. Vous pouvez trier vos données selon cette variable, et regarder les observations pour lesquelles, dans les données triées, les individus de même sexe sont adjacents. S'il n'y a aucune différence entre les hommes et les femmes, le nombre et la "longueur" de ces "suites" (séries) adjacentes d'individus du même sexe sera plus ou moins aléatoire. Si ce n'est pas le cas, les deux groupes (sexes dans notre exemple) seront d'une certaine manière différents l'un de l'autre. Ce test suppose que la variable en question est continue, et qu'elle soit mesurée sur au moins une échelle ordinale (c'est-à-dire avec des rangs). Le test des suites de Wald-Wolfowitz permet de tester l'hypothèse selon laquelle les deux échantillons indépendants sont tirés de deux populations divergeant sur plusieurs aspects, c'est-à-dire non seulement par rapport à la moyenne, mais également par rapport à la forme générale de la distribution. L'hypothèse nulle stipule que les deux échantillons appartiennent à la même population. Ainsi, ce test est différent du test paramétrique t qui ne teste strictement que les différences de position (moyennes) entre les deux échantillons.

Siegel (1956) recommande une correction de continuité lorsque les tailles d'échantillons combinés ne sont pas très importantes. Ce résultat z ajusté, accompagné de sa valeur ajustée p, est reporté dans la feuille de résultats du Test des Suites de Wald-Wolfowitz.

Test de Kolmogorov-Smirnov

Le test de Kolmogorov-Smirnov est une autre alternative non-paramétrique au test t pour des échantillons indépendants. La procédure nécessite une organisation des données similaire à celle que vous utilisez pour un test t sur des échantillons indépendants. Plus précisément, le fichier de données doit contenir une variable de classement (variable indépendante) contenant au moins deux codes distincts permettant d'identifier l'appartenance de chaque observation à un groupe dans le fichier de données. Sélectionnez l'option Comparaison de deux échantillons indépendants (groupes) dans la boîte de dialogue Tests Non-Paramétriques (Panneau de Démarrage) - onglet Base pour ouvrir la boîte de dialogue Comparaison de deux Groupes, dans laquelle vous pouvez sélectionner la variable de classement, une liste de variables dépendantes (variables pour lesquelles les deux groupes doivent être comparés), ainsi que les codes utilisés dans la variable de classement pour identifier les deux groupes.

Hypothèses et interprétations. Le test de Kolmogorov-Smirnov permet de vérifier l'hypothèse selon laquelle les deux échantillons sont issus de populations différentes. Contrairement au test t pour des échantillons indépendants (test paramétrique) ou au test U de Mann-Whitney, qui teste les différences de position des deux échantillons (respectivement les différences de moyennes et les différences de rangs moyens), le test de Kolmogorov-Smirnov est également sensible aux différences de formes générales des distributions dans les deux échantillons (c'est-à-dire, les différences de dispersion, asymétrie, etc...). C'est pourquoi, son interprétation est proche de celle du test des suites de Wald-Wolfowitz.

Test U de Mann-Whitney

Le test U de Mann-Whitney est une alternative non-paramétrique au test t pour des échantillons indépendants. La procédure nécessite une organisation des données similaire à celle que vous utilisez pour un test t sur des échantillons indépendants. Plus précisément, le fichier de données doit contenir une variable de classement (variable indépendante) contenant au moins deux codes distincts permettant d'identifier l'appartenance de chaque observation à un groupe dans le fichier de données. Sélectionnez l'option Comparaison de deux échantillons indépendants (groupes) dans la boîte de dialogue Tests Non-Paramétriques (Panneau de Démarrage) - onglet Base pour afficher la boîte de dialogue Comparaison de Deux Groupes, dans laquelle vous pouvez sélectionner la variable de classement, une liste de variables dépendantes (variables pour lesquelles les deux groupes doivent être comparés), ainsi que les codes utilisés dans la variable de classement pour identifier les deux groupes (option Codes).

Hypothèses et interprétations. Le test U de Mann-Whitney suppose que la variable étudiée ait été mesurée sur au moins une échelle ordinale (rangs). L'interprétation du test est en grande partie identique à celle des résultats du test t pour des échantillons indépendants, sachant que le test U est calculé sur la base de sommes de rangs et non des moyennes. Le test U est la plus puissante (ou la plus sensible) des alternatives non-paramétriques au test t pour des échantillons indépendants ; en fait, dans certains cas, ce test sera même plus puissant que le test t pour rejeter l'hypothèse nulle.

Pour des échantillons d'une taille supérieure à 20, la distribution d'échantillonnage de la statistique du U tend vers une distribution Normale (voir Siegel, 1956). Par conséquent, la statistique du U (ajustée pour les ex-aequo) sera accompagnée d'une valeur z (valeur de la distribution normale), et de la valeur p respective.

Probabilités exactes pour les petits échantillons. Pour les échantillons de taille faible à moyenne, STATISTICA va calculer une probabilité exacte associée à la valeur respective de la statistique du U. Cette probabilité est basée sur le dénombrement de toutes les valeurs possibles de U (non ajustée pour les ex-aequo), compte tenu du nombre d'observations dans les deux échantillons (voir Dinneen et Blakesley, 1973). Plus précisément, pour les échantillons de taille faible à modérée, le programme va reporter (dans la dernière colonne de la feuille de résultats) la valeur 2 * (1-p), où p représente la probabilité cumulée (unilatérale) de la statistique respective du U. Les calculs de cette valeur de probabilité sont basés sur l'hypothèse qu'il n'existe pas d'ex-aequo dans les données (rangs). Notez que cette limite conduit souvent à une légère sous-estimation de la significativité statistique des effets respectifs (voir Siegel, 1956).

Remarque : dans les calculs du test U de Mann-Whitney, une correction de continuité est appliquée.

ANOVA de Kruskal-Wallis par Rangs et Test de la Médiane

Ces deux tests sont des alternatives non-paramétriques à l'analyse de variance interclasses à un facteur. STATISTICA attend que les données soient arrangées de la même manière que pour une analyse ANOVA/MANOVA. Plus précisément, le fichier de données doit contenir une variable de classement avec des codes permettant d'identifier l'appartenance de chaque observation à un groupe. Vous pouvez comparer jusqu'à 10 groupes.

Sélectionnez l'option Comparaison de plusieurs échantillons indépendants (groupes) dans la boîte de dialogue Tests Non-Paramétriques (Panneau de Démarrage) - onglet Base pour afficher la boîte de dialogue ANOVA de Kruskal-Wallis et Test de la Médiane, dans laquelle vous pouvez sélectionner la variable de classement et la liste de variables dépendantes (variables pour lesquelles les deux groupes doivent être comparés), et les codes utilisés dans la variable de classement pour identifier les différents groupes à comparer.

Hypothèses et interprétations. Le test ANOVA de Kruskal-Wallis par Rangs considère que la variable étudiée est continue et qu'elle a été mesurée avec au moins une échelle ordinale (rangs). Le test se fonde sur l'hypothèse que les différents échantillons à comparer suivent la même distribution ou qu'ils ont des distributions avec la même médiane. C'est pourquoi, l'interprétation du test de Kruskal-Wallis est très voisine de l'ANOVA paramétrique à un facteur, sachant qu'il se base sur des rangs et non des moyennes.

Le test de la médiane est une version "brute" de l'ANOVA de Kruskal-Wallis en ce sens qu'il pose les calculs en termes de table de contingence. Plus précisément, STATISTICA va comptabiliser le nombre d'observations dans chaque échantillon se trouvant au dessus et en dessous de la médiane commune, et va calculer la valeur du Chi² de la table de contingence à 2 x k échantillons. Sous l'hypothèse nulle (tous les échantillons sont issus de populations avec des médianes identiques), nous attendons environ 50% des observations dans chaque échantillon au dessus (et en dessous) de la médiane commune. Le test de la médiane est particulièrement utile lorsque l'échelle contient des limites artificielles, et où de nombreuses observations se situent à l'une ou l'autre des extrémités de l'échelle ("hors de l'échelle"). Dans ce cas, le test de la médiane sera la seule méthode appropriée pour comparer des échantillons.

Test des Signes

Le test des signes est une alternative non-paramétrique au test t pour des échantillons appariés. Le test est applicable lorsque le chercheur possède deux mesures (par exemple, sous deux conditions) pour chaque individu et souhaite tester la significativité des différences entre les deux mesures (ou conditions). Sélectionnez l'option Comparaison de deux échantillons appariés (variables) dans la boîte de dialogue Tests Non-Paramétriques (Panneau de Démarrage) - onglet Base pour afficher la boîte de dialogue Comparaison de deux variables, à partir de laquelle vous pouvez choisir les variables des deux listes. Chaque variable de la première liste sera comparée à chacune des variables de la seconde.

Conditions et interprétations. La seule condition requise par ce test est que la distribution sous-jacente de la variable étudiée soit continue ; aucune condition sur la nature ou la forme de la distribution sous-jacente n'est requise. Le test calcule simplement le nombre de fois (pour les individus) où la valeur de la première variable (A) est supérieure à celle de la seconde variable (B). Sous l'hypothèse nulle (qu'il n'existe aucune différence entre les deux variables), nous nous attendons à ce que ce soit vrai dans 50% des cas. Sur la base de la loi binomiale, nous pouvons calculer une valeur z pour le nombre observé de fois où A > B, et calculer la probabilité (uni ou bilatérale) associée à cette valeur z. Pour des échantillons de petite taille (n inférieur à 20) il est recommandé d'utiliser les valeurs tabulées de Siegel et Castellan (1988) pour évaluer la significativité statistique.

Test de Wilcoxon pour des Échantillons Appariés

Ce test est une alternative non-paramétrique au test t pour des échantillons indépendants. Sélectionnez l'option Comparaison de deux échantillons appariés (variables) dans la boîte de dialogue Tests Non-Paramétriques (Panneau de Démarrage) - onglet Base pour afficher la boîte de dialogue Comparaison de deux variables, dans laquelle vous pouvez spécifier les deux listes de variables. Chaque variable de la première liste sera comparée à chaque variable de la seconde. Les données doivent être organisées de la même manière que pour le test t (échantillons appariés) du module Statistiques Élémentaires.

Hypothèses et interprétations. La procédure considère que les variables étudiées ont été mesurées sur une échelle permettant d'ordonner les observations en rangs pour chaque variable (c'est-à-dire, une échelle ordinale) et que les différences de rangs entre variables ont un sens (ce type d'échelle est parfois appelé échelle métrique ordonnée, voir Coombs, 1950). C'est pourquoi les conditions requises pour ce test sont plus contraignantes que celles du test des signes (voir ci-dessus). Toutefois, si elles sont remplies, c'est-à-dire si l'importance des différences (par exemple, différents taux pour un même individu) contiennent des informations exploitables, ce test sera plus puissant que le test des signes. En fait, si les conditions du test t paramétrique pour des échantillons appariés (échelle d'intervalle) sont remplies, ce test est presque aussi puissant que le test t.

ANOVA de Friedman et Concordance de Kendall

Ces deux tests sont de nature assez différente ; toutefois, ils nécessitent des entrées similaires. L'ANOVA de Friedman est une alternative non-paramétrique à l'analyse de variance à un facteur avec mesures répétées. La statistique de la concordance de Kendall est proche du R de Spearman (corrélation non-paramétrique entre deux variables, voir ci-dessus), à la différence qu'elle exprime la relation entre plusieurs observations. Pour l'ANOVA de Friedman, la procédure attend des données arrangées de la même manière que pour une analyse de variance (mesures répétées) intraclasse dans l'ANOVA/MANOVA. Plus précisément, les valeurs de chaque niveau du facteur de mesure répétée doivent être contenues dans des variables distinctes. Sélectionnez l'option Comparer plusieurs échantillons appariés (variables) dans la boîte de dialogue Tests Non-Paramétriques (Panneau de Démarrage) - onglet Base pour afficher la boîte de dialogue ANOVA de Friedman par Rangs, dans laquelle vous pouvez sélectionner une liste de variables.

Hypothèses et interprétations : ANOVA de Friedman. Le test de l'ANOVA de Friedman par rangs considère que les variables (niveaux) étudiées sont mesurées sur au moins une échelle ordinale (rangs). L'hypothèse nulle stipule que les différentes colonnes (c'est-à-dire, les variables de STATISTICA) contiennent des échantillons issus de la même population, ou plus précisément, de populations avec des médianes identiques. Par conséquent, l'interprétation des résultats de cette procédure est similaire à celle d'une ANOVA avec mesures répétées.

Hypothèses et interprétations : Concordance de Kendall. Le coefficient de concordance de Kendall exprime l'association simultanée (lien) entre k ensembles de rangs (c'est-à-dire, observations  ; échantillons appariés). Par exemple, cette statistique est souvent utilisée pour vérifier la fiabilité entre différents juges. En fait, le coefficient de concordance est la moyenne de tous les R de Spearman entre observations  ; plus précisément :

R moyen de Spearman = (k * concordance -1) / (k-1)

Par conséquent les conditions générales de ce test sont identiques à celles de la corrélation des rangs de Spearman.

L'intervalle de la concordance de Kendall s'étend de 0 à +1. Les valeurs proches de zéro traduisent une discordance entre le rang des variables (par exemple, objets) selon les observations (par exemple, juges), tandis que les valeurs proches de 1 représentent une concordance parfaite entre les rangs des variables (objets) selon les observations (juges).

Test Q de Cochran

Le test Q de Cochran est une extension du test d'homogénéité du Chi² de McNemar dans k (plus de deux) échantillons appariés (voir l'option Tables 2-à-2 accessible à partir de la boîte de dialogue Tests Non-Paramétriques (Panneau de Démarrage) - onglet Base) sur des effectifs ou des proportions dans k (supérieur à 2) échantillons appariés. Plus précisément, il teste si certains effectifs ou proportions appariées diffèrent significativement entre elles. Après avoir sélectionné cette option, vous devrez spécifier une liste de variables ainsi que les codes identifiant les deux catégories ou niveaux de la mesure dichotomique. Le test considère que les variables sont codées avec des 1 et des 0 ; tout autre code spécifié par l'utilisateur va provoquer une transformation en conséquence des variables (uniquement pour l'analyse, sans que le fichier lui-même ne soit modifié).

Hypothèses et interprétations. Le test Q de Cochran ne requiert qu'une échelle nominale, ou que les données ont été artificiellement dichotomisées. Le test Q est par exemple très utile lorsque vous souhaitez comparer la difficulté des questions dans un questionnaire dichotomique où il n'est possible de répondre que par "vrai" ou "faux". Ici, chaque variable du fichier de données représenterait une question, et ne contiendrait que des 0 (faux) et des 1 (vrai). Si le test Q est significatif, nous pouvons conclure que certaines questions sont plus difficiles, puisque le pourcentage de réponses correctes est plus faible.

Statistiques Descriptives Ordinales

Sélectionnez l'option Statistiques descriptives ordinales (médiane, mode, ...) dans la boîte de dialogue Tests Non-Paramétriques (Panneau de Démarrage) - onglet Base pour afficher la boîte de dialogue Statistiques Descriptives, dans laquelle vous pouvez calculer de nombreuses statistiques descriptives ordinales (médiane, centiles, quartiles, étendue, intervalle inter-quartile) et autres statistiques descriptives (moyenne, moyenne harmonique, moyenne géométrique, écart-type, asymétrie, aplatissement, variance, écart moyen, somme) des variables sélectionnées. L'utilisateur peut en outre spécifier des valeurs spécifiques de centiles à calculer et reporter dans la feuille de résultats ; par défaut, le programme calcule les valeurs des quartiles, c'est-à-dire des 25ème et 75ème centiles. Outre les statistiques descriptives standard (valeur minimum, valeur maximum, moyenne, n actifs) les statistiques présentées ci-dessous sont calculées pour chaque variable.

Médiane. La valeur de la médiane est la valeur qui partage un échantillon en deux parties égales, pour la variable respective. 50% des observations sont supérieures à la médiane, et 50% lui sont inférieures. Si la valeur de la médiane est très différente de la moyenne, la distribution des données est asymétrique.

Mode. Le mode est la valeur qui se produit avec la plus grande fréquence. La fréquence à laquelle le mode est associé est également affichée ; en cas d'ex-aequo (c'est-à-dire lorsque plusieurs valeurs se produisent avec la même fréquence) la colonne de fréquence respective indiquera "multiple" pour signifier l'existence d'une distribution multi-modale de la variable respective.

Moyenne géométrique. La moyenne géométrique est le produit de tous les résultats à la puissance 1/n (un sur le nombre d'observations actives). La moyenne géométrique est utile lorsque nous savons que l'échelle de mesure n'est pas linéaire. Par exemple, en psychométrie, nous savons que l'estimation de l'intensité d'un stimulus (par exemple, l'intensité perçue d'une lumière) est souvent une fonction logarithmique de la véritable intensité du stimulus (l'intensité est mesurée objectivement en unités de Lux). Dans ce cas, la moyenne géométrique est une meilleure synthèse de ces estimations qu'une moyenne simple. STATISTICA calcule la moyenne géométrique par le logarithme (log) :

log(moyenne géométrique) = [Sin=1(log(xi))]/n

xi est le iième résultat et n est le nombre d'observations actives. Notez que si une variable contient des valeurs négatives ou un zéro (0), cette moyenne géométrique ne pourra pas être calculée.

Moyenne harmonique. La moyenne harmonique est parfois utilisée pour des moyennes d'effectifs (tailles d'échantillons). La moyenne harmonique se calcule ainsi :

MH = n / S i=n1 (1/xi)

où MH est la moyenne harmonique, n est le nombre d'observations actives et xi est le résultat de la iième observation active. Si une variable contient un zéro (0), la moyenne harmonique ne pourra être calculée (puisque la moyenne harmonique tenterait de réaliser une division par zéro).

Variance et écart-type. La variance et l'écart-type sont des mesures de dispersion (voir le module Statistiques Élémentaires). STATISTICA calcule la variance comme la somme des écarts à la moyenne au carré, rapportée à n-1 (et non n). L'écart-type se calcule comme la racine carrée de cette valeur. L'utilisation de n-1 ou de n est souvent un petit problème pratique. Techniquement, nous souhaitons estimer la dispersion de la population dont l'échantillon est issu (par exemple, nous souhaitons généraliser nos résultats à tous les hommes, à partir de notre échantillon aléatoire d'hommes). Dans ce cas, il nous faut utiliser n-1 comme dénominateur dans les calculs ; en utilisant n comme diviseur, les résultats ne s'appliquent qu'aux statistiques descriptives de l'échantillon courant.

Écart moyen. L'écart moyen est une autre mesure de la dispersion. Il se calcule comme la somme des écarts absolus (moyenne de la variable respective moins le résultat brut) divisé par n (nombre d'observations actives).

Étendue. L'étendue d'une variable est encore un indicateur de dispersion. Elle se calcule comme la valeur maximum moins la valeur minimum.

Intervalle inter-quartile. L'intervalle inter-quantile d'une variable se calcule comme la valeur du 75ème centile moins la valeur du 25ème centile. Par conséquent c'est la largeur de l'intervalle qui rassemble 50% des observations autour de la médiane.

Asymétrie. Comme le laisse entendre le terme, l'asymétrie est une mesure du décalage de la distribution de la variable respective vers la gauche (valeur négative) ou la droite (valeur positive), par rapport à la distribution Normale standard (pour laquelle l'asymétrie est 0). La mesure de l'asymétrie est relative au moment d'ordre 3 de la distribution. L'asymétrie se définit comme :

Asymétrie = n*M3/[(n-1)*(n-2)*s3]

Où M3 est égal à : S(xi-Moyennex)3, n est le nombre d'observations actives et s3 est l'écart-type (sigma) élevé à la puissance trois.

Aplatissement. L'aplatissement est une mesure de la manière dont la distribution de la variable respective est "étalée" ou "concentrée" ("plate" ou "en pic"), par rapport à la distribution Normale standard (pour laquelle l'aplatissement est 0). Il est parfois appelé moment d'ordre 4 de la distribution. L'aplatissement se définit comme :

Aplatissement = [n*(n+1)*M4 - 3*M2*M2*(n-1)] / [(n-1)*(n-2)*(n-3)*s4]

Où Mj est égal à : S(xi-Moyennex)j, n est le nombre d'observations actives et s4 est l'écart-type (sigma) élevé à la puissance 4.

Tables 2 x 2

Dans cet exercice, vous allez spécifier les effectifs pour un tableau de contingence 2 x 2, puis vous étudierez les résultats de la feuille de synthèse. Aucun fichier de données particulier n'est requis pour cet exemple ; cependant, vous devez avoir ouvert une feuille de données d'entrée.

Spécification de l'analyse. Supposez que vous vous demandez s'il faut introduire une nouvelle formule pour une boisson non-alcoolisée à succès. Avant de prendre cette décision concernant la nouvelle formule, vous avez réalisé une étude dans laquelle vous avez demandé à des hommes et femmes d'exprimer leur préférence soit pour l'ancienne boisson soit pour la nouvelle formule. Considérez que sur 50 hommes, 41 préfèrent la nouvelle formule par rapport à l'ancienne ; sur 50 femmes, seules 27 préfèrent la nouvelle formule.

Sélectionnez la commande Tests Non-Paramétriques à partir du menu Statistiques pour afficher la boîte de dialogue Tests Non-Paramétriques (Panneau de Démarrage). Sélectionnez l'option Tables 2 x 2 (X2/V2/Phi2, McNemar, Fisher Exact) à partir du Panneau de Démarrage puis cliquez sur le bouton OK pour afficher la boîte de dialogue Tables 2 x 2. Utilisez l'onglet Base pour saisir les effectifs dans les quatre cellules d'un tableau de contingence 2 x 2.

Saisissez les données décrites ci-dessus comme suit :

Étude de la feuille de synthèse. À présent, cliquez sur le bouton Synthèse  : Table 2X2 pour afficher une feuille de résultats. Remarque : vous pouvez également cliquer sur le bouton Synthèse.

Chi-deux, V-deux. La valeur du Chi-deux pour ces nombres (9,01) est hautement significative (reportez-vous à la rubrique Concepts Élémentaires pour une explication des concepts fondamentaux sur les tests de significativité statistique). En conséquence, les préférences exprimées par les hommes sont significativement différentes de celles des femmes (apparemment, la nouvelle formule est surtout préférée par les hommes). La statistique du V-deux est un Chi-deux corrigé pour la taille de l'échantillon (Kendall and Stuart, 1979 ; voir également Rhoades and Overall, 1982). Si les effectifs du tableau sont plus faibles (par exemple, inférieurs à 10 en moyenne), il faudrait plutôt se fier à la statistique du V-deux plutôt qu'à celle du Chi-deux.

La logique derrière la statistique du V-deux (et les autres corrections pour les petits n) est la suivante  : Imaginez que vous observiez 3 et 7 dans une ligne du tableau 2 x 2. Alors la probabilité qu'une observation "tombe" dans la première cellule peut être estimée à 30%, et, de la même façon, la probabilité qu'une observation "tombe" dans la seconde cellule à 70%. Cependant, vous auriez très bien pu estimer ces probabilités à 34% et 66%, respectivement  ; les données observées seraient toujours parfaitement cohérentes. En d'autres termes, avec un faible n, il y a une forte incertitude sur l'estimation des probabilités sous-jacentes (et valeurs théoriques), et le V-deux tient compte de cette incertitude. La statistique du V-deux va, en conséquence, toujours être inférieure au Chi-deux.

Phi-deux. Une autre façon de regarder l'exemple ci-dessus est de dire que le Sexe est corrélé à la Préférence. Cette corrélation est exprimée via le Phi-deux.

Test exact de Fisher. Étant données les effectifs marginaux (c'est-à-dire, 50, 50, 68, et 32 dans cet exemple), et si nous considérons que dans la population, les hommes et les femmes ont les mêmes préférences, quelles sont les chances d'obtenir des effectifs de cellule aussi mauvais que ceux que nous avons trouvé dans cette étude ? Pour les faibles N, cette probabilité peut être calculée exactement en comptant toutes les tables possibles qui peuvent être construites sur la base des effctifs marginaux. il s'agit de la logique sous-jacente pour le test exact de Fisher. Il calcule la probabilité exacte sous l'hypothèse nulle d'obtenir la répartition courante des effectifs dans les cellules, ou une qui est plus déséquilibrée. Les probabilités pour les tests unilatéral et bilatéral sont reportées.

Chi-deux de McNemar. Ce test est applicable dans les situations où les effectifs du tableau 2 x 2 représentent des échantillons appariés. Par exemple, dans une étude de type avant-après, vous pouvez compter le nombre d'étudiants qui ont échoué à un test de compétences minimales en mathématiques au début du semestre et à la fin du semestre. Deux valeurs du Chi-deux sont reportées : A/D et B/C. Le Chi-deux A/D teste l'hypothèse que les effectifs dans les cellules A et D (en haut à gauche, en bas à droite) sont identiques. Le Chi-deux B/C teste l'hypothèse que les effectifs dans cellules B et C (en haut à droite, en bas à gauche) sont identiques.

Remarque : STATISTICA inclut également deux modules (Statistiques Élémentaires et Analyse Log-Linéaire) conçus pour l'analyse des effectifs et des contingences dans les tables à plusieurs dimensions de taille et de complexité pratiquement illimitées. L'option Tris Croisés du module Statistiques Élémentaires fournit un ensemble complet de statistiques descriptives et inférentielles (incluant les tau-b et tau-c de Kendall, Gamma, coefficients d'incertitude, mesures d'entropie, et autres coefficients de dépendance)  ; le module Analyse Log-Linéaire réalise une analyse log-linéaire complète des tables de fréquence à plusieurs entrées.

Voir aussi la rubrique Tests Non-Paramétriques - Index.

Didacticiels

Vous pouvez visionner l'intégralité de la série de tutoriels Le Data Mining en 35 Leçons avec STATISTICA en remplissant le formulaire d'inscription. Vous serez alors notifié(e) automatiquement de la disponibilité des nouveaux épisodes et recevrez d'autres informations utiles.

StatSoft propose par ailleurs une série de didacticiels et présentations interactives décrivant pas-à-pas différentes opérations que vous pouvez réaliser à l'aide de STATISTICA. Si vous souhaitez voir aborder un thème particulier, merci de nous écrire.