Partager :

Concepts Fondamentaux en Statistique


Statistiques Fondamentales

L'Analyse de Variance : ANOVA/MANOVA Générale


Sommaire :

  • Introduction
  • Principes Fondamentaux
  • La Décomposition des Sommes des Carrés
  • ANOVA à Plusieurs Facteurs
  • Effets d'Interactions
  • Plans Multivariés
  • Analyse de Contraste et Tests Post-Hoc
  • Notes et Informations Techniques


    Introduction

    Cette introduction constitue un "préliminaire" quant à la logique de base, aux hypothèses, et à la terminologie des techniques d'analyse de variance. Pour en savoir plus sur la manière de spécifier des plans particuliers dans l'ANOVA/MANOVA, veuillez vous reporter aux Notes où sont détaillées les conventions générales pour spécifier des plans. Pour des exemples de plans courants, veuillez vous référer aux Exemples. Notez également que l'ANOVA/MANOVA ne représente qu'une partie du module Modèle Linéaire Général (GLM) en ce sens que tous les plans qui peuvent être analysés via l'ANOVA/MANOVA peuvent aussi l'être dans STATISTICA GLM, alors que l'inverse n'est pas vrai. Par conséquent, pour en apprendre davantage sur l'approche générale de l'ANOVA, ou pour connaître le Modèle Linéaire Général, consultez aussi l'Introduction du module GLM.

    Voir aussi les rubriques ANOVA/MANOVA - Notes, Méthodes d'Analyse de Variance, les modules Modèle Linéaire Général (GLM), Modèles Généraux de Régression (GRM), Décomposition de la Variance et Modèle Mixte ANOVA/ANCOVA et Plans d'Expériences ; pour analyser des modèles non-linéaires, voir le module Modèles Linéaires/Non-Linéaires Généralisés (GLZ).

    STATISTICA Puissance de Test. Notez que le module STATISTICA Puissance de Test vous permet de calculer la puissance statistique de vos tests, d'estimer la taille d'échantillon nécessaire lorsque vous réalisez vos plans d'expériences, et d'évaluer les effets des expériences sur vos données. Vous trouverez dans ce module de nombreuses fonctionnalités pour effectuer ces calculs rapidement et efficacement dans de nombreuses situations (tests de contrastes planifiés, ANOVA d'ordre 1 et 2). Pour plus d'informations sur l'acquisition de ce programme, vous pouvez contacter Quest ou votre distributeur  ; vous pouvez également consulter notre site web : http://www.statsoft.fr.

    Principes Fondamentaux

    Objectif de l'Analyse de Variance. D'une manière générale, l'objectif d'une analyse de variance (ANOVA) vise à tester les différences significatives entre les moyennes. La rubrique Concepts Élémentaires présente brièvement les concepts des tests de significativité statistique. Si nous ne comparons que deux moyennes, l'ANOVA nous donnera les mêmes résultats qu'un test t pour des échantillons indépendants (pour comparer deux groupes différents d'observations), ou qu'un test t pour des échantillons appariés (pour comparer deux variables relatives au même ensemble d'observations). Si vous n'êtes pas familiarisé(e) avec ces tests nous vous recommandons de lire la rubrique Statistiques Élémentaires - Introduction.

    Pourquoi le nom analyse de variance ? Il peut sembler étrange qu'une procédure destinée à comparer des moyennes soit appelée analyse de variance. Ce nom provient du fait que pour tester la significativité statistique entre des moyennes, nous devons en fait comparer (c'est-à-dire, analyser) les variances.

    Voir aussi les rubriques ANOVA/MANOVA - Notes, Méthodes d'Analyse de Variance, les modules Modèle Linéaire Général (GLM), Modèles Généraux de Régression (GRM), Décomposition de la Variance et Modèle Mixte ANOVA/ANCOVA et Plans d'Expériences ; pour analyser des modèles non-linéaires, voir le module Modèles Linéaires/Non-Linéaires Généralisés.

    La Décomposition des Sommes des Carrés

    L'idée selon laquelle les variances peuvent être divisées, c'est-à-dire décomposées, constitue le fondement de l'ANOVA. Il faut savoir que la variance se calcule comme la somme des écarts au carré par rapport à la moyenne générale, divisée par N-1 (taille de l'échantillon moins un). Ainsi, étant donné un certain N, la variance est une fonction de la somme des (écarts) carrés, ou SC en raccourci. La décomposition de la variance se détermine comme suit. Considérons les données suivantes :

     

    Groupe 1

    Groupe 2

    Observation 1

    2

    6

    Observation 2

    3

    7

    Observation 3

    1

    5

    Moyenne

    2

    6

    Sommes des Carrés (SC)

    2

    2

    Moyenne Générale

     4

    Total des Sommes des Carrés

    28

    Les moyennes des deux groupes sont très différentes (respectivement 2 et 6). Les sommes des carrés à l'intérieur de chaque groupe (ou intra-groupe) sont égales à 2. En les sommant, on obtient 4. Si nous répétons maintenant ces calculs, en ignorant l'appartenance à un groupe, c'est-à-dire si nous calculons la SC totale basée sur la moyenne globale, nous obtenons le nombre 28. En d'autres termes, calculer la variance (sommes des carrés) basée sur la dispersion intra-groupe produit une estimation beaucoup plus faible de la variance que le calcul basé sur la dispersion totale (la moyenne générale). La raison, dans l'exemple ci-dessus, en est, bien entendu, une grande différence entre les moyennes, et c'est cette différence qui explique la différence dans la SC. En fait, si nous réalisions une ANOVA sur les données ci-dessus, nous obtiendrions les résultats suivants :

     

    EFFET PRINCIPAL

    SC

      dl  

    MC

    F

    p

    Effet

    24.0

    1

    24.0

    24.0

    .008

    Erreur

    4.0

    4

    1.0

     

     

    Comme vous pouvez le constater dans le tableau ci-dessus, la SC totale (28) a été décomposée en une SC due à la dispersion intra-groupe (2+2=4  ; cf. la seconde ligne de la feuille de données) et une dispersion due aux différences entre les moyennes, ou dispersion inter-groupes (28-(2+2)=24  ; la première ligne de la feuille de données).

    SC de l'Erreur et SC de l'Effet. La dispersion intra-groupe (SC) est souvent appelée variance de l'Erreur. Ce terme indique que nous ne pouvons pas l'expliquer aisément dans notre modèle. En revanche, la SC de l'Effet peut être expliquée. En effet, elle est imputable aux différences de moyennes entre les groupes. En d'autres termes, l'appartenance à un groupe explique cette dispersion puisque nous savons qu'elle est due aux différences de moyennes

    Tester la significativité. L'idée de base des tests de significativité statistique est présentée dans les Concepts Élémentaires. Cette section explique également la raison pour laquelle de très nombreux tests statistiques se présentent sous forme d'un ratio entre la dispersion expliquée et la dispersion non expliquée. L'ANOVA en est un bon exemple. Ici, nous basons ce test sur une comparaison entre la variance imputable à la dispersion inter-groupes (appelée Moyenne des Carrés de l'Effet, ou MCeffet) et la dispersion intra-groupe (appelée Moyenne des Carrés de l'Erreur, ou MCerreur  ; ce terme a été initialement utilisé par Edgeworth, 1885). Sous l'hypothèse nulle (qu'il n'existe pas de différence entre les groupes dans la population), nous nous attendons à obtenir de faibles fluctuations aléatoires des moyennes pour les deux groupes en prenant de petits échantillons (comme dans notre exemple). Par conséquent, sous l'hypothèse nulle, la variance estimée basée sur la dispersion intra-groupe doit être approximativement la même que la variance due à la dispersion inter-groupes. Nous pouvons comparer ces deux estimations de variances grâce à un test du F, qui va tester si le ratio des deux estimations de variances est significativement supérieur à 1. Dans l'exemple ci-dessus, ce test est très significatif, et nous pourrions conclure que les moyennes des deux groupes sont significativement différentes l'une de l'autre.

    Synthèse de la logique de base de l'ANOVA. Pour résumer la présentation proposée jusqu'à présent, l'objectif de l'analyse de variance est de tester la significativité statistique des différences entre moyennes (des groupes ou des variables). Vous pouvez le faire en analysant la variance, c'est-à-dire en décomposant la variance totale en une composante imputable à l'erreur aléatoire réelle (c'est-à-dire la SC intra-groupe) et une composante imputable aux différences entre les moyennes. Testez ensuite la significativité statistique de cette dernière composante de la variance, et, si le test est significatif, vous pouvez rejeter l'hypothèse nulle selon laquelle il n'existe pas de différences entre les moyennes, et accepter l'hypothèse alternative que les moyennes (dans la population) sont différentes entre elles.

    Variables dépendantes et indépendantes. Les variables mesurées (par exemple, le résultat à un test) sont appelées variables dépendantes. Les variables manipulées ou contrôlées (par exemple, une méthode d'apprentissage ou d'autres critères utilisés pour répartir des observations dans des groupes à comparer) sont appelées facteurs ou variables indépendantes. Pour plus d'informations sur cette distinction essentielle, veuillez vous reporter à la rubrique Concepts Élémentaires.

    ANOVA à Plusieurs Facteurs

    Dans l'exemple simple précédent (Décomposition des sommes des carrés), vous auriez pu calculer simplement un test t pour des échantillons indépendants avec le module Statistiques Élémentaires et parvenir aux mêmes conclusions. Effectivement, nous aurions obtenu des résultats identiques en comparant les deux groupes par ce test, mais l'ANOVA est une technique beaucoup plus flexible et puissante pouvant s'appliquer à des problèmes beaucoup plus complexes.

    Plusieurs facteurs. Le monde est complexe et multivarié par nature, et rares sont les exemples où une seule variable explique complètement un phénomène. Par exemple, pour tenter d'explorer la manière de produire des tomates plus grosses, nous devrions prendre en compte des facteurs liés à la constitution génétique des plantes, à la composition du sol, à l'éclairage, à la température, etc... Ainsi, dans une expérience type, de nombreux facteurs sont pris en compte. Les méthodes ANOVA sont préférables à plusieurs études sur deux groupes, à l'aide de tests t dans la mesure où la première méthode est plus efficace et nécessite moins d'observations pour obtenir davantage d'informations.

    Contrôle des facteurs. Supposons que dans l'exemple des deux groupes ci-dessus, nous introduisions un autre facteur de classement, par exemple, le Sexe. Imaginons que dans chaque groupe, nous avons 3 hommes et 3 femmes. Nous pourrions synthétiser ce plan dans une table 2 x 2 :

     

    Groupe Expérimental 1

    Groupe Expérimental 2

    Hommes

     

     

    2

    3

    1

    6

    7

    5

    Moyenne

    2

    6

    Femmes

     

     

    4

    5

    3

    8

    9

    7

    Moyenne

    4

    8

    Avant de nous lancer dans les calculs, il apparaît clairement que nous pouvons partitionner la variance totale en, au moins, 3 sources : (1) la dispersion de l'erreur (intra-groupe), (2) la dispersion imputable à l'appartenance au groupe expérimental, et (3) la dispersion imputable au sexe (effet de structure). (Notez qu'il existe une source supplémentaire -- interaction -- que nous aborderons brièvement).

    Que se serait-il passé si nous n'avions pas introduit le sexe comme facteur dans l'étude, et si nous avions simplement calculé un test t ? Si nous calculons la SC en ignorant le facteur sexe (utilisez les moyennes intra-groupes en ignorant ou en pondérant par le sexe ; le résultat serait SC=10+10=20), vous pouvez constater que la SC intra-groupe obtenue est supérieure à ce qu'elle serait en prenant en compte le facteur sexe (si vous utilisez les moyennes intra-groupe, intra-sexe pour calculer ces SC, vous allez obtenir 2 dans chaque groupe, et donc la SC-intra groupe sera égale à 2+2+2+2=8). Cette différence est imputable à des moyennes qui sont systématiquement inférieures chez les hommes par rapport à celles des femmes, et cette différence de moyennes ajoute de la dispersion si nous ignorons ce facteur. Contrôler la variance de l'erreur renforce la sensibilité (puissance) d'un test.

    Cet exemple met en évidence une raison supplémentaire pour préférer l'ANOVA à de simples tests t pour deux groupes : dans une ANOVA, nous pouvons tester chaque facteur tout en contrôlant les autres ; c'est en fait la raison pour laquelle l'ANOVA est statistiquement plus puissante (c'est-à-dire que nous avons besoin de moins d'observations pour trouver un effet significatif) que le simple test t.

    Effets d'Interactions

    L'ANOVA présente un autre avantage par rapport aux simples tests t  : elle nous permet en effet de détecter les interactions entre les variables, et donc, de tester des hypothèses plus complexes. Prenons un autre exemple pour illustrer ce point (le terme interaction a été initialement utilisé par Fisher, 1926).

    Effets principaux, interactions d'ordre deux. Imaginons que nous avons un échantillon d'étudiants très travailleurs et un autre de "paresseux". Séparons maintenant de façon aléatoire chaque échantillon en deux, et donnons à chacune des moitiés de l'échantillon un test difficile, et un test facile. Nous mesurons la manière dont les étudiants travaillent sur ce test. Les moyennes de cette étude (fictive) sont les suivantes :

     

    Travailleurs

    Paresseux

    Test Difficile

    10

    5

    Test Facile

    5

    10

    Comment pouvons-nous synthétiser ces résultats ? Est-il approprié de conclure que (1) les tests difficiles font plus travailler les étudiants travailleurs, (2) les étudiants travailleurs travaillent plus que les étudiants paresseux ? Aucune de ces affirmations ne synthétise clairement l'essentiel de cette structure des moyennes. En revanche, dire que les tests difficiles font plus travailler les étudiants travailleurs, tandis que les tests faciles ne font travailler que les paresseux semble plus correct. En d'autres termes, le type de prédisposition au travail et la difficulté du test interagissent dans leur effet sur les efforts ; plus précisément, il s'agit d'un exemple d'interaction d'ordre deux entre la prédisposition au travail et la difficulté du test. Notez que les déclarations 1 et 2 ci-dessus décrivent ce qu'on appelle les effets principaux.

    Interactions d'ordre supérieur. Si la précédente interaction d'ordre deux peut être formulée assez facilement, les interactions d'ordre supérieur deviennent de plus en plus difficiles à formaliser. Imaginons que nous avons introduit le facteur Sexe dans l'étude sur la réussite ci-dessus, et que nous ayons obtenu les moyennes suivantes  :

    Femmes

     

    Travailleuses

    Paresseuses

    Test Difficile

    Test Facile

    10

    5

    5

    10

    Hommes

     

    Travailleurs

    Paresseux

    Test Difficile

    Test Facile

    1

    6

    6

    1

    Comment pouvons nous synthétiser les résultats de notre étude ? L'ANOVA/MANOVA nous permet de produire simplement les tracés des moyennes de tous les effets ; ces graphiques aident à interpréter les effets complexes. La structure reportée ci-dessus représente une interaction d'ordre trois entre les facteurs.

    Ainsi, nous pouvons la synthétiser en disant que pour les femmes, il existe une interaction d'ordre deux entre la prédisposition au travail et la difficulté du test : les femmes prédisposées à travailler vont fournir plus d'efforts sur les tests difficiles que sur les tests faciles, et les femmes plutôt paresseuses vont travailler davantage sur les tests faciles. Pour les hommes, cette interaction est inversée. Comme vous pouvez le constater, la description des interactions est devenue beaucoup plus compliquée.

    Une manière générale d'exprimer les interactions. Une manière générale d'exprimer toutes les interactions est de dire qu'un effet est modifié (qualifié) par un autre effet. Essayons avec l'interaction d'ordre deux ci-dessus. L'effet principal de difficulté du test est modifié par la prédisposition au travail. Pour l'interaction d'ordre trois du paragraphe précédent, nous pouvons synthétiser en disant que l'interaction d'ordre deux entre la difficulté du test et la prédisposition au travail est modifiée (qualifiée) par le Sexe. Si nous avons une interaction d'ordre quatre, nous pouvons dire que l'interaction d'ordre trois est modifiée par la quatrième variable, c'est-à-dire qu'il existe différents types d'interactions aux différents niveaux (modalités) de la quatrième variable. Formulées ainsi, dans de nombreux domaines de recherche, il n'est pas rare d'avoir des interactions d'ordre cinq ou plus.

    Plans Multivariés

    Tous les exemples présentés jusqu'à présent n'ont impliqué qu'une seule variable dépendante. Bien que les calculs soient de plus en plus complexes, la logique et la nature des calculs ne change pas lorsque l'analyse comporte plusieurs variables dépendantes simultanément. Par exemple, nous pourrions mener une étude dans laquelle nous essayons deux manuels différents, et nous intéresser au perfectionnement des étudiants en mathématiques et en sciences physiques. Dans ce cas, nous avons deux variables dépendantes, et notre hypothèse stipule que les deux sont affectées par la différence entre les deux ouvrages pédagogiques. Nous pouvons alors réaliser une analyse de variance multivariée (MANOVA) afin de tester cette hypothèse. Au lieu d'un F univarié, nous obtiendrions un F multivarié (Lambda de Wilks) basé sur une comparaison de la matrice de variance-/covariance de l'erreur et de la matrice variance-/covariance de l'effet. La "covariance" est prise en compte puisque les deux mesures sont probablement corrélées et nous devons intégrer cette corrélation lorsque nous réalisons le test de significativité. Évidemment, si nous prenons la même mesure deux fois, nous n'apprendrons rien de nouveau. Si nous prenons une mesure corrélée, nous gagnerons certaines nouvelles informations, mais la nouvelle variable va également comporter des informations redondantes qui seront exprimées par la covariance entre les variables.

    Interprétation des résultats. Si le test multivarié global est significatif, nous pouvons conclure que l'effet respectif (dans notre exemple, l'ouvrage pédagogique) est significatif. Toutefois, la question suivante est, bien entendu, de savoir si seul le niveau en mathématiques s'est accru, ou uniquement le niveau en sciences physiques, ou bien les deux. En fait, après avoir obtenu un test multivarié significatif pour un effet principal ou une interaction particulière, nous devons examiner les tests F univariés pour chacune des variables afin d'interpréter l'effet respectif. En d'autres termes, nous devons identifier les variables dépendantes spécifiques qui contribuent à la significativité de l'effet global.

    Si nous mesurons les aptitudes en mathématiques et en sciences physiques au début et à la fin du semestre, nous avons une mesure répétée multivariée. À nouveau, la logique du test de significativité dans ces modèles est une simple extension du cas univarié. Notez que les méthodes MANOVA sont couramment utilisées pour tester la significativité des facteurs de mesures répétées univariées avec plus de deux niveaux ; cette application sera présentée dans les Hypothèses - Sphéricité et Symétrie Complexe.

    Modèle Linéaire Général. Notez que le module ANOVA/MANOVA Générale permet seulement un facteur intra-groupe (mesures répétées). Si votre plan possède de nombreux facteurs intra-groupes (mesures répétées), vous devez utiliser le Modèle Linéaire Général.

    Même les utilisateurs expérimentés des techniques ANOVA et MANOVA doivent souvent réfléchir aux différences de résultats obtenus par une MANOVA, par exemple, sur trois variables, et par une ANOVA univariée sur la somme des trois variables. La logique sous-jacente à la somme des variables est que chaque variable contient une part de "véritable" valeur de la variable en question, ainsi qu'une part d'erreur aléatoire. Par conséquent, en additionnant les variables, l'erreur de mesure va tendre vers 0 sur toutes les mesures, et le résultat de la somme va devenir de plus en plus fiable (en tendant vers la somme des véritables résultats). En fait, dans ces circonstances, l'ANOVA sur les sommes est appropriée et constitue une méthode très sensible (puissante).

    Toutefois, si la variable dépendante est réellement de nature multidimensionnelle, la sommation sera inappropriée. Par exemple, supposons que notre mesure dépendante soit constituée de quatre indicateurs de réussite dans la société, et que chaque indicateur représente une manière totalement indépendante par laquelle un individu pourrait y parvenir (par exemple, succès professionnel, succès d'entreprise, succès familial, etc...). Additionner les résultats de ces variables reviendrait à "ajouter des choux et des carottes", et le résultat de la somme obtenue ne serait pas un indicateur fiable d'une dimension unique sous-jacente. Par conséquent, il nous faudrait traiter ces données comme des indicateurs multivariés de succès dans une MANOVA.

    Analyse de Contraste et Tests Post-Hoc

    Pourquoi Comparer des Moyennes Individuelles ? Souvent, nous formulons nos hypothèses expérimentales de façon plus spécifique qu'en termes simples d'effets principaux ou interactions. Nous pouvons formuler l'hypothèse spécifique qu'un ouvrage pédagogique particulier va améliorer le niveau en mathématiques des hommes, mais pas celui des femmes, tandis qu'un autre manuel sera efficace quel que soit le sexe, mais globalement moins efficace pour les hommes. Nous pouvons donc conjecturer l'existence d'une interaction  : l'efficacité du manuel dépend du (est modifiée par le) sexe de l'individu. Nous avons une certaine hypothèse sur la nature de l'interaction : nous attendons une différence significative entre les sexes pour un ouvrage mais pas pour l'autre. Ce type de prévision spécifique est souvent testé par une analyse de contraste.

    Analyse de Contrastes. En bref, l'analyse de contrastes nous permet de tester la significativité statistique des différences spécifiques prévues sur certaines parties particulières de notre modèle complexe. Il s'agit d'une composante majeure et indispensable de l'analyse de tout modèle ANOVA complexe. L'ANOVA/MANOVA possède une fonction souple d'analyse de contrastes permettant à l'utilisateur de spécifier et d'analyser pratiquement tout type de comparaison (voir les Notes pour une description de la manière de spécifier des contrastes).

    Comparaisons post-hoc. Nous trouvons parfois dans nos expériences des effets inattendus. Même si, dans la plupart des cas, un expérimentateur créatif saura expliquer la plupart de ces structures de moyennes, il serait inopportun d'analyser et d'évaluer cette structure comme si nous l'avions prévue dès le départ. Le problème ici est que nous tirons parti de la chance lorsque nous effectuons plusieurs tests post-hoc, c'est-à-dire, sans hypothèse a priori. Pour illustrer ce point, considérons "l'expérience" suivante. Écrivons un nombre compris entre 1 et 10 sur 100 morceaux de papier. Plaçons ensuite ces papiers dans un chapeau et tirons 20 échantillons (morceaux de papier) constitués de 5 observations chacun, puis calculons les moyennes (des nombres écrits sur les morceaux de papier) de chaque groupe. Quelle chance pensez-vous avoir de trouver deux moyennes d'échantillons significativement différentes ? C'est très probable ! Si vous sélectionnez les moyennes extrêmes obtenues à partir des 20 échantillons, il est très différent de ne prendre que 2 échantillons dans le chapeau (ce qu'implique le test de l'analyse de contrastes). Sans entrer dans les détails, il existe des tests appelés Tests post-hoc basés sur le premier scénario (prendre les extrêmes des 20 échantillons), c'est-à-dire basés sur l'hypothèse que nous avons choisi pour notre comparaison les moyennes les plus extrêmes (différentes) sur un total de k moyennes dans le plan. Ces tests appliquent des "corrections" destinées à compenser l'avantage de la sélection post-hoc des comparaisons les plus extrêmes. L'ANOVA/MANOVA offre toute une gamme de tests. Dès que nous trouvons des résultats incorrects ou inattendus dans une expérience, il faut utiliser ces procédures post-hoc afin de tester leur significativité statistique.

    Notes et Informations Techniques

    Le module ANOVA/MANOVA est un développement du module Modèle Linéaire Général (voir Bock, 1975 ; Finn, 1974, 1977 ; Hays, 1981 ; Lindman, Merenda, et Gold, 1980). Le programme va tout d'abord calculer la matrice de variance/covariance intra-cellule des variables dépendantes (et covariants, voir ci-dessous). La matrice du plan des effets principaux et interactions (ou la matrice des coefficients de contrastes) est tout d'abord orthonormée (voir Bjorck, 1967), puis elle est utilisée pour calculer l'hypothèse des sommes des carrés (à partir des moyennes de cellules) et l'erreur des sommes des carrés (à partir de la matrice de variance/covariance intra-cellule). Si le plan comporte des covariants, ils sont ajoutés à la matrice de variance/covariance intra-cellule des variables dépendantes et traités comme tels ; avant le calcul des tests statistiques, les matrices d'hypothèse et d'erreur sont réduites (ajustées par les covariants) par l'intermédiaire de "sweeping" (Dempster, 1969). Ces procédures sont décrites en détail par Finn (1974, 1977).

    Le Modèle Linéaire Général. Ce modèle est traité de manière approfondie dans différentes sources. Citons en particulier Bock (1975) ; Finn (1974) ; Hocking et Speed (1975) ; Morrison (1967)  ; Timm (1975) ; ou Timm et Carlson (1973, 1975). Vous trouverez les techniques du module Modèle Linéaire Général (GLM) ; pour les méthodes similaires non-linéaires, voir le module Modèles Linéaires Généralisés (GLZ).

ANOVA Factorielle Simple avec Mesures Répétées

Appeler le module ANOVA. Pour démarrer une analyse ANOVA/MANOVA, sélectionnez la commande ANOVA depuis le menu Statistiques pour afficher la boîte de dialogue ANOVA/MANOVA Générale (Panneau de Démarrage).

Cette boîte de dialogue est utilisée pour spécifier des analyses très simples (par exemple, via l'ANOVA à un facteur - des plans avec un seul facteur inter-groupes) et des analyses beaucoup plus complexes (par exemple, via l'ANOVA Mesures répétées - des plans avec des facteurs inter-groupes et un facteur intra-sujet).

Plan. Pour cet exemple d'un plan 2 x 2 (inter) x 3 (mesures répétées), ouvrez le fichier de données Adstudy.sta. Ouvrez ce fichier à l'aide de la commande Ouvrir des Exemples du menu Fichier ; ce fichier se situe dans le répertoire Fichiers de Données. Sélectionnez l'option ANOVA Mesures répétées comme Type d'analyse et l'option Spécifications rapides comme Méthode de spécification, cliquez ensuite sur le bouton OK de la boîte de dialogue ANOVA/MANOVA Générale (Panneau de Démarrage) pour afficher la boîte de dialogue ANOVA/MANOVA - ANOVA Mesures Répétées.

Spécification du plan (variables). Le premier facteur (inter-groupes) est Sexe (avec 2 niveaux : Homme et Femme). Le second facteur (inter-groupes) est Pub (avec 2 niveaux : Pepsi et Coca). Les deux facteurs sont croisés, ce qui signifie qu'il existe deux sujets Homme et Femme dans les groupes Pepsi et Coca. Chacun de ces sujets a répondu à 3 questions (nous appellerons cette mesure répétée Réponse avec 3 niveaux, représentés par les variables Mesure1, Mesure2 et Mesure3).

Cliquez sur le bouton Variables (dans la boîte de dialogue ANOVA/MANOVA - ANOVA Mesures Répétées) pour afficher une boîte de dialogue standard de sélection de variables. Sélectionnez les variables Mesure1 à Mesure3 comme variables dépendantes (dans la Liste de vars dépendantes) et Sexe et Pub comme facteurs [dans la liste Prédicteurs catégoriels (facteurs)].

Puis cliquez sur le bouton OK pour retourner à la boîte de dialogue précédente.

Le plan de mesures répétées. Notez que le plan d'expériences que nous allons analyser peut être synthétisé ainsi :

 

Inter-Groupes

Inter-Groupes

Facteur de Mesures Répétées :

 Réponse

Facteur #1: Sexe

Facteur #2: Pub

Niveau #1: Mesure1

Niveau #2: Mesure2

Niveau #3: Mesure3

Sujet 1

Homme

Pepsi

9

1

6

Sujet 2

Homme

Coca

6

7

1

Sujet 3

Femme

Coca

9

8

2

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

Spécifier un facteur de mesures répétées. La sélection minimum nécessaire est maintenant complète et, si vous ne vous intéressez pas à la sélection du facteur de mesures répétées, vous pouvez cliquer sur le bouton OK et consulter les résultats de l'analyse. Toutefois, pour notre exemple, il faut spécifier que les trois variables dépendantes sélectionnées doivent être interprétées comme les trois niveaux d'un facteur de mesures répétées (intra-sujet). Si vous ne le faîtes pas, STATISTICA suppose qu'il s'agit de trois variables dépendantes "différentes" et exécute une MANOVA (c'est-à-dire, ANOVA multivariée).

Afin de définir le facteur de mesures répétées désiré, cliquez sur le bouton Effets intra pour afficher la boîte de dialogue Spécifiez les facteurs intra (mesures répétées).

Remarque : STATISTICA suggère la sélection d'un facteur de mesures répétées avec 3 niveaux (le nom par défaut est R1). Vous ne pouvez spécifier qu'un seul facteur intra-groupes (mesures répétées) dans cette boîte de dialogue. Pour spécifier plusieurs facteurs intra-groupes, utilisez le module Modèle Linéaire Général (disponible dans le produit complémentaire Modèles Linéaires/Non-Linéaires Avancés). Appuyez sur la touche F1 (ou cliquez sur le bouton ) dans cette boîte de dialogue pour une présentation complète des plans de mesures répétées et des exemples. Éditez le nom du facteur (par exemple, modifiez R1 par défaut en RÉPONSE), et cliquez sur le bouton OK pour quitter la boîte de dialogue.

Codes (définir les niveaux) pour les facteurs inter-groupes. Vous n'avez pas besoin de spécifier manuellement les codes des facteurs inter-groupes [par exemple, instruire STATISTICA que la variable Sexe possède deux niveaux : 1 et 2 (ou Homme et Femme)] sauf si vous ne souhaitez pas que STATISTICA utilise, par défaut, tous les codes rencontrés dans les variables de groupe sélectionnées dans le fichier de données. Pour saisir des sélections personnalisées de codes, cliquez sur le bouton Codes facteurs pour afficher la boîte de dialogue Codes des vars indépendantes (facteurs).

Cette boîte de dialogue contient diverses options. Par exemple, vous pouvez étudier les valeurs des variables individuelles avant de faire vos sélections en cliquant sur le bouton Zoom, étudiez le fichier et complétez les champs d'édition des codes (par exemple, Sexe et Pub) pour quelques variables individuelles ou toutes les variables, etc. Pour l'instant, cliquez sur le bouton OK  ; STATISTICA remplit automatiquement les champs d'édition de codes avec toutes les valeurs distinctes rencontrées dans les variables sélectionnées,

puis ferme la boîte de dialogue.

Réalisation de l'analyse. Lorsque vous cliquez sur le bouton OK dans la boîte de dialogue ANOVA/MANOVA - ANOVA Mesures Répétées, l'analyse s'exécute, et la boîte de dialogue ANOVA - Résultats s'affiche. Divers types de feuilles de données de sortie et graphiques sont maintenant disponibles.

Remarque : cette boîte de dialogue est constituée d'onglets, vous permettant de localiser rapidement les options des résultats. Par exemple, si vous voulez souhaitez réaliser des comparaisons planifiées, cliquez sur l'onglet Comps. Pour étudier les statistiques des résidus, cliquez sur l'onglet Résidus. Pour ce simple exemple, nous utiliserons seulement les options de résultats disponibles dans l'onglet Base.

Étude des résultats de l'ANOVA. Commencez par observer la table de synthèse de tous les effets de l'ANOVA en cliquant sur le bouton Tous effets (celui avec l'icône SUMM ).

Dans cette analyse, le seul effet (en ignorant l'Ordonnée à l'origine) qui soit statistiquement significatif (p =.007) est l'effet RÉPONSE. La raison de ce résultat peut provenir de beaucoup de structures de moyennes possibles pour l'effet RÉPONSE (pour davantage d'information, voir la rubrique ANOVA - Introduction). Nous allons maintenant observer graphiquement les moyennes marginales de cet effet pour voir ce qu'il signifie.

Pour revenir à la boîte de dialogue ANOVA - Résultats (c'est-à-dire, "reprendre" l'analyse), appuyez sur les touches CTRL+R, sélectionnez la commande Reprendre l'Analyse depuis le menu Statistiques, ou bien cliquez sur le bouton ANOVA - Résultats dans la barre d'Analyse. Quand la boîte de dialogue ANOVA - Résultats est affichée, cliquez sur le bouton Tous effets/Graphs pour étudier les moyennes des effets individuels.

Cette boîte de dialogue est constituée d'une Table de Tous les Effets de synthèse (avec l'information essentielle de la feuille de données Tous effets) et on peut étudier les effets individuels à partir de cette table sous la forme de tracés de moyennes respectives (ou, en option, des feuilles de données des valeurs de moyennes respectives).

Tracé des Moyennes d'un Effet Principal. Effectuez un double-clic sur l'effet principal significatif RÉPONSE (celui marqué d'un astérisque dans la colonne p) pour voir le tracé respectif.

Le graphique indique qu'il y a une tendance nette à la diminution ; les moyennes des trois questions consécutives sont graduellement inférieures. Même s'il n'y a pas d'interactions significatives dans ce plan (voir la présentation de la Table de Tous les Effets ci-dessus), nous allons regarder l'interaction d'ordre élevé pour étudier la consistance de cette forte tendance à la baisse entre les facteurs inter-groupes.

Tracé des moyennes pour une interaction d'ordre trois. Pour afficher le tracé d'interaction d'ordre élevé, effectuez un double-clic dans la ligne intitulée RÉPONSE*SEXE*PUB, représentant l'interaction entre les facteurs 1 (Sexe), 2 (Pub), et 3 (Réponse), dans la boîte de dialogue Table de Tous les Effets. Une boîte de dialogue intermédiaire, Spécifiez l'organisation des facteurs dans le tracé, est affichée, elle peut être utilisée pour personnaliser l'organisation par défaut des facteurs dans le graphique.

Remarque : contrairement au tracé précédent pour un seul facteur, l'effet courant peut être visualisé de différentes façons. Cliquez sur le bouton OK pour accepter l'organisation par défaut et produire le tracé des moyennes.

Comme vous pouvez le constater, cette structure de moyennes (séparée par les niveaux de facteurs inter-groupes) n'indique aucun écart net de la structure générale révélée par le premier tracé (pour l'effet principal, RÉPONSE). Maintenant vous pouvez continuer à examiner interactivement d'autres effets ; exécutez les comparaisons post-hoc, les comparaisons planifiées et les diagnostics étendus ; etc., pour explorer davantage les résultats.

Analyse interactive des données dans STATISTICA. Ce simple exemple illustre la façon avec laquelle STATISTICA autorise des analyses interactives de données. Vous n'êtes pas obligé de spécifier toutes les sortie à générer avant de voir les résultats. Même des plans d'analyse simples peuvent, évidemment, produire de grande quantités de sorties et d'innombrables graphiques, mais habituellement vous ne pouvez pas savoir ce qui sera intéressant avant d'avoir pu étudier la sortie initiale. Avec STATISTICA, vous pouvez sélectionner des types de sorties spécifiques, conduire interactivement des tests de suivi, et exécuter des analyses supplémentaires "quoi-si" après traitement des données et étude des premières sorties. Les procédures de calcul flexibles de STATISTICA et une large sélection d'options utilisée pour visualiser toute combinaison de valeurs à partir de sorties numériques offrent des méthodes infinies d'exploration de vos données et de vérification des hypothèses.

Automatisation des analyses (macros et STATISTICA Visual Basic). Toutes les sélections réalisées au cours de l'analyse de données interactive (y compris la spécification des plans et le choix des options de sorties) sont automatiquement enregistrées en code Visual Basic. Vous pouvez enregistrer de telles macros pour un usage répété (vous pouvez aussi les affecter à des boutons de la barre d'outils, les modifier ou les éditer, les combiner avec d'autres programmes, etc.). Pour plus d'informations, voir la rubrique STATISTICA Visual Basic.

Un Modèle ANOVA 2 x 3 Inter-Groupes

Fichier de Données. Cet exemple, basé sur des données fictives reportées dans l'ouvrage de Lindman (1974), débute par l'analyse élémentaire d'un plan factoriel complet inter-groupes 2 x 3.

Supposez que vous avez conduit une expérience visant à traiter de la question des comportements innés ou acquis ; plus précisément, vous avez testé les performances de différents rats dans un "labyrinthe en T". Le labyrinthe en T est un labyrinthe élémentaire, dans lequel la tâche du rat consiste à retrouver directement la nourriture placée en un endroit particulier, sans commettre d'erreurs. Trois lignées de rats servent pour cette expérience avec des capacités générales classées en trois catégories (lignées) pour résoudre le problème du labyrinthe en T : Brillant, Mixte et Mauvais. Pour chacune de ces lignées, 4 animaux ont été élevés en liberté, dans un environnement stimulant (libre) et 4 autres en captivité (cage). La mesure dépendante est le nombre d'erreurs commises par chaque rat pour résoudre le problème du labyrinthe en T.

Les données de cette étude sont disponibles dans le fichier d'exemple Rats.sta. Ouvrez ce fichier de données en utilisant la commande Ouvrir des Exemples du menu Fichier (menus classiques) ou en sélectionnant la commande Ouvrir des Exemples dans le menu Ouvrir de l'onglet Accueil (ruban) ; ce fichier se situe dans le répertoire Fichiers de Données. Ci-dessous, un extrait de ce fichier de données :

Spécification de l'Analyse. Démarrez l'analyse ANOVA :

Menus classiques. Sélectionnez la commande ANOVA dans le menu Statistiques.

Ruban. Sélectionnez l'onglet Statistiques, puis dans le groupe Base, cliquez sur le bouton ANOVA.

La boîte de dialogue ANOVA/MANOVA Générale (Panneau de Démarrage) apparaît et vous permet de définir les spécifications du modèle.

Spécification du plan. Dans la boîte de dialogue ANOVA/MANOVA Générale (Panneau de Démarrage), sélectionnez l'option ANOVA Factorielle comme Type d'analyse et l'option Spécifications Rapides comme Méthode de spécification. Cliquez ensuite sur le bouton OK afin d'accéder à la boîte de dialogue ANOVA/MANOVA - ANOVA Factorielle. Il s'agit d'un plan d'expériences factoriel inter-groupes 2 (Élevage) par 3 (Lignée).

Cliquez à présent sur le bouton Variables pour afficher une boîte de dialogue standard de sélection de variables. Sélectionnez la variable Erreurs dans la Liste de variables dépendantes et les variables Élevage et Lignée comme Prédicteurs catégoriels (facteurs), puis cliquez sur le bouton OK.

Spécifiez les codes utilisés pour identifier l'appartenance de chaque observation aux différents groupes ; pour ce faire, cliquez sur le bouton Codes facteurs et saisissez les différents codes pour chaque variable ou cliquez sur le bouton Tous pour chaque variable afin d'utiliser tous les codes disponibles de la variable correspondante. Cliquez enfin sur le bouton OK. La boîte de dialogue ANOVA/MANOVA - ANOVA Factorielle doit maintenant apparaître comme suit :

Étude des Résultats. Cliquez sur le bouton OK pour démarrer l'analyse. La boîte de dialogue ANOVA - Résultats apparaît.

Cliquez à présent sur le bouton Tous effets/Graphs pour afficher la table de tous les effets.

Table de synthèse de l'ANOVA. Ce tableau fournit une synthèse des principaux résultats de l'analyse. Remarquez : les effets significatifs (p<0,05) apparaissent en surbrillance dans cette table et sont matérialisés par un astérisque (*). Vous pouvez modifier le seuil de significativité (pour la surbrillance) en saisissant la valeur alpha désirée dans le champ d'édition Niveau de significativité dans l'onglet Base. Les deux effets principaux (Élevage et Lignée) sont statistiquement significatifs (p<0,05) tandis que leur interaction d'ordre 2 ne l'est pas (p>0,05).

Étude des moyennes marginales. Étudions à présent les moyennes marginales de l'effet principal Élevage (les moyennes marginales sont calculées comme les moyennes des moindres carrés). Sélectionnez l'effet principal Élevage et le bouton d'option Feuille de données dans le cadre Représenter; puis cliquez sur le bouton OK pour produire la feuille de données des moyennes marginales pour l'effet sélectionné.

Le graphique par défaut de toutes les feuilles de données avec des moyennes marginales est un tracé de moyennes avec barres d'erreur. Dans notre cas, le tracé est très simple. Pour produire ce tracé des deux moyennes (élevage libre et en cage), retournez à la boîte de dialogue Table de Tous les Effets (en cliquant sur le bouton Tous effets/Graphs de l'onglet Base), sélectionnez le bouton d'option Graphique dans le cadre Représenter, puis cliquez à nouveau sur le bouton OK.

Il apparaît que les rats élevés en captivité (cage) commettent davantage d'erreurs que les rats élevés en liberté (libre). Examinons à présent toutes les moyennes simultanément, c'est-à-dire dans le tracé d'interaction Élevage par Lignée.

Étude du tracé d'interaction. Revenez à nouveau dans la boîte de dialogue Table de Tous les Effets et sélectionnez cette fois l'interaction (Élevage*Lignée). Lorsque vous cliquez sur le bouton OK, la boîte de dialogue Arrangement des Facteurs apparaît :

Comme vous pouvez le constater, vous pouvez contrôler la manière dont les facteurs sont représentés dans l'interaction. Ici, sélectionnez le facteur Lignée pour l'axe x, supérieur et le facteur Élevage comme Motif de ligne (voir ci-dessus), puis cliquez sur le bouton OK pour produire le graphique des moyennes.

Le graphique ci-dessous synthétise parfaitement les résultats de notre étude, c'est-à-dire la structure des deux effets principaux. Les rats élevés en cage (droite en pointillés) commettent davantage d'erreurs que ceux élevés en liberté (ligne continue). Dans le même temps, nous constatons que les rats issus d'une Mauvaise lignée commettent davantage d'erreurs que les rats issus d'une lignée Mixte, et que les rats issus d'une lignée Brillante commettent le moins d'erreurs.

Comparaisons Post-hoc des Moyennes. À l'examen du tracé ci-dessus, nous pouvons nous demander si la lignée de rats Mixte est significativement différente de la lignée Mauvaise et Brillante. Toutefois, nous n'avons aucune hypothèse a priori, c'est pourquoi nous utiliserons des comparaisons post-hoc pour tester les différences de moyennes entre les lignées de rats (voir l'Introduction pour une explication de la logique des tests post-hoc).

Spécifier les tests post-hoc. Retournez à la boîte de dialogue ANOVA - Résultats, cliquez sur le bouton Autres résultats pour accéder à une boîte de dialogue ANOVA - Résultats plus grande, puis cliquez sur l'onglet Post-hoc. Dans cet exemple, sélectionnez de comparer les moyennes marginales (non pondérées) pour l'effet Lignée dans la liste déroulante Effet.

Choisir un test. Les différents tests post-hoc de cette boîte de dialogue vous permettent d'éviter, dans une certaine mesure, de tirer parti de la chance (en raison de la nature post-hoc des comparaisons ; voir la rubrique ANOVA/MANOVA Introduction - Analyse de Contrastes et Tests Post-Hoc). Tous les tests vous permettent de comparer les moyennes sans hypothèse a priori. Ces tests sont présentés dans le cadre de l'onglet Post-hoc. Pour le moment, sélectionnez le bouton d'option Groupes homogènes et cliquez sur le bouton Scheffé.

Dans cette table, les moyennes sont triées de la plus petite à la plus grande, et les moyennes qui ne sont pas significativement différentes les unes des autres sont représentées par quatre "étoiles" (*) dans la même colonne (c'est-à-dire qu'elles forment un groupe de moyennes homogènes) ; toutes les moyennes qui n'ont pas plusieurs étoiles dans la même colonne sont significativement différentes les unes des autres. Ainsi, conformément aux résultats de Winer, Brown et Michels (1991, p. 528), les seules moyennes significativement différentes les unes des autres sont les moyennes du groupe 1 (Brillant) et du groupe 3 (Mauvais). Vous pouvez donc en conclure que la lignée de Mauvais rats fait significativement plus d'erreurs que la lignée de rats Brillant, tandis que la lignée Mixte n'est pas significativement différente des deux autres.

Tests d'Hypothèses. La rubrique ANOVA/MANOVA et Modèle Linéaire Général - Introduction - Hypothèses et Conséquences de la Violation des Hypothèses rappelle les hypothèses préalables à l'utilisation des techniques d'ANOVA. Nous allons à présent vérifier ces hypothèses sur les données de notre exemple. Retournez à la boîte de dialogue ANOVA - Résultats et cliquez sur l'onglet Hypothèses dans lequel sont proposés différents tests et graphiques ; certains ne s'appliquent qu'à des modèles plus complexes.

Distribution de la variable dépendante. L'ANOVA suppose une distribution normale de la variable dépendante (intra-groupe). Vous pouvez voir la distribution de tous les groupes combinés, ou seulement d'un groupe particulier en sélectionnant le groupe dans la liste déroulante Effet. Pour le moment, sélectionnons l'interaction Élevage*Lignée et cliquons sur le bouton Histogrammes dans le cadre Distrib. des variables par groupes. La boîte de dialogue Sélectionnez les groupes apparaît alors et vous permet de sélectionner l'affichage de la distribution de tous les groupes combinés, ou seulement d'un groupe particulier.

Dans cet exemple, contentons-nous de cliquer sur le bouton OK pour accepter la sélection par défaut (Tous Grpes) et produire l'histogramme de la distribution.

Il apparaît que la distribution des groupes est multimodale, c'est-à-dire qu'elle possède plusieurs "pics". Nous aurions pu nous en douter compte tenu de l'existence d'effets principaux significatifs. Pour tester l'hypothèse d'homogénéité, vous pouvez examiner la distribution individuelle des groupes.

Dans cet exemple, nous allons tester une violation potentiellement plus grave des hypothèses de l'ANOVA.

Corrélation entre les moyennes et les écarts-types. Comme nous l'avons mentionné dans l'Introduction, l'écart à la normalité n'est pas le seul "ennemi" de la validité d'une ANOVA ; le "piège" le plus important consiste à baser les interprétations d'un effet sur une cellule "extrême" du plan, avec une dispersion beaucoup plus importante que la dispersion moyenne. En d'autres termes, lorsque les moyennes et les écarts-types sont corrélés entre les cellules du plan, la performance (taux d'erreur alpha) du test F se détériore de façon importante et vous pouvez rejeter l'hypothèse nulle au seuil p<0,05 quand bien même la valeur réelle de p serait de 0,50 !

Examinez maintenant la corrélation entre les 6 moyennes et écarts-types du plan. Vous pouvez choisir de représenter les moyennes en fonction des écarts-types ou des variances en cliquant sur le bouton respectif (respectivement Tracé moyennes selon écarts-types et Variances) dans l'onglet Hypothèses. Pour cet exemple, cliquez sur le bouton Tracé des moyennes en fonction des écarts-types.

Remarque : dans l'illustration ci-dessus, nous avons ajouté les limites de régression grâce aux boîtes de dialogue Options du Graphique - onglet Tracé - Ajustement et Options du Graphique - onglet Tracé - Bandes de Régr.. Les moyennes et les écarts-types apparaissent en effet assez fortement corrélés dans ce plan. Si nous devions prendre une décision importante dans cette étude, il serait judicieux de vérifier la structure des effets principaux significatifs en utilisant, par exemple, certaines procédures non-paramétriques (voir le module Tests Non-Paramétriques) qui ne dépendent pas des résultats bruts (et des variances) mais en revanche des rangs. Dans tous les cas, vous devrez interpréter ces résultats avec la plus grande prudence.

Homogénéité des variances. Vérifiions à présent l'homogénéité des variances. Dans l'onglet Hypothèses, divers tests sont disponibles dans le cadre Homogénéité des variances/covariances. Vous pouvez utiliser un test univarié (Cochran C, Hartley, Barlett) pour calculer le test standard d'homogénéité des variances, ou le Test de Levene, mais aucun ne donnera de résultats statistiquement significatif. Ci-dessous, la feuille de données du Test de Levene d'Homogénéité des Variances.

Synthèse. Outre le fait d'illustrer certaines des fonctionnalités du module ANOVA/MANOVA, cette analyse a permis de mettre en évidence l'importance de la représentation graphique des données (par exemple, pour produire un nuage de points des moyennes selon les écarts-types). Si vous n'aviez examiné que les tests F de significativité et les tests standard d'homogénéité de variances, vous n'auriez pas prêté attention aux violations potentiellement sérieuses des hypothèses, que nous avons pu détecter dans le nuage de points des moyennes selon les écarts-types. Sans examen plus approfondi, vous auriez pu conclure que les effets des facteurs d'environnement (Élevage) et génétiques (Lignée) semblent tous deux avoir un effet (additif) sur la performance au test du labyrinthe en T. Toutefois, nous devons étudier nos données plus avant à l'aide de méthodes non-paramétriques afin de nous assurer que les niveaux de significativité statistique (p) de l'ANOVA ne sont pas exagérés.

Un Modèle Inter-Groupes à 2-Niveaux x Intra-Sujet à 4-Niveaux

Introduction. L'exemple suivant illustre la manière de configurer un plan avec des mesures répétées. L'utilisation des procédures de tests post-hoc sera démontrée, et une synthèse graphique des résultats sera produite. De plus, les tests univariés et multivariés seront calculés.

Problématique

Introduction. Cet exemple est basé sur des données (fictives) reportées dans l'ouvrage de Winer, Brown, et Michels (1991, Table 7.7). Supposez que vous vous intéressez à l'impact de différents facteurs sur la capacité de personnes à effectuer un réglage fin au cours du temps. Par exemple, les opérateurs dans des processus industriels complexes ont constamment besoin de lire (et traiter) divers appareils et ajuster les machines (cadran) en conséquence. Dans cette étude (fictive), deux méthodes de calibration de cadrans ont été examinées, et chaque sujet a été testé avec 4 formes de cadrans différentes.

Le plan obtenu est une analyse de variance 2 (Facteur A  : Méthode de calibration ; avec 2 niveaux) par 4 (Facteur B : Quatre formes différentes de cadrans). Ce dernier facteur est un facteur intra-sujet ou de mesures répétées parce qu'il représente des mesures répétées sur les mêmes sujets ; le premier facteur est un facteur inter-groupes parce que les sujets sont affectés aléatoirement pour travailler sous une Méthode de calibration ou une autre.

Fichier de données. La configuration du fichier de données pour une analyse de mesures répétées est simple : Le facteur inter-groupes (Méthode de calibration) peut être spécifié préalablement à l'expérience, c'est-à-dire que nous pouvons créer une variable contenant les codes identifiant de façon unique à quelle condition expérimentale chaque individu appartient. Chaque mesure répétée constitue une variable différente. Ci-dessous, un extrait du fichier de données Accuracy.sta.

Spécification du Plan. Ouvrez le fichier de données Accuracy.sta, puis sélectionnez l'analyse ANOVA/MANOVA Générale.

Ci-dessous, les instructions pour ouvrir le fichier de données depuis le ruban et à l'aide des menus classiques.

Ruban. Sélectionnez l'onglet Accueil. Dans le groupe Fichier, sélectionnez la commande Ouvrir des Exemples du menu Ouvrir afin d'accéder à la boîte de dialogue Ouvrir un Fichier de Données STATISTICA. Double-cliquez sur le dossier Fichiers de données, puis ouvrez le fichier de données.

Ouvrez ensuite l'onglet Statistiques. Dans le groupe Base, cliquez sur le bouton ANOVA afin d'accéder à la boîte de dialogue ANOVA/MANOVA Générale.

Menus classiques. Ouvrez le fichier de données à l'aide de la commande Ouvrir des Exemples du menu Fichier afin d'accéder à la boîte de dialogue Ouvrir un Fichier de Données STATISTICA. Le fichier de données se situe dans le dossier Fichiers de données.

Sélectionnez ensuite la commande ANOVA dans le menu Statistiques afin d'accéder à la boîte de dialogue ANOVA/MANOVA Générale.

Dans le Panneau de Démarrage, sélectionnez l'option ANOVA Mesures répétées comme Type d'analyse et l'option Spécifications rapides comme Méthode de spécification ; ensuite cliquez sur le bouton OK (voir l'Introduction pour différentes méthodes de spécification des plans). Dans la boîte de dialogue ANOVA/MANOVA Mesures Répétées, cliquez sur le bouton Variables pour afficher la boîte de dialogue standard de sélection de variable. Là, sélectionnez les variables B1 à B4 comme Liste de vars dépendantes et la Variable 1 (A) comme prédicteurs catégoriels (facteurs) puis cliquez sur le bouton OK. Ensuite, cliquez sur le bouton Codes facteurs et sélectionnez les codes (1 et 2) pour la variable indépendante en cliquant sur le bouton Tous puis validez votre sélection en cliquant sur le bouton OK dans la boîte de dialogue Codes des vars indépendantes (facteurs).

Spécifier les facteurs de mesures répétées. Cliquez à présent sur le bouton Effets intra pour afficher la boîte de dialogue Spécifiez le facteur intra-groupes. Appelez le facteur de mesures répétées B (dans le champ Nom du Facteur) et spécifiez 4 comme Nombre de niveaux. À la lecture des données STATISTICA parcoure la liste des variables dépendantes, et leur affecte la représentation des niveaux consécutifs du facteur de mesures répétées. Voir la rubrique ANOVA/MANOVA - ANOVA/MANOVA Générale et GLM - Notes - Spécifier des Plans Intra-Sujets Univariés et Multivariés pour plus d'informations sur la manière de spécifier des facteurs de mesures répétées.

Cliquez à présent sur le bouton OK afin de fermer cette boîte de dialogue, et à nouveau sur le bouton OK dans la boîte de dialogue ANOVA/MANOVA Mesures Répétées pour démarrer l'analyse.

Étude des Résultats. La boîte de dialogue Résultats contient toutes les options pour étudier les résultats de l'expérience en détail.

Regardons tout d'abord la table de synthèse Tous effets/Graphiques (cliquez sur le bouton Tous effets/Graphs dans l'onglet Base).

Sélectionnez l'Effet B*A comme indiqué ci-dessus (même si cet effet n'est pas statistiquement significatif), et cliquez sur le bouton OK  ; cliquez aussi sur le bouton OK en réponse à la boîte d'information sur l'arrangement des facteurs pour les aspects du graphique (nous accepterons le paramétrage par défaut dans la boîte de dialogue Arrangement des Facteurs).

Il apparaît que la structure des moyennes entre les niveaux du facteur B de mesures répétées est approximativement la même dans les deux conditions A1 et A2. Toutefois, il semble y avoir une différence particulièrement forte entre les deux méthodes pour le cadran B4, où les barres de confiance pour les moyennes ne se recouvrent pas.

Comparaisons planifiées. Examinons ensuite les différences entre les moyennes pour B4. Cliquez sur l'onglet Comps (comparaisons), et ensuite cliquez sur le bouton Contrastes des moy. MC pour spécifier les contrastes des moyennes des moindres carrés. Notez que les moyennes des moindres carrés ainsi appelées représentent le meilleur estimateur des moyennes mu de la population, étant donné notre modèle courant ; par conséquent, STATISTICA réalise les contrastes de comparaisons planifiées basés sur les moyennes des moindres carrés ; toutefois, dans ce cas il n'est pas si important puisque c'est un plan complet où les moyennes des moindres carrés sont normalement identiques aux moyennes observées.

Nous nous intéressons à la comparaison de la méthode A1 avec la méthode A2, pour le cadran B4 seulement. Donc dans la boîte de dialogue Spécifiez les Contrastes du Facteur pour spécifier le contraste du facteur A, sélectionnez les coefficients du contraste comme suit :

Cliquez sur le bouton OK et dans la plus grande boîte de dialogue Spécifiez les Contrastes du Facteur, réglez tous les coefficients sur 0 (pour ignorer les moyennes respectives dans la comparaison), sauf B4.

Voir la rubrique ANOVA/MANOVA Générale et GLM - Notes - Spécifier des Plans Univariés et Multivariés Inter-Groupes pour plus d'informations sur la logique des comparaisons planifiées.

Cliquez à présent sur le bouton OK, puis sur le bouton Calculer dans l'onglet Comps. Voici les résultats.

Il apparaît que, comme c'était évident dans le tracé des moyennes plus tôt, les deux moyennes sont significativement différentes les unes des autres.

Tests Post-Hoc. Puisque nous n'avons pas d'hypothèses a-priori sur la structure des moyennes dans cette expérience, le contraste a priori, basé sur notre examen de la structure des moyennes, n'est pas "équitable". Comme cela est décrit dans l'Introduction, la méthode de comparaison planifiée mise sur la chance quand on compare seulement ces moyennes qui peuvent être les plus différentes (dans une étude de, par exemple, 2*4=8 moyennes comme dans cette étude).

Pour calculer les tests post-hoc, cliquez sur le bouton Autres résultats afin d'accéder à une boîte de dialogue de Résultats plus grande et plus complète. Là, cliquez sur l'onglet Post-hoc, sélectionnez l'effet B*A (c'est-à-dire, l'interaction B par A) dans la liste déroulante Effet, sélectionnez le bouton d'option Différences significatives comme format d'affichage dans le cadre Affichage, puis cliquez sur le bouton Bonferroni.

Comme vous pouvez le constater, en utilisant cette méthode plus conservatrice pour tester la significativité statistique des différences de moyennes, les deux cadrans B4, pour les différents niveaux de A ne sont pas très différents.

Vous trouverez davantage d'informations sur les tests post-hoc dans la rubrique Tests post-hoc dans GLM, GRM, et ANOVA ; remarque : en testant les moyennes dans une interaction d'effets inter-groupes et intra-graoupes (mesures répétées), il existe différentes façons (options de STATISTICA) d'estimer le terme d'erreur correct de la comparaison. Ces termes sont présentés dans la rubrique Terme d'erreur pour les tests post-hoc dans GLM, GRM, et ANOVA ; voir aussi Winer, Brown, et Michel (1991, p. 529-531) pour une présentation des MC Groupées reportée dans cette feuille de données.

Tester l'effet principal B. Winer, Brown, et Michels (1991, Table 7.10) synthétisent les résultats utilisés par la procédure de Newman-Keuls pour tester les différences dans l'effet principal B. Pour calculer ces tests, dans l'onglet Post-hoc, sélectionnez comme Effet l'effet principal B, puis sélectionnez le bouton d'option Groupes homogènes dans le cadre Affichage, et cliquez sur le bouton Newman-Keuls.

Dans cette table, les moyennes sont triées de la plus petite à la plus grande, et les moyennes qui ne sont pas significativement différentes les unes des autres ont quatre "étoiles" (*) dans la même colonne (c'est-à-dire, ils forment un groupe de moyennes homogène) ; toutes les moyennes qui ne partagent pas d'étoiles dans la même colonne sont significativement différentes les unes des autres. Ainsi, et comme discuté dans Winer, Brown, et Michels (1991, p. 528), les seules moyennes significativement différentes les unes des autres sont les moyennes pour B2 vs. B4 et B3, et B1 depuis B4 et B3.

Approche Multivariée. Dans les rubriques Introduction et Notes, les hypothèses spéciales d'ANOVA univariée de mesures répétées sont présentées. Dans certaines disciplines scientifiques, l'approche multivariée pour une ANOVA mesures répétées avec plus de deux niveaux est rapidement devenue la seule voie acceptée pour l'analyse de plans de ce type. C'est parce que l'approche multivariée ne repose pas sur l'hypothèse de sphéricité ou symétrie composée (voir la rubrique Hypothèses - Sphéricité et Symétrie Composée).

En résumé, l'ANOVA univariée de mesures répétées suppose que les changements entre niveaux ne sont pas corrélés entre les sujets. Cette hypothèse est très suspecte dans beaucoup de cas. Dans le présent exemple, il est très concevable que les sujets qui se sont beaucoup améliorés entre le temps (cadran) 1 et le temps (cadran) 2 ont atteint un plafond dans leur précision, et se sont moins améliorés entre le temps (cadran) 2 et les temps (cadran) 3 ou 4. Étant donné la suspicion de violation d'hypothèse de sphéricité pour l'ANOVA univariée, regardez les statistiques multivariées.

Dans l'onglet Synthèse, sélectionnez tous les types de Tests multivariés (cochez toutes les options du cadre Tests multivariés), puis cliquez sur le bouton Tests multivariés dans le cadre Effets intra.

Dans ce cas, le même effet (B) est toujours statistiquement significatif. Notez que vous pouvez aussi appliquer les corrections de Greenhouse-Geisser et Huynh-Feldt dans ce cas sans changer cette structure de résultats (voir aussi la rubrique Synthèse des Résultats pour les Effets Intra dans le GLM et ANOVA pour une présentation de ces tests).

Synthèse. Pour une synthèse, ces analyses suggèrent que les facteurs A (Méthode) et B (Cadrans) contribuent significativement à la précision des sujets. Il n'y pas d'interaction évidente entre les deux facteurs.

Didacticiels

Vous pouvez visionner l'intégralité de la série de tutoriels Le Data Mining en 35 Leçons avec STATISTICA en remplissant le formulaire d'inscription. Vous serez alors notifié(e) automatiquement de la disponibilité des nouveaux épisodes et recevrez d'autres informations utiles.

StatSoft propose par ailleurs une série de didacticiels et présentations interactives décrivant pas-à-pas différentes opérations que vous pouvez réaliser à l'aide de STATISTICA. Si vous souhaitez voir aborder un thème particulier, merci de nous écrire.