Partager :

Concepts Fondamentaux en Statistique


Modèles Linéaires/Non-Linéaires Avancés :

Modèle Linéaire Général


Sommaire :


Introduction

Le module GLM propose un ensemble complet de techniques pour analyser tous les plans univariés ou multivariés d'Analyse de Variance (ANOVA), régression ou Analyse de Covariance (ANCOVA). Le Modèle Linéaire Général utilise les méthodes des moindres carrés du modèle linéaire général pour estimer et tester les hypothèses sur ces effets. Plusieurs modules de STATISTICA permettent de réaliser des ANOVA pour des plans factoriels ou spécialisés. Pour une présentation de ces modules et les types de plans pour lesquels ils sont les mieux adaptés, consultez les Méthodes d'Analyse de la Variance. Le module GLM peut analyser des plans, quel que soit le nombre ou le type d'effets. Notez que STATISTICA contient également un module Modèles Généraux de Régression (GRM), offrant nombre d'options du GLM, avec en outre diverses techniques de construction de modèles, y compris la régression pas-à-pas ascendante et descendante et la régression par recherche exhaustive (du meilleur modèle).

Les rubriques introductives ci-dessous décrivent l'utilisation du modèle linéaire général dans un grand nombre d'analyses statistiques. Si vous n'êtes pas familiarisé(e) avec les méthodes élémentaires d'ANOVA et de régression pour les modèles linéaires, vous pouvez consulter les concepts élémentaires dans la rubrique Concepts Statistiques Élémentaires. Vous trouverez également dans l'Introduction du module ANOVA/MANOVA, une présentation détaillée des techniques ANOVA univariées et multivariées.

Idées Générales : Analyse de Variance et Covariance (ANOVA/MANOVA)

Principes Fondamentaux du Modèle Linéaire Général

Les rubriques suivantes rappellent les fondements historiques, mathématiques et les calculs du modèle linéaire général. Pour une introduction aux techniques d'ANOVA (MANOVA, ANCOVA), consultez l'Introduction du module ANOVA/MANOVA ; pour une introduction à la régression multiple, voir l'Introduction du module Régression Multiple; pour une introduction aux plans d'expériences, voir aussi l'Introduction du module Plans d'Expériences.

Autres rubriques de l'Introduction au Modèle Linéaire Général

Historique

Vous trouverez dans l'Introduction du module ANOVA/MANOVA, une présentation détaillée des techniques d'ANOVA univariées et multivariées.

Historique

Les sources du modèle linéaire général viennent assurément de l'origines des mathématiques, mais c'est l'émergence de la théorie des invariants algébriques dans les années 1800 qui a rendu possible le modèle linéaire général tel que nous le connaissons aujourd'hui. La théorie des invariants algébriques a été développée dans les travaux de mathématiciens du 19ième siècle comme Gauss, Boole, Cayley ou Sylvester. La théorie cherche à identifier ces quantités dans des systèmes d'équations qui restent inchangées par des transformations linéaires des variables dans le système. D'une manière plus imagée (que les fondateurs de la théorie ne considéreraient toutefois pas exagérée), la théorie des invariants algébriques recherche la part d'éternel ou de non changement dans le chaos de la transition et de l'illusion. Ce qui signifie qu'il n'est pas de petit objectif dans une théorie, mathématique ou autre.

La théorie des invariants algébriques a en fait été une réussite, bien au delà des espérances de ses concepteurs. Les valeurs propres, vecteurs propres, déterminants ou méthodes de décomposition de matrice, dérivent tous de la théorie des invariants algébriques. Les contributions de la théorie des invariants algébriques au développement de la théorie et des méthodes statistiques sont nombreuses, mais un simple exemple sera plus parlant, même à un débutant en statistiques. La corrélation entre deux variables reste inchangée par des transformations linéaires de l'une ou des deux variables. Nous considérons cette propriété des coefficients de corrélations acquise, mais que serait l'analyse des données si nous n'avions pas de statistiques invariantes à l'échelle des variables impliquées  ? Si vous réfléchissez à la question, vous serez rapidement convaincu(e) que sans la théorie des invariants algébriques, le développement des techniques statistiques aurait été presque impossible.

Le développement du modèle de régression linéaire au cours du 19ième siècle et le développement des méthodes de corrélation peu de temps après, sont clairement issus de la théorie des invariants algébriques. Les méthodes de régression et corrélations, à leur tour, ont servi de base au modèle linéaire général. En effet, le modèle linéaire général peut être considéré comme une extension de la régression linéaire multiple pour une seule variable dépendante. Comprendre le modèle de régression multiple est essentiel à la compréhension du modèle linéaire général, c'est pourquoi nous étudierons les objectifs de la régression multiple, les algorithmes de calcul qui sont utilisés pour résoudre les problèmes de régression et la manière dont le modèle de régression est étendu au cas du modèle linéaire général. Vous trouverez dans l'Introduction du module Régression Multiple une présentation des méthodes de régression multiple et des problèmes analytiques qu'elles peuvent traiter.

Les Objectifs de la Régression Multiple

Le modèle linéaire général peut être considéré comme une extension de la régression multiple linéaire pour une seule variable dépendante et il est important de comprendre le modèle de régression multiple pour comprendre le modèle linéaire général. Le but général de la régression multiple (le terme a été initialement utilisé par Pearson, 1908) est de quantifier la relation entre plusieurs variables indépendantes (ou prédicteurs) et une variable dépendante (ou critère). Pour une introduction détaillée de la régression multiple, vous pouvez consulter l'Introduction de la Régression Multiple. Par exemple, un agent immobilier peut rassembler des données sur la taille d'une maison (en mètres carrés), le nombre de chambres, le revenu moyen dans le voisinage à partir des données du recensement, et une appréciation subjective du charme de la maison. Une fois cette information collectée pour diverses maisons, il peut être intéressant de voir si (et dans quelle mesure) ces données expliquent le prix d'achat d'une habitation. Par exemple, on peut apprendre que le nombre de chambres est un meilleur indicateur du prix d'achat d'une maison dans un environnement particulier que son "charme" (note subjective). On pourra détecter des "points aberrants", par exemple, des maisons qui devraient être vendues plus chères, compte tenu d'une localisation donnée et de caractéristiques particulières.

Le département des "ressources humaines" utilise habituellement des procédures de régression multiple afin de déterminer la rémunération équitable. On peut déterminer un certain nombre de facteurs ou de dimensions comme la "charge de responsabilités" (Resp) ou le "nombre de personnes à encadrer" (Nb_Encad) que l'on estime contribuer à la valeur d'un poste. Le chargé d'études des ressources humaines va alors mener une étude salariale sur des entreprises comparables du secteur ou de la branche, en enregistrant les salaires et les caractéristiques respectives (c'est-à-dire les valeurs sur les dimensions) pour des différentes positions. Cette information peut être utilisée dans une régression multiple afin de construire une équation de régression du type :

Salaire = .5*Resp + .8*Nb_Encad

Une fois la droite de régression déterminée, le chargé d'études pourra alors aisément construire un graphique des salaires attendus (prévus) et des véritables salaires en fonction de la mission, dans sa propre entreprise. Ainsi, le chargé d'études sera à même de déterminer les postes qui sont "trop rémunérés" (au-dessous de la droite de régression), de ceux qui sont "insuffisamment rémunérés" (au-dessus de la droite de régression), ou ceux qui sont "rémunérés" équitablement.

En sciences naturelles et sociales, des procédures de régression multiple sont largement utilisées en recherche. D'une manière générale, la régression multiple permet au chercheur de se poser la question générale (et avec un peu de chance, d'y répondre) "quel est le meilleur indicateur permettant de prévoir ...". Par exemple, des chercheurs du domaine éducatif peuvent chercher à connaître les indicateurs qui permettent le mieux de prévoir la réussite au baccalauréat. Les psychologues peuvent vouloir déterminer les variables de personnalité qui prévoient le mieux la mobilité sociale. Des sociologues peuvent s'intéresser aux multiples indicateurs sociaux permettant de prévoir au mieux si tel ou tel groupe d'immigrants risque de bien s'adapter, et donc de s'intégrer dans la société.

Calculs pour Résoudre l'Équation de la Régression Multiple

Une surface à une dimension dans un espace à deux dimensions ou deux variables est une droite définie par l'équation Y=b0+b1X. Cette équation nous indique que la variable Y peut être exprimée en termes de (ou en fonction) d'une constante (b0) et d'une pente (b1) multipliée par la variable X. La constante est aussi appelée l'ordonnée à l'origine (intercept), et la pente porte également le nom de coefficient de régression. Par exemple, la moyenne générale obtenue au baccalauréat peut être très bien prévue par 3+0,1*IQ. Par conséquent, sachant qu'un étudiant possède un QI de 130, nous pouvons en déduire que sa moyenne générale au baccalauréat serait de 16 sur 20 (puisque, 3+0,1*130=16). Dans le cas d'une régression multiple, lorsqu'il y a plus d'une variable indépendante, la droite de régression ne peut être représentée dans un espace à deux dimensions, mais peut être calculée de la même manière. Par exemple, outre le QI, nous pouvons ajouter d'autres indicateurs permettant de prévoir la réussite (par exemple, Motivation, Autodiscipline). Nous pourrions construire une équation linéaire comportant toutes ces variables. D'une manière générale, les procédures de régression multiple vont estimer une équation linéaire de la forme :

Y = b0 + b1X1 + b2X2 + ... + bkXk

k est le nombre de prédicteurs. Notez que dans cette équation, les coefficients de régression (ou coefficients b1...bk) représentent les contributions indépendantes de chaque variable indépendante à la prévision de la variable dépendante. En d'autres termes, nous pouvons dire, par exemple, que la variable X1 est corrélée avec la variable Y, après contrôle de toutes les autres variables indépendantes. Ce type de corrélation est également appelé corrélation partielle (ce terme a été initialement utilisé par Yule, 1907). Peut-être l'exemple suivant va-t-il permettre de clarifier notre propos. Nous pourrions probablement trouver une corrélation négative significative entre la longueur des cheveux et la taille dans la population (c'est-à-dire que les individus petits ont plutôt tendance à avoir des cheveux plus longs). À première vue, ce résultat peut sembler étrange ; toutefois, si nous ajoutons dans notre équation de régression multiple la variable Sexe, cette corrélation disparaîtra sans doute. En effet, les femmes, en moyenne, ont de plus longs cheveux que les hommes ; et elles sont également plus petites en moyenne que les hommes. Par conséquent, après avoir supprimé cette différence due au sexe en entrant la variable Sexe dans notre équation, la relation entre la longueur des cheveux et la taille disparaîtra puisque la longueur des cheveux n'a pas de contribution unique à la prévision de la taille, mais elle la partage avec la variable Sexe. En d'autres termes, après contrôle de la variable Sexe, la corrélation partielle entre la longueur des cheveux et la taille est nulle.

La surface de régression (une droite dans la régression simple, un plan ou une surface de dimension supérieure dans la régression multiple) exprime la meilleure prévision de la variable dépendante (Y), étant données les variables indépendantes (les X) . La nature étant rarement parfaitement prévisible (si toutefois elle l'est), il existe souvent des écarts substantiels entre les points observés autour de la droite de régression ajustée (comme dans le nuage de points donné précédemment). L'écart d'un point particulier à la droite de régression (sa valeur prévue) est appelé résidu. Puisque les procédures de régression linéaire visent à ajuster une surface par une fonction linéaire des variables X, aussi proche que possible de la variable Y observée, les valeurs des résidus pour les points observés peuvent être utilisées pour concevoir un critère du "meilleur ajustement". Plus précisément, dans les problèmes de régression, la surface est calculée de telle sorte que la somme des écarts au carré des points observés à cette surface soit minimale. C'est la raison pour laquelle cette procédure générale est aussi parfois appelée estimation des moindres carrés.

Les calculs utilisés pour résoudre les problèmes de régression peuvent être exprimés de manière synthétique en utilisant la notation matricielle. Supposons que nous disposions de n valeurs observées de Y et de n valeurs observées associées pour chacune des k différentes variables X. Les Yi, Xik, et ei peuvent représenter respectivement la iième observation de la variable Y, la iième observation de chacune des variables X, et la iième valeur inconnue du résidu. En regroupant ces termes dans des matrices, nous obtenons :

Le modèle de régression multiple sous sa forme matricielle peut alors être exprimé comme :

Y = Xb + e

b est un vecteur-colonne composé de 1 (pour l'ordonnée à l'origine ou intercept) + k coefficients de régression inconnus. Rappelez-vous que le but d'une régression multiple est de minimiser la somme des carrés des résidus. Les coefficients de régression satisfaisant ce critère sont trouvés en résolvant le système d'équations normales :

X'Xb = X' Y

Lorsque les variables X sont linéairement indépendantes (c'est-à-dire, qu'elles ne sont pas redondantes, produisant une matrice X'X dite de rang plein ou maximum), il existe une solution unique aux équations normales. En multipliant préalablement les deux côtés de la formule matricielle des équations normales par l'inverse de X'X, nous obtenons :

(X'X)-1X'Xb = (X'X)-1X' Y

ou encore

b = (X'X)-1X' Y

Ce dernier résultat est très intéressant au vu de sa simplicité et de ses possibilités de généralisation. Très simplement, il exprime la solution de l'équation de régression à partir de 2 matrices (X et Y) seulement et de 3 opérations matricielles élémentaires : (1) transposition matricielle, avec permutation des éléments respectifs contenus dans les lignes et les colonnes d'une matrice, (2) produit matriciel, pour trouver la somme des produits des éléments de chaque combinaison de ligne et de colonne de deux matrices compatibles (c'est-à-dire, multipliable), et (3) inversion matricielle, pour trouver la matrice équivalente inversée, c'est-à-dire, la matrice donnant :

A-1AA = A

pour une matrice A.

Il aura fallu des siècles aux mathématiciens et aux statisticiens les plus compétents afin de trouver une méthode satisfaisante pour résoudre le problème de régression linéaire des moindres carrés. Mais leurs efforts auront été récompensés, tant il est difficile d'imaginer une solution plus simple.

Quant aux possibilités de généralisation du modèle de régression multiple, ses principales limites sont (1) qu'il ne peut être utilisé pour analyser qu'une seule variable dépendante, et (2) qu'il n'est pas en mesure de produire de solution pour les coefficients de régression lorsque les variables X ne sont pas linéairement indépendantes et qu'en conséquence, l'inverse de X'X n'existe pas. Ces restrictions peuvent toutefois être surmontées, et, ce faisant, le modèle de régression multiple devient un modèle linéaire général.

Extension de la Régression Multiple au Modèle Linéaire Général

Le modèle linéaire général diffère notamment du modèle de régression multiple quant au nombre de variables dépendantes pouvant être analysées. Le vecteur Y de n observations dans le cas d'une seule variable Y peut être remplacé par une matrice Y de n observations sur m variables Y différentes. De la même manière, le vecteur b des coefficients de régression dans le cas d'une seule variable Y peut être remplacé par une matrice b de coefficients de régression, avec un vecteur de b coefficients pour chacune des m variables dépendantes. Ces substitutions donnent ce qu'on appelle parfois le modèle de régression multivarié, mais soulignons que les formulations matricielles des modèles de régression multiples et multivariés sont identiques, sauf par rapport au nombre de colonnes dans les matrices Y et b. La méthode permettant de résoudre les coefficients b est elle aussi identique, c'est-à-dire que m différents ensembles de coefficients de régression sont trouvés séparément pour les m différentes variables dépendantes du modèle de régression multivarié.

Le modèle linéaire général va plus loin que le modèle de régression multivarié en permettant des transformations linéaires ou combinaisons linéaires de plusieurs variables dépendantes. Cette extension confère au modèle linéaire général des avantages importants par rapport aux modèles de régression multiple et multivariés, les deux étant intrinsèquement des méthodes univariées (une seule variable dépendante). L'un des avantages est qu'il est possible d'utiliser des tests multivariés de significativité lorsque les réponses de plusieurs variables dépendantes sont corrélées. Différents tests de significativité univariés sur des variables dépendantes corrélées ne sont pas indépendants et sont donc inadaptés. Les tests multivariés de significativité des combinaisons linéaires indépendantes de plusieurs variables dépendantes peuvent également donner une idée des dimensions des variables de réponse qui sont et qui ne sont pas liées aux variables de prévision. Un autre avantage réside dans la possibilité d'analyser des effets de facteurs de mesures répétées. Les plans de mesures répétées, ou plans intra-groupes, ont traditionnellement été analysés à l'aide de techniques ANOVA. Il est possible de construire et de tester la significativité de combinaisons linéaires de réponses reflétant un effet de mesure répétée (par exemple, la différence des réponses sur une mesure sous différentes conditions) en utilisant soit l'approche univariée soit l'approche multivariée pour analyser ces mesures répétées dans le modèle linéaire général.

Une seconde spécificité du modèle linéaire général par rapport au modèle de régression multiple réside dans sa capacité à fournir une solution pour les équations normales lorsque les variables X ne sont pas linéairement indépendantes et qu'en conséquence, l'inverse de X'X n'existe pas. La redondance des variables X peut être fortuite (par exemple, deux prédicteurs peuvent être parfaitement corrélés sur des données peu nombreuses), accidentelle (par exemple, une même variable peut être utilisée involontairement deux fois dans une analyse) ou délibérée (par exemple, des variables indicateur avec des valeurs opposées peuvent être utilisées dans l'analyse, comme pour des prédicteurs tels que Homme et Femme dans la représentation du Sexe). Le problème de l'inverse d'une matrice de rang plein ou maximum rappelle celui de l'inverse de 0 en arithmétique. Ces inverses ou réciproques n'existent pas, tout simplement parce que la division par 0 n'est pas permise. Ce problème est résolu dans le modèle linéaire général en utilisant l'inverse généralisé de la matrice X'X pour résoudre les équations normales. Un inverse généralisé est une matrice satisfaisant à la condition :

AA`A = A

pour une matrice A.

L'inverse généralisé est unique et identique à l'inverse ordinaire lorsque la matrice A est de rang complet. L'inverse généralisé d'une matrice de rang plein peut être calculé plus simplement en annulant les éléments des lignes et colonnes redondantes de la matrice. Supposons qu'une matrice X'X possédant r colonnes non-redondantes soit telle que :

A11 est une matrice carrée r sur r de rang r. L'inverse ordinaire de A11 existe et l'inverse généralisé de X'X est

où chaque matrice 0 (nulle) est une matrice de 0 (zéros) et possède les mêmes dimensions que la matrice correspondante A.

Toutefois, en pratique, nous calculons un inverse généralisé particulier de X'X pour trouver une solution aux équations normales en utilisant l'opérateur sweep (Dempster, 1960). Cet inverse généralisé, appelé inverse g2, a l'importante propriété qu'il est inutile de partitionner ou réordonner les colonnes de X'X, ainsi la matrice peut être inversée "à la place".

Il existe une infinité d'inverses généralisés pour une matrice de rang plein X'X, et donc, une infinité de solutions aux équations normales. Ceci peut rendre difficile la compréhension de la nature des relations entre les variables prédictives et les réponses des variables dépendante, parce que les coefficients de régression peuvent varier en fonction de l'inverse généralisé particulier qui est choisi pour résoudre les équations normales. Ne vous en effrayez pas car le modèle linéaire général possède cette importante propriété d'invariance pour de nombreux résultats.

Prenons un exemple simple pour illustrer l'une des propriétés essentielles d'invariance avec des inverses généralisés dans le modèle linéaire général. Si les variables prédictives Homme et Femme possédant des valeurs de signe opposé pour représenter le Sexe sont utilisées dans une analyse, il est parfaitement arbitraire de dire qu'une variable prédictive ou l'autre est redondante (par exemple, Homme peut être considéré comme redondant avec Femme, et vice versa). Peu importe la variable prédictive qui est considérée comme redondante, peu importe l'inverse généralisé correspondant utilisé pour résoudre les équations normales et peu importe l'équation de régression résultante utilisée dans le calcul des valeurs prévues des variables dépendantes, les valeurs prévues et les résidus correspondants des hommes et des femmes demeureront inchangés. Lorsque vous utilisez le modèle linéaire général, vous devez garder à l'esprit que le fait de trouver une solution particulière (arbitraire) aux équations normales est avant tout un moyen d'obtenir une estimation des réponses des variables dépendantes, et non pas une fin en soi.

Modèle Sur-Paramétré et Sigma-Restreint

Contrairement au module Régression Multiple, s'appliquant en général aux variables X continues, le modèle linéaire général est souvent utilisé pour analyser tout modèle ANOVA ou MANOVA avec des prédicteurs catégoriels, tout modèle ANCOVA ou MANCOVA avec des variables prédictives catégorielles et continues, ou encore tout modèle de régression multiple ou multivarié avec des variables prédictives continues. Pour l'illustrer, le Sexe est clairement une variable qualitative (quiconque tente d'ordonner les sexes sur des dimensions le fait à ses propres risques et périls dans le monde d'aujourd'hui). Il existe deux méthodes simples de codifier le Sexe en une ou plusieurs variables prédictives (non-choquantes) et de l'analyser à l'aide du modèle linéaire général.

Modèle Sigma-restreint (codification des prédicteurs catégoriels). Une première méthode consiste à affecter deux valeurs arbitraires, mais distinctes, aux hommes et aux femmes sur une même variable prédictive. Les valeurs de la variable prédictive obtenue représenteront un contraste quantitatif entre les hommes et les femmes. Plus précisément, les valeurs définissant l'appartenance à un groupe sont choisies de façon non arbitraire afin de faciliter l'interprétation du coefficient de régression associé à la variable prédictive. Une stratégie largement utilisée dans le cas de deux groupes consiste à affecter les valeurs 1 et -1 à la variable prédictive  ; de cette manière, lorsque le coefficient de régression de la variable est positif, le groupe codifié 1 de la variable prédictive possédera une valeur prévue plus élevée (c'est-à-dire, une moyenne de groupe plus élevée) pour la variable dépendante ; en revanche, si le coefficient de régression est négatif, le groupe codifié -1 sur la variable prédictive possédera une valeur prévue plus élevée pour la variable dépendante. Une autre propriété intéressante de cette codification vient du fait que chaque groupe est codifié avec une valeur unitaire par rapport à zéro, ce qui permet d'interpréter l'importance des différences entre les valeurs prévues des groupes, puisque les coefficients de régression reflètent les unités de changement de la variable dépendante pour chaque modification unitaire de la variable prédictive. Cette stratégie de codification est appelée paramétrisation sigma-restreinte, parce que la somme des valeurs utilisées pour représenter les membres du groupe (1 et -1) totalise zéro.

Notez que la paramétrisation sigma-restreinte des prédicteurs catégoriels produit généralement des matrices X'X ne nécessitant pas un inverse généralisé pour résoudre les équations normales. L'information potentiellement redondante, comme celle du sexe (un individu de sexe masculin n'est pas de sexe féminin et réciproquement) est littéralement réduite au rang plein en créant des variables de contraste quantitatives représentant les différences de caractéristiques.

Pour poursuivre l'illustration, considérons un exemple dans lequel nous spécifions un modèle comportant 1 facteur à 3 niveaux A, B et C. Dans le cadre d'une paramétrisation sigma-restreinte, nous codifierions le facteur comme suit :

 

Facteur

A

B

A

1

0

B

0

1

C

-1

-1

 
Cette manière de paramétrer le modèle conduit à interpréter chaque estimation de coefficient comme la différence entre un niveau donné et la moyenne des deux autres 2 niveaux, c'est-à-dire que le coefficient de A est l'estimation de la différence entre le niveau A et la moyenne des niveaux de B et C.

Modèle sur-paramétré (codification des prédicteurs catégoriels). Une seconde méthode de codification des prédicteurs catégoriels consiste à utiliser l'approche des variables binaires (indicatrices). Ici, une variable prédictive distincte est utilisée pour chacun des groupes (codes) représenté dans un prédicteur catégoriel. Par exemple, nous pourrions affecter la valeur 1 aux femmes et 0 aux hommes dans une première variable prédictive indiquant l'appartenance au groupe de Sexe féminin, et la valeur 1 aux hommes et 0 aux femmes dans une seconde variable prédictive indiquant l'appartenance au groupe de Sexe masculin. Notez que cette méthode de recodification des prédicteurs catégoriels produira presque toujours des matrices X'X avec des colonnes redondantes, et nécessitera donc le calcul d'un inverse généralisé pour résoudre les équations normales. C'est la raison pour laquelle cette méthode est souvent appelée modèle sur-paramétré pour représenter les prédicteurs catégoriels, parce qu'elle produit plus de colonnes dans X'X que le strict nécessaire pour déterminer les relations entre les prédicteurs catégoriels et les réponses des variables dépendantes.

Conformément au terme "général" du modèle linéaire général, il est possible de réaliser des analyses avec des prédicteurs catégoriels codifiés selon l'une ou l'autre des méthodes décrites précédemment.

Synthèse des Calculs

Pour conclure ce chapitre sur les manières dont le modèle linéaire général prolonge et généralise les méthodes de régression, le modèle linéaire général peut s'exprimer comme suit :

YM = Xb + e

Ici Y, X, b, et e correspondent aux mêmes éléments que dans le modèle de régression multivarié et M représente une matrice m x s de coefficients définissant les s transformations linéaires de la variable dépendante. Les équations normales sont :

X'Xb =X' YM

et une solution des équations normales est donnée par :

b = (X'X)`X' YM

Ici l'inverse de X'X est un inverse généralisé si X'X contient des colonnes redondantes.

Ajoutez une disposition pour analyser les combinaisons linéaires de plusieurs variables dépendantes, une méthode pour traiter des variables prédictives redondantes ainsi que des prédicteurs catégoriels recodifiés et les principales limites de la régression multiple disparaissent dans le modèle linéaire général.

Matrice mal conditionnée. Le Modèle Linéaire Général propose diverses techniques pour analyser des modèles avec des matrices de rang plein ou singulières. Noter cependant que dans certains modèles, il est difficile d'identifier logiquement la singularité de la matrice et la redondance des colonnes dans la matrice du plan. Plus précisément, l'arrondi numérique dans les plans avec des variances très différentes dans les différentes colonnes de la matrice du plan (comme ce peut être le cas, par exemple, dans la régression factorielle et la régression polynomiale) peut parfois conduire à des résultats incohérents. Le Modèle Linéaire Général vous avertira si cette condition est rencontrée dans une analyse. Normez vos variables prédictives continues afin qu'elles possèdent des variances du même ordre de grandeur (par exemple, en standardisant les valeurs des variables prédictives) ; vous éviterez ainsi souvent les matrices mal conditionnées.




MANCOVA

Nous allons spécifier un plan d'analyse de variance multivariée avec plusieurs covariants (fixes) dans cet exemple. Nous testerons l'hypothèse d'homogénéité des pentes (ou parallélisme) et calculerons les résultats multivariés standard.

Fichier de Données. Cet exemple est basé sur les données reportées par Finn (1974). Nous avons demandé à quatre groupes de 12 individus chacun de classer une liste de 50 mots (imprimés sur différents morceaux de papiers) dans un certain nombre de catégories. Les groupes expérimentaux diffèrent quant aux instructions reçues sur le nombre de catégories représentées dans la liste de mots, et quant au nombre de catégories possibles (telles que l'expérimentateur les a construites). Plus précisément, les quatre groupes se définissent comme suit :

  1. Les individus du groupe 1 doivent classer la liste de mots en 5 catégories principales, chacune contenant 2 sous-catégories (condition M5_S2) ;

  2. Les individus du groupe 2 doivent classer ces mêmes mots en 10 catégories principales, sans mention de sous-catégorie (condition M10_S0) ;

  3. Les individus du groupe 3 doivent classer ces mêmes mots en 5 catégories principales, sans mention de sous-catégorie (M5_S0) ;

  4. Les individus du groupe 4 doivent faire comme ceux du groupe 3 ; toutefois, l'expérimentateur n'a pas créé de structure évidente ni intentionnelle dans la liste de mots (groupe de contrôle ; P5_S0_C).

Les principales variables dépendantes étaient (1) le nombre de mots mémorisés par les individus après six classements et (2) le pourcentage de catégories - créées par l'expérimentateur - et retrouvées par les individus dans leurs classements. Nous avons enregistré le temps (en secondes) nécessaire aux individus au cours des 2éme, 4éme et 6éme classements, et ces variables ont servi de covariants dans le plan.

Ces données sont contenues dans le fichier de données Mancova.sta. Ouvrez ce fichier de données à l'aide de la commande Ouvrir des Exemples du menu Fichier ; ce fichier se situe dans le répertoire Fichiers de Données. Ci-dessous, un extrait de ce fichier de données.

La variable 1 (Groupe) contient les codes identifiant l'appartenance des individus aux groupes expérimentaux ; la variable 2 (Mots) contient le nombre de mots mémorisés ; la variable 3 (Catégories) contient le pourcentage des catégories reproduites par les individus ; les variables 4 à 6 (Temps2 à Temps6) représentent le temps nécessaire à l'individu respectif pour effectuer les 2éme, 4éme et 6éme classements, respectivement.

Spécifier l'Analyse. Tout d'abord nous allons tester l'hypothèse d'homogénéité de pentes (ou parallélisme) pour déterminer si nous devons utiliser un plan de pentes séparées ou une MANCOVA traditionnelle pour modéliser les données. Pour réaliser l'analyse, sélectionnez la commande Modèle Linéaire Général à partir du menu Statistiques - Modèles Linéaires/Non-Linéaires Avancés pour afficher la boîte de dialogue Modèles Linéaires Généraux (Panneau de Démarrage). Sélectionnez l'option Modèle d'homogénéité des pentes comme Type d'analyse et l'option Spécifications rapides comme Méthode de spécification. Cliquez ensuite sur le bouton OK pour ouvrir la boîte de dialogue GLM (Spécifications Rapides) - Homogénéité des Pentes. Puis, cliquez sur le bouton Variables pour afficher la boîte de dialogue standard de sélection de variables. Là, sélectionnez Mots et Catégories comme Variables dépendantes, Groupe comme Prédicteurs catégoriels, et Temp2, Temp4, et Temp6 comme Prédicteurs continus. Cliquez ensuite sur le bouton OK pour retourner dans la boîte de dialogue GLM (Spécifications Rapides)- Homogénéité des Pentes. Le reste des spécifications de l'analyse peuvent garder les spécifications par défaut, ainsi cliquez sur le bouton OK pour réaliser l'analyse.

Étude des Résultats du Modèle d'Homogénéité des Pentes

Significativité de toutes les interactions de covariants. La boîte de dialogue GLM - Résultats apparaît lorsque l'analyse est terminée. Pour calculer les tests de significativité multivariés des effets dans le modèle, cliquez sur le bouton Tous les effets dans l'onglet Base.

Comme vous pouvez le constater, les effets principaux Groupe, Temps2, Temps4 et Temps6 ne sont pas significatifs (p > 0,5). Plus important, aucune des interactions Groupe par covariant ou covariant par covariant n'est significative (vous obtiendrez les même résultats si vous analysez chaque variable dépendante séparément ; cliquez sur le bouton Résultats univariés de l'onglet Synthèse pour calculer les ANOVA univariées de chaque variable dépendante). L'utilisation d'un modèle de pentes séparées n'apparaît donc pas nécessaire pour représenter de façon adéquate l'influence des covariants sur le résultat.

Significativité des interactions entre prédicteur catégoriel et covariants. Le modèle d'homogénéité de pentes par défaut dans STATISTICA GLM est très complet ; il calcule les tests de significativité de toutes les interactions entre les prédicteurs catégoriels et covariants ainsi que de toutes les interactions covariant par covariant. Au cours de l'analyse de ces données, Finn (1974) présente un test simultané de l'hypothèse la plus restrictive selon laquelle il n'existe pas d'interaction d'ordre deux significative entre prédicteur catégoriel et covariant.

Modifions l'analyse en spécifiant un modèle pour ne tester que l'absence d'interactions d'ordre deux significatives entre prédicteur catégoriel et covariant. Cliquez sur le bouton Modifier pour retourner à la boîte de dialogue GLM (Spécifications Rapides) - Homogénéité des Pentes, et puis cliquez sur le bouton Éditeur de syntaxe pour ouvrir la boîte de dialogue GLM - Éditeur de Syntaxe. Dans le champ d'édition Syntaxe de l'Analyse, modifiez l'instruction DESIGN comme suit :

DESIGN = GROUPE + TEMPS2 + TEMPS4 + TEMPS6 + GROUPE*TEMPS2 + GROUPE*TEMPS4 + GROUPE*TEMPS6;

Puis cliquez sur OK (Exécuter) pour exécuter l'analyse modifiée. Quand la boîte de dialogue GLM - Résultats s'ouvre, cliquez sur le bouton Tous les effets de l'onglet Base pour afficher les résultats des Tests de significativité multivariés des effets du modèle.

Les résultats dans la feuille de données indiquent qu'aucune des interactions d'ordre 2 prédicteur catégoriel par covariant testée séparément, n'est significative (tous les p > 0,30, les résultats sont similaires pour chaque variable dépendante testée de façon univariée). Pour tester simultanément la significativité des interactions d'ordre 2 prédicteur catégoriel par covariant, cliquez sur le bouton Estimations dans l'onglet Synthèse pour afficher la feuille de données Spécifiez l'effet à estimer. Dans cette feuille de données, vous pouvez y spécifier les coefficients d'une ou plusieurs combinaisons linéaires de paramètres du modèle à tester simultanément. Pour tester simultanément les paramètres du modèle pour les interactions d'ordre 2 prédicteur catégoriel par covariant, saisissez des 1 dans les colonnes 1 à 9 sur les lignes correspondant aux paramètres des interactions d'ordre 2 prédicteur catégoriel par covariant.

Après avoir spécifié les coefficients, cliquez sur le bouton OK pour faire apparaître la feuille de données Test Multivariés de l'Effet Estimé E0.

Le test simultané des paramètres du modèle pour les interactions d'ordre 2 prédicteur catégoriel par covariant n'est pas significatif, avec p > 0.50, ce qui signifie que le modèle de pentes séparées n'est pas nécessaire pour représenter de manière adéquate les influences des covariants sur le résultat.

Étude des Résultats du Modèle de Pentes Séparées. Bien qu'il ne soit pas nécessaire d'ajuster un modèle de pentes séparées dans notre cas, nous allons développer cet exemple. Sélectionnez la commande Modèle Linéaire Général à partir du menu Statistiques - Modèles Linéaire/Non-Linéaires Avancés et puis cliquez sur le bouton Nouvelle analyse dans la boîte de dialogue Démarrage d'une nouvelle analyse pour afficher une autre boîte de dialogue Modèles Linéaires Généraux (Panneau de Démarrage). Sélectionnez l'option Modèle de Pentes Séparées comme Type d'analyse, l'option Spécifications rapides comme Méthode de spécification, et cliquez sur le bouton OK pour ouvrir la boîte de dialogue GLM - Modèles Pentes Séparées. A nouveau, cliquez sur le bouton Variables, sélectionnez Mots et Catégories comme Variables dépendantes, Groupe comme Prédicteurs catégoriels, et Temps2, Temps4, et Temps6 comme Prédicteurs continus. Ensuite cliquez sur le bouton OK pour revenir à la boîte de dialogue GLM (Spécifications Rapides) - Modèles Pentes Séparées. Vous pouvez garder le reste des spécifications par défaut, et cliquez sur le bouton OK pour réaliser l'analyse.

Tests multivariés de significativité. La boîte de dialogue GLM - Résultats apparaît lorsque l'analyse est terminée. Pour calculer les tests multivariés de significativité des effets du modèle, cliquez sur le bouton Tous les effets.

Les résultats sont cohérents avec les tests d'hypothèses d'homogénéité de pentes, aucune des interactions prédicteur catégoriel par covariant n'étant significative au seuil p > 0,50 (les résultats sont similaires pour les tests univariés de chaque variable dépendante).

Étudier des Résultats du Modèle MANCOVA Traditionnel. Spécifiez maintenant le modèle MANCOVA traditionnel ne comportant que les effets principaux des prédicteurs continus. Sélectionnez la commande Modèle Linéaire Général à partir du menu Statistiques - Modèles Linéaire/Non-Linéaires Avancés et ensuite cliquez sur le bouton Nouvelle analyse dans la boîte de dialogue Démarrage d'une Nouvelle Analyse pour afficher une autre boîte de dialogue Modèles Linéaires Généraux (Panneau de Démarrage). Sélectionnez l'option Analyse de covariance comme Type d'analyse, l'option Spécifications rapides comme Méthode de spécification, et cliquez sur le bouton OK pour ouvrir la boîte de dialogue GLM (Spécifications rapides) - Analyse de Covariance. À nouveau, cliquez sur le bouton Variables, sélectionnez Mots et Catégories comme Variables dépendantes, Groupe comme Prédicteurs catégoriels, et Temps2, Temps4, et Temps6 comme Prédicteurs continus. Ensuite cliquez sur le bouton OK pour revenir dans la boîte de dialogue GLM (Spécifications Rapides) - Analyse de Covariance. Vous pouvez garder le reste des spécifications par défaut, et cliquez sur le bouton OK pour réaliser l'analyse.

Tests multivariés de significativité. La boîte de dialogue GLM - Résultats apparaît lorsque l'analyse est terminée. Pour calculer les tests multivariés de significativité des effets du modèle, cliquez sur le bouton Tous les effets.

Comme vous pouvez le constater, l'effet principal Groupe avec les effets principaux des covariants sous contrôle est significatif dans cette analyse au seuil p < 0,05.

Relation entre les modèles de pentes séparées et analyse de covariance. Nous pouvons maintenant illustrer la relation entre les modèles d'homogénéité de pentes et analyse de covariance. Cliquez sur le bouton R modèle complet pour afficher la feuille de données Test de SC Modèle Complet vs. SC Résidus.

Pour comparer ces résultats avec les résultats du modèle de pentes séparées, cliquez sur la boîte de dialogue GLM - Résultats pour la masquer, et ensuite cliquez sur le bouton R Modèle Complet pour afficher la feuille de données Test de SC Modèle Complet vs. SC Résidus du modèle de pentes séparées.

Ce que nous avons testé en réalisant un test simultané de significativité des interactions d'ordre 2 prédicteur catégoriel covariant, ce sont précisément les différences de sommes des carrés (et produits croisés) du modèle entre ces deux analyses. Pour vous en assurer, vous pouvez relancer la seconde analyse de cet exemple séparément pour chaque variable dépendante. Les sommes des carrés du test simultané seront égales à la différence entre les SC du Modèle du modèle d'analyse de covariance et des SC du Modèle du modèle de pentes séparées pour la variable dépendante respective.




Surface de Mélange

Cornell (1990a) présente un plan de mélange simple mais représentatif de texture moyenne de pâtés de poisson. Les pâtés sont constitués de mélanges de trois types de poisson  : Mulet, Merlan, et Colin. La variable dépendante étudiée est la Texture, mesurée par la force (en grammes * 10-3) nécessaire pour perforer la surface du pâté. L'expérience, reportée par Cornell (1990a, page 9), utilisait un plan de mélange lattice simplex du deuxième degré. Les plans d'expériences de mélanges sont également abordés en détails dans l'Introduction du module des Plans d'Expériences.

Spécification de l'Analyse. Les données présentées par Cornell (1990a) sont contenues dans le fichier d'exemple Fish.sta. Ouvrez ce fichier de données à l'aide de la commande Ouvrir des Exemples du menu Fichier ; ce fichier se situe dans le répertoire Fichiers de Données. Nous réaliserons tout d'abord une analyse en utilisant un modèle à effets principaux seuls. Pour réaliser l'analyse, sélectionnez la commande Modèle Linéaire Général du menu Statistiques - Modèles Linéaires/Non-Linéaires Avancés pour afficher la boîte de dialogue Modèles Linéaires Généraux (Panneau de Démarrage). Sélectionnez l'option Surface de Mélange comme Type d'analyse, l'option Spécifications rapides comme Méthode de spécification, et cliquez sur le bouton OK pour afficher la boîte de dialogue GLM - Surface de Mélange. Cliquez sur le bouton Variables pour ouvrir la boîte de dialogue standard de sélection de variables. Là, sélectionnez Texture comme Liste de vars dépendantes et Mulet, Merlan, et Colin comme Variables prédictives. Cliquez ensuite sur le bouton OK pour retourner dans la boîte de dialogue  GLM (Spécifications Rapides) - Surface de Mélange.

Dans cet exemple nous allons estimer l'erreur pure, et tester le manque (défaut) d'ajustement général. Les tests de défaut d'ajustement nécessitent le calcul de l'erreur pure non expliquée par le modèle. Pour demander le calcul de l'erreur pure, cliquez sur l'onglet Options pour faire apparaître d'autres options d'analyse. Puis cochez l'option Défaut d'ajustement dans le cadre Paramétrisation.

Notez que l'option Sans ordonnée à l'origine est automatiquement sélectionnée. Les mélanges, par définition, se composent de différentes proportions d'ingrédients dont la somme totalise une valeur constante (100%). Ainsi, la proportion d'un ingrédient particulier dans un matériau est redondante avec les autres ingrédients. Les plans de Surface de mélange traitent cette redondance en excluant l'ordonnée à l'origine du modèle.

Puisque la surface de mélange par défaut contient d'autres termes que les effets principaux, nous pouvons modifier les spécifications de l'analyse dans l'Éditeur de syntaxe. Cliquez sur le bouton Éditeur de syntaxe pour ouvrir la boîte de dialogue GLM - Éditeur de syntaxe. Dans le champ d'édition Syntaxe de l'Analyse, l'instruction DESIGN de la surface de mélange quadratique complet par défaut apparaît comme suit :

DESIGN = MULET | MERLAN | COLIN @2;

Modifiez l'instruction DESIGN pour ne spécifier que le modèle à effets principaux :

DESIGN = MULET + MERLAN + COLIN ;

La syntaxe complète de l'analyse doit maintenant être la suivante :

GLM;

Cliquez maintenant sur OK (Exécuter) pour exécuter l'analyse.

Étude des Résultats.

Tests du manque d'ajustement. La boîte de dialogue GLM - Résultats apparaît lorsque l'analyse est terminée. Pour calculer le test du manque (défaut) d'ajustement du modèle, cliquez sur le bouton R Modèle complet dans le cadre Effets inter de l'onglet Base. La feuille de données du Test de Défaut d'Ajustement donne les résultats suivants :

Le test du manque d'ajustement est assez peu significatif (p<0,10), ce qui indique que le modèle linéaire ne comportant que les effets principaux est sans doute trop simple.

Modifions maintenant l'analyse en spécifiant une surface de mélange quadratique (par défaut). Cliquez sur le bouton Modifier pour retourner à la boîte de dialogue GLM - Éditeur de Syntaxe. Dans le champ Syntaxe de l'analyse, changez l'instruction DESIGN en :

DESIGN = MULET | MERLAN | COLIN @2;

Cliquez ensuite sur OK (Exécuter) pour exécuter l'analyse modifiée. Quand la boîte de dialogue GLM - Résultats apparaît, cliquez à nouveau sur le bouton R modèle complet.

Notez que le test du manque d'ajustement ne peut pas être calculé pour ce plan car le modèle de surface de mélange du deuxième degré utilise toute l'information pouvant être estimée à partir de ce plan lattice simplex du deuxième degré.

Test du modèle complet de mélanges. Les résultats du Test du Modèle Complet de Mélange indiquent que le plan de mélange du deuxième degré est très significatif au seuil, p < .001. Notez que les degrés de liberté pour le modèle complet de mélange (dl Modèle = 5) est égal aux 6 effets du modèle moins 1, c'est-à-dire, les 3 effets principaux plus les 3 interactions d'ordre deux. En fait, le test du modèle complet de mélange est ajusté pour la moyenne, d'où la perte d'un degré de liberté pour le test ; voir aussi la rubrique Plans de Mélanges et Surfaces Triangualaires dans le module Plans d'Expériences). Vous trouverez d'autres manières de calculer la valeur du R² dans l'ouvrage de Kvålseth (1985).

Coefficients de régression. Cliquez sur le bouton Coefficients dans l'onglet Synthèse pour afficher la feuille de données des Paramètres Estimés des coefficients de l'équation de régression.

Comme vous pouvez le constater, les coefficients de tous les effets sauf Mulet*Colin et Merlan*Colin sont significatifs. Toutefois, notez que les coefficients des effets principaux doivent être interprétés avec prudence, en raison de l'exclusion de l'ordonnée à l'origine du modèle.




ANOVA à Mesures Répétées

Introduction. Cet exemple illustre la manière de configurer un plan avec des mesures répétées pour plusieurs facteurs de mesures répétées. Vous verrez également l'utilité des analyses de contraste pour l'interprétation des interactions. Nous évoquerons la question de la sphéricité lorsque le test multivarié de l'interaction-clé n'est pas statistiquement significatif, tandis que le test multivarié l'est. Nous comparerons les résultats des ajustements de Greenhouse-Geisser et Huynh-Feldt au test multivarié. Enfin, nous expliquerons la nature et la cause de la violation de l'hypothèse de sphéricité.

Problème de Recherche.

Introduction. Cet exemple est basé sur des données (fictives) reportées dans l'ouvrage de Winer (1962, page 324). Supposez que vous vous intéressez à l'impact d'un bruit de fond significatif (par opposition à un bruit de fond "blanc", non-significatif), sur la capacité des personnes à réaliser un réglage fin au cours du temps.

Par exemple, dans des processus industriels complexes (par exemple, dans des usines nucléaires), les opérateurs ont constamment besoin de lire (et de traiter) divers appareils et d'ajuster les machines (cadrans) en conséquence. Il pourrait être intéressant de savoir dans quelle mesure les performances des opérateurs sont affectées par un bruit "blanc" (du même type que le sifflement que vous entendez entre deux stations lorsque vous réglez le tuner de votre radio ) par opposition à un bruit de fond significatif (si la radio est réglée sur une véritable station).

Nous pouvons réaliser une expérience dans laquelle nous demandons aux individus d'ajuster l'un des trois cadrans possibles lorsque l'appareil de mesure indique un écart significatif aux spécifications. Certains individus réaliseront cette expérience dans des conditions de bruit blanc, tandis que d'autres la réaliseront avec un bruit de fond significatif (par exemple, une radio donnant des informations). La mesure dépendante est le nombre d'erreurs commises par l'individu (échecs pour régler correctement les cadrans avec un temps de réponse court) pendant des périodes de 10 minutes consécutives.

Synthèse du plan. Le plan obtenu est une analyse de variance 2 (condition de bruit) par 3 (périodes de Temps de 10 minutes chacune) par 3 (Cadrans  ; les trois cadrans). Les deux derniers facteurs sont les facteurs intra-groupes ou facteurs de mesures répétées parce qu'ils représentent des mesures répétées sur le même individu ; le premier facteur est un facteur inter-groupes parce que les individus sont affectés aléatoirement aux groupes selon les conditions de bruit.

Configuration du fichier de données. La configuration du fichier de données pour une analyse de mesures répétées est simple : Le facteur inter-groupes (condition de Bruit) peut être spécifié préalablement à l'expérience, c'est-à-dire que nous pouvons créer une variable contenant les codes identifient de façon unique à quel groupe (condition de bruit) chaque individu sera affecté. Chaque mesure répétée constitue une variable différente.

Par commodité, nous pouvons réordonner nos variables pour les rendre plus facilement interprétables, car le module GLM ne requiert aucune organisation particulière, tant il est flexible pour spécifier les niveaux des facteurs de mesures répétées. Dans ce fichier d'exemple, nous disposons de 6 sujets expérimentaux (3 dans chaque groupe), et les variables sont arrangées de telle sorte que pour chaque période, les mesures des différents cadrans soient contiguës. Ci-dessous, un extrait du fichier de données Dials.sta. Ouvrez ce fichier de données à l'aide de la commande Ouvrir des Exemples du menu Fichier ; ce fichier se situe dans le répertoire Fichiers de Données.

Spécification de l'Analyse. Pour réaliser cette analyse, sélectionnez la commande Modèle Linéaire Général à partir du menu Statistiques - Modèles Linéaires/Non-Linéaire Avancés pour afficher la boîte de dialogue Modèles Linéaires Généraux (Panneau de Démarrage). Ensuite, sélectionnez l'option ANOVA Mesures Répétées comme Type d'analyse et l'option Spécifications rapides comme Méthode de spécification. Puis cliquez sur le bouton OK pour afficher la boîte de dialogue GLM (Spécifications Rapides) - ANOVA à Mesures Répétées.

Cliquez sur le bouton Variables pour afficher la boîte de dialogue standard de sélection de variables ; sélectionnez les variables 2 - 10 (Per_CD1 à Per3_CD3) dans la Liste de vars dépendantes (variables de mesures répétées), variable 1 (Bruit) comme Prédicteurs catégoriels (facteurs), et ensuite cliquez sur le bouton OK. Puis, cliquez sur le bouton Codes facteurs et sélectionnez les codes (1-Blanc et 2-Signific) pour la variable prédictive catégorielle en cliquant sur le bouton Tous et puis le bouton OK.

Spécifier les facteurs de mesures répétées. Les facteurs de mesures répétées dans le Modèle Linéaire Général sont toujours spécifiés de la façon suivante. Tout d'abord, vous devez indiquer à STATISTICA le nombre de facteurs de mesures répétées ; ensuite, vous affectez un nom à ces facteurs et spécifiez leurs niveaux. STATISTICA répartira ensuite la liste variable dépendante selon les niveaux spécifiés de chaque facteur de mesures répétées, puis affectera des variables consécutives de la liste des variables dépendantes aux niveaux des facteurs de mesures répétées. Ainsi, "l'indice" qui change le plus vite est celui du dernier facteur spécifié, puis celui de l'avant dernier, et ainsi de suite ; consultez également les rubriques Spécifiez les facteur intra (mesures répétées), Spécifiez plus d'un facteur de mesures répétées ou Plans multivariés de mesures répétées pour une description détaillée de la manière de spécifier les facteurs de mesures répétées.

Dans cet exemple, nous disposons de deux facteurs de mesures répétées  : (1) les trois périodes de temps de 10 minutes consécutives, et (2) les trois cadrans. Pour spécifier ces facteurs, cliquez sur le bouton Effets intra, et dans la boîte de dialogue Spécifiez les facteurs intra (mesures répétées), spécifiez les noms de facteur de mesures répétées et leurs niveaux.

Si vous examinez votre fichier de données, l'indice qui varie le plus lentement dans la liste des variables est celui se rapportant au facteur Temps. Pour clarifier le terme "indice", déplacez votre doigt sur la liste des variables en commençant à la variable Per1_Cd1 et en comptant "un deux trois un deux trois un deux trois" à mesure que vous vous déplacez. Chaque "un" correspond à une variable contenant les données du premier cadran (Cd1), chaque "deux" correspond aux données du second cadran (Cd2) et chaque "trois" correspond aux données du troisième cadran (Cd3). Ainsi, l'indice changeant le plus vite est celui du facteur Cadran, et ce facteur doit donc être spécifié en dernier. Par conséquent, le facteur Temps doit être spécifié en premier.

Ainsi dans la boîte de dialogue Spécifiez les facteurs intra (mesures répétées), saisissez 3 comme Nb de niveaux et Temps comme premier Nom de Facteur ; de même, saisissez 3 comme Nb de niveaux pour le second facteur de mesures répétées Cadrans.

Vous avez maintenant spécifié la partie intra-groupes (mesures répétées) du modèle ; cliquez sur le bouton OK pour retourner dans la boîte de dialogue GLM (Spécifications Rapides) - ANOVA à Mesures Répétées.

Pour voir la syntaxe du programme automatiquement générée à partir de la boîte de dialogue des spécifications, cliquez sur le bouton Éditeur de syntaxe dans la boîte de dialogue GLM (Spécifications Rapides) - ANOVA à Mesures Répétées pour afficher la boîte de dialogue GLM - Éditeur de Syntaxe.

Vous pouvez laisser les autres spécifications pour cet analyse, alors cliquez sur le bouton OK (Exécuter) de la boîte de dialogue GLM - Éditeur de Syntaxe ou le bouton OK dans la boîte GLM (Spécifications rapides) - ANOVA à Mesures Répétées pour réaliser l'analyse.

Résultats. Quand la boîte de dialogue GLM - Résultats est affichée, cliquez sur le bouton Tous effets/Graphs pour ouvrir la boîte de dialogue Table de Tous les Effets.

Dans cette analyse, nous avons trois effets significatifs (identifiés par un astérisque * en fonction du niveau p)  : l'effet principal Temps, l'interaction, Temps par Bruit et l'effet principal Cadrans. Examinez maintenant les interactions significatives. Tout d'abord, sélectionnez (mettez en surbrillance) l'interaction Temps par Bruit, puis sélectionnez le bouton d'option Feuille de données dans le cadre Représenter. Cliquez sur le bouton OK pour afficher la feuille de données des moyennes marginales de cet effet.

La façon la plus simple (et parfois la seule) de comprendre les interactions consiste à les représenter graphiquement. Ainsi, retournez à la boîte de dialogue Table de Tous les Effets et sélectionnez le bouton d'option Graphique dans le cadre Représenter. Cliquez ensuite sur le bouton OK pour faire apparaître la boîte de dialogue Arrangement des Facteurs.

Vous pouvez réorganiser les facteurs dans le tracé, mais ici, acceptez simplement la sélection proposée par défaut en cliquant sur le bouton OK.

Il apparaît que la performance des individus s'est globalement améliorée, quelle que soit la condition de Bruit, c'est-à-dire que les individus ont commis de moins en moins d'erreurs d'une épreuve à l'autre. Toutefois, les deux lignes représentant les deux conditions de Bruit commencent à diverger à la période 2 (niveau_2). Il semble donc que les individus ont obtenus de meilleurs résultats (moins d'erreurs commises) en condition de bruit blanc qu'en condition de bruit significatif aux Temps 2 et 3, mais pas au Temps 1.

L'effet principal. Vous pouvez tracer l'effet principal du facteur Cadrans. Vous allez constater que pour une raison particulière, les individus ont commis plus d'erreurs en ajustant le troisième cadran que le second, et qu'ils ont commis davantage d'erreurs en ajustant le second cadran que le premier. Cet effet met en évidence des différences entre les différents cadrans utilisés dans l'expérience, mais n'est pas d'un grand intérêt dans notre étude. Attardons nous en revanche plus longuement sur l'interaction.

Explorer l'interaction : Analyse de Contrastes. Nous allons explorer plus avant l'interaction en réalisant une analyse de contrastes. Retournons à la boîte de dialogue GLM - Résultats et cliquez sur l'onglet Comps pour faire apparaître des options destinées à comparer des moyennes. D'une manière générale, nous spécifions les contrastes sous forme d'entiers positifs et négatifs qui, dans un certain sens, servent de pondération. Les cellules qui sont associées à des entiers de signe différent sont comparées (opposées) dans l'analyse. Voir aussi la rubrique Comparaisons planifiées des moyennes des moindres carrés pour plus d'informations.

Spécifier le contraste. Notez que vous pouvez spécifier des contrastes complexes dans une longue chaîne de coefficients de contraste (plutôt que séparément pour chaque facteur, voir ci dessous), en sélectionnant l'option Ensemble (vecteurs de contraste) dans l'onglet Comps.

Dans cet exemple, nous allons évaluer la différence entre les deux conditions de bruit, séparément aux Temps 2 et 3. Cliquez sur le bouton Contrastes des moy. MC pour faire apparaître la boîte de dialogue Spécifiez les Contrastes du Facteur. Dans cette boîte de dialogue, commencez par spécifier un contraste pour le facteur Bruit, donc saisissez respectivement 1 et -1 (pour contraster le premier niveau avec le second niveau). Notez que au lieu de saisir les valeurs des coefficients de contraste, vous pouvez utilisez la fonctionnalité Insérer Valeur qui vous permet de spécifier les coefficients (dans les cellules individuelles ou les colonnes entières) en cliquant sur les boutons respectifs.

Cliquez sur OK pour faire apparaître la boîte de dialogue Facteurs de Mesures Répétées reportant la liste des facteurs de mesures répétées.

Pour spécifier le contraste du facteur Temps, cliquez sur le bouton Temps. Ensuite saisissez les coefficients 0, 1, et 0, respectivement, dans la boîte de dialogue Entrez les Contrastes pour ce Facteur. (Notez que vous pouvez utiliser l'option Insérer Valeur, comme expliqué ci-dessus.)

Cliquez sur le bouton OK pour retourner dans la boîte de dialogue des Facteurs de Mesures Répétées et pareillement cliquez surle bouton Cadrans. Saisissez 1, 1, et 1 comme coefficients de ce facteur. De cette façon, vous regrouperez tous les niveaux de ce facteur. Comme ce sont les coefficients proposés par défaut, cliquez simplement sur OK dans la boîte de dialogue Entrez les Contrastes pour ce Facteur. Maintenant, cliquez sur le bouton OK dans la boîte de dialogue des Mesures Répétées pour revenir dans l'onglet Comps. Enfin, cliquez sur le bouton Calculer pour afficher plusieurs feuilles de données. En particulier, nous étudierons la feuille de données Test Univarié de Significativité pour Comparaisons Planifiées.

Il semble que les différences entre les deux moyennes (bruit Blanc et Significatif) au Temps 2 ne soient pas statistiquement significatives. Vous pouvez également comparer ces deux groupes au Temps 3 (pour le facteur Temps entrez les coefficients 0, 0, 1  ; les autres spécifications demeurant les mêmes). Cette comparaison n'est pas non plus significative.

Spécifier un contraste partiel d'interaction. D'après ces résultats, nous ne pouvons pas dire que les différentes conditions sonores conduisent à des nombres d'erreurs significativement différents aux Temps 2 et 3. Toutefois, l'interaction globale est significative, et en examinant le tracé d'interaction, il semble que les changements entre le Temps 1 et 2 sont essentiellement à l'origine de cette interaction. Testons maintenant la significativité de l'interaction entre le Bruit et le Temps (en ignorant le troisième niveau du Temps, c'est-à-dire, le Temps 3). Pour ce faire, cliquez à nouveau sur le bouton Contrastes des moy. MC et spécifiez les coefficients de contraste 1 et -1 pour la variable Bruit dans la boîte de dialogue Spécifiez les Contrasts du Facteur et cliquez sur le bouton OK. Puis entrez les coefficients 1, -1. 0, respectivement, pour le facteur Temps et les coefficients 1, 1, 1 pour le facteur Cadrans dans la boîte de dialogue des Facteurs de Mesures Répétées (voir ci-dessous) et ensuite cliquez sur le bouton OK. Comme vous pouvez le constater, les deux premiers niveaux du facteur Bruit et les deux premiers niveaux du facteur Temps sont contrastés. Cliquez maintenant sur le bouton Calculer pour faire apparaître les feuilles de données.

Ce contraste est statistiquement significatif. Il semble effectivement que l'interaction d'ordre deux soit significative entre le Bruit et le Temps dépendent des changements (améliorations) différentiels entre le nombre d'erreurs entre le Temps 1 et le Temps 2 pour la condition de bruit Blanc par rapport à la condition Significative  ; les individus dans le premier cas ont plus amélioré leurs performances que les individus dans le dernier cas.

Approche Multivariée. Dans certaines disciplines scientifiques, l'approche multivariée de l'ANOVA à mesures répétées avec plus de deux niveaux s'est rapidement imposée pour analyser ces types de plans car cette approche multivariée ne repose pas sur l'hypothèse de sphéricité et symétrie composée.

En résumé, l'ANOVA de mesures répétées univariée suppose que les changements entre les niveaux ne sont pas corrélés entre les individus. Cette hypothèse est souvent très discutable. Dans notre exemple, il est tout à fait concevable que les individus ayant beaucoup amélioré leur performance entre le Temps 1 et 2 ont atteint une sorte de précision maximale, et ont donc moins amélioré leurs performances entre les Temps 2 et 3. Puisque nous supposons que l'hypothèse de sphéricité de l'ANOVA univariée a été violée, examinons les statistiques multivariées.

Tests multivariés de l'effet d'interaction. Pour calculer les tests multivariés de significativité, dans la boîte de dialogue GLM - Résultats - onglet Synthèse, sélectionnez toutes les options de test (Pillai,Hotelling et Roy) du cadre Tests multivar. Cliquez ensuite sur le bouton Tests multivariés du cadre Effets Intra. Examinez maintenant les résultats multivariés.

Il existe différents critères de test multivarié ; dans ce cas, le Lambda de Wilk, la Trace de Pillai-Bartlett, la Trace de Hotelling-Lawley et la Plus grande Racine de Roy donnent un résultat identique : l'interaction n'est pas significative au seuil 0,05  ! Ainsi, nous sommes en présence d'un cas où la violation de l'hypothèse de sphéricité mène à une acceptation erronée de l'interaction comme étant statistiquement significative.

Tests ajustés univariés. Avant que l'approche multivariée ne gagne en popularité, certains auteurs ont proposé des corrections pour le F univarié afin d'ajuster les violations, en particulier la correction de Greenhouse-Geisser (Greenhouse et Geisser, 1958, 1959) et la correction de Huynh-Feldt (Huynh et Feldt, 1976 ; voir aussi la sphéricité et symétrie complexe du module ANOVA/MANOVA).

Notez que ces corrections sont des approximations et vous devez préférer l'approche multivariée à chaque fois que c'est possible. Toutefois, dans certaines disciplines scientifiques, ces corrections sont toujours utilisées. Pour calculer ces corrections, retournez dans l'onglet Synthèse et cliquez sur le bouton G-G et H-F.

La feuille de données reporte les résultats des tests univariés ajustés. Comme vous pouvez le constater ci-dessous, l'ajustement de Greenhouse-Geisser nous protège efficacement contre le risque d'accepter de façon erronée l'interaction comme étant statistiquement significative au seuil 0,05. En fait, le niveau p de ce test (0,057) est très proche de celui du test multivarié (p = 0,062). L'ajustement de Huynh-Feldt n'est pas très utile dans ce cas.

Synthèse. Pour résumer l'analyse de cet exemple, une interaction entre le Bruit et le Temps apparaît entre le Temps 1 et le Temps 2 (c'est-à-dire entre la première et la seconde période de 10 minutes) : les individus en conditions de bruit blanc ont davantage amélioré leurs performances (en commettant moins d'erreurs) que ceux en conditions de bruit significatif. Toutefois, il n'existe pas de différences significatives quant au nombre d'erreurs (entre les groupes) selon la période. Des analyses plus poussées révèlent une violation sérieuse de l'hypothèse de sphéricité, remettant en cause nos conclusions initiales. Le test multivarié de l'interaction entre le Bruit et le Temps, ainsi que le test univarié de Greenhouse-Geisser ajusté, n'est pas significatif au seuil 0,05. Cet exemple illustre les avantages de l'approche multivariée pour l'ANOVA à mesures répétées avec plus de deux niveaux (de mesures répétées).




ANOVA Imbriquée Modèle Mixte

Spécification de l'Analyse. Cet exemple illustre l'estimation de l'ANOVA et des composantes de la variance pour un modèle hiérarchiquement imbriqué avec des effets aléatoires. Contrairement aux plans factoriels complets, pour lesquels chaque combinaison de chaque niveau pour chacun des facteurs apparaît dans le plan, les plans imbriqués possèdent la propriété de n'avoir chaque niveau d'un facteur imbriqué que dans un niveau du facteur dans lequel il est imbriqué. Considérez, l'exemple où des élèves ne disposent que d'un professeur par classe, les professeurs n'exerçant que dans un seul établissement. Dans une étude de la dispersion de la réussite imputable aux écoles, professeurs et élèves, le facteur élève serait imbriqué dans le facteur professeur, qui à son tour serait imbriqué dans le facteur école. Le plan est hiérarchiquement imbriqué, parce qu'il existe une hiérarchie de facteurs imbriqués.

L'exemple 5 est basé sur un ensemble de données fictives contenant trois variables indépendantes A, B, et C (codifiées de deux façons différentes comme décrit ci-dessous) et une seule variable dépendante Y. Les trois facteurs sont supposés avoir des effets aléatoires, et le facteur C est imbriqué dans le facteur B, qui à son tour est imbriqué dans le facteur A, produisant un plan hiérarchiquement imbriqué d'effets aléatoires (pour plus d'informations sur les modèles mixtes, voir l'Introduction ; voir aussi les modules Décomposition de la Variance et Modèle Mixte ANOVA/ANCOVA et Estimation et Précision de la Variance). Les trois facteurs possèdent des N différents. Les données sont contenues dans le fichier d'exemple Nested.sta. Ouvrez ce fichier de données à l'aide de la commande Ouvrir des Exemples du menu Fichier ; ce fichier se situe dans le répertoire Fichiers de Données.

Dans le fichier de données, les valeurs de B1 et C1 représentent respectivement les niveaux globaux consécutifs des facteurs imbriqués B et C, et les valeurs de B2 et C2 représentent respectivement les niveaux des autres facteurs dans lesquels B et C sont imbriqués. A1 et A2 sont codés de la même manière. Ainsi, les deux ensembles de facteurs représentent simplement les codages des niveaux des facteurs imbriqués. Nous réaliserons tout d'abord une ANOVA et estimerons les composantes de la variance pour les facteurs du plan avec effets aléatoires hiérarchiquement imbriqués en utilisant les variables A1, B1 et C1.

Pour réaliser l'analyse, sélectionnez la commande Modèle Linéaire Général dans le menu Statistiques - Modèle Linéaire/Non-Linéaires Avancés pour afficher la boîte de dialogue Modèles Linéaires Généraux (Panneau de Démarrage). Ensuite, sélectionnez l'option ANOVA Imbriquée comme Type d'analyse et l'option Spécifications rapides comme Méthode de spécification. Puis cliquez sur le bouton OK pour afficher la boîte de dialogue GLM (Spécifications Rapides) - ANOVA Imbriquée. Cliquez sur le bouton Variables pour ouvrir la boîte de dialogue standard de sélection de variables. Là, sélectionnez Y dans Liste de Vars dépendantes, A1, B1, et C1 comme Prédicteurs catégoriels (facteurs), et ensuite cliquez sur le bouton OK.

Cliquez maintenant sur l'onglet Options pour accéder aux options d'analyse supplémentaires. Notez que l'option Sigma-restreint du cadre Paramétrisation est automatiquement désélectionnée parce que la codification sur-paramétrée des prédicteurs catégoriels est toujours utilisée pour les modèles avec des effets imbriqués. Maintenant cliquez sur le bouton Facteurs aléatoires pour afficher la boîte de dialogue Facteurs aléatoires (Modèle Mixte). Sélectionnez A1, B1 et C1 comme facteurs aléatoires, puis cliquez sur le bouton OK pour retourner dans la boîte de dialogue GLM (Spécifications Rapides) - ANOVA Imbriquée. Pour cet exemple nous réaliserons une ANOVA et estimerons les composantes de la variance en utilisant les sommes des carrés de Type III (la méthode de décomposition des sommes des carrés par défaut quand le modèle utilisé est sur-paramétré).

Pour afficher la syntaxe du programme automatiquement générée à partir de la boîte de dialogue de spécifications, cliquez sur le bouton Éditeur de syntaxe dans la boîte de dialogue GLM (Spécifications Rapides) - ANOVA Imbriquée pour afficher la boîte de dialogue GLM - Éditeur de Syntaxe.

GLM;

Vous pouvez laisser le reste des spécifications par défaut pour cette analyse, cliquez alors sur le bouton OK (Exécuter) de la boîte de dialogue GLM - Éditeur de syntaxe ou sur le bouton OK de la boîte de dialogue GLM (Spécifications Rapides) - ANOVA Imbriquée pour réaliser l'analyse.

Résultats.

Estimation des composantes de la variance de Type III et ANOVA. Quand la boîte de dialogue GLM - Résultats apparaît, cliquez sur le bouton Compos. variance du cadre Effets aléatoires dans l'onglet Synthèse. Une feuille de données contenant une estimation des composantes de la variance de Y s'affichera.

Puis, cliquez sur le bouton Tous les effets pour afficher la table de synthèse de l'ANOVA modèle mixte.

Pour réaliser la même analyse en utilisant A2, B2 et C2 comme prédicteurs catégoriels, cliquez sur le bouton Modifier pour retourner dans la boîte de dialogue GLM (Spécifications Rapides) - ANOVA Imbriquée. (Notez que si vous retournez d'abord dans la boîte de dialogue GLM - Éditeur de syntaxe, cliquez simplement sur le bouton < Retour pour revenir dans la boîte de dialogue  GLM (Spécifications Rapides) - ANOVA Imbriquée.)

Cliquez sur le bouton Variables pour spécifier A2, B2 et C2 comme prédicteurs catégoriels. Puis dans l'onglet Options, cliquez sur le bouton Facteurs aléatoires pour afficher la boîte de dialogue Facteurs aléatoires (Modèle Mixte) ; spécifiez A2, B2, et C2 comme facteurs aléatoires, puis cliquez sur le bouton OK deux fois pour réaliser l'analyse modifiée. À l'apparition de la boîte de dialogue GLM - Résultats, cliquez sur le bouton Compos. variance et sur le bouton Tous les effets dans l'onglet Synthèse pour afficher respectivement les feuilles de données Composantes de la Variance et Tests de Significativité Univariés. Vous devriez trouver des résultats identiques à ceux obtenus sur les variables A1, B1, et C1.

Synthèse. Cet exemple a montré comment estimer les composantes de la variance pour des plans hiérarchiquement imbriqués. Nous avons utilisé deux méthodes de codification des facteurs imbriqués. Les résultats sont identiques pour les deux méthodes de codification, et indiquent que les facteurs aléatoires ne contribuent pas significativement à la variation de la variable dépendante.




ANOVA Factorielle Modèle Mixte

Spécification de l'Analyse. L'exemple suivant se base sur un petit fichier de données présenté dans l'ouvrage de Milliken et Johnson (1992, p. 238). La variable dépendante est VD et les prédicteurs catégoriels sont A et B. Les données sont contenues dans le fichier d'exemple mill238.sta. Ouvrez ce fichier de données à l'aide de la commande Ouvrir des Exemples du menu Fichier ; ce fichier se situe dans le répertoire Fichiers de Données.

Milliken et Johnson (1992) ont analysé ces données en utilisant une ANOVA factorielle d'ordre deux en traitant les effets principaux et les interactions d'ordre deux comme des effets aléatoires. Ils ont également estimé les composantes de la variance en utilisant différentes méthodes d'estimation. Pour réaliser ces analyses, sélectionnez la commande Modèle Linéaire Général à partir du menu Statistiques - Modèles Linéaires/Non-Linéaires Avancés pour afficher la boîte de dialogue Modèle Linéaire Général (Panneau de Démarrage). Ensuite, sélectionnez l'option ANOVA Factorielle comme Type d'analyse et l'option Spécifications rapides comme Méthode de spécification. Ensuite cliquez sur le bouton OK pour faire apparaître la boîte de dialogue GLM (Spécifications Rapides) - ANOVA Factorielle.

Cliquez sur le bouton Variables pour ouvrir la boîte de dialogue standard de sélection de variables des plans ANOVA factoriels. Sélectionnez VD dans la liste de Variables dépendantes, A et B comme Prédicteurs catégoriels (facteurs), et ensuite cliquez sur le bouton OK pour retourner dans la boîte de dialogue GLM (Spécifications Rapides) - ANOVA Factorielle.

Maintenant cliquez sur l'onglet Options pour accéder aux options supplémentaires de l'analyse. Cliquez sur le bouton Facteurs aléatoires pour afficher la boîte de dialogue Effets Aléatoires (Modèle Mixte). Sélectionnez A et B comme facteurs aléatoires, puis cliquez sur OK pour retourner dans la boîte de dialogue GLM (Spécifications Rapides) - ANOVA Factorielle.

Notez que l'option Sigma-restreint du cadre Paramétrisation est automatiquement désélectionnée parce que la codification sur-paramétrée des prédicteurs catégoriels est toujours utilisée pour les modèles mixtes (c'est-à-dire, comportant des effets aléatoires dans le plan inter ; consultez aussi le module Décomposition de la variance et Modèle Mixte ANOVA/ANCOVA).

Milliken et Johnson (1992) ont utilisé la décomposition de Type I des sommes des carrés dans l'une de leurs analyses, aussi, sélectionnons l'option Type I pour les Sommes des carrés.

Conservez les autres spécifications par défaut pour cette analyse, et cliquez sur le bouton OK (Exécuter) pour réaliser l'analyse. La syntaxe du programme automatiquement générée dans la boîte de dialogue des spécifications est la suivante :

GLM;

Résultats.

Estimation des composantes de la variance de Type I. Lorsque la boîte de dialogue GLM - Résultats apparaît, cliquez sur le bouton Compos. variance dans l'onglet Synthèse. Une feuille de données donnant les composantes de la variance pour VD va apparaître :

Aux arrondis près, ces estimations sont conformes à celles obtenues par Milliken et Johnson (1992, p. 239).

Estimation des composantes de la variance de Type III. Milliken et Johnson (1992) ont par ailleurs estimé les composantes de la variance en utilisant les sommes des carrés de Type IV. Les estimations de Type IV pour des données sans valeurs manquantes sont identiques aux estimations de Type III et de Type V. Pour obtenir ces estimations, cliquez sur le bouton Modifier dans la boîte de dialogue GLM - Résultats afin de retourner à la boîte de dialogue GLM (Spécifications Rapides) - ANOVA Factorielle. (Notez que si vous retournez d'abord dans la boîte de dialogue GLM - Éditeur de Syntaxe, cliquez tout simplement sur le bouton < Retour pour revenir dans la boîte de dialogue GLM (Spécifications rapides) - ANOVA Factorielle.)

Sélectionnez l'option Type V pour les Sommes des carrés (vous pourriez aussi bien sélectionner les options Type III ou Type IV ) dans l'onglet Options, et ensuite cliquez sur le bouton OK (Exécuter) pour réaliser l'analyse modifiée. Quand la boîte de dialogue GLM - Résultats apparaît une nouvelle fois, cliquez sur le bouton Compos. variance pour afficher les composantes de la variance estimées de Type V.

A nouveau, ces estimations sont conformes à celles de Milliken et Johnson (1992, p. 239). Notez que pour les deux groupes d'estimations, les composantes de la variance de A et B possèdent des valeurs négatives. Il s'agit d'une caractéristique déconcertante de l'estimation des composantes de la variance ; les estimations sont très souvent négatives. En pratique, nous traitons habituellement les composantes de la variance négatives comme des composantes nulles (égales à zéro), ce qui résout le problème. Par conséquent, les deux groupes d'estimations confirment clairement que l'interaction A par B représente la seule composante non nulle de variation de la variable dépendante (autre que l'Erreur).

Pour tester la significativité des effets dans les modèles comportant des effets aléatoires, nous devons construire les termes d'erreur avec les mêmes sources de variation aléatoire, sauf pour la dispersion des effets respectifs étudiés. C'est ce que fait la méthode de Satterthwaite de synthèse du dénominateur (Satterthwaite, 1946), qui trouve les combinaisons linéaires des sources de variation aléatoire qui servent de termes d'erreur appropriés pour tester la significativité des effets respectifs. La variation conjointe des sources de variation est représentée par les éléments de la matrice Moyennes des Carrés Théoriques, qui apparaît en cliquant sur le bouton MC théoriques.

Cliquez sur le bouton Denom synth. pour faire apparaître la feuille de données des Coefficients de la Synthèse du Dénominateur reportant les coefficients utilisés pour construire les combinaisons linéaires des sources de variation aléatoire basés sur les sommes des carrés de Type V.

Les coefficients indiquent, par exemple, que la Moyenne des carrés de A doit être testée contre 0,996094 fois la Moyenne des carrés de l'interaction A par B, plus 0,003906 fois la Moyenne des carrés de l'Erreur.

Pour effectuer les tests de significativité, nous formons les ratios appropriés de Moyennes des carrés afin de calculer les statistiques du F et les niveaux p. Cliquez sur le bouton Tous les Effets pour afficher le tableau de synthèse du modèle mixte ANOVA.

Comme indiqué dans la feuille de données des Tests Univariés de Significativité de VD, l'interaction A par B est significative au seuil p < .05, mais ni l'effet principal A ni l'effet principal B ne sont significatifs au seuil, F < 1,0. Notez également que l'effet principal A possède des degrés de liberté du dénominateur non entiers (fractionnaires), reflétant le terme d'erreur synthétique utilisé pour tester l'effet. L'effet principal B possède 2 degrés de liberté pour le dénominateur, parce qu'il est testé uniquement contre l'interaction A par B avec 2 degrés de liberté. L'ordonnée à l'origine ne peut pas être testée parce qu'elle ne possède aucun degré de liberté pour son terme d'erreur synthétique.




ANOVA Effets Principaux

Le fichier de données Adstudy.sta contient 25 variables et 50 observations. Ouvrez ce fichier de données à l'aide de la commande Ouvrir des Exemples du menu Fichier ; ce fichier se situe dans le répertoire Fichiers de Données. Ces données (fictives) ont été collectées au cours d'une étude publicitaire où des hommes et des femmes ont évalué deux publicités. Le sexe des personnes interrogées est enregistré dans la variable 1 (Sexe : 1=homme, 2 = femme). Chaque personne interrogée regarde au hasard l'une des deux publicités (Pub  : 1=Coca, 2=Pepsi). On leur demande ensuite de classer l'impact des publicités respectives sur 23 échelles différentes (Mesure1 à Mesure23). Sur chacune de ces échelles, les personnes interrogées doivent donner une note comprise entre 0 et 9.

Spécification de l'Analyse. Il existe plusieurs approches possibles pour analyser ces données. Pour cet exemple, nous considérons un modèle avec deux effets principaux, où nous estimons l'effet principal Sexe sur les réponses en contrôlant l'effet principal Pub, et où nous estimons l'effet principal Pub sur les réponses en contrôlant l'effet principal Sexe. Nous n'incluons pas l'interaction Sexe par Pub dans notre modèle (bien que cette interaction puisse légitimement être étudiée).

Sélectionnez la commande Modèle Linéaire Général dans le menu Statistiques - Modèles Linéaires/Non-Linéaires Avancés pour afficher la boîte de dialogue Modèles Linéaires Généraux (Panneau de Démarrage). Pour cet exemple nous allons spécifier l'analyse en utilisant la boîte de dialogue GLM - Assistant Analyse (l'analyse pourrait aussi facilement être spécifiée via la boîte de dialogue Spécifications Rapides - ANOVA Effets principaux). Toutefois, sélectionnez l'Assistant Analyse comme Méthode de spécification. Puis cliquez sur le bouton OK pour afficher une boîte de dialogue standard de sélection de variables afin de spécifier les variables de l'analyse.

Sélectionnez les variables Mesure1 à Mesure23 comme Variables dépendantes et Sexe et Pub comme Prédicteurs catégoriels. Cliquez sur le bouton OK pour accéder à la boîte de dialogue GLM - Assistant Analyse -- Plan Inter.

Lorsque vous ne sélectionnez que des prédicteurs catégoriels dans une analyse, le plan inter par défaut est un plan factoriel complet. Pour spécifier un modèle différent d'effets principaux, cliquez sur l'onglet Plan inter spécifique. Sélectionnez (c'est-à-dire, mettez en surbrillance) les variables Sexe et Pub dans le champ d'édition Catégorielles du cadre Variables prédictives. Ensuite, cliquez sur le bouton Ajouter du cadre Méthode pour créer les termes d'effets principaux des prédicteurs sélectionnés. Ces termes sont alors reportés dans le champ d'édition Effets du plan inter.

Notez que la syntaxe automatiquement générée dans la boîte de dialogue des spécifications est la suivante :

GLM;

Pour obtenir cette syntaxe, cliquez sur le bouton Suivant > de la boîte de dialogue GLM - Assistant Analyse -- Plan Inter et cliquez ensuite sur le bouton Éditeur de syntaxe de la boîte de dialogue GLM - Assistant Analyse -- Options Étendues pour afficher la boîte de dialogue GLM - Éditeur de Syntaxe. Le rappel des spécifications pour cette analyse peut utiliser les spécifications par défaut, donc cliquez sur le bouton OK (Exécuter) soit dans la boîte de dialogue GLM - Éditeur de Syntaxe soit dans la boîte de dialogue GLM - Assistant Analyse -- Plan Inter pour exécuter l'analyse.

Résultats. Quand la boîte de dialogue GLM - Résultats apparaît, cliquez sur le bouton Tous les effets (situé dans l'onglet Base).

La table de synthèse des tests multivariés indique qu'aucun des deux effets principaux Sexe et Pub n'est significatif avec un seuil p > 0,30. Cliquez maintenant sur le bouton Résultats univariés dans l'onglet Synthèse pour faire apparaître les tableaux de synthèse des tests de significativité univariés des effets principaux Sexe et Pub pour chaque variable dépendante.

Ci-dessus figure une partie des Résultats Univariés de chaque VD. Cohérent avec les résultats multivariés, seuls 3 des 46 effets principaux (2 pour chacun des 23 variables dépendantes) sont significatifs au seuil p<.05.




ANOVA à un Facteur

Cet exemple est donné dans l'ouvrage de Milliken et Johnson (1992, p. 6). Les données proviennent d'une expérience visant à déterminer l'influence de six types de travaux différents sur les pulsations cardiaques d'un travailleur. Dans cette expérience, 78 hommes ont été aléatoirement affectés à 6 tâches différentes (13 travailleurs par tâche). En raison de la fatigue, 68 travailleurs seulement terminent l'expérience. Un jour donné, les pulsations des travailleurs sont mesurées (prise du pouls pendant 20 secondes) après une heure de travail. Les données sont contenues dans le fichier d'exemple Pulse.sta. Ouvrez ce fichier à l'aide de la commande Ouvrir des Exemples du menu Fichier ; ce fichier se situe dans le répertoire Fichiers de Données.

Spécification du Plan. Milliken et Johnson (1992) ont réalisé une ANOVA à un facteur et plusieurs comparaisons planifiées des effets du Travail sur le Pouls. Pour réaliser ces analyses, sélectionnez la commande Modèle Linéaire Général depuis le menu Statistiques - Modèles Linéaire/Non-Linéaires Avancés pour afficher la boîte de dialogue Modèle Linéaire Général (Panneau de Démarrage) dans laquelle vous pouvez saisir les spécifications du modèle. Sélectionnez l'option ANOVA à un facteur comme Type d'analyse et l'option Spécifications rapides comme Méthode de spécification. Ensuite cliquez sur le bouton OK pour afficher la boîte de dialogue GLM (Spécifications Rapides) - ANOVA à un Facteur.

Cliquez sur le bouton Variables pour afficher la boîte de dialogue standard de sélection de variables pour les modèles ANOVA à un facteur. Sélectionnez la variable Pouls dans la liste de choix Variables dépendantes, sélectionnez la variable Travail comme Prédicteur catégoriel (facteur), et ensuite cliquez sur le bouton OK pour retourner dans la boîte de dialogue GLM (Spécifications Rapides) - ANOVA à un Facteur.

Nous pourrions conserver les autres spécifications par défaut pour cette analyse, et donc réaliser l'analyse en cliquant sur le bouton OK. Toutefois, pour cet exemple, nous allons étudier les autres spécifications possibles. Donc cliquez sur le bouton Éditeur de syntaxe pour afficher la boîte de dialogue GLM - Éditeur de Syntaxe.

Le champ d'édition Syntaxe de l'analyse reporte une série de commandes produite à partir des spécifications renseignées dans la boîte de dialogue GLM (Spécifications Rapides) - ANOVA à un Facteur. Notez que de nombreux mots-clés possèdent la spécification none. Même si vous n'avez jamais pensé à spécifier des analyses en utilisant la syntaxe, vous disposez ici d'une liste d'options pouvant être utilisées dans une analyse. Pour exécuter l'analyse en utilisant les spécifications déjà renseignées, cliquez sur le bouton OK (Exécuter) afin de faire apparaître la boîte de dialogue GLM - Résultats.

Résultats. Pour examiner la table de synthèse de l'ANOVA à un facteur pour l'effet global du Travail sur le Pouls, cliquez sur le bouton Tous les effets dans l'onglet Base.

Résultats de l'ANOVA. L'ANOVA indique un effet significatif du Travail sur le Pouls, au seuil p<.01. Pour les plans ANOVA à un Facteur, vous obtiendrez des résultats identiques quelle que soit la codification utilisée pour les niveaux du prédicteur catégoriel (soit la paramétrisation par défaut sigma-restreint utilisée ici, soit le modèle sur-paramétré) et en utilisant l'un des six types de sommes des carrés disponibles dans les Spécifications rapides - onglet Options (la décomposition de l'hypothèse efficace ou décomposition des sommes des carrés de Type VI par défaut est utilisée ici, ou tous les types de sommes des carrés de Type I à Type V).

Spécifier les comparaisons planifiées. Milliken et Johnson (1992) ont également réalisé plusieurs comparaisons planifiées des effets (des différents travaux sur le Pouls pour ces données). Ils ont utilisé un intervalle de confiance à 90% pour comparer la moyenne du Travail 1 sur le Pouls à la moyenne des moyennes du Travail 3 à Travail 6 sur le Pouls. Pour utiliser des limites de confiance à 90% (et non les limites de confiance par défaut à 95%), saisissez la valeur 0,90 dans le champ d'édition Confiance de l'onglet Base. Puis cliquez sur l'onglet Comps pour faire apparaître les options disponibles pour effectuer les comparaisons dans cet onglet. Consultez la rubrique Analyse de contrastes et tests post-hoc du module ANOVA pour davantage de détails sur les comparaisons planifiées (analyse de contrastes).

Pour réaliser des comparaisons planifiées, cliquez sur le bouton Contrastes moy. MC pour faire apparaître la boîte de dialogue Spécifiez les contrastes du Facteur, dans laquelle vous pouvez spécifier les coefficients de contraste de l'effet Travail. Milliken et Johnson (1992) ont réalisé les comparaisons planifiées de (1) la moyenne du Travail 4 sur le Pouls par rapport à la moyenne du Travail 5 sur le Pouls, (2) la moyenne du Travail 1 sur le Pouls par rapport à la moyenne des moyennes du Travail 2 au Travail 4 sur le Pouls, et (3) la moyenne du Travail 1 sur le Pouls par rapport à la moyenne des moyennes du Travail 3 au Travail 6 sur le Pouls. Saisissez les coefficients de contraste appropriés pour ces comparaisons, chaque ensemble de coefficients devant totaliser zéro dans chacune des trois colonnes de Contrastes.

Résultats des comparaisons planifiées. Après avoir saisi les coefficients, cliquez sur le bouton OK et ensuite le bouton Calculer dans l'onglet Comps pour afficher une série de feuilles de données reportant les résultats des comparaisons planifiées. La feuille de données Contrastes estimés reporte les tests de significativité et intervalles de confiance de chaque comparaison.

Les résultats présentés dans la feuille de données indiquent que seule la première comparaison planifiée est significative au seuil p<.001. La valeur 0,0 se situe dans l'intervalle de confiance à 90% pour les deux dernières comparaisons planifiées, ce qui est cohérent avec les probabilités de significativité respectives à p>.10 pour ces comparaisons.




Plan Factoriel Inter-Groupes 2 x 3

Cet exemple est basé sur des données fictives reportées par Lindman (1974). Supposez que vous avez conduit une expérience visant à traiter de la question des comportements innés ou acquis ; plus précisément, vous avez testé les performances de différents rats dans un "labyrinthe en T". Le labyrinthe en T est un labyrinthe élémentaire, dans lequel la tâche du rat consiste à retrouver directement la nourriture placée en un endroit particulier, sans commettre d'erreurs. Nous utilisons trois lignées de rats pour cette expérience avec des capacités générales classées en trois catégories (lignées) pour résoudre le problème du labyrinthe en T : Brillant, Mixte et Mauvais. Pour chacune de ces lignées, 4 animaux ont été élevés en liberté, dans un environnement stimulant (libre) et 4 autres en captivité (cage). La mesure dépendante est le nombre d'erreurs commises par chaque rat pour résoudre le problème du labyrinthe en T.

Les données de cette étude sont disponibles dans le fichier d'exemple Rats.sta. Ouvrez ce fichier de données à l'aide de la commande Ouvrir des Exemples du menu Fichier ; ce fichier se situe dans le répertoire Fichiers de Données. Ci-dessous, un extrait de ce fichier de données.

Spécification de l'Analyse. Sélectionnez la commande Modèle Linéaire Général dans le menu Statistiques - Modèles Linéaires/Non-Linéaires Avancés pour accéder à la boîte de dialogue Modèles Linéaires Généraux (Panneau de Démarrage) dans laquelle vous pouvez définir les spécifications du modèle. Sélectionnez l'option ANOVA Factorielle comme Type d'analyse, les Spécifications Rapides comme Méthode de spécification, puis cliquez sur le bouton OK pour accéder à la boîte de dialogue GLM - ANOVA Factorielle (Spécifications Rapides).

Dans le fichier de données Rats.sta, les codes 1-Libre et 2-Cage ont été utilisés dans la variable prédictive catégorielle Élevage pour indiquer si le rat a été élevé en liberté ou en captivité. Vous pouvez aussi considérer ces variables comme des variables de classement, des variables de codification, ou des facteurs inter-groupes. Ces variables contiennent les codes qui permettent d'identifier de façon unique à quel groupe expérimental, chacune des observations appartient.

Les codes utilisés pour la seconde variable indépendante (Lignée) sont 1-Brillant, 2-Mixte, et 3-Mauvais. La variable dépendante d'une expérience est celle qui dépend des variables indépendantes ou qui est modifiée par elles ; dans cette étude, il s'agit de la variable Erreurs, qui contient le nombre d'erreurs commises par le rat respectif dans le labyrinthe.

Il s'agit d'un plan factoriel inter-groupes 2 (Élevage) par 3 (Lignée). Les variables Élevage et Lignée sont des variables prédictives catégorielles, et la variable Erreurs est la variable dépendante. Cliquez sur le bouton Variables dans l'onglet Base, et spécifiez la variable Erreurs dans la Liste de variables dépendantes et les variables Élevage et Lignée comme Prédicteurs catégoriels (facteurs), puis cliquez sur le bouton OK pour retourner à la boîte de dialogue GLM - ANOVA Factorielle (Spécifications Rapides).

Spécifiez ensuite les codes utilisés pour identifier l'appartenance de chaque observation aux différents groupes ; pour ce faire, cliquez sur le bouton Codes facteurs et saisissez les différents codes pour chaque variable ou cliquez sur le bouton Tous pour chaque variable afin d'utiliser tous les codes disponibles de la variable correspondante. Cliquez à nouveau sur le bouton OK pour retourner à la boîte de dialogue GLM - ANOVA Factorielle (Spécifications Rapides).

Cliquez à présent sur le bouton OK pour démarrer l'analyse et accéder à la boîte de dialogue GLM - Résultats.

Résultats. Cette boîte de dialogue offre un certain nombre d'options de sortie. Pour le moment, cliquons sur le bouton Tous les effets (dans l'onglet Base) pour produire une feuille de données contenant le tableau de synthèse de l'ANOVA pour cette analyse.

Tableau de synthèse de l'ANOVA. Ce tableau synthétise les principaux résultats de l'analyse. Remarque  : les effets significatifs (p<0,05) de ce tableau apparaissent en surbrillance (en rouge) dans la feuille de données. Vous pouvez modifier le critère de significativité (pour la mise en surbrillance) en saisissant le seuil alpha souhaité dans le champ Niveau de significativité de l'onglet Base. Les deux effets principaux (Élevage et Lignée) sont statistiquement significatifs (p<0,05) alors que leur interaction d'ordre deux ne l'est pas (p>0,05).

Étude des moyennes marginales. Nous allons étudier les moyennes marginales de l'effet principal Élevage (remarque : vous pouvez calculer les moyennes marginales comme des moyennes pondérées ou non-pondérées ou comme les moyennes des moindres carrés). Cliquez sur le bouton Tous effets/Graphs pour afficher la boîte de dialogue Table de Tous les Effets.

Dans cette boîte de dialogue, sélectionnez l'effet principal Élevage et le bouton d'option Feuille de données dans le cadre Représenter (voir ci-dessus), puis cliquez sur le bouton OK pour produire la feuille de données des moyennes marginales pour l'effet sélectionné.

Le graphique par défaut de toutes les feuilles de données avec des moyennes marginales est un tracé de moyennes avec barres d'erreur. Dans notre cas, le tracé est très simple. Pour produire ce tracé des deux moyennes (élevage libre et en cage), retournez à la boîte de dialogue Table de Tous les Effets (en cliquant sur le bouton Tous effets/Graphs de l'onglet Base), sélectionnez le bouton d'option Graphique dans le cadre Représenter, puis cliquez à nouveau sur le bouton OK.

Il apparaît que les rats élevés en captivité (cage) commettent davantage d'erreurs que les rats élevés en liberté (libre). Examinons à présent toutes les moyennes simultanément, c'est-à-dire dans le tracé d'interaction Élevage par Lignée.

Étude du tracé d'interaction. Revenez à nouveau dans la boîte de dialogue Table de Tous les Effets et sélectionnez cette fois l'interaction (Élevage*Lignée). Lorsque vous cliquez sur le bouton OK, la boîte de dialogue Arrangement des Facteurs apparaît :

Comme vous pouvez le constater, vous pouvez contrôler la manière dont les facteurs sont représentés dans l'interaction. Ici, sélectionnez le facteur Lignée pour l'axe x, supérieur et le facteur Élevage comme Motif de ligne (voir ci-dessus), puis cliquez sur le bouton OK pour produire le graphique des moyennes.

Le graphique ci-dessous synthétise parfaitement les résultats de notre étude, c'est-à-dire la structure des deux effets principaux. Les rats élevés en cage (droite en pointillés) commettent davantage d'erreurs que ceux élevés en liberté (ligne continue). Dans le même temps, nous constatons que les rats issus d'une Mauvaise lignée commettent davantage d'erreurs que les rats issus d'une lignée Mixte, et que les rats issus d'une lignée Brillante commettent le moins d'erreurs.

Comparaisons Post-hoc des Moyennes. À l'examen du tracé ci-dessus, nous pouvons nous demander si la lignée de rats Mixte est significativement différente de la lignée Mauvaise et Brillante. Toutefois, nous n'avons aucune hypothèse a priori, c'est pourquoi nous utiliserons des comparaisons post-hoc pour tester les différences de moyennes entre les lignées de rats (voir l'Introduction pour une explication de la logique des tests post hoc).

Spécifier les tests post-hoc. Retournez à la boîte de dialogue  GLM - Résultats, cliquez sur le bouton Autres résultats pour afficher une boîte de dialogue GLM - Résultats plus grande, puis cliquez sur l'onglet Post-hoc. Dans cet exemple, sélectionnez de comparer les moyennes marginales (non pondérées) pour l'effet Lignée dans la liste déroulante Effet.

Choisir un test. Les différents tests post-hoc de cette boîte de dialogue vous permettent d'éviter, dans une certaine mesure, de tirer parti de la chance (en raison de la nature post-hoc des comparaisons). Tous les tests vous permettent de comparer les moyennes sans hypothèse a priori. Ces tests sont présentés dans le cadre de l'onglet Post-hoc. Pour le moment, cliquez simplement sur le bouton Scheffé.

Cette feuille de données nous donne la significativité statistique des différences entre tous les couples de moyennes. Comme vous pouvez le constater, la différence entre le groupe 1 (Brillant) et le groupe 3 (Mauvais) est significative au seuil p<0,05. Vous pouvez donc en conclure que la lignée de Mauvais rats fait significativement plus d'erreurs que la lignée de rats Brillant, tandis que la lignée Mixte n'est pas significativement différente des deux autres.

Tests d'Hypothèses. La rubrique ANOVA/MANOVA et Modèle Linéaire Général - Introduction - Hypothèses et Conséquences de la Violation des Hypothèses rappelle les hypothèses préalables à l'utilisation des techniques d'ANOVA. Les mêmes hypothèses s'appliquent à une ANOVA réalisée à l'aide du modèle linéaire général. Nous allons à présent vérifier ces hypothèses sur les données de notre exemple. Retournez à la boîte de dialogue GLM - Résultats et cliquez sur l'onglet Hypothèses dans lequel sont proposés différents tests et graphiques ; certains ne s'appliquent qu'à des modèles plus complexes.

Distribution de la variable dépendante. L'ANOVA suppose une distribution normale de la variable dépendante (intra-groupe). Vous pouvez voir la distribution de tous les groupes combinés, ou seulement d'un groupe particulier en sélectionnant le groupe dans la liste déroulante Effet. Pour le moment, sélectionnons l'interaction Élevage*Lignée et cliquons sur le bouton Histogrammes dans le cadre Distrib. des variables par groupes. La boîte de dialogue Sélectionnez les Groupes apparaît alors et vous permet de sélectionner l'affichage de la distribution de tous les groupes combinés, ou seulement d'un groupe particulier.

Dans cet exemple, contentons-nous de cliquer sur le bouton OK pour accepter la sélection par défaut (Tous Grpes) et produire l'histogramme de la distribution.

Il apparaît que la distribution des groupes est multimodale, c'est-à-dire qu'elle possède plusieurs "pics". Nous aurions pu nous en douter compte tenu de l'existence d'effets principaux significatifs. Pour tester l'hypothèse d'homogénéité, vous pouvez examiner la distribution individuelle des groupes. Pour notre part, nous allons à présent tester une violation potentiellement plus grave des hypothèses de l'ANOVA.

Corrélation entre les moyennes et les écarts-types. L'écart à la normalité n'est pas le seul "ennemi" de la validité d'une ANOVA ; le "piège" le plus important consiste à baser les interprétations d'un effet sur une cellule "extrême" du plan, avec une dispersion beaucoup plus importante que la dispersion moyenne. En d'autres termes, lorsque les moyennes et les écarts-types sont corrélés entre les cellules du plan, la performance (taux d'erreur alpha) du test F se détériore de façon importante et vous pouvez rejeter l'hypothèse nulle au seuil p<0,05 quand bien même la valeur réelle de p serait de 0,50 !

Examinez maintenant la corrélation entre les 6 moyennes et écarts-types du plan. Vous pouvez choisir de représenter les moyennes en fonction des écarts-types ou des variances en cliquant sur le bouton respectif (respectivement Tracé moyennes selon écarts-types et Variances) dans l'onglet Hypothèses. Pour cet exemple, cliquez sur le bouton Tracé des moyennes en fonction des écarts-types.

Remarque : dans l'illustration ci-dessus, nous avons ajouté les limites de régression grâce à la boîte de dialogue Options du Graphique - onglet Tracé  : Bandes de Régr.. Les moyennes et les écarts-types apparaissent en effet assez fortement corrélés dans ce plan. Si nous devions prendre une décision importante dans cette étude, il serait judicieux de vérifier la structure des effets principaux significatifs en utilisant, par exemple, certaines procédures non-paramétriques (voir le module Tests Non-Paramétriques) qui ne dépendent pas des résultats bruts (et des variances) mais en revanche des rangs. Dans tous les cas, vous devrez interpréter ces résultats avec la plus grande prudence.

Homogénéité des variances. Vérifiions à présent l'homogénéité des variances. Dans l'onglet Hypothèses, divers tests sont disponibles dans le cadre Homogénéité des variances/covariances. Vous pouvez utiliser un test univarié (Cochran C, Hartley, Bartlett) pour calculer le test standard d'homogénéité des variances, ou le Test de Levene, mais aucun ne donnera de résultats statistiquement significatif. Ci-dessous, la feuille de données du Test de Levene d'Homogénéité des Variances.

Synthèse. Outre le fait d'illustrer certaines des fonctionnalités du module ANOVA/MANOVA, cette analyse a permis de mettre en évidence l'importance de la représentation graphique des données (par exemple, pour produire un nuage de points des moyennes selon les écarts-types). Si vous n'aviez examiné que les tests F de significativité et les tests standard d'homogénéité de variances, vous n'auriez pas prêté attention aux violations potentiellement sérieuses des hypothèses, que nous avons pu détecter dans le nuage de points des moyennes selon les écarts-types. Sans examen plus approfondi, vous auriez pu conclure que les effets des facteurs d'environnement (Élevage) et génétiques (Lignée) semblent tous deux avoir un effet (additif) sur la performance au test du labyrinthe en T. Toutefois, nous devons étudier nos données plus avant à l'aide de méthodes non-paramétriques afin de nous assurer que les niveaux de significativité statistique (p) de l'ANOVA ne sont pas exagérés.




Surface de Réponse

Box, Hunter, et Hunter (1978, Chapitre 15) rapportent une étude sur le rendement d'un procédé chimique. Les deux facteurs étudiés dans cette étude sont la température (variable Degrés) et le Temps de réaction des agents chimiques. Comme nous ne nous attendons pas à observer une simple relation linéaire entre ces facteurs et le rendement obtenu, nous utilisons une surface de réponse. Le fichier d'exemple Composit.sta contient les données de l'expérience (voir Box, Hunter, et Hunter, 1978). Ouvrez ce fichier de données à l'aide de la commande Ouvrir des Exemples du menu Fichier ; ce fichier se situe dans le répertoire Fichiers de Données.

Spécifier l'Analyse. Le plan décrit par Box, Hunter, et Hunter (1978) est un plan composite centré de surface de réponse standard à 2 facteurs. Nous réaliserons tout d'abord une analyse en utilisant un modèle avec effets principaux uniquement et testerons l'adéquation de l'ajustement du modèle. Pour réaliser l'analyse, sélectionnez la commande Modèle Linéaire Général depuis le menu Statistiques - Modèles Linéaire/Non-Linéaires Avancés pour afficher la boîte de dialogue Modèles Linéaires Généraux (Panneau de Démarrage). Sélectionnez l'option Surface de Réponse comme Type d'analyse, l'option Spécifications rapides comme Méthode de spécification, et cliquez sur le bouton OK pour ouvrir la boîte de dialogue GLM (Spécifications Rapides) - Surface de Réponse. Cliquez sur le bouton Variables pour afficher la boîte de dialogue standard de sélection de variables. Là, sélectionnez RENDEMENT comme Variable dépendante, Temps et Degrés comme Prédicteurs continus et Bloc comme Variable de bloc. Cliquez ensuite sur OK pour retourner à la boîte de dialogue GLM (Spécifications Rapides) - Surface de Réponse.

Puisque le plan comporte un point central par bloc, nous pouvons estimer l'erreur pure, et tester le manque d'ajustement général. Comme nous l'avons présenté dans l'Introduction du module des Plans d'Expériences, lorsque certains points au moins sont répliqués (des points centraux de préférence) dans un plan composite centré, il est possible d'estimer la variabilité aléatoire des mesures (fiabilité) de la variable dépendante à partir de la dispersion des mesures sur ces points identiques du plan. Vous pouvez ainsi tester la significativité de la dispersion résiduelle (qui n'est pas expliquée par les facteurs et leurs interactions). Si ce test est statistiquement significatif, c'est une indication de l'inadéquation ou du manque d'ajustement du modèle courant.

Les tests t du manque d'ajustement nécessitent le calcul de l'erreur pure non expliquée par le modèle. Pour demander le calcul de l'erreur pure, cliquez sur l'onglet Options pour faire apparaître d'autres options d'analyse. Puis sélectionnez l'option Défaut d'ajustement dans le cadre Paramétrisation.

Puisque la surface de réponse par défaut comprend d'autres termes que les effets principaux, nous pouvons modifier les spécifications de l'analyse dans l'éditeur de syntaxe. Cliquez sur le bouton Éditeur de syntaxe pour ouvrir la boîte de dialogue GLM - Éditeur de Syntaxe. Dans le champ d'édition Syntaxe de l'analyse, l'instruction DESIGN du plan complet de surface de réponse quadratique est le suivant :

DESIGN = BLOC + TEMPS | TEMSP | DEGRES | DEGRES @2;

Modifiez l'instruction DESIGN pour spécifier un modèle ne contenant que les effets principaux :

DESIGN = BLOC + TEMPS + DEGRES;

La syntaxe complète de l'analyse doit maintenant être la suivante :

GLM;

Cliquez maintenant sur le bouton OK (Exécuter) pour exécuter l'analyse.

Étude des Résultats.

Tests du manque d'ajustement. La boîte de dialogue GLM - Résultats apparaît lorsque l'analyse est terminée. Pour calculer le test du manque (défaut) d'ajustement, cliquez sur le bouton R modèle complet dans le cadre Effets inter de l'onglet Base. La feuille de données Test de Défaut d'Ajustement donnera les résultats suivants.

Le test du manque d'ajustement est assez peu significatif (p<0,10), ce qui indique que le modèle linéaire ne comportant que les effets principaux est sans doute trop simple.

Modifions maintenant l'analyse en spécifiant un plan de surface de réponse quadratique. Cliquez sur le bouton Modifier pour retourner à la boîte de dialogue GLM - Éditeur de Syntaxe. Dans le champ Syntaxe de l'analyse, changez l'instruction DESIGN en :

DESIGN = BLOC + TEMPS | TEMPS | DEGRES | DEGRES @2;

Cliquez ensuite sur OK (Exécuter) pour exécuter l'analyse modifiée. Quand la boîte de dialogue GLM - Résultats apparaît, cliquez sur le bouton R modèle complet.

Le test du manque (défaut) d'ajustement pour ce plan n'est pas significatif (p = .42).

Coefficients de régression. Cliquez sur le bouton Coefficients dans l'onglet Synthèse pour afficher la feuille de données des Paramètres Estimés des coefficients de l'équation de régression.

Comme vous pouvez le constater, les coefficients de tous les effets sauf l'effet de Bloc sont significatifs.




Régression Simple

Fichier de Données. Cet exemple est basé sur le fichier Poverty.sta servi avec votre programme STATISTICA. Ouvrez ce fichier à l'aide de la commande Ouvrir des Exemples du menu Fichier ; ce fichier se situe dans le répertoire Fichiers de Données. Ci-dessous, un extrait de ce fichier de données :

Ces données sont basées sur une comparaison de différents agrégats entre les recensements de 1960 et 1970 pour 30 comtés sélectionnés de façon aléatoire. Le nom des comtés est reporté en noms d'observations. L'information ci-dessous concernant chacune des variables est accessible dans la boîte de dialogue Spécifications de Toutes des Variables (accessible par la commande Spécs. de Toutes les Variables du menu Données)  :

Problématique. Dans cet exemple, nous allons analyser une variable éventuellement corrélée à la pauvreté et dans quelle mesure elle permet de prévoir le pourcentage de familles situées sous le seuil de pauvreté dans un comté. Nous allons donc traiter la variable 1 (Pt_Pauvr) comme variable dépendante (réponse).

L'une des hypothèses possibles est que l'évolution de la population et le pourcentage de familles situées en deçà du seuil de pauvreté sont liées. Il semble raisonnable de considérer que la pauvreté va conduire à une émigration ; nous pouvons donc nous attendre à obtenir une corrélation négative entre le pourcentage de familles situées sous le seuil de pauvreté et l'évolution de la population. En conséquence, nous allons traiter la variable 2 (Vari_Pop) comme variable prédictive.

Spécifier l'analyse. Pour réaliser cette analyse, sélectionnez la commande Modèle Linéaire Général dans le menu Statistiques - Modèles Linéaires/Non-Linéaires Avancés afin d'ouvrir la boîte de dialogue Modèle Linéaire Général (Panneau de Démarrage). Sélectionnez l'option Régression simple comme Type d'analyse, les Spécifications rapides comme Méthode de spécification, puis cliquez sur le bouton OK pour accéder à la boîte de dialogue GLM (Spécifications Rapides) - Régression Simple. Cliquez sur le bouton Variables afin d'afficher une boîte de dialogue standard de sélection de variables. Dans cette boîte de dialogue, sélectionnez Pt_Pauvr dans la Liste de variables dépendantes et la variable Vari_Pop comme Variable prédictive, puis cliquez sur le bouton OK pour retourner à la boîte de dialogue GLM Régression Simple (Spécifications Rapides).

Pour visualiser la syntaxe produite automatiquement par le programme à partir de la boîte de dialogue des spécifications, cliquez sur le bouton Éditeur de syntaxe dans le boîte de dialogue GLM (Spécifications Rapides) - Régression Simple afin d'accéder à la boîte de dialogue GLM - Éditeur de Syntaxe.

GLM;

Nous pouvons conserver les spécifications par défaut pour les autres paramètres, et cliquer sur le bouton OK (Exécuter) dans la boîte de dialogue GLM - Éditeur de Syntaxe ou sur le bouton OK dans la boîte de dialogue GLM (Spécifications Rapides) - Régression Simple pour réaliser l'analyse.

Étude des Résultats

Coefficients de régression. Lorsque la boîte de dialogue GLM - Résultats apparaît, cliquez sur le bouton Coefficients dans l'onglet Synthèse afin d'afficher une boîte de dialogue contenant les coefficients de la régression de Pt_Pauvr selon Vari_Pop.

À l'intersection de la ligne Vari_Pop et de la colonne Param., nous constatons que le coefficient de régression non standardisé pour la régression de Pt_Pauvr selon Vari_Pop est égal à -0.40374. Ceci signifie que pour chaque unité de moins dans la population, nous observons 0,40374 unité de plus au niveau de la pauvreté. Les limites de confiance inférieure et supérieure à 95% (par défaut) de ce coefficient non centré-réduit ne contiennent pas zéro, et le coefficient de régression est donc significatif au seuil p<0,05. Remarque : le coefficient standardisé, qui est également le coefficient de corrélation de Pearson du modèle de régression simple est égal à -0,65, ce qui signifie que pour chaque diminution d'un écart-type dans la population, nous observons une augmentation de 0,65 écart-type de la pauvreté.

Distribution des variables. Les coefficients de corrélation peuvent devenir substantiellement sur-évalués ou sous-évalués en présence de points aberrants (ou atypiques) dans les données ; penchons nous donc un instant sur la distribution de la variable dépendante Pt_Pauvr selon les comtés. Cliquez avec le bouton droit de la souris dans la colonne intitulée Pt_Pauvr (param.) puis sélectionnez la commande Graphiques des Données d'Entrée - Histogramme : Pt_Pauvr - Ajustement Normal dans le menu contextuel qui apparaît afin de produire l'histogramme par défaut suivant :

Grâce à la commande Histogrammes du menu Graphiques, vous pouvez produire un histogramme de la variable Pt_Pauvr avec davantage d'intervalles (dans la boîte de dialogue Histogrammes en 2D - onglet Base, cliquez sur le bouton Variables et sélectionnez la variable Pt_Pauvr puis cliquez sur le bouton OK  ; saisissez ensuite la valeur 16 dans le champ Catégories du cadre Intervalles et cliquez sur le bouton OK). Comme vous pouvez le constater ci-dessous, la distribution de cette variable s'écarte sensiblement de la distribution normale. Toutefois, bien que deux comtés (dans les deux barres situées à l'extrême droite) possèdent un pourcentage plus élevé de familles sous le seuil de pauvreté que celui auquel nous pourrions nous attendre dans le cadre d'une distribution normale, il semblent demeurer dans un intervalle "assez raisonnable"

Cette décision demeure assez subjective ; en règle générale, lorsqu'une ou plusieurs observations se situe en dehors de l'intervalle constitué par la moyenne ± 3 fois l'écart-type, il faut s'en préoccuper. Dans ce cas, il est conseillé de répéter les analyses les plus critiques avec et sans les points aberrants afin de s'assurer qu'ils n'ont pas affecté les corrélations de manière importante.

Nuages de points. Si vous avez des hypothèses a priori concernant la relation entre des variables spécifiques, il peut être intéressant de représenter le nuage de points respectif. Cliquez sur la boîte de dialogue GLM - Résultats - onglet Matrice pour faire apparaître diverses options d'affichage de matrices. Cliquez sur le bouton Corrélation pour afficher une feuille de données avec la matrice de corrélations.

Cliquez avec le bouton droit de la souris sur la corrélation entre Vari_Pop et Pt_Pauvr puis sélectionnez la commande Graphiques des Données d'Entrée - Nuage de Points par... - Régression, IC à 95% dans le menu contextuel  ; sélectionnez ensuite la variable Vari_Pop et cliquez sur le bouton OK afin de produire le nuage de points par défaut.

Ce nuage de points révèle une corrélation fortement négative (-0,65) entre les deux variables. Il indique également les limites de confiance à 95% de la droite de régression, c'est-à-dire que vous pouvez affirmer avec 5% de risques de vous tromper (ou 95% de chances de dire vrai) que la droite de régression dans la population se situe à l'intérieur des limites définies par les deux courbes en pointillés.

Test de significativité. Retournons à la boîte de dialogue GLM - Résultats - onglet Synthèse et cliquez sur le bouton Résultats univariés pour afficher une feuille de données contenant les tests de significativité.

Le test du coefficient de régression de Vari_Pop confirme que la variable Vari_Pop est fortement liée à la variable Pt_Pauvr, au seuil p<0,001.

Synthèse. Cet exemple a montré comment analyser un problème de régression simple. Nous avons vu comment interpréter les coefficients de régression standardisés (centrés-réduits) et non standardisés (non centrés-réduits). Nous avons ensuite évoqué l'importance de l'examen de la distribution des réponses sur la variable dépendante, et diverses techniques pour déterminer le sens et l'intensité de la relation entre la variable prédictive et la variable dépendante.




Régression Multiple

Cet exemple est basé sur le fichier Poverty.sta servi avec votre programme STATISTICA. Ouvrez ce fichier à l'aide de la commande Ouvrir des Exemples du menu Fichier ; ce fichier se situe dans le répertoire Fichiers de Données. Voir la rubrique Exemple 7 qui illustre une régression simple pour une description de ce fichier de données. Voir aussi la rubrique Introduction du module Régression Multiple pour une présentation de ces méthodes.

Dans cet exemple, nous allons étudier plusieurs variables qui sont potentiellement liées à la pauvreté et allons examiner dans quelle mesure chacune permet de prévoir (relativement) le pourcentage de familles situées en deçà du seuil de pauvreté dans un comté. Nous allons donc traiter la variable 1 (Pt_Pauvr) comme variable dépendante (réponse), et les autres variables comme des prédicteurs continus.

Spécifier l'analyse. Pour réaliser cette analyse, sélectionnez la commande Modèle Linéaire Général dans le menu Statistiques - Modèles Linéaires/Non-Linéaires Avancés afin d'ouvrir la boîte de dialogue Modèle Linéaire Général (Panneau de Démarrage). Sélectionnez l'option Régression multiple comme Type d'analyse, les Spécifications rapides comme Méthode de spécification, puis cliquez sur le bouton OK pour accéder à la boîte de dialogue GLM (Spécifications Rapides) - Régression Multiple. Cliquez sur le bouton Variables afin d'afficher une boîte de dialogue standard de sélection de variables. Dans cette boîte de dialogue, sélectionnez Pt_Pauvr dans la Liste de variables dépendantes et les autres variables comme Variables prédictives, puis cliquez sur le bouton OK pour retourner à la boîte de dialogue GLM (Spécifications Rapides) - Régression Multiple.

Pour visualiser la syntaxe produite automatiquement par le programme à partir de la boîte de dialogue des spécifications, cliquez sur le bouton Éditeur de syntaxe dans le boîte de dialogue GLM (Spécifications Rapides) - Régression Multiple afin d'accéder à la boîte de dialogue GLM - Éditeur de Syntaxe.

GLM;

Nous pouvons conserver les spécifications par défaut pour les autres paramètres, et cliquer sur le bouton OK (Exécuter) dans la boîte de dialogue GLM - Éditeur de Syntaxe ou sur le bouton OK dans la boîte de dialogue GLM (Spécifications Rapides) - Régression Multiple pour réaliser l'analyse.

Étude des Résultats

Coefficients de régression. Lorsque la boîte de dialogue GLM - Résultats apparaît, cliquez sur le bouton Coefficients dans l'onglet Synthèse. Pour connaître celles des variables indépendantes qui contribuent le plus à la prévision de la pauvreté, examinons les coefficients de régression non standardisés (ou B) ainsi que les coefficients de régression centrés-réduits (ou Bêta).

Les coefficients Bêta sont les coefficients que vous auriez obtenus si vous aviez tout d'abord centré-réduit toutes vos variables de telle sorte que chacune ait une moyenne de 0 et un écart-type de 1. Ainsi, l'étendue de ces coefficients Bêta vous permet de comparer la contribution relative de chaque variable indépendante à la prévision de la variable dépendante. Comme vous pouvez le constater dans la feuille de données illustrée ci-dessus, les variables Vari_Pop, Pt_Rural et N_Agric sont les plus importants prédicteurs de la pauvreté ; parmi celles-ci, seules les deux premières variables sont statistiquement significatives (l'intervalle de confiance à 95% ne contient pas la valeur 0). Le coefficient de régression de Vari_Pop est négatif, ce qui signifie que moins la population s'accroît, et plus le nombre de familles vivant sous le seuil de pauvreté dans le comté respectif est important. Le coefficient de régression de Pt_Rural est en revanche positif, ce qui signifie que plus le pourcentage de population rurale est important, plus le niveau de pauvreté est important également.

Significativité des effets des régresseurs. Cliquez sur le bouton Résultats univariés pour afficher une feuille de données contenant les tests de significativité.

Comme indiqué dans cette feuille de données, seuls les effets de Vari_Pop et de Pt_Rural sont statistiquement significatifs au seuil p < .05.

Analyse des Résidus. Après avoir ajusté une équation de régression, il faut toujours examiner les résultats prévus et les résidus. Par exemple, des points aberrants ou atypiques peuvent sérieusement biaiser les résultats et conduire à des conclusions fausses. Dans la boîte de dialogue GLM - Résultats, cliquez sur le bouton Autres résultats puis sur l'onglet Résidus 1 pour accéder à diverses options destinées à analyser les résidus.

Tracé des résidus par observation. Il est souvent conseillé d'examiner la structure des résidus bruts ou centrés-réduits pour identifier les points atypiques. Dans notre exemple, nous pouvons sélectionner le bouton d'option Centrés-réduits dans le cadre Résidus dans les tracés. Cliquez à présent sur le bouton N° d'obs. & résid. pour produire le graphique suivant des résidus selon les numéros d'observations.

L'échelle verticale de ce tracé est exprimée en termes de sigma, c'est-à-dire l'écart-type des résidus. Si une ou plusieurs observations se situent en dehors des limites de ± 3 fois sigma, il faudra vraisemblablement exclure les observations respectives (ce que vous pouvez faire simplement à l'aide des filtres de sélection) et ré-exécuter l'analyse pour vous assurer que les principaux résultats (clé) n'ont pas été biaisés par ces points aberrants.

Distances de Mahalanobis. La plupart des ouvrages de statistiques traitent de la question des points aberrants et des résidus concernant la variable dépendante. Toutefois, le rôle des points aberrants dans les variables prédictives est rarement évoqué. Vous avez en fait une liste de variables qui participent à différent degré (ou poids, c'est-à-dire les coefficients de régression) à la prévision de la variable dépendante. Vous pouvez considérer que les variables indépendantes constituent un espace multidimensionnel dans lequel chaque observation est projetée. Par exemple, si vous avez deux variables indépendantes avec les mêmes coefficients de régression, vous pouvez construire un nuage de points de ces deux variables, et projeter chaque observation dans ce tracé. Vous pouvez alors représenter la moyenne des deux variables par un point, et calculer les distances de chaque observation à la moyenne (que nous appellerons centre de gravité du nuage ou barycentre) dans cet espace à deux dimensions ; c'est l'idée sous-jacente du calcul de la distance de Mahalanobis. Examinons à présent ces distances pour identifier les observations extrêmes au niveau des variables prédictives. Cliquez sur l'onglet Résidus 2 et sélectionnez l'option Dis.Mah. dans la liste X (var/prévision/résidu). Cliquez ensuite sur le bouton Histogramme du X sélectionné (variable, valeur prévue ou résidu) pour afficher un histogramme de la distribution des distances de Mahalanobis.

Il apparaît un point atypique dans les distances de Mahalanobis. Pour identifier l'observation, cliquez sur l'onglet Résidus 1, sélectionnez l'option Distance de Mahalanobis dans la liste déroulante Trier les obs. par, puis cliquez sur le bouton Valeurs prévues & résidus afin d'afficher la feuille de données Valeurs Observées, Prévues et Résidus.

Vous remarquerez que le comté de Shelby (sur la première ligne) apparaît d'une certaine manière assez différent des autres comtés dans cette feuille de données. Si vous examinez les données brutes, vous allez effectivement constater que le comté de Shelby est de loin le plus important et celui qui compte le plus d'agriculteurs (variable N_Agric). Sans doute aurait-il été judicieux d'exprimer ces valeurs en part de la population active plutôt qu'en effectifs, et la distance de Mahalanobis pour le comté de Shelby aurait sans doute été beaucoup moins différente des autres comtés de notre échantillon. En tout état de cause, le comté de Shelby apparaît ici clairement comme un point aberrant.

Résidus supprimés. Une autre statistique très importante qui nous permet d'évaluer la gravité du problème des points aberrants est celle des résidus supprimés. Il s'agit du résidu centré-réduit de l'observation respective que nous obtiendrions si l'observation respective était éliminée de l'analyse. Rappelez-vous que la procédure de régression multiple ajuste une surface de régression afin d'exprimer la relation qui existe entre une variable dépendante et des variables prédictives. Si une observation est clairement un point aberrant (comme le comté de Shelby dans notre exemple), la surface de régression aura tendance à être "tirée" par ce point afin de l'expliquer autant que possible. En conséquence, si nous éliminons cette observation, nous allons obtenir une surface complètement différente (ainsi que des coefficients B). Ainsi, lorsque le résidu supprimé est très différent du résidu centré-réduit, nous avons de bonnes raisons de croire que la régression est fortement biaisée par l'observation respective. Dans cet exemple, le résidu supprimé du comté Shelby est un point aberrant qui affecte l'analyse de façon importante. Vous pouvez représenter les résidus en fonction des résidus supprimés en sélectionnant tout d'abord le bouton d'options Bruts dans le cadre Résidus dans les tracés puis en cliquant sur le bouton Rés. & R. suppr., pour produire un nuage de point de ces valeurs. Le nuage de point met clairement en évidence ce point aberrant. Remarque : pour étiqueter le point aberrant (Shelby), cliquez sur le bouton de la barre d'outils afin d'afficher la boîte de dialogue Habillage en 2D, dans laquelle vous pouvez Étiqueter le point respectif.

Tracés de normalité. Différents tracés de normalité sont proposés dans les onglets Résidus. Ils sont assez simples à interpréter ; cependant, attardons-nous un instant sur ces tracés de normalité.

Comme nous l'avons déjà mentionné, la régression linéaire multiple suppose l'existence de relations linéaires entre les variables de l'équation, et une distribution normale des résidus. Si ces hypothèses sont violées, vos conclusions risquent d'être inexactes. Le tracé de normalité des résidus vous permet de savoir si des violations plus ou moins importantes de ces hypothèses se sont produites. Cliquez sur le bouton Droite de Henry dans le cadre Normalité des résidus pour produire ce tracé.

Ce tracé est construit de la manière suivante. Tout d'abord, les résidus centrés-réduits sont ordonnés en rangs. À partir de ces rangs, nous calculons les valeurs z (c'est-à-dire les valeurs standard de la distribution normale) en faisant l'hypothèse que les données suivent une distribution normale. Ces valeurs z sont représentées selon l'axe y du tracé.

Si les résidus observés (représentés le long de l'axe x) sont distribués normalement, toutes les valeurs doivent se trouver alignées sur une droite  ; dans notre tracé, tous les points sont effectivement alignés sur la droite. Lorsque les résidus ne sont pas normalement distribués, ils s'écartent de cette droite. Ce tracé permet également de mettre en évidence les points aberrants.

S'il existe un manque d'ajustement général et que les données semblent former une structure évidente (par exemple, une forme en S) autour de cette droite, il peut être utile de transformer la variable dépendante (par exemple, une transformation log qui va "ramener" les extrémités de la distribution, etc...). La présentation de ces techniques dépasse le cadre de cet exemple (mais vous trouverez une excellente présentation des transformations permettant de remédier aux problèmes de non-normalité et de non-linéarité dans l'ouvrage de Neter, Wasserman et Kutner, 1985, pages 134-141) ; toutefois, nombre de chercheurs ont tendance à prendre leurs données "pour argent comptant" sans vérifier le fondement de leurs hypothèses, pouvant ainsi conduire à des conclusions erronées. C'est la raison pour laquelle l'un des objectifs fondamentaux du module GLM a été de rendre l'analyse (graphique) des résidus aussi simple et accessible que possible.

Didacticiels

Vous pouvez visionner l'intégralité de la série de tutoriels Le Data Mining en 35 Leçons avec STATISTICA en remplissant le formulaire d'inscription. Vous serez alors notifié(e) automatiquement de la disponibilité des nouveaux épisodes et recevrez d'autres informations utiles.

StatSoft propose par ailleurs une série de didacticiels et présentations interactives décrivant pas-à-pas différentes opérations que vous pouvez réaliser à l'aide de STATISTICA. Si vous souhaitez voir aborder un thème particulier, merci de nous écrire.