Concepts Fondamentaux en Statistique

Techniques Exploratoires Multivariées :

Analyse Factorielle avec Rotation des Facteurs...

Une Alternative à l'ACP



Voir aussi la rubrique : ACP "à la Française" (Jean-Paul Benzécri)

Sommaire :


Principes Fondamentaux

Les principaux objectifs des analyses factorielles sont : (1) de réduire le nombre de variables et (2) de détecter la structure des relations entre les variables, ce qui revient à classer les variables. Par conséquent, l'analyse factorielle peut s'utiliser pour synthétiser (réduire) des données, ou détecter une structure (le terme analyse factorielle a été introduit en anglais par Thurstone, 1931). Les rubriques suivantes décrivent les principes de l'analyse factorielle, et la façon dont celle-ci s'applique pour répondre à ces deux objectifs. Nous considérerons comme acquise la logique du raisonnement statistique décrite dans la rubrique Concepts Élémentaires. En outre, nous considérerons que les concepts de variance et de corrélation vous sont familiers ; si ce n'est pas le cas, nous vous recommandons de lire l'introduction du module Statistiques Élémentaires avant de poursuivre.

Il existe d’excellents ouvrages sur l'analyse factorielle. Par exemple, l'ouvrage de vulgarisation de Stevens (1986) ; d'autres descriptions plus approfondies et plus techniques sont données par Cooley et Lohnes (1971)  ; Harman (1976) ; Kim et Mueller, (1978a, 1978b) ; Lawley et Maxwell (1971)  ; Lindeman, Merenda, et Gold (1980) ; Morrison (1967) ; ou encore Mulaik (1972). L'interprétation des facteurs secondaires dans l'analyse factorielle hiérarchique, comme alternative aux méthodes de rotation obliques traditionnelles est expliquée en détail par Wherry (1984).

Analyse factorielle confirmatoire. STATISTICA comporte également le module général de Modélisation d'Équations Structurelles (SEPATH). Les procédures disponibles dans ce module vous permettent de tester des hypothèses spécifiques quant à la structure factorielle d'un ensemble de variables, dans un ou plusieurs échantillons (par exemple, vous pouvez comparer les structures factorielles entre des échantillons). La rubrique Exemples du module SEPATH donne quelques exemples de ces analyses.

Analyse des correspondances. L’analyse des correspondances est une technique descriptive/exploratoire conçue pour analyser des tableaux à double entrée ou plus, contenant des mesures de correspondances entre les lignes et les colonnes. Les résultats fournissent des informations similaires à celles produites par les techniques d'analyse factorielle et permettent d'explorer la structure des variables catégorielles du tableau. Pour plus d'informations sur ces méthodes, veuillez vous reporter à la description du module Analyse des Correspondances.

Analyse Factorielle Hiérarchique

Facteurs obliques. Certains auteurs (par exemple, Cattell et Khanna ; Harman, 1976 ; Jennrich et Sampson, 1966 ; Clarkson et Jennrich, 1988) ont présenté en détail le concept de facteur oblique (non-orthogonal), afin d'obtenir une structure simple plus facilement interprétable (voir la rubrique Introduction). Plus précisément, des méthodes de calcul (algorithmes) ont été élaborées pour la rotation des facteurs afin de mieux représenter les "classes" de variables, sans la contrainte d'orthogonalité des facteurs. Toutefois, les facteurs obliques issus de ces rotations sont souvent difficilement interprétables. Par exemple, supposez que nous analysons les réponses à un questionnaire concernant la satisfaction des personnes interrogées sur différents aspects de leur vie. Supposons que le questionnaire contient 3 questions pour mesurer la satisfaction au travail, 3 questions pour mesurer la satisfaction au domicile et 4 questions pour mesurer la satisfaction globale. Considérons aussi que les réponses des individus à ces 4 dernières questions sont influencées autant par leur satisfaction au domicile (Facteur 1) qu'au travail (Facteur 2). Dans ce cas, une rotation oblique produirait certainement deux facteurs corrélés dont l'interprétation serait moins immédiate, c'est-à-dire, avec de nombreux poids factoriels croisés.

Analyse Factorielle Hiérarchique. Au lieu de calculer les poids factoriels de facteurs obliques souvent difficiles à interpréter, le module Analyse Factorielle de STATISTICA utilise une méthode qui a été proposée pour la première fois par Thompson (1951) ainsi que Schmid et Leiman (1957), méthode présentée et popularisée grâce à un ouvrage détaillé de Wherry (1959, 1975, 1984). Par cette méthode, STATISTICA identifie tout d'abord les classes d'objets et effectue une rotation des axes à travers ces classes ; les corrélations entre ces facteurs (obliques) sont alors calculées, puis cette matrice de corrélation de facteurs obliques est analysée afin de produire un ensemble de facteurs orthogonaux répartissant la dispersion des objets en variance partagée ou commune (facteurs secondaires), et en variance propre expliquée par les classes de variables (objets) similaires de l'analyse (facteurs principaux). Pour reprendre l'exemple ci-dessus, cette analyse hiérarchique donnerait les poids factoriels suivants  :

ANALYSE

FACTORIELLE de

STATISTICA

Poids Factoriels 1aires & 2ndaires

 

 

Facteur

Second. 1

Primaire 1

Primaire 2

TRAV_1

TRAV_2

TRAV_3

DOMI_1

DOMI_2

DOMI_3

DIVERS_1

DIVERS_2

DIVERS_3

DIVERS_4

.483178

.570953

.565624

.535812

.615403

.586405

.780488

.734854

.776013

.714183

.649499

.687056

.656790

.117278

.079910

.065512

.466823

.464779

.439010

.455157

.187074

.140627

.115461

.630076

.668880

.626730

.280141

.238512

.303672

.228351

L'examen attentif de ces poids factoriels nous permettrait d'établir les conclusions suivantes :

  1. Il existe un facteur de satisfaction général (secondaire) affectant probablement tous les types de satisfaction mesurés par nos 10 questions ;

  2. Il apparaît deux zones principales de satisfaction pouvant s'interpréter en termes de satisfaction professionnelle et de satisfaction au domicile.

Wherry (1984) présente des exemples extrêmement détaillés de ces analyses hiérarchiques, et donne la manière d'obtenir des facteurs secondaires explicites et interprétables.

Principes Fondamentaux de l'Analyse Factorielle comme Méthode de

Réduction des Données

Supposons que nous avons mené une étude (il s'agit d'un cas d'école) dans laquelle nous avons mesuré la taille de 100 individus en pouces et en centimètres. Nous disposons donc de deux variables pour mesurer la taille. Dans une autre étude, si nous souhaitons mettre en évidence, par exemple, l'impact de différents compléments alimentaires sur la taille, continuerons-nous à utiliser ces deux mesures ? Probablement pas ; car la taille est une caractéristique individuelle indépendante de la manière avec laquelle elle est mesurée.

Extrapolons maintenant à partir de ce cas d'école, aux problèmes plus concrets qui se posent aux chercheurs. Supposons que nous souhaitons mesurer le degré de satisfaction des individus dans leur vie. Nous élaborons un questionnaire de satisfaction avec diverses questions ; entre autres choses, nous demandons aux personnes interrogées leur degré de satisfaction par rapport à leurs hobbies (question 1) et l'intensité avec laquelle ils pratiquent un hobby (question 2). Dans la plupart des cas, les réponses à ces deux questions seront fortement corrélées (si vous n'êtes pas familiarisé(e) avec le coefficient de corrélation, nous vous recommandons la lecture préalable de la rubrique Statistiques Élémentaires - Corrélations). Si nous observons une forte corrélation entre les deux questions, nous pouvons conclure que ces deux questions sont quasiment redondantes.

Combiner Deux Variables dans un Seul Facteur

Il est possible de synthétiser la corrélation entre deux variables dans un nuage de points. Nous pouvons ajuster une droite de régression qui va représenter la "meilleure" synthèse de la relation linéaire entre les variables. Si nous pouvions définir une variable pouvant approcher la droite de régression dans ce tracé, cette variable restituerait "l'essence" des deux variables. Les résultats des individus sur ce facteur, représentés par la droite de régression, pourraient ensuite être utilisés dans d'autres analyses pour représenter cette essence des deux variables. Dans un sens, nous avons réduit les deux variables dans un facteur. Notez que le nouveau facteur est en fait une combinaison linéaire des deux variables.

Analyse en Composantes Principales (ACP)

L'exemple décrit dans la rubrique Principes Fondamentaux de l'Analyse Factorielle comme Méthode de Réduction des Données, où nous avons mis en évidence la possibilité de combiner deux variables corrélées dans un même facteur, illustre l'idée de base de l'analyse factorielle, ou de l'Analyse en Composantes Principales (ACP) pour être plus précis (nous y reviendrons plus tard). Si nous étendons l'exemple de deux variables, à plus de variables, les calculs deviennent certes plus complexes, mais le principe de base reste le même.

Extraction des Composantes Principales

Nous n'entrerons pas dans les détails des calculs de l'Analyse en Composantes Principales (ACP), qui sont très bien détaillés par ailleurs (vous trouverez des références au début de cette section). Toutefois, l'extraction des composantes principales revient en fait à réaliser une rotation permettant de maximiser la variance (varimax) dans l'espace original des variables. Par exemple, dans un nuage de points, nous pouvons appréhender la droite de régression comme l'axe X original, que nous ferions pivoter afin d'approcher la droite de régression. Ce type de rotation est appelé maximisation de la variance car le critère (but) de la rotation est de maximiser la variance (dispersion) de la "nouvelle" variable (facteur), tout en minimisant la variance autour de la nouvelle variable (voir la rubrique Stratégies de Rotation).

Généralisation à de Multiples Variables

Lorsque nous avons plus de deux variables, nous pouvons considérer que ces variables définissent un "espace", de la même manière que deux variables définissent un plan. Ainsi, lorsque nous avons trois variables, nous pouvons de la même manière tracer un nuage de points en trois dimensions, et ajuster un plan à travers les données.

Pour plus de trois variables il devient impossible de conceptualiser la représentation dans un nuage de points, mais, la logique de rotation des axes pour maximiser la variance du nouveau facteur demeure la même.

Orthogonalité des facteurs. Après avoir trouvé la droite pour laquelle la variance est maximale, il demeure une certaine dispersion autour de cette droite. Dans l'Analyse en Composantes Principales (ACP), après l'extraction du premier facteur, c'est-à-dire, après que la première droite ait été tracée sur les données, nous continuons à chercher une autre droite qui va maximiser la dispersion restante, et ainsi de suite. C'est de cette manière, que les facteurs consécutifs seront extraits. Puisque chaque facteur consécutif est défini de sorte à maximiser la dispersion qui n'est pas captée par le facteur précédent, les facteurs consécutifs sont indépendants les uns des autres. En d'autres termes, les facteurs consécutifs ne sont pas corrélés ou sont orthogonaux les uns par rapport aux autres.

Combien de Facteurs faut-il Extraire ?

Jusqu'à présent, nous avons considéré l'Analyse en Composantes Principales (ACP) comme une méthode de réduction des données, c'est-à-dire, une méthode permettant de réduire le nombre de variables. La question est maintenant de savoir combien de facteurs il nous faut exactement extraire Notez que les facteurs successifs qui sont extraits expliquent de moins en moins de dispersion. La décision d'arrêter l'extraction des facteurs dépend en fait du moment où il ne reste plus qu'une très petite dispersion "aléatoire". La nature de cette décision est arbitraire ; toutefois, de nombreuses recommandations ont été proposées, et nous les détaillerons dans la rubrique Étudier les Résultats d'une Analyse en Composantes Principales dans la section Valeurs Propres et Problème du Nombre de Facteurs.

Étudier les Résultats d'une Analyse en Composantes Principales

Examinons maintenant certains des résultats standard d'une Analyse en Composantes Principales (ACP). Au risque de nous répéter, nous extrayons des facteurs expliquant de moins en moins de variance. Pour simplifier, prenons une matrice de corrélations, où les variances de toutes les variables sont égales à 1,0. Par conséquent, la variance totale dans cette matrice sera égale au nombre de variables. Ainsi, si nous avons 10 variables avec chacune une variance de 1, la dispersion totale potentiellement extractible sera de 10 fois 1. Supposons que dans l'enquête de satisfaction présentée précédemment, nous ayons 10 questions permettant de mesurer divers aspects de satisfaction à la maison et au travail. La variance expliquée par les facteurs successifs pourrait se résumer ainsi :

Valeurs propres. Dans la seconde colonne (ValProp.) de la feuille de données ci-dessus, nous trouvons la variance des nouveaux facteurs que nous avons successivement extraits. Dans la troisième colonne, ces valeurs sont exprimées en pourcentage de la variance totale (égale dans cet exemple à 10). Comme nous pouvons le voir, le facteur 1 explique 61% de la variance, le facteur 2 en explique 18%, et ainsi de suite. Comme nous pouvions nous y attendre, la somme des valeurs propres est égale au nombre de variables. La quatrième colonne contient la variance extraite cumulée. Les variances extraites par les facteurs sont appelées valeurs propres. Ce nom provient de calculs complexes (résolution du problème dit des Valeurs propres, voir aussi la rubrique Notes et Informations Techniques).

Valeurs propres et problème du nombre de facteurs. Maintenant que nous possédons une mesure de la variance extraite par chaque facteur successif, nous pouvons nous poser la question du nombre de facteurs à retenir. Comme nous l'avons déjà mentionné, il s'agit d'une décision arbitraire. Toutefois, il existe des critères qui sont habituellement retenus, et qui, en pratique donnent les meilleurs résultats.

Le critère de Kaiser. Pour commencer, nous pouvons ne retenir que les facteurs ayant une valeur propre supérieure à 1. Au fond, c'est comme si nous disions qu'à moins qu'un facteur extrait soit au moins l'équivalent d'une variable originale, nous ne le retenons pas. C'est le critère proposé par Kaiser (1960), et c'est sans doute le critère le plus couramment utilisé. Dans l'exemple ci-dessus, avec ce critère, nous ne retiendrions que 2 facteurs (composantes principales).

Le test des valeurs propres. Une méthode graphique est le test des valeurs propres qui a été proposé par Cattell (1966). Nous pouvons représenter les valeurs propres reportées dans la feuille de données ci-dessus dans un simple tracé linéaire.

Cattell suggère de trouver l'endroit où les valeurs propres semblent s'équilibrer à droite du tracé. A droite de ce point, on risque de ne trouver que des "éboulis factoriels" -- "éboulis" est un terme géologique désignant les débris que l'on trouve dans la partie inférieure d'une pente rocheuse. Selon ce critère, nous retiendrions probablement 2 à 3 facteurs dans l'exemple ci-dessus.

Quel critère utiliser  ? Les deux critères ont été étudiés en détail (Browne, 1968 ; Cattell et Jaspers, 1967 ; Hakstian, Rogers, et Cattell, 1982 ; Linn, 1968 ; Tucker, Koopman et Linn, 1969). Théoriquement, on peut évaluer ces critères en générant des données aléatoires basées sur un nombre particulier de facteurs. On peut voir si le nombre de facteurs est précisément détecté par ces critères. En utilisant cette technique générale, la première méthode (Critère de Kaiser) retient parfois trop de facteurs, tandis que la seconde (test des valeurs propres) en retient parfois trop peu ; toutefois, l'une et l'autre donnent de bons résultats dans des conditions normales, c'est-à-dire avec relativement peu de facteurs et de nombreuses observations. En pratique, un aspect important à prendre en compte est le degré auquel une solution est interprétable. C'est pourquoi, nous examinons souvent plusieurs solutions avec plus ou moins de facteurs, et choisissons celle qui est la plus facilement interprétable. Nous évoquerons ce problème dans le cadre de la rotation factorielle ci-dessous.

Analyse des Facteurs Principaux. Avant de continuer à examiner les différents aspects des sorties spécifiques d'une Analyse en Composantes Principales (ACP), introduisons préalablement l'analyse des facteurs principaux. Reprenons notre exemple du questionnaire de satisfaction pour concevoir un autre modèle abstrait d'analyse factorielle. Nous pouvons imaginer que les réponses des individus dépendent de deux composantes. Tout d'abord, il existe des facteurs sous-jacents communs, comme le facteur "degré de satisfaction avec les loisirs" que nous avons examiné précédemment. Chaque question mesure une certaine partie de cet aspect commun de satisfaction. Puis, chaque question restitue également un aspect propre de la satisfaction qui n'est restitué par aucune autre.

Communautés. Si ce modèle est correct, nous ne devons pas nous attendre à ce que les facteurs extraient toute la variance de nos questions ; ce sera en revanche la part qui est due aux facteurs communs et qui est partagée avec d'autres questions. Dans la terminologie de l'analyse factorielle, la part de variance d'une question particulière qui est imputable aux facteurs communs (partagée avec les autres questions) est appelée communauté. Par conséquent, il nous faudra, lors de l'application du modèle, estimer les communautés pour chaque variable, c'est-à-dire, la part de la variance que chaque question a en commun avec les autres. La part de la variance qui est propre à chaque question est donc la variance totale de la question respective, à laquelle est retranchée la communauté. On utilise habituellement la corrélation multiple au carré avec tous les autres objets pour estimer la communauté (veuillez vous reporter à la Régression Multiple pour plus de détails sur la régression multiple). Certains auteurs ont proposé des solutions pour améliorer a posteriori et par itérations, l'estimation de la communauté initiale par régression multiple ; par exemple, la méthode MINRES (minimum residual factor method ; Harman et Jones, 1966) apporte de nombreuses modifications aux poids factoriels, dans l'optique de minimiser le résidu (non expliqué) de la somme des carrés. Veuillez vous reporter à la description de la boîte de dialogue Définir la Méthode d'Extraction pour une présentation des différentes méthodes disponibles dans le module Analyse Factorielle.

Facteurs principaux vs. composantes principales. La principale différence entre les deux modèles analytiques est que l'Analyse en Composantes Principales (ACP) considère que toute la dispersion d'une variable doit être utilisée dans l'analyse, tandis que l'analyse des facteurs principaux n'utilise que la dispersion d'une variable qui est commune avec les autres. La présentation des idées des défenseurs et opposants de chaque approche dépasse le cadre de cette introduction (veuillez vous reporter aux références données dans la rubrique Analyse Factorielle - Introduction).Dans la plupart des cas, ces deux méthodes donnent souvent des résultats très proches. Toutefois, l'Analyse en Composantes Principales (ACP) est souvent préférée comme méthode de réduction des données, tandis que l'analyse des facteurs principaux est plutôt utilisée pour détecter une structure (voir la rubrique L'Analyse Factorielle comme Méthode de Classification).

L'Analyse Factorielle comme Méthode de Classification

Revenons à l'interprétation des résultats standard d'une analyse factorielle (voir la rubrique Étudier les Résultats d'une Analyse en Composantes Principales). Nous utiliserons désormais le terme générique analyse factorielle pour englober les deux analyses, ACP et analyse des facteurs principaux. Considérons que nous connaissons déjà le nombre de facteurs à extraire. Nous voulons maintenant connaître la signification des facteurs, c'est-à-dire si, et dans quelle mesure, nous pouvons les interpréter de manière explicite. Pour ce faire, nous pouvons travailler "à reculons", c'est-à-dire démarrer avec une structure explicite, et voir comment elle est restituée dans les résultats d'une analyse factorielle. Reprenons notre exemple de satisfaction  ; ci-dessous, la matrice de corrélations des questions ayant trait à la satisfaction au travail (TRAV) et des questions se rapportant à la satisfaction au domicile.

ANALYSE

FACTORIELLE de

STATISTICA

Corrélations (factor.sta)

Suppression des obs. à VM

n=100

Variable

TRAV_1

TRAV_2

TRAV_3

DOMI_1

DOMI_2

DOMI_3

TRAV_1

TRAV_2

TRAV_3

DOMI_1

DOMI_2

DOMI_3

1.00

.65

.65

.14

.15

.14

.65

1.00

.73

.14

.18

.24

.65

.73

1.00

.16

.24

.25

.14

.14

.16

1.00

.66

.59

.15

.18

.24

.66

1.00

.73

.14

.24

.25

.59

.73

1.00

Les questions portant sur la satisfaction professionnelle sont fortement corrélées entre elles, tout comme le sont les questions portant sur la satisfaction au domicile. Les corrélations entre ces deux types de questions (questions sur la satisfaction au travail et à la maison) sont en revanche, relativement faibles. En conséquence, il semblerait qu'il apparaisse deux facteurs relativement indépendants retranscrits par la matrice de corrélation, un qui serait relatif à la satisfaction professionnelle, l'autre qui serait relatif à la satisfaction au domicile.

Poids Factoriels

Réalisons maintenant une Analyse en Composantes Principales (ACP) et examinons la solution à deux facteurs. Plus précisément, examinons les corrélations entre les variables et les deux facteurs (ou "nouvelles variables synthétiques"), extraits par défaut ; ces corrélations sont également appelées poids factoriels.

STATISTICA

ANALYSE

FACTORIELLE

Poids Factoriels (sans rotation)

ACP

 

Variable

Fact. 1

Fact. 2

TRAV_1

TRAV_2

TRAV_3

DOMI_1

DOMI_2

DOMI_3

.654384

.715256

.741688

.634120

.706267

.707446

.564143

.541444

.508212

-.563123

-.572658

-.525602

VarExpl.

% Total

2.891313

.481885

1.791000

.298500

Le premier facteur apparaît plus fortement corrélé avec les variables que le second. Ceci s'explique, comme nous l'avons décrit précédemment, par le fait que les facteurs successivement extraits expliquent de moins en moins de variance totale.

Rotation de la Structure Factorielle

Nous pourrions tracer les corrélations des facteurs avec les variables données précédemment dans un nuage de points. Dans ce tracé, chaque variable serait représentée par un point. Puis nous pourrions effectuer une rotation des axes dans n'importe quelle direction sans modifier la position relative des points les uns par rapport aux autres ; toutefois, les coordonnées des points, c'est-à-dire les poids factoriels seraient bien évidemment modifiés. Dans cet exemple, si nous produisons le tracé, il est évident qu'en pivotant les axes d'environ 45 degrés, nous obtenons une structure plus claire des poids factoriels représentant les questions de satisfaction professionnelle et celles de satisfaction au domicile.

Méthodes de rotation. De nombreuses méthodes de rotation ont été proposées. L'objectif de toutes ces méthodes est d'obtenir une structure claire des poids factoriels, c'est-à-dire des facteurs qui sont clairement marqués par de fortes corrélations avec certaines variables et par de faibles corrélations avec d'autres variables. Cette structure générale est aussi parfois appelée structure simple (vous trouverez une définition plus formalisée dans la plupart des ouvrages de référence). Les méthodes de rotation classiques sont varimax, quartimax et equamax ; elles sont décrites plus en détail dans la boîte de dialogue Rotation.

Nous avons précédemment présenté l'idée de la rotation varimax (voir la rubrique Extraction des Composantes Principales), et nous pouvons tout à fait l'appliquer à ce problème particulier. Comme préalablement, nous souhaitons trouver une rotation qui maximise la variance sur les nouveaux axes ; en d'autres termes, nous cherchons à obtenir une structure des poids pour chaque facteur qui soit aussi différente que possible, permettant une interprétation aussi facile que possible. Le tableau des poids factoriels après rotation est donné ci-dessous.

ANALYSE

FACTORIELLE de

STATISTICA

Poids Factoriels (Varimax normalisé)

Extraction : ACP

 

Variable

Fact. 1

Fact. 2

TRAV_1

TRAV_2

TRAV_3

DOMI_1

DOMI_2

DOMI_3

.862443

.890267

.886055

.062145

.107230

.140876

.051643

.110351

.152603

.845786

.902913

.869995

VarExpl.

% Total

2.356684

.392781

2.325629

.387605

Interprétation de la Structure Factorielle

La structure est maintenant beaucoup plus claire. Comme nous pouvions nous y attendre, le premier facteur est marqué par de fortes corrélations avec les questions de satisfaction au travail, tandis que le second facteur est marqué par de fortes corrélations avec les questions de satisfaction au domicile. Nous pourrions donc conclure que la satisfaction, telle qu'elle a été mesurée dans notre questionnaire, est composée de ces deux aspects  ; nous sommes donc arrivés à une classification des variables.

Facteurs Obliques

Certains auteurs (par exemple, Cattell et Khanna  ; Harman, 1976 ; Jennrich et Sampson, 1966 ; Clarkson et Jennrich, 1988) ont présenté en détail le concept de facteurs obliques (non-orthogonaux), afin d'obtenir une structure simple plus facilement interprétable. Plus précisément, des méthodes de calcul ont été élaborées pour la rotation des facteurs afin de mieux représenter les "classes" de variables, sans la contrainte d'orthogonalité des facteurs. Toutefois, les facteurs obliques issus de ces rotations sont souvent difficilement interprétables. Pour revenir à l'exemple évoqué ci-dessus, supposons que nous ayons introduit dans notre questionnaire de satisfaction quatre questions mesurant d'autres types "divers" de satisfaction. Considérons que les réponses des individus aient été influencées autant par leur satisfaction au domicile (Facteur 1) qu'au travail (Facteur 2). Une rotation oblique produirait certainement deux facteurs corrélés dont l'interprétation serait moins immédiate, c'est-à-dire, avec de nombreux poids factoriels croisés.

Analyse Factorielle Hiérarchique comme Méthode de Classification

Au lieu de calculer les poids factoriels de facteurs obliques souvent difficiles à interpréter, le module Analyse Factorielle de STATISTICA utilise une méthode qui a été proposée pour la première fois par Thompson (1951) ainsi que Schmid et Leiman (1957), méthode présentée et popularisée grâce à un ouvrage détaillé de Wherry (1959, 1975, 1984). Par cette méthode, STATISTICA identifie tout d'abord les classes d'objets et effectue une rotation des axes à travers ces classes  ; les corrélations entre ces facteurs (obliques) sont alors calculées, puis cette matrice de corrélation de facteurs obliques est analysée afin de produire un ensemble de facteurs orthogonaux répartissant la dispersion des objets en variance partagée ou commune (facteurs secondaires), et en variance propre expliquée par les classes de variables (questions) similaires de l'analyse (facteurs principaux). Pour reprendre l'exemple ci-dessus, cette analyse hiérarchique donnerait les poids factoriels suivants :

ANALYSE

FACTORIELLE de

STATISTICA

Poids Factoriels 1aires 2ndaires

 

 

Facteur

Second. 1

Primaire 1

Primaire 2

TRAV_1

TRAV_2

TRAV_3

DOMI_1

DOMI_2

DOMI_3

DIVERS_1

DIVERS_2

DIVERS_3

DIVERS_4

.483178

.570953

.565624

.535812

.615403

.586405

.780488

.734854

.776013

.714183

.649499

.687056

.656790

.117278

.079910

.065512

.466823

.464779

.439010

.455157

.187074

.140627

.115461

.630076

.668880

.626730

.280141

.238512

.303672

.228351

L'examen attentif de ces poids factoriels nous permettrait d'établir les conclusions suivantes :

  1. Il existe un facteur de satisfaction général (secondaire) affectant probablement tous les types de satisfaction mesurés par nos 10 questions ;

  2. Il apparaît deux zones principales de satisfaction pouvant s'interpréter en termes de satisfaction professionnelle et de satisfaction au domicile.

Wherry (1984) présente des exemples extrêmement détaillés de ces analyses hiérarchiques, et donne la manière d'obtenir des facteurs secondaires explicites et interprétables.

Analyse factorielle confirmatoire. Au cours de ces 15 dernières années, les méthodes confirmatoires ont acquis une popularité grandissante (par exemple, voir Jöreskog et Sörbom, 1979). D'une manière générale, on peut spécifier a priori des poids factoriels pour un nombre particulier de facteurs orthogonaux ou obliques, puis tester si la matrice de corrélations observée peut être reproduite compte tenu de ces spécifications. Les analyses factorielles confirmatoires peuvent être réalisées grâce au module général Modélisation d'Équations Structurelles (SEPATH) de STATISTICA. Notez que la rubrique Exemples du module SEPATH présente quelques exemples de telles analyses.

Coordonnées des Individus

Nous pouvons estimer les coordonnées des individus sur les facteurs. Dans le module Analyse Factorielle de STATISTICA, ces coefficients peuvent être affichés dans une feuille de données ou dans un rapport, ou peuvent encore être enregistrés dans un fichier (selon le choix effectué dans la boîte de dialogue Gestionnaire de Sorties de l'Analyse/Graphique). Les coordonnées des individus sont très utiles pour poursuivre vos analyses en utilisant les facteurs identifiés par l'analyse factorielle.

Corrélations Reproduites et Résidus

Un autre élément permettant de vérifier si le nombre de facteurs extraits est bien approprié, consiste à calculer la matrice de corrélations qui serait obtenue si ces facteurs étaient effectivement les seuls. Cette matrice est appelée matrice de corrélations reproduite. Pour étudier dans quelle mesure cette matrice diffère de la matrice de corrélations observée, nous pouvons calculer la différence entre les deux ; cette matrice est appelée matrice de corrélations des résidus. La matrice des résidus met en évidence les "lacunes", c'est-à-dire les coefficients de corrélation ne pouvant être reproduits de manière satisfaisante par le nombre facteurs retenus.

Matrice Mal Conditionnée

Dans les calculs d'une analyse factorielle, STATISTICA a besoin d'inverser la matrice de corrélations. Si, cette matrice de corrélations contient des variables qui sont redondantes à 100%, l'inverse de la matrice ne pourra pas être calculé. Par exemple, si une variable est la somme de deux autres variables sélectionnées pour l'analyse, la matrice de corrélations de ces variables ne pourra être inversée, et finalement, c'est toute l'analyse factorielle qui ne pourra être réalisée. En pratique le cas peut se présenter lorsque vous tentez d'effectuer une analyse factorielle sur des variables qui sont très fortement corrélées entre elles, comme par exemple, ce qui se produit parfois lorsque vous analysez des questionnaires. Le module Analyse Factorielle va détecter toute matrice mal conditionnée et produire un message d'avertissement. Pour toutes les méthodes d'extraction autres que les composantes principales, STATISTICA va artificiellement diminuer les corrélations de la matrice de corrélations en ajoutant une faible constante à la diagonale de la matrice, avant de la re-standardiser. Cette procédure permet souvent de produire une matrice inversible permettant donc de réaliser l'analyse factorielle ; en outre, les facteurs ne sont affectés que marginalement par cette procédure. Attention toutefois, car les estimations obtenues ne seront pas exactes.

Dans le cas de l'Analyse en Composantes Principales le nombre de composantes qui peuvent être extraites est égal au nombre de valeurs propres positives de la matrice de corrélations respective ; aucun ajustement (re-standardisation) de la matrice de corrélations ne sera fait dans ce cas.

Notes et Informations Techniques

Valeurs propres. Au cœur de l'analyse factorielle se pose le problème des valeurs propres qui est résolu dans ce programme par la méthode Householder ; voir, par exemple, Golub et Van Loan (1983), Jacobs (1977), ou Ralston et Wilf (1967, Vol. II). Les valeurs propres sont calculées par les procédures des moindres carrés. La somme des valeurs propres est égale à la trace de la matrice (corrélations ou covariances) à analyser, c'est-à-dire :

lj = trace/S/ = ∑sii ou jj

lj

représente la j-ième valeur propre

/S/

représente la matrice de variance/covariance ou la matrice de corrélations

sij

représentent les éléments de la diagonale de la matrice de variance/covariance ou de la matrice de corrélations

Matrice mal conditionnée et matrice de corrélations modifiée. L'Introduction aborde le problème des matrices mal conditionnées. Si, au cours du traitement factoriel, vous recevez un message vous indiquant que la matrice de corrélations ne peut être inversée, la matrice de corrélations sera alors modifiée (pour permettre l'inversion). Plus précisément, une faible constante sera ajoutée à la diagonale de la matrice de corrélations jusqu'à ce que le déterminant de cette matrice devienne supérieur à 1.e-50. Tous les calculs ultérieurs seront alors réalisés sur ces corrélations modifiées (légèrement diminuées) ; pour rétablir la matrice de corrélations exacte originale, cliquez sur le bouton Annuler pour revenir à la boîte de dialogue Analyse Factorielle (Panneau de Démarrage) puis cliquez sur le bouton OK pour lire à nouveau le fichier de données.

Analyser des matrices de covariance ou de moments. STATISTICA inclut également deux autres modules pour l'analyse (factorielle) des matrices de covariance et des matrices des moments : Le module ACP "à la Française" va extraire les composantes principales à partir des matrices de covariance, mais également permettre à l'utilisateur de tracer de nouvelles observations ou variables dans l'espace factoriel calculé. Le module Modélisation d'Équations Structurelles (SEPATH) va accepter les matrices de corrélation, de covariance, et des moments pour l'analyse de moyennes structurées. Notez également que la bibliothèque de fonctions de STATISTICA Visual Basic comporte toutes les routines de calcul nécessaires pour extraire les composantes principales de tout type de matrice.

La matrice des poids factoriels F se calcule comme suit :

F = B Z

B

représente la matrice des résultats factoriels, et

Z

représente la matrice des valeurs standardisées (valeurs z) des données brutes originales.

La matrice des résultats factoriels B se calcule par la méthode dite de régression. Pour plus d'informations, vous pouvez vous reporter à Harman (1976), p. 368.

Pour la méthode d'extraction en Composantes Principales, B se calcule ainsi :

B = L D-1

(pour les poids factoriels sans rotation)

B = L (L'L)-1

(pour les poids factoriels avec rotation)

L représente la matrice des poids factoriels et D représente la matrice diagonale contenant les valeurs propres des facteurs extraits sur la diagonale.

Pour toutes les autres méthodes d'extraction, B se calcule comme suit :

B = R-1 L

R représente la matrice de corrélations des données originales.

Méthodes d'Analyse Factorielle

STATISTICA offre plusieurs procédures pour analyser des facteurs. Bien que la plupart des statistiques disponibles se recoupent, chacune de ces techniques est souvent utilisée dans des domaines bien particuliers.

Analyse factorielle confirmatoire. STATISTICA comporte les options générales du module Modélisation d'Équations Structurelles (SEPATH). Les procédures disponibles dans ce module vous permettent de tester des hypothèses spécifiques quant à la structure factorielle d'un groupe de variables, dans un ou plusieurs échantillons (par exemple, vous pouvez comparer les structures factorielles par échantillon). La rubrique Exemples du module SEPATH donne quelques exemples de ces analyses.

Analyse des correspondances. L’Analyse des Correspondances est une technique descriptive/exploratoire conçue pour analyser des tableaux à double entrée ou plus, contenant des mesures de correspondances entre les lignes et les colonnes. Les résultats fournissent des informations similaires à celles produites par les techniques d'analyse factorielle et permettent d'explorer la structure des variables catégorielles du tableau. Pour plus d'informations sur ces méthodes, veuillez vous reporter à l'Introduction du module Analyse des Correspondances.

Analyse factorielle. L'Analyse Factorielle est une technique exploratoire visant à (1) réduire le nombre de variables et (2) détecter la structure des relations entre les variables, ce qui revient à classer les variables. Par conséquent, l'analyse factorielle peut s'utiliser pour synthétiser (réduire) des données, ou détecter une structure (le terme analyse factorielle a été introduit en anglais par Thurstone, 1931). Pour plus d'informations concernant ces méthodes, veuillez vous reporter à l'Introduction du module Analyse Factorielle.

Modèles PLS (PLS). Ces méthodes sont une implémentation des techniques "Partial Least Squares" (PLS). La PLS vous permet d'extraire des facteurs (composantes) d'un fichier de données qui inclut une ou plusieurs variables prédictives, et une ou plusieurs variables dépendantes (réponse). La PLS est particulièrement adaptée aux problèmes impliquant beaucoup de variables prédictives (et éventuellement variables dépendantes), mais relativement peu d'observations.

Une Note à propos des Boîtes à Moustaches

Une boîte à moustaches synthétise chaque variable en trois composantes  :

  1. Une droite centrale représentant la tendance centrale ou le paramètre de position ;

  2. Une boîte représentant la dispersion autour de cette tendance centrale ;

  3. Des moustaches autour de cette boîte pour représenter l'étendue de la variable.

Après avoir cliqué sur le bouton Boîtes à Moustaches (voir l'onglet Avancé de la boîte de dialogue Statistiques Descriptives), vous pourrez choisir de tracer pour chaque variable  :

  1. Les médianes (droite centrale), quartiles (boîte) et étendues (moustaches). Remarque : vous pouvez paramétrer la méthode spécifique utilisée pour le calcul des médianes et quartiles grâce à la liste déroulante Calcul des centiles dans la boîte de dialogue Options - Analyses/Graphiques : Limites. Pour plus d'informations, voir la rubrique Options de Calcul des Centiles dans STATISTICA.

  2. Les moyennes, erreurs-types des moyennes et écarts-types  ;

  3. Les moyennes, écarts-types et 1,96 fois les écarts-types (intervalle de confiance normal à 95% des observations individuelles autour de la moyenne) ;

  4. Les moyennes, erreurs-types des moyennes et 1,96 fois les erreurs-types des moyennes (intervalle de confiance normal à 95% des moyennes).

Une Note à propos des Matrices mal Conditionnées et des Matrices de

Corrélations Modifiées

L'Introduction aborde le problème des matrices mal conditionnées. Si, au cours du traitement factoriel, vous recevez un message vous indiquant que la matrice de corrélations ne peut être inversée et que vous ouvrez ensuite la boîte de dialogue Statistiques Descriptives, la matrice de corrélations sera alors modifiée (pour permettre l'inversion). Plus précisément, une faible constante sera ajoutée à la diagonale de la matrice de corrélations jusqu'à ce que le déterminant de cette matrice devienne supérieur à 1.e-50. Les corrélations modifiées (légèrement plus faibles) seront reportées si le programme a détecté une matrice mal conditionnée et qu'il a effectué cette modification.

En outre, tous les calculs ultérieurs seront réalisés à partir de ces corrélations modifiées (légèrement plus faibles).

Stratégies de Rotation

De nombreuses méthodes de rotation ont été proposées. Le but commun à toutes ces méthodes est d'obtenir une représentation claire des poids factoriels, c'est-à-dire des facteurs qui sont d'une certaine manière clairement marqués par de fortes corrélations avec certaines variables et de faibles corrélations avec d'autres variables. Cette structure générale est aussi parfois appelée structure simple (vous trouverez une définition plus formalisée dans la plupart des ouvrages standard). Les méthodes de rotation classiques sont varimax, quartimax, et equamax. Certains auteurs (par exemple, Catell et Khanna ; Harman, 1976 ; Jennrich et Sampson, 1966  ; Clarkson et Jennrich, 1988) ont présenté en détail le concept de facteurs obliques (non-orthogonaux), permettant de rendre la structure simple plus facilement interprétable. Plus précisément, des méthodes de calcul ont été élaborées pour faire pivoter les facteurs afin de mieux représenter les "classes" de variables, sans la contrainte d'orthogonalité des facteurs. Toutefois, les facteurs obliques issus de ces rotations sont souvent difficilement interprétables. Utilisez le bouton Analyse hiérarchique des facteurs obliques dans l'onglet Poids Factoriels de la boîte de dialogue Résultats de l'Analyse Factorielle afin d’identifier des classes de variables (corrélées, obliques) ; voir également la rubrique Analyse factorielle hiérarchique).

Remarque : le module Modélisation d'Équations Structurelles (SEPATH) vous permet de tester l'adéquation (qualité d'ajustement) des solutions de facteurs obliques ou orthogonaux spécifiques.

Varimax brut. La sélection de cette option dans la liste déroulante Rotation factorielle permet de réaliser une rotation varimax des poids factoriels. Cette rotation est destinée à maximiser les variances des poids factoriels bruts au carré pour chaque facteur ; cela revient à maximiser les variances dans les colonnes de la matrice des poids factoriels bruts au carré.

Varimax normalisé. La sélection de cette option dans la liste déroulante Rotation factorielle permet de réaliser une rotation varimax des poids factoriels normalisés (poids factoriel brut divisé par la racine carrée de la communauté respective). Cette rotation est destinée à maximiser les variances des poids factoriels normalisés au carré pour les variables de chaque facteur ; cela revient à maximiser les variances dans les colonnes de la matrice des poids factoriels normalisés au carré. C'est la méthode la plus fréquemment citée et utilisée de rotation varimax.

Biquartimax brut. La sélection de cette option dans la liste déroulante Rotation factorielle permet de réaliser une rotation biquartimax des poids factoriels bruts. Cette rotation peut être considérée comme un "mélange équitable" des rotations varimax et quartimax. Plus précisément, elle est destinée à maximiser simultanément la somme des variances des poids factoriels bruts au carré sur les facteurs et maximiser la somme des variances des poids factoriels bruts au carré sur les variables ; cela revient à maximiser simultanément les variances sur les lignes et les colonnes de la matrice des poids factoriels bruts au carré.

Biquartimax normalisé. La sélection de cette option de rotation est identique à la rotation biquartimax brute, à la différence près qu'elle est réalisée sur les poids factoriels normalisés (standardisés).

Quartimax brut. La sélection de cette option dans la liste déroulante Rotation factorielle permet de réaliser une rotation quartimax des poids factoriels (bruts). Cette rotation est destinée à maximiser les variances des poids factoriels (bruts au carré) sur les facteurs pour chaque variable ; cela revient à maximiser les variances dans les lignes de la matrice des poids factoriels bruts au carré.

Quartimax normalisé. La sélection de cette option dans la liste déroulante Rotation factorielle permet de réaliser une rotation quartimax des poids factoriels normalisés, à savoir les poids factoriels bruts divisés par la racine carrée des communautés respectives. Cette rotation vise à maximiser les variances des poids factoriels normalisés au carré sur les facteurs pour chaque variable ; cela revient à maximiser les variances dans les lignes de la matrice des poids factoriels normalisés au carré. C'est la méthode de rotation quartimax la plus souvent citée.

Equamax brut. La sélection de cette option dans la liste déroulante Rotation factorielle permet de réaliser une rotation equamax des poids factoriels bruts. Cette rotation peut être considérée comme un "mélange pondéré" des rotations varimax et quartimax. Plus précisément, elle vise à maximiser simultanément la somme des variances des poids factoriels bruts au carré sur les facteurs et maximiser la somme des variances des poids factoriels bruts au carré sur les variables ; cela revient à maximiser simultanément les variances sur les lignes et les colonnes de la matrice des poids factoriels bruts au carré. Toutefois, contrairement à la rotation biquartimax, la pondération relative assignée au critère varimax dans la rotation est égale au nombre de facteurs divisé par 2.

Equamax Normalisé. La sélection de cette option dans la liste déroulante Rotation factorielle permet de réaliser une rotation equamax, comme décrit sous l'intitulé Equamax brut ; la rotation est en revanche effectuée ici sur les poids factoriels normalisés.