Partager : |
Concepts Fondamentaux en Statistique
Techniques Exploratoires Multivariées :
Analyse Factorielle avec Rotation des Facteurs...Une Alternative à l'ACP
Sommaire :
- Principes Fondamentaux
- Analyse Factorielle Hiérarchique
- Principes Fondamentaux de l'Analyse Factorielle comme Méthode de Réduction des Données
- Combiner Deux Variables dans un Seul Facteur
- Analyse en Composantes Principales (ACP)
- Extraction des Composantes Principales
- Généralisation à de Multiples Variables
- Combien de Facteurs faut-il Extraire ?
- Étudier les Résultats d'une Analyse en Composantes Principales
- L'Analyse Factorielle comme Méthode de Classification
- Poids Factoriels
- Rotation de la Structure Factorielle
- Interprétation de la Structure Factorielle
- Facteurs Obliques
- Analyse Factorielle Hiérarchique comme Méthode de Classification
- Coordonnées des Individus
- Corrélations Reproduites et Résidus
- Matrice Mal Conditionnée
- Notes et Informations Techniques
- Méthodes d'Analyse Factorielle
- Une Note à propos des Boîtes à Moustaches
- Une Note à propos des Matrices mal Conditionnées et des Matrices de Corrélations Modifiées
- Stratégies de Rotation
Principes Fondamentaux
Les principaux objectifs des analyses factorielles sont : (1) de réduire le nombre de variables et (2) de détecter la structure des relations entre les variables, ce qui revient à classer les variables. Par conséquent, l'analyse factorielle peut s'utiliser pour synthétiser (réduire) des données, ou détecter une structure (le terme analyse factorielle a été introduit en anglais par Thurstone, 1931). Les rubriques suivantes décrivent les principes de l'analyse factorielle, et la façon dont celle-ci s'applique pour répondre à ces deux objectifs. Nous considérerons comme acquise la logique du raisonnement statistique décrite dans la rubrique Concepts Élémentaires. En outre, nous considérerons que les concepts de variance et de corrélation vous sont familiers ; si ce n'est pas le cas, nous vous recommandons de lire l'introduction du module Statistiques Élémentaires avant de poursuivre.
Il existe d’excellents ouvrages sur l'analyse factorielle. Par exemple, l'ouvrage de vulgarisation de Stevens (1986) ; d'autres descriptions plus approfondies et plus techniques sont données par Cooley et Lohnes (1971) ; Harman (1976) ; Kim et Mueller, (1978a, 1978b) ; Lawley et Maxwell (1971) ; Lindeman, Merenda, et Gold (1980) ; Morrison (1967) ; ou encore Mulaik (1972). L'interprétation des facteurs secondaires dans l'analyse factorielle hiérarchique, comme alternative aux méthodes de rotation obliques traditionnelles est expliquée en détail par Wherry (1984).
Analyse factorielle confirmatoire. STATISTICA comporte également le module général de Modélisation d'Équations Structurelles (SEPATH). Les procédures disponibles dans ce module vous permettent de tester des hypothèses spécifiques quant à la structure factorielle d'un ensemble de variables, dans un ou plusieurs échantillons (par exemple, vous pouvez comparer les structures factorielles entre des échantillons). La rubrique Exemples du module SEPATH donne quelques exemples de ces analyses.
Analyse des correspondances. L’analyse des correspondances est une technique descriptive/exploratoire conçue pour analyser des tableaux à double entrée ou plus, contenant des mesures de correspondances entre les lignes et les colonnes. Les résultats fournissent des informations similaires à celles produites par les techniques d'analyse factorielle et permettent d'explorer la structure des variables catégorielles du tableau. Pour plus d'informations sur ces méthodes, veuillez vous reporter à la description du module Analyse des Correspondances.
Analyse Factorielle Hiérarchique
Facteurs obliques. Certains auteurs (par exemple, Cattell et Khanna ; Harman, 1976 ; Jennrich et Sampson, 1966 ; Clarkson et Jennrich, 1988) ont présenté en détail le concept de facteur oblique (non-orthogonal), afin d'obtenir une structure simple plus facilement interprétable (voir la rubrique Introduction). Plus précisément, des méthodes de calcul (algorithmes) ont été élaborées pour la rotation des facteurs afin de mieux représenter les "classes" de variables, sans la contrainte d'orthogonalité des facteurs. Toutefois, les facteurs obliques issus de ces rotations sont souvent difficilement interprétables. Par exemple, supposez que nous analysons les réponses à un questionnaire concernant la satisfaction des personnes interrogées sur différents aspects de leur vie. Supposons que le questionnaire contient 3 questions pour mesurer la satisfaction au travail, 3 questions pour mesurer la satisfaction au domicile et 4 questions pour mesurer la satisfaction globale. Considérons aussi que les réponses des individus à ces 4 dernières questions sont influencées autant par leur satisfaction au domicile (Facteur 1) qu'au travail (Facteur 2). Dans ce cas, une rotation oblique produirait certainement deux facteurs corrélés dont l'interprétation serait moins immédiate, c'est-à-dire, avec de nombreux poids factoriels croisés.
Analyse Factorielle Hiérarchique. Au lieu de calculer les poids factoriels de facteurs obliques souvent difficiles à interpréter, le module Analyse Factorielle de STATISTICA utilise une méthode qui a été proposée pour la première fois par Thompson (1951) ainsi que Schmid et Leiman (1957), méthode présentée et popularisée grâce à un ouvrage détaillé de Wherry (1959, 1975, 1984). Par cette méthode, STATISTICA identifie tout d'abord les classes d'objets et effectue une rotation des axes à travers ces classes ; les corrélations entre ces facteurs (obliques) sont alors calculées, puis cette matrice de corrélation de facteurs obliques est analysée afin de produire un ensemble de facteurs orthogonaux répartissant la dispersion des objets en variance partagée ou commune (facteurs secondaires), et en variance propre expliquée par les classes de variables (objets) similaires de l'analyse (facteurs principaux). Pour reprendre l'exemple ci-dessus, cette analyse hiérarchique donnerait les poids factoriels suivants :
ANALYSE FACTORIELLE de STATISTICA |
Poids Factoriels 1aires & 2ndaires
|
||
Facteur |
Second. 1 |
Primaire 1 |
Primaire 2 |
TRAV_1 TRAV_2 TRAV_3 DOMI_1 DOMI_2 DOMI_3 DIVERS_1 DIVERS_2 DIVERS_3 DIVERS_4 |
.483178 .570953 .565624 .535812 .615403 .586405 .780488 .734854 .776013 .714183 |
.649499 .687056 .656790 .117278 .079910 .065512 .466823 .464779 .439010 .455157 |
.187074 .140627 .115461 .630076 .668880 .626730 .280141 .238512 .303672 .228351 |
L'examen attentif de ces poids factoriels nous permettrait d'établir les conclusions suivantes :
Il existe un facteur de satisfaction général (secondaire) affectant probablement tous les types de satisfaction mesurés par nos 10 questions ;
Il apparaît deux zones principales de satisfaction pouvant s'interpréter en termes de satisfaction professionnelle et de satisfaction au domicile.
Wherry (1984) présente des exemples extrêmement détaillés de ces analyses hiérarchiques, et donne la manière d'obtenir des facteurs secondaires explicites et interprétables.
Principes Fondamentaux de l'Analyse Factorielle comme Méthode de
Réduction des Données
Supposons que nous avons mené une étude (il s'agit d'un cas d'école) dans laquelle nous avons mesuré la taille de 100 individus en pouces et en centimètres. Nous disposons donc de deux variables pour mesurer la taille. Dans une autre étude, si nous souhaitons mettre en évidence, par exemple, l'impact de différents compléments alimentaires sur la taille, continuerons-nous à utiliser ces deux mesures ? Probablement pas ; car la taille est une caractéristique individuelle indépendante de la manière avec laquelle elle est mesurée.
Extrapolons maintenant à partir de ce cas d'école, aux problèmes plus concrets qui se posent aux chercheurs. Supposons que nous souhaitons mesurer le degré de satisfaction des individus dans leur vie. Nous élaborons un questionnaire de satisfaction avec diverses questions ; entre autres choses, nous demandons aux personnes interrogées leur degré de satisfaction par rapport à leurs hobbies (question 1) et l'intensité avec laquelle ils pratiquent un hobby (question 2). Dans la plupart des cas, les réponses à ces deux questions seront fortement corrélées (si vous n'êtes pas familiarisé(e) avec le coefficient de corrélation, nous vous recommandons la lecture préalable de la rubrique Statistiques Élémentaires - Corrélations). Si nous observons une forte corrélation entre les deux questions, nous pouvons conclure que ces deux questions sont quasiment redondantes.
Combiner Deux Variables dans un Seul Facteur
Il est possible de synthétiser la corrélation entre deux variables dans un nuage de points. Nous pouvons ajuster une droite de régression qui va représenter la "meilleure" synthèse de la relation linéaire entre les variables. Si nous pouvions définir une variable pouvant approcher la droite de régression dans ce tracé, cette variable restituerait "l'essence" des deux variables. Les résultats des individus sur ce facteur, représentés par la droite de régression, pourraient ensuite être utilisés dans d'autres analyses pour représenter cette essence des deux variables. Dans un sens, nous avons réduit les deux variables dans un facteur. Notez que le nouveau facteur est en fait une combinaison linéaire des deux variables.
Analyse en Composantes Principales (ACP)
L'exemple décrit dans la rubrique Principes Fondamentaux de l'Analyse Factorielle comme Méthode de Réduction des Données, où nous avons mis en évidence la possibilité de combiner deux variables corrélées dans un même facteur, illustre l'idée de base de l'analyse factorielle, ou de l'Analyse en Composantes Principales (ACP) pour être plus précis (nous y reviendrons plus tard). Si nous étendons l'exemple de deux variables, à plus de variables, les calculs deviennent certes plus complexes, mais le principe de base reste le même.
Extraction des Composantes Principales
Nous n'entrerons pas dans les détails des calculs de l'Analyse en Composantes Principales (ACP), qui sont très bien détaillés par ailleurs (vous trouverez des références au début de cette section). Toutefois, l'extraction des composantes principales revient en fait à réaliser une rotation permettant de maximiser la variance (varimax) dans l'espace original des variables. Par exemple, dans un nuage de points, nous pouvons appréhender la droite de régression comme l'axe X original, que nous ferions pivoter afin d'approcher la droite de régression. Ce type de rotation est appelé maximisation de la variance car le critère (but) de la rotation est de maximiser la variance (dispersion) de la "nouvelle" variable (facteur), tout en minimisant la variance autour de la nouvelle variable (voir la rubrique Stratégies de Rotation).
Généralisation à de Multiples Variables
Lorsque nous avons plus de deux variables, nous pouvons considérer que ces variables définissent un "espace", de la même manière que deux variables définissent un plan. Ainsi, lorsque nous avons trois variables, nous pouvons de la même manière tracer un nuage de points en trois dimensions, et ajuster un plan à travers les données.
Pour plus de trois variables il devient impossible de conceptualiser la représentation dans un nuage de points, mais, la logique de rotation des axes pour maximiser la variance du nouveau facteur demeure la même.
Orthogonalité des facteurs. Après avoir trouvé la droite pour laquelle la variance est maximale, il demeure une certaine dispersion autour de cette droite. Dans l'Analyse en Composantes Principales (ACP), après l'extraction du premier facteur, c'est-à-dire, après que la première droite ait été tracée sur les données, nous continuons à chercher une autre droite qui va maximiser la dispersion restante, et ainsi de suite. C'est de cette manière, que les facteurs consécutifs seront extraits. Puisque chaque facteur consécutif est défini de sorte à maximiser la dispersion qui n'est pas captée par le facteur précédent, les facteurs consécutifs sont indépendants les uns des autres. En d'autres termes, les facteurs consécutifs ne sont pas corrélés ou sont orthogonaux les uns par rapport aux autres.
Combien de Facteurs faut-il Extraire ?
Jusqu'à présent, nous avons considéré l'Analyse en Composantes Principales (ACP) comme une méthode de réduction des données, c'est-à-dire, une méthode permettant de réduire le nombre de variables. La question est maintenant de savoir combien de facteurs il nous faut exactement extraire Notez que les facteurs successifs qui sont extraits expliquent de moins en moins de dispersion. La décision d'arrêter l'extraction des facteurs dépend en fait du moment où il ne reste plus qu'une très petite dispersion "aléatoire". La nature de cette décision est arbitraire ; toutefois, de nombreuses recommandations ont été proposées, et nous les détaillerons dans la rubrique Étudier les Résultats d'une Analyse en Composantes Principales dans la section Valeurs Propres et Problème du Nombre de Facteurs.
Étudier les Résultats d'une Analyse en Composantes Principales
Examinons maintenant certains des résultats standard d'une Analyse en Composantes Principales (ACP). Au risque de nous répéter, nous extrayons des facteurs expliquant de moins en moins de variance. Pour simplifier, prenons une matrice de corrélations, où les variances de toutes les variables sont égales à 1,0. Par conséquent, la variance totale dans cette matrice sera égale au nombre de variables. Ainsi, si nous avons 10 variables avec chacune une variance de 1, la dispersion totale potentiellement extractible sera de 10 fois 1. Supposons que dans l'enquête de satisfaction présentée précédemment, nous ayons 10 questions permettant de mesurer divers aspects de satisfaction à la maison et au travail. La variance expliquée par les facteurs successifs pourrait se résumer ainsi :
Valeurs propres. Dans la seconde colonne (ValProp.) de la feuille de données ci-dessus, nous trouvons la variance des nouveaux facteurs que nous avons successivement extraits. Dans la troisième colonne, ces valeurs sont exprimées en pourcentage de la variance totale (égale dans cet exemple à 10). Comme nous pouvons le voir, le facteur 1 explique 61% de la variance, le facteur 2 en explique 18%, et ainsi de suite. Comme nous pouvions nous y attendre, la somme des valeurs propres est égale au nombre de variables. La quatrième colonne contient la variance extraite cumulée. Les variances extraites par les facteurs sont appelées valeurs propres. Ce nom provient de calculs complexes (résolution du problème dit des Valeurs propres, voir aussi la rubrique Notes et Informations Techniques).
Valeurs propres et problème du nombre de facteurs. Maintenant que nous possédons une mesure de la variance extraite par chaque facteur successif, nous pouvons nous poser la question du nombre de facteurs à retenir. Comme nous l'avons déjà mentionné, il s'agit d'une décision arbitraire. Toutefois, il existe des critères qui sont habituellement retenus, et qui, en pratique donnent les meilleurs résultats.
Le critère de Kaiser. Pour commencer, nous pouvons ne retenir que les facteurs ayant une valeur propre supérieure à 1. Au fond, c'est comme si nous disions qu'à moins qu'un facteur extrait soit au moins l'équivalent d'une variable originale, nous ne le retenons pas. C'est le critère proposé par Kaiser (1960), et c'est sans doute le critère le plus couramment utilisé. Dans l'exemple ci-dessus, avec ce critère, nous ne retiendrions que 2 facteurs (composantes principales).
Le test des valeurs propres. Une méthode graphique est le test des valeurs propres qui a été proposé par Cattell (1966). Nous pouvons représenter les valeurs propres reportées dans la feuille de données ci-dessus dans un simple tracé linéaire.
Cattell suggère de trouver l'endroit où les valeurs propres semblent s'équilibrer à droite du tracé. A droite de ce point, on risque de ne trouver que des "éboulis factoriels" -- "éboulis" est un terme géologique désignant les débris que l'on trouve dans la partie inférieure d'une pente rocheuse. Selon ce critère, nous retiendrions probablement 2 à 3 facteurs dans l'exemple ci-dessus.
Quel critère utiliser ? Les deux critères ont été étudiés en détail (Browne, 1968 ; Cattell et Jaspers, 1967 ; Hakstian, Rogers, et Cattell, 1982 ; Linn, 1968 ; Tucker, Koopman et Linn, 1969). Théoriquement, on peut évaluer ces critères en générant des données aléatoires basées sur un nombre particulier de facteurs. On peut voir si le nombre de facteurs est précisément détecté par ces critères. En utilisant cette technique générale, la première méthode (Critère de Kaiser) retient parfois trop de facteurs, tandis que la seconde (test des valeurs propres) en retient parfois trop peu ; toutefois, l'une et l'autre donnent de bons résultats dans des conditions normales, c'est-à-dire avec relativement peu de facteurs et de nombreuses observations. En pratique, un aspect important à prendre en compte est le degré auquel une solution est interprétable. C'est pourquoi, nous examinons souvent plusieurs solutions avec plus ou moins de facteurs, et choisissons celle qui est la plus facilement interprétable. Nous évoquerons ce problème dans le cadre de la rotation factorielle ci-dessous.
Analyse des Facteurs Principaux. Avant de continuer à examiner les différents aspects des sorties spécifiques d'une Analyse en Composantes Principales (ACP), introduisons préalablement l'analyse des facteurs principaux. Reprenons notre exemple du questionnaire de satisfaction pour concevoir un autre modèle abstrait d'analyse factorielle. Nous pouvons imaginer que les réponses des individus dépendent de deux composantes. Tout d'abord, il existe des facteurs sous-jacents communs, comme le facteur "degré de satisfaction avec les loisirs" que nous avons examiné précédemment. Chaque question mesure une certaine partie de cet aspect commun de satisfaction. Puis, chaque question restitue également un aspect propre de la satisfaction qui n'est restitué par aucune autre.
Communautés. Si ce modèle est correct, nous ne devons pas nous attendre à ce que les facteurs extraient toute la variance de nos questions ; ce sera en revanche la part qui est due aux facteurs communs et qui est partagée avec d'autres questions. Dans la terminologie de l'analyse factorielle, la part de variance d'une question particulière qui est imputable aux facteurs communs (partagée avec les autres questions) est appelée communauté. Par conséquent, il nous faudra, lors de l'application du modèle, estimer les communautés pour chaque variable, c'est-à-dire, la part de la variance que chaque question a en commun avec les autres. La part de la variance qui est propre à chaque question est donc la variance totale de la question respective, à laquelle est retranchée la communauté. On utilise habituellement la corrélation multiple au carré avec tous les autres objets pour estimer la communauté (veuillez vous reporter à la Régression Multiple pour plus de détails sur la régression multiple). Certains auteurs ont proposé des solutions pour améliorer a posteriori et par itérations, l'estimation de la communauté initiale par régression multiple ; par exemple, la méthode MINRES (minimum residual factor method ; Harman et Jones, 1966) apporte de nombreuses modifications aux poids factoriels, dans l'optique de minimiser le résidu (non expliqué) de la somme des carrés. Veuillez vous reporter à la description de la boîte de dialogue Définir la Méthode d'Extraction pour une présentation des différentes méthodes disponibles dans le module Analyse Factorielle.
Facteurs principaux vs. composantes principales. La principale différence entre les deux modèles analytiques est que l'Analyse en Composantes Principales (ACP) considère que toute la dispersion d'une variable doit être utilisée dans l'analyse, tandis que l'analyse des facteurs principaux n'utilise que la dispersion d'une variable qui est commune avec les autres. La présentation des idées des défenseurs et opposants de chaque approche dépasse le cadre de cette introduction (veuillez vous reporter aux références données dans la rubrique Analyse Factorielle - Introduction).Dans la plupart des cas, ces deux méthodes donnent souvent des résultats très proches. Toutefois, l'Analyse en Composantes Principales (ACP) est souvent préférée comme méthode de réduction des données, tandis que l'analyse des facteurs principaux est plutôt utilisée pour détecter une structure (voir la rubrique L'Analyse Factorielle comme Méthode de Classification).
L'Analyse Factorielle comme Méthode de Classification
Revenons à l'interprétation des résultats standard d'une analyse factorielle (voir la rubrique Étudier les Résultats d'une Analyse en Composantes Principales). Nous utiliserons désormais le terme générique analyse factorielle pour englober les deux analyses, ACP et analyse des facteurs principaux. Considérons que nous connaissons déjà le nombre de facteurs à extraire. Nous voulons maintenant connaître la signification des facteurs, c'est-à-dire si, et dans quelle mesure, nous pouvons les interpréter de manière explicite. Pour ce faire, nous pouvons travailler "à reculons", c'est-à-dire démarrer avec une structure explicite, et voir comment elle est restituée dans les résultats d'une analyse factorielle. Reprenons notre exemple de satisfaction ; ci-dessous, la matrice de corrélations des questions ayant trait à la satisfaction au travail (TRAV) et des questions se rapportant à la satisfaction au domicile.
ANALYSE FACTORIELLE de STATISTICA |
Corrélations (factor.sta) Suppression des obs. à VM n=100 |
|||||
Variable |
TRAV_1 |
TRAV_2 |
TRAV_3 |
DOMI_1 |
DOMI_2 |
DOMI_3 |
TRAV_1 TRAV_2 TRAV_3 DOMI_1 DOMI_2 DOMI_3 |
1.00 .65 .65 .14 .15 .14 |
.65 1.00 .73 .14 .18 .24 |
.65 .73 1.00 .16 .24 .25 |
.14 .14 .16 1.00 .66 .59 |
.15 .18 .24 .66 1.00 .73 |
.14 .24 .25 .59 .73 1.00 |
Les questions portant sur la satisfaction professionnelle sont fortement corrélées entre elles, tout comme le sont les questions portant sur la satisfaction au domicile. Les corrélations entre ces deux types de questions (questions sur la satisfaction au travail et à la maison) sont en revanche, relativement faibles. En conséquence, il semblerait qu'il apparaisse deux facteurs relativement indépendants retranscrits par la matrice de corrélation, un qui serait relatif à la satisfaction professionnelle, l'autre qui serait relatif à la satisfaction au domicile.
Poids Factoriels
Réalisons maintenant une Analyse en Composantes Principales (ACP) et examinons la solution à deux facteurs. Plus précisément, examinons les corrélations entre les variables et les deux facteurs (ou "nouvelles variables synthétiques"), extraits par défaut ; ces corrélations sont également appelées poids factoriels.
STATISTICA ANALYSE FACTORIELLE |
Poids Factoriels (sans rotation) ACP
|
|
Variable |
Fact. 1 |
Fact. 2 |
TRAV_1 TRAV_2 TRAV_3 DOMI_1 DOMI_2 DOMI_3 |
.654384 .715256 .741688 .634120 .706267 .707446 |
.564143 .541444 .508212 -.563123 -.572658 -.525602 |
VarExpl. % Total |
2.891313 .481885 |
1.791000 .298500 |
Le premier facteur apparaît plus fortement corrélé avec les variables que le second. Ceci s'explique, comme nous l'avons décrit précédemment, par le fait que les facteurs successivement extraits expliquent de moins en moins de variance totale.
Rotation de la Structure Factorielle
Nous pourrions tracer les corrélations des facteurs avec les variables données précédemment dans un nuage de points. Dans ce tracé, chaque variable serait représentée par un point. Puis nous pourrions effectuer une rotation des axes dans n'importe quelle direction sans modifier la position relative des points les uns par rapport aux autres ; toutefois, les coordonnées des points, c'est-à-dire les poids factoriels seraient bien évidemment modifiés. Dans cet exemple, si nous produisons le tracé, il est évident qu'en pivotant les axes d'environ 45 degrés, nous obtenons une structure plus claire des poids factoriels représentant les questions de satisfaction professionnelle et celles de satisfaction au domicile.
Méthodes de rotation. De nombreuses méthodes de rotation ont été proposées. L'objectif de toutes ces méthodes est d'obtenir une structure claire des poids factoriels, c'est-à-dire des facteurs qui sont clairement marqués par de fortes corrélations avec certaines variables et par de faibles corrélations avec d'autres variables. Cette structure générale est aussi parfois appelée structure simple (vous trouverez une définition plus formalisée dans la plupart des ouvrages de référence). Les méthodes de rotation classiques sont varimax, quartimax et equamax ; elles sont décrites plus en détail dans la boîte de dialogue Rotation.
Nous avons précédemment présenté l'idée de la rotation varimax (voir la rubrique Extraction des Composantes Principales), et nous pouvons tout à fait l'appliquer à ce problème particulier. Comme préalablement, nous souhaitons trouver une rotation qui maximise la variance sur les nouveaux axes ; en d'autres termes, nous cherchons à obtenir une structure des poids pour chaque facteur qui soit aussi différente que possible, permettant une interprétation aussi facile que possible. Le tableau des poids factoriels après rotation est donné ci-dessous.
ANALYSE FACTORIELLE de STATISTICA |
Poids Factoriels (Varimax normalisé) Extraction : ACP
|
|
Variable |
Fact. 1 |
Fact. 2 |
TRAV_1 TRAV_2 TRAV_3 DOMI_1 DOMI_2 DOMI_3 |
.862443 .890267 .886055 .062145 .107230 .140876 |
.051643 .110351 .152603 .845786 .902913 .869995 |
VarExpl. % Total |
2.356684 .392781 |
2.325629 .387605 |
Interprétation de la Structure Factorielle
La structure est maintenant beaucoup plus claire. Comme nous pouvions nous y attendre, le premier facteur est marqué par de fortes corrélations avec les questions de satisfaction au travail, tandis que le second facteur est marqué par de fortes corrélations avec les questions de satisfaction au domicile. Nous pourrions donc conclure que la satisfaction, telle qu'elle a été mesurée dans notre questionnaire, est composée de ces deux aspects ; nous sommes donc arrivés à une classification des variables.
Facteurs Obliques
Certains auteurs (par exemple, Cattell et Khanna ; Harman, 1976 ; Jennrich et Sampson, 1966 ; Clarkson et Jennrich, 1988) ont présenté en détail le concept de facteurs obliques (non-orthogonaux), afin d'obtenir une structure simple plus facilement interprétable. Plus précisément, des méthodes de calcul ont été élaborées pour la rotation des facteurs afin de mieux représenter les "classes" de variables, sans la contrainte d'orthogonalité des facteurs. Toutefois, les facteurs obliques issus de ces rotations sont souvent difficilement interprétables. Pour revenir à l'exemple évoqué ci-dessus, supposons que nous ayons introduit dans notre questionnaire de satisfaction quatre questions mesurant d'autres types "divers" de satisfaction. Considérons que les réponses des individus aient été influencées autant par leur satisfaction au domicile (Facteur 1) qu'au travail (Facteur 2). Une rotation oblique produirait certainement deux facteurs corrélés dont l'interprétation serait moins immédiate, c'est-à-dire, avec de nombreux poids factoriels croisés.
Analyse Factorielle Hiérarchique comme Méthode de Classification
Au lieu de calculer les poids factoriels de facteurs obliques souvent difficiles à interpréter, le module Analyse Factorielle de STATISTICA utilise une méthode qui a été proposée pour la première fois par Thompson (1951) ainsi que Schmid et Leiman (1957), méthode présentée et popularisée grâce à un ouvrage détaillé de Wherry (1959, 1975, 1984). Par cette méthode, STATISTICA identifie tout d'abord les classes d'objets et effectue une rotation des axes à travers ces classes ; les corrélations entre ces facteurs (obliques) sont alors calculées, puis cette matrice de corrélation de facteurs obliques est analysée afin de produire un ensemble de facteurs orthogonaux répartissant la dispersion des objets en variance partagée ou commune (facteurs secondaires), et en variance propre expliquée par les classes de variables (questions) similaires de l'analyse (facteurs principaux). Pour reprendre l'exemple ci-dessus, cette analyse hiérarchique donnerait les poids factoriels suivants :
ANALYSE FACTORIELLE de STATISTICA |
Poids Factoriels 1aires 2ndaires
|
||
Facteur |
Second. 1 |
Primaire 1 |
Primaire 2 |
TRAV_1 TRAV_2 TRAV_3 DOMI_1 DOMI_2 DOMI_3 DIVERS_1 DIVERS_2 DIVERS_3 DIVERS_4 |
.483178 .570953 .565624 .535812 .615403 .586405 .780488 .734854 .776013 .714183 |
.649499 .687056 .656790 .117278 .079910 .065512 .466823 .464779 .439010 .455157 |
.187074 .140627 .115461 .630076 .668880 .626730 .280141 .238512 .303672 .228351 |
L'examen attentif de ces poids factoriels nous permettrait d'établir les conclusions suivantes :
Il existe un facteur de satisfaction général (secondaire) affectant probablement tous les types de satisfaction mesurés par nos 10 questions ;
Il apparaît deux zones principales de satisfaction pouvant s'interpréter en termes de satisfaction professionnelle et de satisfaction au domicile.
Wherry (1984) présente des exemples extrêmement détaillés de ces analyses hiérarchiques, et donne la manière d'obtenir des facteurs secondaires explicites et interprétables.
Analyse factorielle confirmatoire. Au cours de ces 15 dernières années, les méthodes confirmatoires ont acquis une popularité grandissante (par exemple, voir Jöreskog et Sörbom, 1979). D'une manière générale, on peut spécifier a priori des poids factoriels pour un nombre particulier de facteurs orthogonaux ou obliques, puis tester si la matrice de corrélations observée peut être reproduite compte tenu de ces spécifications. Les analyses factorielles confirmatoires peuvent être réalisées grâce au module général Modélisation d'Équations Structurelles (SEPATH) de STATISTICA. Notez que la rubrique Exemples du module SEPATH présente quelques exemples de telles analyses.
Coordonnées des Individus
Nous pouvons estimer les coordonnées des individus sur les facteurs. Dans le module Analyse Factorielle de STATISTICA, ces coefficients peuvent être affichés dans une feuille de données ou dans un rapport, ou peuvent encore être enregistrés dans un fichier (selon le choix effectué dans la boîte de dialogue Gestionnaire de Sorties de l'Analyse/Graphique). Les coordonnées des individus sont très utiles pour poursuivre vos analyses en utilisant les facteurs identifiés par l'analyse factorielle.
Corrélations Reproduites et Résidus
Un autre élément permettant de vérifier si le nombre de facteurs extraits est bien approprié, consiste à calculer la matrice de corrélations qui serait obtenue si ces facteurs étaient effectivement les seuls. Cette matrice est appelée matrice de corrélations reproduite. Pour étudier dans quelle mesure cette matrice diffère de la matrice de corrélations observée, nous pouvons calculer la différence entre les deux ; cette matrice est appelée matrice de corrélations des résidus. La matrice des résidus met en évidence les "lacunes", c'est-à-dire les coefficients de corrélation ne pouvant être reproduits de manière satisfaisante par le nombre facteurs retenus.
Matrice Mal Conditionnée
Dans les calculs d'une analyse factorielle, STATISTICA a besoin d'inverser la matrice de corrélations. Si, cette matrice de corrélations contient des variables qui sont redondantes à 100%, l'inverse de la matrice ne pourra pas être calculé. Par exemple, si une variable est la somme de deux autres variables sélectionnées pour l'analyse, la matrice de corrélations de ces variables ne pourra être inversée, et finalement, c'est toute l'analyse factorielle qui ne pourra être réalisée. En pratique le cas peut se présenter lorsque vous tentez d'effectuer une analyse factorielle sur des variables qui sont très fortement corrélées entre elles, comme par exemple, ce qui se produit parfois lorsque vous analysez des questionnaires. Le module Analyse Factorielle va détecter toute matrice mal conditionnée et produire un message d'avertissement. Pour toutes les méthodes d'extraction autres que les composantes principales, STATISTICA va artificiellement diminuer les corrélations de la matrice de corrélations en ajoutant une faible constante à la diagonale de la matrice, avant de la re-standardiser. Cette procédure permet souvent de produire une matrice inversible permettant donc de réaliser l'analyse factorielle ; en outre, les facteurs ne sont affectés que marginalement par cette procédure. Attention toutefois, car les estimations obtenues ne seront pas exactes.
Dans le cas de l'Analyse en Composantes Principales le nombre de composantes qui peuvent être extraites est égal au nombre de valeurs propres positives de la matrice de corrélations respective ; aucun ajustement (re-standardisation) de la matrice de corrélations ne sera fait dans ce cas.
Notes et Informations Techniques
Valeurs propres. Au cœur de l'analyse factorielle se pose le problème des valeurs propres qui est résolu dans ce programme par la méthode Householder ; voir, par exemple, Golub et Van Loan (1983), Jacobs (1977), ou Ralston et Wilf (1967, Vol. II). Les valeurs propres sont calculées par les procédures des moindres carrés. La somme des valeurs propres est égale à la trace de la matrice (corrélations ou covariances) à analyser, c'est-à-dire :
∑lj = trace/S/ = ∑sii ou jj
où
lj |
représente la j-ième valeur propre |
/S/ |
représente la matrice de variance/covariance ou la matrice de corrélations |
sij |
représentent les éléments de la diagonale de la matrice de variance/covariance ou de la matrice de corrélations |
Matrice mal conditionnée et matrice de corrélations modifiée. L'Introduction aborde le problème des matrices mal conditionnées. Si, au cours du traitement factoriel, vous recevez un message vous indiquant que la matrice de corrélations ne peut être inversée, la matrice de corrélations sera alors modifiée (pour permettre l'inversion). Plus précisément, une faible constante sera ajoutée à la diagonale de la matrice de corrélations jusqu'à ce que le déterminant de cette matrice devienne supérieur à 1.e-50. Tous les calculs ultérieurs seront alors réalisés sur ces corrélations modifiées (légèrement diminuées) ; pour rétablir la matrice de corrélations exacte originale, cliquez sur le bouton Annuler pour revenir à la boîte de dialogue Analyse Factorielle (Panneau de Démarrage) puis cliquez sur le bouton OK pour lire à nouveau le fichier de données.
Analyser des matrices de covariance ou de moments. STATISTICA inclut également deux autres modules pour l'analyse (factorielle) des matrices de covariance et des matrices des moments : Le module ACP "à la Française" va extraire les composantes principales à partir des matrices de covariance, mais également permettre à l'utilisateur de tracer de nouvelles observations ou variables dans l'espace factoriel calculé. Le module Modélisation d'Équations Structurelles (SEPATH) va accepter les matrices de corrélation, de covariance, et des moments pour l'analyse de moyennes structurées. Notez également que la bibliothèque de fonctions de STATISTICA Visual Basic comporte toutes les routines de calcul nécessaires pour extraire les composantes principales de tout type de matrice.
La matrice des poids factoriels F se calcule comme suit :
F = B Z
où
B |
représente la matrice des résultats factoriels, et |
Z |
représente la matrice des valeurs standardisées (valeurs z) des données brutes originales. |
La matrice des résultats factoriels B se calcule par la méthode dite de régression. Pour plus d'informations, vous pouvez vous reporter à Harman (1976), p. 368.
Pour la méthode d'extraction en Composantes Principales, B se calcule ainsi :
B = L D-1 |
(pour les poids factoriels sans rotation) |
B = L (L'L)-1 |
(pour les poids factoriels avec rotation) |
où L représente la matrice des poids factoriels et D représente la matrice diagonale contenant les valeurs propres des facteurs extraits sur la diagonale.
Pour toutes les autres méthodes d'extraction, B se calcule comme suit :
B = R-1 L
où R représente la matrice de corrélations des données originales.
Méthodes d'Analyse Factorielle
STATISTICA offre plusieurs procédures pour analyser des facteurs. Bien que la plupart des statistiques disponibles se recoupent, chacune de ces techniques est souvent utilisée dans des domaines bien particuliers.
Analyse factorielle confirmatoire. STATISTICA comporte les options générales du module Modélisation d'Équations Structurelles (SEPATH). Les procédures disponibles dans ce module vous permettent de tester des hypothèses spécifiques quant à la structure factorielle d'un groupe de variables, dans un ou plusieurs échantillons (par exemple, vous pouvez comparer les structures factorielles par échantillon). La rubrique Exemples du module SEPATH donne quelques exemples de ces analyses.
Analyse des correspondances. L’Analyse des Correspondances est une technique descriptive/exploratoire conçue pour analyser des tableaux à double entrée ou plus, contenant des mesures de correspondances entre les lignes et les colonnes. Les résultats fournissent des informations similaires à celles produites par les techniques d'analyse factorielle et permettent d'explorer la structure des variables catégorielles du tableau. Pour plus d'informations sur ces méthodes, veuillez vous reporter à l'Introduction du module Analyse des Correspondances.
Analyse factorielle. L'Analyse Factorielle est une technique exploratoire visant à (1) réduire le nombre de variables et (2) détecter la structure des relations entre les variables, ce qui revient à classer les variables. Par conséquent, l'analyse factorielle peut s'utiliser pour synthétiser (réduire) des données, ou détecter une structure (le terme analyse factorielle a été introduit en anglais par Thurstone, 1931). Pour plus d'informations concernant ces méthodes, veuillez vous reporter à l'Introduction du module Analyse Factorielle.
Modèles PLS (PLS). Ces méthodes sont une implémentation des techniques "Partial Least Squares" (PLS). La PLS vous permet d'extraire des facteurs (composantes) d'un fichier de données qui inclut une ou plusieurs variables prédictives, et une ou plusieurs variables dépendantes (réponse). La PLS est particulièrement adaptée aux problèmes impliquant beaucoup de variables prédictives (et éventuellement variables dépendantes), mais relativement peu d'observations.
Une Note à propos des Boîtes à Moustaches
Une boîte à moustaches synthétise chaque variable en trois composantes :
Une droite centrale représentant la tendance centrale ou le paramètre de position ;
Une boîte représentant la dispersion autour de cette tendance centrale ;
Des moustaches autour de cette boîte pour représenter l'étendue de la variable.
Après avoir cliqué sur le bouton Boîtes à Moustaches (voir l'onglet Avancé de la boîte de dialogue Statistiques Descriptives), vous pourrez choisir de tracer pour chaque variable :
Les médianes (droite centrale), quartiles (boîte) et étendues (moustaches). Remarque : vous pouvez paramétrer la méthode spécifique utilisée pour le calcul des médianes et quartiles grâce à la liste déroulante Calcul des centiles dans la boîte de dialogue Options - Analyses/Graphiques : Limites. Pour plus d'informations, voir la rubrique Options de Calcul des Centiles dans STATISTICA.
Les moyennes, erreurs-types des moyennes et écarts-types ;
Les moyennes, écarts-types et 1,96 fois les écarts-types (intervalle de confiance normal à 95% des observations individuelles autour de la moyenne) ;
Les moyennes, erreurs-types des moyennes et 1,96 fois les erreurs-types des moyennes (intervalle de confiance normal à 95% des moyennes).
Une Note à propos des Matrices mal Conditionnées et des Matrices de
Corrélations Modifiées
L'Introduction aborde le problème des matrices mal conditionnées. Si, au cours du traitement factoriel, vous recevez un message vous indiquant que la matrice de corrélations ne peut être inversée et que vous ouvrez ensuite la boîte de dialogue Statistiques Descriptives, la matrice de corrélations sera alors modifiée (pour permettre l'inversion). Plus précisément, une faible constante sera ajoutée à la diagonale de la matrice de corrélations jusqu'à ce que le déterminant de cette matrice devienne supérieur à 1.e-50. Les corrélations modifiées (légèrement plus faibles) seront reportées si le programme a détecté une matrice mal conditionnée et qu'il a effectué cette modification.
En outre, tous les calculs ultérieurs seront réalisés à partir de ces corrélations modifiées (légèrement plus faibles).
Stratégies de Rotation
De nombreuses méthodes de rotation ont été proposées. Le but commun à toutes ces méthodes est d'obtenir une représentation claire des poids factoriels, c'est-à-dire des facteurs qui sont d'une certaine manière clairement marqués par de fortes corrélations avec certaines variables et de faibles corrélations avec d'autres variables. Cette structure générale est aussi parfois appelée structure simple (vous trouverez une définition plus formalisée dans la plupart des ouvrages standard). Les méthodes de rotation classiques sont varimax, quartimax, et equamax. Certains auteurs (par exemple, Catell et Khanna ; Harman, 1976 ; Jennrich et Sampson, 1966 ; Clarkson et Jennrich, 1988) ont présenté en détail le concept de facteurs obliques (non-orthogonaux), permettant de rendre la structure simple plus facilement interprétable. Plus précisément, des méthodes de calcul ont été élaborées pour faire pivoter les facteurs afin de mieux représenter les "classes" de variables, sans la contrainte d'orthogonalité des facteurs. Toutefois, les facteurs obliques issus de ces rotations sont souvent difficilement interprétables. Utilisez le bouton Analyse hiérarchique des facteurs obliques dans l'onglet Poids Factoriels de la boîte de dialogue Résultats de l'Analyse Factorielle afin d’identifier des classes de variables (corrélées, obliques) ; voir également la rubrique Analyse factorielle hiérarchique).
Remarque : le module Modélisation d'Équations Structurelles (SEPATH) vous permet de tester l'adéquation (qualité d'ajustement) des solutions de facteurs obliques ou orthogonaux spécifiques.
Varimax brut. La sélection de cette option dans la liste déroulante Rotation factorielle permet de réaliser une rotation varimax des poids factoriels. Cette rotation est destinée à maximiser les variances des poids factoriels bruts au carré pour chaque facteur ; cela revient à maximiser les variances dans les colonnes de la matrice des poids factoriels bruts au carré.
Varimax normalisé. La sélection de cette option dans la liste déroulante Rotation factorielle permet de réaliser une rotation varimax des poids factoriels normalisés (poids factoriel brut divisé par la racine carrée de la communauté respective). Cette rotation est destinée à maximiser les variances des poids factoriels normalisés au carré pour les variables de chaque facteur ; cela revient à maximiser les variances dans les colonnes de la matrice des poids factoriels normalisés au carré. C'est la méthode la plus fréquemment citée et utilisée de rotation varimax.
Biquartimax brut. La sélection de cette option dans la liste déroulante Rotation factorielle permet de réaliser une rotation biquartimax des poids factoriels bruts. Cette rotation peut être considérée comme un "mélange équitable" des rotations varimax et quartimax. Plus précisément, elle est destinée à maximiser simultanément la somme des variances des poids factoriels bruts au carré sur les facteurs et maximiser la somme des variances des poids factoriels bruts au carré sur les variables ; cela revient à maximiser simultanément les variances sur les lignes et les colonnes de la matrice des poids factoriels bruts au carré.
Biquartimax normalisé. La sélection de cette option de rotation est identique à la rotation biquartimax brute, à la différence près qu'elle est réalisée sur les poids factoriels normalisés (standardisés).
Quartimax brut. La sélection de cette option dans la liste déroulante Rotation factorielle permet de réaliser une rotation quartimax des poids factoriels (bruts). Cette rotation est destinée à maximiser les variances des poids factoriels (bruts au carré) sur les facteurs pour chaque variable ; cela revient à maximiser les variances dans les lignes de la matrice des poids factoriels bruts au carré.
Quartimax normalisé. La sélection de cette option dans la liste déroulante Rotation factorielle permet de réaliser une rotation quartimax des poids factoriels normalisés, à savoir les poids factoriels bruts divisés par la racine carrée des communautés respectives. Cette rotation vise à maximiser les variances des poids factoriels normalisés au carré sur les facteurs pour chaque variable ; cela revient à maximiser les variances dans les lignes de la matrice des poids factoriels normalisés au carré. C'est la méthode de rotation quartimax la plus souvent citée.
Equamax brut. La sélection de cette option dans la liste déroulante Rotation factorielle permet de réaliser une rotation equamax des poids factoriels bruts. Cette rotation peut être considérée comme un "mélange pondéré" des rotations varimax et quartimax. Plus précisément, elle vise à maximiser simultanément la somme des variances des poids factoriels bruts au carré sur les facteurs et maximiser la somme des variances des poids factoriels bruts au carré sur les variables ; cela revient à maximiser simultanément les variances sur les lignes et les colonnes de la matrice des poids factoriels bruts au carré. Toutefois, contrairement à la rotation biquartimax, la pondération relative assignée au critère varimax dans la rotation est égale au nombre de facteurs divisé par 2.
Equamax Normalisé. La sélection de cette option dans la liste déroulante Rotation factorielle permet de réaliser une rotation equamax, comme décrit sous l'intitulé Equamax brut ; la rotation est en revanche effectuée ici sur les poids factoriels normalisés.
Analyse Factorielle
Introduction. Cet exemple est basé sur un fichier de données fictives décrivant une étude de satisfaction dans la vie. Supposez qu'un questionnaire a été soumis à un échantillon aléatoire de 100 adultes. Le questionnaire comportait 10 questions créées pour mesurer la satisfaction au travail, la satisfaction dans les loisirs, la satisfaction au domicile et la satisfaction générale dans d'autres domaines. Les réponses à toutes les questions ont été enregistrées via un ordinateur et échelonnées pour que la moyenne de toutes les questions soit d'environ 100.
Les résultats de toutes les personnes interrogées ont été saisis dans le fichier de données Factor.sta. Ouvrez ce fichier de données à l'aide de la commande Ouvrir des Exemples du menu Fichier ; ce fichier se trouve dans le répertoire Fichiers de Données. Ci-dessous, une liste des variables de ce fichier (pour accéder à cette liste, sélectionnez la commande Spécs. de toutes les Variables dans le menu Données).
But de l'analyse. L'objectif consiste à en apprendre davantage sur les relations entre la satisfaction dans différents domaines. Plus particulièrement, nous souhaitons connaître le nombre de facteurs sous-jacents à ces différents domaines de satisfaction, et leur signification.
Spécification de l'analyse. Sélectionnez la commande Analyse Factorielle dans le menu Statistiques - Techniques Exploratoires Multivariées afin d'accéder à la boîte de dialogue Analyse Factorielle (Panneau de Démarrage). Cliquez sur le bouton Variables, sélectionnez les 10 variables et cliquez sur le bouton OK. Le Panneau de Démarrage devrait avoir l'aspect suivant :
Autres options. Pour réaliser une analyse factorielle standard, c'est tout ce que vous devez spécifier dans cette boîte de dialogue. Remarque : vous pouvez également sélectionner les options Obs. ignorée, Cellule ignorée ou Remplacement par la moyenne comme mode de traitement des valeurs manquantes (via le cadre Traitement des VM) ou un fichier de données Matrice de Corrélation (via la liste déroulante Fichier d'entrée).
Définir la méthode d'extraction des facteurs. À présent, cliquez sur le bouton OK pour afficher la boîte de dialogue Définir la Méthode d'Extraction des Facteurs. Dans cette boîte de dialogue, vous pouvez étudier les statistiques descriptives, réaliser une analyse de régression multiple, vous pouvez sélectionner la méthode d'extraction pour l'analyse factorielle, sélectionner le nombre maximum de facteurs et le nombre minimum de valeurs propres, et vous pouvez sélectionner d'autres options liées à des méthodes d'extraction particulières. Maintenant, cliquez sur l'onglet Descriptives.
Étude des statistiques descriptives. Cliquez sur le bouton Étude des corrélations, moyennes, écarts-types pour afficher la boîte de dialogue Étude des Statistiques Descriptives.
Là, vous pouvez étudier les statistiques descriptives graphiquement ou dans des feuilles de données.
Calcul de matrices de corrélation. Cliquez sur le bouton Corrélations dans l'onglet Avancé pour afficher la feuille de données Corrélations.
Toutes les corrélations de la feuille de données sont positives ; certaines corrélations sont élevées. Par exemple, les variables Occup_1 et Divers_1 sont corrélées à hauteur de 0,90. Certaines corrélations (par exemple celles entre la satisfaction au travail et la satisfaction à domicile) semblent comparativement faibles. Ainsi, il semble qu'il y ait une structure claire dans cette matrice.
Méthode d'extraction. Cliquez à présent sur le bouton Annuler pour revenir à la boîte de dialogue Définir la Méthode d'Extraction des Facteurs. Vous pouvez choisir différentes méthodes d'extraction dans l'onglet Avancé (voir la rubrique sur la boîte de dialogue Définir la Méthode d'Extraction des Facteurs - onglet Avancé pour une description de chaque méthode, et l'Introduction pour une description des Composantes Principales et des Facteurs Principaux). Dans cet exemple, acceptons la méthode d'extraction par défaut des Composantes Principales et modifions le Nombre maximum de facteurs à 10 (la valeur maximum pour cette option) et la Valeur propre minimum à 0 (la valeur minimum pour cette option).
Cliquez sur le bouton OK de cette boîte de dialogue pour poursuivre l'analyse.
Étude des résultats. Vous pouvez étudier les résultats de façon interactive de l'analyse factorielle dans la boîte de dialogue Résultats de l'Analyse Factorielle. Tout d'abord, cliquez sur l'onglet Variance expl.
Étude des valeurs propres. La signification des valeurs propres et la façon dont elle vous aident à décider du nombre de facteurs retenir (interpréter) est expliqué dans l'Introduction. Cliquez sur le bouton Valeurs propres pour afficher la feuille de données des valeurs propres, le pourcentage de variance totale, les valeurs propres cumulées, et le pourcentage cumulé.
Comme vous pouvez le voir, les valeurs propres pour le premier facteur sont égales à 6,118369 ; la proportion de variance expliquée par la premier facteur est d'environ 61,2%. Notez que ces valeurs semblent être rapidement comparables ici puisqu'il y a 10 variables dans l'analyse, et donc que la somme de toutes les valeurs propres est égale à 10. Le second facteur explique environ 18% de la variance. Les valeurs propres restantes représentent chacune environ 5% de la variance totale.
Choix du nombre de facteurs. L'Introduction décrit brièvement comment ces valeurs propres peuvent être utilisées pour décider du nombre de facteurs à retenir, c'est-à-dire, à interpréter. Selon le critère de Kaiser (Kaiser, 1960), vous pouvez retenir les facteurs avec une valeur propre supérieure à 1. Sur la base des valeurs propres de la feuille Valeurs propres ci-dessus, ce critère suggérerait que vous choisissiez 2 facteurs.
Tracé des valeurs propres. À présent, pour produire un tracé curviligne des valeurs propres pour réaliser le test de Cattell sur les valeurs propres (Cattell, 1966), cliquez sur le bouton Tracé des valeurs propres. Le Tracé des valeurs propres affiché ci-dessous a été "modifié" pour clarifier le test. Sur la base des études de Monte-Carlo, Cattell suggère que le point où la pente se stabilise suggère la coupure, où seul le "bruit" aléatoire est extrait en ajoutant des facteurs. Dans notre exemple, ce point pourrait être le facteur 2 ou le facteur 3 (comme indiqué par les flèches). En conséquence, vous devriez étudier les deux solutions et voir laquelle donne le motif de facteur le plus facilement interprétable.
À présent, examinez les poids factoriels.
Poids factoriels. Comme nous l'avons décrit dans l'Introduction, les poids factoriels peuvent être interprétés comme les corrélations entre les facteurs et les variables. Donc, ils représentent l'information la plus importante sur laquelle se base l'interprétation des facteurs. Regardez d'abord les poids factoriels (sans rotation) des 10 facteurs. Cliquez sur la boîte de dialogue Résultats de l'Analyse Factorielle - onglet Poids Factoriels et sélectionnez l'option Aucune rotation dans la liste déroulante Rotation factorielle. Puis cliquez sur le bouton Synthèse : Poids factoriels pour afficher la feuille de données avec les Poids Factoriels.
Souvenez-vous que les facteurs sont extraits de sorte que les facteurs successifs expliquent de moins en moins de variance (voir l'Introduction). En conséquence, ce n'est pas surprenant de voir que le premier facteur ait le poids le plus élevé. Notez également que le signe des poids factoriels ne peut s'interpréter que par rapport aux autres variables de signe opposé sur ce facteur particulier. Si vous multipliez tous les poids d'une colonne par -1 (c'est-à-dire que vous inversez tous les signes), les résultats ne seront nullement modifiés.
Rotation de la solution factorielle. Comme nous l'avons décrit dans l'Introduction, l'orientation réelle des facteurs dans l'espace factoriel est arbitraire, et toutes les rotations des facteurs reproduiront aussi bien les corrélations. Puisque nous sommes dans ce cas, il semble naturel d'effectuer une rotation de la solution Factorielle afin d'obtenir une structure factorielle plus simple à interpréter ; en fait, le terme officiel structure simple a été introduit et défini par Thurstone (1947) pour décrire simplement la condition lorsque les facteurs sont marqués par des poids élevés pour certaines variables, et des poids faibles pour les autres, et lorsqu'il y a peu de poids transversaux élevés, c'est-à-dire, peu de variables avec des poids importants sur plus d'un facteur. La méthode de calcul la plus standard pour retrouver la structure simple est la rotation varimax (Kaiser, 1958) ; d'autres ont été proposées : quartimax, biquartimax, et equamax (voir Harman, 1967) et elles sont proposées dans STATISTICA.
Spécification d'une rotation. Tout d'abord, considérez le nombre de facteurs que vous souhaitez déplacer, c'est-à-dire, retenir et interpréter. nous avons précédemment établi que le nombre approprié de facteur est égal à 2 ; toutefois, d'après les résultats du tracé des valeurs propres, nous avons décidé d'étudier également la solution à trois facteurs. Nous allons commencer avec trois facteurs. Cliquez sur le bouton Annuler pour revenir à la boîte de dialogue Définir la Méthode d'Extraction des Facteurs et modifiez le Nbre max. de fact. dans l'onglet Base de 10 à 3. Puis cliquez sur le bouton OK pour poursuivre l'analyse.
Dans la boîte de dialogue Résultats de l'Analyse Factorielle - onglet Poids factoriels, sélectionnez l'option Varimax Brut dans la liste déroulante Rotation factorielle pour réaliser une rotation varimax.
Cliquez sur le bouton Synthèse : Poids factoriels pour afficher la feuille de données avec les Poids Factoriels.
Étude de la solution à trois facteurs avec rotation. Dans la feuille de données Poids Factoriels ci-dessus, des poids importants apparaissent pour le premier facteur pour les questions qui ne sont pas liées à la satisfaction au domicile. Le Facteur 2 révèle des poids factoriels importants pour les questions qui ne sont pas liées à la satisfaction au travail. Le Facteur 3 n'a qu'un seul poids important : celui pour la variable Domi_1. Le fait qu'une variable affiche un poids important pour le troisième facteur permet de se poser la question de l'utilité de ce dernier (le troisième facteur).
Étude de la solution à deux facteurs avec rotation. À nouveau, cliquez sur le bouton Annuler de la boîte de dialogue Résultats de l'Analyse Factorielle pour revenir à la boîte de dialogue Définir la Méthode d'Extraction des Facteurs. Modifiez le Nbre max. de fact. dans l'onglet Base de 3 à 2 et cliquez sur le bouton OK pour poursuivre l'analyse. Sélectionnez à nouveau l'option Varimax brut dans la liste déroulante Rotation factorielle dans l'onglet Poids factoriels et cliquez sur le bouton Synthèse : Poids factoriels.
Le Facteur 1 a les poids les plus forts pour les questions relatives à la satisfaction au travail. Les poids les plus faibles pour ce facteur sont pour les questions liées à la satisfaction à domicile. Les autres poids sont intermédiaires. Le Facteur 2 a des poids plus importants pour les questions liées à la satisfaction à domicile, des poids plus faibles pour les questions liées à la satisfaction au travail, et des poids intermédiaires pour les autres questions.
Interprétation de la solution à deux facteurs avec rotation. Est-ce que ce motif permet une interprétation simple ? Il semble que les deux facteurs les mieux identifiés sont le facteur sur la satisfaction au travail (Facteur 1) et le facteur sur la satisfaction à domicile (Facteur 2). La satisfaction dans les loisirs et les autres aspects de la vie semblent être liés aux deux facteurs. Ce motif a du sens pour la satisfaction au travail et à domicile et peut être indépendant des autres satisfactions dans cet échantillon, mais les deux contribuent à la satisfaction dans les loisirs et la satisfaction dans d'autres aspects de la vie.
Tracé de la solution à deux facteurs avec rotation. Cliquez sur le bouton Tracé des poids, 2D de la boîte de dialogue Résultats de l'Analyse Factorielle -onglet Poids factoriels pour produire un nuage de points des deux facteurs. Le graphique ci-dessous montre simplement les deux poids pour chaque variable. Notez que ce nuage de points illustre bien les deux facteurs indépendants et les 4 variables (Occup_1, Occup_2, Divers_1, Divers_2) avec les poids croisés.
À présent, regardez comment vous pouvez reproduire la matrice des corrélations observées à partir de la solution à deux facteurs.
Matrices de corrélations reproduites et de corrélations des résidus. Cliquez sur le bouton Corr. reproduites/résidus dans l'onglet Variance expl. pour afficher deux feuilles de données avec la matrice des corrélations reproduites et des corrélations des résidus (corrélations observées mois reproduites).
Les entrées de la feuille de données Corrélations des Résidus peuvent être interprétées comme la "quantité" de corrélation ne pouvant pas être expliquée par la solution à deux facteurs. Bien sûr, les éléments de la diagonale de cette matrice comportent l'écart-type qui ne peut pas être expliqué, qui est égal à la racine carrée de un moins les communautés respectives de deux facteurs (souvenez-vous que la communauté d'une variable est la variance qui ne peut pas être expliquée par le nombre respectif de facteurs). Si vous étudiez cette matrice attentivement vous allez voir qu'il n'y a quasiment pas de corrélation des résidus qui soit supérieure à 0,1 ou inférieure à -0,1 (en fait, quelques-unes sont de cet ordre). D'autre part les deux premiers facteurs comptent pour 79% de la variance totale (voir Cumul % de la feuille de données Valeurs propres).
Le "Secret" de l'exemple parfait. L'exemple que vous avez étudié fournit en fait une solution à deux facteurs parfaite. Elle représente la plus grande partie de la variance, permet une interprétation directe, et reproduit la matrice de corrélations avec de faibles perturbations (corrélations résiduelles restantes). Bien sûr, la nature permet rarement une telle simplicité, et en réalité, ce fichier de données fictives a été généré via le générateur de nombres aléatoires normaux accessible dans la rubrique formules de la feuille de données. Plus précisément, deux facteurs orthogonaux (indépendants) ont été "placés" dans les données, à partir desquelles les corrélations entre les variables ont été générées. L'exemple sur l'analyse factorielle a récupéré ces deux facteurs prévus (c'est-à-dire, le facteur sur la satisfaction au travail et celui sur la satisfaction à domicile) ; en conséquence, si la nature avait placé les deux facteurs, vous auriez appris quelque chose sur la structure sous-jacente ou latente de la nature.
Autres résultats. Avant de conclure sur cet exemple, de brefs commentaires sur d'autres résultats vont être faits.
Communautés. Pour étudier les communautés pour la solution courante, c'est-à-dire, le nombre courant de facteurs, cliquez sur le bouton Communautés de la boîte de dialogue Résultats de l'Analyse Factorielle - onglet Variance expl. Souvenez-vous que la communauté d'une variable est la portion qui peut être reproduite à partir du nombre de facteurs respectif ; la rotation de l'espace factoriel n'a aucun rapport avec les communautés. De très faibles communautés pour une ou deux variables (parmi d'autres dans l'analyse) peuvent indiquer que ces deux variables ne sont pas très bien représentées par le modèle des facteurs respectifs.
Coefficients des résultats factoriels. Les coefficients des résultats factoriels peuvent être utilisés pour calculer les résultats factoriels. Ces coefficients représentent les poids qui sont utilisés lors du calcul des résultats factoriels à partir des variables. La matrice des coefficients en elle-même a peu d'intérêt ; cependant, les résultats factoriels sont utiles si l'on veut réaliser d'autres analyses sur les facteurs. Pour étudier ces coefficients, cliquez sur le bouton Coefs des résultats factoriels dans la boîte de dialogue Résultats de l'Analyse Factorielle - onglet Résultats.
Résultats factoriels. Les résultats factoriels (valeurs) peuvent être vus comme les valeurs réelles de chaque sondé pour les facteurs sous-jacents que vous avez découverts. Le bouton Résultats factoriels de la boîte de dialogue Résultats de l'Analyse Factorielle - onglet Résultats vous permet de calculer les résultats factoriels. Ces résultats peuvent être enregistrés via le bouton Enreg. les résultats factoriels et être utilisés par la suite dans d'autres analyses.
Commentaire final. L'analyse factorielle n'est pas une procédure simple. Toute personne qui utilise l'analyse factorielle de façon routinière avec beaucoup (par exemple, 50 ou plus) de variables a vu de nombreuses variétés de "comportements pathologiques" comme des valeurs propres négatives, des solutions non-interprétables, des matrices mal conditionnées, et autres conditions hostiles. Si vous n'êtes pas intéressés par l'utilisation de l'analyse factorielle pour détecter des facteurs de structure ou significatifs dans de grands nombres de variables, il est recommandé d'étudier attentivement un manuel sur le sujet (comme Harman, 1968). De plus, parce que de nombreuses décisions cruciales dans l'analyse factorielle sont par nature subjectives (nombre de facteurs, méthode de rotation, interprétation des poids factoriels), soyez préparés au fait que l'expérience est requise avant de se sentir à l'aise avec de tels jugements. Le module Analyse Factorielle de STATISTICA a été particulièrement créé pour que vous puissiez passer facilement et interactivement entre des nombres de facteurs différents, différentes rotations, etc., pour que différentes solutions puissent être essayées et comparées.
Didacticiels
Vous pouvez visionner l'intégralité de la série de tutoriels Le Data Mining en 35 Leçons avec STATISTICA en remplissant le formulaire d'inscription. Vous serez alors notifié(e) automatiquement de la disponibilité des nouveaux épisodes et recevrez d'autres informations utiles.
StatSoft propose par ailleurs une série de didacticiels et présentations interactives décrivant pas-à-pas différentes opérations que vous pouvez réaliser à l'aide de STATISTICA. Si vous souhaitez voir aborder un thème particulier, merci de nous écrire.

Autres Méthodes
STATISTICA Data Miner offre la gamme la plus riche du marché en termes de solutions de data mining, avec une interface-utilisateur extrêmement simple à utiliser, basée sur des icônes pour :


- Drill-Down Interactif
- Sélection et Filtrage des Prédicteurs
- Modèles d'Arbres de Classification et de Régression (C&RT)
- Modèles CHAID : Des Arbres de Classification bien adaptés pour la Segmentation en Marketing et CRM
- Arbres de Décision Interactifs (CandRT, CHAID)
- Boosting d'Arbres de Classification et de Régression (Stochastic Gradient Boosting Trees)
- Forêts Aléatoires (ou Forêts Décisionnelles)
- Classification Généralisée EM et k-Moyennes : des techniques performantes de segmentation
- MARSplines (Multivariate Adaptive Regression Splines)
- Machine Learning : SVM (Séparateurs à Vaste Marge), Réseaux Bayésiens et K-Plus Proches Voisins
- Modèles Additifs Généralisés (GAM)
- Règles d'Association ou la Problématique du Panier de la Ménagère
- Regroupement de Modalités pour du Data Mining Prédictif
- Qualité d'Ajustement (Classification, Prévision)
- Déploiement Rapide de Modèles Prédictifs (PMML/XML)