Partager :

Concepts Fondamentaux en Statistique


Techniques Exploratoires Multivariées :

Analyse Factorielle des Correspondances Simple et Multiple



Sommaire :


Introduction

L'analyse des correspondances est une technique descriptive/exploratoire destinée à analyser des tables à double entrée ou plus contenant certaines mesures de correspondance entre les lignes et les colonnes. Les résultats donnent une information dont la nature est proche de celle fournie par les techniques d'Analyse Factorielle, et nous permettent d'explorer la structure des variables catégorielles de la table. Le type de table le plus courant est une table de fréquences à double entrée (voir par exemple, les modules Statistiques Élémentaires ou Analyse Log-Linéaire), c'est-à-dire un tableau de contingence.

Dans une analyse des correspondances "typique", les effectifs du tableau sont tout d'abord standardisés, de sorte que les fréquences (relatives) de toutes les cellules totalisent 1,0. Pour schématiser l'objectif d'une analyse type, disons que l'on cherche à représenter les entrées du tableau de fréquences en termes de distances entre les lignes et/ou colonnes individuelles dans un espace à peu de dimensions. L'exemple ci-dessous illustrera sans doute mieux notre propos. Il y a un certain parallèle entre l'interprétation d'une analyse des correspondances et d'une Analyse Factorielle, et nous mettrons en évidence certains concepts similaires aux deux techniques.

Pour une description complète de cette méthode, ses applications et le détail des calculs, veuillez vous référer à l'ouvrage de Greenacre (1984). Ces méthodes ont été initialement développées en France par Jean-Paul Benzécri au début des années 1960 et dans les années 1970 (par exemple, voir Benzécri, 1973 ; voir également Lebart, Morineau, et Tabard, 1977). Notez que des techniques similaires ont été développées indépendamment dans différents pays, où elles sont plus connues sous les noms de graduation optimale, de moyennes réciproques, de scoring optimal, de méthode de quantification ou d'analyse d'homogénéité. Dans les paragraphes suivants, nous introduirons les principes fondamentaux de l'analyse des correspondances. Notez que le module Analyse des Correspondances permet également de réaliser des analyses de correspondances multiple à partir de tableaux de Burt. Si vous connaissez déjà les concepts généraux utilisés dans l'analyse des correspondances, vous pouvez vous reporter à la rubrique Détail des Calculs pour une brève présentation des formules utilisées.

Introduction. Supposons que vous ayez collecté des données sur les habitudes de différents salariés d'une entreprise concernant la cigarette. Les données suivantes sont présentées dans l'ouvrage de Greenacre (1984, p. 55) ; ces données sont aussi fournies dans le fichier d'exemple Smoking.sta.

 

Catégorie de Fumeur

 

Position

Hiérarchique

(1)

Non Fumeur

(2)

Occasionnel

(3)

Moyen

(4)

Gros Fumeur

Totaux

Lignes

(1) Cadre Exp.

(2) Cadre Déb.

(3) Employé Exp.

(4) Employé Déb.

(5) Secrétaire

  4

  4

25

18

10

  2

  3

10

24

  6

  3

  7

12

33

  7

  2

  4

  4

13

  2

  11

  18

  51

  88

  25

Totaux Colonnes

61

45

62

25

193

Vous pouvez considérer les 4 valeurs des colonnes pour chaque ligne comme des coordonnées dans un espace à 4 dimensions, et calculer les distances (euclidiennes) entre les 5 points lignes de cet espace à 4 dimensions. Les distances entre les points de cet espace à 4 dimensions synthétisent toute l'information concernant les similitudes entre les lignes du tableau ci-dessus. Maintenant, supposez que vous pouvez trouver un espace avec moins de dimensions, dans lequel placer les points ligne de sorte à conserver toute l'information ou presque, sur les différences entre les lignes. Vous pouvez alors représenter toute l'information sur les similitudes entre les lignes (position hiérarchique dans ce cas) dans un graphique simple à 1, 2, ou 3 dimensions. Si cette procédure peut sembler d'un intérêt limité pour traiter de petits tableaux comme celui ci-dessus, vous pouvez aisément imaginer l'intérêt dans la représentation et l'interprétation des tableaux plus conséquents (par exemple, les préférences différentielles de 10 produits entre 100 groupes de prospects dans une enquête de consommation) grâce à la simplification induite par l'analyse des correspondances (par exemple, représenter les 10 produits dans un espace à deux dimensions).

Masse. Pour poursuive avec l'exemple élémentaire de tableau à double entrée reporté ci-dessus, le programme va tout d'abord calculer les fréquences relatives de la table de fréquences, de sorte que la somme de toutes les entrées de la table totalise 1,0 (chaque élément sera rapporté au total, c'est-à-dire 193). On pourrait dire que cette table donne maintenant la manière dont les unités de masse sont distribuées entre les cellules. Dans la terminologie de l'analyse des correspondances, les totaux ligne et colonne de la matrice des fréquences relatives sont appelés respectivement masse ligne et masse colonne.

Inertie. Le terme Inertie dans l'analyse des correspondances est utilisé par analogie avec la définition du "moment d'inertie" en mathématiques appliquées, qui représente l'intégrale de la masse multipliée par la distance au carré au centre de gravité (par exemple, Greenacre, 1984, p. 35). L'inertie se définit comme le Chi² total de Pearson de la table d'ordre deux (par exemple, tel qu'il est également calculé dans les modules Statistiques Élémentaires ou Analyse Log-Linéaire) rapporté à la somme totale (193 dans notre exemple).

Inertie et profils ligne et colonne. Si les lignes et colonnes d'une table sont complètement indépendantes entre elles, les entrées de la table (distribution de la Masse) peuvent être reproduites à partir des totaux ligne et colonne seuls (totaux marginaux), ou profils ligne et colonne dans la terminologie de l'analyse des correspondances. Selon la formule de calcul bien connue du Chi² pour des tables à double entrée, la fréquence théorique (attendue) d'une table, où les colonnes et lignes sont indépendantes entre elles, est égale au total de la colonne respective multiplié par le total ligne, et rapporté au total général. Tout écart aux valeurs théoriques (attendues sous l'hypothèse d'indépendance complète des variables lignes et colonnes) va contribuer à la statistique globale du Chi² (voir la rubrique Détail des Calculs). Par conséquent, une autre manière d'appréhender l'analyse des correspondances revient à considérer qu'il s'agit d'une manière de décomposer la statistique globale du Chi² (ou Inertie=Chi²/N Total) en identifiant un nombre restreint de dimensions dans lesquelles les écarts aux valeurs théoriques peuvent être représentées. L'objectif de l'Analyse Factorielle, est similaire, puisque la variance totale est décomposée, de façon à permettre une représentation des variables sur quelques dimensions, nous permettant de reconstruire l'essentiel de la matrice de variance/covariance des variables.

Analyser les lignes et colonnes. Nous nous sommes attachés dans cet exemple simple à la présentation des points lignes dans le tableau précédent. Toutefois on aurait put s'intéresser plutôt aux totaux colonnes, et dans ce cas, tracer les points colonnes dans un espace à quelques dimensions reproduisant de façon satisfaisante les similitudes (et distances) entre les fréquences relatives des colonnes, selon les lignes, dans le tableau ci-dessus. En fait, il est courant de tracer simultanément les points colonne et les points ligne dans un seul graphique afin de synthétiser l'information contenue dans le tableau à double entrée.

Étude des résultats. Examinons maintenant certains résultats du tableau donné précédemment. Tout d'abord vous trouverez ci-dessous les Valeurs Singulières (voir la rubrique Détail des Calculs), les Valeurs Propres, les Pourcentages d'Inertie Expliquée, les Pourcentages Cumulés, et la contribution au Chi².

Valeurs Propres et Inertie de toutes les Dimensions

Table d'Entrée (Lignes x Colonnes): 5 x 4

Total Inertie=.08519 Chi²=16.442

Nb. de

Dims

Valeurs

Singul.

Valeurs

Propres

%age

d'Inertie

% age

Cumulé

  Chi²

 

1

2

3

.273421

.100086

.020337

.074759

.010017

.000414

87.75587

11.75865

.48547

87.7559

99.5145

100.0000

14.42851

1.93332

.07982

Remarque : les dimensions sont "extraites" de façon à maximiser les distances entre les points ligne et colonne, et les dimensions successives (qui sont indépendantes ou orthogonales entre elles) vont "expliquer" une part de plus en plus faible de la valeur du Chi² (et donc, de l'inertie ; reportez-vous à la rubrique Détail des Calculs pour plus d'informations). Ainsi, l'extraction des dimensions est similaire à l'extraction des composantes principales dans l'Analyse Factorielle.

Tout d'abord, il apparaît qu'avec une seule dimension, 87,76% de l'inertie peut être "expliquée", c'est-à-dire que les valeurs des fréquences relatives qui peuvent être reconstruites à partir d'une seule dimension reproduisent 87,76% de la valeur totale du Chi² (et donc de l'inertie) pour ce tableau à double entrée ; deux dimensions nous permettent d'expliquer 99,51%.

Nombre maximum de dimensions. Puisque la somme des effectifs en colonnes est égale à la somme des effectifs en lignes, il n'y a, dans un certain sens, que des entrées indépendantes (nombre de colonnes-1) dans chaque ligne, et des entrées indépendantes (nombre de lignes-1) dans chaque colonne de la table (une fois que vous connaissez ces entrées, vous pouvez remplir le reste, en connaissant les totaux marginaux en ligne et en colonne). Ainsi, le nombre maximum de valeurs propres qui peuvent être extraites d'une table à double entrée est égal au minimum entre le nombre de colonnes moins 1, et le nombre de lignes moins 1. Si vous choisissez d'extraire (c'est-à-dire d'interpréter) le nombre maximum de dimensions possibles, vous pouvez reproduire exactement toute l'information contenue dans la table (voir la rubrique Détails des Calculs pour les détails concernant l'équation générale du "modèle").

Coordonnées lignes et colonnes. Examinons maintenant les coordonnées de la solution à deux dimensions.

Nom Ligne

Dim. 1

Dim. 2

(1) Cadre Expérimenté

(2) Cadre Débutant

(3) Employé Expérimenté

(4) Employé Débutant

(5) Secrétaire

-.065768

.258958

-.380595

.232952

-.201089

.193737

.243305

.010660

-.057744

-.078911

Bien entendu, vous pouvez tracer ces coordonnées dans un nuage de points à deux dimensions à partir de la boîte de dialogue Résultats de l'Analyse des Correspondances. Souvenez-vous que l'objectif de l'analyse des correspondances consiste à reproduire les distances entre les points ligne et/ou colonne d'un tableau à double entrée dans un espace de moindre dimension. Notez que comme dans l'analyse factorielle, l'orientation des axes est arbitraire et que les dimensions successives vont "expliquer" une part de plus en plus faible de la valeur globale du Chi² (ou inertie). Vous pouvez par exemple, inverser les signes dans chaque colonne de la table donnée ci-dessus afin de faire pivoter les axes respectifs dans le tracé de 180° (vous pouvez également réaliser rapidement cette "inversion d'échelle" grâce à l'option Inverser la graduation de la boîte de dialogue Toutes les Options - onglet Axes : Échelle pour l'axe respectif).

Ce qui est important, ce sont les distances entre les points dans le plan factoriel. Cette information est importante dans la mesure où les proximités entre les points ligne indiquent des similitudes quant à la structure des fréquences relatives entre les colonnes. Si vous avez produit ce plan factoriel, vous avez pu constater que sur le premier axe (le plus important), les Employés Expérimentés et les Secrétaires sont relativement proches, à gauche de l'origine (position 0 sur l'échelle). Si vous examinez la table des fréquences lignes relatives (c'est-à-dire, les fréquences standardisées, pour que les sommes en ligne donnent un total de 100%), vous pouvez constater qu'effectivement, ces deux groupes ont des attitudes relativement similaires par rapport à la cigarette (structures assez proche des fréquences relatives).

Pourcentages des Totaux Lignes

 

Catégorie de Fumeur

 

Position

Hiérarchique

(1)

Non Fumeur

(2)

Occasionnel

(3)

Moyen

(4)

Gros Fumeur

Totaux

Lignes

(1) Cadre Exp.

(2) Cadre Déb.

(3) Employé Exp.

(4) Employé Déb.

(5) Secrétaire

36.36

22.22

49.02

20.45

40.00

18.18

16.67

19.61

27.27

24.00

27.27

38.89

23.53

37.50

28.00

18.18

22.22

  7.84

14.77

  8.00

100.00

100.00

100.00

100.00

100.00

Bien entendu, l'objectif final de l'analyse des correspondances est de trouver des interprétations théoriques (significatives) des dimensions extraites. Une méthode pouvant apporter une aide dans l'interprétation des dimensions extraites consiste à tracer les points colonne. Vous trouverez ci-dessous les coordonnées colonne de la première et de la seconde dimension.

Catégorie

de fumeur

 

Dim. 1

 

Dim. 2

Non-fumeur

Occasionnel

Moyen

Gros fumeur

-.393308

.099456

.196321

.293776

.030492

-.141064

-.007359

.197766

Il apparaît que la première dimension oppose essentiellement les différentes catégories de fumeurs, et en particulier les Non Fumeurs par rapport aux autres. On peut également interpréter la proximité des Cadres Expérimentés avec les Secrétaires sur le premier axe, essentiellement imputable à une proportion assez importante de Non Fumeurs dans ces deux groupes.

Remarque : dans des tables plus complexes, avec de nombreux niveaux, certaines étiquettes de points peuvent se chevaucher dans les nuages de points. Vous pouvez utiliser les fonctions d'habillage pour éliminer les points qui présentent le moins d'intérêt, et ne conserver à l'affichage que les points qui "font" clairement les axes respectifs.

Compatibilité des coordonnées ligne et colonne. Il est courant de représenter simultanément les coordonnées lignes et colonnes sur un même tracé (une option vous permet de tracer des graphiques à une, deux, ou trois dimensions pour les coordonnées ligne, colonne ou les deux, dans la boîte de dialogue des Résultats). Toutefois, il faut savoir que dans ces tracés, seules les distances entre les points ligne, et les distances entre les points colonne peuvent être interprétées, et non les distances entre les points ligne et les points colonne. Pour reprendre notre exemple, il serait incorrect de dire que la catégorie Non Fumeurs est similaire à Employés Expérimentés (même si les deux points sont très proches dans le tracé simultané des coordonnées lignes et colonnes). En revanche, comme nous l'avons indiqué précédemment, nous pouvons formuler des affirmations générales quant à la nature des dimensions, selon que tel ou tel point particulier va se trouver d'un côté ou de l'autre de l'origine. Par exemple, puisque la catégorie Non Fumeurs est le seul point colonne à gauche de l'origine sur le premier axe, et puisque le groupe Employés Expérimentés se trouve également de ce côté du premier axe, nous pouvons en conclure que le premier axe oppose les Non Fumeurs aux autres catégories de fumeurs, et que les Employés Expérimentés se différencient, par exemple, des Employés Débutants, par une proportion plus forte de non-fumeurs chez les Employés Expérimentés.

Échelle des coordonnées (options de centrage-réduction). Une autre décision importante que l'analyste doit prendre, concerne l'échelle des coordonnées. Les calculs issus du choix des différentes options disponibles (voir la boîte de dialogue des Résultats) sont décrits dans la rubrique Détail des Calculs. Le choix sera différent selon que vous souhaitez analyser des pourcentages ligne, colonne, ou les deux. Dans le cadre de l'exemple décrit précédemment, nous avons indiqué les pourcentages ligne pour illustrer la manière dont la structure de ces pourcentages en colonne est similaire pour les points qui apparaissent proches sur le plan factoriel des coordonnées lignes. En d'autres termes, les coordonnées sont basées sur l'analyse de la matrice des profils lignes, où la somme des entrées de la table sur une ligne, pour toutes les colonnes, est égale à 1,0 (chaque entrée rij de la matrice des profils lignes peut s'interpréter comme la probabilité conditionnelle qu'une observation appartienne à la colonne j, étant donnée son appartenance à la ligne i). Ainsi, les coordonnées sont calculées de façon à maximiser les différences entre les points compte tenu des profils lignes (pourcentages ligne). C'est pourquoi il faut sélectionner l'option Profils Ligne dans le cadre Centrer-Réduire les Coordonnées à l'onglet Options de la boîte de dialogue Résultats de l'Analyse des Correspondances, si l'on s'intéresse principalement à l'interprétation des différences (distances) entre les lignes de la table.

A l'inverse, si l'on s'intéresse aux similitudes et aux différences entre les colonnes de la table, il faut sélectionner l'option Profils Colonne dans le cadre Centrer-Réduire les Coordonnées à l'onglet Options de la boîte de dialogue Résultats de l'Analyse des Correspondances ; les coordonnées des colonnes sont alors obtenues par l'analyse de la matrice des profils colonnes (la matrice des pourcentages en colonne, où la somme des entrées de la table pour chaque colonne est égale à 1,0). Cette standardisation va maximiser les distances entre les points colonnes dans le système final de coordonnées.

Par défaut, STATISTICA va effectuer les deux types de standardisation, avant de reporter les coordonnées (option Profils Ligne et Colonne dans le cadre Centrer-Réduire les Coordonnées à l'onglet Options de la boîte de dialogue Résultats de l'Analyse des Correspondances) : les coordonnées des lignes sont calculées à partir de la matrice des profils lignes, et les coordonnées des colonnes sont calculées à partir de celle des profils colonnes.

Une quatrième option, la Standardisation Canonique (voir Gifi, 1981), est également proposée dans le cadre Centrer-Réduire les Coordonnées à l'onglet Options de la boîte de dialogue Résultats de l'Analyse des Correspondances ; elle revient à centrer-réduire les colonnes et les lignes de la matrice des fréquences relatives. Pour davantage d'informations, veuillez vous référer à la rubrique Détail des Calculs ; ce centrage-réduction consiste à normer les coordonnées sur la base de la standardisation des profils lignes et de la standardisation des profils colonnes, mais ce type de centrage-réduction est finalement assez peu utilisé. Notez également que de nombreuses autres standardisations définies peuvent aisément être réalisées, puisque STATISTICA va reporter les matrices brutes des valeurs propres, qui pourront ultérieurement être utilisées avec STATISTICA Visual BASIC.

Métrique du système de coordonnées. À plusieurs reprises dans cette introduction, nous avons utilisé (de manière assez floue) le terme distance pour faire référence aux différences entre la structure des fréquences relatives des lignes par colonne, et des colonnes par ligne ; ces différences sont reproduites dans un espace à quelques dimensions à l'issue de l'analyse des correspondances. En fait, ces distances représentées par les coordonnées dans l'espace respectif ne sont pas de simples distances euclidiennes calculées à partir des fréquences relatives lignes ou colonnes, mais au contraire des distances pondérées. Plus précisément, la pondération qui est appliquée est telle que la métrique de l'espace à quelques dimensions soit la métrique du Chi², à condition que (1) vous compariez des points lignes, et que vous ayez choisi soit de centrer-réduire les profils lignes, soit de centrer-réduire les profils ligne et colonne, ou (2) que vous compariez des points colonne, et que vous ayez choisi soit de centrer-réduire les profils colonnes, soit le centrage-réduction des profils lignes et colonnes.

Dans ce cas (mais pas si vous avez choisi la standardisation canonique), le carré de la distance euclidienne entre, par exemple, deux points lignes i et i' du système respectif de coordonnées pour un nombre donné de dimensions, va donner une approximation de la distance pondérée (c'est-à-dire, Chi²) entre les fréquences relatives (voir Hoffman et Franke, 1986, formule 21) :

dii '2 = Sj (1/cj (pij /ri - p2i ' j /ri '))

Dans cette formule, dii'² représente le carré de la distance entre les deux points, cj représente le total colonne de la j-ième colonne de la table de fréquences standardisées (où la somme de toutes les entrées ou masse est égale à 1,0), pij représente les entrées individuelles des cellules dans la table de fréquences standardisées (ligne i, colonne j), ri représente le total ligne de la i-ième colonne de la table de fréquences relatives, et la sommation (S) s'effectue sur les colonnes de la table. Au risque de nous répéter, seules les distances entre les points ligne (ou entre les points colonne) peuvent être interprétées de cette manière ; les distances entre les points ligne et les points colonne ne peuvent être interprétées.

Juger de la qualité d'une solution. D'autres statistiques auxiliaires sont reportées afin de vous aider à évaluer la qualité du nombre de dimensions retenues. Nous souhaitons bien entendu que tous (ou presque tous) les points soient correctement représentés dans la solution respective, c'est-à-dire que leurs distances aux autres points puissent être interprétées de façon satisfaisante. Ci-dessous, vous trouverez toutes les statistiques reportées pour les coordonnées ligne, sur le tableau que nous avons analysé jusqu'à présent, et pour une seule dimension (c'est-à-dire qu'une seule dimension a été extraite pour reconstruire la structure des fréquences relatives entre les colonnes).

Coordonnées Lignes et Contributions à l'Inertie

 

Position Hiérarchique

Coordin.

Dim.1

 

Masse

 

Qualité

Inertie

Relative

Inertie

Dim.1

Cosinus²

Dim.1

(1) Cadres Exp.

(2) Cadres Déb.

(3) Employés Exp.

(4) Employés Déb.

(5) Secrétaires

-.065768

.258958

-.380595

.232952

-.201089

.056995

.093264

.264249

.455959

.129534

.092232

.526400

.999033

.941934

.865346

.031376

.139467

.449750

.308354

.071053

.003298

.083659

.512006

.330974

.070064

.092232

.526400

.999033

.941934

.865346

Coordonnées. La première colonne numérique donnée du tableau ci-dessus contient les coordonnées, telles que nous les avons présentées dans les paragraphes précédents. Pour réitérer, l'interprétation spécifique de ces coordonnées dépend de la standardisation (centrer-réduire) choisie pour la solution (voir ci-dessus). Le nombre de dimensions est choisi par l'utilisateur (dans le cas présent, nous n'avons choisi qu'une seule dimension), et les valeurs des coordonnées sont données pour chaque dimension (c'est-à-dire, qu'il y aura une colonne avec les valeurs des coordonnées pour chaque dimension).

Masse. La colonne Masse contient les totaux lignes (puisque ce sont les coordonnées des lignes) de la table des fréquences relatives (c'est-à-dire, de la table où chaque entrée est la masse respective, comme évoqué précédemment dans cette section). Rappelez-vous que, si vous avez choisi comme méthode de centrage-réduction, l'option Profils Ligne ou l'option par défaut Profils Ligne et Colonne à l'onglet Options de la boîte de dialogue Résultats de l'Analyse des Correspondances, les coordonnées des lignes seront calculées sur la base de la matrice des profils ligne. En d'autres termes, les coordonnées sont calculées sur la base de la matrice des probabilités conditionnelles données dans la colonne Masse.

Qualité. La colonne Qualité contient des informations concernant la qualité de représentation des points lignes respectifs dans le système de coordonnées défini par le nombre respectif de dimensions choisies par l'utilisateur. Dans la table donnée ci-dessus, seule une dimension a été extraite, et les nombres de la colonne Qualité font référence à la qualité de représentation dans cet espace à une dimension. Pour réitérer, l'objectif de l'analyse des correspondances est de reproduire les distances entre les points dans un espace à quelques dimensions. Si vous choisissez d'extraire (c'est-à-dire d'interpréter) le nombre maximum de dimensions (égal au minimum entre le nombre de lignes ou le nombre de colonnes, moins 1), vous pouvez reconstruire exactement toutes les distances. La Qualité d'un point se définit comme le ratio de la distance au carré d'un point à l'origine, pour le nombre de dimensions choisies, sur la distance au carré par rapport à l'origine, dans l'espace défini par le nombre maximum de dimensions (souvenez vous que la métrique est celle du Chi², comme nous l'avons dit précédemment). Par analogie avec l'Analyse Factorielle, la qualité d'un point est similaire dans son interprétation à la communauté d'une variable dans l'analyse factorielle.

Remarque : la mesure de Qualité reportée par STATISTICA ne dépend pas du choix de la méthode de centrage-réduction, et elle fait toujours référence à la méthode de centrage-réduction par défaut (c'est-à-dire, la métrique de la distance est celle du Chi², et la mesure de qualité peut s'interpréter comme la "proportion du Chi² qui est expliquée par" la ligne respective, étant donné le nombre respectif de dimensions). Une faible qualité de représentation signifie que les dimensions extraites ne représentent pas bien la ligne (ou colonne) respective. Dans la table donnée ci-dessus, la qualité de la première ligne (Cadre Expérimenté) est inférieure à 0,1, et indique que ce point est mal représenté dans l'espace à une dimension.

Inertie relative. La Qualité d'un point (voir ci-dessus) représente la proportion de la contribution de ce point à l'inertie globale (Chi²) et peut s'expliquer par le nombre de dimensions choisies. Toutefois, elle n'indique pas si, ni dans quelle mesure, le point respectif contribue à l'inertie globale (valeur du Chi²). L'inertie relative représente la proportion d'inertie totale qui est expliquée par le point respectif, et elle est indépendante du nombre de dimensions choisies par l'utilisateur. Notez qu'une solution particulière peut représenter très bien un point (forte Qualité de représentation), même si ce point ne contribue que marginalement à l'inertie globale (par exemple, un point ligne avec une structure de fréquences relatives en colonnes proche de la structure moyenne de toutes les lignes).

Inertie relative de chaque dimension. Cette colonne contient la contribution relative du point (ligne) respectif à l'inertie "expliquée par" la dimension respective. Ainsi, cette valeur sera reportée pour chaque point (ligne ou colonne), de chaque dimension.

Cosinus² (qualité ou corrélations au carré avec chaque dimension). Cette colonne contient la qualité de chaque point, par dimension. La somme des valeurs dans ces colonnes sur toutes les dimensions est égale à la valeur de Qualité totale présentée précédemment (puisque nous n'avons choisi qu'une seule dimension dans la table ci-dessus, les valeurs de cette colonne sont identiques aux valeurs de la colonne de Qualité globale). Cette valeur peut également s'interpréter comme la "corrélation" du point respectif avec la dimension respective. Le terme Cosinus² fait référence au fait que cette valeur est également la valeur du cosinus au carré de l'angle que le point forme avec la dimension respective (veuillez vous référer à Greenacre, 1984, pour les détails concernant les aspects géométriques de l'analyse des correspondances).

Une remarque concernant la "significativité statistique". Il faut souligner que l'analyse des correspondances est une technique exploratoire. En fait, la méthode a été développée sur la base d'une orientation philosophique mettant plus l'accent sur le développement de modèles qui ajustent les données, que sur le rejet d'hypothèses basées sur le manque d'ajustement (le "second principe" de Benzécri dit que "le modèle doit ajuster les données, et non l'inverse"  ; voir Greenacre, 1984, p. 10). C'est pourquoi il n'y a pas de tests de significativité statistique s'appliquant aux résultats d'une analyse des correspondances ; l'objectif principal de cette technique est de produire une représentation simplifiée (sur quelques dimensions) des informations contenues dans une table de fréquences importante (ou des tables avec des mesures similaires de correspondance).

Présentation du Programme

Le module Analyse des Correspondances permet de mettre en œuvre les techniques d'analyse des correspondances simple et multiple (voir, par exemple, Greenacre, 1984 ; voir également les rubriques Introduction et Analyse des Correspondances Multiple - Introduction).

Données d'entrée. STATISTICA accepte des fichiers d'entrée avec des variables de classement (codification) à utiliser pour le calcul de la table croisée, des fichiers de données contenant des fréquences (ou d'autres mesures de correspondance, d'association, de similitude, de confusion, etc.) et des variables de codification identifiant (énumérant) les cellules de la table d'entrée, ou encore des fichiers avec des fréquences (ou autre mesure de correspondance) seules (par exemple, l'utilisateur peut directement saisir et analyser une table de fréquences). Pour l'analyse des correspondances multiple, l'utilisateur peut également spécifier directement une table de Burt comme entrée pour l'analyse.

Statistiques descriptives. STATISTICA calcule diverses tables, notamment la table des pourcentages ligne, pourcentages colonne, pourcentages totaux, valeurs théoriques, valeurs observées moins théoriques, écarts standardisés et contributions aux valeurs du Chi². Toutes ces statistiques peuvent être représentées sur des histogrammes bivariés en 3D.

Résultats. STATISTICA calcule les valeurs propres et reporte tous les diagnostics standard, notamment les valeurs singulières, valeurs propres, et pourcentage d'inertie sur chaque dimension. Vous pouvez choisir manuellement le nombre de dimensions, ou spécifier un seuil pour un pourcentage cumulé d'inertie maximum. STATISTICA calcule les valeurs standard des coordonnées des points ligne et colonne. Vous pouvez choisir entre centrer-réduire les profils ligne, centrer-réduire les profils colonne, centrer-réduire les profils ligne et colonne, ou la standardisation canonique. Pour chaque dimension et point ligne ou colonne, STATISTICA calcule les valeurs d'inertie, de qualité, et les cosinus². En outre, vous pouvez afficher des matrices des vecteurs singuliers généralisés ; ces matrices sont accessibles grâce à STATISTICA Visual BASIC, par exemple, afin de mettre en œuvre une méthode non-standard de calcul des coordonnées.

Points supplémentaires. Vous pouvez calculer les valeurs des coordonnées et les statistiques associées (qualité de représentation et cosinus²) des points supplémentaires (ligne ou colonne), et comparer les résultats avec les points lignes et colonnes actifs. Vous pouvez également spécifier des points supplémentaires dans l'analyse des correspondances multiple.

Résultats graphiques. Outre les histogrammes bivariés en 3D qui peuvent être calculés pour toutes les tables, vous pouvez représenter un tracé linéaire des valeurs propres, ainsi que des tracés en 1D, 2D, et 3D des points lignes ou colonnes. Les points lignes et colonnes peuvent également être représentés dans un même graphique avec les éventuels points supplémentaires (chaque type de point est représenté par une couleur et avec un symbole différents afin que les différents types de points puissent aisément être identifiés dans les tracés). Tous les points sont étiquetés, et une option vous permet de tronquer les noms des points à un nombre de caractères spécifique.

Autres procédures. Le module Statistiques Élémentaires comporte diverses options pour le calcul des tables de fréquences d'ordre multiple, et les mesures d'association de ces tables. Le module Analyse Log-Linéaire de Tables de Fréquences permet également l'analyse de tables de fréquences d'ordre multiple, et comporte des fonctions pour analyser les relations entre des variables catégorielles. Pour des variables continues, les modules Analyse de Proximité et Analyse Factorielle produisent des résultats similaires dans leur nature et leur interprétation (voir Greenacre, 1984 ; voir également l'Introduction).

Points Supplémentaires

La rubrique Introduction vous a expliqué comment interpréter les coordonnées et les statistiques associées qui sont calculées dans une analyse des correspondances. L'introduction de points (ligne ou colonne) supplémentaires, non utilisés pour effectuer l'analyse originale, apporte une aide importante pour l'interprétation des résultats. Le module Analyse des Correspondances permet à l'utilisateur d'ajouter à la fois des lignes (individus) et des colonnes (variables) supplémentaires, et de tracer leurs coordonnées sur le même graphique que les points lignes et colonnes actifs (voir également la rubrique Détail des Calculs).

Par exemple, considérez les résultats suivants, basés sur l'exemple donné en Introduction (et reporté par Greenacre, 1984).

Nom des Lignes

Dim. 1

Dim. 2

(1) Cadres Expérimentés

(2) Cadres Débutants

(3) Employés Expérimentés

(4) Employés Débutants

(5) Secrétaires

-.065768

.258958

-.380595

.232952

-.201089

.193737

.243305

.010660

-.057744

-.078911

Moyenne Nationale

-.258368

-.117648

La table ci-dessus donne les valeurs des coordonnées (sur deux dimensions) calculées à partir d'une table de fréquences de différentes positions hiérarchiques en fonction de leur attitude par rapport à la cigarette. La ligne intitulée Moyenne Nationale contient les coordonnées du point supplémentaire, qui représente la moyenne nationale (en pourcentages) des différentes catégories de fumeurs (qui constituent les colonnes de la table ; ces pourcentages fictifs reportés par Greenacre (1984) sont : non fumeurs : 42%, fumeurs occasionnels : 29%, fumeurs moyens : 20% et gros fumeurs : 9%). Si vous tracez ces coordonnées dans un nuage de points à deux dimensions, avec les coordonnées colonnes, il va apparaître que le point ligne supplémentaire Moyenne Nationale est proche du groupe Secrétaires, et du même côté de l'axe horizontal (première dimension) que le point colonne Non Fumeurs. Si vous revenez à la table initiale à double entrée, donnée précédemment dans l'Introduction, ce résultat est cohérent avec les entrées de la table des fréquences lignes, c'est-à-dire qu'il y a relativement plus de non fumeurs chez les Secrétaires et dans la Moyenne Nationale. En d'autres termes, l'échantillon représenté dans la table de fréquences initiale contient plus de fumeurs que la moyenne nationale.

Si ce type d'information peut aisément être déduit de la table de fréquences originale (utilisée en entrée de l'analyse), dans le cas de tables très importantes, ces conclusions peuvent parfois ne pas être aussi triviales.

Qualité de représentation des points supplémentaires. Un autre résultat intéressant des points supplémentaires concerne la qualité de leur représentation sur le nombre de dimensions choisi (voir l'Introduction pour une présentation plus détaillée du concept de qualité de représentation). Pour réitérer, l'objectif de l'analyse des correspondances est de reproduire les distances entre les coordonnées ligne ou colonne (structure des fréquences relatives en colonnes ou en lignes, respectivement) dans un espace à quelques dimensions. Étant donné cet espace, on peut se demander si des points supplémentaires particuliers peuvent être représentés aussi bien dans l'espace final, c'est-à-dire si leurs distances aux autres points de la table peuvent également être représentées dans le nombre de dimensions choisi. Ci-dessous, les statistiques de synthèse des points initiaux, et le point ligne supplémentaire Moyenne Nationale, de la solution à deux dimensions.

Position

Hiérarchique

 

Qualité

Cosinus2

Dim.1

Cosinus2

Dim.2

(1) Cadres Exp.

(2) Cadres Déb.

(3) Employés Exp.

(4) Employés Déb.

(5) Secrétaires

.892568

.991082

.999817

.999810

.998603

.092232

.526400

.999033

.941934

.865346

.800336

.464682

.000784

.057876

.133257

Moyenne Nationale

.761324

.630578

.130746

Les statistiques reportées dans la table ci-dessus sont présentées dans la rubrique Introduction. En résumé, la qualité d'un point ligne ou colonne est définie par le ratio entre la distance au carré d'un point par rapport à l'origine, pour le nombre de dimensions choisies, et la distance au carré par rapport à l'origine, dans l'espace défini par le nombre maximum de dimensions (souvenez vous que la métrique est celle du Chi², comme nous l'avons décrit en Introduction). En un sens, la qualité globale est la "proportion de la distance au carré au centre de gravité du nuage qui est expliquée". Le point ligne supplémentaire Moyenne Nationale possède une Qualité de 0,76, indiquant que ce point est raisonnablement bien représenté dans la solution à deux dimensions. La statistique du Cosinus² est la qualité "expliquée par" le point ligne respectif, pour la dimension respective (la somme des Cosinus² sur le nombre respectif de dimensions est égal à la Qualité totale, voir également la rubrique Introduction).

Analyse (Factorielle) des Correspondances Multiple (AFCM)

Vous pouvez considérer l'analyse factorielle des correspondances multiple (AFCM) comme une extension de l'analyse des correspondances simple à plus de deux variables. Pour une présentation de l'analyse des correspondances simple, veuillez vous reporter à l'Introduction. L'analyse des correspondances multiple est une analyse des correspondances simple réalisée sur un tableau disjonctif complet avec des observations en ligne et des catégories de variables en colonnes. En fait, on analyse souvent le produit interne de ces matrices, appelé Tableau de Burt dans une AFCM  ; nous y reviendrons ultérieurement. Toutefois, pour clarifier l'interprétation des résultats d'une analyse des correspondances multiple, il est plus simple de présenter l'analyse des correspondances simple d'un tableau disjonctif complet.

Tableau disjonctif complet. Considérez à nouveau à la table à double entrée présentée dans l'Introduction :

 

Catégorie de Fumeur

 

Position

Hiérarchique

(1)

Non-fumeur

(2)

Occasionnel

(3)

Moyen

(4)

Gros fumeur

Totaux

Lignes

(1) Cadres Exp.

(2) Cadres Déb.

(3) Employés Exp.

(4) Employés Déb.

(5) Secrétaires

  4

  4

25

18

10

  2

  3

10

24

  6

  3

  7

12

33

  7

  2

  4

  4

13

  2

  11

  18

  51

  88

  25

Totaux Colonnes

61

45

62

25

193

Supposons que vous avez saisi les données de cette table de la manière suivante, sous forme d'un tableau disjonctif complet :

 

Position Hiérarchique

Catégorie de Fumeur

Obs.

Cadre

Exp.

Cadre

Déb.

Employé

Exp.

Employé

Déb.

 

Secrétaire

 

Non fumeur

 

Occasionnel

 

Moyen

 

Gros fumeur

1

2

3

4

5

...

...

...

191

192

193

1

1

1

1

1

.

.

.

0

0

0

0

0

0

0

0

.

.

.

0

0

0

0

0

0

0

0

.

.

.

0

0

0

0

0

0

0

0

.

.

.

0

0

0

0

0

0

0

0

.

.

.

1

1

1

1

1

1

1

0

.

.

.

0

0

0

0

0

0

0

1

.

.

.

0

0

0

0

0

0

0

0

.

.

.

1

0

0

0

0

0

0

0

.

.

.

0

1

1

Chacune des 193 observations de la table est représentée par une ligne dans ce fichier de données. Pour chaque observation, un 1 est entré dans la catégorie à laquelle l'observation respective "appartient", et un 0 dans tous les autres cas. Par exemple, l'observation numéro 1 représente un Cadre Expérimenté qui est Non Fumeur. Comme vous pouvez le voir dans la première table, 4 personnes sont dans ce cas, et donc il y aura quatre observations de ce type dans le tableau disjonctif complet. Au total, le tableau disjonctif complet comportera 193 observations.

Analyse du tableau disjonctif complet. Si vous analysez maintenant le fichier de données (tableau disjonctif complet) ci-dessus comme s'il s'agissait d'une table de fréquences d'ordre deux, les résultats de l'analyse des correspondances donneraient des coordonnées de colonnes vous permettant de lier les différentes catégories entre elles, sur la base des distances entre les points ligne, c'est-à-dire entre les observations individuelles. En fait, le plan factoriel obtenu pour les coordonnées colonne serait très proche du tracé combiné des coordonnées ligne et colonne, par une analyse des correspondances simple sur la table de fréquences d'ordre deux (notez que la métrique sera différente, mais que les positions relatives des points seront très similaires).

Plus de deux variables. L'approche pour analyser des données catégorielles évoquées ci-dessus peut aisément être étendue à plus de deux variables catégorielles. Par exemple, le tableau disjonctif complet pourrait contenir deux variables supplémentaires Homme et Femme, à nouveau codifiées 0 et 1, afin d'indiquer le sexe de l'individu ; et vous pourriez ajouter trois variables pour refléter l'appartenance de l'individu à trois groupes d'âge différents. Ainsi, dans le plan final, vous pourriez représenter les relations (similitudes) entre le Sexe, l'Âge, les habitudes par rapport à la Cigarette, et la Position Hiérarchique.

Codification floue. Il n'est pas nécessaire d'affecter de façon exclusive chaque observation à une seule des modalités de chacune des variables catégorielles. Plutôt qu'un schéma de codification 0 ou 1, vous pouvez saisir les probabilités d'appartenance à une catégorie, ou toute autre mesure représentant une règle d'appartenance à un groupe. Greenacre (1984) a proposé différents schémas de codification de ce type. Par exemple, supposons que dans le tableau disjonctif complet donné précédemment en exemple, vous avez des valeurs manquantes pour certaines observations concernant les attitudes vis à vis de la cigarette. Au lieu d'éliminer complètement ces observations de l'analyse (ou de créer une nouvelle catégorie Valeurs Manquantes), vous pouvez affecter les différentes proportions de catégories de fumeurs (dont le total doit être égal à 1,0) pour représenter les probabilités que l'observation respective appartienne à la catégorie correspondante (par exemple, vous pouvez saisir les proportions sur la base de votre connaissance des moyennes nationales estimées pour les différentes catégories).

Interprétation des coordonnées et autres résultats. Encore une fois, les résultats d'une analyse des correspondances multiple sont identiques aux résultats qui seraient obtenus pour les coordonnées des colonnes par une analyse des correspondances simple sur un tableau disjonctif complet. Par conséquent, l'interprétation des valeurs des coordonnées, des valeurs de qualité, des cosinus² ainsi que des autres statistiques reportées à la fin d'une analyse des correspondances multiple peut être faite de la même manière que celle qui est décrite dans le cadre d'une analyse des correspondances simple (voir l'Introduction), même si ces statistiques font référence à l'inertie totale associée au tableau disjonctif complet.

Points colonne supplémentaires et "régression multiple" des variables catégorielles. L'analyse d'un tableau disjonctif complet par une analyse des correspondances vous permet également de réaliser l'équivalent d'une Régression Multiple sur des variables catégorielles, en ajoutant des colonnes supplémentaires au tableau disjonctif complet. Par exemple, supposons que vous avez ajouté au tableau disjonctif complet donné précédemment, deux colonnes pour indiquer si les individus respectifs ont été ou non en congés-maladie au cours de l'année écoulée (c'est-à-dire que vous pouvez ajouter une colonne Malade et une autre Présent, et à nouveau saisir des 0 et des 1 pour indiquer l'absentéisme pour raison de santé de chaque individu). Si dans l'analyse des correspondances simple du tableau disjonctif complet, vous aviez ajouté ces colonnes en variables supplémentaires dans l'analyse, (1) les statistiques de synthèse de la qualité de représentation (voir l'Introduction) de ces colonnes vous donneraient une indication sur la manière avec laquelle vous pouvez "expliquer" l'absentéisme lié à la maladie en fonction des autres variables du tableau disjonctif complet, et (2) l'affichage des points colonne dans le système final des coordonnées donnerait une indication de la nature (par exemple, le sens) des relations entre les colonnes du tableau disjonctif complet et les points colonne indiquant la maladie ; cette technique (ajouter des points supplémentaires dans une AFCM) est parfois appelée fonction prédictive.

Tableau de Burt. Les véritables calculs de l'analyse des correspondances multiple ne portent pas sur un tableau disjonctif complet (qui peut potentiellement être très important s'il y a beaucoup d'observations), mais sur le produit interne de ce tableau ; cette matrice est également appelée tableau de Burt. Avec des tables de fréquences, ceci revient à croiser les catégories avec les autres ; par exemple le tableau de Burt de la table de fréquences d'ordre deux donnée précédemment serait le suivant :

 

Position

Fumeur

(1)

(2)

(3)

(4)

(5)

(1)

(2)

(3)

(4)

(1) Cadre Expérimenté

(2) Cadre Débutant

(3) Employé Expérimenté

(4) Employé Débutant

(5) Secrétaire

(1) Non Fumeur

(2) Fumeur Occasionnel

(3) Fumeur Moyen

(4) Gros Fumeur

11

0

0

0

0

4

2

3

2

0

18

0

0

0

4

3

7

4

0

0

51

0

0

25

10

12

4

0

0

0

88

0

18

24

33

13

0

0

0

0

25

10

6

7

2

4

4

25

18

10

61

0

0

0

2

3

10

24

6

0

45

0

0

3

7

12

33

7

0

0

62

0

2

4

4

13

2

0

0

0

25

Le tableau de Burt possède une structure clairement définie. Dans le cas de deux variables catégorielles (données ci-dessus), il est constitué de 4 parties : (1) le tableau croisé de la variable Position avec elle-même, (2) le tableau croisé de la variable Position avec la variable Fumeur, (3), le tableau croisé de la variable Fumeur avec la variable Position, et (4) le tableau croisé de la variable Fumeur avec elle-même. Notez que la matrice est symétrique, et que la somme des éléments de la diagonale de chaque partie représentant le croisement d'une variable avec elle-même doit être identique (par exemple, il y avait au départ 193 observations dans le présent exemple, et donc, la somme des éléments de la diagonale du tableau croisé de la variable Position avec elle-même, et Fumeur avec elle-même doit également être égale à 193).

Notez que les éléments en dehors de la diagonale dans les partitions représentant les tabulations croisées d'une variable avec elle-même sont égaux à 0 dans la table donnée ci-dessus. Toutefois, ce n'est pas nécessairement le cas, en particulier lorsque le tableau de Burt est issu d'un tableau disjonctif complet comportant des codifications floues d'appartenance à une catégorie (voir ci-dessus).

Créer un tableau de Burt dans STATISTICA. Le module Analyse des Correspondances vous permet d'utiliser un tableau de Burt. Mais ce module peut également créer automatiquement ce tableau de Burt à partir de variables codifiées de façon standard, c'est-à-dire en incluant dans votre fichier de données des variables de classement pour indiquer à quel groupe chaque observation appartient (par exemple, vous pouvez introduire la variable Sexe, avec les deux modalités Homme et Femme). Par conséquent, dans la plupart des cas, vous n'aurez pas à recodifier vos données d'une manière spéciale (par exemple, en tableau disjonctif complet), et vous pourrez utiliser des variables catégorielles d'une manière qui vous permettra également d'utiliser, par exemple, les modules Analyse Log-Linéaire ou Statistiques Élémentaires. Veuillez vous reporter à la boîte de dialogue Analyse des Correspondances : Spécifications de la Table pour plus d'informations sur les différents formats de données reconnus par le module Analyse des Correspondances.

Créer des tableaux de Burt définis. Si votre analyse nécessite l'utilisation de codifications floues pour certaines variables catégorielles, il est très facile de créer un tableau de Burt en STATISTICA Visual BASIC ; ce tableau peut être affiché dans une feuille de résultats et enregistré comme fichier de données, pour une analyse ultérieure avec le module Analyse des Correspondances (rappelez vous que le tableau de Burt est simplement le produit interne du tableau disjonctif complet ; par exemple, si la matrice X est le tableau disjonctif complet, le produit matriciel X'X sera un tableau de Burt).

Tableau de Burt

L'Analyse des Correspondances Multiple attend en entrée (c'est-à-dire que le programme va calculer précédemment à l'analyse) un tableau de Burt. Le tableau de Burt est le résultat du produit interne d'un tableau disjonctif complet. Les résultats de l'analyse des correspondances multiple sont identiques à ceux obtenus pour les points colonne d'une analyse des correspondances simple sur un tableau disjonctif complet (voir également la rubrique Analyse des Correspondances Multiple - Introduction).

Par exemple, supposons que vous avez saisi des données concernant la Survie de groupes d'Âge différents en différents Lieux comme ceci :

 

SURVIE

ÂGE

LIEU

N° Obs.

NON

OUI

MOINS50

A50A69

PLUS69

TOKYO

BOSTON

PARIS

1

2

3

4

...

...

...

762

763

764

0

1

0

0

.

.

.

1

0

0

1

0

1

1

.

.

.

0

1

1

0

1

0

0

.

.

.

0

1

0

1

0

1

0

.

.

.

1

0

1

0

0

0

1

.

.

.

0

0

0

0

1

0

0

.

.

.

1

0

0

0

0

1

0

.

.

.

0

1

0

1

0

0

1

.

.

.

0

0

1

Ici, pour chaque observation, un 1 est saisi pour indiquer à quelle catégorie, d'un groupe de modalités particulier, cette observation appartient (par exemple, Survie, avec les modalités Non et Oui). Ainsi, l'observation 1 a survécu (un 0 a été saisi pour la variable Non, et un 1 a été saisi pour la variable Oui) ; elle est âgée entre 50 et 69 ans (un 1 a été saisi pour la variable A50a69), et a été vue à Paris. Au total, ce fichier comporte 764 observations.

Si vous appelez les données ci-dessus (tableau disjonctif complet), matrice X, le produit matriciel X'X est alors un tableau de Burt ; ci-dessous, un tableau de Burt pouvant être obtenu de cette manière.

Le tableau de Burt possède une structure clairement définie. Globalement, la matrice de données est symétrique. Dans le cas de 3 variables catégorielles (comme ci-dessus), la matrice de données est constituée de 3 x 3 = 9 parties créées par chaque variable tabulée avec elle-même et avec les modalités de toutes les autres variables. Notez que la somme des éléments de la diagonale pour chaque partie diagonale du tableau (c'est-à-dire où les variables sont croisées avec elles-mêmes) est constante (égale à 764 dans ce cas).

Les éléments en dehors de la diagonale dans chaque partition diagonale de cet exemple sont égaux à 0. Si nous affectons les observations du tableau disjonctif complet aux catégories par des codifications floues (c'est-à-dire, si nous utilisons des probabilités pour indiquer la vraisemblance de l'appartenance à une modalité, plutôt que des codifications binaires 0/1 pour indiquer l'appartenance véritable à un groupe), les éléments en dehors de la diagonale pour les parties diagonales ne seront plus nécessairement égales à 0. Notez que vous pouvez aisément créer des schémas de codification complexes et calculer le tableau de Burt respectif en STATISTICA Visual BASIC. Vous pouvez alors spécifier directement en entrée, un tableau de Burt (sélectionnez l'option Effectifs sans var. de classement dans le cadre Entrée de la boîte de dialogue Spécifications des Table). Pour plus d'informations veuillez vous reporter à la rubrique Analyse des Correspondances Multiple - Introduction.

Détail des Calculs

La notation utilisée dans cette rubrique suit fidèlement celle qui a été utilisée par Greenacre (1984). Veuillez vous référer à Greenacre (1984) pour une présentation détaillée des calculs réalisés.

Notation. Les calculs sont basés sur les matrices suivantes :

P

représente la matrice des fréquences relatives, c'est-à-dire que chaque élément de P est calculé comme la fréquence respective de la table d'entrée, divisée par le total général de toutes les valeurs.

r

représente le vecteur des totaux lignes de P.

c

représente le vecteur des totaux colonnes de P.

Dr

représente une matrice diagonale, et les éléments de la diagonale de Dr sont égaux aux totaux lignes de P.

Dc

représente une matrice diagonale, et les éléments de la diagonale de Dc sont égaux aux totaux colonnes de P.

Décomposition en valeur singulière. Les calculs des coordonnées de lignes et de colonnes sont basés sur la décomposition en valeur singulière généralisée de P, soit :

P = A DuB'

de sorte que

A inverse(Dr)A = B' inverse(Dc)B = I

A est la matrice des vecteurs singuliers généralisés du côté gauche, B est la matrice des vecteurs singuliers généralisés du côté droit, Du est une matrice diagonale, avec des éléments sur la diagonale égaux aux valeurs singulières généralisées, et I représente la matrice identité (une matrice diagonale avec des 1 sur la diagonale).

Coordonnées des points ligne et colonne. Le calcul des coordonnées des points ligne et colonne dépend du choix de centrage-réduction effectué dans le cadre Centrer-Réduire les Coordonnées de l'onglet Options de la boîte de dialogue Résultats de l'Analyse des Correspondances :

Profils ligne et colonne. Lorsque vous sélectionnez cette option, les coordonnées des lignes sont calculées sur la base de la matrice des profils lignes R =inverse(Dr)P, et les coordonnées des colonnes sont calculées sur la base de la matrice des profils colonnes, de façon analogue. Plus précisément, les coordonnées des lignes se calculent comme F = inverse(Dr)ADu, et les coordonnées des colonnes comme G = inverse(Dc)BDu. Cette option est adéquate lorsque vous vous intéressez à l'interprétation des distances à la fois entre les points lignes, et des points colonnes (les distances dans les deux systèmes de coordonnées pour les points lignes et colonnes sont des distances du Chi²). Notez toutefois, comme cela a été souligné dans la rubrique Introduction, les distances entre les points lignes et colonnes n'ont pas de significativité.

Standardisation canonique. Lorsque vous sélectionnez cette option, les coordonnées des lignes sont calculées comme F = inverse(Dr)A(Du)½, et les coordonnées des colonnes comme G = inverse(Dc)B(Du)½. Pour les détails concernant cette centrage-réduction, voir Gifi (1981).

Profils ligne. Lorsque vous sélectionnez cette option, les coordonnées des lignes sont calculées sur la base de la matrice des profils lignes R = inverse(Dr)P. Plus précisément, les coordonnées des lignes (principales) sont calculées comme F = inverse(Dr)ADu, et les coordonnées standard des colonnes comme G = inverse(Dc)B. Cette option est adéquate lorsque vous vous intéressez à l'interprétation des distances entre les points lignes ; les coordonnées des colonnes ne doivent pas être interprétées.

Profils colonne. Lorsque vous sélectionnez cette option, ou lorsque vous examinez les résultats des points colonnes d'une analyse des correspondances multiple, les coordonnées des colonnes sont calculées sur la base de la matrice des profils colonnes. Plus précisément, les coordonnées des colonnes (principales) sont calculées comme F = inverse(Dc)BDu, et les coordonnées standard des lignes comme G = inverse(Dr)A. Cette option s’applique lorsque vous vous intéressez à l'interprétation des distances entre les points colonnes ; les coordonnées des lignes ne doivent pas être interprétées.

Équation du "Modèle". En utilisant la méthode de centrage-réduction par défaut, le "modèle" suivant de P sur k dimensions montrera comment les fréquences relatives sont approchées :

P » rc' + DrF inverse(Du)G'Dc

Dans cette formule, F et G représentent respectivement les coordonnées des lignes et des colonnes.

Calculs de qualité et d'inertie. Notez que le choix de la méthode de centrage-réduction n'affecte pas les calculs des valeurs de qualité et d'inertie reportées dans la feuille de données qui apparaît lorsque vous cliquez sur le bouton Coordonnées des Lignes et Colonnes à l'onglet Avancé de la boîte de dialogue des Résultats de l'Analyse des Correspondances. Ces valeurs sont toujours calculées sur la base de la standardisation (centrer-réduire) des Profils Lignes et Colonnes.

Plus précisément, définissez l'opérateur diag(x) comme paramétrage des éléments du vecteur x sur la diagonale de la matrice diagonale ; définissez l'opérateur carré(X) comme le carré de chaque élément de la matrice ou du vecteur X  ; les contributions partielles des points lignes et colonnes à l'inertie totale se calculent respectivement comme inverse(Dr)carré(A) et inverse(Dc)carré(B).

La qualité de représentation (Cosinus²) des dimensions individuelles est calculée comme diag(inverse(carré(ADu)1)) carré(ADu) et diag(inverse(carré(BDu)1)) carré(BDu) pour les points lignes et colonnes, respectivement, où 1 représente un vecteur colonne dont tous les éléments sont égaux à 1.

L'inertie des points lignes et colonnes se calcule comme (1/t) inverse(Dr) carré(ADu)1 et (1/t) inverse(Dc) carré(BDu)1, respectivement, où t représente l'inertie totale.

Points supplémentaires, analyse des correspondances simple. Le calcul des coordonnées des points lignes et colonnes supplémentaires dépend du choix de centrage-réduction opéré dans le groupe Centrer-Réduire les Coordonnées de l'onglet Options de la boîte de dialogue des Résultats de l'Analyse des Correspondances. Appelons Rs et Cs, les matrices des fréquences relatives lignes ou colonnes respectivement, des lignes et colonnes supplémentaires. Les fréquences lignes et colonnes supplémentaires se calculent comme suit :

Profils ligne et colonne. Lorsque vous sélectionnez cette option, les coordonnées des lignes et colonnes supplémentaires se calculent respectivement comme Rs inverse(Dc)B et Cs inverse(Dr) A.

Standardisation canonique. Lorsque vous sélectionnez cette option, les coordonnées des lignes et colonnes supplémentaires se calculent respectivement comme Rs inverse(Dc)B(Du)½ et Cs inverse(Dr) A(Du)½.

Profils ligne. Lorsque vous sélectionnez cette option, les coordonnées des lignes et colonnes supplémentaires se calculent respectivement comme Rs inverse(Dc)B et Cs inverse(Dr) A inverse(Du).

Profils colonne. Lorsque vous sélectionnez cette option, les coordonnées des lignes et colonnes supplémentaires se calculent respectivement comme Rs inverse(Dc) B inverse(Du) et Cs inverse(Dr) A.

Points supplémentaires, analyse des correspondances multiple. Dans l'analyse des correspondances multiple, les coordonnées des colonnes supplémentaires se calculent comme Cs inverse(Dr) A inverse(Du).




Analyse des Correspondances et Points Supplémentaires

L'exemple suivant est basé sur des données fictives proposées par Greenacre (1984, p. 55) afin d'illustrer la manière d'interpréter les résultats d'une analyse des correspondances. Ces données sont également présentées dans la rubrique Introduction. Dans cet exemple, nous évoquerons les différents types de format de fichiers acceptés en entrée par le module Analyse des Correspondances, et expliquerons les résultats type d'une analyse des correspondances (voir également la rubrique Détail des Calculs). En outre, nous montrerons l'utilité des points supplémentaires pour aider à l'interpréter les résultats.

Ouvrez le fichier de données Smoking.sta à l'aide de la commande Ouvrir des Exemples du menu Fichier ; ce fichier se trouve dans le répertoire Fichiers de Données. Ce fichier est un tableau d'effectifs présenté par Greenacre (1984, p. 55).

Formats de fichiers de données. Le module Analyse des Correspondances accepte en entrée divers formats de fichiers de données. Par exemple, outre les tables de fréquences brutes comme le fichier Smoking, vous pouvez également spécifier une table d'ordre deux avec deux variables de classement (une pour la Position Hiérarchique, et une autre pour la Catégorie de Fumeur). Ce format de table est illustré dans le fichier d'exemple Smoking2.sta.

Enfin, vous pouvez analyser des données brutes qui n'ont pas été préalablement agrégées. Les données du fichier d'exemple Smoking3.sta sont organisées de cette manière, c'est-à-dire que ce fichier ne contient que deux variables (Position et Fumeur) avec des codes indiquant à quel groupe chaque observation appartient ; ce fichier contient au total 193 observations (individus).

Spécification de l'analyse. Dans cet exemple, nous utiliserons le fichier Smoking.sta. Sélectionnez la commande Analyse des Correspondances dans le menu Statistiques - Techniques Exploratoires Multivariées pour afficher la boîte de dialogue Analyse des Correspondances : Spécification des Tables (Panneau de Démarrage). Dans cet exemple, le fichier de données contient des effectifs sans variable de classement ; vous pouvez donc sélectionner le bouton d'option Tableau de contingence dans le cadre Entrée de l'onglet Analyse des Correspondances (si vous préférez utiliser le fichier Smoking2.sta, vous devrez sélectionner le bouton d'option Effectifs avec variables de classement ; et dans le cas du fichier Smoking3.sta, sélectionnez le bouton d'option Données Brutes (nécessite tabulation)).

Sélectionnez ensuite les variables. Cliquez sur le bouton Variables avec effectifs pour afficher une boîte de dialogue standard de sélection de variables. Sélectionnez toutes les variables puis cliquez sur le bouton OK. Remarque : lorsque vous utilisez ce format de fichier (c'est-à-dire que vous avez une table de fréquences tabulée en entrée), STATISTICA considère que les variables sélectionnées représentent les colonnes de la table à analyser, et les observations représentent les lignes de la table. Puisque les données du fichier Smoking.sta sont arrangées de cette manière, cliquez simplement sur le bouton OK du Panneau de Démarrage pour exécuter l'analyse des correspondances. La boîte de dialogue Résultats de l'Analyse des Correspondances apparaît alors.

Étude des Résultats

Valeurs propres. Si vous n'êtes pas familiarisé(e) avec les techniques d'analyse des correspondances, et les principales statistiques habituellement calculées, nous vous recommandons de lire tout d'abord la rubrique Introduction. Pour réitérer, si vous considérez les fréquences-ligne comme les coordonnées dans un espace constitué d'autant de dimensions qu'il existe de colonnes, et les fréquences-colonnes comme les coordonnées dans un espace constitué d'autant de dimensions qu'il existe de lignes, l'objectif de l'analyse est de restituer les distances entre les points ligne, et entre les points colonne, dans un espace défini par aussi peu de dimensions que possible. Tout d'abord, cliquez sur le bouton Valeurs propres dans l'onglet Avancé pour produire une feuille de données permettant de connaître le nombre de dimensions à extraire pour restituer les informations de la table.

La première colonne indique le Nombre de dimensions ; nous pouvons extraire au maximum trois dimensions, et dans ce cas, nous pouvons reconstruire exactement la table de fréquences. Les Valeurs Singulières sont calculées par la procédure dite de décomposition généralisée en valeurs singulières de la table de fréquences (voir la rubrique Détail des Calculs). Les Valeurs Propres sont les Valeurs Singulières au carré et leur somme est égale à l'Inertie Totale, indiquée en haut de la feuille de données avec une valeur de 0,08519. L'inertie totale se définit comme la valeur du Chi² (16,442) divisée par le nombre total d'observations (193). Ainsi, comme nous l'avons dit dans l'Introduction, l'analyse des correspondances peut également être considérée comme une procédure de décomposition du Chi² total, de la même manière que l'analyse en composantes principales (voir le module Analyse Factorielle) permet de décomposer la matrice de variances/covariances totale pour des variables continues.

Comme vous pouvez le constater, les dimensions sont calculées de sorte que la première dimension extraie le plus d'informations (c'est-à-dire que c'est celle qui possède la plus forte valeur propre), devant la seconde dimension (qui extrait la seconde plus forte quantité d'information), et ainsi de suite (voir également la rubrique Détail des Calculs). Dans notre cas, la première dimension extrait 87,76% de l'inertie totale. En incluant la seconde dimension, nous pouvons "expliquer" 99,51% de l'inertie.

Remarque : dans l'onglet Base et dans l'onglet Options vous avez accès à des options dans le cadre Nombre de dimensions vous permettant de sélectionner le nombre de dimensions à retenir dans l'analyse. Vous pouvez directement fixer un certain Nombre de dimensions, ou permettre au programme de déterminer le nombre de dimensions sur la base d'une valeur personnalisée de Contribution cumulée à l'inertie. Comme indiqué dans l'Introduction, l'analyse des correspondances est une méthode descriptive avant tout, plus qu'une méthode de vérification d'hypothèses. Il n'existe donc aucune règle universelle quant au nombre de dimensions à retenir (interpréter). Dans le cas présent, les deux premières dimensions expliquent pratiquement toute l'inertie de la table. Nous pouvons donc accepter les 2 dimensions par défaut, et cliquer sur le bouton Coordonnées ligne et colonne dans l'onglet Avancé.

Étude de la qualité de représentation et de l'inertie des points lignes et colonnes. Deux feuilles de données vont alors s'afficher ; une première avec les coordonnées des points ligne et une autre avec les coordonnées des points colonne.

Les statistiques reportées dans ces feuilles de données sont présentées dans la rubrique Introduction. Examinons tout d'abord la Qualité de représentation des points. La Qualité d'un point est définie par le ratio entre la distance au carré d'un point à l'origine pour le nombre de dimensions choisies, et la distance au carré par rapport à l'origine dans l'espace défini par le nombre maximum de dimensions (souvenez-vous que la métrique utilisée est celle du Chi², comme indiqué dans l'Introduction). En comparaison avec l'Analyse Factorielle, la qualité de représentation d'un point peut s'interpréter comme la communauté d'une variable dans l'analyse factorielle. Comme vous pouvez le constater, les points ligne et colonne sont bien représentés dans la solution à deux dimensions puisque la qualité de tous les points est supérieure à 0,89.

Les valeurs de l'Inertie relative font référence à la part d'inertie totale "expliquée par" le point respectif. Remarque  : un point peut être bien représenté dans une solution particulière, mais ne contribuer que faiblement à l'inertie totale. Dans la feuille de données ci-dessus, la ligne qui contribue le plus fortement à l'inertie totale est celle qui représente les Employés Expérimentés, et la colonne qui contribue le plus, est celle qui représente les Non Fumeurs.

La qualité de représentation de chaque point sur une dimension particulière est indiquée dans les colonnes intitulées Cosinus². La somme des valeurs de Cosinus² sur les deux dimensions est égale à la valeur de la Qualité totale. La contribution relative de chaque point à l'inertie de chaque dimension (souvenez vous que les Valeurs propres représentent les inerties associées à chaque dimension) est également reportée dans les feuilles de données ci-dessus.

Centrer-réduire les coordonnées ligne et colonne. Plusieurs options sont disponibles dans l'onglet Options pour centrer-réduire les coordonnées des lignes et des colonnes. Remarque : l'interprétation des coordonnées des lignes et des colonnes dépend de la méthode de centrage-réduction choisie (voir également la rubrique Introduction)  ; toutefois, les valeurs de qualité de représentation et d'inertie relative reportées dans les feuilles de données ci-dessus ne dépendent pas de la méthode de centrage-réduction choisie.

Les coordonnées peuvent être calculées sur la base de la matrice des fréquences en ligne (avec la méthode de centrage-réduction Profils ligne ; l'analyse est alors basée sur la matrice des profils ligne, avec une somme de toutes les fréquences égale à 1,0 pour chaque ligne), ou sur la base des fréquences en colonnes (avec la méthode de centrage-réduction Profils colonne ; l'analyse est alors basée sur la matrice des profils colonne, avec une somme de toutes les fréquences égale à 1,0 pour chaque colonne). En pratique, la méthode de centrage-réduction Profils Ligne et Colonne donne de bons résultats dans la plupart des cas (c'est le paramétrage par défaut). Dans ce cas, vous pouvez interpréter de façon explicite les distances euclidiennes entre les points ligne, ainsi que celles entre les points colonne (c'est-à-dire que les distances entre les points sont des distances du Chi²  ; voir l'Introduction). Toutefois, vous ne pouvez pas interpréter les distances entre les points ligne et les points colonne, quelle que soit la méthode de centrage-réduction.

Étude des coordonnées lignes et colonnes. La meilleure façon d'étudier les coordonnées des lignes et des colonnes consiste à les représenter sur un graphique. Dans l'onglet Avancé, cliquez sur le bouton Ligne & colonne - 2D dans le cadre Tracé des coordonnées. Un Nuage de points en 2D apparaît, avec les points lignes et colonnes simultanément dans les deux dimensions (voir également Greenacre, 1984, p. 66).

À nouveau, les comparaisons directes entre les points ligne et colonne n'ont aucun sens. En revanche, vous pouvez interpréter la position générale des points ligne et colonne, ainsi que les relations entre les points d'un même groupe de points. Par exemple, si vous examinez le graphique en 2D des points ligne et colonne, vous pouvez constater que la première dimension (horizontale), celle qui "explique" l'essentiel de l'inertie (et qui est donc la dimension la plus "importante", pour expliquer l'essentiel de la différence entre la structure de fréquences des lignes et des colonnes de la table), oppose les Non Fumeurs à gauche, aux fumeurs Occasionnels, Moyens, et Gros Fumeurs à droite ; les points ligne qui apparaissent les plus excentrés, à gauche de cet axe, sont les Secrétaires et les Employés Expérimentés. Ceci indique que l'essentiel de l'inertie totale est imputable à la différence entre les fumeurs et les non fumeurs, et qu'il existe relativement plus de non fumeurs chez les Secrétaires et chez les Employés Expérimentés que chez les autres catégories de salariés.

Étude des tables de fréquences relatives. Vous pouvez facilement vérifier cette interprétation en étudiant les tables de fréquences relatives. Dans l'onglet Étude, cliquez sur le bouton Pourcentages ligne puis sur le bouton Pourcentages colonne.

Les fréquences relatives reportées dans ces tables sont cohérentes avec l'interprétation de la première dimension : nous constatons une part relativement plus forte de Non Fumeurs chez les Employés Expérimentés et chez les Secrétaires. C'est ce qui rend les profils ligne (Employés Expérimentés et Secrétaires) et colonnes (Non_Fum) respectifs de la table des fréquences relatives, différents de tous les autres.

Points supplémentaires. Un aspect important de l'analyse des correspondances est qu'elle permet de représenter des points ligne et/ou colonne qui ne faisaient pas partie initialement de l'analyse, en les projetant dans le même système de coordonnées que les points actifs (voir aussi la rubrique Introduction). Greenacre (1984, Table 3.5) donne un exemple de points supplémentaire avec ces données. Plus précisément, supposons que nous disposions d'informations quant à la moyenne nationale des différentes catégories de fumeurs, ainsi que d'informations quant au nombre de salariés qui consomment ou non de l'alcool, pour chacune de ces positions hiérarchiques.

 

Catégorie de Fumeur

 

Non Fumeur

Occasionnel

Moyen

Gros fumeur

Moyenne Nationale

42%

29%

20%

9%

 

 

Alcool

Position Hiérarchique

Oui

Non

Cadre Expérimenté

0

11

Cadre Débutant

1

17

Employé Expérimenté

5

46

Employé Débutant

10

78

Secrétaires

7

18

Spécifier une ligne supplémentaire. Dans l'onglet Points supplémentaires, cliquez d'abord sur le bouton Ajouter des points ligne. La boîte de dialogue Points Ligne Supplémentaires s'affiche et vous permet de spécifier des points ligne supplémentaires. Souvenez-vous qu'avec la méthode de centrage-réduction Profils ligne, l'analyse est réalisée sur les pourcentages en lignes, avec une somme totale égale à 1,0 ; vous pouvez donc saisir 42 ou 0,42, c'est-à-dire des effectifs ou des proportions : les résultats seront identiques.

Pour spécifier une ligne supplémentaire, saisissez préalablement le nom ou l'étiquette de la ligne dans la première colonne de la feuille de données (par exemple, saisissez Moyenne). Puis saisissez les valeurs 42, 29, 20, et 9 sous les intitulés respectifs Non_Fum, Occas., Moyen, et Gros_Fum.

Pour accepter ces valeurs et quitter la feuille de résultats, cliquez sur le bouton OK ; si vous sortez de la feuille de données en la fermant ou en cliquant sur le bouton Annuler, vos saisies seront perdues.

Spécifier des colonnes supplémentaires. Cliquez à présent sur le bouton Ajouter des points colonne, et saisissez les effectifs colonnes indiqués précédemment. Saisissez les valeurs ligne par ligne, puis cliquez à nouveau sur le bouton OK.

Statistiques des points supplémentaires. Après avoir spécifié des lignes supplémentaires, tous les résultats que vous serez amené(e) à produire, qu'ils soient graphiques (tracé des coordonnées) ou numériques (coordonnées des lignes et colonnes), comporteront les résultats des points supplémentaires (lignes et colonnes).  Par exemple, vous trouverez ci-dessous les feuilles de données avec les valeurs des coordonnées et les statistiques associées des points actifs ligne et colonne produits précédemment, ainsi que des points supplémentaires nouvellement définis et qui ont simplement été projetés dans l'espace factoriel correspondant (puisque ces points supplémentaires n'ont pas participé à la définition des axes, les cellules correspondantes de l'Inertie sont vierges ; seules les coordonnées et la qualité de représentation sont reportées pour les points supplémentaires).  Vous pouvez produire ces feuilles de données en cliquant sur le bouton Coordonnées Ligne et Colonne dans l'onglet Avancé.

L'interprétation de ces statistiques est la même que pour les points utilisés pour réaliser l'analyse (voir également l'Introduction). La solution à deux dimensions représente plutôt bien le nouveau point Moyenne (c'est-à-dire la moyenne nationale) avec une Qualité de représentation égale à 0,7613. Les nouveaux points colonne ne sont pas aussi bien représentés, mais plus de 40% de la distance totale (pondérée) au carré de ces points par rapport à l'origine de l'espace défini par le nombre maximum de dimensions est "expliquée" par la solution à deux facteurs (la Qualité de représentation est égale à 0,4386 pour les deux points colonnes supplémentaires).

À ce stade, vous pourriez spécifier comme points colonne et ligne supplémentaires, les totaux respectifs en colonne et en ligne de toute la table. Vous pourriez alors constater que ces points seront représentés par des coordonnées nulles sur toutes les dimensions. Ceci illustre le fait que l'espace défini par les deux dimensions est pondéré par les totaux en ligne et en colonne, qui définissent l'origine du système de coordonnées. Vous pouvez donc interpréter les distances des points à l'origine comme des distances (Chi²) aux totaux respectifs en ligne et en colonne.

Tracés avec des points supplémentaires. À présent, nous allons à nouveau produire un nuage de points combiné en 2D, des points lignes et colonnes. Cliquez sur le bouton Ligne & colonne - 2D dans le cadre Tracé des coordonnées de l'onglet Avancé.

Le point ligne supplémentaire de la Moyenne nationale apparaît à gauche de l'origine de l'axe horizontal (la valeur de la coordonnée est -0,2584  ; voir la première feuille de données ci-dessus). Nous pouvons donc en conclure qu'il existe relativement plus de Non Fumeurs en moyenne dans le pays que dans notre échantillon (en d'autres termes, les fumeurs sont sur-représentés dans l'échantillon).

Les points colonne supplémentaires Alcool: Oui et Alcool: Non sont sensiblement alignés sur le second axe, qui oppose également les différents degrés de consommation de tabac, c'est-à-dire, les fumeurs Occasionnels et Moyens, et les Gros Fumeurs (comme nous l'avons déjà mentionné, le premier axe oppose les Non Fumeurs aux Fumeurs). Il s'agit donc d'une indication que les Gros Fumeurs sont également davantage consommateurs d'alcool (plus précisément, la répartition des consommateurs d'Alcool selon les différentes positions hiérarchiques est assez proche de la répartition des effectifs des Gros Fumeurs et des fumeurs Moyens). Toutefois, gardez à l'esprit que l'analyse des correspondances est avant tout une technique descriptive et/ou exploratoire permettant de représenter des données catégorielles dans un graphique, sans qu'aucun test de significativité statistique ne soit réalisé (voir l'Introduction  ; voir aussi la rubrique Concepts Élémentaires).




Analyse d'un Tableau Disjonctif Complet(Préférences des Consommateurs)

Cet exemple est basé sur des données proposées par Hoffman et Frank (1986). L'objectif de cet exemple est de présenter une brève illustration d'une application type d'analyse des correspondances en recherche marketing. Pour un exemple introductif montrant les principes de base de l'analyse des correspondances (y compris le rôle des points supplémentaires), voir l'Exemple 1. Veuillez également vous reporter à l'Introduction pour une présentation générale de l'analyse des correspondances, et de l'interprétation des résultats.

Le fichier d'exemple Beverage.sta contient des données collectées sur un groupe d'étudiants en maîtrise de gestion, hommes et femmes, de l'Université de Columbia, auxquels on a demandé d'indiquer la fréquence avec laquelle ils avaient acheté et consommé différents types de soda durant du mois écoulé. Les données pour les 34 individus ont été codifiées dans un tableau disjonctif complet (binaire) : un 1 a été saisi si l'individu a répondu avoir acheté ou consommé au moins une fois au cours du mois la boisson respective, et un 0 a été saisi si l'individu respectif a répondu avoir acheté ou consommé moins d'une fois dans le mois. Pour chacun des 8 sodas populaires utilisés dans cette étude, une seconde variable a été créée, codifiée comme l'inverse de la première variable respective, c'est-à-dire qu'un 1 a été saisi si la boisson respective n'a pas été consommée ni achetée, et 0 a été saisi si elle a été consommée ou achetée au cours du mois. Ci-dessous, observez une liste partielle des données codifiées de cette manière, pour 8 sodas courants. Ouvrez le fichier de données Beverage.sta situé dans le répertoire Fichiers de Données à l'aide de la commande Ouvrir des Exemples du menu Fichier.

Cette manière de codifier peut paraître assez inhabituelle au premier abord ; les tableaux disjonctifs complets sont présentés dans la rubrique ACM - Introduction. En particulier, l'analyse des correspondances standard d'un tableau disjonctif complet va produire les mêmes résultats qu'une analyse des correspondances multiple sur des données tabulées sous une forme plus classique (par exemple, où il n'y a qu'une variable Coke, avec les deux modalités Oui et Non, voir le fichier d'exemple Beverage2.sta). Cela vous sera présenté brièvement dans l'Exemple 2.2.

Spécification de l'analyse. Pour cet exemple, utilisez le fichier de données Beverage.sta. Sélectionnez la commande Analyse des Correspondances dans le menu Statistiques - Techniques Exploratoires Multivariées pour accéder au Panneau de Démarrage Analyse des Correspondances : Spécifications des Tables. À longlet Analyse des Correspondances sélectionnez le bouton d'option Tableau de contingence dans le cadre Entrée. Sélectionnez ensuite les variables. Cliquez sur le bouton Variables avec les effectifs pour afficher la boîte de dialogue standard de sélection des variables. là, sélectionnez toutes les variables puis cliquez sur le bouton OK. Enfin, cliquez sur le bouton OK du Panneau de Démarrage pour effectuer l'analyse des correspondances. Après un instant la boîte de dialogue Résultats de l'Analyse des Correspondances s'affiche.

Étude des résultats.

Valeurs propres. À l'onglet Avancé, cliquez sur le bouton Valeurs propres.

Les deux premières dimensions expliquent approximativement 63% de la variation totale, et les dimensions restantes n'expliquent que moins de 10% chacune. Donc, examinons la solution à deux dimensions.

Étude et interprétation des coordonnées. Cliquez ensuite sur le bouton Coordonnées ligne et colonne à l'onglet Avancé. La feuille de données avec les coordonnées des colonnes va contenir les valeurs suivantes :

Il s'avère que toutes les boissons sont raisonnablement bien représentées par la solution à deux dimensions, mis à part Pepsi Light dont la valeur de Qualité est inférieure à 0,5 (voir la rubrique Introduction pour une explication de la valeur de la Qualité  ; voir également la rubrique Détail des Calculs).

Maintenant tracez les boissons dans l'espace à deux dimensions. À l'onglet Avancé, cliquez sur le bouton Colonne, 2D.

Un examen attentif du graphique suggère que le premier axe oppose essentiellement les boissons allégées aux boissons classiques, alors que la seconde dimension oppose les colas aux autres sodas.

Tracer les coordonnées de lignes. Vous pouvez également tracer les coordonnées ligne, c'est-à-dire des individus qui ont participé à cette enquête, dans le système de coordonnées à deux dimensions. Vous allez ainsi pouvoir opposer ("graphiquement") les différents "segments" de consommateurs, c'est-à-dire ceux qui consomment ou non des boissons allégées et ceux qui boivent ou non des colas. En outre, si vous examinez attentivement les statistiques des coordonnées de lignes, vous allez constater que les individus contribuant le plus à l'inertie de la seconde dimension sont les observations numéro 13 et 28. Ces points "définissent" presque à eux seuls la direction de la seconde dimension. Pour une présentation plus détaillée de ces données, veuillez vous référer à Hoffman et Franke (1986).




Analyse des Correspondances Multiple

Cet exemple illustre la manière dont l'analyse des correspondances multiple peut être utilisée pour analyser les données présentées dans l'Exemple 3. Comme nous l'avons décrit dans la rubrique ACM - Introduction, l'analyse des correspondances multiple est une extension de l'analyse des correspondances simple à plus de deux variables catégorielles. Dans l'Exemple 3, nous avons présenté les données proposées par Hoffman et Frank (1986), décrivant les préférences de 34 individus par rapport à différentes boissons. Le fichier de données de cet exemple (fichier Beverage.sta) est un tableau disjonctif complet, qui a été analysé par une analyse des correspondances simple.

Dans l'exemple en cours, les données sont codifiées de façon plus traditionnelle, comme vous pouvez le constater ci-dessous. Ouvrez le fichier de données Beverag2.sta à l'aide de la commande Ouvrir des Exemples du menu Fichier ; vous trouverez ce fichier dans le dossier Fichiers de Données.

Les entrées de ce fichier de données indiquent si les individus respectifs ont, au cours du mois écoulé, acheté ou consommé les boissons respectives.

Spécification de l'analyse. Pour cet exemple, utilisez le fichier Beverag2.sta. Sélectionnez la commande Analyse des Correspondances dans le menu Statistiques - Techniques Exploratoires Multivariées pour afficher le Panneau de Démarrage Analyse des Correspondances : Spécifications des Tables. Ensuite, cliquez sur l'onglet Analyse des Correspondances Multiple (ACM). Les données dans le format courant contiennent uniquement des variables de classement ; par conséquent, vous n'avez pas à modifier le paramétrage par défaut dans le cadre Entrée (Données Brutes (nécessite tabulation)). Cliquez sur le bouton Variables (Fact. de la Table de Burt) pour afficher la boîte de dialogue standard de sélection des variables. Là, sélectionnez toutes les variables puis cliquez sur le bouton OK. Enfin, cliquez sur le bouton OK du Panneau de Démarrage pour effectuer l'analyse. STATISTICA "identifie" automatiquement toutes les modalités du fichier de données, et produit la Table de Burt, qui servira de base à l'analyse des correspondances multiple (voir la rubrique ACM - Introduction). Après un instant, la boîte de dialogue Résultats de l'Analyse des Correspondances s'affiche.

Étude des résultats. Les résultats des coordonnées colonne (c'est-à-dire, les boissons) sont identiques à ceux présentés dans l'Exemple 2.1. Toutefois, il faut noter quelques petites remarques : Tout d'abord, la valeur globale du Chi² qui est reportée dans la boîte synthèse n'est correcte que si la table d'entrée est une table d'ordre deux standard, ce qui n'est pas le cas (voir la rubrique ACM - Introduction pour une présentation de la structure particulière d'une Table de Burt). Il n'y a pas non plus de coordonnées ligne disponibles ; toutefois, lors de l'analyse d'échantillons très importants, on s'intéresse rarement aux observations individuelles ; de plus, s'il y avait plusieurs milliers d'observations, l'analyse des correspondances simple d'un tableau disjonctif complet ne serait pas aisée, voire même parfois impossible. Dans la plupart des cas, l'approche de l'analyse des correspondances multiple est beaucoup plus efficace.

L'interprétation des valeurs des coordonnées (c'est-à-dire, les axes) et des statistiques auxiliaires des points colonne est la même que celle décrite dans le cadre de l'analyse des correspondances simple (voir les rubriques Exemple 2.1 et Introduction).

Comme cela a été décrit dans l'Introduction, l'orientation des axes dans une analyse des correspondances est arbitraire (c'est-à-dire qu'il est possible d'effectuer une rotation à 180° de chaque axe). Si vous tracez les résultats des points colonne de l'analyse des correspondances multiple des données issues de Beverage2.sta, et que vous comparez ce graphique à celui qui a été produit dans l'Exemple 2.1 (c'est-à-dire, grâce à une analyse des correspondances simple du tableau disjonctif complet), vous allez constater que les deux axes du tracé sont inversés.

Notez que vous pouvez rapidement "renverser" les axes en cochant l'option Échelle Inversée dans le cadre Type d'échelle de la boîte de dialogue Options du Graphique - onglet Axes : Échelle pour l'Axe X et pour l'Axe Y gauche.




Consommation de Protéines en Europe

Cet exemple illustre l'analyse d'une table contenant des valeurs qui ne sont pas des effectifs. Comme nous l'avons expliqué dans l'Introduction, les résultats de l'analyse des correspondances demeurent valides ; toutefois, la valeur du Chi² total et les niveaux p associés ne doivent naturellement pas être interprétés. Souvenez-vous que l'analyse des correspondances est une technique descriptive qui permet d'analyser des tables contenant tout type de mesure d'association, de correspondance, de similitude, de confusion, etc.

Cet exemple particulier est présenté par Greenacre (1984) dans le cadre d'une comparaison entre l'analyse en composantes principales (voir l'Analyse Factorielle) et l'analyse des correspondances. Pour les détails concernant cette comparaison, référez-vous à Greenacre (1984, p. 280, Exemple 9.6). Si vous n'êtes pas familiarisé(e) avec les résultats types de l'analyse des correspondances, consultez la rubrique Introduction.

Les données du fichier d'exemple Protein.sta représentent des estimations de la consommation protéique issue de 9 sources différentes, par habitant dans 25 pays (voir Greenacre, 1984, table 9.10  ; les données ont initialement été reportées par Weber, 1973, dans un polycopié publié à l'Université de Kiel, Institut für Agrarpolitik und Marktlehre, intitulé "Agrarpolitik im Spannungsfeld der Internationalen Ernährungspolitik"). Par conséquent, les données ne sont pas des effectifs, mais elles sont équivalentes à des fréquences en ce sens qu'une masse totale de protéines est distribuée entre les cellules de la matrice avec une unité de 0,1 grammes (par tête et par jour). Vous trouverez ci-dessous une portion du fichier. Ouvrez ce fichier à l'aide de la commande Ouvrir des Exemples du menu Fichier ; vous trouverez ce fichier dans le répertoire Fichiers de Données.

Spécification de l'analyse. Sélectionnez la commande Analyse des Correspondances dans le menu Statistiques - Techniques Exploratoires Multivariées pour accéder au Panneau de Démarrage Analyse des Correspondances : Spécifications des Tables. Bien que les valeurs de ce fichier ne soient pas des effectifs, nous allons les traiter comme tels. Par conséquent, à l'onglet Analyse des Correspondances sélectionnez le bouton d'option Tableau de contingence dans le cadre Entrée. Ensuite, sélectionnez les variables. Cliquez sur le bouton Variables avec effectifs pour afficher la boîte de dialogue standard de sélection des variables. là, sélectionnez toutes les variables puis cliquez sur le bouton OK. Enfin, cliquez sur le bouton OK du Panneau de Démarrage pour effectuer l'analyse des correspondances. Après un instant, la boîte de dialogue Résultats de l'Analyse des Correspondances s'affiche.

Étude des résultats.

Valeurs propres. À nouveau, la valeur du Chi² et les niveaux de p associés ne doivent pas être interprétés ici, puisque les entrées de la table ne sont pas des fréquences. Toutefois, tous les autres résultats restent valides. Commencez par cliquer sur le bouton Valeurs propres de l'onglet Avancé.

L'inertie totale est égale à 0,16901, et les deux premières dimensions expliquent 74,28% de l'inertie totale. Par conséquent, il apparaît que les deux premières dimensions "expliquent" l'essentiel de l'inertie de cette table.

Étude des coordonnées. Ci-dessous, les feuilles de données des coordonnées ligne et colonne, pour la solution à 2 dimensions (voir également Greenacre, 1984, Table 9.11). Pour produire ces feuilles de données, cliquez sur le bouton Coordonnées ligne et colonne de l'onglet Avancé.

L'examen des valeurs d'inertie sur la dimension 2 révèle que cette dimension est essentiellement définie par le point ligne Portugal et le point colonne Poisson. Si vous revenez au fichier de données, vous pouvez constater que le Portugal a une consommation protéique globalement faible. Greenacre (1984, Table 9.12), a donc reporté les résultats, en traitant le Portugal comme point supplémentaire dans l'analyse. Pour faire cela, cliquez sur le bouton Annuler de la boîte de dialogue Résultats de l'Analyse des Correspondances afin de revenir au Panneau de Démarrage. Puis cliquez sur le bouton Filtres de Sélection pour afficher la boîte de dialogue Filtres de Sélection de l'Analyse/Graphique. là, cochez l'option Activer les Filtres de Sélection, saisissez 17 dans le champ d'édition ou le(s) numéro d'observation dans le cadre Exclure des Obs. (en dessous du cadre 'Inclure les observations'), puis cliquez sur le bouton OK. Cliquez ensuite sur le bouton OK du Panneau de Démarrage.

Dans la boîte de dialogue Résultats de l'Analyse des Correspondances - onglet Points Supplémentaires, cliquez alors sur le bouton Ajouter des points ligne dans le cadre Points ligne et/ou colonne supplémentaires pour afficher la boîte de dialogue Points Ligne Supplémentaires. Saisissez les valeurs de l'observation Portugal comme point supplémentaires (par exemple, vous pouvez copier les valeurs de Portugal du fichier de données, et les coller dans la feuille de données ; voir également l'Exemple 1).

Ensuite, cliquez sur le bouton OK pour revenir à la boîte de dialogue Résultats de l'Analyse des Correspondances.

Si vous tracez les coordonnées de la solution à deux dimensions (en cliquant sur le bouton 2D du cadre Tracé des coordonnées à l'onglet Avancé), une "carte protéique" des pays va se dessiner, avec des régions bien définies correspondant à l'Europe du Sud, l'Europe de l'Est, et l'Europe Centrale et du Nord (souvenez-vous que l'étude à été menée au début des années 70, et donc certaines des classes de pays peuvent ne plus être aussi homogènes). Cette structure devient encore plus claire lorsque le Portugal est écarté de l'analyse et qu'il n'apparaît plus qu'en point supplémentaire. L'axe horizontal oppose d'un côté les fortes consommations de céréales et de noix-amandes (dans des pays comme l'ex-Yougoslavie, la Bulgarie, et la Roumanie), et de l'autre côté, des pays caractérisés par une forte consommation de viande rouge et de laitages ; le second axe est caractérisé par une opposition entre les pays grands consommateurs de poissons (par exemple, la Norvège, la Finlande, et la Suède), et les pays qui consomment beaucoup de porc, de féculents, et dans une moindre mesure, d'œufs (des pays comme l'Autriche, les Pays-Bas, ou l'ex-Allemagne de l'Ouest).

Didacticiels

Vous pouvez visionner l'intégralité de la série de tutoriels Le Data Mining en 35 Leçons avec STATISTICA en remplissant le formulaire d'inscription. Vous serez alors notifié(e) automatiquement de la disponibilité des nouveaux épisodes et recevrez d'autres informations utiles.

StatSoft propose par ailleurs une série de didacticiels et présentations interactives décrivant pas-à-pas différentes opérations que vous pouvez réaliser à l'aide de STATISTICA. Si vous souhaitez voir aborder un thème particulier, merci de nous écrire.