Partager :

Concepts Fondamentaux en Statistique


Modèles Linéaires/Non-Linéaires Avancés :

Analyse Log-Linéaire de Tables de Fréquences


Sommaire :


Principes Fondamentaux

Une méthode élémentaire et relativement simple pour analyser des données consiste à créer des tableaux croisés. Par exemple, un chercheur en médecine peut mettre en évidence dans un tableau, la fréquence de différents symptômes en fonction de l'âge et du sexe des patients ; un chercheur en éducation peut créer des tableaux croisant le nombre d'échecs scolaires (abandon en cours de scolarité) d'étudiants selon l'âge, le sexe et l'origine ethnique ; un économiste peut réaliser des tableaux du nombre de faillites d'entreprises selon le secteur, la région, et le montant initial du capital ; un chercheur en marketing peut croiser les préférences des consommateurs par produit, âge et sexe ; etc... Dans tous ces cas, les principaux résultats peuvent être synthétisés dans une table de fréquences d'ordre multiple, c'est-à-dire dans un tableau croisé avec deux ou plusieurs facteurs.

STATISTICA contient un module adapté à cela, le module Statistiques Élémentaires est conçu pour produire, analyser et étudier différents types de tables. Le module Analyse Log-Linéaire offre une manière plus "sophistiquée" d'examiner ces tableaux croisés. Plus précisément, ce module permet à l'utilisateur de tester la significativité statistique des différents facteurs utilisés dans le croisement (par exemple, sexe, région, etc...) ainsi que leurs interactions (voir la rubrique Concepts Élémentaires pour une présentation des tests de significativité statistique). Les rubriques suivantes constituent une brève introduction à ces méthodes, leur logique et leur interprétation.

Remarque : STATISTICA contient également un module d'analyse des correspondances pour des tables à deux ou plusieurs entrées (c'est-à-dire pour réaliser une analyse des correspondances multiple). L'analyse des correspondances est une technique descriptive/exploratoire destinée à analyser des tables à deux ou plusieurs entrées contenant des mesures de correspondances (habituellement des effectifs) entre les lignes et les colonnes. Les résultats fournissent des informations similaires à celles produites par les techniques d'Analyse Factorielle et permettent d'explorer la structure des variables catégorielles de la table.

Tables de Fréquences à Double Entrée

Commençons par le tableau croisé le plus simple possible : une table 2 x 2. Supposons que nous nous intéressons à la relation entre l'âge et le grisonnement des cheveux des individus. Nous avons tiré un échantillon de 100 personnes et déterminé les personnes qui avaient les cheveux grisonnants et celles qui ne les avaient pas. Nous avons enregistré l'âge des individus. Les résultats de cette étude peuvent se résumer ainsi :

Cheveux

Gris

Âge

Total

Moins de 40 ans

40 ans et plus

Non

40

  5

45

Oui

20

35

55

Total

60

40

100

Avant d'interpréter les résultats de cette petite étude, profitons-en pour introduire la terminologie qui nous permettra de généraliser plus facilement aux tables complexes.

Variables du modèle et variables de réponse. En régression multiple (voir le module Régression Multiple) ou en analyse de variance (voir le module ANOVA/MANOVA), nous faisons habituellement la distinction entre les variables indépendantes et les variables dépendantes. Les variables dépendantes sont celles que nous cherchons à expliquer, c'est-à-dire qui sont censées dépendre des variables indépendantes. Nous pourrions ainsi classifier les facteurs de notre table 2 x 2 comme suit : nous pouvons considérer la couleur des cheveux (gris, non gris) comme la variable dépendante tandis que l'âge serait notre variable indépendante. D'autres termes souvent utilisés dans le cadre des tables de fréquences sont respectivement variables de réponse et variables du modèle. Les variables de réponse sont celles qui varient en réponse aux variables du modèle. Ainsi, dans notre petit exemple ci-dessus, la couleur des cheveux peut être considérée comme la variable de réponse et l'âge, comme la variable du modèle.

Ajuster les fréquences marginales. Revenons maintenant à notre exemple. Nous pouvons nous demander ce que seraient les fréquences s'il n'existait aucune relation entre les variables (l'hypothèse nulle). Intuitivement et sans entrer dans les détails, nous pourrions nous attendre à ce que les fréquences dans chaque cellule reflètent proportionnellement les fréquences marginales (Totaux). Par exemple, considérons la table suivante :

Cheveux

Gris

Âge

Total

Moins de 40 ans

40 ans et plus

Non

27

18

45

Oui

33

22

55

Total

60

40

100

Dans ce tableau, les fréquences marginales sont reflétées dans les cellules individuelles. Ainsi, 27/33=18/22=45/55 et 27/18=33/22=60/40. Compte tenu des fréquences marginales, nous trouvons dans les cellules individuelles, les fréquences auxquelles nous pourrions nous attendre en l'absence de relation entre l'âge et le grisonnement des cheveux. Si vous comparez maintenant cette table à la précédente, vous allez constater qu'il existe bien dans le tableau de départ une certaine relation entre les deux variables : il y a plus d'individus que ce à quoi nous aurions pu nous attendre (sous l'hypothèse nulle) âgés de moins de 40 ans et sans cheveux gris, et plus d'individus de 40 ans ou plus avec des cheveux gris.

Cet exemple illustre le principe général sur lequel l'analyse log-linéaire est basé : compte tenu des totaux marginaux de deux facteurs (ou plus), nous pouvons calculer les fréquences des cellules que nous pourrions attendre si les deux facteurs (ou plus) étaient indépendants. Des écarts significatifs entre les fréquences observées et les fréquences attendues indiquent une relation entre les deux variables (ou plus).

Approche de l'ajustement du modèle. Reformulons la présentation des tables 2 x 2 faite jusqu'à présent. Nous pouvons dire que le fait d'ajuster le modèle de deux variables qui ne sont pas corrélées (âge et couleur des cheveux) revient à calculer les fréquences des cellules de la table à partir des fréquences marginales respectives (totaux). Des écarts significatifs entre les fréquences de la table observée et les fréquences ajustées indiquent un manque d'ajustement du modèle d'indépendance (entre les deux variables). Dans ce cas, nous pouvons rejeter ce modèle pour nos données, et accepter le modèle qui indique l'existence d'une relation ou d'une corrélation entre l'âge et la couleur des cheveux.

Tables de Fréquences d'Ordre Multiple

Le raisonnement présenté dans le cadre de l'analyse de notre table 2 x 2 peut être généralisé à des tables plus complexes. Par exemple, supposons que nous avons une troisième variable dans notre étude, par exemple, une variable indiquant si les individus de notre échantillon d'expérience sont ou non stressés au travail. Puisque nous nous intéressons à l'effet du stress sur le grisonnement des cheveux, nous considérerons le Stress comme une autre variable du modèle (notez que si notre étude portait sur l'effet du grisonnement des cheveux sur le stress induit, la variable Stress serait notre variable de réponse, tandis que la Couleur des cheveux serait alors la variable du modèle). La table obtenue est une table de fréquences d'ordre trois (à trois entrées).

Ajustement de modèles. Nous pouvons appliquer notre raisonnement précédent pour l'analyse de cette table. Plus précisément, nous pouvons ajuster différents modèles correspondant aux différentes hypothèses concernant les données. Par exemple, nous pouvons démarrer par un modèle qui fait l'hypothèse d'indépendance entre tous les facteurs. Comme précédemment, les fréquences attendues (théoriques) vont alors refléter les fréquences marginales respectives. En cas d'écart significatif, nous pouvons rejeter ce modèle.

Effets d'interaction. Nous pourrions avoir un autre modèle, dans lequel l'âge serait corrélé à la couleur des cheveux, et le stress serait corrélé à la couleur des cheveux, sans interaction entre les deux facteurs (âge et stress). Dans ce cas, il nous faudrait ajuster simultanément les totaux marginaux de la table à double entrée de l'âge par la couleur des cheveux, en regroupant (ignorant) les niveaux de stress, et la table à double entrée du stress par la couleur des cheveux, en regroupant (ignorant) les niveaux d'âge. Si ce modèle n'ajuste pas bien les données, nous pouvons en conclure que l'âge, le stress et la couleur des cheveux sont tous corrélés entre eux. En d'autres termes, nous pouvons en conclure que l'âge et le stress interagissent dans leur effet sur le grisonnement des cheveux.

Le concept d'interaction ici est analogue à celui qui est utilisé en analyse de variance (ANOVA/MANOVA). Par exemple, l'interaction de l'âge par le stress pourrait s'interpréter ainsi : la relation entre l'âge et la couleur des cheveux dépend du stress. Tandis que l'âge provoque juste un faible grisonnement en l'absence de stress, l'âge est fortement lié au grisonnement en cas de stress. En d'autres termes, les effets de l'âge et du stress sur le grisonnement des cheveux ne sont pas additifs, mais interactifs.

Si vous n'êtes pas familiarisé(e) avec le concept d'interaction, nous vous recommandons la lecture de l'Introduction du module ANOVA/MANOVA. Plusieurs aspects de l'interprétation des résultats de l'analyse log-linéaire d'une table de fréquences d'ordre multiple sont similaires à ceux d'une ANOVA.

Ajustement proportionnel par itérations. Le calcul des fréquences théoriques (attendues) devient de plus en plus complexe à mesure que le nombre de facteurs augmente dans la table. Toutefois, ils peuvent être calculés, et donc, nous pouvons aisément appliquer le raisonnement développé pour la table 2 x 2 aux tables plus complexes. La méthode utilisée le plus couramment pour le calcul des fréquences théoriques est appelée procédure d'ajustement proportionnel par itérations

Le Modèle Log-Linéaire

Le terme log-linéaire vient du fait que nous pouvons, à l'aide de transformations logarithmiques, reformuler le problème d'analyse de tables de fréquences d'ordre multiple en des termes très similaires à une ANOVA. Plus précisément, nous pouvons considérer la table de fréquences d'ordre multiple comme reflétant les divers effets principaux et effets d'interaction qui s'ajoutent de façon linéaire pour produire la table de fréquences observée. Bishop, Fienberg, et Holland (1974) ont donné des détails sur la manière d'obtenir des équations log-linéaires permettant d'exprimer la relation entre les facteurs dans une table de fréquences d'ordre multiple.

Qualité d'Ajustement

Dans les rubriques précédentes, nous avons à plusieurs reprises fait référence à la "significativité" des écarts entre les fréquences observées et les fréquences théoriques (attendues). Il est possible d'évaluer la significativité statistique de la qualité d'ajustement d'un modèle particulier par un test du Chi². Le module Analyse Log-Linéaire va calculer deux types de Chi² : la traditionnelle statistique du Chi² de Pearson et la statistique du Chi² du ratio du maximum de vraisemblance (le terme "ratio de vraisemblance" a été introduit par Neyman et Pearson, 1931 ; le terme "maximum de vraisemblance" a été utilisé pour la première fois par Fisher, 1922a). En pratique, l'interprétation et l'ordre de grandeur de ces deux statistiques du Chi² sont quasiment identiques. Les deux tests évaluent si les effectifs théoriques des cellules, sous le modèle respectif, sont significativement différents des effectifs de cellules observés. Si tel est le cas, le modèle respectif doit être rejeté pour la table.

Examiner et tracer les fréquences des résidus. Après avoir choisi un modèle pour la table observée, il est toujours bon d'inspecter les fréquences des résidus, c'est-à-dire les fréquences observées moins les fréquences théoriques attendues. Si le modèle est adapté à la table, toutes les fréquences résiduelles doivent former un "bruit aléatoire", c'est-à-dire consister en des valeurs positives et négatives, d'importance sensiblement identique et réparties équitablement entre les cellules de la table. Le module Analyse Log-Linéaire permet également à l'utilisateur de produire divers tracés de fréquences des résidus et les statistiques correspondantes.

Significativité statistique des effets. Les Chi² de modèles hiérarchiquement liés les uns aux autres peuvent être comparés directement. Par exemple, si nous ajustons tout d'abord un modèle avec l'interaction de l'âge par la couleur des cheveux et l'interaction du stress par la couleur des cheveux, puis que nous ajustons un modèle avec l'interaction de l'âge par le stress par la couleur des cheveux (interaction d'ordre trois), le second modèle est un "super-ensemble" du précédent modèle. Nous pouvons évaluer la différence des statistiques du Chi², sur la base des différences entre les degrés de liberté ; si la statistique différentielle du Chi² est significative, nous pouvons en conclure que le modèle d'interaction d'ordre trois produit significativement un meilleur ajustement de la table observée que le modèle sans cette interaction. Par conséquent, l'interaction d'ordre trois est statistiquement significative.

D'une manière générale, deux modèles sont hiérarchiquement liés si nous pouvons en produire un à partir de l'autre, que ce soit en ajoutant des termes (variables ou interactions) ou en les supprimant (mais pas les deux en même temps).

Ajustement Automatique du Modèle

Lorsque vous analysez des tables d'ordre quatre ou plus, il est de plus en plus difficile de trouver le meilleur modèle d'ajustement. Le module Analyse Log-Linéaire comporte des options d'ajustement automatique du modèle permettant de faciliter la recherche du "bon modèle". La logique générale de cet algorithme est la suivante : STATISTICA va tout d'abord ajuster un modèle sans aucune relation entre les facteurs  ; si ce modèle n'ajuste pas (c'est-à-dire si la statistique du Chi² est significative), il va ajuster un modèle avec toutes les interactions d'ordre deux. Si ce modèle n'ajuste pas non plus, STATISTICA va ajuster un modèle avec toutes les interactions d'ordre trois, et ainsi de suite. Considérons que ce processus trouve un modèle avec toutes les interactions d'ordre deux pour ajuster les données. STATISTICA va alors procéder à l'élimination de toutes les interactions d'ordre deux qui ne sont pas statistiquement significatives. Le modèle obtenu sera celui qui comportera le moins d'interactions nécessaires pour ajuster la table observée.

Notes et Informations Techniques - Algorithmes

L'ajustement de modèles (tables marginales) aux tables de fréquences observées se fait par l'ajustement proportionnel itératif (voir Deming et Stephan, 1940 ; Brown, 1959 ; Ireland et Kullback, 1968 ; Haberman, 1972, 1974). Le calcul du Chi² de Pearson et du Chi² du ratio du maximum de vraisemblance est décrit en détail dans les ouvrages de Bishop, Fienberg, et Holland (1975) et Fienberg (1978). La logique de l'algorithme de sélection automatique est décrite par Goodman (1971).

Statistiques des Résidus

Les statistiques de résidus suivantes sont disponibles dans la boîte de dialogue des résultats (remarque : Fijk.. représente la fréquence de cellule ajustée ou attendue (théorique) de la cellule i,j,k,... ; fijk.. représente la fréquence observée) :

Résidus bruts. Les résidus bruts (rijk..) se calculent ainsi :

rijk..=fijk..-Fijk..

Résidus centré-réduits. Les résidus centrés-réduits (sijk..) se calculent ainsi :

sijk..=(fijk..-Fijk..)/(Fijk..)½

Composantes du maximum de vraisemblance. Ce sont les contributions de chaque cellule à la statistique du Chi-deux de qualité d'ajustement global pour le ratio du maximum de vraisemblance :

cijk..=2*fijk..*ln(fijk../Fijk..)

Dans cette équation, ln représente le logarithme népérien.

Écarts de Freeman-Tukey. Les écarts de Freeman-Tukey (frijk..) représentent une transformation de normalisation qui peut s'appliquer lorsque les effectifs de la table suivent une distribution de Poisson  :

frijk..=fijk..½+(fijk..+1)½-(4*Fijk..+1)½




Spécifier Directement des Tables (Entrée Table de Fréquences)

Dans cet exemple, nous allons spécifier une table de fréquence 4x2x3x3 qui est lue directement, c'est-à-dire sans variables de classement. Ce fichier est enregistré sous le nom Center.sta. Ouvrez ce fichier de données à l'aide de la commande Ouvrir des Exemples du menu Fichier ; vous trouverez ce fichier dans le répertoire Fichiers de Données.

Étape 1. Panneau de Démarrage : Sélectionnez la commande Analyse Log-Linéaire (Tables de Fréquences) à partir du menu Statistiques - Modèles Linéaires/Non-Linéaires Avancés pour afficher la boîte de dialogue Analyse Log-Linéaire (Panneau de Démarrage). Sélectionnez l'option Effectifs sans var. de classement dans la liste déroulante Fichier d'entrée. Puis cliquez sur le bouton Variables pour ouvrir la boîte de dialogue standard de sélection de variables, sélectionnez toutes les variables du fichier, et cliquez sur le bouton OK. Ensuite, cliquez sur le bouton Spécifiez la table pour ouvrir la boîte de dialogue Dimensions de la table.

Étape 2. Spécifiez les dimens. de la table : À présent, dans cette boîte de dialogue, vous devez spécifier exactement comment les effectifs sont représentés dans la table. Dans la feuille de données, les niveaux de quatre facteurs (Apparen., Survie, Âge et Localité) sont utilisés comme noms d'observations et comme noms de variable (ou en-têtes de colonne). Le premier facteur à référencer dans la boîte de dialogue Dimensions de la table, doit être celui dont "l'indice change le plus souvent", le second facteur comme celui dont l'indice est le deuxième à changer souvent, et ainsi de suite. Comme STATISTICA lit les effectifs à travers des lignes, le facteur dont l'indice change le plus vite dans cet exemple est le facteur dont les niveaux sont listés dans les en-têtes de colonne de la feuille de données - Apparen.. Donc, dans la boîte de dialogue  Dimensions de la table saisissez 4 pour le nombre de niveaux de ce facteur et Apparen. comme nom de facteur. Le second facteur dont l'indice change fréquemment est Survie puisque les 2 niveaux de ce facteur (Oui ou Non) changent de ligne en ligne (liste dans la colonne Noms d'Observations). Saisissez ce nom de facteur et son nombre de niveaux dans la seconde ligne de cette boîte de dialogue. Spécifiez les deux facteurs restants dans les lignes 3 et 4 comme suit : 3 niveaux (- de 50, 50-69, + de 69) pour le facteur Âge, et 3 niveaux (Tokyo, Boston, et Paris) pour le facteur Localité.

Cliquez sur le bouton OK pour revenir au Panneau de Démarrage où la table à analyser sera affichée dans la boîte de synthèse du Panneau de Démarrage.




Analyse Log-Linéaire de Tableaux de Fréquences

Introduction. L'exemple suivant est basé sur un fichier de données "classique" reporté par Morrison, et al. (1973), et décrit par Bishop, Fienberg, et Holland (1975). Les données contenues dans le fichier de données Center.sta (et Center2.sta ; voir ci-dessous) qui est compris dans votre programme STATISTICA. Le fichier de données comporte un tableau de fréquence du nombre de patientes atteintes d'un cancer du sein ayant survécu trois an ou plus après le diagnostic (évidemment, ces données ne sont pas représentatives des chances de survie après un cancer du sein dans les années 90).

Les effectifs sont reportés séparément pour quatre types différents d'inflammation et d'apparence (MIN_MAL, FRT_MAL, MIN_BEN, FRT_BEN), trois groupes d'âge (- de 50, 50-69, + de 69), et séparément pour trois centres de diagnostique (Tokyo, Boston, et Paris). Ouvrez Center.sta à l'aide de la commande Ouvrir des Exemples du menu Fichier ; vous trouverez ce fichier dans le répertoire Fichiers de Données. Le tableau complet a été saisi dans une feuille de données illustrée ci-dessous.

Notez que la colonne des noms d'observations a été utilisée pour dénoter les niveaux des trois facteurs, c'est-à-dire, la Localisation du centre de diagnostique (à gauche), l'Âge (au milieu dans la colonne noms d'observations) et la Survie (à droite de cette colonne).

Objectif de l'analyse. En général, le but de l'analyse log-linéaire d'un tableau de fréquence est de découvrir les relations entre les variables catégorielles (facteurs) qui ont construit la table. L'Introduction présente la distinction entre les variables du modèle et les variables réponse, une distinction qui correspond en fait à celle entre les variables indépendantes et dépendantes, respectivement. La principale variable réponse intéressante de ce tableau est, bien sûr, la Survie. Tous les autres facteurs sont traités comme des facteurs du modèle. En conséquence, vous n'êtes pas concerné par une interaction entre, par exemple, le lieu du centre de diagnostique et l'âge des patientes ou le type de cancer.

Fichiers de Données. Avant que la véritable analyse du tableau ne commence, les différentes façons dont le fichier de données peut être spécifié dans le module Analyse Log-Linéaire vont être présentées. Notez que le fichier de données Center.sta (affiché dans la feuille de données ci-dessus) ne comporte que les effectifs comme des valeurs pour les variables ; il n'y a aucune variable de classement avec des codes qui identifient les niveaux des facteurs.

Sélectionnez la commande Analyse Log-Linéaire (Tables de Fréquences) à partir du menu Statistiques - Modèles Linéaires/Non-Linéaires Avancés pour afficher la boîte de dialogue Analyse Log-Linéaire (Panneau de Démarrage). Sélectionnez l'option Effectifs sans var. de classement dans la liste déroulante Fichier d'entrée. Puis cliquez sur le bouton Variables pour ouvrir la boîte de dialogue standard de sélection de variables, sélectionnez toutes les variables du fichier, et cliquez sur le bouton OK.

Spécification de la table. Pour vous assurer que STATISTICA va comprendre comment interpréter les données, c'est-à-dire, comment organiser les chiffres dans le tableau, cliquez sur le bouton Spécifiez la table pour ouvrir la boîte de dialogue Dimensions de la table (voir ci-dessous). Techniquement, STATISTICA va simplement lire les effectifs des quatre variables comme une chaîne de nombres, en lisant ligne par ligne, en commençant par la variable la plus à gauche. L'information que vous avez fourni via la boîte de dialogue Dimensions de la table permet à STATISTICA de "comprendre" la structure de la table. À présent, saisissez le nom de chaque facteur et son nombre de niveaux respectif dans la boîte de dialogue Dimensions de la table. Il y a quatre facteurs devant être saisis dans cette boîte de dialogue : Apparen. (et inflammation) du cancer, Survie, Âge et Localité du centre de diagnostique. Le nombre de niveaux de chaque facteur doit également être spécifié.

STATISTICA va interpréter le premier facteur entré dans cette boîte de dialogue comme celui dont "l'indice change le plus", le second facteur entré comme celui dont l'indice est le second à changer fréquemment, et ainsi de suite. Comme STATISTICA lit les effectifs à travers des lignes, le facteur dont l'indice change le plus vite de cet exemple est le facteur dont les quatre niveaux sont listés dans les en-têtes de colonne de la feuille de données - Apparen.. Donc, saisissez Apparen. comme Nom du Facteur et 4 comme Nb de niveaux pour ce facteur dans la première ligne. Le second facteur dont l'indice change fréquemment est Survie ; les niveaux de ce facteur changent de ligne en ligne dans la feuille de données. En conséquence, saisissez Survie dans le champ d'édition Nom du Facteur et 2 niveaux dans la ligne 2. Spécifiez les deux facteurs restants comme suit : 3 niveaux pour le facteur Âge, et 3 niveaux pour le facteur Localité.

Cliquez sur le bouton OK pour revenir au Panneau de Démarrage. Le Panneau de Démarrage aura désormais cette apparence :

A ce niveau, le tableau est prêt pour l'analyse.

Enregistrer un tableau sous un autre format. Pour rendre les résultats plus lisibles avec des valeurs texte ayant un sens représentant les niveaux des facteurs, vous pouvez préférer une mise en forme différente du fichier. Lorsque vous enregistrez les tableaux dans le module Analyse Log-Linéaire, ils sont être automatiquement enregistrés avec cette mise en forme. Vous pouvez à présent cliquer sur le bouton OK comme si vous commenciez l'analyse, et dans la boîte de dialogue Spécification du Modèle Log-Linéaire - onglet Étudier/Enregistrer qui apparaît, cliquez sur le bouton Enregistrer la table pour enregistrer la table. Le fichier résultant va comporter une ligne pour chaque cellule de la table. En plus d'une variable comportant les fréquences des cellules respectives, ce fichier va également inclure une variable pour chaque facteur de la table, avec des codes entiers pour représenter les niveaux respectifs. Ce fichier a été précédemment créé et des étiquettes appropriées y ont été ajoutées. Cette façon alternative de représenter le tableau a été utilisée dans le fichier de données Center2.sta. Ouvrez ce fichier de données via la commande Ouvrir du menu Fichier ; qui se trouve dans le répertoire /Exemples/Fichiers de Données de STATISTICA. Vous trouverez ci-dessous une partie de ce fichier.

Ce fichier va être utilisé dans les analyses ultérieures ce qui va rendre les sorties plus lisibles.

Spécification de l'Analyse. Sélectionnez à nouveau la commande Analyse Log-Linéaire (Tables de Fréquences) dans le menu Statistiques - Modèles Linéaires/Non-Linéaires Avancés pour afficher la boîte de dialogue Analyse Log-Linéaire (Panneau de Démarrage). Sélectionnez ensuite l'option Effectifs avec var. de classement (ce qui est la façon dont le tableau est représenté dans le fichier de données) dans la liste déroulante Fichier d'entrée. À présent, cliquez sur le bouton Variables pour afficher la boîte de dialogue standard de sélection de variables. Là, sélectionnez Fréquence comme Variable avec effectifs et depuis Apparen. jusqu'à Lieu comme Variables avec les codes. Cliquez sur le bouton OK pour revenir au Panneau de Démarrage.

Enfin, cliquez sur le bouton Sélectionnez les codes pour ouvrir la boîte de dialogue Sélectionnez les codes pour les facteurs et spécifiez les codes respectifs qui ont été utilisés pour représenter les niveaux des facteurs. Pour sélectionner tous les codes, vous pouvez utiliser la convention de l'astérisque (*) dans chacun des champs de sélection des codes, vous pouvez cliquer sur chacun des boutons Tous ou bien vous pouvez cliquer sur le bouton Tout pour sélectionner tous les codes pour chacune des variables. Cliquez sur le bouton OK pour revenir au Panneau de Démarrage, qui aura cet apparence.

Résultats. Vous êtes maintenant prêt(e) à commencer l'analyse ; cliquez sur le bouton OK pour afficher la boîte de dialogue Spécification du Modèle Log-Linéaire.

Tableau observé. Tout d'abord, cliquez sur l'onglet Étudier/Enregistrer. Vous pouvez étudier le tableau observé via le bouton Étude de la table observée complète. Lorsque vous cliquez sur ce bouton, la boîte de dialogue Spécifiez Comment Étudier la Table s'ouvre et vous permet de spécifier de façon flexible la manière avec laquelle il faut étudier la table.

Par exemple, vous pouvez demander d'étudier le tableau avec Âge (facteur 3) comme Variable colonne et Lieu (facteur 4) comme Variable ligne (dans chaque niveau des autres facteurs), etc.

Cliquez sur le bouton OK pour afficher les tableaux spécifiés.

Recherche d'un modèle. Rechercher un modèle approprié pour un tableau de fréquence à entrées multiples (plus de deux entrées) n'est pas une tâche aisée. Le module Analyse Log-Linéaire fournit des options pour faciliter la recherche. En particulier, le bouton Sélection automatique du meilleur modèle dans la boîte de dialogue Spécification du Modèle Log-Linéaire - onglet Base et dans l'onglet Avancé permet de trouver automatiquement le modèle le moins complexe qui va ajuster les données. Nous utiliserons ce bouton par la suite pour vérifier si nous parvenons aux mêmes conclusions ou à des conclusions similaires (modèle) que lorsque l'on travaille sans assistance.

Test simultané des interactions d'ordre k. Une première étape vers la compréhension du degré de complexité du tableau est d'étudier le tableau des tests simultanés des interactions d'ordre k, et des tests de tous les modèles d'associations marginales et partielles. Ces tests vont être calculés lorsque vous allez cliquer sur le bouton Tester tous modèles d'assoc. marg. & partielle de l'onglet Avancé. Quand vous utilisez ce bouton pour la première fois, les calculs impliqués dans les tests de modèles prennent du temps ; par la suite, ces résultats pourront être appelés instantanément.

L'interprétation des tests des interactions d'ordre k est décrit dans l'Introduction. En résumé, la feuille de données ci-dessus montre que l'amélioration de l'ajustement en incluant toutes les interactions d'ordre 2 dans le modèle (Ordre K = 2) est très significative (c'est-à-dire que le modèle fournit un faible ajustement). L'amélioration de l'ajustement en ajoutant toutes les interactions d'ordre 3 au modèle (Ordre K = 3) n'est pas significatif (c'est-à-dire que le modèle fournit un ajustement adéquat). En conséquence, vous pouvez conclure que le modèle le moins complexe qui va ajuster le tableau observé n'a pas besoin de comporter des associations d'ordre 3, mais va devoir comporter une ou plusieurs associations d'ordre deux.

Tests de toutes les associations marginales et partielles. Pour voir laquelle des associations d'ordre deux semble être significative, la feuille de données Tests d'association marginale & partielle va être étudiée.

L'interprétation de cette table est également décrite dans l'Introduction. En résumé, le test Association Partielle Chi-deux évalue la significativité de l'effet respectif (indiqué par les chiffres dans la colonne Effet) en comparant le modèle qui inclut toutes les interactions du même ordre avec le modèle sans l'effet respectif.

Par exemple, observez l'Effet 12. Cet effet représente l'association ou l'interaction entre les facteurs 1-Apparen. et 2-Survie. Lorsque vous supprimez cet effet du modèle avec toutes les autres associations d'ordre 2, la différence dans les valeurs du Chi-deux (maximum de vraisemblance) est de 10,18, avec 3 Degrés de liberté. Cette valeur est significative au niveau p<0,02. En conséquence, l'ajustement du modèle devient significativement moins bon en excluant cette interaction d'ordre deux du modèle ; vous devriez donc l'inclure.

Pour faire une analogie avec la régression multiple (voir le module Régression Multiple), le test d'association partielle prévoit la contribution unique de l'effet respectif (association ou interaction) de l'ajustement du modèle. La logique du test est analogue de celle des corrélations partielles.

Le test d'Association Marginale de l'Effet 12 dénote la différence entre le modèle sans interaction d'ordre 2 et le modèle qui inclut l'interaction 12 (et aucune autre interaction d'ordre deux). Comme vous pouvez le constater, L'ajustement du modèle s'améliore significativement en ajoutant l'association entre les facteurs 1-Apparen. et 2-Survie (Chi-deux = 9,49, dl = 3, p<0,03). Pour poursuivre l'analogie à la régression multiple, ce test est l'équivalent d'un coefficient de corrélation simple (d'ordre zéro).

Choix des effets du modèle. Si vous analysez la feuille de données Tests d'Association Marginale et Partielle pour connaître la significativité des interactions d'ordre deux, vous allez constater qu'il faut intégrer d'autres associations dans le modèle  :

(1) L'association entre les facteurs 1-Apparen. et 2-Survie (Effet 12),

(2) L'association entre les facteurs 1-Apparen. et 4-Lieu (Effet 14),

(3) L'association entre les facteurs 2-Survie et 4-Lieu (Effet 24),

(4) L'association entre les facteurs 3-Âge et 4-Lieu (Effet 34).

L'association entre 2-Survie et 3-Âge n'est pas significative lorsqu'elle est évaluée avec toutes les autres associations d'ordre deux (voir la rubrique Association Partielle de l'Effet 23). En conséquence, elle ne sera pas inclue dans le modèle à ce stade.

Règles pour spécifier un modèle. Vous êtes maintenant prêt(e) à spécifier et tester un modèle particulier. Cependant, avant de commencer, étudiez quelques points importants. Tout d'abord, les effets d'interaction ou association incluent automatiquement des effets d'ordre inférieur. Donc, par exemple, si vous spécifiez l'association 12, vous demandez d'ajuster le tableau marginal des facteurs 1 par 2. Ce tableau va évidemment comporter ou refléter le tableau marginal de 1 et 2 seuls. C'est pourquoi il n'est pas nécessaire d'inclure explicitement les effets d'ordre inférieur lorsque vous spécifiez un modèle. Ensuite, assurez-vous que tous les effets sont reflétés dans le modèle. Par exemple, si vous ne spécifiez que 12 et ne faites aucune référence à d'autres facteurs, puis que vous posez l'hypothèse que les fréquences marginales de tous les autres facteurs sont égales. Dans cet exemple, ce serait vraiment inapproprié de poser l'hypothèse qu'il y a un nombre égal de patientes diagnostiquées dans les trois centres de diagnostique. C'est pourquoi, ajuster une table qui force ces nombres à être égaux sans nécessité fausse l'ajustement du modèle.

Spécification du modèle. Pour spécifier le modèle qui a été précédemment trouvé, cliquez sur le bouton Spécifiez le modèle à tester dans l'onglet Base ou dans l'onglet Avancé. Vous pouvez maintenant entrer le modèle désiré dans la boîte de dialogue Spécifiez le modèle à tester. Dans ce cas, vous savez que vous devez inclure les associations d'ordre deux : 12, 14, 24 et 34. Cependant, comme nous l'avons décrit dans l'Introduction, vous allez généralement inclure toutes les interactions entre les variables inclues dans le modèle, pour qu'elles ne contribuent pas au manque global d'ajustement du modèle. Dans cette étude, il a été considéré que vous n'étiez pas intéressé par les interactions entre l'inflammation-/apparence du cancer, l'âge, et le centre de diagnostique. Il se peut très bien que la distribution de l'âge est différente dans différents centres de diagnostique, ou que l'apparence du cancer est différente à différents groupes d'âge. Cependant, vous êtes principalement intéressé par les facteurs qui sont associés à la survie. Puisque vous n'êtes pas intéressé par les associations entre les variables du modèle dans cette étude, ajustez l'association d'ordre trois (134) entre tous les facteurs du modèle, en plus des effets 12 et 24. Donc, pour spécifier ce modèle, tapez 12, 24, 134 dans la boîte de dialogue Spécifiez le modèle à tester.

Évaluation de la qualité d'ajustement. À présent, cliquez sur le bouton OK pour afficher la boîte de dialogue Résultats. Comme vous pouvez le voir dans la synthèse des résultats ci-dessous, le modèle global ajuste le tableau observé (les tests du Chi-deux ne sont pas significatifs). En conséquence, vous pouvez conclure que le modèle spécifié est suffisant pour expliquer les effectifs du tableau.

Cliquez sur le bouton Tracé val. observées vs. ajustées dans l'onglet Base pour voir s'il y a des divergences importantes entre les effectifs observés et ajustés de la table.

La plupart des points de ce graphique sont sur une droite. Donc il semble qu'il n'y ait pas de point atypique majeur (cellules "mal ajustées") dans le tableau.

Tests hiérarchiques des modèles alternatifs. Avant d'interpréter les résultats, testez la significativité statistique des associations 24 et 12 et la significativité de l'association entre Âge et Survie (23), qui n'est pas inclue dans ce modèle. Comme nous l'avons décrit dans l'Introduction, vous pouvez évaluer la significativité statistique d'effets en comparant le Chi-deux du modèle qui inclut l'effet avec le Chi-deux du modèle qui exclut l'effet. Par exemple, pour tester l'association 24, ajustez le modèle 12, 134 (en utilisant la boîte de dialogue Spécifiez le Modèle à Tester décrite ci-dessus) et comparez ce Chi-deux avec le Chi-deux du précédent modèle (ce modèle est le même que le modèle courant, mise à part que l'interaction 24 a été supprimée).

Si vous ajustez le modèle 12, 134, la valeur du Chi-deux du Maximum de Vraisemblance résultante va être de 43,37 avec 32 degrés de liberté (voir la boîte de Synthèse de la boîte de dialogue Résultats ci-dessus). Ce Chi-deux est significativement moins bon (c'est-à-dire qu'il est plus important) que dans le modèle précédent (qui intègre l'interaction 24) : la différence entre les Chi-deux est de 43,37 -31,74 =11,63, et la différence entre les degrés de liberté est de 32 - 30 = 2 ; le niveau de significativité résultant est p<0,005. Donc, vous pouvez conclure que l'interaction 24 est significative (c'est-à-dire, il y a une association significative entre le taux de survie et le centre de diagnostique). En suivant la même logique, vous allez trouver que l'association Apparen. (facteur 1) par Survie (facteur 2) est également hautement significative (différence entre les Chi-deux = 10,23, différence entre les dl = 3, p<0,025). Pour évaluer la significativité de l'association 32 (Âge et Survie) qui n'est pas dans le modèle courant, ajoutez-la au modèle et estimez la significativité de l'amélioration de l'ajustement du modèle. Comme vous allez le constater, l'association 32 n'améliore pas significativement l'ajustement du modèle du tableau observé.

Interprétation des résultats. Jusqu'ici, l'analyse a conduit à deux effets significatifs, c'est-à-dire, les associations entre les variables du modèle et la variable réponse : (1) une relation entre Apparen. (facteur 1) et Survie (facteur 2), et (2) une association entre Lieu (facteur 4) et Survie (facteur 2). À présent, examinez la nature de ces effets. Souvenez-vous qu'ajuster un modèle implique le calcul des valeurs théoriques, pour qu'elles reflètent les effectifs relatifs des tableaux marginaux respectifs. En conséquence, pour interpréter un effet, vous pouvez examiner les tables marginales. Cliquez sur le bouton Tables marginales dans la boîte de dialogue Résultats - onglet Base pour le modèle 12, 24,134 pour afficher ces tables dans des feuilles de données individuelles (incluant la table d'ordre trois de l'effet 134). Tout d'abord, regardez l'association de la feuille de données Tabl. Marg. (eff.+delta) : Apparen. vs Survie.

Un examen attentif de cette table révèle que le taux de survie des patientes dont le cancer a été diagnostiqué comme malin (en-tête de colonne Min_Mal et Frt_Mal) est d'environ 2 à 1 (Survie OUI à NON) ; pour le cancer bénin ce taux est d'environ 3 à 1.

Notez que pour simplifier cet exemple, les facteurs d'apparence d'origine et d'inflammation ont été combinés dans le facteur à 4 niveaux Apparen.. Pour traiter l'inflammation et l'apparence comme des facteurs séparés dans la table, vous pouvez diviser Apparen. en deux variables et ré-analyser ce tableau.

La feuille Tabl. Marg. (eff.+delta) : Survie vs Lieu a cette apparence :

Il semble que le taux de survie est plus important pour les patientes dont le cancer a été diagnostiqué à Tokyo, environ 3 à 1 (Survie OUI à NON). A Boston et à Paris, ce taux est d'environ 2 à 1. Bien sûr, vous ne pouvez pas déduire de cause spécifique pour cet effet. Évidemment, il y a un certain nombre de différences (non mesurées dans cette étude) entre les patients à Tokyo et Boston ou Paris. Cependant, les taux de survie apparemment différents conduiront à des études plus poussées.

Notez que les effectifs dans la table marginale vont inclure la constante Delta comme cela a été spécifié dans la boîte de dialogue Analyse Spécification du Modèle Log-Linéaire - onglet Avancé. Par défaut, STATISTICA ajoute 0,5 (le Delta) pour chaque effectif de cellule avant d'ajuster un modèle. En conséquence, pour obtenir un compte marginal précis en utilisant le module Analyse Log-Linéaire, assurez-vous que la constante Delta est à 0.

Sélection Automatique du Meilleur Modèle. Plus le tableau est complexe, plus il sera difficile de trouver un modèle qui ajuste et qui inclut en même temps tous les effets importants (significatifs). En fait, la conclusion finale était arrivée "à ses dépens" ; vous auriez pu également utiliser le bouton Sélection automatique du meilleur modèle dans la boîte de dialogue Spécification du Modèle Log-Linéaire - onglet Avancé. Cliquez sur le bouton Annuler de la boîte de dialogue Résultats pour revenir à la boîte de dialogue Spécification du Modèle Log-Linéaire.

Après avoir cliqué sur le bouton Sélection automatique du meilleur modèle, la boîte de dialogue Sélection Automatique du Meilleur Modèle s'ouvre.

L'algorithme. L'algorithme utilisé dans le module Analyse Log-Linéaire permettant de trouver un modèle suffisant pour la table observée suit la même logique que celle de la table des interactions d'ordre k et la table des associations marginales et partielles.

Tout d'abord, STATISTICA va déterminer la complexité ou l'ordre de interactions à inclure dans le modèle pour ajuster la table observée. Le champ d'édition 1 - p(1) contrôle le niveau p à utiliser à ce stade de la recherche pour décider si un modèle est bon ou non.

Ensuite, STATISTICA va enlever les associations (de l'ordre trouvé à l'étape un) du modèle, étape par étape. A ce niveau, si un effet est plus significatif que la valeur spécifiée dans le champ d'édition 2 - p(2), alors il est retenu dans le modèle.

Les paramètres par défaut pour p(1) et p(2) sont raisonnables, donc cliquez simplement sur le bouton OK pour voir quel modèle va être choisi par STATISTICA.

Résultats. Dans l'illustration suivante, vous pouvez voir que le modèle initial comporte toutes les associations d'ordre deux ; ceci était également votre point de départ. Le modèle final est le même que celui auquel vous êtes arrivé ; c'est-à-dire qu'il inclut les deux principaux effets d'association intéressants : 12 (Apparen. et Survie) et 24 (Lieu et Survie).

Notez que ce modèle est automatiquement "transféré" dans la boîte de dialogue de spécification du modèle (par défaut, le "meilleur" modèle sélectionné par STATISTICA va être saisi dans le champ d'édition dans la boîte de dialogue Spécifiez le Modèle à Tester) ; donc, cliquez simplement sur le bouton Poursuivre l'analyse du meilleur modèle de cette boîte de dialogue puis cliquez sur le bouton OK dans la boîte de dialogue Spécifiez le Modèle à Tester et la boîte de dialogue Résultats pour le modèle final va s'afficher.

Conclusions et remarques finales. Vous pouvez conclure de l'analyse de cette table que les facteurs principaux associés aux trois années de survie des patientes ont été le diagnostic de la malignité du cancer et la localité du centre de diagnostique. Ce qui est intéressant c'est que l'âge ne semble pas être lié à la survie à long terme.

Comme nous l'avons mentionné précédemment, il y a un grand nombre d'explications possibles qui expliquent pourquoi le taux de survie à Tokyo est plus important que dans les autres centres de diagnostique (moment du diagnostic, différences de régimes, différences culturelles dans les "comportements sains", différences dans l'environnement, etc...). Cependant, les différences apparentes révélées dans cette étude valent certainement des recherches supplémentaires.

Didacticiels

Vous pouvez visionner l'intégralité de la série de tutoriels Le Data Mining en 35 Leçons avec STATISTICA en remplissant le formulaire d'inscription. Vous serez alors notifié(e) automatiquement de la disponibilité des nouveaux épisodes et recevrez d'autres informations utiles.

StatSoft propose par ailleurs une série de didacticiels et présentations interactives décrivant pas-à-pas différentes opérations que vous pouvez réaliser à l'aide de STATISTICA. Si vous souhaitez voir aborder un thème particulier, merci de nous écrire.