Partager :

Concepts Fondamentaux en Statistique


Modèles Linéaires/Non-Linéaires Avancés :

Modèles Linéaires/Non-Linéaires Généralisés (GLZ)


Sommaire :


Introduction

Le module Modèles Linéaires/Non-Linéaires Généralisés (GLZ) est une implémentation complète du module Modèle Linéaire Général. Vous pouvez analyser des effets linéaires et non-linéaires, avec autant de prédicteurs que vous le souhaitez, quel qu'en soit le type, en fonction d'une variable dépendante discrète ou continue. Les modèles peuvent comporter des effets à plusieurs degrés de liberté pour les prédicteurs catégoriels, des effets à un seul degré de liberté pour des prédicteurs continus, ou toute combinaison d'effets pour des prédicteurs continus et catégoriels. GLZ offre également des techniques de construction de modèle pas-à-pas et par recherche exhaustive (du meilleur modèle) pour tous les types de plans. GLZ utilise les méthodes du maximum de vraisemblance (MV) du modèle linéaire généralisé pour construire les modèles et pour estimer et tester les hypothèses sur les effets du modèle.

L'Introduction décrit l'utilisation du modèle linéaire généralisé pour analyser des effets linéaires et non-linéaires de prédicteurs catégoriels et continus en fonction d'une variable dépendante discrète ou continue. Si vous n'êtes pas familiarisé(e) avec les méthodes élémentaires de régression dans les modèles linéaires, nous vous recommandons la lecture de la section traitant des concepts statistiques élémentaires. Vous trouverez dans l'Introduction du module GLM, une présentation de la manière dont le modèle de régression linéaire peut être étendu au modèle linéaire général.

Principes Fondamentaux

Le module Modèles Linéaires/Non-Linéaires Généralisé (GLZ) est une généralisation du modèle linéaire général (consultez par exemple les modules Modèle Linéaire Général (GLM), Régression Multiple et ANOVA/MANOVA). Dans sa forme la plus simple, un modèle linéaire général spécifie la relation (linéaire) qui existe entre une variable dépendante Y (ou réponse) et un ensemble de prédicteurs, X, donnant l'équation :

Y = b0 + b1X1 + b2X2 + ... + bkXk

Dans cette équation b0 représente l'ordonnée à l'origine et les valeurs bi sont les coefficients de régression (des variables 1 à k) calculés à partir des données.

Ainsi par exemple, nous pourrions estimer (c'est-à-dire, prévoir) le poids d'une personne en fonction de sa taille et de son sexe. Vous pourriez utiliser une régression linéaire pour estimer les coefficients de régression respectifs à partir d'un échantillon de données, en mesurant la taille, le poids et en enregistrant le sexe des individus. Dans de nombreux problèmes d'analyse des données, l'estimation des relations linéaires entre les variables permet de restituer de manière satisfaisante les données observées, et de prévoir raisonnablement de nouvelles observations (voir le module Régression Multiple pour plus d'informations).

Toutefois, de nombreuses relations ne peuvent pas être efficacement synthétisées par une simple équation linéaire, pour deux raisons majeures  :

Distribution de la variable dépendante. Tout d'abord, la variable dépendante peut être discrète, et par conséquent, les valeurs prévues doivent l'être également ; toute autre valeur prévue ne serait pas logique. Par exemple, un chercheur peut s'intéresser à prévoir trois résultats discrets possibles (par exemple, le choix d'un produit parmi trois possibles). Dans ce cas, la variable dépendante ne peut prendre que 3 valeurs distinctes, et la distribution de la variable dépendante est dite multinomiale. Supposez également que nous cherchions à prévoir la structure familiale, ou plus précisément, le nombre d'enfants que les familles souhaitent, en fonction du revenu et d'autres indicateurs socio-économiques. La variable dépendante -- nombre d'enfants -- est discrète (c'est-à-dire, qu'une famille peut avoir 1, 2, ou 3 enfants etc..., mais pas 2,4 enfants), et la distribution de cette variable est très certainement asymétrique (c'est-à-dire, que la plupart des familles souhaitent 1, 2 ou 3 enfants, peu en voudront 4 ou 5, très peu en voudront 6 ou 7, etc...). Dans ce cas il serait raisonnable de penser que la variable dépendante suit une distribution de Poisson.

Fonction de liaison. Une seconde raison pour laquelle le modèle linéaire (régression multiple) peut s'avérer inadapté pour décrire une relation particulière vient du fait que l'effet des prédicteurs sur la variable dépendante peut ne pas être linéaire. Par exemple, la relation entre l'âge d'une personne et divers indicateurs de santé n'est probablement pas de nature linéaire : au début de l'âge adulte, la santé (en moyenne) des personnes âgées de 30 ans par rapport à la santé (en moyenne) des personnes âgées de 40 ans n'est pas très différente. Toutefois, l'état de santé des personnes âgées de 60 ans et de 70 ans est sans doute plus différent. Ainsi, la relation entre l'âge et la santé est probablement de nature non-linéaire. Une certaine fonction puissance pourrait sans doute permettre de décrire la relation entre l'âge d'une personne et son état de santé, chaque accroissement de l'âge pour les personnes âgées ayant un impact de plus en plus important sur l'état de santé par rapport au même accroissement d'âge au début de l'âge adulte. En d'autres termes, la Liaison entre la santé et l'âge est mieux décrite par une relation non-linéaire, ou une fonction puissance dans cet exemple particulier.

Le modèle linéaire généralisé peut être utilisé pour prévoir les réponses des variables dépendantes suivant des distributions discrètes liées de façon non linéaire aux prédicteurs.

Approche Statistique

Pour reprendre brièvement les principes fondamentaux, le modèle linéaire généralisé diffère du modèle linéaire général (dont la régression multiple est un cas particulier) par deux aspects majeurs : tout d'abord, la distribution de la variable dépendante (ou variable de réponse) peut être (explicitement) non-normale, et ne doit pas nécessairement être continue, c'est-à-dire qu'elle peut être binomiale, multinomiale ou ordinal multinomiale (avec uniquement une information sur les rangs ) ; ensuite, les valeurs de la variable dépendante sont prévues à partir d'une combinaison linéaire des prédicteurs "reliés" à la variable dépendante par une fonction de liaison. Le modèle linéaire général pour une seule variable dépendante peut être considéré comme un cas particulier du modèle linéaire généralisé : dans le modèle linéaire général, les valeurs de la variable dépendante sont supposées suivre une distribution normale, et la fonction de liaison est une simple fonction identité (c'est-à-dire, la combinaison linéaire des valeurs des prédicteurs n'est pas transformée).

Dans le modèle linéaire général, une variable de réponse Y est linéairement associée aux valeurs des variables X par la relation :

Y = b0 + b1X1 + b2X2 + ... + bkXk + e

(où e représente l'erreur de dispersion qui ne peut pas être expliquée par les prédicteurs ; notez que l'espérance mathématique de e est nulle) ; en revanche, dans le modèle linéaire généralisé, la relation est du type :

Y = g (b0 + b1X1 + b2X2 + ... + bkXk) + e

e représente l'erreur, et g(...) est une fonction. La fonction inverse de g(...), disons f(...), est appelée la fonction de liaison, et prend la forme :

f (muy) = b0 + b1X1 + b2X2 + ... + bkXk

muy représente la valeur attendue de y.

Fonctions de liaison et distributions. Il est possible d'utiliser différentes fonctions de liaison (voir McCullagh et Nelder, 1989), selon la distribution supposée des valeurs de la variable y  :

Distributions Normale, Gamma, Inverse normale, et Poisson  :

Liaison Identité : f(z) = z

Liaison Log : f(z) = log(z)

Liaison Puissance : f(z) = za, pour un a donné

Distributions Binomiale et Ordinale Multinomiale :

Liaison Logit : f(z)=log(z/(1-z))

Liaison Probit : f(z)=invnorm(z) invnorm est l'inverse de la fonction de distribution standard normale cumulée.

Liaison complémentaire log-log : f(z)=log(-log(1-z))

Liaison Loglog : f(z)=-log(-log(z))

Distribution Multinomiale :

Liaison logit généralisée : f(z1|z2,...,zc)=log(x1/(1-z1-...-zc))où le modèle possède c+1 catégories.

Estimation dans le Modèle Linéaire Généralisé. Les valeurs des paramètres (b0 à bk et le paramètre d'échelle) dans le modèle linéaire généralisé sont estimées par le maximum de vraisemblance (MV), qui utilise des procédures de calcul itératives. Il existe plusieurs méthodes itératives pour estimer le MV dans le modèle linéaire généralisé, les méthodes de Newton-Raphson et du score de Fisher comptant parmi les plus efficaces et les plus utilisées (voir Dobson,1990). La méthode du score de Fisher (ou moindres carrés itératifs re-pondérés) utilise en particulier un algorithme unique pour tous les modèles linéaires généralisés, ainsi qu'une matrice de variance-covariance théorique des paramètres estimés comme résultat de ses calculs.

Tests de significativité statistique. La statistique de Wald, le ratio de vraisemblance (LR) ou la statistique des résultats permettent de tester la significativité des effets du modèle. Vous trouverez une description détaillée de ces tests dans l'ouvrage de McCullagh et Nelder (1989). La statistique de Wald (par exemple, voir Dobson,1990), se calcule comme le produit intérieur généralisé des paramètres estimés avec la matrice de variance-covariance respective, et constitue une statistique efficace et simple à calculer pour tester la significativité des effets. La statistique des résultats est obtenue à partir du produit intérieur généralisé du vecteur score avec la matrice Hessienne (la matrice des dérivées secondes partielles du maximum de vraisemblance des paramètres estimés). Le test du ratio de vraisemblance (RV) nécessite l'effort de calcul le plus important (une autre procédure d'estimation itérative) et n'est donc pas aussi rapide que les deux premières méthodes  ; toutefois, ce test RV constitue le test le plus efficace connu. Pour plus d'informations concernant ces différentes statistiques, voir Agresti (1996), McCullagh et Nelder (1989), et Dobson (1990).

Diagnostics dans le modèle linéaire généralisé. Les deux principaux types de résidus sont appelés résidus de Pearson et résidus des écarts. Les résidus de Pearson représentent la différence entre les réponses observées et les valeurs prévues ; les résidus des écarts sont basés sur la contribution des réponses observées à la statistique de log-vraisemblance. En outre, vous pouvez également calculer les valeurs de leverage, les résidus studentisés, la distance de Cook généralisée, et d'autres statistiques d'observations (les statistiques basées sur les observations individuelles). Pour une description et une présentation de ces statistiques, voir Hosmer et Lemeshow (1989).

Types d'Analyses

Un modèle peut comporter des prédicteurs catégoriels ou continus, inclure des polynômes pour les prédicteurs continus (par exemple, termes au carré ou au cube) et pour les interactions (c'est-à-dire, termes du produit) des prédicteurs continus. Pour les prédicteurs catégoriels, il est possible d'ajuster des modèles de type ANOVA, comportant des modèles factoriels complets, imbriqués et factoriels fractionnaires, etc... Les plans peuvent être incomplets (c'est-à-dire, impliquer des données manquantes), et vous pouvez représenter les effets des prédicteurs catégoriels par une paramétrisation sigma-restreint/font> ou sur-paramétrée (c'est-à-dire, variable indicatrice).

La rubrique suivante décrit (dans le cadre du module Modèle Linéaire Général), divers types de plans pouvant être analysés à l'aide du modèle linéaire généralisé, et ceux qui peuvent être analysés par le modèle linéaire général.

Théorie de détection du signal. La liste de modèles ci-dessous n'est pas exhaustive, c'est-à-dire, qu'elle ne couvre pas l'ensemble des problèmes pouvant être traités par le modèle linéaire généralisé. Par exemple, une application importante du modèle linéaire généralisé est l'estimation des paramètres pour les modèles de théorie de détection du signal (TDS). La TDS est une application d'aide à la décision statistique utilisée pour détecter un signal mêlée à un bruit aléatoire. La TDS est utilisée dans les études psychophysiques de détection, de reconnaissance et de discrimination, ou d'autres domaines tels que la recherche médicale, la prévision météorologique, les sondages ou encore la recherche marketing. Par exemple, DeCarlo (1998) montre comment les modèles de détection du signal basés sur différentes distributions peuvent être facilement traitées en utilisant le modèle linéaire généralisé avec différentes fonctions de liaisons.

Construction du Modèle

Outre la possibilité qui vous est offerte d'ajuster le modèle complet pour le type d'analyse spécifié, vous pouvez utiliser différentes méthodes de construction automatique de modèle dans les analyses en utilisant le modèle linéaire généralisé. Plus précisément, vous pouvez utiliser des procédures pas-à-pas ascendante ou descendante, d'inclusion ascendante ou descendante, ou encore des procédures de recherche exhaustive. Dans les méthodes ascendantes (c'est-à-dire, les méthodes d'inclusion ascendante et pas-à-pas ascendante), les statistiques des résultats servent de critère pour sélectionner les nouveaux effets (significatifs) à inclure dans le modèle. La statistique de Wald peut être utilisée pour les méthodes descendantes (c'est-à-dire, les méthodes d'exclusion descendante et pas-à-pas descendante, pour sélectionner les effets à supprimer du modèle).

La méthode de recherche exhaustive (du meilleur modèle) peut utiliser trois statistiques de tests différents : la statistique du score, la vraisemblance du modèle, et AIC (Critère d'Information d'Akaike, voir Akaike, 1973). Dans la mesure où la statistique du score ne nécessite pas de calculs itératifs, la recherche exhaustive du meilleur modèle basée sur la statistique du score est plus rapide au niveau des calculs, mais les deux autres statistiques donnent habituellement des résultats plus précis ; voir McCullagh et Nelder(1989) pour les détails.

Détection d'un Élément Pivot Nul lors de l'Ajustement du Modèle

Au cours de la phase d'estimation des paramètres dans les Modèles Linéaires/Non-Linéaires Généralisés, vous pouvez parfois recevoir un message d'alerte vous indiquant qu'un "élément pivot nul" a été détecté. Ce message signifie généralement que lors de l'estimation des paramètres, une certains redondance a été identifiée dans la matrice du modèle. En d'autres termes, l'une des variables ou colonnes (prédicteurs) de la matrice du modèle est redondante avec d'autres colonnes (prédicteurs).

Bien évidemment, ce problème survient généralement lorsque les prédicteurs catégoriels sont codés à l'aide d'un modèle surparamétré. Par exemple, si vous avez un prédicteur catégoriel, "Sexe" avec deux modalités, "Homme" et "Femme", le programme va créer deux colonnes d'indicateurs dans la matrice du modèle avec un modèle surparamétré : une pour les hommes (1=oui, 0=non), et une pour les femmes (1=oui, 0=non). De toute évidence, ces deux colonnes sont redondantes, et par conséquent, le programme va en éliminer une au cours de l'estimation.

Ce mécanisme équivaut à appliquer l'inverse généralisé dans le Modèle Linéaire Général (GLM) afin d'éliminer automatiquement les colonnes redondantes de la matrice du modèle.

Remarque : vous pouvez également recevoir ce message avec des prédicteurs continus, ou si vous n'utilisez pas le modèle surparamétré. Dans ce cas, il signifie simplement que certains prédicteurs sont totalement redondants avec d'autres prédicteurs, et donc, qu'il n'est pas possible de calculer des estimations de paramètres différentes pour ces prédicteurs (et ils sont donc fixés à zéro).

Interprétation des Résultats et Diagnostics

L'estimation et les statistiques de test seules peuvent être insuffisantes pour une bonne interprétation des effets d'une analyse. En particulier, pour des effets d'ordre supérieur (par exemple, une interaction), l'étude des moyennes observées et prévues peut aider considérablement à comprendre la nature d'un effet. Les tracés de ces moyennes (avec les barres d'erreur) permettent de comprendre rapidement le rôle des effets du modèle.

L'examen des distributions des variables est crucial lorsque vous utilisez le modèle linéaire généralisé. Les histogrammes et tracés de probabilités des variables, ou les nuages de points décrivant les relations entre les valeurs observées, les valeurs prévues et les résidus (par exemple, les résidus de Pearson, les résidus des écarts, les résidus studentisés, différentes statistiques du Chi², différentes statistiques des écarts, et la distance de Cook généralisée) constituent des outils de vérification de modèle particulièrement utiles.





Modèle Linéaire Normal avec Liaison Log

L'exemple suivant est basé sur le fichier d'exemple Income.sta. Ouvrez ce fichier de données à l'aide de la commande Ouvrir des Exemples du menu Fichier ; ce fichier se situe dans le répertoire Fichiers de Données. Ce fichier de données contient les résultats (fictifs) d'une enquête sur les ménages de différents pays. Le fichier de données contient trois variables  :

Capital : Montant du capital (en $100,000)

Revenu : Revenu moyen imposable (in $10,000)

Comté : Région d'origine des familles respectives

Supposez que nous nous intéressons à la relation entre le Revenu et le Capital selon les comtés. Supposons que nous sommes intéressés par la relation entre le Capital et les Revenus par comtés. Sélectionnez la commande Nuages de Points dans le menu Graphiques - Graphiques Catégorisés pour afficher la boîte de dialogue des Nuages de Points Catégorisés en 2D. Dans l'onglet Base, sélectionnez le bouton d'option Superposés et cliquez sur le bouton Variables pour afficher la boîte de dialogue classique de sélection de variables. Là, sélectionnez Capital en tant que variable X du Nuage de points, Revenu en tant que variable Y du Nuage de points, Comté comme variable Catégorie X, et cliquez ensuite sur le bouton OK. Enfin, cliquez sur le bouton OK dans la boîte de dialogue Nuages de Points Catégorisés en 2D. Le nuage de points catégorisé suivant de Capital et Revenus par Comté suggère un modèle linéaire normal avec liaison log et pentes séparées.

Spécification de l'Analyse. Sélectionnez la commande Modèle Linéaire/Non Linéaire Généralisé à partir du menu Statistiques - Modèles Linéaires/Non-linéaires Avancés pour accéder à la boîte de dialogue Modèles Linéaire/Non-Linéaires Généralisés (Panneau de Démarrage). Cliquez sur l'onglet Avancé et sélectionnez l'option Modèle pentes séparées comme Type d'analyse, l'option Spécifications rapides comme Méthode de spécification, l'option Normale en tant que Distribution, et l'option Log comme Fonction de liaison. Cliquez ensuite sur le bouton OK pour afficher la boîte de dialogue GLZ (Spécifications Rapides) - Modèle Pentes Séparées. Dans cette boîte de dialogue, cliquez sur le bouton Variables pour afficher la boîte de dialogue standard de sélection de variables. Là, sélectionnez la variable Revenus comme variable Dépendante (réponse), la variable Comté comme Catég. (facteurs), la variable Capital comme Prédicteurs continus (covariants), puis cliquez sur le bouton OK. La boîte de dialogue GLZ (Spécifications Rapides) - Modèle Pentes Séparées correspondra à l'illustration ci-dessous :

Cliquez maintenant sur le bouton OK pour faire apparaître la boîte de dialogue GLZ -- Résultats. Au cours de la procédure d'estimation, vous verrez apparaître un message vous informant que l'un des paramètres du modèle a été fixé à zéro ; en effet, dans le Modèle Pentes Séparés, STATISTICA utilise la paramétrisation sur-paramétrée du prédicteur catégoriel Comté ; afin d'estimer une solution (paramètres estimés) pour ce mode, un des paramètres doit être fixé à zéro (pour les détails, voir aussi l'Introduction du module GLM). Cliquez simplement sur le bouton OK de la boîte de dialogue du message.

Si vous souhaitez exécuter cet exemple en utilisant la Syntaxe GLZ, vous pouvez utiliser la syntaxe suivante dans la boîte de dialogue GLZ - Éditeur de Syntaxe (voir la rubrique Méthodes de Spécification des Plans).

GLZ;

Paramètres Estimés. Dans la boîte de dialogue GLZ -- Résultats - onglet Synthèse, cliquez sur le bouton Estimation pour étudier les paramètres estimés du modèle.

La feuille de données affiche les paramètres estimés pour chaque colonne de la matrice du modèle. Il apparaît que deux des trois paramètres de l'interaction Comté par Capital (les pentes séparées) sont statistiquement significatifs.

Qualité d'Ajustement. Examinons à présent si globalement ce modèle ajuste bien les données. Cliquez sur le bouton Qualité d'ajust., dans le cadre Échantillon, pour faire apparaître la feuille de données Stats de qualité d'ajustement.

Il apparaît que le Modèle Pentes Séparées reproduise bien les données.

Vérification du Modèle.

Hétérogénéité des variances. Ensuite cliquez sur l'onglet Résidus 1, et cliquez sur le bouton Prév. & résidus dans le cadre Tracé des valeurs prévues et résidus pour produire un nuage de points des valeurs prévues et résidus.

Apparemment, la variance des résidus n'est pas homogène entre les groupes (comtés) dans le modèle. Par conséquent, vous pourriez ajuster des modèles de régression séparés pour chaque comté.

Détection de Points Aberrants. La représentation de la statistique du Chi² en fonction des valeurs prévues constitue également un tracé intéressant qui vous permet d'identifier les points influents (c'est-à-dire, ceux qui contribuent le plus à la valeur globale du Chi² de qualité d'ajustement (ou plutôt de manque d'ajustement) du modèle). Pour construire ce tracé, cliquez sur l'onglet Résidus2, puis sur le bouton Prév. & Diff. X2 (Chi²).

Dans cet exemple, le 71éme point (vous pouvez utiliser les outils d'habillage pour étiqueter le point aberrant situé dans la partie droite du graphique) possède une valeur du Chi² importante, et ainsi contribue le plus au manque d'ajustement du modèle.




Modèle Linéaire Binomial avec Liaison Logit

Cet exemple est basé sur le fichier d'exemple Crabs.sta (voir Agresti, 1996, p. 82-83). Ouvrez ce fichier de données à l'aide de la commande Ouvrir des Exemples du menu Fichier ; ce fichier se situe dans le répertoire Fichiers de Données. Les données décrivent le nombre de crabes satellites disposés en U autour d'une la femelle en fonction de la couleur, de l'état des épines, de la largeur et du poids de cette dernière. Plus précisément, le fichier de données contient les variables suivantes :

Y : Variable indicatrice qui prend les modalités 0 lorsque Satellts (nombre de satellites) est égal à zéro et 1 lorsque Satellts est supérieur à zéro

Couleur : Couleur du crabe (prédicteur catégoriel avec 4 catégories)

Épine : État de l'épine du crabe (prédicteur catégoriel avec 3 catégories)

Largeur : Largeur de carapace du crabe femelle en centimètres

Poids : Poids du crabe en kilogrammes

Satellites : Nombre de satellites  ; c'est-à-dire le nombre de crabes mâles liés au nid de la femelle, en plus du seul crabe mâle attaché à chaque nid

Taille Carapace : Largeur de la Carapace, c'est-à-dire la partie externe dure.

But de l'Analyse et Modèle Statistique. Le but de cette étude consiste à déterminer les facteurs qui permettent de prévoir s'il y a ou non d'autres satellites (voir la description de la variable Satellts ci-dessus) qui sont attachés au nid en forme de U du crabe femelle. Nous recherchons un modèle logit avec un minimum de facteurs pour prévoir la variable dépendante (réponse) binaire Y.

Spécification du Modèle. Pour spécifier ce modèle, sélectionnez la commande Modèle Linéaire/Non-Linéaire Généralisé dans le menu Statistiques - Modèles Linéaires/Non-Linéaires Avancés afin d'accéder à la boîte de dialogue Modèles Linéaires/Non-Linéaires Généralisés (Panneau de Démarrage). Cliquez sur l'onglet Avancé et sélectionnez l'option Modèles généraux spécifiques dans la liste Type d'analyse, l'option Spécifications rapides comme Méthode de spécification, l'option Binomiale comme Distribution et l'option Logit comme Fonction de liaison. Cliquez ensuite sur le bouton OK afin d'accéder à la boîte de dialogue GLZ (Spécifications Rapides) - Modèles linéaires généraux. Dans cette boîte de dialogue, cliquez sur le bouton Variables pour afficher la boîte de dialogue standard de sélection de variables. Là, sélectionnez Y comme variable dépendante (réponse), Couleur et Épine comme Catég. (facteurs), Largeur et Poids comme Prédicteurs continus (covariants), et cliquez sur le bouton OK. Nous garderons tous les autres paramètres par défaut ; nous ajusterons ainsi un modèle factoriel pour les prédicteurs catégoriels Couleur et Épine et un modèle à effets principaux seuls pour les prédicteurs continus Largeur et Poids.

Nous construirons notre modèle par recherche exhaustive afin de déterminer un ensemble d'effets produisant un ajustement satisfaisant aux données (prévision de la variable indicatrice Y). Cliquez maintenant sur l'onglet Avancé et sélectionnez le bouton d'option Recherche exhaustive dans le cadre Construction du modèle. L'onglet Avancé aura l'aspect suivant :

Cliquez ensuite sur le bouton OK afin d'accéder à la boîte de dialogue GLZ -- Résultats. Remarque : après avoir cliqué sur le bouton OK, un message d'alerte va apparaître pour vous indiquer que la solution peut ne pas être unique et que la statistique de Wald ne peut être calculée. Nous pouvions nous y attendre avec ce modèle ; cliquez sur le bouton OK dans ce message et poursuivons l'exemple. La procédure va continuer malgré l'avertissement. Les résultats reportés correspondent à la dernière itération par le maximum de vraisemblance.

Si vous souhaitez exécuter cet exemple en utilisant la Syntaxe GLZ, vous pouvez utiliser la Syntaxe suivante dans la boîte de dialogue GLZ - Éditeur de Syntaxe (voir la rubrique Méthodes de Spécification des Plans) :

GLZ;

Recherche Exhaustive avec Score de Vraisemblance et Ratio de Vraisemblance. Cliquez sur le bouton Construc. modèle dans la boîte de dialogue GLZ -- Résultats - onglet Synthèse. La feuille de données reporte les meilleurs sous-ensembles, compte tenu du critère par défaut du score de Vraisemblance, et par ordre décroissant de significativité statistique du modèle complet respectif.

Vous pouvez constater que le meilleur modèle de prévision est celui qui ne contient que l'effet principal Largeur  ; le meilleur modèle à deux effets est celui qui contient l'effet principal Largeur et l'interaction d'ordre deux entre Couleur et Épine.

Attardons-nous un instant sur le modèle le plus simple, c'est-à-dire, celui qui ne comporte que la variable Largeur. Cliquez sur le bouton Modifier pour retourner dans la boîte de dialogue GLZ (Spécifications Rapides) - Modèles linéaires généraux. Puis, dans l'onglet Base cliquez sur le bouton Variable et sélectionnez la variable Largeur comme seul prédicteur continu (supprimez les facteurs catégoriels Couleur et Épine, et l'autre prédicteur continu Poids) ; ensuite cliquez sur le bouton OK. Désélectionnez aussi le bouton d'option Recherche exhaustive en sélectionnant le bouton d'option Tous effets dans l'onglet Avancé. Cliquez sur le bouton OK pour afficher la boîte de dialogue GLZ -- Résultats.

Paramètres Estimés. Cliquez sur le bouton Estimation dans l'onglet Synthèse. Comme nous pouvions nous y attendre sur la base de notre précédente analyse, le paramètre estimé du prédicteur continu Largeur est statistiquement significatif.

En examinant le signe des paramètres estimés, nous pouvons en déduire qu'un crabe femelle relativement gros (la variable Largeur mesure la largeur de la carapace en centimètres) a une probabilité plus faible d'avoir plus d'un crabe satellite (la variable Y indique si le crabe respectif a plus d'un satellite supplémentaire -- tous les crabes possédant au moins un crabe satellite mâle).

Qualité d'Ajustement. Cliquez sur le bouton Qualité d'ajust. dans le cadre Échantillon pour tester l'adéquation globale du modèle.

Les ratios entre diverses statistiques (écarts, écarts normés, Chi2 de Pearson, Chi2 de Pearson normé) et les degrés de liberté respectifs sont proche de 1,0 dans tous les cas. Ainsi, la sur-dispersion n'est pas flagrante. La valeur du paramètre estimée pour la variable Largeur semble donc normée convenablement.

Faible Densité et Agrégation. La variable dépendante (réponse) dans cet exemple est une variable indicatrice binaire avec les valeurs 0 et 1. Ce format de données peut mener à une matrice de réponse "clairsemée", en particulier si aucune variable d'effectif n'est utilisée. Pour une présentation des problèmes causés par la faible densité, consultez McCullagh et Nelder (1989). Dans ce cas, les statistiques du Chi² de Pearson ou des écarts peuvent ne pas avoir les propriétés nécessaires pour évaluer de façon adéquate la qualité d'ajustement du modèle (McCullagh et Nelder, 1989, p. 120). Pour remédier à ce problème, vous pouvez utiliser l'option Agrégation de l'onglet Synthèse pour générer (en interne) de nouvelles données pour lesquelles chaque ligne de la matrice du modèle est unique, de sorte que chaque ligne représente une sous-population de données. Vous pouvez utiliser le bouton Données agrég. pour afficher une feuille de données avec ces données agrégées.

Si vous cliquez à nouveau sur le bouton Qualité d'ajust. après avoir coché l'option Agrégation, vous pourrez constater que les valeurs reportées sont différentes. Ainsi, toutes les statistiques d'observations comportant des résidus bruts, des valeurs prévues et observées seront calculées sur la base des données agrégées si vous cochez l'option Agrégation. Cette option permet d'agréger les données en seulement 66 observations différentes. Par exemple, sélectionnez le tracé des résidus en fonction des numéros d'observations (cliquez sur le bouton Rés. & n° d'obs. dans l'onglet Résidus1). Vous remarquerez que ce tracé ne comporte que 66 observations.




Modèle Linéaire Ordinal Multinomial avec Liaison Probit

Cet exemple est basé sur le fichier de données Ideol.sta (voir Agresti, 1996, p. 214). Ouvrez ce fichier de données à l'aide de la commande Ouvrir des Exemples du menu Fichier ; ce fichier se situe dans le répertoire Fichiers de Données. Les données proviennent d'une étude sociologique menée en 1991, qui décrit la relation entre l'idéologie politique des personnes interrogées et leur appartenance à un parti politique. L'idéologie politique est mesurée sur une échelle de cinq réponses allant de 1-Très libéral à 5-Très conservateur. Plus précisément, le fichier de données contient les variables suivantes :

Parti : Parti d'adhésion de la personne interrogée, Démocrate ou Républicain

Idéologie : Idéologie des personnes interrogées (variable dépendante (réponse) sur une échelle ordinale en 5 catégories)

Effectifs : Nombre de personnes interrogées dans la cellule respective de la table (c'est-à-dire, combinaison de Parti et Idéologie)

Comme l'Idéologie politique est mesurée sur une échelle ordinale (5-points), nous devons ajuster un modèle ordinal multinomial avec une liaison probit. Dans le modèle Ordinal Multinomial, nous supposons l'existence de pentes communes pour les prédicteurs, mais différents termes d'ordonnée à l'origine. Voir McCullagh et Nelder (1989), Hosmer et Lemeshow (1989), et Agresti (1996) pour une présentation approfondie du modèle linéaire ordinal multinomial.

Spécification du Modèle. Pour spécifier ce modèle, sélectionnez la commande Modèle Linéaire/Non-Linéaire Généralisé à partir du menu Statistiques - Modèles Linéaires/Non-Linéaires Avancés pour afficher la boîte de dialogue Modèles Linéaires/Non-Linéaires Généralisés (Panneau de Démarrage). Cliquez sur l'onglet Avancé et sélectionnez l'option ANOVA à un facteur comme Type d'analyse, l'option Spécifications rapides comme Méthode de spécification, l'option Ordinale multinomiale comme Distribution et l'option Probit comme Fonctions de liaison. Cliquez ensuite sur le bouton OK pour ouvrir la boîte de dialogue GLZ (Spécifications Rapides) - ANOVA à un facteur. Dans l'onglet Base, cliquez sur le bouton Variables pour afficher la boîte de dialogue standard de sélection de variables. Là, sélectionnez Idéologie comme variable dépendante (réponse), Parti comme Prédicteur catégoriel, Effectifs comme Variable d'effectifs, et cliquez sur le bouton OK. Nous pouvons conserver toutes les autres spécifications par défaut, et cliquer sur le bouton OK pour faire apparaître la boîte de dialogue GLZ -- Résultats.

Si vous souhaitez exécuter cet exemple en utilisant la Syntaxe GLZ, vous pouvez utiliser la syntaxe suivante dans la boîte de dialogue GLZ - Éditeur de Syntaxe (voir la rubrique Méthodes de Spécification des Plans).

GLZ;

Paramètres Estimés. Cliquez sur le bouton Estimation de GLZ - Résultats - onglet Synthèse pour étudier les paramètres estimés.

Cliquez ensuite sur le bouton Intervalles Conf. pour faire apparaître la feuille de donnée avec les intervalles de confiance des paramètres estimés.

En examinant les intervalles de confiance des paramètres estimés, et la manière dont ils se chevauchent, vous pouvez déterminer les paramètres qui sont significativement différents les uns des autres.

Qualité d'Ajustement. Examinons maintenant les statistiques de qualité d'ajustement complet. Dans le modèle linéaire ordinal multinomial, vous devez préalablement agréger les données en cochant l'option Agrégation ; si ce n'est pas le cas, la feuille de données peut donner des résultats imprécis (voir McCullagh et Nelder, 1989, p. 120). Donc cochez l'option d'Agrégation, et cliquez sur le bouton Qualité d'ajust.

Dans cet exemple, les valeurs des rapports entre les statistiques et les degrés de liberté sont largement supérieurs à un. C'est la preuve d'une sur-dispersion (voir McCullagh et Nelder, 1989, p. 124-128, p. 174). Pour corriger ce problème, vous pouvez cocher l'option Sur-dispersion et le bouton d'option Chi² de Pearson ou le bouton d'option Écart  pour estimer le paramètre de dispersion (c'est-à-dire, pour spécifier un autre paramètre d'échelle que 1,0). En modifiant le paramètre de sur-dispersion, vous affectez le calcul (les valeurs) de la variance et de la covariance du paramètre et du modèle de vraisemblance, ainsi que de toutes les autres statistiques qui en découlent (par exemple, les erreurs-types, les erreurs de prévision, etc... ; pour plus d'informations, reportez-vous à McCullagh et Nelder, 1989).




Modèle Linéaire Multinomial avec Liaison Logit Généralisée

Cet exemple est basé sur le fichier d'exemple Gator.sta (voir Agresti, 1996, p. 214). Ouvrez ce fichier de données à l'aide de la commande Ouvrir des Exemples du menu Fichier ; ce fichier se situe dans le répertoire Fichiers de Données. Les données proviennent d'une étude de l'organisation Florida Game and Fresh Water Fish Commission portant sur les facteurs qui influencent les habitudes alimentaires primaires des alligators. Cinquante neuf alligators ont été échantillonnés ; nous avons mesuré leur longueur et déterminé leur alimentation primaire. Le fichier de données Gator.sta contient les variables suivantes :

Longueur : Longueur de l'alligator (en mètres)

Alimentation : Alimentation primaire (variable dépendante (réponse) avec 3 catégories: Invertébrés, Poisson, Autre)

Nous ajusterons un modèle linéaire multinomial avec une liaison généralisée logit ; la variable Longueur est traitée comme un prédicteur continu.

Spécification du Modèle. Pour spécifier ce modèle, sélectionnez la commande Modèle Linéaire/Non-Linéaire Généralisé dans le menu Statistiques - Modèles Linéaires/Non-Linéaires Avancés afin d'accéder à la boîte de dialogue Modèles Linéaires/Non-Linéaires Généralisés (Panneau de Démarrage). Cliquez sur l'onglet Avancé et sélectionnez l'option Régression simple comme Type d'analyse, l'option Spécifications rapides comme Méthode de spécification, l'option Multinomiale comme Distribution et l'option Logit comme Fonction de liaison. Ensuite cliquez sur le bouton OK pour ouvrir la boîte de dialogue GLZ (Spécifications Rapides) - Régression Simple. Dans cette boîte de dialogue, cliquez sur le bouton Variables pour faire apparaître la boîte de dialogue standard de sélection de variables. Sélectionnez la variable Alimentation comme Variable dépendante (réponse), la variable Longueur comme Prédicteurs continus, puis cliquez sur le bouton OK. Nous pouvons conserver les autres spécifications par défaut, et cliquer sur OK pour accéder à la boîte de dialogue GLZ -- Résultats.

Si vous souhaitez exécuter cet exemple en utilisant la Syntaxe GLZ, vous pouvez utiliser la syntaxe suivante dans la boîte de dialogue GLZ - Éditeur de Syntaxe (voir la rubrique Méthodes de Spécification des Plans).

GLZ;

Paramètres Estimés. Cliquez sur le bouton Estimation dans la boîte de dialogue GLZ -- Résultats - onglet Synthèse pour étudier les paramètres estimés.

Seuls les paramètres estimés de la catégorie Invertébrés sont significatifs. Puisque dans un modèle multinomial, la dernière catégorie est toujours la catégorie de référence (c'est-à-dire que les paramètres font référence aux différences entre la catégorie courante et la dernière catégorie spécifiée dans la variable de réponse catégorielle), la différence entre le type d'alimentation Invertébrés et le type d'alimentation Autre peut s'expliquer par la Longueur, mais la différence entre le type d'alimentation Poisson et le type d'alimentation Autre ne peut pas s'expliquer par la Longueur.

Cliquez maintenant sur le bouton Qualité d'ajust.

Le modèle ajuste correctement les données, et il n'existe aucune preuve évidente de sur-dispersion puisque les ratios entre les statistiques et les degrés de liberté sont tous proches de 1,0 (voir aussi McCullagh et Nelder, 1989).

Vérification du Modèle avec les Statistiques Observées. STATISTICA GLZ calcule les statistiques des valeurs prévues et des résidus pour chacune des k-1 combinaisons linéaires des prédicteurs du modèle multinomial à k catégories. Cliquez sur l'onglet Résidus1, puis sur le bouton Résidus de base pour afficher les résidus bruts, les résidus de Pearson et les résidus des écarts pour chaque observation, et pour chacune des k-1 catégories (k catégories moins la catégorie de référence).

Vous pouvez représenter les valeurs du Chi² de Pearson (contributions au Chi²) de chaque observation en fonction des valeurs prévues pour chaque catégorie (moins celle de référence). Pour produire ce tracé, cliquez sur l'onglet Résidus2, puis sur le bouton Prév. & Diff. X2 (Chi²). Ci-dessous, le tracé pour la catégorie des Invertébrés.

Dans cet exemple, le point numéro 48 (vous pouvez utiliser les outils d'Habillage pour étiqueter le point aberrant situé dans la partie droite du graphique) possède une valeur du Chi² importante, et ainsi contribue le plus au manque d'ajustement du modèle. L'exclusion de ce point produira des résultats différents. Pour ce faire, exécutez le programme en mode projets multiples : il vous suffit de revenir au fichier de données et de supprimer la 48ème observation et de relancer l'analyse.




Distribution Tweedie avec Liaison Log

Ouvrez le fichier de données CarInsurance.sta : dans le menu Fichier, sélectionnez la commande Ouvrir des Exemples (menus classiques), ou dans le groupe Fichier de l'onglet Accueil, sélectionnez la commande Ouvrir des Exemples dans le menu Ouvrir (ruban) ; le fichier de données est situé dans le dossier Fichiers de données. Les données représentent des indemnisations suite à des sinistres automobiles.

Spécification de la Distribution et de la Fonction de Liaison. Pour spécifier ce modèle :

Menus classiques : Dans le menu Statistiques - Modèles Linéaires/Non-Linéaires Avancés, sélectionnez la commande Modèles Linéaires/Non-Linéaires Généralisés.

Ruban : Dans le groupe Modèles Avancés/Techniques Multivariées de l'onglet Statistiques, cliquez sur le menu Modèles Avancés et sélectionnez la commande Modèles Linéaires/Non-Linéaires Généralisés.

La boîte de dialogue Modèles Linéaires/Non-Linéaires Généralisés (Panneau de Démarrage) apparaît.

Cliquez sur l'onglet Avancé. Dans le cadre Distribution, sélectionnez la distribution Tweedie, puis dans le cadre Fonctions de Liaison, sélectionnez la fonction Log. Dans cette boîte de dialogue, vous pouvez spécifier le paramètres d'indice (option Param. indice) de la distribution Tweedie. Ce paramètre doit être compris entre 1 et 2, et il permet de spécifier la fonction de variance, V(µ) = µParamètre d'indice de la distribution Tweedie. Pour cet exemple, spécifiez 1,15 comme paramètre d'indice.

Spécification du Modèle. Cliquez sur le bouton OK dans la boîte de dialogue Modèles Linéaires/Non-Linéaires Généralisés (Panneau de Démarrage) afin d'accéder à la boîte de dialogue GLZ - Modèle Général Personnalisé.

Cliquez sur le bouton Variables afin d'accéder à la boîte de dialogue de sélection des variables. Sélectionnez la variable Montant du Sinistre comme variable Dépendantes et les variables Âge du Conducteur, Catégorie de Véhicule et Âge du Véhicule comme Facteurs catégoriels, puis cliquez sur le bouton OK.

Nous nous intéressons seulement aux effets principaux dans ce modèle.  Par conséquent, dans l'onglet Base, cliquons sur le bouton Effets inter afin d'accéder à la boîte de dialogue GLM - Effets Inter. Sélectionnez le bouton d'option Effets personnalisés pour le modèle inter. Sélectionnez ensuite l'ensemble des variables dans le groupe Catégorielles, et cliquez sur le bouton Ajouter.

Cliquez sur le bouton OK dans cette boîte de dialogue, puis sur le bouton OK dans la boîte de dialogue GLZ - Modèle général personnalisé afin d'accéder à la boîte de dialogue GLZ - Résultats.

Estimation des Paramètres. Dans la boîte de dialogue GLZ Résultats - onglet Synthèse, cliquez sur le bouton Estimations afin de visualiser l'estimation des paramètres du modèle.

Test RV Type 3. Afin de déterminer le degré de significativité des effets, cliquez sur le bouton Test RV Type 3. Il s'agit d'un test mesurant la variation de la log-vraisemblance, imputable à l'effet respectif (actuel), tous les autres effets demeurant inchangés. Pour une valeur p < 0,01, les effets Âge du Véhicule et Catégorie de Véhicule sont significatifs.

 

Qualité d'Ajustement. L'étape suivante consiste à vérifier si, globalement, notre modèle permet d'ajuster convenablement nos données. Cliquez sur le bouton Qualité d'ajust., dans le groupe Échantillon, afin de produire la feuille de données Stats de qualité d'ajustement. Si vous comparez l'Écart Normé à son chi-deux asymptotique à 114 degrés de liberté, la valeur p est de 0,88. Ceci indique que l'ajustement du modèle est bon.

Valeurs Observées vs. Prévues. Sélectionnez à présent l'onglet Résidus 1, et dans le groupe Tracé des valeurs prévues et résidus, cliquez sur le bouton Obs. & prév. (Z) afin de visualiser dans quelle mesure le modèle ajuste nos données. Le graphique confirme que le modèle ajuste relativement bien les données ; toutefois, il met également en évidence trois points atypiques avec des valeurs très importantes.

Didacticiels

Vous pouvez visionner l'intégralité de la série de tutoriels Le Data Mining en 35 Leçons avec STATISTICA en remplissant le formulaire d'inscription. Vous serez alors notifié(e) automatiquement de la disponibilité des nouveaux épisodes et recevrez d'autres informations utiles.

StatSoft propose par ailleurs une série de didacticiels et présentations interactives décrivant pas-à-pas différentes opérations que vous pouvez réaliser à l'aide de STATISTICA. Si vous souhaitez voir aborder un thème particulier, merci de nous écrire.