Partager :

Concepts Fondamentaux en Statistique


Modèles Linéaires/Non-Linéaires Avancés :

Modèles Généraux de Régression (GRM)



Sommaire :


Introduction

Les Modèles Généraux de Régression sont ainsi appelés parce qu'ils utilisent les méthodes du modèle linéaire général, ce qui leur permet de construire des modèles de plans intégrant des effets avec plusieurs degrés de liberté pour des prédicteurs catégoriels, ainsi que des plans avec des effets avec un seul degré de liberté pour les prédicteurs continus. Le module GRM intègre les techniques de construction de modèle pas-à-pas et de recherche exhaustive pour l'Analyse de Variance (ANOVA), la régression, et l'Analyse de Covariance (ANCOVA). GRM utilise les méthodes des moindres carrés du modèle linéaire général pour construire les modèles et pour estimer et tester les hypothèses sur les effets inclus dans le modèle final.

Le module Modèle Linéaire Général peut analyser des plans avec un grand nombre et tout type d'effets. STATISTICA GRM offre la plupart des options d'analyse de GLM, et propose en plus des méthodes de construction de modèle afin de détecter le "meilleur" modèle parmi un ensemble de modèles possibles. GRM est un "programme dérivé" de GLM en ce sens qu'il y a de nombreux points communs entre les programmes, mais aussi de nombreuses fonctionnalités spécifiques à chaque programme. Pour les méthodes correspondantes, voir également la rubrique Méthodes d'Analyse de Variance.

Les rubriques d'introduction ci-dessous décrivent l'utilisation du modèle linéaire général dans la recherche du "meilleur" modèle linéaire parmi un ensemble de modèles possibles. Si vous n'êtes pas familiarisé(e) avec les méthodes élémentaires de régression dans les modèles linéaires, nous vous recommandons la lecture de la section traitant des concepts statistiques élémentaires. Les techniques ANOVA univariées et multivariées sont décrites dans l'Introduction du module ANOVA/MANOVA; vous trouverez dans l'Introduction du module Régression Multiple une présentation des méthodes de régression multiple. Vous trouverez dans l'Introduction du module GLM une présentation de la manière dont le modèle de régression linéaire peut être étendu au Modèle Linéaire Général.

Principes Fondamentaux : Le Besoin de Modèles Simples

Une bonne modélisation est souvent le résultat final d'un processus "d'arbitrage". Nous commençons avec un modèle complet incluant toutes les influences concevables et vérifiables sur un phénomène à étudier. Ensuite nous testons les différentes composantes du modèle complet initial, pour identifier des sous-modèles moins complexes expliquant au mieux le phénomène à étudier. Enfin, nous choisissons parmi ces sous-modèles candidats, le sous-modèle le plus simple, qui, tout en restant parcimonieux, nous donne la "meilleure" explication du phénomène à étudier.

Nous ne préférons pas les modèles simples uniquement pour des raisons philosophiques mais également pour des raisons pratiques. Les modèles simples sont plus faciles à mettre en œuvre avec les tests de réplication et de validation croisée. Les modèles simples sont également moins coûteux à mettre en pratique pour prévoir et contrôler les résultats futurs. L'aspect philosophique du choix des modèles simples ne doit pas cependant être minimisé. Les modèles les plus simples sont plus faciles à comprendre et appréhender, et sont par conséquent plus "séduisants" que des modèles plus complexes.

L'arbitrage réalisé ci-dessus est généralisé dans les techniques de construction de modèle de régression pas-à-pas et de recherche exhaustive. La première étape dans l'application de ces techniques de construction de modèle consiste à spécifier un "modèle complet". Les sous-modèles (sous-ensemble de variables) sont ensuite testés pour déterminer s'ils expliquent correctement les résultats de l'étude. Enfin, le plus simple des modèles acceptables est sélectionné comme étant le "meilleur".

C'est dans cette optique que le module GRM a été conçu. Par exemple, en utilisant les boîtes de dialogue Spécifications Rapides, le "modèle complet" pour la plupart des analyses peut être spécifié simplement en sélectionnant les variables de l'analyse. Mais la richesse n'a pas été sacrifiée au profit de la simplicité. En utilisant les méthodes du modèle linéaire général, GRM intègre la régression pas-à-pas et la recherche exhaustive de modèles non seulement pour la régression multiple standard, mais pour tout type d'Analyse de Variance (ANOVA) avec des prédicteurs catégoriels, toute Analyse de Covariance (ANCOVA) avec des prédicteurs catégoriels et continus, et tout modèle de régression, incluant des modèles avec des puissances et des produits de prédicteurs continus. En résumé, GRM utilise une approche simple mais innovante et complète dans l'intégration des techniques de construction de modèles en utilisant le modèle linéaire général.

Construction de Modèle dans les Modèles Généraux de Régression

Contrairement à la régression multiple, utilisée pour analyser des modèles avec des prédicteurs continus, le modèle linéaire général peut être utilisé pour analyser toute ANOVA avec des prédicteurs catégoriels, toute ANCOVA avec des prédicteurs catégoriels et continus ou toute régression avec des prédicteurs continus. Les effets des prédicteurs catégoriels peuvent être codés dans la matrice du modèle X en utilisant le modèle sur-paramétré ou sigma-restreint.

Seul le paramétrage sigma-restreint peut être utilisé dans la construction du modèle. Comme l'indique le terme "général", le modèle linéaire général peut être utilisé pour analyser des modèles avec des effets de prédicteurs catégoriels codés en utilisant l'une ou l'autre des méthodes de paramétrage. Dans de nombreux cas d'utilisation du modèle linéaire général, il est arbitraire de coder les prédicteurs catégoriels en utilisant soit le codage sigma-restreint soit sur-paramétré. Pour construire des modèles, l'utilisation du modèle sur-paramétré est toutefois peu satisfaisante ; les effets d'ordre inférieur pour les prédicteurs catégoriels sont redondants avec les effets d'ordre supérieur contenant des interactions, et par conséquent ne peuvent pas être correctement évaluées pour leur inclusion dans le modèle quand des effets d'ordre supérieur contenant des interactions sont déjà dans le modèle.

Ce problème ne survient pas quand les prédicteurs catégoriels sont codés en utilisant le paramétrage sigma-restreint, c'est pourquoi seul le paramétrage sigma-restreint est disponible dans GRM.

Plans ne pouvant pas être représentés en utilisant le paramétrage sigma-restreint. Le paramétrage sigma-restreint peut être utilisé pour représenter quasiment tous les types de modèles. Plus précisément, les modèles ne pouvant pas être représentés en utilisant le paramétrage sigma-restreint sont des plans avec des effets imbriqués, tels que l'ANOVA imbriquée, les modèles de pentes séparées, et les modèles mixtes avec des effets aléatoires. Tout autre type d'ANOVA, ANCOVA ou de régression peut être représenté en utilisant le paramétrage sigma-restreint, et peut par conséquent être analysé dans GRM.

Construction du modèle pour les plans avec plusieurs variables dépendantes. Les techniques de construction de modèle pas-à-pas et recherche exhaustive sont bien adaptées pour la régression avec une seule variable dépendante (par exemple, voir Cooley et Lohnes, 1971 ; Darlington, 1990  ; Hocking Lindeman, Merenda, et Gold, 1980 ; Morrison, 1967 ; Neter, Wasserman, et Kutner, 1985 ; Pedhazur, 1973 ; Stevens, 1986 ; Younger, 1985). En utilisant le paramétrage sigma-restreint et les méthodes du modèle linéaire général, ces techniques de construction du modèle peuvent s'appliquer à quasiment tous les modèles ANOVA avec des prédicteurs catégoriels, ANCOVA avec des prédicteurs catégoriels et continus, ainsi qu'à toutes les régressions avec des prédicteurs continus. La construction de modèle intégrant plusieurs variables dépendantes, implique cependant une certaine problématique qui n'est pas forcément résolue par le modèle linéaire général. Les techniques de construction de modèle pour les plans avec plusieurs variables dépendantes sont disponibles dans le module Modélisation d'Équations Structurelles.

Comparaison avec d'Autres Programmes de Régression

STATISTICA GRM offre une application inédite et très souple du modèle linéaire général. Plus précisément, le module GRM vous permet de construire des modèles très complexes, incluant des modèles avec des prédicteurs catégoriels. Ainsi, le terme "général" Modèles Généraux de Régression fait référence à la fois à l'utilisation du modèle linéaire général, et au fait que contrairement à la plupart des autres programmes de régression, GRM n'est pas limité à l'analyse de modèles ne contenant que des prédicteurs continus.

GRM est un programme "dérivé" du module STATISTICA Modèle Linéaire Général plus complet. Les deux modules proposent des méthodes similaires pour spécifier les analyses et produire des résultats, et l'utilisation des deux modules est très proche. A l'exception des options relatives au modèle sur-paramétréet à l'analyse des plans incomplets, toutes les caractéristiques innovantes de GLM sont également disponibles dans GRM. Les rubriques suivantes ne mettent en évidence qu'une partie des spécificités des modules GLM et GRM, que l'on ne rencontre habituellement pas dans d'autres applications (moins complètes) du modèle linéaire général.





Régression Pas-à-Pas

Spécification de l'Analyse. Cet exemple illustre la construction de modèle dans GRM en utilisant la régression pas-à-pas descendante. Les données de cet exemple sont contenues dans le fichier de données Tomatoes.sta. Ouvrez ce fichier de données à l'aide de la commande Ouvrir des Exemples du menu Fichier ; ce fichier se situe dans le répertoire Fichiers de Données. Le plan est un plan factoriel fractionnaire mixte d'ordre 5 avec des prédicteurs catégoriels à 2 et 3 niveaux. Tous les effets principaux et interactions d'ordre 2 sont estimables dans ce plan (consultez la rubrique Exemple Avancé : Somme des Carrés de Type V du module GLM). Vous trouverez une description des variables de ce fichier dans l'exemple Générer et Analyser un Plan 23, 32 du module Plans d'Expériences, référez-vous également à la rubrique Plans Mixtes à 2 et 3 Niveaux pour des détails supplémentaires concernant ces types de plans.

Pour spécifier ce modèle, sélectionnez la commande Modèles Généraux de Régression du menu Statistiques - Modèles Linéaires/Non-Linéaires Avancés pour afficher la boîte de dialogue Modèles Généraux de Régression (Panneau de Démarrage). Sélectionnez l'option ANOVA Factorielle comme Type d'analyse et l'option Spécifications rapides comme Méthode de spécification. Ensuite, cliquez sur le bouton OK pour ouvrir la boîte de dialogue GRM (Spécifications Rapides) - ANOVA Factorielle. Dans l'onglet Base, cliquez sur le bouton Variables pour afficher la boîte de dialogue standard de sélection de variable. Là, sélectionnez Poids comme Liste de variables dépendantes, Sol, Taille_Pot, Variété, Méthode_Prod et Emplacement comme Prédicteurs catégoriels (facteurs), puis cliquez sur le bouton OK.

Pour cet exemple, nous allons forcer les effets principaux dans le modèle et limiter la recherche au meilleur sous-modèle en incluant d'autres interactions d'ordre deux, si ces interactions permettent d'obtenir un meilleur sous-modèle. Spécifiez un modèle factoriel de degré 2 de telle sorte que le modèle complet comprenne tous les effets principaux et les interactions d'ordre 2. Pour cela, cliquez sur le bouton Effets inter pour afficher la boîte de dialogue GLM - Effets Inter. Sélectionnez le bouton d'option Modèle factoriel du degré spécifié, saisissez 2 dans le champ d'édition degré, et cliquez sur le bouton OK.

À présent, cliquez sur l'onglet Options et sélectionnez le bouton d'option Pas-à-pas descendante dans le cadre Construction du modèle. Saisissez 5 effets à forcer dans le modèle (c'est-à-dire les 5 effets principaux) dans le champ d'édition Effets à forcer, spécifiez 0,10 comme valeur p critique pour l'inclusion dans le modèle (champ d'édition p1, inclusion), et 0,10 comme valeur p critique pour exclusion du modèle (champ d'éditionp2, exclusion). Le reste des spécifications pour cette analyse peut être laissé aux spécifications par défaut. Par conséquent, cliquez sur le bouton OK pour afficher la boîte de dialogue GRM - Résultats.

Si vous souhaitez procéder à cet exemple en utilisant la Syntaxe GRM, vous pouvez exécuter la syntaxe de programme suivante dans la boîte de dialogue GRM - Éditeur de Syntaxe (Consultez la rubrique Méthodes de spécification des plans).

La syntaxe du programme pour cette analyse est :

GRM;

Étude des Résultats. Dans la boîte de dialogue GRM - Résultats - onglet Base, cliquez sur le bouton Synthèse de la régression pas-à-pas dans le cadre Résultats de la construction du modèle. Vous trouverez ci-dessous, la feuille de données (en partie) reportant les résultats à chaque étape dans la recherche pas-à-pas descendante.

Cliquez sur le bouton Résultats univariés dans l'onglet Synthèse pour étudier la feuille de données Résultats univariés de chaque VD, qui reporte la table ANOVA de synthèse pour le modèle final.

Il apparaît que seules 4 des interactions d'ordre 2 améliorent la prédiction des sorties par rapport au modèle ne comportant que les effets principaux.




Régression par Recherche Exhaustive

Spécification de l'Analyse. Cet exemple illustre la construction de modèle dans GRM en utilisant la régression par recherche exhaustive. Les données de cet exemple sont les mêmes que celles de l'Exemple 1, disponibles dans le fichier de données Tomatoes.sta. Ouvrez ce fichier de données à l'aide de la commande Ouvrir des Exemples du menu Fichier ; ce fichier se situe dans le répertoire Fichiers de Données. Le plan est un plan factoriel fractionnaire mixte d'ordre 5 avec des prédicteurs catégoriels à 2 et 3 niveaux. Tous les effets principaux et interactions d'ordre 2 sont estimables dans ce plan (consultez la rubrique Exemple Avancé : Somme des Carrés de Type V du module GLM). Vous trouverez une description des variables de ce fichier dans l'exemple Générer et Analyser un Plan 23, 32 du module Plans d'Expériences, référez-vous également à la rubrique Plans Mixtes à 2 et 3 Niveaux pour des détails supplémentaires concernant ces types de plans.

Pour spécifier ce modèle, sélectionnez la commande Modèles Généraux de Régression du menu Statistiques - Modèles Linéaires/Non-Linéaires Avancés pour afficher la boîte de dialogue Modèles Généraux de Régression (Panneau de Démarrage). Sélectionnez l'option ANOVA Factorielle comme Type d'analyse et l'option Spécifications rapides comme Méthode de spécification. Ensuite, cliquez sur le bouton OK pour ouvrir la boîte de dialogue GRM (Spécifications Rapides) - ANOVA Factorielle. Dans l'onglet Base, cliquez sur le bouton Variables pour afficher la boîte de dialogue standard de sélection de variable. Là, sélectionnez Poids comme Liste de variables dépendantes, Sol, Taille_Pot, Variété, Méthode_Prod et Emplacement comme Prédicteurs catégoriels (facteurs), puis cliquez sur le bouton OK.

Pour cet exemple, nous allons forcer les effets principaux dans le modèle et limiter la recherche au meilleur sous-modèle comportant des interactions d'ordre deux supplémentaires, si ces interactions permettent d'obtenir un meilleur sous-modèle. Spécifiez un modèle factoriel de degré 2 de telle sorte que le modèle complet comprenne tous les effets principaux et les interactions d'ordre 2. Pour cela, cliquez sur le bouton Effets inter pour afficher la boîte de dialogue GLM - Effets Inter. Sélectionnez le bouton d'option Modèle factoriel du degré spécifié, saisissez 2 dans le champ d'édition degré, et cliquez sur le bouton OK.

À présent, cliquez sur l'onglet Options et sélectionnez le bouton d'option Recherche exhaustive dans le cadre Construction du modèle. Saisissez 5 effets à forcer dans le modèle (c'est-à-dire les 5 effets principaux) dans le champ d'édition Effets à forcer. Spécifiez la taille du sous-modèle à rechercher sur tous les sous-modèles : commencez avec les sous-modèles de 6 effets (saisissez 6 dans le champ d'édition Dép.) et stoppez avec les sous-modèles de 10 effets (saisissez 10 dans le champ d'édition Stop). Enfin, nous allons utiliser l'option par défaut R deux comme critère de recherche exhaustive, et laisser les autres spécifications par défaut pour l'analyse ; donc, cliquez sur le bouton OK pour afficher la boîte de dialogue GRM - Résultats.

Si vous souhaitez procéder à cet exemple en utilisant la Syntaxe GRM, vous pouvez exécuter la syntaxe de programme suivante dans la boîte de dialogue GRM - Éditeur de Syntaxe (Consultez la rubrique Méthodes de spécification des plans).

La syntaxe du programme pour cette analyse est :

GRM;

Étude des Résultats. Dans la boîte de dialogue GRM - Résultats - onglet Base, cliquez sur le bouton Synthèse régression par rech. exhaustive dans le cadre Résultats de la construction du modèle. Vous trouverez ci-dessous, la feuille de données (en partie) Synthèse de recherche exhaustive, reportant les R deux et les coefficients de régression centrés-réduits pour chacun des (10 par défaut) meilleurs sous-modèles selon chaque taille de sous-ensemble.

En utilisant l'option par défaut R deux comme critère du meilleur sous-ensemble, le meilleur sous-ensemble sera toujours issu des sous-modèles correspondant à la taille maximale de l'intervalle de recherche. Dans cet exemple, il y a 10 effets dans le "meilleur" sous-ensemble, mais notez que dans la table ANOVA du modèle final, l'interaction Variété*Méthodeprd d'ordre 2 est loin d'être significative, avec p > 0,25. (Cliquez sur le bouton Tous les effets pour étudier la feuille de données Tests univariés de Significativité de Poids.)

Si vous modifiez cette analyse en spécifiant le Cp de Mallow comme critère de recherche du meilleur sous-ensemble dans l'onglet Options de la boîte de dialogue GRM (Spécifications Rapides) - ANOVA Factorielle, vous allez trouver que le meilleur sous-ensemble identifié dans cette analyse aura le même ensemble de neuf effets (tous avec des p < 0,10) que celui obtenu par la régression pas-à-pas de l'Exemple 1. Ce sous-ensemble de 9 effets est le sous-ensemble numéro 8 de la feuille de données Synthèse recherche exhaustive illustrée ci-dessus.

Didacticiels

Vous pouvez visionner l'intégralité de la série de tutoriels Le Data Mining en 35 Leçons avec STATISTICA en remplissant le formulaire d'inscription. Vous serez alors notifié(e) automatiquement de la disponibilité des nouveaux épisodes et recevrez d'autres informations utiles.

StatSoft propose par ailleurs une série de didacticiels et présentations interactives décrivant pas-à-pas différentes opérations que vous pouvez réaliser à l'aide de STATISTICA. Si vous souhaitez voir aborder un thème particulier, merci de nous écrire.