Partager :

Concepts Fondamentaux en Statistique


Data Mining :

Modèles Additifs Généralisés



Sommaire :


Introduction

Les méthodes disponibles dans le module STATISTICA Modèles Additifs Généralisés sont issues des techniques développées et vulgarisées par Hastie et Tibshirani (1990). Vous trouverez une description complète de ces techniques et des techniques associées, des algorithmes utilisés pour ajuster ces modèles, ainsi qu'une présentation des apports et des débats les plus récents dans ce domaine de la modélisation statistique dans l'ouvrage de Schimek (2000).

Modèles additifs. Les méthodes décrites dans cette section, et qui sont intégrées dans le module STATISTICA Modèles Additifs Généralisés, constituent une généralisation de la régression multiple (qui elle-même est un cas particulier du modèle linéaire général). Plus précisément, en régression linéaire, nous calculons un ajustement linéaire par les moindres carrés pour un ensemble de variables X appelés prédicteurs, afin de prévoir une variable dépendante Y. L'équation d'une régression linéaire avec m prédicteurs, permettant de prévoir une variable dépendante Y, peut être formulée de la manière suivante :

Y = b0 + b1*X1 + ... + bm*Xm

Y représente (les valeurs prévues de) la variable dépendante, X1 à Xm représentent les m valeurs des variables prédictives, et où b0 et b1 à bm représentent les coefficients de régression estimés par la régression multiple. Une généralisation du modèle de régression multiple consiste à préserver la nature additive du modèle, mais en remplaçant les termes élémentaires de l'équation linéaire bi*Xi par des fonctions fi(Xi) où fi représente une fonction non-paramétrique des prédicteurs Xi.  En d'autres termes, au lieu d'un simple coefficient pour chaque variable (terme additif) du modèle, nous estimons une fonction non-spécifiée (non-paramétrique) pour chaque prédicteur dans les modèles additifs, afin d'obtenir une meilleure prévision des valeurs de la variable dépendante.

Modèles linéaires généralisés. Pour résumer l'idée de base, le modèle linéaire généralisé diffère du modèle linéaire général (dont la régression multiple est un cas particulier) sur deux aspects majeurs : Tout d'abord, la distribution de la variable dépendante ou de réponse peut être (explicitement) non-normale, et il n'est pas nécessaire qu'elle soit continue ; par exemple, elle peut être binomiale ; ensuite, les valeurs de la variable dépendante sont prévues à partir d'une combinaison linéaire des variables prédictives, qui sont "liées" à la variable dépendante par une fonction de liaison. Le modèle linéaire général d'une seule variable dépendante peut être considéré comme un cas particulier du modèle linéaire généralisé : dans le modèle linéaire général, les valeurs de la variable dépendante sont censées suivre la distribution normale, et la fonction de liaison est une simple fonction identité (c'est-à-dire que la combinaison linéaire des valeurs des variables prédictives n'est pas transformée).  

Pour illustrer, dans le modèle linéaire général, une variable de réponse Y est associée de façon linéaire aux valeurs des variables X alors que la relation dans le modèle linéaire généralisé s'exprime de la manière suivante :

Y = g(b0 + b1*X1 + ... + bm*Xm)

g(…) représente une fonction. En fait, la fonction inverse de g(…), que nous pouvons appeler gi(…), représente la fonction de liaison, de sorte que :

gi(muY) = b0 + b1*X1 + ... + bm*Xm

mu-Y représente la valeur théorique de Y.

Remarque : STATISTICA contient un module spécifique pour estimer les paramètres du modèle linéaire généralisé avec toute une gamme de distributions et de fonctions de liaison. Voir le module Modèles Linéaires/Non-linéaires Généralisés pour plus d'informations.

Distributions et fonctions de liaison. Le module Modèles Additifs Généralisés vous permet de choisir parmi une large gamme de distributions pour la variable dépendante, et parmi différentes fonctions de liaison pour déterminer les effets des variables prédictives sur la variable dépendante (voir McCullagh et Nelder, 1989 ; Hastie et Tibshirani, 1990 ; voir aussi la rubrique GLZ - Introduction - Approche Statistique pour une présentation des fonctions de liaison et des distributions) :

Distributions Normale, Gamma et de Poisson :

Liaison Log : f(z) = log(z)

Liaison inverse : f(z) = 1/z

Liaison identité : f(z) = z

Distributions Binomiale :

Liaison Logit : f(z)=log(z/(1-z))

Modèles Additifs Généralisés. Nous pouvons combiner la notion de modèles additifs avec celle des modèles linéaires généralisés, pour aboutir au concept de modèles additifs généralisés, de la forme :

gi(muY) = Si(fi(Xi))

En d'autres termes, l'objectif des modèles additifs généralisés consiste à maximiser la qualité de la prévision d'une variable dépendante Y à partir de diverses distributions, en estimant des fonctions non-spécifiques (non-paramétriques) des variables prédictives qui sont "liées" à la variable dépendante par une fonction de liaison.

Estimer la fonction non-paramétrique des prédicteurs à l'aide des lissages de nuages de points. L'une des spécificités du module Modèles Additifs Généralisés concerne les fonctions non-paramétriques fi des variables prédictives Xi. Plus précisément, au lieu d'une forme plus ou moins complexe de fonctions paramétriques, Hastie et Tibshirani (1990) évoquent divers lissages des nuages de points que nous pouvons appliquer aux valeurs de la variable X, avec l'objectif de maximiser la qualité de la prévision des valeurs des variables Y (transformées). L'un de ces lissages de nuages de points est le lissage par les splines cubiques de lissage, qui permettent de produire une généralisation lissée des relations entre les deux variables du nuage de points.  Vous trouverez plus d'informations sur ce lissage dans les ouvrages de Hastie et Tibshirani, 1990 et de Schimek, 2000).  

Pour résumer, au lieu d'estimer des paramètres simples (comme les poids de la régression dans une régression multiple), nous recherchons, dans les modèles additifs généralisés, une fonction généraliste non-spécifiée (non-paramétrique) qui permet de lier les valeurs prévues (transformées) Y aux valeurs prédictives.  

Un exemple spécifique : Le modèle logistique généralisé additif. Considérons à présent un exemple spécifique de modèles additifs généralisés : une généralisation du modèle logistique (logit) pour les valeurs d'une variable dépendante binaire. Comme indiqué dans le cadre des modules Estimation Non-Linéaire et Modèles Linéaires-Non-Linéaires Généralisés de STATISTICA, le modèle de régression logistique pour des réponses binaires peut s'écrire de la manière suivante :

 

y=exp(b0+b1*x1+...+bm*xm)/{1+exp(b0+b1*x1+...+bm*xm)}

Remarque : la distribution de la variable dépendante est censée être binomiale, c'est-à-dire que la variable de réponse ne peut prendre que les valeurs 0 ou 1 (par exemple, dans un étude de marché, la décision d'achat est de nature binomiale : soit le client achète un bien ou service particulier, soit il ne l'achète pas). Nous pouvons appliquer la fonction de liaison logistique à la probabilité p (comprise entre 0  et 1) de sorte que :

p' = log {p/(1-p)}

En appliquant la fonction de liaison logistique, nous pouvons à présent ré-écrire le modèle comme suit :

p' = b0 + b1*X1  + ... + bm*Xm

Enfin, nous remplaçons les termes additifs élémentaires à un seul paramètre pour obtenir le modèle logistique additif généralisé suivant :

p' = b0 + f1(X1) + ... + fm(Xm)

Vous trouverez un exemple d'application de ce modèle dans l'ouvrage de Hastie et Tibshirani (1990).

Ajustement des modèles additifs généralisés. Les ouvrages de Hastie et Tibshirani (1990), et de Schimek (2000, p. 300) présentent en détail la manière dont les Modèles Additifs Généralisés sont ajustés aux données. D'une manière générale, cet algorithme utilise deux opérations itératives distinctes, qui sont souvent appelées boucle externe (outer) et boucle interne (inner). L'objectif de la boucle externe (outer) consiste à maximiser l'ajustement global du modèle, en minimisant la vraisemblance globale des données compte tenu du modèle (c'est l'équivalent des procédures d'estimation par le maximum de vraisemblance telles qu'elles sont décrites, par exemple, dans le module Estimation Non-Linéaire). L'objectif de la boucle interne (inner) consiste à affiner le lissage du nuage de points, qui, dans le cadre du module Modèles Additifs Généralisés de STATISTICA s'effectue à l'aide d'un lissage par splines cubiques. Le lissage s'effectue par rapport aux résidus partiels; c'est-à-dire que pour chaque prédicteur k, STATISTICA va trouver l'ajustement spline cubique pondéré qui représente le mieux la relation entre la variable k et les résidus (partiels) qui sont calculés en éliminant l'effet de tous les autres j prédicteurs (j k). La procédure itérative d'estimation prend fin lorsque la vraisemblance des données, compte tenu du modèle, ne peut plus être améliorée.

Interprétation des résultats. La plupart des résultats statistiques calculés dans le module Modèles Additifs Généralisés sont proches de ceux qui sont habituellement reportés par les procédures d'ajustement de modèles linéaires ou non-linéaires. Par exemple, STATISTICA va calculer les valeurs prévues et les résidus du modèle final, et produire différents graphiques des résidus pour vous aider à identifier les éventuels points aberrants, etc... Voir aussi la description des statistiques relatives aux résidus dans le module Modèles Linéaires/Non-Linéaires Généralisés pour plus d'informations.

Le principal résultat qui nous intéresse, bien évidemment, consiste à savoir dans quelle mesure les prédicteurs sont liés à la variable dépendante. STATISTICA va produire des nuages de points qui représentent les valeurs lissées d'une variable prédictive en fonction des résidus partiels, c'est-à-dire les résidus qui subsistent après suppression de l'effet de toutes les autres variables prédictives.  

Ce tracé vous permet d'appréhender la nature de la relation entre le prédicteur et les valeurs résidualisées (ajustées) de la variable dépendante (voir Hastie & Tibshirani, 1990 ; en particulier la formule 6.3), et par conséquent, la nature de l'influence du prédicteur respectif sur le modèle global.  

Degrés de liberté. Pour réitérer, l'approche des modèles additifs généralisés remplace les produits élémentaires des valeurs (estimées) des paramètres avec les valeurs des prédicteurs par un lissage spline cubique pour chaque prédicteur. Lors de l'estimation d'une valeur élémentaire d'un paramètre, nous perdons un degré de liberté, c'est-à-dire que nous ajoutons un degré de liberté dans le modèle global. La question du nombre de degrés de liberté qui sont perdus en raison de l'estimation du lissage spline cubique pour chaque variable n'a pas de réponse claire. Intuitivement, un lissage peut être très lisse, en ne suivant pas très fidèlement les données dans le nuage de points, ou peut au contraire être plus granulaire, en respectant davantage la structure des données. Dans les cas les plus extrêmes, une simple droite serait très lisse, et ne nécessiterait l'estimation que d'un seul paramètre de pente, c'est-à-dire que nous aurions à utiliser un seul degré de liberté pour ajuster le lissage (une simple ligne droite) ; nous pouvons également forcer une courbe très "granulaire" qui relierait chacun des points, et où nous "utiliserions" environ autant de degrés de liberté qu'il existe de points dans le tracé. L'interface-utilisateur du module Modèles Additifs Généralisés vous permet de spécifier le nombre de degrés de liberté pour le lissage par spline cubique ; moins vous spécifiez de degrés de liberté, plus l'ajustement spline cubique des résidus partiels sera lisse, avec comme conséquence, un ajustement global du modèle moins bon. La question des degrés de liberté pour le lissage est abordée en détail dans l'ouvrage de Hastie et Tibshirani (1990).

Un mot d'avertissement. Les Modèles Additifs Généralisés sont très flexibles et permettent d'obtenir un excellent ajustement en présence de relations non-linéaires et de bruit important dans les variables prédictives. Toutefois, en raison justement de cette flexibilité, il faut être extrêmement vigilant(e) à ne pas sur-ajuster les données, c'est-à-dire appliquer un modèle trop complexe aux données (avec de nombreux degrés de liberté) afin de produire un bon ajustement qu'on risque de ne pas retrouver dans les études ultérieures de validation. En outre, il est conseillé de toujours comparer la qualité de l'ajustement obtenu par le module STATISTICA Modèles Additifs Généralisés avec l'ajustement obtenu par le module STATISTICA Modèles Linéaires/Non-Linéaires Généralisés. En d'autres termes, il s'agit de savoir si la complexité (généralisation) que nous ajoutons par l'intermédiaire des modèles additifs généralisés (lissages de régression) se justifie pour obtenir un ajustement satisfaisant sur nos données. La plupart du temps, ce n'est pas le cas, et pour un ajustement comparable des modèles, il faut toujours préférer le modèle linéaire généralisé, plus simple, au modèle additif généralisé, plus complexe. Ces questions sont abordées en détail dans l'ouvrage de Hastie et Tibshirani (1990).

Un autre aspect à garder à l'esprit concerne l'interprétabilité des résultats produits par les modèles linéaires (généralisés) par opposition à ceux des modèles additifs généralisés. Les modèles linéaires s'interprètent et se résument aisément, et il est facile de communiquer leurs résultats à d'autres personnes (par exemple, dans des rapports techniques). En outre, vous pouvez utiliser les paramètres estimés pour prévoir ou classer de nouvelles observations de manière assez simple et intuitive. Les modèles additifs généralisés ne s'interprètent pas aussi facilement, notamment lorsqu'ils intègrent des effets non-linéaires complexes pour certaines des variables prédictives (et bien évidemment, c'est dans ces cas particuliers que les modèles additifs généralisés produisent un meilleur ajustement que les modèles linéaires généralisés). Pour réitérer, il est souvent préférable d'utiliser un modèle simple et facile à comprendre pour prévoir de nouvelles observations, plutôt qu'un modèle complexe que vous aurez du mal à interpréter et à synthétiser.

Mise en oeuvre de la méthode dans STATISTICA. Les méthodes disponibles dans le module STATISTICA Modèles Additifs Généralisés suivent fidèlement les techniques développées et vulgarisées par Hastie et Tibshirani (1990). Plus précisément, STATISTICA offre une interface-utilisateur intuitive pour le programme GAMFIT disponible dans la bibliothèque StatLib du Département de Statistiques de l'Université de Carnegie Mellon.  

Voir aussi la rubrique Modèles Additifs Généralisés - Présentation du Programme et la section Modèles Additifs Généralisés - Index pour plus d'informations.

Présentation du Programme

Méthodes. Les méthodes disponibles dans le module STATISTICA Modèles Additifs Généralisés permettent de mettre en oeuvre les méthodes développées et vulgarisées par Hastie et Tibshirani (1990) ; vous trouverez également une présentation complémentaire détaillée de ces méthodes dans l'ouvrage de Schimek (2000). STATISTICA permet de traiter à la fois des variables prédictives continues et catégorielles.

Distributions et fonctions de liaison. Dans STATISTICA, vous avez le choix entre une large gamme de distributions pour la variable dépendante, et de nombreuses fonctions de liaison pour déterminer les effets des variables prédictives sur la variable dépendante (voir McCullagh et Nelder, 1989 ; Hastie et Tibshirani, 1990 ; voir aussi la rubrique GLZ - Introduction - Approche Statistique pour une présentation des fonctions de liaison et des distributions) :

Distributions Normale, Gamma et de Poisson :

Liaison Log : f(z) = log(z)

Liaison inverse : f(z) = 1/z

Liaison identité : f(z) = z

Distributions Binomiale :

Liaison Logit : f(z)=log(z/(1-z))

Lissage du nuage de points. STATISTICA utilise le lissage spline cubique avec un nombre personnalisé de degrés de liberté pour trouver la transformation optimale (fonction) des variables prédictives. Pour plus d'informations concernant ce lissage, voir l'ouvrage de Hastie et Tibshirani (1990 ; voir aussi l'ouvrage de Schimek, 2000, pour une présentation du lissage des nuages de points).

Résultats. STATISTICA reporte un ensemble complet de statistiques pour vous aider à évaluer l'adéquation du modèle, l'ajustement du modèle, et pour l'interprétation des résultats. Plus précisément, parmi les résultats produits, vous retrouverez : l'historique des itérations des calculs d'ajustement du modèle, les statistiques de synthèse notamment la valeur globale du R-deux (calculée à partir de la statistique d'écart), les degrés de liberté du modèle, ainsi que les statistiques détaillées des observations relatives à la réponse prévue, les résidus (voir Hastie & Tibshirani, 1990 ; notamment la formule 6.3), ainsi que le lissage des variables prédictives. Parmi les graphiques de résultats, vous retrouverez les tracés des réponses observées en fonction des résidus, les valeurs prévues en fonction des résidus, les histogrammes des valeurs observées et des résidus, les droites de Henry des résidus, ainsi que les tracés des résidus partiels pour chaque prédicteur, avec le lissage spline cubique de la solution finale.

Autres Procédures. Les modèles additifs généralisés sont une extension des modèles linéaires généralisés, qui sont eux-mêmes une extension du modèle linéaire général. Comme nous l'avons brièvement souligné dans la rubrique Principes Fondamentaux, il faut évaluer avec soin le sur-ajustement des données, et il faut toujours considérer des modèles plus simples avant d'accepter un modèle additif généralisé plus complexe pour l'interprétation finale. STATISTICA offre un large éventail de modèles linéaires généraux (GLM et de modèles linéaires généralisés (GLZ) ainsi que d'autres procédures similaires (par exemple, GRM, GDA pour de la classification et des réponses catégorielles). En outre, vous pouvez également considérer les arbres de régression comme une alternative possible aux modèles additifs généralisés (voir par exemple Hastie et Tibshirani, 1990, Chapitre 4, pour une présentation des arbres de régression dans le cadre des modèles linéaires généralisés).

Mise en oeuvre de la méthode dans STATISTICA. Les méthodes disponibles dans le module STATISTICA Modèles Additifs Généralisés suivent fidèlement les techniques développées et vulgarisées par Hastie et Tibshirani (1990). Plus précisément, STATISTICA offre une interface-utilisateur intuitive pour le programme GAMFIT disponible dans la bibliothèque StatLib du Département de Statistiques de l'Université de Carnegie Mellon.

Modèles Additifs Généralisés

Cet exemple repose sur le fichier de données décrit dans l'ouvrage de Neter, Wasserman et Kutner (1985, page 357 ; sachez cependant que les auteurs ont ajusté un modèle de régression linéaire sur ces données) ; il est également présenté dans le cadre du module Estimation Non-Linéaire, et plus particulièrement, dans le contexte des exemples de Régression Logit Élémentaire. Dans cet exemple, nous allons ajuster un modèle additif généralisé logit à nos données, que nous pourrons comparer aux résultats produits par un ("simple") modèle de régression logit. Vous trouverez des exemples détaillés de modèles additifs généralisés logit et d'autres distributions et fonctions de liaison dans l'ouvrage de Hastie et Tibshirani (1990).

Supposons que nous cherchions à savoir si l'expérience permet à des analystes-programmeurs de réaliser des tâches de programmation complexes dans un temps donné.  Nous avons sélectionné vingt cinq programmeurs avec des degrés divers d'expérience (exprimée en mois). Nous leur avons ensuite demandé de réaliser une tâche de programmation complexe dans un temps imparti. La variable dépendante binaire représente le succès ou l'échec des programmeurs pour réaliser la tâche. Ces données sont contenues dans le fichier de données Program.sta dont un extrait est reporté ci-dessous.

Spécifier l'Analyse. Ouvrez le fichier de données Program.sta puis démarrez le module Modèles Additifs Généralisés (par le menu Data Mining). Sélectionnez ensuite la distribution Binomiale dans la liste Distributions ; la fonction de liaison Logit sera alors automatiquement sélectionnée.  

Cliquez sur le bouton OK, afin d'accéder à la boîte de dialogue GAM - Spécifications, puis cliquez sur le bouton Variables afin d'accéder à une boîte de dialogue standard de sélection de variables. Sélectionnez les variables de l'analyse : Sélectionnez la variable Succès comme variable dépendante, et la variable Expérience comme variable prédictive continue (dans la troisième liste de cette boîte de dialogue de sélection de variables à 4 listes). Cliquez ensuite sur le bouton OK.

Remarque : STATISTICA va automatiquement renseigner les codes de la variable dépendante binomiale. Au cours des calculs, la valeur Échec de la variable dépendante Succès sera interprétée en 0, et la valeur Succès sera interprétée en 1. Par conséquent, dans les résultats, plus la valeur (logit) prévue sera forte, plus la probabilité de réussite des programmeurs sera importante.

Étude des Résultats. Cliquez sur le bouton OK dans la boîte de dialogue GAM - Spécifications afin de démarrer les calculs. Une série de feuille de données et graphiques de synthèse sera alors produite.

Comme vous pouvez le constater, un certain nombre de feuilles de données et de graphiques de synthèse sont produits qui donnent une bonne image de la qualité d'ajustement du modèle et constituent une aide appréciable dans l'interprétation des résultats. L'interprétation des résultats issus de l'ajustement de modèles additifs généralisés est complexe et requiert une certaine expérience (remarque : ces techniques n'ont été développées que très récemment, et, tant la littérature que les "expériences" relatives à ces techniques, ne sont pas très nombreuses) ; Hastie et Tibshirani (1990) présentent en détail la manière d'interpréter les résultats de ces types d'analyses, et, plus important, la manière d'utiliser cette information pour tester l'adéquation des solutions obtenues. Les développements les plus récents dans ce domaine sont présentés en détail dans l'ouvrage de Schimek (2000).

Examinons à présent le résultat le plus important de cette méthode : il s'agit du tracé des valeurs observées du prédicteur en fonction des résidus partiels (voir aussi les rubriques GAM Modèles Additifs Généralisés - Introduction) ; ce tracé reporte également l'ajustement spline cubique du modèle final.

Pour réitérer, ce tracé nous indique la fonction spline cubique finale ajustée, avec les valeurs observées du prédicteur en fonction des résidus partiels, c'est-à-dire en fonction des résidus de la prévision de la variable dépendante (ajustée), après suppression de tous les autres effets du modèle (voir Hastie & Tibshirani, 1990 pour le détail des calculs ; en particulier la formule 6.3 pour les calculs des valeurs de la variable dépendante ajustée).  Dans la cas présent, bien évidemment, nous n'avons qu'un seul effet dans le modèle.  Comme vous pouvez le constater, plus l'expérience du programmeur est importante, plus il a de chances de réussir, comme le montre la courbe spline cubique monotone croissante.  

Vous pouvez également étudier les diverses statistiques observées et de résidus calculées pour identifier les points aberrants ou tout déficit global d'ajustement, ou les différents groupes d'observations qui ne sont pas bien représentés ("expliqués") par le modèle.

Synthèse de l'Ajustement. Affichons à présent la feuille de données intitulée Synthèse de l'Ajustement. Comme nous l'avons brièvement souligné dans la rubrique Principes Fondamentaux, l'une des questions importantes à se poser lors de l'application d'un modèle additif généralisé, concerne l'intérêt des composantes ajoutées - et des paramètres que nous devons estimer pour trouver le meilleur lissage spline cubique -, c'est-à-dire si ce lissage permet d'obtenir une amélioration significative de l'ajustement du modèle sur les données. Dans ce cas, à en juger par le tracé des résidus partiels, la relation entre la variable prédictive et les résidus partiels est quasiment linéaire.

En effet, la Valeur p non-linéaire de la feuille de données Synthèse de l'Ajustement est proche de 1 ; par conséquent, il n'est pas évident que la complexité supplémentaire introduite par le modèle additif logistique soit justifiée.

Didacticiels

Vous pouvez visionner l'intégralité de la série de tutoriels Le Data Mining en 35 Leçons avec STATISTICA en remplissant le formulaire d'inscription. Vous serez alors notifié(e) automatiquement de la disponibilité des nouveaux épisodes et recevrez d'autres informations utiles.

StatSoft propose par ailleurs une série de didacticiels et présentations interactives décrivant pas-à-pas différentes opérations que vous pouvez réaliser à l'aide de STATISTICA. Si vous souhaitez voir aborder un thème particulier, merci de nous écrire.