StatSoft Logo

   N°8

 La Newsletter STATISTICA

(Septembre 2008)

 


 

 

Article Technique 

La Régression Logistique dans STATISTICA

La régression permet d’analyser une variable de réponse quantitative en fonction d’une ou plusieurs variables explicatives. Souvent, c’est un résultat binaire (ou dichotomique) d’une expérience ou d’une observation que l’on souhaite mettre en relation avec des variables explicatives. La régression logistique permet d’étudier cette relation entre une variable de réponse binaire et plusieurs variables explicatives. La variable dépendante est habituellement la survenue ou non d’un événement. Les variables explicatives (variables indépendantes) peuvent en revanche être soit qualitatives, soit quantitatives.

La régression logistique est un des modèles d’analyse multivariée explicatif couramment utilisé en épidémiologie, banque/assurance ou qualité. L’intérêt majeur de cette technique est de quantifier la force de l’association entre chaque variable indépendante et la variable dépendante, en tenant compte de l’effet des autres variables intégrées dans le modèle…

STATISTICA propose dans son module Modèles Linéaires Généralisés la régression logistique.

Commençons par quelques rappels sous forme de question/réponses autour de cette méthode pour comprendre et développer son utilisation :

Pourquoi le terme régression ? Parce qu’il s’agit de relier une variable dépendante à un ensemble de variables explicatives.

Pourquoi le terme logistique ? Parce qu’on fait référence à une hypothèse de distribution du même nom sur la variable dépendante plus simplement appelée Logit.

Que veut dire le terme Logit ? La variable dépendante n’est pas continue mais qualitative (0/1 pour une distribution binomiale). Cette transformation permet d’établir une relation linéaire entre la probabilité de la réponse et le ou les prédicteurs.

La relation est elle linéaire ? Puisqu’il s’agit de modéliser la probabilité de prendre tel ou tel attribut (une probabilité étant par définition comprise entre 0 et 1),  le modèle linéaire n’est bien entendu pas approprié et la relation est forcément non-linéaire. D’où la nécessité de la transformation Logit pour obtenir une relation linéaire.

Comment estime-t-on les paramètres du modèle ? Le principe du maximum de vraisemblance établit que les meilleurs paramètres sont ceux qui maximisent la probabilité d’observer les valeurs courantes des observations. Elle se calcule comme le produit des probabilités qu’on cherche à maximiser par rapport aux paramètres au moyen d’un algorithme numérique (par ex. une méthode de gradient ou newton).

Comment mesurer l’influence des prédicteurs sur la réponse ? Les Odds ratios seront les mesures explicites d’association des prédicteurs sur la réponse. Si ce ratio est supérieur à 1, la relation est croissante, et décroissante s’il est inférieur à 1. Lorsqu’il est égal à 1 il n’y a pas d’association.

Odds ratios

L’odds ratio du volume vaut 48,53. En maintenant constant tous les autres termes (les autres prédicteurs c’est-à-dire ici la variable Taux), pour toute augmentation de Volume d’une unité, le modèle prévoit une augmentation de 48,53 dans les chances d’avoir un AVC plutôt que de ne pas en avoir. 

Comment qualifier la qualité de discrimination du modèle ? La courbe ROC est un outil graphique servant d’indicateur de la capacité du modèle à discriminer correctement la variable dépendante. Cette courbe projette la sensibilité (capacité à prédire un évènement) en ordonnée et la spécificité (capacité à prédire un non-événement) en abscisse.

Courbe ROC

La discrimination est acceptable, la valeur d’AUC est supérieure à 0,7 ! Et un coefficient de Gini de 0,5 indique une réelle différence.

Pourquoi préférer cette méthode à une autre ? La régression logistique ne pose aucune hypothèse sur les variables indépendantes. Elles n’ont pas à être normalement distribuées, liées linéairement ou d’égale variance entre chaque groupe.


Retour au Sommaire


Logo StatSoft France  |  2 rue Louis Pergaud  | 94700 Maisons-Alfort  |  www.statsoft.fr  |  info@statsoft.fr