La régression permet
d’analyser une variable de réponse quantitative en
fonction d’une ou plusieurs variables explicatives. Souvent,
c’est un résultat binaire (ou dichotomique)
d’une expérience ou d’une observation
que l’on souhaite mettre en relation avec des variables
explicatives. La régression logistique permet
d’étudier cette relation entre une variable de
réponse binaire et plusieurs variables explicatives. La
variable dépendante est habituellement la survenue ou non
d’un événement. Les variables
explicatives (variables indépendantes) peuvent
en revanche être soit qualitatives, soit
quantitatives.
La
régression logistique est un des modèles
d’analyse multivariée explicatif couramment
utilisé en épidémiologie,
banque/assurance ou qualité.
L’intérêt majeur de cette technique est
de quantifier la force de l’association entre chaque variable
indépendante et la variable dépendante, en tenant
compte de l’effet des autres variables
intégrées dans le modèle…
STATISTICA propose
dans son module Modèles
Linéaires Généralisés
la régression logistique.
Commençons
par quelques rappels sous forme de question/réponses autour
de cette méthode pour comprendre et développer
son utilisation :
Pourquoi le terme
régression ? Parce qu’il
s’agit de relier une variable dépendante
à un ensemble de variables explicatives.
Pourquoi le terme logistique ?
Parce qu’on fait référence à
une hypothèse de distribution du même nom sur la
variable dépendante plus simplement appelée Logit.
Que veut dire le terme Logit ?
La variable dépendante n’est pas continue mais
qualitative (0/1 pour une distribution binomiale). Cette transformation
permet d’établir une relation linéaire
entre la probabilité de la réponse et le ou les
prédicteurs.
La relation est elle
linéaire ? Puisqu’il s’agit
de modéliser la probabilité de prendre tel ou tel
attribut (une probabilité étant par
définition comprise entre 0 et 1), le
modèle linéaire n’est bien entendu pas
approprié et la relation est forcément
non-linéaire. D’où la
nécessité de la transformation Logit pour obtenir
une relation linéaire.
Comment estime-t-on les
paramètres du modèle ? Le principe
du maximum de vraisemblance établit que les meilleurs
paramètres sont ceux qui maximisent la
probabilité d’observer les valeurs courantes des
observations. Elle se calcule comme le produit des
probabilités qu’on cherche à maximiser
par rapport aux paramètres au moyen d’un
algorithme numérique (par ex. une méthode de
gradient ou newton).
Comment mesurer
l’influence des prédicteurs sur la
réponse ? Les Odds ratios
seront les mesures explicites d’association des
prédicteurs sur la réponse. Si ce ratio est
supérieur à 1, la relation est croissante, et
décroissante s’il est inférieur
à 1.
Lorsqu’il est égal à 1 il n’y
a pas
d’association.

L’odds
ratio du volume vaut 48,53. En maintenant constant tous les autres
termes (les autres prédicteurs
c’est-à-dire ici la
variable Taux), pour toute augmentation de Volume d’une
unité, le modèle prévoit une
augmentation de 48,53
dans les chances d’avoir un AVC plutôt que de ne
pas en
avoir.
Comment qualifier la
qualité de discrimination du modèle ?
La courbe ROC est un outil graphique servant d’indicateur de
la
capacité du modèle à discriminer
correctement la
variable dépendante. Cette courbe projette la
sensibilité
(capacité à prédire un
évènement) en
ordonnée et la spécificité
(capacité
à prédire un non-événement)
en abscisse.

La
discrimination est acceptable, la valeur d’AUC est
supérieure à 0,7 ! Et un coefficient de
Gini de 0,5
indique
une réelle différence.
Pourquoi
préférer cette méthode à
une autre ?
La régression logistique ne pose aucune hypothèse
sur les
variables indépendantes. Elles n’ont pas
à
être normalement distribuées, liées
linéairement ou d’égale variance entre
chaque
groupe.