Partager :

Concepts Fondamentaux en Statistique

Statistiques Fondamentales :

La Régression Multiple



Sommaire :


Principes Fondamentaux

L'objectif général de la régression multiple (le terme a été utilisé initialement par Pearson, 1908) est d'en savoir plus sur la relation entre plusieurs variables indépendantes ou prédictives et une variable dépendante ou de critère. Par exemple, un agent immobilier peut enregistrer pour chaque programme, la taille de la maison (en mètres carrés), le nombre de pièces, le revenu moyen du voisinage respectif, et un taux subjectif de "charme" de la maison. Une fois cette information collectée pour diverses maisons, il peut être intéressant de voir si ces mesures sont liées au prix de vente de la maison. Par exemple, on peut apprendre que le nombre de pièces est un meilleur indicateur de prévision du prix de vente d'une maison dans un quartier, plutôt que son aspect extérieur (indicateur subjectif). On peut également détecter des points "atypiques", c'est-à-dire des maisons qui pourraient être vendues à un prix plus élevé, compte tenu de leur localisation et de leurs caractéristiques.

Les départements des "ressources humaines" utilisent habituellement des procédures de régression multiple afin de déterminer la rémunération équitable. On peut déterminer un certain nombre de facteurs ou de dimensions comme la "charge de responsabilités" (Resp) ou le "nombre de personnes à encadrer" (Nb_Encad) que l'on estime contribuer à la valeur d'un poste. Le chargé d'études des ressources humaines va alors mener une étude salariale sur des entreprises comparables du secteur ou de la branche, en enregistrant les salaires et les caractéristiques respectives (c'est-à-dire les valeurs sur les dimensions) pour des différentes positions. Cette information peut être utilisée dans une analyse de régression multiple afin de construire une équation de régression du type :

Salaire = 0,5 * Resp + 0,8 * Nb_Encad

Une fois la droite de régression déterminée, le chargé d'études pourra alors aisément construire un graphique des salaires attendus (prévus) et des véritables salaires en fonction de la mission, dans sa propre entreprise. Ainsi, le chargé d'études sera à même de déterminer les postes qui sont "sous-payés" (au-dessous de la droite de régression), ceux qui sont "surpayés" (au dessus de la droite de régression), ou ceux qui sont "payés" équitablement.

En sciences naturelles et sociales, des procédures de régression multiple sont largement utilisées en recherche. En général, la régression multiple permet au chercheur de se poser la question générale (et avec un peu de chance, d'y répondre) "quel est le meilleur indicateur permettant de prévoir ...". Par exemple, des chercheurs du domaine éducatif peuvent souhaiter en savoir plus sur les indicateurs qui permettent le mieux de prévoir la réussite au baccalauréat. Les psychologues peuvent vouloir déterminer les variables de personnalité qui prévoient le mieux la mobilité sociale. Des sociologues peuvent s'intéresser aux multiples indicateurs sociaux permettant de prévoir au mieux si tel ou tel groupe d'immigrants risque de bien s'adapter, et donc de s'intégrer dans la société.

Voir aussi les sections Approche Statistique, Hypothèses, Limites, Considérations Pratiques et la rubrique Analyse Exploratoire des Données et Techniques de Data Mining.

Approche Statistique

Le problème statistique général qui se pose dans une régression multiple consiste à ajuster une droite sur un certain nombre de points.

Dans le cas le plus simple -- une variable dépendante et une variable indépendante -- nous pouvons représenter peut les visualiser dans un nuage de points (vous pouvez créer des nuages de points automatiquement à partir de la feuille de données des corrélations, en sélectionnant la commande Graphique des Données d'Entrée - Nuage de Points dans le menu contextuel de la cellule souhaitée).

Moindres Carrés

Dans un nuage de points, il y a une variable indépendante X et une variable dépendante Y. Ces variables peuvent, par exemple, représenter le QI (intelligence mesurée lors d'un test) et la réussite scolaire (mesurée par la moyenne générale en fin d'année, MGFA), respectivement. Chaque point du tracé représente un étudiant, c'est-à-dire le QI et la MGFA de l'étudiant respectif. Le but des procédures de régression linéaire est d'ajuster une droite sur ces points. Plus précisément, le programme va calculer une droite de sorte que les écarts au carré entre les points observés et cette droite soient minimisés. C'est la raison pour laquelle cette procédure générale est parfois appelée estimation des moindres carrés (voir aussi la description de l'estimation des moindres carrés pondérés).

Moindres Carrés Pondérés

Dans certains cas, il est souhaitable d'appliquer différentes pondérations aux observations dans une régression, et calculer les estimations de la régression dites des moindres carrés pondérés. Cette méthode est généralement utilisée lorsque les variances des résidus ne sont pas constantes pour toutes les valeurs de la variable indépendante. Dans ce cas, nous pouvons utiliser l'inverse des variances des résidus comme pondérations et calculer les estimations des moindres carrés pondérés. En pratique, ces variances ne sont généralement pas connues, mais elles sont souvent proportionnelles aux valeurs de la ou des variables indépendantes, et nous pouvons utiliser cette propriété pour calculer les pondérations d'observation appropriées). Neter, Wasserman, et Kutner, (1985) décrivent un exemple de ce type d'analyse, qui est également décrit dans la rubrique Exemples du module Estimation Non-Linéaire. Pour calculer les estimations des moindres carrés pondérés, choisissez la variable de pondération désirée puis sélectionnez le bouton d'option Moments pondérés et N-1 dans la boîte de dialogue Régression Linéaire Multiple (Panneau de Démarrage).

Résidus dans les analyses des moindres carrés pondérés. Notez que dans une régression par les moindres carrés pondérés, les résidus reportés dans les feuilles de données et graphiques sont toujours des résidus non pondérés (calculés pour les paramètres de la régression des moindres carrés pondérés).

L'Équation de la Régression

Une droite dans un espace à deux dimensions (ou à deux variables) est définie par l'équation Y=a+b*X  ; en d'autres termes : la variable Y peut s'exprimer par une constante (a) et une pente (b) multipliée par la variable X. La constante est également appelée ordonnée à l'origine et la pente, coefficient de régression ou coefficient B. Par exemple, nous pouviosn prévoir la moyenne générale d'un étudiant par l'équation 3+0,1*QI. Ainsi, sachant qu'un étudiant possède un QI de 130, nous pouvons en déduire que sa moyenne générale sera de 16 sur 20 (puisque, 3+0,1*130=16). Dans le cas multivarié, lorsqu'il existe plusieurs variables indépendantes, la droite de régression ne peut être représentée dans un espace à deux dimensions, mais nous pouvons la calculer de la même manière (grâce au module Régression Multiple ; les calculs sont en fait assez complexes). Par exemple, outre le QI, nous pouvons ajouter d'autres indicateurs permettant de prévoir la réussite (par exemple, la Motivation, l'Auto-discipline). Nous pourrions construire une équation linéaire comportant toutes ces variables. D'une manière générale, les procédures de régression multiple vont estimer une équation linéaire de la forme :

Y=a+b1*X1+b2*X2+...+bp*Xp

Prévision Unique et Corrélations Partielles

Remarque : dans cette équation, les coefficients de régression (ou coefficients B) représentent les contributions indépendantes de chaque variable indépendante à la prévision de la variable dépendante. En d'autres termes, on peut dire par exemple, que la variable X1 est corrélée avec la variable Y, après contrôle de toutes les autres variables indépendantes. Ce type de corrélation est également appelé corrélation partielle (ce terme a été initialement utilisé par Yule, 1907). Peut-être l'exemple suivant va-t-il permettre de clarifier notre propos. Nous pourrions probablement trouver une corrélation négative significative entre la longueur des cheveux et la taille dans la population (c'est-à-dire que les individus petits ont plutôt tendance à avoir les cheveux plus longs). À première vue, ce résultat peut sembler surprenant ; toutefois, si nous ajoutons dans notre équation de régression multiple la variable Sexe, cette corrélation disparaîtra sans doute. En effet, les femmes ont en moyenne de plus longs cheveux que les hommes ; et elles sont également plus petites en moyenne que les hommes. Par conséquent, après avoir supprimé cette différence due au sexe en entrant la variable Sexe dans notre équation, la relation entre la longueur des cheveux et la taille disparaîtra puisque la longueur des cheveux n'a pas de contribution unique à la prévision de la taille, mais elle la partage avec la variable Sexe. En d'autres termes, après contrôle de la variable Sexe, la corrélation partielle entre la longueur des cheveux et la taille est nulle.

Prévisions et Résidus

La droite de régression exprime la meilleure prévision de la variable dépendante (Y), compte tenu des variables indépendantes (X). La nature étant rarement parfaitement prévisible (si toutefois elle l'est), il existe souvent des écarts substantiels entre les points observés autour de la droite de régression ajustée (comme dans le nuage de points donné précédemment). L'écart d'un point particulier à la droite de régression (sa valeur prévue) est appelé résidu.

Variance des Résidus et R²

Plus faible sera la dispersion des résidus autour de la droite de régression par rapport à la dispersion relative globale, meilleure sera notre prévision. Par exemple, s'il n'y a pas de relation entre les variables X et Y, le ratio entre la dispersion des résidus de la variable Y et la variance initiale sera égal à 1,0. Si X et Y sont parfaitement dépendantes, il n'y aura aucune variance des résidus et le ratio des variances sera égal à 0,0. Dans la plupart des cas, le ratio se situera entre ces deux extrêmes, c'est-à-dire entre 0 et 1. 1,0 moins ce ratio est appelé R² ou coefficient de détermination. Cette valeur est immédiatement interprétable de la manière suivante. Si nous avons un R² de 0,4, nous savons que la dispersion des valeurs de Y autour de la droite de régression est 1-0,4 fois la variance initiale  ; en d'autres termes, nous avons expliqué 40% de la dispersion initiale, et il reste 60% de dispersion résiduelle. Dans l'idéal, nous souhaitons expliquer le plus possible, voire toute la dispersion initiale. La valeur du R² est un indicateur de la qualité d'ajustement du modèle aux données (par exemple, un R² proche de 1,0 indique que nous avons réussi à expliquer quasiment toute la dispersion grâce aux variables spécifiées dans le modèle).

Interpréter le Coefficient de Corrélation R

Habituellement, l'intensité de la relation entre deux prédicteurs ou plus (variables indépendantes ou X) et la variable dépendante (Y) s'exprime par le coefficient de corrélation R, qui est la racine carrée du . En régression multiple, R peut prendre des valeurs comprises entre 0 et 1. Pour interpréter le sens de la relation entre des variables, il faut examiner le signe (plus ou moins) de la régression ou des coefficients B. Si un coefficient B est positif, la relation entre cette variable et la variable dépendante est positive (par exemple, plus le QI sera fort et meilleure sera la note moyenne en fin d'année) ; si le coefficient B est négatif, la relation sera négative (par exemple, plus l'effectif de la classe sera faible et meilleure sera la note moyenne en fin d'année). Naturellement, si le coefficient B est égal à 0, il n'y aura aucune relation entre les variables.

Hypothèse de Linéarité

Tout d'abord, il semble évident en regardant simplement le nom de la régression linéaire multiple, que la relation entre les variables est linéaire. En pratique, cette hypothèse n'est quasiment jamais vérifiée  ; heureusement, les procédures de régression multiple ne sont pas fortement affectées par des écarts mineurs à cette hypothèse. Toutefois, il est prudent de toujours examiner le nuage de points bivarié des variables étudiées. Le module Régression Multiple vous permet d'accéder simplement à ces tracés en affichant la feuille de données de la matrice de corrélations, puis en traçant le graphique défini (nuage de points) grâce à un menu contextuel sur la cellule souhaitée, menu contextuel à partir duquel vous pouvez sélectionner la commande Graphique des Données d'Entrée -- Nuage de Points. S'il existe visiblement une relation non-linéaire (courbe), vous pouvez soit envisager une transformation des variables (grâce à STATISTICA Visual Basic ou aux formules de la feuille de données), soit permettre explicitement des composantes non-linéaires. Utilisez le module Régression Non-Linéaire Fixe pour ajuster diverses composantes non-linéaires, c'est-à-dire de tester explicitement la significativité d'une composante non-linéaire dans la relation entre deux ou plusieurs variables (d'autres options de régression non-linéaire sont disponibles dans le module Régression Non-Linéaire).

Hypothèse de Normalité

Dans la régression multiple, on suppose que les résidus (valeurs théoriques moins observées) sont distribués normalement (c'est-à-dire qu'ils suivent la loi normale). À nouveau, bien que la plupart des tests (et particulièrement le test du F) soient assez robustes par rapport aux violations de cette hypothèse, il est toujours bon, avant de tirer des conclusions, d'examiner les distributions des principales variables étudiées. Dans le module Régression Multiple, il est possible de produire un histogramme (avec une courbe Normale superposée) dans la feuille de données des statistiques descriptives, accessible à tout moment dans le programme par l'option Statistiques Descriptives du module Statistiques Élémentaires. En outre, vous pouvez produire des histogrammes des résidus ainsi que des tracés de loi normale, afin d'inspecter la distribution des résidus.

Limites

La limite majeure de toutes les techniques de régression est que vous pouvez uniquement constater des relations, sans jamais être certain du mécanisme causal sous-jacent. Par exemple, vous pouvez trouver une forte relation (corrélation) positive entre des dégâts occasionnés par un incendie et le nombre de pompiers dépêchés pour combattre un feu. Faut-il en conclure que les pompiers provoquent les dégâts ? Bien évidemment, l'explication la plus probable de cette corrélation est que l'importance de l'incendie (une variable externe que nous avons omis dans notre étude) a provoqué les dégâts importants ainsi que la participation d'un grand nombre de pompiers (c'est-à-dire que plus l'incendie sera important et plus il faudra de pompiers pour le maîtriser). Bien que cet exemple soit particulièrement évident, dans les véritables recherches de corrélations, d'autres explications causales ne sont pas bien souvent prises en considération.

Choix du Nombre de Variables

La régression multiple est une technique séduisante : introduisez toutes les variables prédictives auxquelles vous pouvez penser et dans la plupart des cas, vous en obtiendrez au moins quelques unes qui seront significatives. C'est parce que l'on tire simplement parti de la chance en incorporant autant de variables que possible comme prédicteurs de la variable étudiée. Ce problème est encore plus complexe lorsque le nombre d'observations est relativement faible. Intuitivement, il est clair qu'il s'avère difficile de tirer des conclusions à partir de l'analyse de questionnaires comportant 100 questions basées sur 10 répondants. La plupart des auteurs recommandent de prendre au moins 10 ou 20 fois plus d'observations (répondants) que de variables, sinon les estimations de la droite de régression risquent d'être très instables et difficiles à répliquer lors d'une nouvelle étude.

Multicollinéarité et Matrice Mal Conditionnée

Il s'agit d'un problème courant dans de nombreuses analyses de corrélations. Imaginez que vous disposiez de deux variables indépendantes (variables X) pour prévoir la taille des individus : (1) le poids en kilogrammes et (2) le poids en livres. Vos deux variables sont bien évidemment totalement redondantes ; le poids est une seule et même variable, quelle que soit l'unité de mesure utilisée, kilogrammes ou livres. Chercher à savoir laquelle des deux mesures donnera la meilleure prévision n'a aucun sens ; toutefois, c'est exactement ce que nous ferions si nous réalisions une régression multiple avec la taille comme variable dépendante (Y) et les deux mesures de poids comme variables indépendantes (X). STATISTICA produira un message de matrice mal conditionnée afin d'informer l'utilisateur qu'il demande l'impossible. Avec nombreuses variables, on s'aperçoit rarement de ce problème immédiatement, qui peut ne se produire qu'après l'introduction de plusieurs variables dans l'équation de la régression. Néanmoins, lorsque ce problème se produit, au moins une des variables prédictives est (pratiquement) complètement redondante avec d'autres. Le module Régression Multiple comporte de nombreux indicateurs statistiques de ce type de redondance (tolérances, R semi-partiel, etc..., voir la boîte de dialogue Définition du Modèle) ainsi que des solutions (par exemple, Régression Ridge).

Ajuster des modèles polynomiaux centrés. L'ajustement de polynômes d'ordre élevé à une variable indépendante avec une moyenne non-nulle peut créer des problèmes de multicollinéarité. Plus précisément, les polynômes seront fortement corrélés en raison de la moyenne de la variable indépendante. Avec des nombres élevés (par exemple, des dates en calendrier Julien), ce problème peut devenir très grave, et, si les précautions d'usage ne sont pas prises, conduire à des résultats erronés ! La solution consiste à "centrer" la variable indépendante (parfois, cette procédure est appelée "polynômes centrés"), c'est-à-dire retrancher la moyenne, puis calculer les polynômes. Pour des exemples et une présentation détaillée (ainsi que des analyses avec des modèles polynomiaux), veuillez vous référer à Neter, Wasserman, et Kutner (1985, Chapitre 9). Notez que STATISTICA vérifie automatiquement l'existence de nombres très élevés (créés lors des calculs des polynômes).

L'Importance de l'Analyse des Résidus

Bien que la plupart des hypothèses de la régression multiple ne puissent pas être testées explicitement, des violations sérieuses peuvent être détectées et doivent être traitées de façon appropriée. En particulier, des points atypiques (c'est-à-dire des observations extrêmes) peuvent biaiser sérieusement les résultats en "tirant" la droite de régression dans une direction particulière (vers le haut ou vers le bas), et conduire à des coefficients de régression biaisés. Souvent, l'élimination d'une seule observation "aberrante" produit des résultats complètement différents. Par conséquent, l'un des objectifs du module Régression Multiple est de permettre l'analyse des résidus, de sorte que l'utilisateur puisse valider les résultats obtenus, ou le cas échéant, mettre en évidence les violations des hypothèses.

Notes et Informations Techniques

Généralités. La routine de la Régression Multiple se décompose en deux parties majeures. La première partie calcule une matrice de corrélations (ou extrait une matrice de corrélations si vous avez sélectionné un fichier-matrice en entrée) en fonction des spécifications de l'utilisateur (c'est-à-dire les valeurs manquantes, les filtres de sélection, etc...). La seconde partie effectue les véritables analyses de régression multiple.

Calculer la Régression Multiple, Inversion Matricielle. Tous les calculs réalisés au cours de la régression multiple sont effectués en double précision. L'inversion matricielle se fait par sweeping (voir Dempster, 1969, p. 62). Les pondérations de la régression, les sommes des carrés des résidus, les tolérances, et les corrélations partielles sont également calculées lors de l'opération de sweeping (voir également Jennrich, 1977).

Tests de Significativité Statistique. Les formules standard sont utilisées pour calculer la valeur du F associée au R multiple, et pour les valeurs t associées aux coefficients de régression (voir, par exemple, Cooley et Lohnes, 1971 ; Darlington, 1990 ; Lindeman, Merenda, et Gold, 1980 ; Morrison, 1967 ; Neter, Wasserman, et Kutner, 1985 ; Pedhazur, 1973 ; Stevens, 1986  ; Younger, 1985.

Résidus. L'erreur-type d'un résidu se calcule comme la racine carrée de :

[1 - 1/n - (Xbrut - Xmoy. )*C-1*(Xbrut - Xmoy. )']*MCR

Xbrut

représente le vecteur des données brutes des variables indépendantes

Xmoy.

représente le vecteur des moyennes des variables indépendantes

C-1

représente l'inverse de la matrice des produits croisés des écarts des variables indépendantes

n

représente le nombre d'observations actives

MCR

représente la moyenne des carrés des résidus

Les termes 1/n et Xmoy. disparaissent s'il n'y a pas d'ordonnée à l'origine (lorsque la régression passe par l'origine).

Les résidus standardisés sont obtenus en divisant chaque résidu par la racine carrée de la moyenne des carrés des résidus.

La distance de Mahalanobis est la distance d'une observation au barycentre de toutes les observations d'un espace défini par toutes les variables indépendantes. Elle se calcule ainsi :

(n-1)*(Xbrut - Xmoy. )*C-1*(Xbrut - Xmoy. )'

Xbrut.

représente le vecteur des données brutes des variables indépendantes

Xmoy..

représente le vecteur des moyennes des variables indépendantes

C-1

représente l'inverse de la matrice des produits croisés des écarts pour les variables indépendantes

n

représente le nombre d'observations actives

Les termes 1/n et Xmoy. disparaissent s'il n'y a pas d'ordonnée à l'origine (lorsque la régression passe par l'origine). Veuillez vous reporter à la rubrique Exemples pour un exemple sur la manière dont les distances de Mahalanobis peuvent aider à détecter des points aberrants.

Le résidu supprimé est le résidu que nous aurions obtenu si nous n’avions pas inclus l'observation dans l'estimation de l'équation de la régression. Il se calcule en divisant le résidu ordinaire par :

1 - (1/n) - (Xbrut - Xmoy. )*C-1*(Xbrut - Xmoy. )'

où :

Xbrut

représente le vecteur des données brutes des variables indépendantes

Xmoy.

représente le vecteur des moyennes des variables indépendantes

C-1

représente l'inverse de la matrice des produits croisés des écarts pour les variables indépendantes

n

représente le nombre d'observations actives

Les termes 1/n et Xmoy. disparaissent s'il n'y a pas d'ordonnée à l'origine (lorsque la régression passe par l'origine). Veuillez vous reporter à la rubrique Exemples pour un exemple sur la manière dont les résidus supprimés peuvent aider à détecter des points aberrants.

La distance de Cook (Cook, 1977) permet d’estimer les modifications résultant sur l’ensemble des résidus si l'observation respective n’était pas prise en compte dans la régression. Elle se définit comme :

{Résid. suppr.2 *[1/n + DistM/(n-1)]}/[(Nbre de vars + 1)*MCR]

où :

DistM

représente la distance de Mahalanobis

RMS

représente la moyenne des carrés des résidus

S'il n'y a pas d'ordonnée à l'origine, n-1 est remplacé par n, le terme 1/n disparaît tout comme le terme +1 (ajout du chiffre 1 au nombre de variables indépendantes).

Transformations Puissance des Variables Dépendantes et Indépendantes. Les tests de significativité statistique en régression multiple sont basés sur les hypothèses d'homogénéité des variances des résidus (homoscédasticité) sur la variable dépendante. En cas de violation de cette hypothèse, une transformation appropriée de la variable dépendante ou des variables indépendantes peut parfois permettre de remédier au problème. Un famille de transformations puissance pouvant s'appliquer à la variable dépendante ou aux variables indépendantes est la suivante :

y'

= yl pour 0

 

= logarithme népérien(y) pour l=0

Cette formulation inclut la transformation réciproque (l=-1), la transformation racine (l=½), la transformation carrée (l=2), et la transformation logarithmique (l=0). Notez toutefois que toutes les valeurs de y doivent être supérieures à 0 (zéro). Pour plus d’informations sur ces transformations, veuillez vous reporter à Box et Cox (1964), Box et Tidwell (1962), Gunst, Mason, et Hess (1989), ou Snee (1986).