Partager :

Concepts Fondamentaux en Statistique


Statistiques Fondamentales :

La Régression Multiple


Sommaire :


Principes Fondamentaux

L'objectif général de la régression multiple (le terme a été utilisé initialement par Pearson, 1908) est d'en savoir plus sur la relation entre plusieurs variables indépendantes ou prédictives et une variable dépendante ou de critère. Par exemple, un agent immobilier peut enregistrer pour chaque programme, la taille de la maison (en mètres carrés), le nombre de pièces, le revenu moyen du voisinage respectif, et un taux subjectif de "charme" de la maison. Une fois cette information collectée pour diverses maisons, il peut être intéressant de voir si ces mesures sont liées au prix de vente de la maison. Par exemple, on peut apprendre que le nombre de pièces est un meilleur indicateur de prévision du prix de vente d'une maison dans un quartier, plutôt que son aspect extérieur (indicateur subjectif). On peut également détecter des points "atypiques", c'est-à-dire des maisons qui pourraient être vendues à un prix plus élevé, compte tenu de leur localisation et de leurs caractéristiques.

Les départements des "ressources humaines" utilisent habituellement des procédures de régression multiple afin de déterminer la rémunération équitable. On peut déterminer un certain nombre de facteurs ou de dimensions comme la "charge de responsabilités" (Resp) ou le "nombre de personnes à encadrer" (Nb_Encad) que l'on estime contribuer à la valeur d'un poste. Le chargé d'études des ressources humaines va alors mener une étude salariale sur des entreprises comparables du secteur ou de la branche, en enregistrant les salaires et les caractéristiques respectives (c'est-à-dire les valeurs sur les dimensions) pour des différentes positions. Cette information peut être utilisée dans une analyse de régression multiple afin de construire une équation de régression du type :

Salaire = 0,5 * Resp + 0,8 * Nb_Encad

Une fois la droite de régression déterminée, le chargé d'études pourra alors aisément construire un graphique des salaires attendus (prévus) et des véritables salaires en fonction de la mission, dans sa propre entreprise. Ainsi, le chargé d'études sera à même de déterminer les postes qui sont "sous-payés" (au-dessous de la droite de régression), ceux qui sont "surpayés" (au dessus de la droite de régression), ou ceux qui sont "payés" équitablement.

En sciences naturelles et sociales, des procédures de régression multiple sont largement utilisées en recherche. En général, la régression multiple permet au chercheur de se poser la question générale (et avec un peu de chance, d'y répondre) "quel est le meilleur indicateur permettant de prévoir ...". Par exemple, des chercheurs du domaine éducatif peuvent souhaiter en savoir plus sur les indicateurs qui permettent le mieux de prévoir la réussite au baccalauréat. Les psychologues peuvent vouloir déterminer les variables de personnalité qui prévoient le mieux la mobilité sociale. Des sociologues peuvent s'intéresser aux multiples indicateurs sociaux permettant de prévoir au mieux si tel ou tel groupe d'immigrants risque de bien s'adapter, et donc de s'intégrer dans la société.

Voir aussi les sections Approche Statistique, Hypothèses, Limites, Considérations Pratiques et la rubrique Analyse Exploratoire des Données et Techniques de Data Mining.

Approche Statistique

Le problème statistique général qui se pose dans une régression multiple consiste à ajuster une droite sur un certain nombre de points.

Dans le cas le plus simple -- une variable dépendante et une variable indépendante -- nous pouvons représenter peut les visualiser dans un nuage de points (vous pouvez créer des nuages de points automatiquement à partir de la feuille de données des corrélations, en sélectionnant la commande Graphique des Données d'Entrée - Nuage de Points dans le menu contextuel de la cellule souhaitée).

Moindres Carrés

Dans un nuage de points, il y a une variable indépendante X et une variable dépendante Y. Ces variables peuvent, par exemple, représenter le QI (intelligence mesurée lors d'un test) et la réussite scolaire (mesurée par la moyenne générale en fin d'année, MGFA), respectivement. Chaque point du tracé représente un étudiant, c'est-à-dire le QI et la MGFA de l'étudiant respectif. Le but des procédures de régression linéaire est d'ajuster une droite sur ces points. Plus précisément, le programme va calculer une droite de sorte que les écarts au carré entre les points observés et cette droite soient minimisés. C'est la raison pour laquelle cette procédure générale est parfois appelée estimation des moindres carrés (voir aussi la description de l'estimation des moindres carrés pondérés).

Moindres Carrés Pondérés

Dans certains cas, il est souhaitable d'appliquer différentes pondérations aux observations dans une régression, et calculer les estimations de la régression dites des moindres carrés pondérés. Cette méthode est généralement utilisée lorsque les variances des résidus ne sont pas constantes pour toutes les valeurs de la variable indépendante. Dans ce cas, nous pouvons utiliser l'inverse des variances des résidus comme pondérations et calculer les estimations des moindres carrés pondérés. En pratique, ces variances ne sont généralement pas connues, mais elles sont souvent proportionnelles aux valeurs de la ou des variables indépendantes, et nous pouvons utiliser cette propriété pour calculer les pondérations d'observation appropriées). Neter, Wasserman, et Kutner, (1985) décrivent un exemple de ce type d'analyse, qui est également décrit dans la rubrique Exemples du module Estimation Non-Linéaire. Pour calculer les estimations des moindres carrés pondérés, choisissez la variable de pondération désirée puis sélectionnez le bouton d'option Moments pondérés et N-1 dans la boîte de dialogue Régression Linéaire Multiple (Panneau de Démarrage).

Résidus dans les analyses des moindres carrés pondérés. Notez que dans une régression par les moindres carrés pondérés, les résidus reportés dans les feuilles de données et graphiques sont toujours des résidus non pondérés (calculés pour les paramètres de la régression des moindres carrés pondérés).

L'Équation de la Régression

Une droite dans un espace à deux dimensions (ou à deux variables) est définie par l'équation Y=a+b*X  ; en d'autres termes : la variable Y peut s'exprimer par une constante (a) et une pente (b) multipliée par la variable X. La constante est également appelée ordonnée à l'origine et la pente, coefficient de régression ou coefficient B. Par exemple, nous pouviosn prévoir la moyenne générale d'un étudiant par l'équation 3+0,1*QI. Ainsi, sachant qu'un étudiant possède un QI de 130, nous pouvons en déduire que sa moyenne générale sera de 16 sur 20 (puisque, 3+0,1*130=16). Dans le cas multivarié, lorsqu'il existe plusieurs variables indépendantes, la droite de régression ne peut être représentée dans un espace à deux dimensions, mais nous pouvons la calculer de la même manière (grâce au module Régression Multiple ; les calculs sont en fait assez complexes). Par exemple, outre le QI, nous pouvons ajouter d'autres indicateurs permettant de prévoir la réussite (par exemple, la Motivation, l'Auto-discipline). Nous pourrions construire une équation linéaire comportant toutes ces variables. D'une manière générale, les procédures de régression multiple vont estimer une équation linéaire de la forme :

Y=a+b1*X1+b2*X2+...+bp*Xp

Prévision Unique et Corrélations Partielles

Remarque : dans cette équation, les coefficients de régression (ou coefficients B) représentent les contributions indépendantes de chaque variable indépendante à la prévision de la variable dépendante. En d'autres termes, on peut dire par exemple, que la variable X1 est corrélée avec la variable Y, après contrôle de toutes les autres variables indépendantes. Ce type de corrélation est également appelé corrélation partielle (ce terme a été initialement utilisé par Yule, 1907). Peut-être l'exemple suivant va-t-il permettre de clarifier notre propos. Nous pourrions probablement trouver une corrélation négative significative entre la longueur des cheveux et la taille dans la population (c'est-à-dire que les individus petits ont plutôt tendance à avoir les cheveux plus longs). À première vue, ce résultat peut sembler surprenant ; toutefois, si nous ajoutons dans notre équation de régression multiple la variable Sexe, cette corrélation disparaîtra sans doute. En effet, les femmes ont en moyenne de plus longs cheveux que les hommes ; et elles sont également plus petites en moyenne que les hommes. Par conséquent, après avoir supprimé cette différence due au sexe en entrant la variable Sexe dans notre équation, la relation entre la longueur des cheveux et la taille disparaîtra puisque la longueur des cheveux n'a pas de contribution unique à la prévision de la taille, mais elle la partage avec la variable Sexe. En d'autres termes, après contrôle de la variable Sexe, la corrélation partielle entre la longueur des cheveux et la taille est nulle.

Prévisions et Résidus

La droite de régression exprime la meilleure prévision de la variable dépendante (Y), compte tenu des variables indépendantes (X). La nature étant rarement parfaitement prévisible (si toutefois elle l'est), il existe souvent des écarts substantiels entre les points observés autour de la droite de régression ajustée (comme dans le nuage de points donné précédemment). L'écart d'un point particulier à la droite de régression (sa valeur prévue) est appelé résidu.

Variance des Résidus et R²

Plus faible sera la dispersion des résidus autour de la droite de régression par rapport à la dispersion relative globale, meilleure sera notre prévision. Par exemple, s'il n'y a pas de relation entre les variables X et Y, le ratio entre la dispersion des résidus de la variable Y et la variance initiale sera égal à 1,0. Si X et Y sont parfaitement dépendantes, il n'y aura aucune variance des résidus et le ratio des variances sera égal à 0,0. Dans la plupart des cas, le ratio se situera entre ces deux extrêmes, c'est-à-dire entre 0 et 1. 1,0 moins ce ratio est appelé R² ou coefficient de détermination. Cette valeur est immédiatement interprétable de la manière suivante. Si nous avons un R² de 0,4, nous savons que la dispersion des valeurs de Y autour de la droite de régression est 1-0,4 fois la variance initiale  ; en d'autres termes, nous avons expliqué 40% de la dispersion initiale, et il reste 60% de dispersion résiduelle. Dans l'idéal, nous souhaitons expliquer le plus possible, voire toute la dispersion initiale. La valeur du R² est un indicateur de la qualité d'ajustement du modèle aux données (par exemple, un R² proche de 1,0 indique que nous avons réussi à expliquer quasiment toute la dispersion grâce aux variables spécifiées dans le modèle).

Interpréter le Coefficient de Corrélation R

Habituellement, l'intensité de la relation entre deux prédicteurs ou plus (variables indépendantes ou X) et la variable dépendante (Y) s'exprime par le coefficient de corrélation R, qui est la racine carrée du . En régression multiple, R peut prendre des valeurs comprises entre 0 et 1. Pour interpréter le sens de la relation entre des variables, il faut examiner le signe (plus ou moins) de la régression ou des coefficients B. Si un coefficient B est positif, la relation entre cette variable et la variable dépendante est positive (par exemple, plus le QI sera fort et meilleure sera la note moyenne en fin d'année) ; si le coefficient B est négatif, la relation sera négative (par exemple, plus l'effectif de la classe sera faible et meilleure sera la note moyenne en fin d'année). Naturellement, si le coefficient B est égal à 0, il n'y aura aucune relation entre les variables.

Hypothèse de Linéarité

Tout d'abord, il semble évident en regardant simplement le nom de la régression linéaire multiple, que la relation entre les variables est linéaire. En pratique, cette hypothèse n'est quasiment jamais vérifiée  ; heureusement, les procédures de régression multiple ne sont pas fortement affectées par des écarts mineurs à cette hypothèse. Toutefois, il est prudent de toujours examiner le nuage de points bivarié des variables étudiées. Le module Régression Multiple vous permet d'accéder simplement à ces tracés en affichant la feuille de données de la matrice de corrélations, puis en traçant le graphique défini (nuage de points) grâce à un menu contextuel sur la cellule souhaitée, menu contextuel à partir duquel vous pouvez sélectionner la commande Graphique des Données d'Entrée -- Nuage de Points. S'il existe visiblement une relation non-linéaire (courbe), vous pouvez soit envisager une transformation des variables (grâce à STATISTICA Visual Basic ou aux formules de la feuille de données), soit permettre explicitement des composantes non-linéaires. Utilisez le module Régression Non-Linéaire Fixe pour ajuster diverses composantes non-linéaires, c'est-à-dire de tester explicitement la significativité d'une composante non-linéaire dans la relation entre deux ou plusieurs variables (d'autres options de régression non-linéaire sont disponibles dans le module Régression Non-Linéaire).

Hypothèse de Normalité

Dans la régression multiple, on suppose que les résidus (valeurs théoriques moins observées) sont distribués normalement (c'est-à-dire qu'ils suivent la loi normale). À nouveau, bien que la plupart des tests (et particulièrement le test du F) soient assez robustes par rapport aux violations de cette hypothèse, il est toujours bon, avant de tirer des conclusions, d'examiner les distributions des principales variables étudiées. Dans le module Régression Multiple, il est possible de produire un histogramme (avec une courbe Normale superposée) dans la feuille de données des statistiques descriptives, accessible à tout moment dans le programme par l'option Statistiques Descriptives du module Statistiques Élémentaires. En outre, vous pouvez produire des histogrammes des résidus ainsi que des tracés de loi normale, afin d'inspecter la distribution des résidus.

Limites

La limite majeure de toutes les techniques de régression est que vous pouvez uniquement constater des relations, sans jamais être certain du mécanisme causal sous-jacent. Par exemple, vous pouvez trouver une forte relation (corrélation) positive entre des dégâts occasionnés par un incendie et le nombre de pompiers dépêchés pour combattre un feu. Faut-il en conclure que les pompiers provoquent les dégâts ? Bien évidemment, l'explication la plus probable de cette corrélation est que l'importance de l'incendie (une variable externe que nous avons omis dans notre étude) a provoqué les dégâts importants ainsi que la participation d'un grand nombre de pompiers (c'est-à-dire que plus l'incendie sera important et plus il faudra de pompiers pour le maîtriser). Bien que cet exemple soit particulièrement évident, dans les véritables recherches de corrélations, d'autres explications causales ne sont pas bien souvent prises en considération.

Choix du Nombre de Variables

La régression multiple est une technique séduisante : introduisez toutes les variables prédictives auxquelles vous pouvez penser et dans la plupart des cas, vous en obtiendrez au moins quelques unes qui seront significatives. C'est parce que l'on tire simplement parti de la chance en incorporant autant de variables que possible comme prédicteurs de la variable étudiée. Ce problème est encore plus complexe lorsque le nombre d'observations est relativement faible. Intuitivement, il est clair qu'il s'avère difficile de tirer des conclusions à partir de l'analyse de questionnaires comportant 100 questions basées sur 10 répondants. La plupart des auteurs recommandent de prendre au moins 10 ou 20 fois plus d'observations (répondants) que de variables, sinon les estimations de la droite de régression risquent d'être très instables et difficiles à répliquer lors d'une nouvelle étude.

Multicollinéarité et Matrice Mal Conditionnée

Il s'agit d'un problème courant dans de nombreuses analyses de corrélations. Imaginez que vous disposiez de deux variables indépendantes (variables X) pour prévoir la taille des individus : (1) le poids en kilogrammes et (2) le poids en livres. Vos deux variables sont bien évidemment totalement redondantes ; le poids est une seule et même variable, quelle que soit l'unité de mesure utilisée, kilogrammes ou livres. Chercher à savoir laquelle des deux mesures donnera la meilleure prévision n'a aucun sens ; toutefois, c'est exactement ce que nous ferions si nous réalisions une régression multiple avec la taille comme variable dépendante (Y) et les deux mesures de poids comme variables indépendantes (X). STATISTICA produira un message de matrice mal conditionnée afin d'informer l'utilisateur qu'il demande l'impossible. Avec nombreuses variables, on s'aperçoit rarement de ce problème immédiatement, qui peut ne se produire qu'après l'introduction de plusieurs variables dans l'équation de la régression. Néanmoins, lorsque ce problème se produit, au moins une des variables prédictives est (pratiquement) complètement redondante avec d'autres. Le module Régression Multiple comporte de nombreux indicateurs statistiques de ce type de redondance (tolérances, R semi-partiel, etc..., voir la boîte de dialogue Définition du Modèle) ainsi que des solutions (par exemple, Régression Ridge).

Ajuster des modèles polynomiaux centrés. L'ajustement de polynômes d'ordre élevé à une variable indépendante avec une moyenne non-nulle peut créer des problèmes de multicollinéarité. Plus précisément, les polynômes seront fortement corrélés en raison de la moyenne de la variable indépendante. Avec des nombres élevés (par exemple, des dates en calendrier Julien), ce problème peut devenir très grave, et, si les précautions d'usage ne sont pas prises, conduire à des résultats erronés ! La solution consiste à "centrer" la variable indépendante (parfois, cette procédure est appelée "polynômes centrés"), c'est-à-dire retrancher la moyenne, puis calculer les polynômes. Pour des exemples et une présentation détaillée (ainsi que des analyses avec des modèles polynomiaux), veuillez vous référer à Neter, Wasserman, et Kutner (1985, Chapitre 9). Notez que STATISTICA vérifie automatiquement l'existence de nombres très élevés (créés lors des calculs des polynômes).

L'Importance de l'Analyse des Résidus

Bien que la plupart des hypothèses de la régression multiple ne puissent pas être testées explicitement, des violations sérieuses peuvent être détectées et doivent être traitées de façon appropriée. En particulier, des points atypiques (c'est-à-dire des observations extrêmes) peuvent biaiser sérieusement les résultats en "tirant" la droite de régression dans une direction particulière (vers le haut ou vers le bas), et conduire à des coefficients de régression biaisés. Souvent, l'élimination d'une seule observation "aberrante" produit des résultats complètement différents. Par conséquent, l'un des objectifs du module Régression Multiple est de permettre l'analyse des résidus, de sorte que l'utilisateur puisse valider les résultats obtenus, ou le cas échéant, mettre en évidence les violations des hypothèses.

Notes et Informations Techniques

Généralités. La routine de la Régression Multiple se décompose en deux parties majeures. La première partie calcule une matrice de corrélations (ou extrait une matrice de corrélations si vous avez sélectionné un fichier-matrice en entrée) en fonction des spécifications de l'utilisateur (c'est-à-dire les valeurs manquantes, les filtres de sélection, etc...). La seconde partie effectue les véritables analyses de régression multiple.

Calculer la Régression Multiple, Inversion Matricielle. Tous les calculs réalisés au cours de la régression multiple sont effectués en double précision. L'inversion matricielle se fait par sweeping (voir Dempster, 1969, p. 62). Les pondérations de la régression, les sommes des carrés des résidus, les tolérances, et les corrélations partielles sont également calculées lors de l'opération de sweeping (voir également Jennrich, 1977).

Tests de Significativité Statistique. Les formules standard sont utilisées pour calculer la valeur du F associée au R multiple, et pour les valeurs t associées aux coefficients de régression (voir, par exemple, Cooley et Lohnes, 1971 ; Darlington, 1990 ; Lindeman, Merenda, et Gold, 1980 ; Morrison, 1967 ; Neter, Wasserman, et Kutner, 1985 ; Pedhazur, 1973 ; Stevens, 1986  ; Younger, 1985.

Résidus. L'erreur-type d'un résidu se calcule comme la racine carrée de :

[1 - 1/n - (Xbrut - Xmoy. )*C-1*(Xbrut - Xmoy. )']*MCR

Xbrut

représente le vecteur des données brutes des variables indépendantes

Xmoy.

représente le vecteur des moyennes des variables indépendantes

C-1

représente l'inverse de la matrice des produits croisés des écarts des variables indépendantes

n

représente le nombre d'observations actives

MCR

représente la moyenne des carrés des résidus

Les termes 1/n et Xmoy. disparaissent s'il n'y a pas d'ordonnée à l'origine (lorsque la régression passe par l'origine).

Les résidus standardisés sont obtenus en divisant chaque résidu par la racine carrée de la moyenne des carrés des résidus.

La distance de Mahalanobis est la distance d'une observation au barycentre de toutes les observations d'un espace défini par toutes les variables indépendantes. Elle se calcule ainsi :

(n-1)*(Xbrut - Xmoy. )*C-1*(Xbrut - Xmoy. )'

Xbrut.

représente le vecteur des données brutes des variables indépendantes

Xmoy..

représente le vecteur des moyennes des variables indépendantes

C-1

représente l'inverse de la matrice des produits croisés des écarts pour les variables indépendantes

n

représente le nombre d'observations actives

Les termes 1/n et Xmoy. disparaissent s'il n'y a pas d'ordonnée à l'origine (lorsque la régression passe par l'origine). Veuillez vous reporter à la rubrique Exemples pour un exemple sur la manière dont les distances de Mahalanobis peuvent aider à détecter des points aberrants.

Le résidu supprimé est le résidu que nous aurions obtenu si nous n’avions pas inclus l'observation dans l'estimation de l'équation de la régression. Il se calcule en divisant le résidu ordinaire par :

1 - (1/n) - (Xbrut - Xmoy. )*C-1*(Xbrut - Xmoy. )'

où :

Xbrut

représente le vecteur des données brutes des variables indépendantes

Xmoy.

représente le vecteur des moyennes des variables indépendantes

C-1

représente l'inverse de la matrice des produits croisés des écarts pour les variables indépendantes

n

représente le nombre d'observations actives

Les termes 1/n et Xmoy. disparaissent s'il n'y a pas d'ordonnée à l'origine (lorsque la régression passe par l'origine). Veuillez vous reporter à la rubrique Exemples pour un exemple sur la manière dont les résidus supprimés peuvent aider à détecter des points aberrants.

La distance de Cook (Cook, 1977) permet d’estimer les modifications résultant sur l’ensemble des résidus si l'observation respective n’était pas prise en compte dans la régression. Elle se définit comme :

{Résid. suppr.2 *[1/n + DistM/(n-1)]}/[(Nbre de vars + 1)*MCR]

où :

DistM

représente la distance de Mahalanobis

RMS

représente la moyenne des carrés des résidus

S'il n'y a pas d'ordonnée à l'origine, n-1 est remplacé par n, le terme 1/n disparaît tout comme le terme +1 (ajout du chiffre 1 au nombre de variables indépendantes).

Transformations Puissance des Variables Dépendantes et Indépendantes. Les tests de significativité statistique en régression multiple sont basés sur les hypothèses d'homogénéité des variances des résidus (homoscédasticité) sur la variable dépendante. En cas de violation de cette hypothèse, une transformation appropriée de la variable dépendante ou des variables indépendantes peut parfois permettre de remédier au problème. Un famille de transformations puissance pouvant s'appliquer à la variable dépendante ou aux variables indépendantes est la suivante :

y'

= yl pour 0

 

= logarithme népérien(y) pour l=0

Cette formulation inclut la transformation réciproque (l=-1), la transformation racine (l=½), la transformation carrée (l=2), et la transformation logarithmique (l=0). Notez toutefois que toutes les valeurs de y doivent être supérieures à 0 (zéro). Pour plus d’informations sur ces transformations, veuillez vous reporter à Box et Cox (1964), Box et Tidwell (1962), Gunst, Mason, et Hess (1989), ou Snee (1986).




Régression Standard

Fichier de Données. Cet exemple est basé sur le fichier de sur le fichier de données Poverty. sta. Ouvrez ce fichier à l'aide de la commande Ouvrir des Exemples du menu Fichier (menus classiques) ou en sélectionnant la commande Ouvrir des Exemples dans le menu Ouvrir de l'onglet Accueil (ruban)] ; vous trouverez ce fichier dans le répertoire Fichiers de Données. Les données représentent l'évolution de la population entre les recensements de 1960 et de 1970 sur une sélection aléatoire de 30 comtés américains. Le nom des observations du fichier de données contient le nom de ces comtés.

L'information suivante pour chaque variable est donnée dans la boîte de dialogue Spécifications de Toutes les Variables (accessible en sélectionnant la commande Spécs de toutes les Variables du menu Données).

Problématique. L'objectif de cette étude consiste à analyser les indicateurs liés à la pauvreté, c'est-à-dire les variables qui permettent de prévoir au mieux le part de foyers situés en deçà du seuil de pauvreté dans un comté. Nous allons par conséquent traiter la variable 3 (Pt_Pauvr) comme variable dépendante (ou critère), et toutes les autres variables comme des variables indépendantes (ou prédicteurs).

Démarrer l'analyse. Sélectionnez la commande Régression Multiple dans le menu Statistiques. Vous pouvez spécifier les variables de l'équation de régression en cliquant sur le bouton Variables de la boîte de dialogue Régression Linéaire Multiple - onglet Base pour afficher la boîte de dialogue de sélection des variables. Sélectionnez Pt_Pauvr comme Variable dépendante et toutes les autres variables du fichier de données comme Liste de variables indépendantes puis cliquez sur le bouton OK. Dans la boîte de dialogue Régression Linéaire Multiple - onglet Avancé, cochez aussi l'option Statistiques descriptives, matrice de corrélations.

À présent, cliquez sur le bouton OK de cette boîte de dialogue et la boîte de dialogue Étude des Statistiques Descriptives va s'afficher. Là, vous pouvez étudier les moyennes et les écarts-types, les corrélations, et les covariances entre les variables. Notez que cette boîte de dialogue est également disponible à partir de toutes les boîtes de dialogue de Régression Multiple, donc vous pourrez toujours y revenir pour étudier les statistiques descriptives pour des variables spécifiques. De même, dans toutes les autres feuilles de données, de nombreux graphiques sont disponibles.

Distribution des variables. D'abord, examinez la distribution de la variable dépendante Pt_Pauvr en fonction des comtés. Cliquez sur le bouton Moyennes & écarts-types pour afficher cette feuille de données.

Sélectionnez la commande Histogrammes dans le menu Graphiques pour produire l'histogramme suivant de la variable Pt_Pauvr. Dans le groupe Intervalles de la boîte de dialogue Histogrammes 2D - onglet Avancé, sélectionnez le bouton d'option Catégories et saisissez 16 dans le champ d'édition correspondant puis cliquez sur le bouton OK. Dans la boîte de dialogue de sélection des variables, sélectionnez la variable Pt_Pauvr puis cliquez sur le bouton OK. Comme vous pouvez le voir ci-dessous, la distribution de cette variable s'écarte un peu de la distribution normale. Les coefficients de corrélation peuvent être considérablement augmentés ou diminués si des points atypiques sont présents dans le fichier de données. Cependant, même si deux comtés (les deux colonnes à droite) ont une part de familles sous le seuil de pauvreté plus important que nous pourrions nous y attendre sous une distribution normale, ils demeurent du même ordre de grandeur.

Cette décision est quelque peu subjective ; en règle générale il faut s'inquiéter si une observation (ou des observations) se trouve en dehors de l'intervalle moyenne ± 3 fois l'écart-type. Dans ce cas, il est important de répéter les analyses critiques avec et sans les point(s) atypique(s) pour s'assurer qu'ils n'ont pas affecté sérieusement la structure des inter-corrélations. Étudions la distribution de cette variable en cliquant sur le bouton Boîtes à moustaches dans la boîte de dialogue Étude des Statistiques Descriptives - onglet Avancé. Dans la boîte de dialogue de sélection des variables, sélectionnez la variable Pt_Pauvr puis cliquez sur le bouton OK. Sélectionnez ensuite le bouton d'option Médiane/Quartiles/Étendue dans la boîte de dialogue Type de Boîte à Moustaches, puis cliquez sur le bouton OK pour produire le tracé de boîte à moustaches.

Remarque : les méthodes spécifiques de calcul de la médiane et les quartiles peuvent être configurées pour le système dans le volet d'options Généralités de la boîte de dialogue Options).

Nuages de points. Si vous connaissez des hypothèses a priori sur la relation entre des variables spécifiques à ce point il peut être instructif de tracer le nuage de points respectif. Par exemple, étudiez la relation entre la variation de la population et le pourcentage de familles en dessous du seuil de pauvreté. Il semble juste de prévoir que la pauvreté va conduire à une émigration ; en conséquence, il devrait y avoir une corrélation négative entre le pourcentage de la population en dessous du seuil de pauvreté et la variation de la population.

Retournez à la boîte de dialogue Étude des Statistiques Descriptives et cliquez sur le bouton Corrélations dans l'onglet Base ou l'onglet Avancé pour produire la feuille de données avec la matrice des corrélations.

Les corrélations entre les variables peuvent également être affichées dans un nuage de points matriciel. Un nuage de points matriciel des variables sélectionnées peut être produit en cliquant sur le bouton Tracé matriciel des corrélations de la boîte de dialogue Étude des Statistiques Descriptives - onglet Avancé, puis en sélectionnant les variables désirées.

Spécification de la régression multiple. À présent, cliquez sur le bouton OK de la boîte de dialogue Étude des Statistiques Descriptives pour réaliser l'analyse de régression et afficher la boîte de dialogue Résultats de la Régression Multiple. Une régression standard (qui inclut l'ordonnée à l'origine) va être réalisée.

Étude des résultats. La boîte de synthèse située en haut de la boîte de dialogue Résultats de la Régression Multiple est reportée ci-dessous. Globalement, l'équation de la régression multiple est très significative (voir la rubrique Concepts Élémentaires pour une présentation des tests de significativité statistique). Grâce aux variables indépendantes, vous pouvez mieux "prévoir" l'indicateur de pauvreté qu'en vous basant uniquement sur le hasard.

Coefficients de régression. Pour connaître les variables indépendantes qui contribuent le plus à la prévision de la pauvreté, examinons les coefficients de régression (ou b). Cliquez sur le bouton Synthèse : Résultats de la régression de l'onglet Base pour produire une feuille de données avec ces coefficients.

Cette feuille de données reporte les coefficients de régression standardisés (b*) et les coefficients de régression (b). L'amplitude de ces coefficients b* vous permet de comparer la contribution relative de chaque variable indépendante dans la prévision de la variable dépendante. Il est manifeste dans la feuille de données ci-dessus, que les variables Vari_Pop, Pt_Rural, et N_Agric sont les prédicteurs les plus importants de la pauvreté ; parmi ceux-ci, seules les deux premières variables sont statistiquement significatives. Le coefficient de régression de Vari_Pop est négatif ; moins la population augmente, plus le nombre de familles vivant en dessous du seuil de pauvreté augmente dans le comté respectif. Le poids pour la régression de Pt_Rural est positif ; plus la population est rurale, plus il y a de personnes sous le seuil de pauvreté.

Corrélations partielles. Une autre façon d'étudier les contributions uniques de chaque variable indépendante pour la prévision de la variable dépendante est de calculer les corrélations partielles et semi-partielles (cliquez sur le bouton Corrélations partielles de l'onglet Avancé de la boîte de dialogue Résultats). Les corrélations partielles sont les corrélations entre la variable indépendante respective ajustée par les autres variables, et la variable dépendante ajustée par les autres variables. Donc, c'est la corrélation entre les résidus, après ajustement pour toutes les variables indépendantes. La corrélation partielle représente la contribution unique de la variable respective indépendante à la prévision de la variable dépendante.

La corrélation semi-partielle est la corrélation de la variable indépendante respective ajustée par toutes les autres variables, avec la variable dépendante brute (non ajustée). C'est pourquoi, la corrélation semi-partielle est la corrélation des résidus pour la variable indépendante respective après avoir fait l'ajustement pour toutes les autres variables, et les résultats bruts non ajustés pour la variable dépendante. Autrement dit, la corrélation au carré semi-partielle est un indicateur du pourcentage Total de variance représentant uniquement la variable indépendant respective, alors que la corrélation partielle au carré est un indicateur du pourcentage de variance résiduelle représentant la variable dépendante après ajustement avec toutes les autres variables indépendantes.

Dans cet exemple, les corrélations partielles et semi-partielles sont relativement similaires. Cependant, leur amplitude peut parfois être fortement différente (la corrélation semi-partielle est toujours inférieure). Si la corrélation semi-partielle est très petite, mais que la corrélation partielle est importante, alors la variable respective peut prévoir un seul "groupe" de variabilité dans la variable dépendante (qui ne représente pas les autres variables). Cependant, en termes de sens pratique, ce groupe peut être très petit et ne représenter qu'une faible proportion de la variabilité totale (voir, par exemple, Lindeman, Merenda, and Gold, 1980 ; Morrison, 1967 ; Neter, Wasserman, and Kutner, 1985 ; Pedhazur, 1973 ; ou Stevens, 1986).

Analyse des résidus. Après avoir ajusté une équation de régression, il faudrait toujours examiner les résultats prévus et les résidus. Par exemple, des points atypiques extrêmes peuvent biaiser sérieusement les résultats et conduire à des conclusions erronées. À partir de la boîte de dialogue Résultats de la Régression Multiple - onglet Résidus/hypothèses/prévisions, cliquez sur le bouton Analyse des résidus pour accéder à la boîte de dialogue Analyse des Résidus.

Tracé des résidus par observation. En général, il faut au moins examiner le motif des résidus bruts ou standardisés pour identifier les points atypiques extrêmes. Pour cet exemple, allez sur l'onglet Résidus et cliquez sur le bouton Tracé des résidus par observation  ; par défaut les Résidus bruts vont être "tracés" dans le tracé des résidus (feuille de données) ; cependant, vous pouvez également sélectionner d'autres statistiques résiduelles dans le cadre Type de résidu.

L'échelle utilisée dans le tracé des résidus dans la colonne de gauche est en terme de sigma, c'est-à-dire, l'écart-type des résidus. Si une ou plusieurs observation tombe en dehors de la limite ± 3 fois sigma, alors il faut probablement exclure l'observation respective (ce qui se fait facilement grâce aux filtres de sélection) et lancer à nouveau l'analyse pour s'assurer que les résultats clés n'étaient pas biaisés par ces points atypiques.

Tracé des points atypiques. Une façon rapide d'identifier les points atypiques est d'utiliser le bouton Tracé des points atypiques de l'onglet Atypiques. Vous pouvez soit tracer tous les résidus standard qui sortent de l'intervalle ± 2 fois sigma soit tracer les 100 observations les plus extrêmes, selon ce vous spécifiez dans le cadre Type de point atypique. Lorsque vous sélectionnez le bouton d'option Résidus standard (> 2 * sigma), aucun point atypique n'est détecté dans l'exemple en cours.

Distances de Mahalanobis. La plupart des manuels de statistique consacrent un débat sur le problème des points atypiques et des résidus concernant la variable dépendante. Cependant, le rôle des points atypiques dans la liste variable indépendante est souvent ignoré. Du côté de la variable indépendante, vous avez une liste de variables qui participent avec différents poids (les coefficients de régression) à la prévision de la variable dépendante. On peut voir les variables indépendantes comme un espace multidimensionnel dans lequel chaque observation peut être localisée. Par exemple, si vous avez deux variables indépendantes avec des coefficients de régression égaux, alors vous pouvez construire un nuage de points de ces deux variables, et placer chaque observation dans ce tracé. Vous pouvez ensuite tracer un point pour la moyenne pour les deux variables et calculer les distances de chaque observation à cette moyenne (appelée désormais barycentre) dans l'espace à deux dimensions ; c'est le concept derrière le calcul des distances de Mahalanobis. À présent, regardons ces distances (triées par taille) pour identifier les observations extrêmes du côté de la variable indépendante. Sélectionnez le bouton d'option distances de Mahalanobis de la boîte Type de point atypique, puis cliquez sur le bouton Tracé des points atypiques. Le tracé résultant (feuille de données résultante) va afficher les distances de Mahalanobis triées par ordre descendant.

Notez que dans le comté de Shelby (première ligne) il y a quelque chose d'extrême par rapport aux autres comtés du tracé. Si vous examinez les données brutes vous découvrirez qu'en fait, le comté de Shelby est de loin le plus grand comté du fichier de données, avec beaucoup plus de personnes travaillant dans l'agriculture (variable N_Agric), etc. Il aurait été probablement astucieux d'exprimer ces chiffres en pourcentages plutôt qu'en nombres absolus, et dans ce cas, la distance de Mahalanobis du comté de Shelby par rapport aux autres comtés de l'échantillon n'aurait pas été si grande. En l'état, cependant, le comté de Shelby est clairement un point atypique.

Résidus supprimés. Une autre statistique très importante qui permet d'évaluer la gravité du problème des points atypiques est les Résidus Supprimés. C'est le résidu standardisé pour l'observation respective que l'on obtiendrait si l'observation était exclue de l'analyse. Souvenez-vous que la procédure de régression multiple ajuste une droite pour exprimer la relation entre les variables dépendantes et indépendantes. Si une observation est clairement un point atypique (comme le comté de Shelby dans cet exemple), alors il y a une tendance pour la droite de régression d'être "tirée" par ce point atypique pour le représenter autant que possible. Donc, si l'observation respective était exclue, une droite complètement différente (et les coefficients B) émergerait. En conséquence, si le résidu supprimé est grossièrement différent du résidu standardisé, vous avez raison de penser que l'analyse de régression est sérieusement biaisée par l'observation en question. Dans cet exemple, le résidu supprimé du comté de Shelby est un point atypique qui affecte sérieusement l'analyse. Vous pouvez tracer les résidus en fonction des résidus supprimés via le bouton Résidus vs. résidus supprimés de l'onglet Nuages de points qui va produire un nuage de points de ces valeurs. Le nuage de points ci-dessous montre clairement le point atypique.

STATISTICA fournit un outil interactif pour éliminer les points atypiques (l'Outil Habillage/Balayage ) et voir instantanément leur influence sur la droite de régression. Lorsque l'outil est activé, le curseur se transforme en viseur, et la boîte de dialogue Habillage apparaît à côté du graphique. Vous pouvez éliminer (temporairement) les points individuels du graphique (1) en cochant l'option Appliquer Automatiquement et (2) en sélectionnant le bouton d'option Inactiver les points sélectionnés dans le groupe d'options Action ; puis cliquez sur le point que vous souhaitez enlever avec le viseur. En cliquant sur un point vous allez automatiquement l'enlever (temporairement) du graphique.

Remarque : vous pouvez réintégrer le ou les points supprimés à l'aide du bouton Réinitialiser Tout dans la boîte de dialogue Habillage.

Tracés de normalité. D'autres graphiques sont disponibles dans la boîte de dialogue Analyse des Résidus. La plupart d'entre eux sont assez simples à interpréter. Nous nous intéresserons uniquement aux tracés de normalité ici.

Comme indiqué précédemment, la régression linéaire multiple considère que les relations entre les variables de l'équation sont linéaires, et que la distribution des résidus est normale. Si ces hypothèses sont violées, votre conclusion finale peut être faussée. La droite de Henry des résidus nous donne des indications concernant la violation des hypothèses. Cliquez sur le bouton Droite de Henry des résidus dans l'onglet Tracés de Probas pour produire ce tracé.

Ce tracé est construit comme suit. Tout d'abord les résidus sont rangés par ordre. À partir de ces rangs, z valeurs peuvent être calculées (c'est-à-dire, les valeurs standard de la distribution normale) sur la base de l'hypothèse que les données sont issues d'une distribution normale. Ces z valeurs sont tracées sur l'axe y du tracé.

Si les résidus observés (tracés sur l'axe x) sont distribués normalement, alors toutes les valeurs devraient être sur une droite dans le tracé ; dans ce tracé, tous les points suivent cette droite de près. Si les résidus ne sont pas distribués normalement, alors ils vont s'écarter de la droite. Les points atypiques peuvent être mis en évidence grâce à ce tracé.

S'il y a un manque global d'ajustement, et que les données semblent former nettement un motif (par exemple, une forme de S) autour de la droite, alors la variable dépendante peut devoir être transformée (par exemple, une transformation log pour "ramener" la queue de la distribution, etc. ; voir également la description des transformations de Box-Cox et de Box-Tidwell dans la rubrique Régression Multiple - Notes et Informations Techniques). La description de ces techniques dépasse les limites fixées pour ce manuel (Neter, Wasserman, and Kutner, 1985, page 134, présentent une excellente description de ces transformations comme remède à la non normalité et la non linéarité) ; cependant, les chercheurs acceptent simplement trop souvent leurs données à leur valeur nominale sans même vérifier si les hypothèses sont appropriées, ce qui conduit à des conclusions erronées. Pour cette raison, l'un des buts du module de Régression Multiple était de rendre l'analyse résiduelle (graphique) aussi simple et accessible que possible.

Autres analyses des résidus. D'autres analyses spécialisées des résidus et d'autres représentations graphiques sont accessibles dans les modules Modèles Généraux de Régression et Modèle Linéaire Général de STATISTICA. Vous pouvez utiliser les fonctionnalités analytiques de STATISTICA pour explorer la structure des résidus ; pour ce faire, créez une feuille de données des résidus. Dans l'onglet Enregistrer, cliquez sur le bouton Enregistrer résidus & valeurs prévues. Les variables sélectionnées du fichier de données actif seront enregistrées avec toutes les statistiques des résidus. La feuille de données produite deviendra alors automatiquement la feuille de données active, ce qui vous permettra d'utiliser l'ensemble des fonctionnalités d'analyse statistique disponibles dans STATISTICA pour produire des tracés, des décompositions, ou pour utiliser d'autres modules (par exemple, le module Séries Chronologiques afin de tester l'autocorrélation des résidus).




Régression Pas-à-Pas

Fichier de Données. L'exemple suivant se base sur le fichier d'exemple Job_Prof.sta (de Neter, Wasserman, and Kutner, 1989, page 473). Ouvrez ce fichier de données à l'aide de la commande Ouvrir des Exemples du menu Fichier (menus classiques) ou en sélectionnant la commande Ouvrir des Exemples dans le menu Ouvrir de l'onglet Accueil (ruban)] ; vous trouverez ce fichier dans le répertoire Fichiers de Données. Les quatre premières variables (Test1-Test4) représentent quatre aptitudes à des tests différents qui ont été pratiqués sur 25 candidats à un poste d'employé de bureau débutant dans une entreprise. Indépendamment de leur résultats au test, les 25 candidats ont été embauchés. Une fois que leur période d'essai s'est achevée, chacun de ces employés a été évalué et on lui a attribué un niveau de compétence pour le poste (variable Comp_Pro).

Objectif de l'étude. Nous allons utiliser la régression pas-à-pas, pour analyser les variables (ou un sous-ensemble de variables) qui prédisent le mieux la compétence professionnelle. Donc, la variable dépendante sera Comp_Pro et les variables Test1-Test4 seront les variables indépendantes ou prédicteurs.

Débuter l'analyse. Sélectionnez la commande Régression Multiple du menu Statistiques. Dans la boîte de dialogue Régression Linéaire Multiple (Panneau de Démarrage), cliquez sur le bouton Variables et spécifiez la variable Comp_Pro comme Variable dépendante et les variables Test1-Test4 comme Liste de variables indépendantes ; puis cliquez sur le bouton OK. Ensuite allez dans l'onglet Avancé, et cochez l'option Options avancées (régression ridge ou pas-à-pas). Puis cliquez sur le bouton OK pour afficher la boîte de dialogue Définition du Modèle.

Spécification de la régression pas-à-pas. Vous pouvez choisir d'analyser les données en utilisant une méthode de régression Standard, Pas-à-pas ascendante, ou Pas-à-pas descendante. La méthode populaire Pas-à-pas ascendante évalue les variables indépendantes à chaque étape, les ajoutant ou les supprimant du modèle basé sur des critères spécifiés par l'utilisateur (pour plus d'information, voir Neter, Wasserman, and Kutner, 1989, et la rubrique Régression Multiple - Notes et Informations Techniques). La régression pas-à-pas descendante sera utilisée pour analyser les données de cet exemple.

Dans la boîte de dialogue Définition du Modèle - onglet Base, cliquez sur la liste déroulante Méthode et sélectionnez l'option Pas-à-pas ascendante. Puis, dans l'onglet Pas-à-pas vous pouvez modifier les valeurs du F d'inclusion et du F d'exclusion ; cependant, pour cet exemple, acceptez les valeurs par défaut de respectivement 1 et 0. Pour étudier les résultats à chaque étape de l'analyse, sélectionnez l'option À chaque étape dans la liste déroulante Affichage résultats.

À présent, acceptez les autres paramètres par défaut de cette boîte de dialogue et cliquez sur le bouton OK pour débuter la régression pas-à-pas ascendante.

Étape 0. D'abord, la boîte de dialogue Résultats va s'afficher à l'étape 0, alors qu'aucune variable n'a été entrée dans le modèle.

Étape 1. Cliquez sur le bouton Suivant pour exécuter l'analyse jusqu'à la prochaine étape de l'analyse. Dans la première étape, chacune des variables indépendantes est évaluée individuellement et la variable qui a la plus grande valeur de F supérieure ou égale à la valeur du F d'inclusion est entrée dans l'équation de la régression.

Ici, la variable Test3 entre dans le critère du F d'inclusion (F>1, 0) et a été ajoutée dans le modèle. Cliquez sur l'onglet Avancé puis sélectionnez le bouton Synthèse de la régression pas-à-pas pour afficher une feuille de données avec une synthèse des étapes exécutées jusqu'alors dans l'analyse.

Cliquez sur le bouton Suivant de la boîte de dialogue Résultats de la Régression Multiple pour accéder à l'étape suivante.

Étape 2. À présent, dans les analyses ultérieures lorsqu'une variable est ajoutée au modèle (basé sur le critère du F d'inclusion), La méthode de régression pas-à-pas ascendante va examiner les variables inclues dans le modèle, et, sur la base du critère du F d'exclusion, va déterminer si des variables déjà dans le modèle doivent être enlevées. Dans la seconde étape, la variable Test1 est entrée dans le modèle. En cliquant sur le bouton Synthèse de la régression pas-à-pas, vous allez produire la feuille de résultats ci-dessous.

Une fois de plus, cliquez sur le bouton Suivant de la boîte de dialogue Résultats de la Régression Multiple pour aller à l'étape 3 de la régression pas-à-pas ascendante.

Étape 3 (Solution Finale). Il reste deux variables à évaluer (Test2 et Test4). Pour cette étape, la plus grande valeur de F a été donnée par Test4, en conséquence, elle a été ajoutée au modèle. Lorsque Test2 a été évaluée, sa valeur de F était inférieure à celle du F d'inclusion de 1,0, donc elle n'a pas été entrée dans le modèle.

La feuille de données Synthèse de la régression pas-à-pas résume maintenant les variables qui ont été entrées et conservées dans le modèle.

À présent, conformément à la procédure de Régression pas-à-pas ascendante, le sous-ensemble de tests d'aptitude (variables indépendantes) qui prévoit le mieux la compétence professionnelle (variable dépendante) comporte les Test3, Test1, et Test4. Donc, l'équation de régression apparaît comme suit :

y = B0 + B1*X3 + B2*X1 + B3*X4

Pour obtenir les coefficients de la régression, cliquez sur le bouton Synthèse : Résultats de la Régression.

L'équation de régression finale est :

y = -124.200 + 1.357*X3 + 0. 296*X1 + 0. 517*X4

Didacticiels

Vous pouvez visionner l'intégralité de la série de tutoriels Le Data Mining en 35 Leçons avec STATISTICA en remplissant le formulaire d'inscription. Vous serez alors notifié(e) automatiquement de la disponibilité des nouveaux épisodes et recevrez d'autres informations utiles.

StatSoft propose par ailleurs une série de didacticiels et présentations interactives décrivant pas-à-pas différentes opérations que vous pouvez réaliser à l'aide de STATISTICA. Si vous souhaitez voir aborder un thème particulier, merci de nous écrire.