Partager :

Concepts Fondamentaux en Statistique


Modèles Linéaires/Non-Linéaires Avancés :

Estimation Non-Linéaire : Modèles Logit et Probit,

Régression Exponentielle, Régression par Segments, etc...



Sommaire :


Principes Fondamentaux

En termes très généraux, le module Estimation Non-Linéaire permet de calculer la relation entre un ensemble de variables indépendantes et une variable dépendante. Par exemple, nous pouvons estimer la relation entre la concentration d'un certain médicament et son efficacité, la relation entre l'entraînement et les performances réalisées, la relation entre le prix d'une maison et le temps nécessaire pour la vendre, etc... Vous pouvez retrouver dans ces exemples, des questions que nous pouvons appréhender par des techniques comme la régression multiple (voir le module Régression Multiple) ou l'analyse de variance (voir le module ANOVA/MANOVA). En fait, l'estimation non-linéaire peut être considérée comme une généralisation de ces méthodes. Plus particulièrement, la régression multiple (de même que l'ANOVA) considère que la relation entre une ou plusieurs variables indépendantes et une variable dépendante est de nature linéaire. L'estimation non-linéaire vous laisse le soin de spécifier la nature de la relation ; par exemple, vous pouvez spécifier la variable dépendante comme étant une fonction logarithmique de la ou des variables indépendantes, comme une fonction exponentielle, une fonction de ratios complexe de mesures indépendantes, etc... (notez toutefois que si toutes les variables sont de nature catégorielle, ou qu'elles peuvent être transformées en variables catégorielles, vous pouvez également utiliser le module Analyse des Correspondances).

En vous permettant de définir tout type de relation entre les variables indépendantes et la variable dépendante, deux questions se posent. Tout d'abord, quels types de relations "ont un sens", c'est-à-dire sont aisément interprétables ? Notez que la relation linéaire simple est très pratique en ce sens qu'elle permet des interprétations assez simples du type "plus x est important (par exemple, plus le prix d'une maison est élevé), plus y est important (plus il faut de temps pour la vendre) ; et compte tenu d'une augmentation particulière de x, on peut s'attendre à une augmentation proportionnelle de y". Les relations non-linéaires ne peuvent bien souvent pas être interprétées et formulées aussi simplement. La seconde question est de savoir comment calculer exactement la relation, c'est-à-dire comment obtenir des résultats nous permettant de dire s'il existe ou non une relation non-linéaire comme prévu.

Les liens suivants posent le problème de la régression non-linéaire d'une manière plus formelle, c'est-à-dire en introduisant la terminologie qui va nous permettre d'appréhender plus précisément la nature de ces techniques, et de voir comment elles permettent de répondre à des questions importantes dans divers domaines de recherche (médecine, sciences sociales, physique, chimie, pharmacologie, ingénierie, etc...).

Estimation de Modèles Linéaires et Non-Linéaires

D'un point de vue technique, l'Estimation Non-Linéaire est une procédure d'ajustement générale qui permet d'estimer tous types de relations entre une variable dépendante (ou variable de réponse) et une liste de variables indépendantes. D'une manière générale, les modèles de régression peuvent s'exprimer ainsi :

y = F(x1, x2, ... , xn)

En termes plus généraux, nous cherchons à savoir si une variable dépendante est liée à une liste de variables indépendantes (et dans quelle mesure)  ; le terme F(x...) dans l'expression ci-dessus signifie que y, la variable de réponse ou variable dépendante, est fonction des x, c'est-à-dire des variables indépendantes.

Un exemple de ce type de modèle serait une régression multiple linéaire comme nous l'avons décrit dans le module Régression Multiple. Dans ce modèle, nous supposons que la variable dépendante est une fonction linéaire des variables indépendantes, c'est-à-dire que :

y = a + b1*x1+ b2*x2+ ... + bn*xn

Si vous n'êtes pas familiarisé(e) avec la régression linéaire multiple, vous pouvez lire la rubrique Introduction du module Régression Multiple (il n'est toutefois pas nécessaire de comprendre toutes les nuances des techniques de régression linéaire multiple pour comprendre les méthodes abordées ici).

Le module Estimation Non-Linéaire vous permet de spécifier pratiquement tout type de modèle de régression continu ou discontinu. Certains des modèles non-linéaires les plus courants (probit, logit, croissance exponentielle ou régression avec point de rupture) sont prédéfinis dans le module Estimation Non-Linéaire et vous pouvez aisément les utiliser comme options des boîtes de dialogue ; cependant, notez que le module Modèles Linéaires/Non-Linéaires Généralisés (GLZ) inclut des algorithmes plus efficaces pour ajuster les modèles de régression logit et probit généraux, et STATISTICA n'inclut ici ces modèles que pour des soucis de compatibilité. Vous pouvez également saisir tout type d'équation de régression que STATISTICA ajustera alors à vos données (voir les rubriques Régression Personnalisée - Moindres Carrés et Régression Personnalisée - Fonction de Perte). Vous pouvez en outre spécifier soit des estimations par les moindres carrés standard, des estimations du maximum de vraisemblance (lorsque c'est approprié), ou à nouveau, définir votre propre "fonction de perte" en saisissant l'équation souhaitée.

D'une manière générale, lorsque le modèle (simple) de régression linéaire semble ne pas représenter de façon adéquate la relation entre des variables, vous pourrez choisir un modèle de régression non-linéaire. Cliquez sur les rubriques suivantes pour une présentation des modèles de régression non-linéaires les plus courants, ainsi que des procédures d'estimation non-linéaires, et des évaluations de la qualité d'ajustement des données par un modèle non-linéaire.

Modèles de Régression Intrinsèquement Linéaires

Régression polynomiale. L'un des modèles "non-linéaires" courants est la régression polynomiale. Nous mettons le terme non-linéaire entre guillemets ici car ce modèle est en fait de nature linéaire. Par exemple, supposons que nous souhaitons mesurer dans une expérience d'apprentissage, la stimulation psychologique des individus et leur performance par rapport à une tâche de repérage complexe. Sur la base de la Loi de Yerkes-Dodson, nous pouvons nous attendre à une relation non-linéaire entre la stimulation et la performance ; nous pouvons exprimer cette relation attendue par l'équation :

Performance = a + b1*Stimulation + b2*Stimulation2

Dans cette équation, a représente l'ordonnée à l'origine, tandis que b1 et b2 sont les coefficients de régression. La non-linéarité de ce modèle est exprimée par le terme Stimulation2. Toutefois, la nature du modèle reste linéaire, si ce n'est que lors de l'estimation, nous élevons la mesure de stimulation au carré. L'option non-linéaire fixe du module Régression Multiple pourrait également être utilisée pour estimer les coefficients de régression de ce modèle. Ces types de modèles, dans lesquels nous incluons des transformations de variables indépendantes dans une équation linéaire sont également appelés modèles non-linéaires dans les variables.

Modèles non-linéaires dans les paramètres. Par opposition à l'exemple ci-dessus, considérons la relation entre l'âge d'un individu depuis sa naissance (la variable x) et son taux de croissance (la variable y). Très clairement, la relation entre ces deux variables au cours de la première année de la vie (où la croissance est la plus forte) est très différente de ce qu'elle devient à l'âge adulte (lorsque les individus ne grandissent presque plus). Par conséquent, la relation pourrait sans doute s'exprimer en termes de fonction exponentielle négative :

Croissance = exp(-b1*Age)

Si vous représentez la relation d'une estimation particulière du coefficient de régression, vous allez obtenir une courbe qui aura l'aspect suivant  :

Remarque : la nature de ce modèle n'est plus linéaire, c'est-à-dire que l'expression donnée ci-dessus ne représente pas simplement un modèle de régression linéaire, avec transformation de la variable indépendante. Ce type de modèle est dit non-linéaire dans les paramètres.

Rendre linéaires des modèles qui ne le sont pas. D'une manière générale, dès qu'un modèle de régression peut être "rendu" linéaire, c'est la solution que vous devez préférer (pour estimer le modèle respectif). Le modèle de régression linéaire multiple (voir le module Régression Multiple) est très bien compris mathématiquement, et d'un point de vue pragmatique, il est beaucoup plus simple à interpréter. Par conséquent, en revenant à notre exemple de modèle de régression exponentiel simple de Croissance en fonction de l'Âge donné ci-dessus, nous pouvons convertir l'équation de régression non-linéaire sous une forme linéaire en prenant simplement le logarithme des deux membres de l'équation, de sorte que :

log(Croissance) = -b1*Age

Si nous remplaçons log(Croissance) par y, nous retrouvons le modèle de régression linéaire standard donné précédemment (sans l'ordonnée à l'origine, qui a été ignorée ici dans un soucis de simplification). Ainsi, nous pouvons réaliser une transformation logarithmique des données du taux de Croissance (par exemple, en utilisant les formules de la feuille de données) puis utiliser le module Régression Multiple afin d'estimer la relation entre l'Âge et la Croissance, c'est-à-dire calculer le coefficient de régression b1.

Adéquation du modèle. Bien entendu, par une "mauvaise" transformation, nous pouvons obtenir un modèle inadapté. C'est pourquoi, après "linéarisation" d'un modèle comme celui donné ci-dessus, il s'avère particulièrement important d'étudier les nombreuses statistiques de résidus données dans le module Régression Multiple.

Modèles de Régression Intrinsèquement Non-Linéaires

Comme indiqué dans la rubrique Modèles de Régression Intrinsèquement Linéaires, nous pouvons souvent transformer un modèle non-linéaire du type :

Croissance = exp(-b1*Age)

en un modèle linéaire. Nous pouvons ajuster un modèle linéaire aux données transformées, avant de "re-transformer" les résultats dans leur métrique originale. Certains modèles de régression ne peuvent toutefois pas être transformés en modèles linéaires et vous devez utiliser le module Estimation Non-Linéaire.

Dans l'exemple du taux de croissance ci-dessus, nous avons délibérément "oublié" l'erreur aléatoire de la variable dépendante. Naturellement, le taux de croissance est affecté par de nombreuses autres variables (autres que le temps), et nous pouvons nous attendre à une fluctuation aléatoire considérable (résidu) autour de la droite d'ajustement. Si nous ajoutons cette erreur ou dispersion des résidus au modèle, nous pouvons reformuler le modèle ainsi :

Croissance = exp(-b1*Age) + erreur

Erreur additive. Dans ce modèle, nous considérons la dispersion de l'erreur comme étant indépendante de l'âge, c'est-à-dire que la dispersion de l'erreur des résidus est identique quel que soit l'âge. Puisque le terme d'erreur de ce modèle est additif, nous ne pouvons plus linéariser ce modèle en prenant le logarithme des deux côtés. Si pour des données particulières, vous réalisiez malgré tout une transformation logarithmique de la variable Croissance et que vous ajustiez le modèle linéaire simple, vous trouveriez que les résidus de l'analyse ne sont plus distribués équitablement sur l'intervalle de la variable Âge ; et donc, l'analyse de régression linéaire standard (par le module Régression Multiple) s'avérerait inadaptée. C'est la raison pour laquelle, la seule manière d'estimer les paramètres de ce modèle consiste à utiliser le module Estimation Non-Linéaire.

Erreur multiplicative. Pour "défendre" notre exemple précédent, dans ce cas particulier, il est improbable que la dispersion de l'erreur soit constante à tous les âges, c'est-à-dire que l'erreur soit additive. La fluctuation aléatoire et imprévisible du taux de croissance est vraisemblablement plus forte dans les premières années de la vie, qu'à des âges plus avancés, lorsque la croissance se stabilise. Ainsi, un modèle plus réaliste comportant une erreur serait de la forme :

Croissance = exp(-b1*Age) * erreur

En d'autres termes, plus l'âge sera important et plus le terme exp(-b1*Age) sera faible, avec comme conséquence une dispersion plus faible de l'erreur résultante. Si nous prenons maintenant le logarithme des deux membres de l'équation, le terme d'erreur des résidus va devenir un facteur additif dans une équation linéaire, et nous pourrons alors estimer b1 grâce à une régression multiple standard.

Log (Croissance) = -b1*Age + erreur

Considérons maintenant certains modèles de régression (non-linéaires dans leurs paramètres) ne pouvant être "rendus linéaires" par de simples transformations des données brutes.

Modèle Général de Croissance

Le modèle général de croissance est similaire à l'exemple donné précédemment  :

y = b0 + b1*exp(b2*x) + erreur

Ce modèle est couramment utilisé dans des études portant sur la croissance (y), lorsque le taux de croissance à un moment donné (x) est proportionnel à la croissance restante. Le paramètre b0 dans ce modèle représente la valeur maximum de croissance. Un bon exemple de l'utilisation de ce modèle serait par exemple lorsque nous cherchons à décrire l'évolution de la concentration d'une substance (par exemple, dans de l'eau) en fonction du temps écoulé.

Modèles de Réponses Binaires : Probit et Logit

Il n'est pas rare qu'une variable de réponse ou qu'une variable dépendante soit de nature binaire, c'est-à-dire qu'elle ne puisse prendre que deux valeurs. Par exemple, des patients peuvent soit se rétablir, soit ne pas se rétablir d'une blessure ; des candidats à un emploi peuvent soit être retenus, soit échouer à l'entretien d'embauche, des abonnés à un journal peuvent ou non se réabonner, des bons de réduction peuvent ou non être utilisés, etc... Dans tous ces cas, nous nous intéressons à l'estimation d'un modèle décrivant la relation entre une ou plusieurs variables indépendantes continues et la variable dépendante binaire.

Utiliser la régression linéaire. Naturellement, nous pouvons utiliser des procédures de régression multiple standard pour calculer des coefficients de régression standard. Par exemple, si nous étudions les réabonnements à un journal, nous pouvons créer une variable y contenant des 1 et des 0, où 1 indique que l'individu respectif s'est réabonné et 0 indique qu'il n'a pas renouvelé son abonnement. Toutefois, nous sommes confrontés à un problème : le module Régression Multiple ne "sait" pas que la variable de réponse est de nature binaire. Par conséquent, le modèle ajusté va inévitablement conduire à des valeurs prévues supérieures à 1 ou inférieures à 0. Or des prévisions supérieures à 1 ou inférieures à 0 sont incorrectes ; par conséquent, la restriction portant sur l'intervalle de définition de la variable binaire (par exemple, entre 0 et 1) est ignorée dans la procédure de régression multiple standard.

Fonctions de réponse continues. Nous pouvons reformuler le problème de régression de sorte que, au lieu de prévoir une variable binaire, nous prévoyons une variable continue demeurant naturellement entre les bornes 0 et 1. Les deux modèles de régression les plus courants pour ce faire sont les modèles de régression logit et probit.

Régression logit. Dans le modèle de régression logit, les valeurs prévues de la variable dépendante ne sont jamais inférieures (ou égales à) 0, ni supérieures (ou égales à) 1, quelles que soient les valeurs des variables indépendantes. Cette propriété s'obtient en appliquant l'équation de régression suivante, qui possède en fait une "signification plus poussée" comme nous le verrons brièvement (le terme logit a été utilisé initialement par Berkson, 1944) :

y = exp(b0 + b1*x1 + ... + bn*xn)/{1 + exp(b0 + b1*x1 + ... + bn*xn)}

On peut voir aisément que, quel que soit le coefficient de régression ou l'importance des valeurs de x, ce modèle va toujours générer des valeurs prévues (c'est-à-dire des y prévus) comprises dans l'intervalle 0 à 1.

Le nom logit vient du fait qu'il est possible de linéariser ce modèle par une transformation logit. Considérons la variable dépendante binaire y en termes de probabilités continues p, comprises dans l'intervalle 0 à 1. Nous pouvons transformer cette probabilité p en :

p' = loge{p/(1-p)}

Cette transformation est appelée transformation logit ou logistique. Notez que p' peut théoriquement prendre toute valeur comprise entre moins et plus l'infini. Puisque la transformation logit résout le problème des bornes 0/1 de la variable dépendante originale (probabilité), nous pouvons utiliser ces valeurs (transformées logit) dans une équation de régression linéaire ordinaire. En fait, si nous appliquons une transformation logit aux deux membres de l'équation de régression logit donnée plus tôt, nous obtenons le modèle de régression linéaire standard :

p' = b0 + b1*x1 + b2*x2 + ... + bn*xn

Régression probit. Nous pouvons considérer la variable de réponse binaire comme le résultat d'une variable sous-jacente normalement distribuée comprise dans l'intervalle moins l'infini-plus l'infini. Par exemple, un abonné peut être fermement hostile au réabonnement, être plutôt indécis, "être prêt" à se réabonner, ou réellement souhaiter se réabonner. Dans tous les cas, tout ce que nous verrons (nous, directeur du journal) sera la réponse binaire de réabonnement ou de refus de réabonnement. C'est pourquoi, si nous construisons l'équation de régression linéaire standard, basée sur le "sentiment" sous-jacent, nous pouvons écrire :

sentiment... = b0 + b1*x1 + ...

Vous reconnaîtrez naturellement le modèle de régression standard. Il semble raisonnable de penser que ces sentiments sont normalement distribués et que la probabilité p de renouveler l'abonnement est sensiblement égale à l'espace relatif situé sous la courbe normale. Ainsi, si nous transformons chaque membre de l'équation afin de refléter les probabilités normales, nous obtenons :

PN(sentiment...) = PN(b0 + b1*x1 + ...)

PN représente la Probabilité Normale (l'espace situé sous la courbe Normale), que vous trouverez dans quasiment tous les ouvrages statistiques. L'équation donnée ci-dessus est également appelée modèle de régression probit. (le terme probit a initialement été utilisé par Bliss, 1934).

Remarque : Modèle Linéaire Généralisé (GLZ). Vous pouvez également utiliser le module Modèle Linéaire/Non-Linéaire Généralisé (GLZ) pour analyser des variables de réponse binaires. GLZ est une implémentation du modèle linéaire généralisé et il vous permet d'effectuer des régressions multiples standard, pas à pas, ou par recherche exhaustive du meilleur modèle (groupe), sur des variables indépendantes continues mais aussi catégorielles, et pour des variables dépendantes binomiales ou multinomiales (régression probit, régression logit binomiale et multinomiale ; voir aussi la rubrique Fonctions de Liaison). En général, les algorithmes d'estimation implémentés dans le module Modèles Linéaires Généralisé (GLZ) sont plus efficaces, et STATISTICA n'utilise ces modèles ici que pour des questions de compatibilité.

Modèle Général de Régression Logistique

Le modèle logistique général peut être formulé ainsi :

y = b0/{1 + b1*exp(b2*x)}

Vous pouvez considérer ce modèle comme une extension du modèle logit ou logistique de réponses binaires. Toutefois, tandis que le modèle logit restreint la variable dépendante à seulement deux valeurs, ce modèle permet à la réponse de varier entre des limites supérieures et inférieures particulières. Par exemple, supposons que nous nous intéressons à la croissance en fonction du temps, de la population d'une espèce, introduite dans un nouvel habitat. La variable dépendante serait le nombre d'individus de cette espèce dans l'habitat respectif. Naturellement, la variable dépendante possède une limite inférieure, puisque nous ne pouvons pas avoir moins de 0 individu dans l'habitation ; mais il existe vraisemblablement aussi une limite supérieure qui sera atteinte à un moment donné.

Efficacité d'un Médicament et Réponse Semi-Maximale

En pharmacologie, le modèle suivant est souvent utilisé pour décrire les effets de différentes concentrations pour un médicament :

y = b0 - b0/{1 + (x/b2)b1}

Dans ce modèle, x représente la concentration (prenant souvent une forme codée, de sorte que x ³ 1) et y représente l'efficacité, exprimée en terme de pourcentage de l'efficacité maximum possible. Le paramètre b0 représente la réponse attendue à la concentration de saturation et b2 est la concentration qui produit une réponse d'efficacité semi-maximale  ; le paramètre b1 détermine la pente de la fonction.

Modèles de Régression Discontinus

Régression linéaire par segments. Il n'est pas rare que la nature d'une relation entre une ou plusieurs variables indépendantes et une variable dépendante change sur l'intervalle des variables indépendantes. Par exemple, supposons que nous surveillons le coût de production par unité d'un produit particulier en fonction du nombre d'unités produites (production) par mois. Souvent, plus nous produisons d'unités par mois, plus notre coût unitaire est faible, et cette relation linéaire reste valable pour une large gamme de produits différents. Toutefois, il est concevable qu'au delà d'un certain seuil, apparaisse une discontinuité dans la relation entre ces deux variables. Par exemple, le coût moyen peut diminuer relativement moins rapidement lorsque des machines plus anciennes (moins productives) doivent être utilisées pour produire des quantités plus importantes. Supposons que nous devions remettre en marche d'anciennes machines lorsque la production dépasse 500 unités par mois ; nous pouvons alors spécifier un modèle de régression du coût moyen (par unité) comme suit :

y = b0 + b1*x*(x £ 500) + b2*x*(x > 500)

Dans cette formule, y représente le coût moyen estimé ; x est la production mensuelle. Les expressions (x £ 500) et (x > 500) représentent des conditions logiques qui prendront la valeur 0 si la condition n'est pas remplie (condition fausse), et 1 dans le cas inverse (condition vraie). Par conséquent, ce modèle spécifie une ordonnée à l'origine commune (b0), et une pente qui sera soit égale à b1 (si x £ 500 est vrai, c'est-à-dire égal à 1) ou b2 (si x > 500 est vrai, c'est-à-dire égal à 1).

Au lieu de spécifier le point où se produit la rupture dans la droite de régression (à 500 unités mensuelles dans l'exemple ci-dessus), nous pourrions également estimer ce point. Par exemple, nous pourrions avoir remarqué ou suspecté qu'il existe une rupture dans le coût moyen à un point particulier, sans savoir précisément où se situe ce point. Dans ce cas, il suffit de remplacer le 500 dans l'équation ci-dessus par un paramètre supplémentaire (par exemple, b3). L'estimation non-linéaire va alors estimer ce point de rupture. Pour plus d'information, voir la rubrique Régression linéaire par segments.

Point de rupture. Il est possible d'ajuster l'équation ci-dessus pour refléter un "saut" dans la droite de régression. Par exemple, imaginons qu'après mise en marche des plus vieilles machines, le coût unitaire passe à un niveau supérieur, puis diminue progressivement à mesure que les quantités produites continuent à augmenter. Dans ce cas, spécifiez simplement une ordonnée à l'origine supplémentaire (b3), de sorte que :

y = (b0 + b1*x)*(x £ 500) + (b3 + b2*x)*(x > 500)

Le module Estimation Non-Linéaire comporte un modèle prédéfini de régression par point de rupture. Toutefois, contrairement au modèle donné ci-dessus, cette option va ajuster différents modèles de régression aux différents intervalles de la variable dépendante y.

Comparer des groupes. La méthode décrite ici, permet d'estimer différentes équations de régression dans différentes parties de la variable indépendante. Elle peut également être utilisée pour comparer des groupes. Par exemple, supposons que dans l'exemple ci-dessus, nous ayons trois usines différentes ; pour simplifier l'exemple, ignorons le point de rupture pour le moment. Si nous codifions les trois usines dans une variable de classement en utilisant les valeurs 1, 2 et 3, nous pouvons simultanément estimer trois équations différentes de régression en spécifiant :

y = (xp=1)*(b10 + b11*x) + (xp=2)*(b20 + b21*x) + (xp=3)*(b30 + b31*x)

Dans cette équation, xp représente la variable de classement contenant les codes identifiant chaque usine ; b10, b20, et b30 sont les trois ordonnées à l'origine différentes ; et b11, b21, et b31 représentent les paramètres de pente (coefficients de régression) de chaque usine. Nous pouvons alors comparer l'ajustement du modèle de régression commun sans considérer les différents groupes (usines) de ce modèle afin de déterminer le modèle qui est le mieux adapté.

Régression par l'Axe Majeur

La Régression par l'Axe Majeur (RAM) et la Régression par l'Axe Majeur Réduit constituent des méthodes courantes pour traiter le problème de la dispersion naturelle à la fois en x et en y.  

RAM est une méthode qui va minimiser une fonction de perte différente de celle de la régression par les Moindres Carrés Ordinaires (MCO). MCO va minimiser la somme des écarts au carré avec les valeurs prévues, (valeurs observées - valeurs prévues)^2. MAR va au contraire minimiser les sommes des carrés de la distance perpendiculaire entre chaque point et la droite de régression.

STATISTICA vous offre la possibilité de définir votre propre fonction de perte dans le module Estimation Non-Linéaire. Dans le menu Statistiques - Modèles Linéaires Non-Linéaires Avancés, sélectionnez la commande Estimation Non-Linéaire afin d'accéder à la boîte de dialogue Estimation Non-Linéaire (Panneau de Démarrage).

Dans l'onglet Base, sélectionnez l'option Régression personnalisée, fonctions de perte puis cliquez sur le bouton OK afin d'accéder à la boîte de dialogue Régression Personnalisée, Fonction de Perte.

Dans cette boîte de dialogue, cliquez sur le bouton Fonction à Estimer & Fonction de Perte afin d'accéder à la boîte de dialogue Fonction Estimée et Fonction de Perte. Vous pourrez y spécifier l'équation de la régression à estimer ainsi que la fonction de perte.

Pour une régression linéaire simple, Y = b0 + b1*x, la fonction de perte de la RAM s'écrit (y - (b0 + b1*x))^2/(1 + b1^2).  

Estimation par les Moindres Carrés

Certains des modèles d'estimation non-linéaires les plus courants sont présentés dans la rubrique Modèles de régression non-linéaire courants. La question est maintenant de savoir comment ces modèles sont estimés. Si vous êtes familiarisé(e) avec les techniques de régression linéaire (comme décrites dans le module Régression Multiple) ou les techniques d'analyse de variance (ANOVA) (comme décrites dans le module ANOVA/MANOVA), vous savez probablement que toutes ces méthodes utilisent des procédures dites d'estimation des moindres carrés. Moins techniquement, les estimations des moindres carrés visent à minimiser la somme des écarts au carré entre les valeurs observées de la variable dépendante et celles prévues par le modèle. (le terme moindres carrés a été initialement utilisé par Legendre, 1805).

Estimation non-linéaire des moindres carrés : L'algorithme de Levenberg-Marquardt. Lorsque vous utilisez le critère des moindres carrés, le très efficace algorithme de Levenberg-Marquardt (Levenberg, 1944 ; Marquardt, 1963 ; voir aussi Moré, 1977, pour une description détaillée de cet algorithme) peut être utilisé pour estimer les paramètres pour les problèmes de régression linéaire et non-linéaire arbitraires. Pour les grands ensembles de données, lorsque vous utilisez le critère des moindres carrés, c'est la méthode qui est recommandée pour ajuster les modèles non-linéaires. Voir aussi la rubrique Algorithme de Levenberg-Marquardt (Estimation Non-Linéaire par les Moindres Carrés) pour des détails concernant cet algorithme. Remarque : il peut exister une différence avec un ajustement personnalisé par une fonction de perte par les moindres carrés [(obs-pred)**2] ; toutefois, ces deux méthodes vont généralement produire des résultats concordants sur les 5-8 premières décimales significatives.

Fonctions de Perte

Dans la régression multiple standard, nous estimons les coefficients de régression en "recherchant" les coefficients qui minimisent la variance des résidus (somme des carrés des résidus) autour de la droite de régression. Tout écart entre une valeur observée et une valeur prévue se traduit par une certaine perte dans la précision de notre prévision, par exemple, en raison du bruit aléatoire (erreur). C'est pourquoi nous pouvons dire que l'objectif de l'estimation des moindres carrés est de minimiser une certaine fonction de perte ; plus particulièrement, cette fonction de perte se définit comme la somme des écarts au carré par rapport aux valeurs prévues (le terme perte a été initialement utilisé par Wald, 1939). Lorsque cette fonction est à son minimum, nous obtenons les mêmes estimations de paramètres (ordonnée à l'origine, coefficients de régression) que nous aurions dans le module Régression Multiple ; en raison des fonctions de perte qui ont permis de produire ces estimations, nous appelons ces estimations : estimations par les moindres carrés.

Exprimé de cette manière, il n'y a aucune raison pour ne pas considérer d'autres fonctions de perte. Par exemple, au lieu de minimiser la somme des carrés des écarts, pourquoi ne pas minimiser la somme des écarts absolus ? C'est effectivement parfois utile pour donner moins d'importance aux points atypiques. Par rapport aux autres résidus, un résidu important va devenir encore plus important lorsqu'il est élevé au carré. Par conséquent, en ne prenant que les valeurs des écarts absolus, la droite de régression obtenue sera probablement moins affectée par les points aberrants.

Le module Estimation Non-Linéaire comporte plusieurs méthodes de minimisation de fonctions pouvant être utilisées afin de minimiser tout type de fonction de perte. Lorsque vous utilisez des fonctions de perte par les moindres carrés, l'estimation des paramètres pour les modèles non-linéaires est souvent plus efficace, en particulier avec les grands ensembles de données. Dans ce cas vous devriez utiliser l'algorithme de Levenberg-Marquardt (Voir aussi la rubrique Régression Personnalisée, Moindres Carrés).

Moindres Carrés Pondérés

Outre la régression par les moindres carrés et par les écarts absolus, l'estimation par les moindres carrés pondérés compte sans conteste parmi les techniques les plus couramment utilisées. La technique des moindres carrés ordinaires (MCO) suppose que la variance des résidus autour de la droite de régression soit constante pour toutes les valeurs de la ou des variables indépendantes. En d'autres termes, nous considérons que la variance de l'erreur de mesure pour chaque observation est identique. Souvent, cette hypothèse est peu réaliste ; en particulier, de fréquentes violations se produisent en économie, dans les affaires ou dans les applications biologiques (notez que les estimations de paramètres par les moindres carrés pondérés peuvent également être calculées dans le module Régression Multiple).

Par exemple, supposons que nous souhaitons étudier la relation entre le coût prévu de projets de construction, et le véritable coût afin d'obtenir un indicateur du dépassement du coût attendu. Dans ce cas, il est raisonnable de supposer que l'importance absolue (en Euros) du dépassement des estimations, sera proportionnelle à la taille du projet. Ainsi, nous pouvons utiliser une fonction de perte des moindres carrés pondérés afin d'ajuster un modèle de régression linéaire. Plus précisément, la fonction de perte serait de la forme (voir par exemple, Neter, Wasserman, et Kutner, 1985, p. 168)  :

Perte = (Obs-Pred)2 * (1/x2)

Dans cette équation, la fonction de perte va tout d'abord spécifier la fonction de perte des moindres carrés standard (valeur Observée moins Prévue au carré  ; c'est-à-dire, le résidu au carré), puis pondérer cette perte par l'inverse de la valeur de la variable indépendante (x) au carré pour chaque observation. Dans la véritable estimation, le programme va additionner la valeur de la fonction de perte pour chaque observation (par exemple, projet de construction), comme spécifié ci-dessus, puis estimer les paramètres qui minimisent cette somme. Pour revenir à notre exemple, plus le projet (x) sera important et moins la pondération associée des écarts à la valeur prévue (coût) sera forte. Cette méthode produit des estimations plus stables des paramètres de régression (pour plus de détails, voir Neter, Wasserman, et Kutner, 1985).

Maximum de Vraisemblance

Une alternative à la fonction de perte des moindres carrés consiste à maximiser la fonction de vraisemblance ou de log-vraisemblance (ou de minimiser la fonction négative de log-vraisemblance ; le terme maximum de vraisemblance a été initialement proposé par Fisher, 1922). D'une manière générale, la fonction de vraisemblance se définit comme :

L = F(Y,Modèle) = Õin= 1 {p [yi, Paramètres du Modèle(xi)]}

En théorie, nous pouvons calculer la probabilité (appelée par convention L, pour likelihood, la vraisemblance) des valeurs spécifiques de la variable dépendante se produisant dans notre échantillon, compte tenu du modèle de régression respectif. A condition que toutes les observations soient indépendantes entre elles, cette vraisemblance est la somme géométrique (Õ, des observations i = 1 à n) des probabilités que chaque observation individuelle (i) se produise, étant donné le modèle et les paramètres respectifs des valeurs de x (la somme géométrique signifie que nous multiplions les probabilités individuelles des observations). Il est assez courant d'exprimer cette fonction comme un logarithme népérien, et donc, dans ce cas, la somme géométrique devient une somme arithmétique standard (S, des observations i = 1 à n).

Étant donné le modèle respectif, plus la vraisemblance du modèle sera forte, plus la probabilité que les valeurs de la variable dépendante se produisent dans notre échantillon sera forte. Ainsi, plus la vraisemblance sera importante, meilleur sera l'ajustement du modèle aux données. Les calculs dans certains modèles peuvent devenir assez complexes puisqu'il nous faut calculer les probabilités que les valeurs de y se produisent (étant donné le modèle et les valeurs de x respectifs). Il s'avère que si toutes les hypothèses de la régression multiple standard sont vérifiées (comme nous les avons décrites dans le module Régression Multiple), la méthode d'estimation des moindres carrés standards (voir ci-dessus) va produire des résultats identiques à la méthode du maximum de vraisemblance. Si l'hypothèse d'homogénéité des variances des erreurs sur l'étendue de la ou des variables x est violée, la méthode des moindres carrés pondérés décrite précédemment va produire des estimations du maximum de vraisemblance.

Maximum de Vraisemblance et Modèles Probit/Logit

La fonction du maximum de vraisemblance a été élaborée pour les modèles de régression probit et logit. Plus précisément, la fonction de perte de ces modèles se calcule comme la somme du logarithme népérien de la vraisemblance logit ou probit L1 de sorte que :

log(L1) = Sin= 1 [yi*log(pi ) + (1-yi )*log(1-pi )]

log(L1)

représente le log népérien de la vraisemblance (log-vraisemblance) (logit ou probit) du modèle courant

yi

représente la valeur observée de l'observation i

pi

représente la probabilité attendue (prévue ou ajustée), comprise entre 0 et 1

La log-vraisemblance du modèle nul (L0), c'est-à-dire le modèle ne contenant que l'ordonnée à l'origine (sans coefficient de régression) se calcule ainsi :

log(L0) = n0*(log(n0/n)) + n1*(log(n1/n))

log(L0)

représente le log népérien de la vraisemblance (logit ou probit) du modèle nul (ne contenant que l'ordonnée à l'origine)

n0

représente le nombre d'observations avec une valeur nulle (zéro)

n1

représente le nombre d'observations avec une valeur de 1

n

représente le nombre total d'observations

Ces formules ne sont rappelées ici que pour "mémo" ; l'estimation par le maximum de vraisemblance sera automatiquement utilisée pour les modèles probit et logit ; vous n'aurez donc pas à saisir cette formule complexe dans l'éditeur de la fonction de perte.

Remarque  : Modèle Linéaire Généralisé (GLZ). Vous pouvez également utiliser le module Modèles Linéaires/Non-Linéaires Généralisés (GLZ) pour analyser des variables de réponse binaires. GLZ est une implémentation du modèle linéaire généralisé et il vous permet d'effectuer des régressions multiples standard, pas à pas, ou par recherche exhaustive du meilleur modèle (groupe), sur des variables indépendantes continues mais aussi catégorielles, et pour des variables dépendantes binomiales ou multinomiales (régression probit, régression logit binomiale et multinomiale ; voir aussi la rubrique Fonctions de Liaison). En général, les algorithmes d'estimation implémentés dans le module Modèles Linéaires Généralisé (GLZ) sont plus efficaces, et STATISTICA n'utilise ces modèles ici que pour des questions de compatibilité.

Algorithmes de Minimisation de Fonctions

Maintenant que nous avons présenté différents modèles de régression, et les fonctions de perte qui peuvent être utilisées pour les estimer, la question qui demeure est de savoir comment minimiser les fonctions de perte (afin de trouver le meilleur ajustement des paramètres) et comment estimer les erreurs-types de paramètres estimés. Le module Estimation Non-Linéaire utilise un algorithme très efficace (quasi-Newton) qui donne une approximation des dérivées secondes de la fonction de perte permettant d'orienter la recherche du minimum (c'est-à-dire des meilleures estimations de paramètres, compte tenu de la fonction de perte).

Pour la régression non-linéaire par les moindres carrés (c'est-à-dire les fonctions de régression non-linéaire, et les fonctions de perte par les moindres carrés, le module Estimation Non-Linéaire inclut un algorithme approprié qui est robuste et très efficace, et la méthode d'estimation que nous vous recommandons lorsque vous analysez des grands ensembles de données et que vous utilisez la fonction de perte par les moindres carrés est : l'algorithme de Levenberg-Marquardt (Levenberg, 1944 ; Marquardt, 1963 ; voir aussi Moré, 1977).

En outre, le module Estimation Non-Linéaire met à votre disposition d'autres algorithmes de minimisation de fonctions plus généraux, permettant différentes stratégies de recherche (indépendantes des dérivées secondes). Ces stratégies sont parfois plus efficaces pour estimer des fonctions de perte avec des minima locaux ; par conséquent, ces méthodes constituent souvent une aide précieuse pour trouver des valeurs de départ appropriées pour une estimation par la méthode quasi-Newton.

Dans tous les cas, STATISTICA peut calculer (sur demande de l'utilisateur) les erreurs-types des paramètres estimés. Ces erreurs-types sont basées sur les dérivées partielles du second ordre des paramètres, qui sont calculés par une approximation de différence finie.

Si vous n'êtes pas particulièrement intéressé(e) par la manière dont la minimisation de la fonction de perte est obtenue, mais seulement par le fait qu'elle peut être obtenue, vous pouvez passer les paragraphes suivants. Toutefois, il peut être utile d'avoir quelques notions sur ces procédures, ne serait ce que dans l'éventualité où votre modèle de régression "refuserait" d'ajuster les données. Dans ce cas, la procédure d'estimation itérative ne va pas converger, et produire des estimations de paramètres "suspectes" (par exemple, très fortes ou très faibles).

Dans les paragraphes suivants, nous allons tout d'abord présenter certaines questions générales ayant trait à l'optimisation sans contraintes, puis brièvement examiner les méthodes utilisées dans ce module. Pour une présentation détaillée de ces procédures, vous pouvez vous référer à Brent (1973), Gill et Murray (1974), Peressini, Sullivan, et Uhl (1988), et Wilde et Beightler (1967). Pour des algorithmes spécifiques, voir Dennis et Schnabel (1983), Eason et Fenton (1974), Fletcher (1969), Fletcher et Powell (1963), Fletcher et Reeves (1964), Hooke et Jeeves (1961), Jacoby, Kowalik, et Pizzo (1972) et Nelder et Mead (1964).

Valeurs de Départ, Incréments, Critères de Convergence. Un aspect commun à toutes les procédures d'estimation est qu'elles nécessitent des valeurs de départ, des incréments initiaux, et un critère de convergence spécifiés par l'utilisateur. Toutes ces méthodes vont démarrer avec des estimations initiales (valeurs de départ), qui seront modifiées de manière itérative ; pour la première itération, l'incrément détermine de combien les paramètres doivent être déplacés. Le critère de convergence détermine le moment où le processus itératif prend fin. Par exemple, le processus peut se terminer lorsque les améliorations de la fonction de perte d'une itération sur l'autre sont inférieures à un certain seuil. Le module Estimation Non-Linéaire utilise des valeurs par défaut prédéfinies pour tous ces paramètres, valeurs qui s'avèrent souvent bien adaptées.

Fonctions de Pénalité, Paramètres sous Contraintes. Toutes les procédures d'estimation dans le module Estimation Non-Linéaire sont sans contrainte. Ceci signifie que le programme va modifier les paramètres sans se préoccuper de savoir si les valeurs obtenues sont permises ou non. Par exemple, en cours de régression logit nous pouvons obtenir des valeurs estimées qui sont égales à 0,0. Dans ce cas, le logarithme ne pourra pas être calculé (puisque le log de 0 n'est pas défini). Lorsque le cas de figure se présente, le programme va affecter une pénalité à la fonction de perte, c'est-à-dire une valeur très importante. Les diverses procédures d'estimation vont alors quitter les régions produisant ces fonctions. Toutefois, dans certains cas, l'estimation sera "bloquée" et vous aurez une valeur très importante de la fonction de perte. Ceci peut se produire, par exemple, lorsque l'équation de régression nécessite de prendre le logarithme d'une variable indépendante prenant des valeurs nulles pour certaines observations (le logarithme est alors incalculable).

Si vous souhaitez placer une contrainte dans une procédure d'Estimation Non-Linéaire, cette contrainte doit être spécifiée dans la fonction de perte comme une fonction de pénalité. Ainsi, l'utilisateur peut contrôler les valeurs permises des paramètres à estimer pouvant être manipulées par le programme. Par exemple, si deux paramètres (a et b) doivent être positifs ou nuls, il faut fixer une forte pénalité à ces paramètres si cette condition n'est par remplie. Ci-dessous, un exemple de régression et de fonction de perte personnalisées, comportant des valeurs de pénalité destinées à "pénaliser" les paramètres a et/ou b si l'un ou l'autre n'est pas supérieur ou égal à zéro :

Fonction estimée : v3 = a + b*v1 + (c*v2)

Fonction de perte : L = (obs - pred)**2 + (a<0)*100000 + (b<0)*100000

Minima Locaux. Les plus gros "pièges" des minimisations de fonctions sans contraintes sont les minima locaux. Par exemple, une fonction de perte particulière peut devenir sensiblement plus importante, quelle que soit la manière dont un paramètre particulier est déplacé. En revanche, si le paramètre était déplacé vers une position complètement différente, la fonction de perte pourrait en fait devenir plus faible. Vous pouvez vous représenter ces minima locaux comme des "vallées" locales ou des "creux" mineurs dans la fonction de perte. C'est pourquoi, dans la plupart des applications pratiques, les minima locaux vont produire des estimations de paramètres extrêmement larges ou faibles avec des erreurs-types très importantes. Lorsque le cas se présente, spécifiez des valeurs de départ différentes et essayez à nouveau. Notez en outre, que la méthode Simplexe (voir ci-dessous) est particulièrement "intelligente" pour éviter ces minima ; et donc, cette méthode peut s'avérer particulièrement bien adaptée pour trouver des valeurs de départ appropriées pour des fonctions complexes.

Méthode Quasi-Newton. Comme vous le savez certainement, la pente d'une fonction en un point particulier peut se calculer comme la dérivée première de la fonction (en ce point). La "pente de la pente" est la dérivée seconde, nous indiquant la vitesse à laquelle la pente se modifie au point respectif, et dans quelle direction. La méthode quasi-Newton, permet à chaque étape, d'évaluer la fonction en différents points afin d'estimer les dérivées premières et secondes. Puis elle va utiliser cette information pour se diriger vers le minimum de la fonction de perte.

Algorithme de Levenberg-Marquardt (estimation par les moindres carrés). Levenberg (1944) et Marquardt (1963) ont proposé une méthode efficace pour estimer les paramètres des modèles de régression non-linéaire, lors de l'utilisation d'une fonction de perte par les moindres carrés. Lors de l'utilisation d'une fonction de perte par les moindres carrés, il n'est pas nécessaire de calculer (ni d'approcher) les dérivées secondes (partielles) pour trouver les paramètres estimés des moindres carrés ; en revanche, à chaque itération, l'algorithme résout un ensemble d'équations linéaires pour calculer le gradient, ce qui du point de vue des calculs est facile et rapide (par rapport aux autres techniques d'optimisation). Les détails du calcul de la dérivée et des étapes spécifiques définissant l'algorithme de Levenberg-Marquardt sont présentés dans l'ouvrage de Moré (1977). En particulier lorsque vous analysez des grands ensembles de données, cette procédure d'estimation (et la fonction de perte par les moindres carrés) est la méthode que nous recommandons pour estimer les paramètres.

L'algorithme de Levenberg-Marquardt (LM) est une amélioration de la méthode classique de Gauss-Newton pour résoudre des problèmes de régression non-linéaire des moindres carrés. Considérez l'ajustement de modèle non-linéaire y = ¦ (q,c) avec les données Xi et Yi, i = 1,...,m où Xi est de dimension k et θ est de dimension N. La méthode LM recherche θ* la solution de θ (localement) minimisant :

g(q)= åim=1(Yi-¦ (q,Xi ))2

LM trouve la solution en appliquant la routine:

q j+1=q j-(J'J+lD)-1J'(Y-¦(q,Xi))

de manière itérative :

Y

est le vecteur m x 1contenant Y1,..., Ym

X

est la matrice m x k contenant X1,..., Xm

J

est la matrice jacobienne m x n pour ¦(q,c) en respectant q

D

est une matrice diagonale n x n pour ajuster les facteurs d'échelle

STATISTICA utilise la méthode de graduation automatique expliquée dans More (1977). Il vous est demandé de saisir la fonction ¦(q,c) de votre modèle (non-linéaire), les valeurs des paramètres de départ (par défaut, 0.1) et les données pour Y et X.

Entrée :

Données

variable dépendante Y, et variables indépendantes X

Modèle

fonction du modèle ¦(q,c)

Valeurs de départ

la valeur de θ dans la première itération

Sortie :

Valeur minimisée de g(θ*)

Coefficient de détermination R-deux

Estimateur θ, c'est-à-dire θ*

Matrice de covariance de θ*, g(θ*)(J'J)-1/(m-n)

Matrice de correlation de θ*

Intervalle de confiance de θ* au niveau significatif de la variable

Valeurs des Résidus et Prédicteurs

Table ANOVA

Historique de l'itération pour les valeurs des moindres carrés et les paramètres

Procédure Simplexe. Cet algorithme n'utilise pas les calculs ou estimations des dérivées de la fonction de perte. En revanche, à chaque itération, la fonction est évaluée en m+1 points de l'espace des paramètres à m dimensions. Par exemple, avec deux dimensions (c'est-à-dire lorsqu'il y a deux paramètres à estimer), le programme va évaluer la fonction en trois points autour de l'optimum courant. Ces trois points vont définir un triangle ; avec plus de deux dimensions, la "figure" produite par ces points est appelée un Simplexe. Intuitivement, avec deux dimensions, trois points vont nous permettre de déterminer "dans quelle direction il faut aller", c'est-à-dire dans quelle direction de l'espace à deux dimensions il nous faut rechercher afin de minimiser la fonction. Le même principe peut s'appliquer à un espace de paramètres multidimensionnel, c'est-à-dire que le Simplexe va se "déplacer" vers le bas ; lorsque les incréments deviennent trop "grossiers" pour détecter une direction claire vers le bas, (c'est-à-dire que le Simplexe est trop important), le Simplexe va se "contracter" et essayer à nouveau.

L'un des atouts supplémentaires de cette méthode est que lorsqu'un minimum semble avoir été trouvé, le Simplexe va à nouveau s'étendre pour atteindre une taille plus importante afin de voir si le minimum respectif est un minimum local. Ainsi, d'une certaine manière, le Simplexe se déplace comme un organisme cellulaire simple sur la fonction de perte, se contractant et se développant en présence de minima locaux ou de crêtes significatives.

Déplacement de la Structure de Hooke-Jeeves. En un sens, il s'agit du plus simple de tous les algorithmes. A chaque itération, cette méthode va tout d'abord définir une structure de points en déplaçant chaque paramètre un par un, afin d'optimiser la fonction de perte courante. Toute la structure des points est alors déplacée ou décalée vers une nouvelle position ; cette nouvelle position est déterminée en extrapolant la droite à partir de l'ancien point de référence dans l'espace des paramètres à m dimensions vers le nouveau point de référence. Les incréments de ce processus sont constamment ajustés afin d'atteindre l'optimum respectif. Cette méthode est souvent assez efficace, et doit être utilisée lorsque les méthodes quasi-Newton et Simplexe (voir ci-dessus) ne parviennent pas à produire des estimations raisonnables.

Recherche de la Structure de Rosenbrock. Là où toutes les autres méthodes échouent, la méthode de recherche de la structure de Rosenbrock réussit souvent. Cette méthode va faire pivoter l'espace des paramètres et aligner un axe sur une crête (cette méthode est également appelée méthode de rotation des coordonnées) ; tous les autres axes vont demeurer orthogonaux à cet axe. Si la fonction de perte est unimodale et possède des crêtes détectables allant vers le minimum de la fonction, cette méthode va assurément se diriger vers le minimum de la fonction. Toutefois, notez que cet algorithme de recherche peut se terminer prématurément lorsqu'il existe plusieurs bornes sous contraintes (résultant de la valeur de pénalité ; voir ci-dessus) qui se croisent, conduisant à des crêtes discontinues.

Matrice Hessienne et Erreurs-Types. La matrice des dérivées secondes (partielles) est également appelée matrice Hessienne. Il s'avère que l'inverse de la matrice Hessienne est une approximation de la matrice de variance/covariance des paramètres estimés. Intuitivement, il doit exister une relation inverse entre la dérivée seconde d'un paramètre et son erreur-type : si la modification de la pente autour du minimum de la fonction est très forte, la dérivée seconde sera très importante ; toutefois, l'estimation du paramètre sera assez stable au sens où le minimum compte tenu du paramètre est clairement identifiable. Si la dérivée seconde est quasiment nulle, la modification de la pente autour du minimum sera nulle ; ceci signifie que nous pouvons pratiquement déplacer le paramètre dans n'importe quelle direction sans affecter fortement la fonction de perte. Par conséquent, l'erreur-type du paramètre sera très importante.

La matrice Hessienne et les erreurs-types asymptotiques des paramètres sont calculés séparément grâce à une approximation de différence finie en cochant l'option Erreurs-types asymptotiques dans l'onglet Avancé de la boîte de dialogue Estimation du Modèle. Cette procédure produit des erreurs-types asymptotiques très précises pour toutes les méthodes d'estimation.

Qualité d'Ajustement du Modèle

Après avoir estimé les paramètres de régression, il nous reste à tester si le modèle global est bien adapté. Par exemple, si nous avons spécifié un modèle de régression linéaire, mais que la relation est intrinsèquement non-linéaire, l'estimation des paramètres (coefficients de régression) et les erreurs-types de ces estimations peuvent être significativement différentes de leurs véritables valeurs. Examinons certaines des méthodes permettant d'évaluer si un modèle est bien approprié.Consultez les rubriques suivantes pour une présentation des modèles de régression non-linéaire et des procédures d'estimation non-linéaire courants.

Proportion de Variance Expliquée

Quel que soit le modèle, il est toujours possible de calculer la variance totale de la variable dépendante (somme des carrés totale, SCT), la proportion de variance imputable aux résidus (somme des carrés de l'erreur, SCE), et la proportion de variance due au modèle de régression (somme des carrés de la régression, SCR=SCT-SCE). Le ratio de la somme des carrés de la régression à la somme des carrés totale (SCR/SCT) représente la proportion de variance expliquée par le modèle pour la variable dépendante (y)  ; ainsi, ce ratio est équivalent au R² (0 ££ 1, le coefficient de détermination). Même si la variable dépendante n'est pas normalement distribuée entre les observations, cette mesure peut nous aider à évaluer dans quelle mesure le modèle ajuste les données.

Chi² de Qualité d'Ajustement

Pour les modèles de régression probit et logit, le module Estimation Non-Linéaire va utiliser l'estimation du maximum de vraisemblance (c'est-à-dire maximiser la fonction de vraisemblance ; voir la rubrique Régression Probit/Logit). Il s'avère que nous pouvons comparer directement la vraisemblance L0 du modèle nul dans lequel tous les paramètres de pente sont nuls, avec la vraisemblance L1 du modèle ajusté. Plus précisément, nous pouvons calculer la statistique du Chi² pour cette comparaison comme suit :

Chi² = -2 * (log(L0) - log(L1))

Les degrés de liberté du Chi² sont égaux à la différence entre le nombre de paramètres du modèle nul et du modèle ajusté ; ainsi, le nombre de degrés de liberté est égal au nombre de variables indépendantes dans la régression logit ou probit. Si le niveau p associé à ce Chi² est significatif, nous pouvons dire que le modèle estimé produit significativement un meilleur ajustement des données que le modèle nul, c'est-à-dire que les paramètres de régression sont statistiquement significatifs.

Tracé des Valeurs Observées et Prévues

Il est toujours bon de représenter le nuage de points des valeurs prévues en fonction des valeurs observées. Si le modèle est bien adapté aux données, nous pouvons nous attendre à ce que les points soient approximativement alignés sur une droite ; si le modèle n'est pas spécifié correctement, ce tracé va alors mettre en évidence une structure non-linéaire.

Droite de Henry et Normalité par Moitié

La droite de Henry des résidus nous donne une indication permettant d'établir si les résidus (c'est-à-dire les erreurs) sont normalement distribués. Pour plus d'informations sur la manière avec laquelle la droite de Henry est construite, voir la rubrique droite de Henry. Pour plus d'informations sur la manière dont est construit le tracé de normalité par moitié, voir la rubrique normalité par moitié.

Tracé de la Fonction Ajustée

Pour des modèles impliquant deux ou trois variables (un ou deux prédicteurs), il est souvent utile de tracer la fonction ajustée en utilisant les paramètres estimés finaux. Vous pouvez observer ci-dessous, un exemple de tracé en 3D avec deux variables prédictives :

Ce type de tracé permet de contrôler visuellement et de la manière la plus directe si le modèle ajuste bien les données ou non, et permet de mettre en évidence les points atypiques (aberrants).

Matrice de Variance/Covariance des Paramètres

Lorsqu'un modèle est très mal spécifié, ou que la procédure d'estimation "tombe" dans un minimum local, les erreurs-types des paramètres estimés (qui peuvent être calculés par le programme grâce à l'approximation de différence finie) peuvent devenir très importantes. Ceci signifie que quelle que soit la manière dont les paramètres ont été déplacés autour des valeurs finales, la fonction de perte obtenue n'a plus beaucoup varié. En outre, les corrélations entre les paramètres peuvent devenir très importantes, ce qui indique que les paramètres sont fortement redondants ; en d'autres termes, lorsque l'algorithme d'estimation a déplacé un paramètre par rapport à la valeur finale, l'augmentation de la fonction de perte a pu être presque entièrement compensée par le déplacement d'un autre paramètre. Et donc, l'effet de ces deux paramètres sur la fonction de perte était extrêmement redondant.

Régression Logistique

Lorsque vous sélectionnez l'option Régression Logit dans la boîte de dialogue Estimation Non-Linéaire (Panneau de Démarrage) - onglet Base, le modèle logistique général peut être formulé ainsi :

y = b0 /{1+b1 *exp(b2 *x)}

Vous pouvez considérer ce modèle comme une extension du modèle logit ou logistique de réponses binaires. Toutefois, tandis que le modèle logit restreint la variable dépendante à seulement deux valeurs, ce modèle permet à la réponse de varier entre des limites supérieures et inférieures particulières. Par exemple, supposons que nous nous intéressons à la croissance de la population d'une espèce, introduite dans un nouvel habitat, en fonction du temps. La variable dépendante serait le nombre d'individus de cette espèce dans l'habitat respectif. Naturellement, la variable dépendante possède une limite inférieure, puisque nous ne pouvons pas avoir moins de 0 individus dans l'habitation ; mais il existe vraisemblablement aussi une limite supérieure qui sera atteinte à un moment donné.

Régression Probit et Transformation

Dans le modèle de régression probit, les valeurs prévues pour la variable dépendante ne seront jamais inférieures (ou égales) à 0, ou supérieures (ou égales) à 1, quelles que soient les valeurs des variables indépendantes  ; c'est, par conséquent, fréquemment utilisé pour analyser des variables ou réponses dépendantes binaires (voir également la rubrique distribution binomiale). Ceci est accompli en appliquant l'équation de régression suivante (le terme probit a été utilisé pour la première fois par Bliss en 1934) :

y = LN(b0 + b1 *x1 ...)

LN représente la Loi Normale (l'espace situé sous la courbe de distribution normale ; ou la fonction de distribution cumulée de la distribution normale). Il est facilement reconnu que ce modèle produira toujours des valeurs prévues (y prévus) dans l'intervalle 0 à 1, quels que soient les coefficients de régression ou l'ampleur des valeurs de x.

Régression Exponentielle

Lorsque vous sélectionnez l'option Croissance exponentielle dans la boîte de dialogue Estimation Non-Linéaire (Panneau de Démarrage) - onglet Base, STATISTICA, en utilisant les moindres carrés, va estimer le modèle :

y = c + exp(b0 + b1 *x1 + b2 *x2 + ... + bm *xm )

c, bi sont des paramètres (pour les m variables indépendantes)

Ce modèle est couramment utilisé pour étudier la croissance des populations.

Régression Linéaire par Segments

Lorsque vous sélectionnez l'option Régression linéaire par segments dans la boîte de dialogue Estimation Non-Linéaire (Panneau de Démarrage) - onglet Base, STATISTICA, en utilisant les moindres carrés, va estimer le modèle :

 

y = (b01 +b11 *x1 +...+bm1 *xm )*(y £ bn ) + (b02 +b12 *x1 +...+bm2 *xm )*(y > bn )

Ainsi, le programme va estimer deux équations de régressions linéaires séparées ; une pour les valeurs de y inférieures ou égales au point de rupture (b0) et une pour les valeurs de y supérieures à ce point de rupture. (pour une description plus approfondie de ces types de modèles, voir la rubrique Principaux Modèles de Régression Non-Linéaire).

Afin d'estimer des modèles avec des points de rupture (discontinuités) dans les variables indépendantes, sélectionnez l'option Régression personnalisée dans la boîte de dialogue Estimation Non-Linéaire (Panneau de Démarrage) - onglet Base puis utilisez les opérateurs logiques de l'équation du modèle pour définir les points de rupture).

Modèles Additifs Généralisés

Cet exemple repose sur le fichier de données décrit dans l'ouvrage de Neter, Wasserman et Kutner (1985, page 357 ; sachez cependant que les auteurs ont ajusté un modèle de régression linéaire sur ces données) ; il est également présenté dans le cadre du module Estimation Non-Linéaire, et plus particulièrement, dans le contexte des exemples de Régression Logit Élémentaire. Dans cet exemple, nous allons ajuster un modèle additif généralisé logit à nos données, que nous pourrons comparer aux résultats produits par un ("simple") modèle de régression logit. Vous trouverez des exemples détaillés de modèles additifs généralisés logit et d'autres distributions et fonctions de liaison dans l'ouvrage de Hastie et Tibshirani (1990).

Supposons que nous cherchions à savoir si l'expérience permet à des analystes-programmeurs de réaliser des tâches de programmation complexes dans un temps donné.  Nous avons sélectionné vingt cinq programmeurs avec des degrés divers d'expérience (exprimée en mois). Nous leur avons ensuite demandé de réaliser une tâche de programmation complexe dans un temps imparti. La variable dépendante binaire représente le succès ou l'échec des programmeurs pour réaliser la tâche. Ces données sont contenues dans le fichier de données Program.sta dont un extrait est reporté ci-dessous.

Spécifier l'Analyse. Ouvrez le fichier de données Program.sta puis démarrez le module Modèles Additifs Généralisés (par le menu Data Mining). Sélectionnez ensuite la distribution Binomiale dans la liste Distributions ; la fonction de liaison Logit sera alors automatiquement sélectionnée.  

Cliquez sur le bouton OK, afin d'accéder à la boîte de dialogue GAM - Spécifications, puis cliquez sur le bouton Variables afin d'accéder à une boîte de dialogue standard de sélection de variables. Sélectionnez les variables de l'analyse : Sélectionnez la variable Succès comme variable dépendante, et la variable Expérience comme variable prédictive continue (dans la troisième liste de cette boîte de dialogue de sélection de variables à 4 listes). Cliquez ensuite sur le bouton OK.

Remarque : STATISTICA va automatiquement renseigner les codes de la variable dépendante binomiale. Au cours des calculs, la valeur Échec de la variable dépendante Succès sera interprétée en 0, et la valeur Succès sera interprétée en 1. Par conséquent, dans les résultats, plus la valeur (logit) prévue sera forte, plus la probabilité de réussite des programmeurs sera importante.

Étude des Résultats. Cliquez sur le bouton OK dans la boîte de dialogue GAM - Spécifications afin de démarrer les calculs. Une série de feuille de données et graphiques de synthèse sera alors produite.

Comme vous pouvez le constater, un certain nombre de feuilles de données et de graphiques de synthèse sont produits qui donnent une bonne image de la qualité d'ajustement du modèle et constituent une aide appréciable dans l'interprétation des résultats. L'interprétation des résultats issus de l'ajustement de modèles additifs généralisés est complexe et requiert une certaine expérience (remarque : ces techniques n'ont été développées que très récemment, et, tant la littérature que les "expériences" relatives à ces techniques, ne sont pas très nombreuses) ; Hastie et Tibshirani (1990) présentent en détail la manière d'interpréter les résultats de ces types d'analyses, et, plus important, la manière d'utiliser cette information pour tester l'adéquation des solutions obtenues. Les développements les plus récents dans ce domaine sont présentés en détail dans l'ouvrage de Schimek (2000).

Examinons à présent le résultat le plus important de cette méthode : il s'agit du tracé des valeurs observées du prédicteur en fonction des résidus partiels (voir aussi les rubriques GAM Modèles Additifs Généralisés - Introduction) ; ce tracé reporte également l'ajustement spline cubique du modèle final.

Pour réitérer, ce tracé nous indique la fonction spline cubique finale ajustée, avec les valeurs observées du prédicteur en fonction des résidus partiels, c'est-à-dire en fonction des résidus de la prévision de la variable dépendante (ajustée), après suppression de tous les autres effets du modèle (voir Hastie & Tibshirani, 1990 pour le détail des calculs ; en particulier la formule 6.3 pour les calculs des valeurs de la variable dépendante ajustée).  Dans la cas présent, bien évidemment, nous n'avons qu'un seul effet dans le modèle.  Comme vous pouvez le constater, plus l'expérience du programmeur est importante, plus il a de chances de réussir, comme le montre la courbe spline cubique monotone croissante.  

Vous pouvez également étudier les diverses statistiques observées et de résidus calculées pour identifier les points aberrants ou tout déficit global d'ajustement, ou les différents groupes d'observations qui ne sont pas bien représentés ("expliqués") par le modèle.

Synthèse de l'Ajustement. Affichons à présent la feuille de données intitulée Synthèse de l'Ajustement. Comme nous l'avons brièvement souligné dans la rubrique Principes Fondamentaux, l'une des questions importantes à se poser lors de l'application d'un modèle additif généralisé, concerne l'intérêt des composantes ajoutées - et des paramètres que nous devons estimer pour trouver le meilleur lissage spline cubique -, c'est-à-dire si ce lissage permet d'obtenir une amélioration significative de l'ajustement du modèle sur les données. Dans ce cas, à en juger par le tracé des résidus partiels, la relation entre la variable prédictive et les résidus partiels est quasiment linéaire.

En effet, la Valeur p non-linéaire de la feuille de données Synthèse de l'Ajustement est proche de 1 ; par conséquent, il n'est pas évident que la complexité supplémentaire introduite par le modèle additif logistique soit justifiée.

Didacticiels

Vous pouvez visionner l'intégralité de la série de tutoriels Le Data Mining en 35 Leçons avec STATISTICA en remplissant le formulaire d'inscription. Vous serez alors notifié(e) automatiquement de la disponibilité des nouveaux épisodes et recevrez d'autres informations utiles.

StatSoft propose par ailleurs une série de didacticiels et présentations interactives décrivant pas-à-pas différentes opérations que vous pouvez réaliser à l'aide de STATISTICA. Si vous souhaitez voir aborder un thème particulier, merci de nous écrire.