Partager :

Concepts Fondamentaux en Statistique


Data Mining :

MARSplines (Multivariate Adaptive Regression Splines)



Sommaire :


Introduction

Le module STATISTICA MARSplines (Multivariate Adaptive Regression Spines) est une généralisation des techniques vulgarisées par Friedman (1991) pour résoudre des problématiques de régression (voir aussi le module Régression Multiple) et de classification, avec l'objectif de prévoir les valeurs d'un ensemble variables dépendantes ou de sortie à partir d'un ensemble de variables indépendantes ou prédicteurs. Le module MARSplines peut gérer à la fois des variables catégorielles et continues (en variables de réponse ou en variables prédictives). S'il s'agit de réponses catégorielles, MARSplines va traiter le problème comme un problème de classification. Par opposition, dans le cas de variables dépendantes continue, le programme va chercher à résoudre un problème de régression. MARSplines va automatiquement déterminer la nature du problème à votre place.

MARSplines est une procédure non-paramétrique qui ne fait aucune hypothèse quant aux relations fonctionnelles sous-jacentes entre les variables dépendantes et indépendantes. MARSplines va en revanche construire cette relation à partir d'un ensemble de coefficients et de fonctions de base qui sont directement issues des données. D'une certaine manière, la méthode s'appuie sur la méthode "diviser et conquérir", qui répartit l'espace d'entrée en différentes  régions, chacune ayant sa propre équation de régression ou de classification. Le module MARSplines est donc particulièrement bien adapté pour traiter les problèmes avec de nombreuses dimensions en entrée (c'est-à-dire avec plus de 2 variables), où d'autres techniques pourraient échouer en raison d'un trop grand nombre de dimensions.

La technique MARSplines est devenue très populaire dans le domaine du data mining dans la mesure où elle n'assume ni n'impose aucun type particulier de classes de relations (par exemple, linéaire, logistique, etc...) entre les variables prédictives et les variables dépendantes (de sortie). En revanche, vous pouvez trouver des modèles utiles (c'est-à-dire des modèles produisant des prévisions exactes), même dans les situations où les relations entre les variables dépendantes et prédictives sont non-monotone et difficiles à modéliser avec les méthodes paramétriques traditionnelles. Pour plus d'informations sur cette technique et pour une comparaison avec d'autres méthodes de régression non-linéaire (ou d'arbres de régression), voir Hastie, Tibshirani et Friedman (2001).

Problèmes de Régression et de Classification

Les problèmes de régression permettent de déterminer la relation qui existe entre un ensemble de variables dépendantes (également appelées variables de sortie ou de réponse) et une ou plusieurs variables indépendante (également appelées variables d'entrée ou variables prédictives). La variable dépendante est celle dont vous cherchez à prévoir les valeurs, en fonction des valeurs des variables indépendantes (prédictives). Par exemple, vous pouvez chercher à modéliser le nombre d'accidents de voiture sur les routes, qui peuvent être causés par 1) de mauvaises conditions climatiques, et 2) le degré d'alcoolémie au volant. Dans ce cas, nous pourrions écrire, par exemple,

Nombre_Accidents =  Une Certaine Constante + 0,5*Mauvais_Temps + 2,0*Alcoolémie_au_Volant

La variable Nombre_Accidents est la variable dépendante et nous savons qu'elle est causée (entre autres variables) par le Mauvais_Temps et l'Alcoolémie_au_Volant. Remarque : les variables indépendantes sont multipliées par des facteurs 0,5 et 2,0. Il s'agit de coefficients de régression. Plus ces coefficients sont importants, plus l'influence de ces variables indépendantes sur la variable dépendante sera forte. Si les deux prédicteurs de cet exemple (fictif) élémentaire étaient mesurés sur une même échelle (par exemple, si les variables ont été préalablement centrées-réduites avec une moyenne nulle et un écart-type unitaire), le facteur Alcoolémie_au_Volant serait à l'origine de 4 fois plus d'accidents de voiture que le Mauvais_Temps (si les variables ne sont pas mesurées sur la même échelle, il n'est pas possible de comparer directement ces coefficients, mais alors, d'autres mesures standardisées de l'importance des prédicteurs sont généralement produites).  

Pour plus d'informations concernant ces types de modèles statistiques, voir aussi les rubriques introductives des modules Régression Multiple, Modèle Linéaire Général (GLM) ou Modèles Généraux de Régression (GRM). D'une manière générale, en sciences sociales et en sciences naturelles, les procédures de régression sont très largement utilisées en recherche. La régression permet au chercher de se poser des questions (et, souhaitons-le, d'y répondre) du type "quel est le meilleur prédicteur de ..." Par exemple, des chercheurs en éducation peuvent chercher à connaître les meilleurs prédicteurs de l'échec scolaire au lycée.  pour y remédier. Les psychologues peuvent chercher à identifier les traits de personnalité qui vont permettre de mieux prévoir l'évolution sociale. Les sociologues peuvent chercher, parmi les nombreux indicateurs sociaux, ceux qui vont le mieux prévoir l'adaptation et l'insertion d'un nouveau groupe d'immigrants dans la société.

À l'inverse, les problèmes de classification s'attachent à prévoir la valeur des variables de réponse discrètes (catégorielles) à partir d'un ensemble de variables prédictives. La classification permet de prévoir l'appartenance des observations ou objets aux classes d'une variable dépendante catégorielle à partir des mesures d'une ou plusieurs variables prédictives. La classification constitue l'une des principales techniques utilisées en data mining. L'objectif de la classification consiste à prévoir ou expliquer les réponses sur une variable dépendante catégorielle, et ainsi, les techniques disponibles ont beaucoup en commun avec les techniques utilisées dans les méthodes plus traditionnelles d'Analyse Discriminante, de Classification, de Tests Non-Paramétriques et d'Estimation Non-Linéaire. Imaginez que vous souhaitiez concevoir un système permettant de trier des pièces de monnaie en différentes classes (par exemple, 2 €, 1 €, 20 cents et 5 cents).  Supposez qu'il existe une mesure qui différencie ces pièces, disons le diamètre, et que nous pouvons utiliser pour concevoir un système hiérarchique afin de trier les pièces.  Vous pourriez faire rouler les pièces sur un rail étroit qui ferait tomber par une fente les pièces de 5 cents.  Si la pièce correspond à la fente, elle est classée dans la classe 5 cents, sinon elle continue son sillage jusqu'à une fente du diamètre de 20 cents.  Si la pièce tombe dans la fente correspondante, elle est classée avec les pièces de 20 cents, sinon elle continue son parcours jusqu'à une fente au diamètre de 1 €, et ainsi de suite.  Vous venez de construire un modèle de classification. Le processus de décision que vous venez de construire constitue une méthode efficace pour classer un ensemble de pièces, et d'une manière générale, peut s'appliquer à de nombreux problèmes de classification.  

MARSplines (Multivariate Adaptive Regression Splines)

L'exemple sur les accidents de la route que nous avons évoqué précédemment est une application type de régression linéaire, dans laquelle la variable de réponse est censée dépendre des variables prédictives de façon linéaire. La régression linéaire fait partie des méthodes dites paramétriques, qui supposent que la nature des relations (mais pas les paramètres spécifiques) entre les variables indépendantes et la variable dépendante sont connues a priori (par exemple, que la relation est linéaire). Par opposition, les méthodes non-paramétriques (voir aussi le module Tests Non-Paramétriques) ne font aucune hypothèse quant à la manière dont les variables dépendantes sont liées aux prédicteurs. En revanche, elles permettent à la fonction du modèle de suivre directement les données.

La méthode MARSplines (Multivariate Adaptive Regression Spines) est une procédure non-paramétrique qui ne fait aucune hypothèse quant aux relations fonctionnelles sous-jacentes entre les variables dépendantes et indépendantes. En revanche, MARSplines va construire cette relation à partir d'un ensemble de coefficients et de fonctions dites de base qui sont entièrement déterminés à partir des données. Vous pouvez considérer le "mécanisme" général par lequel l'algorithme MARSplines opère comme une multitude de régressions linéaires par segment (voir aussi le module Estimation Non-Linéaire), où chaque point de rupture (estimé à partir des données) définit le "domaine d'application" d'une équation linéaire (extrêmement simple) particulière.

Fonctions de base. Plus précisément, MARSplines utilise des fonctions bilatérales tronquées sous la forme (illustrée ci-dessous) de fonctions de base linéaires ou non-linéaires, qui tentent d'approcher les relations entre les variables prédictives et de réponse.  

L'exemple ci-dessus représente deux fonctions de base (t-x)+ et (x-t)+ (issues de l'ouvrage de Hastie, et al., 2001, Figure 9.9). Le paramètre t représente le point d'intersection (c'est-à-dire, le noeud) entre les fonctions de base (définissant les segments de la régression linéaire par segments) ; ces noeuds (paramètres t) sont également déterminés à partir des données. Les signes "+" associés aux termes (t-x) et (x-t) indiquent simplement que seuls les résultats positifs des équations respectives sont pris en compte ; dans les autres cas, les fonctions respectives sont égales à zéro. C'est ce que nous pouvons constater sur l'illustration ci-dessus.

Le modèle MARSplines. Les fonctions de base ainsi que les paramètres du modèle (estimés par la technique d'estimation des moindres carrés) sont combinés afin de produire les prévisions compte tenu des entrées. L'équation générale du modèle MARSplines (voir Hastie et al., 2001, equation 9.19) est donnée par la formule :

où la sommation s'effectue sur les M termes non-constants du modèle (vous trouverez d'autres informations concernant le modèle dans la rubrique Notes et Informations Techniques). En bref, y est prévu en fonction des variables prédictives X (et de leurs interactions) ; cette fonction est constituée d'un paramètre d'ordonnée à l'origine () et de la somme pondérée (par ) d'une ou plusieurs fonctions de base , du type illustré précédemment. Vous pouvez également considérer que ce modèle va "sélectionner" une somme pondérée de fonctions de base à partir d'un certain nombre (élevé) de fonctions de base couvrant toutes les valeurs de chaque prédicteur (c'est-à-dire que cet ensemble sera constitué d'une fonction de base, et d'un paramètre t, pour chaque valeur distincte de chacune des variables prédictives). L'algorithme MARSplines va alors effectuer sa recherche dans l'espace de toutes les entrées et valeurs des prédicteurs (position des noeuds t) et parmi les interactions entre les variables. Au cours de cette recherche, un nombre de plus en plus important de fonctions de base (sélectionnées parmi toutes les fonctions de base possibles) est ajouté au modèle, afin de maximiser un critère de qualité d'ajustement global par les moindres carrés. À l'issue de ces opérations, MARSplines va automatiquement déterminer les variables indépendantes les plus importantes ainsi que les interactions les plus significatives entre elles. Vous trouverez davantage d'informations sur cet algorithme dans les rubriques Notes et Informations Techniques, ainsi que dans l'ouvrage de Hastie et al., 2001).

Prédicteurs catégoriels. MARSplines est bien adapté aux tâches portant sur des variables prédictives catégorielles. Différentes fonctions de base sont calculées pour chaque modalité de chaque prédicteur et les techniques habituelles de gestion des variables catégorielles s'appliquent. Par conséquent, cet algorithme peut utiliser des variables catégorielles (avec des codes de classe plutôt que des données ordonnées ou continues) sans avoir à effectuer la moindre modification.

Plusieurs variables dépendantes (de sortie). L'algorithme MARSplines peut s'appliquer lorsque vous avez plusieurs variables dépendantes (de sortie), qu'elles soient continues ou catégorielles. Si les variables dépendantes sont continues, MARSplines va réaliser une tâche de régression ; dans le cas contraire, ce sera une tâche de classification. S'il existe plusieurs variables de sortie, l'algorithme va déterminer un ensemble commun de fonctions de base pour les prédicteurs, mais estimer des coefficients différents pour chaque variable dépendante. Cette méthode qui permet de traiter plusieurs variables de sortie n'est pas très différente de certaines architectures de réseaux de neurones, où nous pouvons prévoir plusieurs variables de sortie à partir de neurones et couches cachées communs ; dans le cas de MARSplines, nous pouvons prévoir plusieurs variables de sortie à partir de fonctions de base communes, avec des coefficients différents.

MARSplines et les problèmes de classification. Puisque MARSplines est en mesure de traiter plusieurs variables dépendantes, il est très facile d'appliquer également l'algorithme à des problèmes de classification. Tout d'abord, MARSplines va codifier les classes de la variable de réponse catégorielle en un tableau disjonctif (par exemple, 1 = observation appartenant à la classe k, 0 = observation n'appartenant pas à la classe k) ; MARSplines va ensuite ajuster un modèle et calculer les valeurs (continues) prévues ou scores ; enfin, dans une optique prédictive, le programme va affecter chaque observation à la classe pour laquelle elle obtient le score prévu le plus fort (voir aussi Hastie, Tibshirani et Freedman, 2001, pour une description de cette procédure). La procédure ci-dessus est gérée automatiquement par le module MARSplines.

Sélection du Modèle et Élagage

D'une manière générale, les modèles non-paramétriques sont extrêmement souples et adaptables ce qui peut finalement conduire à un surajustement si nous ne faisons rien pour l'empêcher. Bien que ces modèles soient en mesure de modéliser parfaitement les données d'apprentissage avec une erreur nulle (sous réserve qu'il existe un nombre suffisamment important de paramètres), ils ont généralement tendance à produire des résultats nettement moins bons sur de nouvelles observations ou instances (c'est-à-dire qu'ils ne savent pas bien généraliser la prévision sur de nouvelles observations). MARSplines, comme la plupart des méthodes de ce type, tend également à surajuster les données. Pour remédier à ce problème, MARSplines utilise une technique d'élagage (proche de la technique d'élagage utilisée dans les arbres de classification) afin de limiter la complexité du modèle en réduisant le nombre de fonctions de base qu'il utilise.

MARSplines comme méthode de sélection des meilleurs prédicteurs. Cette fonctionnalité - la sélection et l'élagage des fonctions de base - rend cette méthode particulièrement puissante pour la sélection des prédicteurs. L'algorithme MARSplines ne va retenir que les fonctions de base (et les variables prédictives) qui jouent un rôle important (contribution "significative") dans la prévision (voir la rubrique Notes et Informations Techniques pour plus d'informations). La boîte de dialogue des Résultats du module MARSplines (Multivariate Adaptive Regression Splines) va clairement identifier (mettre en surbrillance) les variables associées aux fonctions de base retenues pour la solution finale (modèle).

Applications

La technique MARSplines (Multivariate Adaptive Regression Splines) a récemment gagné en popularité pour trouver des modèles prédictifs dans des modèles "difficiles" de data mining, c'est-à-dire lorsque les variables prédictives n'ont pas de relations simples et/ou monotones avec la variable dépendante étudiée. Parmi les autres modèles et approches qui s'offrent à vous dans ces cas là, vous pouvez considérer les Modèles CHAID, les Modèles d'Arbres de Classification et de Régression, ou l'une des nombreuses architectures de Réseaux de Neurones disponibles dans STATISTICA. En raison de la manière spécifique dont le module MARSplines sélectionne les prédicteurs (fonctions de base) du modèle, il produit généralement de bons résultats dans les situations applicables aux arbres de régression, c'est-à-dire lorsque les divisions successives et hiérarchiques des variables prédictives produisent de bonnes prévisions (exactes). En fait, au lieu de considérer cette technique comme une généralisation de la Régression Multiple (comme nous l'avons présentée dans cette introduction), vous pouvez considérer MARSplines comme une généralisation des Arbres de Régression, dans laquelle les divisions binaires "rigides" laissent la place à des fonctions de base plus "souples". Voir aussi Hastie, Tibshirani et Friedman (2001) pour plus d'informations.

Présentation du Programme

Le module STATISTICA MARSplines (Multivariate Adaptive Regression Splines) intègre les techniques vulgarisées par Friedman (1991) pour résoudre des problèmes de régression et de classification (voir aussi le module Régression Multiple), dans l'optique de prévoir les valeurs d'un ensemble de variables dépendantes (de sortie) continues à partir d'un ensemble de variables indépendantes ou prédictives. Il existe un grand nombre de méthodes dans STATISTICA pour ajuster des modèles sur des variables continues, comme la régression linéaire [par exemple, Régression Multiple, Modèle Linéaire Général (GLM)], la régression non-linéaire (Modèles Linéaires/Non-Linéaires Généralisés), les arbres de régression (voir le module Modèles d'Arbres de Classification et de Régression), les Modèles CHAID, les Réseaux de Neurones, etc... (voir aussi Hastie, Tishirani et Friedman, 2001, pour une présentation).

Le programme va automatiquement sélectionner le meilleur ensemble de variables prédictives, ou de leurs interactions et reporter tous les paramètres nécessaires à l'interprétation du modèle. Diverses options permettent de traiter le problème de sur-ajustement en limitant la complexité du modèle (nombre maximum de fonctions de base), ou en appliquant l'élagage après ajustement d'un modèle de complexité maximale aux données.

Vous pouvez produire de nombreux graphiques pour apprécier la qualité de l'ajustement et vous aider dans l'interprétation des résultats. Différentes options de générateur de code permettent d'enregistrer les modèles estimés (entièrement paramétrés) pour le déploiement en code C/C++/C#, Visual Basic, PMML ou dans STATISTICA Entreprise (Voir aussi la rubrique Utiliser du Code C/C++/C# pour le Déploiement).

Le Modèle MARSplines (Multivariate Adaptive Regression Splines)

L'algorithme MARSplines construit des modèles à partir de fonctions bilatérales tronquées des prédicteurs (x) de la forme suivante :

Ces fonctions font office de fonctions de base pour l'extension linéaire ou non-linéaire qui cherche à approcher certaines des véritables fonctions f(x) sous-jacentes.

Le modèle MARSplines d'une variable dépendante (de sortie) y, et de M termes, peut être synthétisé par l'équation suivante :

où la sommation s'effectue sur les M termes du modèle, et où bo et bm représentent les paramètres du modèle (avec les points d'intersection (noeuds) t de chaque fonction de base, qui sont également estimés à partir des données). La fonction H se définit comme suit :

xv(k,m) est le prédicteur dans le k-ième du m-ième produit. Pour un ordre d'interactions K=1, le modèle est additif, et pour K=2, le modèle est interactif par couple.

Au cours de la procédure de construction, nous ajoutons un certain nombre de fonctions de base au modèle en fonction d'un maximum prédéfini qui doit être beaucoup plus important (au moins deux fois plus) que l'optimum (meilleur ajustement par les moindres carrés).

Après avoir terminé la procédure de sélection des fonctions de base, nous appliquons une procédure d'élagage au cours de laquelle le modèle est simplifié en éliminant les fonctions de base qui sont associées à la plus faible amélioration de la qualité d'ajustement (par les moindres carrés). Nous calculons une fonction d'erreur des moindres carrés (inverse de la qualité d'ajustement). L'erreur dite de Validation Croisée Généralisée est une mesure de qualité d'ajustement qui tient non seulement compte de l'erreur des résidus mais également de la complexité du modèle. Elle s'exprime par l'équation suivante:

avec

N représente le nombre d'observations du jeu de données, d représente le nombre effectif de degrés de liberté, qui est égal au nombre de fonctions indépendantes de base. La quantité c représente la pénalité associée à l'ajout d'une fonction de base. Empiriquement, la meilleure valeur de C semble se trouver dans l'intervalle 2 < d < 3 (voir Hastie et al., 2001).

L'Algorithme MARSplines

La mise en oeuvre de MARSplines est une procédure en deux temps qui s'applique de façon répétée jusqu'à l'obtention d'un modèle désiré. Dans un premier temps, nous construisons le modèle, c'est-à-dire que nous augmentons sa complexité en ajoutant des fonctions de base jusqu'à ce qu'un certain niveau maximum prédéfini (personnalisé) de complexité soit atteint. Nous démarrons ensuite une procédure d'élimination des fonctions de base les moins significatives du modèle, c'est-à-dire cette dont la suppression va le moins nuire à la qualité d'ajustement (par les moindres carrés). Cet algorithme opère de la manière suivante :

  1. Démarrage avec le modèle le plus élémentaire qui n'intègre que la fonction de base constante.

  2. Recherche dans l'espace des fonctions de base, pour chaque variable et pour tous les points d'intersection (noeuds) possibles, et ajouts de ceux qui maximisent une certaine mesure de qualité d'ajustement (minimisent l'erreur de prévision).

  3. L'étape 2 s'applique de façon récursive jusqu'à ce qu'un modèle d'une complexité maximale prédéterminée soit trouvé.

  4. Enfin, lors de la dernière étape, une procédure d'élagage va éliminer les fonctions de base qui contribuent le moins à la qualité globale d'ajustement (par les moindres carrés).

MARSplines

Fichier de données. Cet exemple utilise le fichier de données Poverty.sta. Ouvrez ce fichier à l'aide de la commande Ouvrir des Exemples du menu Fichier ; ce fichier de données se situe dans le répertoire Fichiers de Données. Les données représentent l'évolution de la population entre les recensements de 1960 et de 1970 sur une sélection aléatoire de 30 comtés américains. Le nom des observations du fichier de données contient le nom de ces comtés. Cet exemple est également présenté dans la rubrique Exemple 1 : Régression Standard du module Régression Multiple.

Problématique. L'objectif de cette étude consiste à analyser les indicateurs liés à la pauvreté, c'est-à-dire les variables qui permettent de prévoir au mieux le part de foyers situés en deçà du seuil de pauvreté dans un comté. Nous allons par conséquent traiter la variable 3 (PT_PAUVR) comme variable dépendante (ou de réponse), et toutes les autres variables comme des variables indépendantes (ou prédicteurs).

Configuration de l'analyse. Sélectionnez la commande MARSplines (Multivariate Adaptive Regression Splines) dans le menu Data Mining afin d'accéder à la boîte de dialogue STATISTICA Multivariate Adaptive Regression Splines (Panneau de Démarrage). Cliquez sur le bouton Variables afin d'accéder à une boîte de dialogue standard de sélection de variables, sélectionnez la variable PT_PAUVR comme variable dépendante et toutes les autres variables du fichier de données comme variables indépendantes, puis cliquez sur le bouton OK.

À ce stade, vous pouvez modifier certains paramètres du modèle, comme par exemple, le Nombre maximum de fonctions de base, la Pénalité, etc..., dans l'onglet Options du Panneau de Démarrage. Par exemple, vous pouvez ajuster le nombre maximum de fonctions de base pouvant être ajoutées lors de la construction du modèle , ou diminuer la pénalité associée à l'ajout d'une fonction de base. Il est conseillé d'établir le nombre maximum de fonctions de base à un niveau aussi élevé que possible afin de permettre à STATISTICA MARSplines de rechercher autant de combinaisons que possible. Pour construire des modèles encore plus complexes, vous pouvez augmenter le Degré des interactions entre les variables d'entrée.

Il est également recommandé de toujours élaguer votre modèle en cochant l'option Appliquer l'élagage. De cette manière, vous réduisez le risque de sur-ajustement des données. Voir aussi la rubrique Introduction pour plus d'informations concernant la méthode MARSplines.

Étude des résultats. Cliquez à présent sur le bouton OK. L'apprentissage MARSplines va alors commencer et la boîte de dialogue des Résultats apparaîtra lorsqu'un modèle aura été construit. Vous pourrez alors sélectionner diverses options permettant d'explorer les résultats sous forme de feuilles de données, rapports et graphiques.

Dans la boîte de synthèse située en haut de la boîte de dialogue des Résultats, vous pouvez visualiser les spécifications du modèle MARSplines que vous venez de construire, notamment le nombre de termes et de fonctions de base de votre modèle, ainsi que l'erreur de validation croisée généralisée à l'issue de l'apprentissage (voir aussi la rubrique Notes et Informations Techniques pour plus d'informations). Les choix opérés dans le Panneau de Démarrage sont également reportés pour mémoire, notamment la liste des variables dépendantes et indépendantes. Si les variables apparaissent en rouge, c'est l'indication qu'elles ont été sélectionnées pour former les fonctions de base du modèle final. Cette information permet d'identifier les variables prédictives importantes (pertinentes) du modèle. Dans cet exemple, vous remarquerez que le prédicteur AGE n'est pas considéré comme significatif ou important par l'algorithme et par conséquent, ne participe par à la formation des fonctions de base.

Coefficients. MARSplines va construire la ou les fonctions de régression à l'aide des sommes pondérées des termes intégrant les produits des fonctions de base (voir aussi la rubrique Introduction). La feuille de données des coefficients nous fournit toutes les informations relatives aux termes du modèle MARSplines ainsi que les coefficients correspondants. Elle nous indique également le type de chacune des fonctions de base et l'ordre des interactions dans chaque terme. Dans la feuille de données illustrée ci-dessus, le terme correspondant au biais (une constante) est constitué du coefficient d'ordonnée à l'origine. Le premier terme est constitué de la fonction de base (VARI_POP - 7.1). Remarque : cette fonction de base apparaît en rouge ce qui signifie qu'elle est du type (x-t)+. Le troisième terme représente le produit entre (TX_IMPOS - 0,4) et (75 - PT_PHONE). Le dernier terme est constitué du produit des trois fonctions de base et son degré d'interaction est donc égal à trois. Pour résumer, le modèle MARSplines est le suivant :

PT_PAUVR = 23,211 - 0,197*max(0;VARI_POP- 7,1) - 0,436*max(0;PT_PHONE - 75) + 1,14*max(0;TX_IMPOS -0,4)*( 75 - PT_PHONE) + 0,0003*max(0;N_AGRIC  - 1070)*max(0;75 - PT_PHONE)*max(0;PT_RURAL - 5,9)

Vous pouvez placer l'équation ci-dessus dans un Rapport standard STATISTICA en cliquant sur le bouton Équation dans la boîte de dialogue MARSplines Résultats - onglet Base.

Statistiques de la régression. Vous pouvez accéder à d'autres informations en cliquant sur le bouton Statistiques dans la boîte de dialogue MARSplines Résultats - onglet Base, qui va produire une feuille de données contenant diverses statistiques relatives à la régression, notamment le R² et le R² ajusté. Ces statistiques s'interprètent de la même manière que celles qui sont calculées dans le module de régression multiple ou dans d'autres modèles linéaires, et vous pouvez les utiliser pour tester et comparer (par rapport à d'autres modèles) la qualité d'ajustement du modèle respectif aux données.

Étude des valeurs observées et prévues. Pour approfondir l'analyse des résultats, sélectionnons à présent l'onglet Tracés qui nous permet de produire des représentations en deux et trois dimensions des variables, prévisions et leurs résidus. Remarque : vous pouvez représenter plus d'une seule variable dans des nuages de points en deux dimensions.

Par exemple, nous avons représenté ci-dessus un nuage de points des valeurs observées et prévues en fonction des valeurs de la variable N_AGRIC. D'une manière générale, ce type de tracé constitue une bonne manière de comparer les prévisions d'un modèle avec les données observées. Pour produire le graphique illustré ci-dessus, sélectionnez N_AGRIC dans la liste Axe X et Val. observées et Val. prévues dans la liste Axe Y. Cliquez ensuite sur le bouton Graphiques de X vs. Y.

Nous avons personnalisé le graphique en utilisant les outils d'habillage du graphique ; plus précisément, nous avons étiqueté le point atypique (Comté) Shelby, afin d'illustrer l'avantage majeur de la méthode MARSplines sur une simple régression linéaire multiple ou d'autres modèles de régression paramétriques. Bien que Shelby soit clairement un point atypique, l'ajustement global du modèle ne semble pas véritablement affecté par cette observation. Contrairement à la régression multiple (voir également l'Exemple 1 : Régression Standard du module Régression Multiple), où les points atypiques peuvent fortement affecter l'ajustement global, MARSplines peut aisément s'accommoder des points atypiques en raison de la nature de la méthode, du type "régression par segments" (voir aussi la rubrique Introductions pour plus d'informations).

Didacticiels

Vous pouvez visionner l'intégralité de la série de tutoriels Le Data Mining en 35 Leçons avec STATISTICA en remplissant le formulaire d'inscription. Vous serez alors notifié(e) automatiquement de la disponibilité des nouveaux épisodes et recevrez d'autres informations utiles.

StatSoft propose par ailleurs une série de didacticiels et présentations interactives décrivant pas-à-pas différentes opérations que vous pouvez réaliser à l'aide de STATISTICA. Si vous souhaitez voir aborder un thème particulier, merci de nous écrire.