Partager :

Concepts Fondamentaux en Statistique


Data Mining :

Forêts Aléatoires (ou Forêts Décisionnelles)



Sommaire :


Principes Fondamentaux et Notes Techniques

Le module STATISTICA Forêts Aléatoires met en oeuvre l'algorithme des Forêts Aléatoires développé par Breiman. Dans STATISTICA, vous pouvez utiliser cette technique pour des problématiques de régression (afin de prévoir une variable dépendante continue) ou de classification (afin de prévoir une variable dépendante catégorielle).

Estimation. Vous avez un contrôle total sur tous les aspects cruciaux de la procédure d'estimation et des paramètres du modèle, notamment la complexité des arbres de décision ajustés aux données, le nombre maximum d'arbres dans la forêt, la manière dont l'algorithme doit s'arrêter après que des résultats satisfaisants aient été trouvés, etc... Vous pouvez également spécifier un échantillon indépendant de test afin de déterminer la validité prédictive de votre modèle. Si vous ne spécifiez pas d'échantillon de test, STATISTICA va sélectionner un échantillon au hasard, puis déterminer la meilleure solution (le nombre optimal d'arbres élémentaires) en fonction de la performance des modèles respectifs pour prévoir les observations de ces échantillons de test.

Résultats. Comme pour tous les modules de STATISTICA, STATISTICA Data Miner, WebSTATISTICA et WebSTATISTICA Data Miner, de nombreux graphiques peuvent être demandés dans les résultats afin de vous aider à évaluer le modèle final.

Déploiement pour le Data Mining. Comme c'est le cas pour l'ensemble des modules de data mining prédictif, vous pouvez déployer la solution finale en générant du code machine en C/C++, STATISTICA Visual Basic (SVB), ou en PMML (pour un déploiement ultérieur à l'aide du moteur STATISTICA Déploiement Rapide de Modèles Prédictifs).

Notes et Informations Technique

Le module STATISTICA Forêts Aléatoires met en oeuvre le modèle de classification dit "des Forêts Aléatoires", développé par Breiman. Mais cet algorithme est également applicable à des problématiques de régression. Une Forêt Aléatoire est constituée d'un ensemble  d'arbres simples de prévision, chacun étant capable de produire une réponse lorsqu'on lui présente un sous-ensemble de variables explicatives ou prédicteurs. Pour les problématiques de classification, la réponse prend la forme d'une classe qui associe un ensemble (classe) de valeurs indépendantes (prédicteur) à une des catégories présente dans la variable dépendante. Concernant la régression, l'arbre est une estimation de la variable dépendante en fonction des prédicteurs.

Une forêt aléatoire est constituée d'un nombre arbitraire d'arbres simples, qui permettent de voter pour la classe la plus populaire (classification), ou dont les réponses sont combinées (moyennées) pour obtenir une estimation de la variable dépendante (régression). En utilisant des ensembles d'arbres, nous parvenons à améliorer significativement la prévision (c'est-à-dire avec une meilleure capacité à prévoir de nouvelles données).

La réponse de chaque arbre dépend du sous-ensemble de prédicteurs choisis de façon indépendante (avec remise) et avec la même distribution pour tous les arbres de la forêt qui est un sous-ensemble des valeurs des prédicteurs du jeu de données original. Dans le module STATISTICA Forêts Aléatoires, la taille optimale du sous-ensemble de variables prédictives est donnée par la formule log2 M+1, où M représente le nombre d'entrées.

Vous pouvez utiliser plusieurs variables catégorielles et plusieurs variables continues dans une même analyse de Forêts Aléatoires. Par conséquent, la présence de variables indépendantes catégorielles dans vos données ne pose aucun problème dans STATISTICA Forêts Aléatoires. Une variable catégorielle possédant N modalités sera ventilée dans un tableau disjonctif (avec N-1 variables) selon un schéma de codification 0-1. En d'autres termes, une variable catégorielle à N modalités peut être considérée comme un ensemble de N-1 variables, dont une seule va prendre la valeur 1 pour une observation donnée. Comme pour les variables numériques, le module STATISTICA Forêts Aléatoires va sélectionner un ensemble de catégories (modalités) dans la variable prédictive. L'un des avantages de cette approche est qu'elle permet de s'affranchir de certaines difficultés qui peuvent survenir avec des variables comportant un trop grand nombre de catégories. En fait, la possibilité d'effectuer des prévisions sur un  sous-ensemble aléatoire de variables prédictives est l'un des atouts du module Forêts Aléatoires, qui le rend particulièrement bien adapté au traitement de jeux de données comportant un nombre extrêmement élevé de variables prédictives.

Pour les problèmes de classification, étant donné un ensemble d'arbres simples et un ensemble aléatoire de variables prédictives, la méthode des Forêts Aléatoires va définir une fonction d'erreur qui va déterminer dans quelle mesure le nombre moyen de votes pour la classe correcte dépasse le vote moyen des autres classes de la variable dépendante. Cette mesure constitue donc une bonne manière d'effectuer des prévisions, mais nous permet également d'associer une mesure de confiance à ces prévisions.

Pour les problèmes de régression, les Forêts Aléatoires sont constituées en développant des arbres simples, chacun étant en mesure de produire une valeur numérique pour la réponse (au lieu d'un intitulé de classe, comme c'est le cas en classification). Ici aussi, l'ensemble de prédicteurs est choisi de façon aléatoire à partir de la même distribution et pour tous les arbres. Compte tenu des éléments précédents, l'erreur quadratique moyenne de la Forêt Aléatoire se calcule de la manière suivante :

erreur moyenne = (valeur observée - réponse de l'arbre)2

Les prévisions de la Forêt Aléatoire sont alors les moyennes des prévisions des différents arbres :

où l'indice k varie pour tous les arbres individuels de la forêt.

L'implémentation de l'algorithme des Forêts Aléatoires dans STATISTICA est en mesure de gérer les valeurs manquantes dans les variables prédictives. Lors de la construction du modèle, lorsqu'une observation particulière comporte des valeurs manquantes, la prévision réalisée pour cette observation se base sur l'avant dernier noeud (non-terminal) de l'arbre respectif. Ainsi, par exemple, si à un moment donné de la séquence des arbres, une variable prédictive est sélectionnée au noeud racine (ou un autre noeud non-terminal) et que certaines observations n'ont pas de données valides, la prévision de ces observations sera simplement basée sur la moyenne globale du noeud racine (ou du noeud non-terminal). Il n'est donc pas nécessaire l'éliminer ces observations de l'analyse si elles possèdent des valeurs manquantes pour certains prédicteurs, pas plus qu'il n'est nécessaire de calculer des statistiques de division pour des remplaçants.

Pour plus d'informations concernant les différentes méthodes d'arbres de décision, voir notamment les modules Modèles Généraux d'Arbres de Classification et de Régression, Boosting - Arbres de Classification et de Régression et Arbres de Décision Interactifs.




Classification par les Forêts Aléatoires

Cet exemple illustre l'utilisation des Forêts Aléatoires pour des tâches de classification (c'est-à-dire des tâches qui impliquent l'association des données des variables prédictives pour une observation avec un type de classe défini dans les modalités (catégorielles) de la variable dépendante). Vous trouverez d'autre exemple d'utilisation de modèles similaires, par exemple par Boosting - Arbres de Classification et de Régression, dans la rubrique Classification à l'Aide du Boosting d'Arbres de Décision.

Fichier de données. Cet exemple illustre une analyse relative aux prix de l'immobilier à Boston (Harrison & Rubinfeld, 1978) et qui a été reportée par Lim, Loh, and Shih (1997). Les prix médians des lotissements sont classés selon les catégories suivantes Faible, Moyen et Élevé dans la variable dépendante PRIX. Nous avons 1 prédicteur catégoriel, Cat1, et 12 prédicteurs continus, ORD1 à ORD12. Nous utilisons une duplication de l'échantillon d'apprentissage comme échantillon de test. La variable contenant les identifiants d'échantillons est la variable ÉCHANT avec les modalités APPRENTISSAGE et TEST enregistrées comme des valeurs textuelles. Le fichier de données complet comporte 1.012 observations au total, que vous pourrez trouver dans le fichier d'exemple Boston2.sta. Ouvrez ce fichier de données à l'aide de la commande Ouvrir des Exemples du menu Fichier ; ce fichier se situe dans le dossier Fichiers de Données de votre installation STATISTICA. Ci-dessous, un extrait de ce fichier.

Problématique. L'objectif de cet exemple consiste à illustrer l'utilisation du module STATISTICA Forêts Aléatoires pour une analyse de classification. Nous allons chercher à identifier correctement les libellés de classe de chaque observation à l'aide du modèle de Forêt Aléatoire que nous allons construire dans cette analyse. En d'autres termes, compte tenu d'un ensemble de valeurs prédictives, nous voulons catégoriser correctement le prix d'un pavillon dans les environs de Boston en Faible, Moyen ou Élevé.

Spécification de l'Analyse

Après avoir ouvert le fichier de données , sélectionnez la commande Forêts Aléatoires pour Problèmes de Régression et de Classification dans le menu Statistiques - Data Mining afin d'accéder à la boîte de dialogue Forêts Aléatoires (Panneau de Démarrage).

Dans la liste Type d'analyse de l'onglet Base, sélectionnez une Analyse de Classification, puis cliquez sur le bouton OK afin d'accéder à la boîte de dialogue Spécifications de la Forêt Aléatoire qui vous permet de définir les options pour exécuter l'analyse.

Sélection des variables. Dans l'onglet Base, cliquez sur le bouton Variables afin d'accéder à une boîte de dialogue standard de sélection de variables. Remarque : toutes les variables n'apparaissent pas dans les différentes listes de variables (variable dépendante, prédicteurs catégoriels, prédicteurs continus et variable avec effectifs). En fait, STATISTICA filtre la liste des variables afin de ne vous proposer de choisir vos variables que parmi celles qui sont adaptées à l'analyse respective. Cette fonctionnalité est particulièrement intéressante lorsque le nombre de variables de votre fichier de données est important. Toutefois, si vous préférer ne pas effectuer ce filtrage préalable, il vous suffit de désélectionner l'option N'afficher que les variables appropriées. Voir la rubrique Sélectionnez les Variables pour plus d'informations.

Désélectionnez l'option N'afficher que les variables appropriées, et sélectionnez la variable PRIX comme Variable dépendante, la variable CAT1 comme Prédicteur catégoriel, et les variables ORD1-ORD12 comme Prédicteurs continus.

Cliquez sur le bouton OK afin d'accepter ces sélections, fermer la boîte de dialogue de sélection des variables, et retourner à la boîte de dialogue Spécifications de la Forêt Aléatoire.

Différentes options sont accessibles dans l'onglet Classification, dans l'onglet Avancé et dans l'onglet Conditions d'arrêt de cette boîte de dialogue pour "affiner" l'analyse.

Coûts d'erreur de classement. Souvent, le coût d'erreur de classement (ou coût de mauvaise classification) est fonction de la catégorie A qui est classée en B par erreur. En d'autres termes, le coût d'une mauvaise classification de A en B peut être très différent du coût d'une mauvaise classification de B en A. Le paramétrage de ces coûts d'erreur de classement vous permet de tenir compte de ces différences. Par exemple, si vous envisagez d'acquérir une propriété, il se peut qu'un classement erroné du coût Élevé d'une maison en Faible soit plus coûteux qu'un classement erroné du coût de la maison Faible en Élevé. Dans le dernier cas, vous aurez simplement surestimé la valeur de la propriété. Il faut savoir que l'attribution des coûts d'erreur de classement est tout à fait subjective et qu'elle peut parfaitement dépendre de l'analyse spécifique que vous réalisez.

Par défaut, le module Forêts Aléatoires va affecter des coûts de mauvaise classification égaux pour toutes les catégories. Pour modifier ce paramétrage, sélectionnez l'onglet Classification.

Sélectionnez ensuite le bouton d'option Personnalisés dans le groupe Coûts d'erreur de classement puis cliquez sur le bouton adjacent afin d'accéder à un formulaire généraliste de saisie, qui vous permet de modifier les valeurs des coûts (remarque : pour que cette option soit accessible, vous devez sélectionner les codes des réponses à l'aide de l'option Codes des Réponses de l'onglet Base).

Probabilités a priori. Dans l'onglet Classification, vous pouvez également spécifier les probabilités a priori d'appartenance aux différentes classes. Sélectionnez le bouton d'option Personnalisées dans le groupe Probabilités a priori, puis cliquez sur le bouton adjacent afin d'accéder à la boîte de dialogue Indiquez les valeurs des probabilités a priori (remarque : pour pouvoir accéder à cette option, il est nécessaire de spécifier préalablement les codes des réponses à l'aide de l'option Codes des Réponses de l'onglet Base).

Les probabilités a priori doivent refléter dans quelle mesure les observations ont une chance d'appartenir à telle ou telle classe (c'est-à-dire quelle est la chance d'appartenir aux différentes catégories Faible, Moyen ou Élevé) avant d'effectuer l'analyse. Une manière de définir ces probabilités consiste à regarder la part que représente chaque catégorie dans le fichier de données. Cette approche est raisonnable tant que l'échantillon (jeu de données) est une assez bonne représentation de la population. Si cette information n'est pas disponible, vous pouvez également affecter des probabilités a priori identiques pour toutes les catégories. Remarque : attribuer des probabilités a priori identiques revient à dire "Je ne sais pas" ce qui reflète simplement votre manque d'information quant au pourcentage d'habitations des différentes catégories dans la région de Boston. Comme pour toutes les probabilités, il faut que les probabilités a priori totalisent un.

Dans l'onglet Avancé, vous pouvez accéder à un certain nombre d'options permettant de contrôler le nombre et la complexité (nombre de noeuds) des modèles d'arbres de décision à créer.

Les méthodes d'échantillonnage. Par défaut, le module Forêts Aléatoires va répartir les données en échantillon d'apprentissage et en échantillon de test par une sélection aléatoire des données issues du jeu de données. L'échantillon d'apprentissage sert à construire le modèle (ajout d'arbres simples) et l'ensemble de test sert à valider sa performance. Cette performance sert d'indicateur de qualité du modèle, qui pour les tâches de classification se définit simplement comme un taux d'erreur de classement. Par défaut, le module Forêts Aléatoires va sélectionner 30% du jeu de données comme observations de test.

Au lieu de répartir au hasard les données en observations d'apprentissage et observations de test, vous pouvez définir votre propre échantillon de test à l'aide de l'option Échantillon de test, et spécifier un code permettant de répartir les données dans les échantillons d'apprentissage et de test. Cette méthode d'échantillonnage prévaut sur l'option d'échantillonnage aléatoire.

Nombre de variables prédictives. L'un des avantages de STATISTICA Forêts Aléatoires réside dans la possibilité offerte par ce module d'effectuer des prévisions sur un nombre partiel (sous-échantillon) de variables prédictives. Cette fonctionnalité est extrêmement intéressante pour des jeux de données constitué d'un grand nombre de prédicteurs.

Vous pouvez notamment spécifier le nombre de variables prédictives à inclure dans vos modèles d'arbres de décision. Cette option est importante, et il est essentiel de définir cette valeur avec soin. Si vous intégrez un grand nombre de prédicteurs dans vos modèles d'arbres de décision, les temps de calculs peuvent être extrêmement longs, et vous faire perdre l'un des principaux avantages des Forêts Aléatoires, qui réside dans la possibilité d'effectuer des prévisions sur la base d'un sous-ensemble de variables prédictives. À l'inverse, si vous intégrez un nombre trop restreint de variables prédictives, vous allez dégrader la performance du modèle (dans la mesure où vous allez exclure des variables qui peuvent expliquer une part importante de la dispersion et des tendances dans vos données). Lorsque vous définissez le nombre de variables prédictives, il est conseillé de conserver la valeur par défaut, qui repose sur une formule (voir Breiman pour plus d'informations).

Conditions d'arrêt. Les options de l'onglet Conditions d'arrêt vous permettent de spécifier différents critères pour finaliser votre modèle actuel de Forêt Aléatoire. Par défaut, la construction d'une Forêt Aléatoire implique l'ajout d'un nombre déterminé d'arbres de décision (100).

Toutefois, pour les sessions d'apprentissage plus longues, il existe d'autres manières de définir le moment où l'apprentissage doit prendre fin. Ces options sont accessibles dans l'onglet Conditions d'Arrêt.

L'option la plus efficace est sans doute la Diminution du pourcentage d'erreur d'apprentissage. Elle signifie que si l'erreur d'apprentissage ne s'améliore pas d'une quantité au moins égale à la quantité définie ici, pour un nombre de périodes déterminé (par l'option du nombre de Cycles pour le calcul de l'erreur moyenne), l'apprentissage prendra fin.

Étude des résultats. Pour cet exemple, contentons nous d'accepter toutes les options et valeurs par défaut, et cliquons sur le bouton OK afin d'accéder à la boîte de dialogue Spécifications de la Forêt Aléatoire. La boîte de dialogue Calculs en cours apparaît et nous permet de suivre la progression de l'analyse ainsi que le temps écoulé et le temps restant.

 Puis la boîte de dialogue Forêt Aléatoire - Résultats apparaît.

Dans l'onglet Base, cliquez sur le bouton Synthèse afin de voir la manière dont les taux consécutifs de classification dans les échantillons d'analyse et de test on évolué au cours des différents cycles d'apprentissage.

Ce graphique illustre le mécanisme de l'algorithme des Forêts Aléatoires, implémenté dans STATISTICA, pour éviter le surajustement (voir aussi la rubrique Principes Fondamentaux et Notes Techniques). D'une manière générale, à mesure que nous ajoutons des arbres simples dans notre modèle, le taux d'erreur de classement sur les données d'apprentissage (qui permettent d'estimer les arbres respectifs) va diminuer. Nous observons le même phénomène pour le taux d'erreur de classement sur les données de test. Toutefois, à partir d'un  certain moment, si nous continuons à ajouter des arbres de décision, le taux d'erreur de classement dans l'échantillon de test va commencer à remonter (tandis que le taux d'erreur de classement dans l'échantillon d'apprentissage continue à diminuer), révélant clairement le moment où nous commençons à observer un surajustement.

Par défaut, le programme va cesser d'ajouter des arbres de décision même si le nombre d'arbres spécifique que vous avez défini par l'option Nombre d'arbres dans l'onglet Avancé de la boîte de dialogue Spécifications de la Forêt Aléatoire n'est pas atteint. Pour désactiver la condition d'arrêt, il vous suffit de désélectionner la case à cocher Permettre des conditions d'arrêt avancées dans l'onglet Conditions d'arrêt de la boîte de dialogue Spécifications de la Forêt Aléatoire. Dans ce cas, le nombre d'arbres de décision défini par l'option Nombre d'arbres sera ajouté à la Forêt Aléatoire.

Précision de la prévision. Vous pouvez produire des prévisions pour différents ensembles d'observations - apprentissage, test, ou pour l'ensemble des données. En outre, vous pouvez réaliser des prévisions pour les observations partiellement manquantes des prédicteurs, ce qui constitue l'un des atouts des modèles de Forêts Aléatoires (voir la rubrique Principes Fondamentaux et Notes Techniques pour plus d'informations).

Pour produire des prévisions pour l'échantillon de test, cliquons sur l'onglet Classification dans la boîte de dialogue des Résultats :

Sélectionnez le bouton d'option Échantillon de test dans le groupe Échantillon, puis cliquez sur le bouton Valeurs prévues vs. observées par classe. Le programme va alors produire la feuille de données des valeurs prévues avec les probabilités d'appartenance aux différentes classes. Il va également produire une feuille de données et un histogramme en 3D de la matrice de classification, avec une feuille de données de la matrice de confusion.

En outre, vous pouvez examiner les diverses statistiques complémentaires de synthèse (par exemple, les Estimations du risque) et l'importance des prédicteurs (sous forme d'histogramme). Le Diagramme d'importance des prédicteurs représente le classement de l'importance sur une échelle de 0 à 1 pour chaque variable prédictive de l'analyse. Voir la rubrique Importance des Prédicteurs dans STATISTICA GC&RT, Arbres de Décision Interactifs et Boosting d'Arbres de Décision.

Courbes de gain, courbes de Lift. Une autre manière de vérifier la précision des prévisions consiste à calculer une courbe de lift/gain pour chacune des catégories de la variable dépendante. Sélectionnez l'onglet Classification dans la boîte de dialogue des Résultats afin de calculer des courbes de gain ou de lift pour les différents échantillons.

Interprétation des résultats. D'une manière générale, nous pouvons considérer les Forêts Aléatoires comme un modèle de machine learning (voir la rubrique Principes Fondamentaux et Notes Techniques), c'est-à-dire une "boîte noire" qui va (généralement) produire des prévisions assez fiables, mais avec des modèles difficilement interprétables (contrairement, par exemple, aux modèles linéaires, où nous pouvons exprimer, et donc expliquer le modèle final de prévision). Pour interpréter les résultats du module STATISTICA Forêts Aléatoires, nous disposons d'outils essentiels :

Importance des prédicteurs. Grâce au diagramme et à la feuille de données de l'importance des prédicteurs, nous pouvons généralement identifier les variables qui apportent la plus forte contribution à la prévision de la variable dépendante qui nous intéresse. Cliquez sur le bouton Diagramme d'importance des prédicteurs dans l'onglet Base afin de produire un graphique en barres représentant le classement de l'importance des prédicteurs sur une échelle de 0 à 1 pour chacune des variables prédictives de l'analyse.

Ce tracé permet une inspection visuelle de l'importance relative des variables prédictives utilisées dans l'analyse et donc, nous aide à déterminer la ou les variables prédictives les plus importantes. Voir aussi la rubrique Importance des Prédicteurs dans STATISTICA GC&RT, Arbres de Décision Interactifs et Boosting d'Arbres de Décision. Dans le cas présent, les variables ORD12 et ORD5 apparaissent clairement comme les prédicteurs les plus importants.

Arbres de décision finaux. Vous pouvez également examiner la séquence finale des arbres de décision, soit graphiquement sous forme d'une série de feuille de données de résultats (une pour chaque arbre de décision). Toutefois, il n'est pas nécessaire de chercher à comprendre la "signification" du modèle final lorsque la solution finale comporte un nombre d'arbres important.

Déploiement du modèle pour la prévision. Enfin, vous pouvez déployer le modèle à l'aide du Générateur de code de la boîte de dialogue des Résultats - onglet Rapport. En particulier, vous pouvez enregistrer le code PMML du modèle final pour le déploiement, et utiliser ce code dans le module Déploiement Rapide de Modèles Prédictifs afin de prévoir (classifier) de nouvelles observations.

Ajout d'autres arbres/amélioration de votre modèle. Au lieu de continuer à créer de nouveaux modèles, ce qui peut nécessiter un temps considérable, vous pouvez améliorer votre Forêt Aléatoire existante sans avoir à reconstruire tout le modèle. Lors de l'analyse de vos résultats, vous pouvez trouver par exemple que votre modèle n'est pas suffisamment robuste (c'est-à-dire qu'il n'ajuste pas les données de façon satisfaisante). Dans ce cas, vous pouvez ajouter d'autres arbres en spécifiant simplement le nombre d'arbres à ajouter dans le champ Nombre d'arbres supplémentaires puis en cliquant sur le bouton Davantage d'arbres.




Régression par les Forêts Aléatoires

Cet exemple concerne l'analyse des données présentées dans la rubrique Régression Standard du module Régression Multiple, et dans la rubrique Arbre de Régression pour Prévoir la Pauvreté du module Modèles Généraux d'Arbres de Classification et de Régression.

Fichier de données. Cet exemple repose sur le fichier de données Poverty.sta. Ouvrez ce fichier de données à l'aide de la commande Ouvrir des Exemples du menu Fichier ; ce fichier se situe dans le dossier Fichiers de Données de votre installation STATISTICA. Les données représentent l'évolution de la population entre les recensements de 1960 et de 1970 sur une sélection aléatoire de 30 comtés américains. Le nom des observations du fichier de données contient le nom de ces comtés.

L'information relative aux différentes variables est accessible par la boîte de dialogue de Spécifications de Toutes les Variables (pour y accéder, sélectionnez la commande Spécs de toutes les Variables du Données).

Problématique. L'objectif de cette étude consiste à analyser les indicateurs liés à la pauvreté, c'est-à-dire les variables qui permettent de prévoir au mieux le part de foyers situés en deçà du seuil de pauvreté dans un comté. Nous allons par conséquent traiter la variable 3 (Pt_Pauvr) comme variable dépendante (ou critère), et toutes les autres variables comme des variables indépendantes (ou prédicteurs)

Sélectionnez la commande Forêts Aléatoires pour Problèmes de Régression et de Classification dans le menu Statistiques - Data Mining afin d'accéder à la boîte de dialogue Forêts Aléatoires (Panneau de Démarrage).

Sélectionnez une Analyse de Régression comme Type d'analyse dans l'onglet Base, puis cliquez sur le bouton OK afin d'accéder à la boîte de dialogue Spécifications de la Forêt Aléatoire.

Sélection des variables. Cliqierz sur le bouton Variables afin d'accéder à une boîte de dialogue de sélection de variables.

Remarque : aucune variable n'apparaît dans les listes Prédicteurs catégoriels et Variable avec effectifs. En fait, STATISTICA filtre la liste des variables afin de ne vous proposer de choisir vos variables que parmi celles qui sont adaptées à l'analyse respective. Cette fonctionnalité est particulièrement intéressante lorsque le nombre de variables de votre fichier de données est important. Toutefois, si vous préférer ne pas effectuer ce filtrage préalable, il vous suffit de désélectionner l'option N'afficher que les variables appropriées.

Sélectionnez la variable PT_PAUVR comme variable dépendante et toutes les autres comme prédicteurs continus.

Cliquez sur le bouton OK afin de retourner dans la boîte de dialogue Spécifications de la Forêt Aléatoire.

Différentes options sont accessibles dans l'onglet Avancé et dans l'onglet Conditions d'arrêt de cette boîte de dialogue pour "affiner" l'analyse. Cliquez sur le onglet Avancé afin d'accéder à diverses options permettant de contrôler le nombre et la complexité (nombre de noeuds) des modèles d'arbres simples que vous vous apprêtez à créer.

Les méthodes d'échantillonnage. Par défaut, le module Forêts Aléatoires va répartir les données en échantillon d'apprentissage et en échantillon de test par une sélection aléatoire des données issues du jeu de données. L'échantillon d'apprentissage sert à construire le modèle (ajout d'arbres simples) et l'ensemble de test sert à valider sa performance. Cette performance permet de valider le modèle, qui pour les tâches de régression se définit simplement comme l'erreur moyenne. Par défaut, le module Forêts Aléatoires va sélectionner 30% du jeu de données comme observations de test.

Au lieu de répartir au hasard les données en observations d'apprentissage et observations de test, vous pouvez définir votre propre échantillon de test à l'aide de l'option Échantillon de test. Après avoir cliqué sur le bouton Échantillon de test, la boîte de dialogue Échantillon de Test apparaît et vous permet de spécifier une variable et un code afin de répartir les données en échantillons d'apprentissage et de test. Cette méthode d'échantillonnage prévaut sur l'option d'échantillonnage aléatoire.

Nombre de variables prédictives. L'un des avantages de STATISTICA Forêts Aléatoires réside dans la possibilité offerte par ce module d'effectuer des prévisions sur un nombre partiel (sous-échantillon) de variables prédictives. Cette fonctionnalité est extrêmement intéressante pour des jeux de données constitués d'un grand nombre de prédicteurs.

Vous pouvez notamment spécifier le nombre de variables prédictives à inclure dans vos modèles d'arbres de décision. Cette option est importante, et il est essentiel de définir cette valeur avec soin. Si vous intégrez un grand nombre de prédicteurs dans vos modèles d'arbres de décision, les temps de calculs peuvent être extrêmement longs, et vous faire perdre l'un des principaux avantages des Forêts Aléatoires, qui réside dans la possibilité d'effectuer des prévisions sur la base d'un sous-ensemble de variables prédictives. À l'inverse, si vous intégrez un nombre trop restreint de variables prédictives, vous allez dégrader la performance du modèle (dans la mesure où vous allez exclure des variables qui peuvent expliquer une part importante de la dispersion et des tendances dans vos données). Lorsque vous définissez le nombre de variables prédictives, il est conseillé de conserver la valeur par défaut, qui repose sur une formule (voir Breiman pour plus d'informations).

Conditions d'arrêt. Les options de l'onglet Conditions d'arrêt vous permettent de spécifier différents critères avancés pour interrompre l'algorithme de la Forêt Aléatoire.

Par défaut, la construction d'une Forêt Aléatoire implique l'ajout d'un nombre déterminé d'arbres de décision (100). Cette approche est raisonnable, notamment si vous suivez en temps réel l'ajout des arbres de décision à votre modèle, ce qui vous permet à tout moment de cliquer sur le bouton Arrêter & accéder aux résultats ou sur le bouton Annuler pour abandonner l'apprentissage si vous considérez que le modèle n'est pas adapté.

Pour les sessions d'apprentissage plus longues, il existe d'autres manières de définir le moment où l'apprentissage doit prendre fin. Ces options sont accessibles dans l'onglet Conditions d'Arrêt. L'option la plus efficace est sans doute la Diminution du pourcentage d'erreur d'apprentissage. Elle signifie que si l'erreur d'apprentissage ne s'améliore pas d'une quantité au moins égale à la quantité définie ici, pour un nombre de périodes déterminé (par l'option du nombre de Cycles pour le calcul de l'erreur moyenne), l'apprentissage prendra fin.

Pour cet exemple, contentons nous d'accepter toutes les options et valeurs par défaut, et cliquons sur le bouton OK afin d'accéder à la boîte de dialogue Spécifications de la Forêt Aléatoire. La boîte de dialogue Calculs en cours apparaît et nous permet de suivre la progression de l'analyse ainsi que le temps écoulé et le temps restant.

À l'issue des calculs, cette boîte de dialogue va automatiquement se fermer et laisser la place à la boîte de dialogue Forêt Aléatoire - Résultats.

Étude des résultats. Cliquez tout d'abord sur le bouton Synthèse afin de visualiser la manière dont l'erreur quadratique moyenne a évolué dans les échantillons d'analyse et de test au fil de l'apprentissage.

Ce graphique illustre le mécanisme de l'algorithme des Forêts Aléatoires, implémenté dans STATISTICA, pour éviter le surajustement (voir aussi la rubrique Principes Fondamentaux et Notes Techniques). D'une manière générale, à mesure que nous ajoutons des arbres simples dans notre modèle, l'erreur quadratique moyenne sur les données d'apprentissage (qui permettent d'estimer les arbres respectifs) va diminuer. Nous observons le même phénomène pour l'erreur quadratique moyenne sur les données de test. Toutefois, à partir d'un certain moment, si nous continuons à ajouter des arbres de décision, l'erreur quadratique moyenne dans l'échantillon de test va commencer à remonter (tandis que l'erreur quadratique moyenne dans l'échantillon d'apprentissage continue à diminuer), révélant clairement le moment où nous commençons à observer un surajustement.

Par défaut, le programme va cesser d'ajouter des arbres de décision même si le nombre d'arbres spécifique que vous avez défini par l'option Nombre d'arbres dans l'onglet Avancé de la boîte de dialogue Spécifications de la Forêt Aléatoire n'est pas atteint. Pour désactiver la condition d'arrêt, il vous suffit de désélectionner la case à cocher Permettre des conditions d'arrêt avancées dans l'onglet Conditions d'arrêt de la boîte de dialogue Spécifications de la Forêt Aléatoire. Dans ce cas, le nombre d'arbres de décision défini par l'option Nombre d'arbres sera ajouté à la Forêt Aléatoire.

Étude des prévisions. Vous pouvez produire des prévisions pour différents groupes d'observations, en particulier les échantillons d'apprentissage, de test ou l'ensemble du fichier de données. En outre, vous pouvez demander des prévisions pour des observations partiellement manquantes des prédicteurs, ce qui constitue l'une des spécificités du module Forêts Aléatoires (voir la rubrique Principes Fondamentaux et Notes Techniques pour plus d'informations).

Pour produire des prévisions pour l'ensemble des données du fichier de données, cliquez sur l'onglet Prévisions, et sélectionnez le bouton d'option Tous les échantillons dans le groupe Échantillon.

Cliquez ensuite sur le bouton Valeurs prévues afin de produire une feuille de données des valeurs observées, prévues et des résidus.

Vous pouvez également produire le graphique des Valeurs prévues vs. résidus,

celui des Valeurs observées vs. prévues,

ou encore celui des Valeurs observées vs. résidus. Pour produire ces graphiques, cliquez simplement sur les boutons correspondants.

En outre, vous pouvez examiner les diverses statistiques complémentaires de synthèse (par exemple, les Estimations du risque, disponibles dans l'onglet Base) et l'importance des prédicteurs (sous forme d'histogramme, disponible par le bouton Diagramme d'importance des prédicteurs dans l'onglet Base). Le Diagramme d'importance des prédicteurs représente le classement de l'importance sur une échelle de 0 à 1 pour chaque variable prédictive de l'analyse. Voir la rubrique Importance des Prédicteurs dans STATISTICA GC&RT, Arbres de Décision Interactifs et Boosting d'Arbres de Décision.

Interprétation des résultats. D'une manière générale, nous pouvons considérer les Forêts Aléatoires comme un modèle de machine learning (voir la rubrique Principes Fondamentaux et Notes Techniques), c'est-à-dire une "boîte noire" qui va (généralement) produire des prévisions assez fiables, mais avec des modèles difficilement interprétables (contrairement, par exemple, aux arbres de classification ou de régression, ou aux modèles linéaires, où nous pouvons exprimer, et donc expliquer le modèle final de prévision). Pour interpréter les résultats du module STATISTICA Forêts Aléatoires, nous disposons de outils essentiels :

Importance des prédicteurs. Grâce au diagramme et à la feuille de données de l'importance des prédicteurs, nous pouvons généralement identifier les variables qui apportent la plus forte contribution à la prévision de la variable dépendante qui nous intéresse. Cliquez sur le bouton Diagramme d'importance des prédicteurs dans l'onglet Baseafin de produire un graphique en barres représentant le classement de l'importance des prédicteurs sur une échelle de 0 à 1 pour chacune des variables prédictives de l'analyse.

Ce tracé permet une inspection visuelle de l'importance relative des variables prédictives utilisées dans l'analyse et donc, nous aide à déterminer la ou les variables prédictives les plus importantes. Voir aussi la rubrique Importance des Prédicteurs dans STATISTICA GC&RT, Arbres de Décision Interactifs et Boosting d'Arbres de Décision. Dans le cas présent, les variables PT_PHONE, PT_RURAL et dans une moindre mesure, VARI_POP apparaissent comme les prédicteurs les plus importants.

Arbres de décision finaux. Vous pouvez également examiner la séquence finale des arbres de décision, soit graphiquement, soit sous forme d'une série de feuille de données de résultats (une pour chaque arbre de décision). Toutefois, il n'est pas nécessaire de chercher à comprendre la "signification" du modèle final lorsque la solution finale comporte un nombre d'arbres important.

Déploiement du modèle pour la prévision. Enfin, vous pouvez déployer le modèle à l'aide du Générateur de code de la boîte de dialogue Résultats - onglet Rapport. En particulier, vous pouvez enregistrer le code PMML du modèle final pour le déploiement, et utiliser ce code dans le module Déploiement Rapide de Modèles Prédictifs afin de prévoir de nouvelles observations.

Ajout d'autres arbres/amélioration de votre modèle. Au lieu de continuer à créer de nouveaux modèles, ce qui peut nécessiter un temps considérable, vous pouvez améliorer votre Forêt Aléatoire existante sans avoir à reconstruire tout le modèle. Lors de l'analyse de vos résultats, vous pouvez trouver par exemple que votre modèle n'est pas suffisamment robuste (c'est-à-dire qu'il n'ajuste pas les données de façon satisfaisante). Dans ce cas, vous pouvez ajouter d'autres arbres en spécifiant simplement le nombre d'arbres à ajouter dans le champ Nombre d'arbres supplémentaires puis en cliquant sur le bouton Davantage d'arbres.

Didacticiels

Vous pouvez visionner l'intégralité de la série de tutoriels Le Data Mining en 35 Leçons avec STATISTICA en remplissant le formulaire d'inscription. Vous serez alors notifié(e) automatiquement de la disponibilité des nouveaux épisodes et recevrez d'autres informations utiles.

StatSoft propose par ailleurs une série de didacticiels et présentations interactives décrivant pas-à-pas différentes opérations que vous pouvez réaliser à l'aide de STATISTICA. Si vous souhaitez voir aborder un thème particulier, merci de nous écrire.