Partager :

Concepts Fondamentaux en Statistique


Techniques Exploratoires Multivariées :

Modèles Généraux d'Analyse Discriminante (GDA)



Sommaire :


Introduction

Le module Modèles Généraux d'Analyse Discriminante (GDA) est un programme d'analyse discriminante "général" en ce sens qu'il applique les méthodes du modèle linéaire général (voir aussi le module Modèle Linéaire Général (GLM)) aux problèmes d'analyse discriminante. Vous trouverez une présentation générale de l'analyse discriminante et des méthodes traditionnelles d'ajustement de modèles linéaires avec des variables dépendantes catégorielles et des prédicteurs continus dans le cadre du module Analyse Discriminante (voir l'Introduction). Dans le module GDA, le problème de l'analyse discriminante est abordé comme un modèle linéaire général multivarié, dans lequel les variables dépendantes étudiées sont des vecteurs codés (factices) reflétant l'appartenance de chaque observation à un groupe. Le reste de l'analyse est alors réalisé comme décrit dans le contexte du module GRM, avec quelques fonctionnalités supplémentaires décrites ci-dessous.

Codification de la Variable Dépendante Catégorielle

Vous trouverez ci-dessous, l'illustration de l'approche statistique utilisée dans le module GDA. Considérons le fichier de données suivant avec une seule variable dépendante catégorielle, 3 groupes et 4 prédicteurs.

Variable Dép. Catégorielle

 

Prédicteurs

 

 

1

2

3

4

Groupe 1

 

2.3

5.4

4.4

3.3

Groupe 1

 

3.4

3.9

3.6

3.1

Groupe 1

 

5.6

1.2

4.3

5.6

Groupe 2

 

1.6

4.0

3.3

5.8

Groupe 2

 

2.3

9.8

3.0

5.3

Groupe 2

 

3.1

6.7

1.4

2.3

Groupe 3

 

 8.7

7.5

1.3

3.4

Groupe 3

 

9.3

 7.3

2.7

2.1

Groupe 3

 

3.2

7.7

1.7

6.7

Vous trouverez un descriptif de l'approche traditionnelle d'une analyse discriminante sur ces données dans le module Analyse Discriminante (voir aussi Jennrich, 1977, pour une brève description des calculs). Dans le module GDA, le programme réécrit "en interne" le fichier comme suit (votre fichier de données initial n'est évidemment pas modifié) :

 Groupe

 

Prédicteurs

1

0

0

 

2.3

5.4

4.4

3.3

1

0

0

 

3.4

3.9

3.6

3.1

1

0

0

 

5.6

1.2

4.3

5.6

0

1

0

 

1.6

4.0

3.3

5.8

0

1

0

 

2.3

9.8

3.0

5.3

0

1

0

 

3.1

6.7

1.4

2.3

0

0

1

 

8.7

7.5

1.3

3.4

0

0

1

 

9.3

7.3

2.7

2.1

0

0

1

 

3.2

7.7

1.7

6.7

La variable dépendante catégorielle initiale a été répartie en trois variables dépendantes distinctes, chacune contenant un 1 pour indiquer que l'observation respective appartient à ce groupe ou un 0 sinon. Le problème peut maintenant être considéré comme un problème de régression multivariée (voir le module Modèles Généraux de Régression (GRM)) et nous pouvons calculer les résultats standard univariés et multivariés. À nouveau, cette recodification de la ou des variables dépendantes est réalisée en interne par le programme et n'affecte en rien vos données initiales.

Outre les résultats statistiques associés à la régression et décrits dans le cadre du module GRM, toutes les statistiques classiques de l'analyse discriminante sont calculées ; elles sont décrites dans le module Analyse Discriminante. L'analyse discriminante standard de prédicteurs continus (à un seul degré de liberté) produit des résultats identiques dans les deux modules GDA et Analyse Discriminante, à la différence près que GDA reporte également les résultats de régression univariés et multivariés, comme nous l'avons décrit dans le module Modèles Généraux de Régression (GRM).

Avantages des Modèles Généraux d'Analyse Discriminante

Spécifier des modèles pour des variables prédictives et des effets de prédicteurs. L'intérêt d'appliquer le modèle linéaire général dans un problème d'analyse discriminante est que vous avez la possibilité de spécifier des modèles complexes pour un ensemble de variables prédictives. Par exemple, vous pouvez spécifier, pour un ensemble de variables prédictives continues, un modèle de régression polynomial, un modèle de surface de réponse, une régression factorielle ou une régression de surface de mélange (sans ordonnées à l'origine). Ainsi, vous pouvez analyser une expérience de mélange sous contraintes (la somme des valeurs de la variable prédictive devant totaliser une constante), dans laquelle la variable dépendante est de nature catégorielle. En fait, STATISTICA GDA n'impose aucune restriction particulière quant au type de variable prédictive (catégorielle ou continue) à utiliser, ni aux modèles pouvant être spécifiés. Toutefois, lorsque vous utilisez des variables prédictives catégorielles, vous devez être particulièrement vigilant (consultez la rubrique "Une note d'avertissement pour les modèles avec des prédicteurs catégoriels, et autres techniques avancées" ci-dessous).

Analyses pas à pas et par recherche exhaustive du meilleur modèle. Outre les analyses pas-à-pas traditionnelles pour des prédicteurs continus simples que vous pouvez trouver dans le module Analyse Discriminante, le module Modèles Généraux d'Analyse Discriminante vous donne accès aux options d'analyse pas-à-pas et par recherche exhaustive du meilleur modèle du module Modèles Généraux de Régression (GRM). En particulier, vous pouvez demander une sélection pas-à-pas ou par recherche exhaustive du meilleur modèle de prédicteurs (dans des effets à plusieurs degrés de liberté, sur des prédicteurs catégoriels) sur la base du F d'inclusion et du p d'inclusion (statistiques associées au test multivarié du Lambda de Wilks). En outre lorsque vous spécifiez un échantillon de validation croisée, vous avez la possibilité d'effectuer une recherche exhaustive du meilleur modèle en utilisant le critère du taux de mal classés dans l'échantillon de validation croisée ; en d'autres termes, une fois les fonctions discriminantes estimées pour un ensemble donné de prédicteurs, les taux de mauvais classement dans l'échantillon de validation croisée sont calculés, et c'est le modèle (ensemble de prédicteurs) qui produit le plus faible taux de mauvais classés dans l'échantillon de validation croisée qui est retenu. Il s'agit d'une technique puissante qui permet de choisir des modèles possédant un bon pouvoir prédictif, tout en évitant le surapprentissage (voir également le module STATISTICA Réseaux de Neurones Automatisés).

Profil de désirabilité des probabilités de classification a posteriori. Une autre option très utile du module Modèles Généraux d'Analyse Discriminante de STATISTICA est celle du Profil de Réponse/Désirabilité. Cette option est décrite en détail dans le module Plans d'Expériences, ainsi que dans le module Modèle Linéaire Général. En résumé, le programme va calculer les valeurs des réponses prévues pour chacune des variables dépendantes, et ces valeurs seront synthétisées dans un seul score de désirabilité. Vous pouvez également produire une synthèse graphique pour visualiser le "comportement" des réponses prévues et de la désirabilité sur l'étendue des valeurs des variables prédictives. Dans le module GDA, vous pouvez calculer le profil à la fois pour les valeurs prévues simples (comme dans le module Modèles Généraux de Régression) des variables dépendantes codées (c'est-à-dire les catégories muettes (dummies) d'une variable catégorielle dépendante), et pour des probabilités de prévision a posteriori. Cette dernière option vous permet d'évaluer dans quelle mesure différentes valeurs des variables prédictives vont affecter la classification prévue des observations, et s'avère particulièrement utile lors de l'interprétation des résultats de modèles complexes comportant des prédicteurs catégoriels, continus, et leur interactions. Vous trouverez davantage d'informations sur ces fonctionnalités dans la description de l'onglet Profil.

Une note d'avertissement pour les modèles avec des prédicteurs catégoriels, et autres techniques avancées. Le module Modèles Généraux d'Analyse Discriminante offre des fonctionnalités faisant de cette technique un outil généraliste de classification et de data mining. Toutefois, la plupart -- pour ne pas dire tous -- les ouvrages traitant de l'analyse discriminante se limitent aux analyses simples et pas-à-pas avec des prédicteurs continus à un degré de liberté. Rien n'est dit (dans la littérature) concernant la robustesse ni l'efficacité de ces techniques, lorsqu'elles sont généralisées sous la forme proposée dans ce module. L'utilisation des méthodes de recherche exhaustive du meilleur modèle, en particulier avec des prédicteurs catégoriels ou avec des taux de mauvais classés dans un échantillon de validation croisée, doit être considérée plus comme une méthode de recherche heuristique, qu'une technique analytique statistique.

L'utilisation de variables prédictives catégorielles. L'utilisation d'effets ou de variables prédictives catégorielles dans une analyse discriminante peut être (statistiquement) remise en cause. Par exemple, vous pouvez utiliser le module Modèles Généraux d'Analyse Discriminante pour analyser une table de fréquences 2 x 2, en spécifiant une variable du tableau 2 x 2 comme variable dépendante, et l'autre comme prédicteur. Clairement, l'utilisation (abusive) du module Modèles Généraux d'Analyse Discriminante de cette manière est parfaitement incorrecte (bien que nous obtenions dans la plupart des cas des résultats qui confortent ceux que nous obtenons par un simple test du Chi-deux pour une table 2 x 2). D'un autre côté, si vous considérez les paramètres estimés par le module Modèles Généraux d'Analyse Discriminante comme la solution des moindres carrés à un ensemble d'équations linéaires (de prévision), l'utilisation de prédicteurs catégoriels dans le module Modèles Généraux d'Analyse Discriminante est parfaitement justifiée ; en outre, en recherche appliquée, il n'est pas rare d'avoir affaire à un mélange de prédicteurs catégoriels et continus (par exemple, le revenu ou l'âge qui sont continus, avec le statut marital qui, lui, est catégoriel) pour prévoir une variable dépendante catégorielle. Dans ces circonstances, il peut être très intéressant de considérer des modèles spécifiques comportant des prédicteurs catégoriels, et éventuellement des interactions entre les prédicteurs catégoriels et continus pour classer les observations. Toutefois, au risque de nous répéter, l'utilisation de variables prédictives catégorielles dans l'analyse discriminante n'est pas très documentée, et vous devez être vigilant(e) avant d'accepter les résultats des tests de significativité statistique, et de tirer des conclusions pour vos analyses. Enfin, sachez que STATISTICA propose d'autres méthodes pour effectuer le même type d'analyse, en particulier, les modèles Logit multinomiaux du module Modèles Linéaires/Non-Linéaires Généralisés (GLZ), ou les méthodes d'analyse de tables de fréquences d'ordre multiple du module Analyse Log-Linéaire.

Comparaison avec d'Autres Programmes d'Analyse Discriminante

Pas-à-Pas

Le module STATISTICA Modèles Généraux d'Analyse Discriminante (GDA) vous permet d'appliquer le modèle linéaire général, de manière tout à fait flexible, aux problèmes de classification. Plus précisément, GDA vous permet de construire des modèles très complexes, notamment des plans avec des effets pour des prédicteurs catégoriels. Ainsi, le terme "générale" dans l'expression Modèles Généraux d'Analyse Discriminante fait référence à la fois à l'utilisation du modèle linéaire général, et au fait que, contrairement à la plupart des programmes d'analyse discriminante pas-à-pas, le module GDA n'est pas limité à l'analyse de plans ne contenant que des prédicteurs continus. (Veuillez toutefois consulter la rubrique Une note d'avertissement pour les modèles avec des prédicteurs catégoriels, et autres techniques avancées, pour connaître les limites de cette approche).

GDA s'apparente aux modules Modèle Linéaire Général et Modèles Généraux de Régression de STATISTICA à de nombreux égards. Ces deux modules proposent des méthodes similaires pour spécifier les analyses et produire les résultats ; si vous savez utiliser un module, vous saurez utiliser l'autre. Hormis les options permettant d'utiliser le modèle sur-paramétré (Ainsi GDA n'utilise QUE modèle sigma-restreint) et d'analyser des plans incomplets, vous retrouverez dans GDA toutes les fonctionnalités innovantes de GLM. La rubrique GDA - Spécificités ne met l'accent que sur certaines des spécificités du module GDA, généralement absentes d'autres programmes (moins complets) d'analyse discriminante.

Spécificités

Les paragraphes suivants ne mettent en avant que quelques uns des points forts du module GDA, habituellement absents d'autres programmes (moins complets) permettant de réaliser des analyses discriminantes (consulter aussi la rubrique Comparaison avec d'autres programmes du modèle linéaire général).

Spécification de plans complexes, notamment de mélanges. L'un des avantages de l'utilisation du modèle linéaire général dans le cadre de l'analyse discriminante (voir l'Introduction) est de pouvoir spécifier des modèles complexes pour l'ensemble des prédicteurs. Par exemple, vous pouvez spécifier pour un ensemble de prédicteurs continus, un modèle de régression polynomiale, une surface de réponse, une régression factorielle, ou une surface de mélange (avec ou sans ordonnée à l'origine). Ainsi, vous pouvez analyser un mélange sous contraintes (la somme des valeurs des prédicteurs devant totaliser une constante), dans lequel la variable dépendante est de nature catégorielle.

En fait, STATISTICA GDA n'impose aucune restriction particulière quant au type de prédicteur (catégoriel ou continu) utilisé, ni aux modèles pouvant être spécifiés. Toutefois, lorsque vous utilisez des variables prédictives catégorielles, vous devez être particulièrement vigilant(e) (voir Une note d'avertissement pour les modèles avec des prédicteurs catégoriels, et autres techniques avancées).

Inclusion d'effets catégoriels (type ANOVA) dans des plans complexes. Le module Modèles Généraux d'Analyse Discriminante permet d'inclure des effets catégoriels dans des plans complexes, ce qui fait de cette technique, un outil généraliste de classification et de data mining. La plupart -- pour ne pas dire tous -- les ouvrages traitant de l'analyse discriminante (ainsi que les logiciels disponibles dans le commerce) se limitent aux analyses simples et pas-à-pas avec des prédicteurs continus à un degré de liberté. Dans GDA, vous pouvez inclure des effets catégoriels de "type ANOVA" dans des modèles complexes de type ANOVA pour les prédicteurs (voir aussi "Spécification de plans complexes, notamment les mélanges" ci-dessous ; voir aussi la rubrique Une note d'avertissement pour les modèles avec des prédicteurs catégoriels, et autres techniques avancées).

Analyse discriminante par recherche exhaustive du meilleur modèle, sur des modèles complexes. Comme GDA est une implémentation du modèle linéaire général, il partage de nombreuses caractéristiques uniques du module Modèles Généraux de Régression (GRM) (consultez la rubrique Comparaisons avec d'autres programmes de régression), tout en ajoutant de nombreuses améliorations particulièrement utiles dans le contexte des problèmes de classification. En plus des techniques d'analyse discriminante pas-à-pas, STATISTICA GDA inclut des méthodes par recherche exhaustive des prédicteurs et/ou effets. Comme dans GRM, vous pouvez effectuer une recherche exhaustive du meilleur modèle (ainsi que les méthodes de sélection pas-à-pas) pour des modèles comportant des effets avec des degrés de liberté multiples pour des prédicteurs catégoriels ; au cours de la recherche exhaustive ou pas-à-pas, ces effets seront testés et introduits ou supprimés du modèle, en bloc, et ne seront pas "éclatés" en variables avec un seul degré de liberté. En outre, vous pouvez sélectionner comme critère lors de la recherche exhaustive du meilleur modèle dans GDA, le taux de mal classés dans l'échantillon d'analyse, ou dans l'échantillon de validation croisée (non inclus dans les calculs des paramètres estimés par les moindres carrés). Les méthodes de recherche exhaustive pour des prédicteurs continus et catégoriels, combinées au choix des effets sur la base des mal classés, font de GDA un outil puissant et très efficace de data mining.

Sélection du meilleur modèle de prédicteurs sur la base d'un taux de mal classés dans l'échantillon de validation croisée. Comme nous l'avons décrit dans la rubrique "Analyse discriminante par recherche exhaustive" (voir ci-dessus), sur des plans complexes, GDA offre les options nécessaires pour réaliser une recherche exhaustive du meilleur modèle de prédicteurs, même avec des prédicteurs complexes de type ANOVA (pour des prédicteurs catégoriels). Plusieurs critères vous permettent de choisir les effets des prédicteurs à inclure dans le modèle ; un critère consiste à inclure les effets des prédicteurs produisant le taux de mal classés le plus faible lors du classement des observations (sur la base des probabilités de classification a posteriori). Vous pouvez calculer ce taux de mal classés soit sur l'échantillon d'analyse (c'est-à-dire, contenant les observations utilisés pour l'estimation des paramètres) ou sur l'échantillon de validation croisée (c'est-à-dire, dont les observations n'ont pas participé à l'estimation des paramètres). Cette méthode est particulièrement utile dans les applications de data mining où nous cherchons un modèle possédant un bon pouvoir prédictif pour classer de nouvelles observations. Il permet également de prévenir le surapprentissage des modèles : Souvent, lorsque nous ne nous intéressons qu'à la classification des observations dans l'échantillon d'analyse, en particulier avec des échantillons de grande taille, nous ajoutons des effets permettant d'améliorer sensiblement l'ajustement du modèle dans l'échantillon d'analyse, au détriment du pouvoir prédictif dans l'échantillon de validation croisée.

Profil des réponses prévues, probabilités a posteriori et désirabilité. Dans les problèmes complexes d'analyse discriminante avec de nombreux prédicteurs et classes (groupes) dans la variable dépendante, il est souvent difficile d'interpréter les résultats. Plus précisément, il est rarement évident de déterminer les combinaisons de valeurs des prédicteurs maximisant la probabilité qu'une observation respective appartienne à une classe particulière, ou à un ensemble de classes. Le module GDA contient les options Profil de désirabilité et d'optimisation de réponses proposées dans le module Modèles Généraux de Régression (GRM). Toutefois dans GDA, les profils peuvent s'appliquer à des variables dépendantes codées (muettes) (voir aussi l'Introduction), et vous pouvez choisir entre des valeurs prévues simples (comme en régression) et des probabilités de classification a posteriori, variant toujours entre 0 et 1. Ainsi, par exemple, après avoir ajusté un modèle particulier aux données, vous pouvez réaliser une grille de recherche dans l'espace du modèle (les valeurs des prédicteurs) pour maximiser les probabilités de classification a posteriori d'une classe particulière, ou d'une combinaison de classes particulières. A notre connaissance, seul STATISTICA offre cette extension des profils de réponses à l'analyse discriminante pour la classification.





Analyse Discriminante Pas-à-Pas

Spécification de l'Analyse. Cet exemple illustre une construction de modèle dans GDA en utilisant l'analyse discriminante pas-à-pas ascendante. Il est basé sur un fichier d'exemple classique rapporté par Fisher (1936). Il comporte les longueurs et largeurs des sépales et des pétales de trois types d'iris (Setosa, Versicol, et Virginic). Le but de cette analyse est de savoir ce qui discrimine les trois types de fleurs, sur la base des quatre mesures de largeur et de longueur des pétales et des sépales.

Le fichier de données de cette analyse se nomme Irisdat.sta. Ouvrez ce fichier à l'aide de la commande Ouvrir des Exemples du menu Fichier ; ce fichier se situe dans le répertoire Fichiers de Données. Les deux premières variables de ce fichier (Lonsepal, Larsepal) se rapportent à la longueur et à la largeur des sépales ; les deux variables suivantes (Lonpetal, Larpetal) se rapportent à la longueur et à la largeur des pétales. La dernière variable du fichier est une variable de classement ou codage qui identifie à quel type d'iris appartient chaque fleur (Setosa, Versicol et Virginic). En tout, il y a 150 fleurs dans cet échantillon, 50 pour chaque type.

Dans la boîte de dialogue Modèles Généraux d'Analyse Discriminante (GDA) (Panneau de Démarrage), sélectionnez l'option Analyse discriminante générale comme Type d'analyse et l'option Spécifications rapides comme Méthode de spécification. Ensuite, cliquez sur le bouton OK pour afficher la boîte de dialogue Modèles Généraux d'Analyse Discriminante GDA.

Dans la boîte de dialogue Modèles Généraux d'Analyse Discriminante (GDA) - onglet Base, cliquez sur le bouton Variables et sélectionnez Typeiris comme Variable dépendante et Lonsepal, Larsepal, Lonpetal et Larpetal comme Prédicteurs continus. Utilisez également l'onglet Avancé pour sélectionnez le bouton d'option Pas-à-pas ascendante dans le cadre Construction de modèle.

Enfin, cliquez sur le bouton OK dans la boîte de dialogue Modèles Généraux d'Analyse Discriminante (GDA) pour afficher la boîte de dialogue GDA - Résultats.

Remarque : la syntaxe GDA de l'analyse est :

GDA;

   DEPENDENT = TYPEIRIS ("SETOSA" "VIRGINIC" "VERSICOL");

   COVARIATE = LONSEPAL LARSEPAL LONPETAL LARPETAL;

   DESIGN = LONSEPAL + LARSEPAL + LONPETAL + LARPETAL;

   MBUILD = FSTEPWISE;

   P1ENTER = ,05;

   P2REMOVE = ,05;

   STEPCRIT = P;

Étude des Résultats. Dans la boîte de dialogue GDA - Résultats - onglet Base, cliquez sur le bouton Synthèse des résultats pas-à-pas dans le cadre Résultats de la construction du modèle afin d'afficher une feuille de données contenant les résultats de chaque étape de la recherche pas-à-pas ascendante.




Analyse Discriminante par Recherche Exhaustive

Spécification de l'Analyse. Cet exemple illustre une construction de modèle dans GDA en utilisant la sélection des prédicteurs par recherche exhaustive ; l'analyse va également inclure un prédicteur catégoriel. Lorsque les prédicteurs catégoriels ou les effets possèdent plus d'un seul degré de liberté, les procédures pas-à-pas et par recherche exhaustive dans STATISTICA GDA, garantissent que les variables codifiées (sigma-restreint) représentant les prédicteurs catégoriels sont introduites ou exclues du modèle en bloc (de sorte que les effets complets à plusieurs degrés de liberté soient toujours inclus ou exclus du modèle final) ; toutefois, dans l'exemple ci-dessous, le prédicteur catégoriel ne possède que deux niveaux, et donc un seul degré de liberté). Cependant reportez-vous à la rubrique Note d'avertissement pour les modèles avec des prédicteurs catégoriels, et autres techniques avancées dans la rubrique GDA - Introduction - Avantages des Modèles Généraux d'Analyse Discriminante pour plus d'informations quant aux limites possibles dans les problèmes comportant des prédicteurs catégoriels.

Cet exemple illustre une analyse de données concernant le logement à Boston (Harrison et Rubinfeld, 1978) rapportée par Lim, Loh, et Shih (1997). Des prix médians de résidences ont été classés comme Faible, Moyen ou Élevé dans la variable dépendante Prix. Il y a 1 prédicteur catégoriel, Cat1, et 12 prédicteurs ordonnés, de Ord1 à Ord12. Un double de l'échantillon d'apprentissage est utilisé comme un échantillon test. La variable avec les identifiants d'échantillons est la variable Échant ; elle contient les codes 1 pour Apprentissage et 2 pour Test. Le fichier de données complet contenant un total de 1012 observations est disponible dans le fichier Boston2.sta. Ouvrez ce fichier à l'aide de la commande Ouvrir des Exemples du menu Fichier ; ce fichier se situe dans le répertoire Fichiers de Données.

Dans la boîte de dialogue Modèles Généraux d'Analyse Discriminante (GDA) (Panneau de Démarrage), sélectionnez l'option Analyse discriminante générale comme Type d'analyse et l'option Spécifications rapides comme Méthode de spécification. Ensuite, cliquez sur le bouton OK pour accéder à la boîte de dialogue Modèles Généraux d'Analyse Discriminante (GDA).

Dans la boîte de dialogue Modèles d'Analyse Discriminante - onglet Base, cliquez sur le bouton Variables et sélectionnez Prix comme Variable dépendante catégorielle, Cat1 comme Prédicteur catégoriel et de Ord1 à Ord12 comme Prédicteurs continus.  Remarque : vous devrez peut-être désélectionner l'option N'afficher que les variables appropriées pour voir toutes les variables. Cliquez ensuite sur le bouton Codes vars. dép pour afficher la boîte de dialogue Sélectionnez les Codes des Variables Dépendantes, puis cliquez sur le bouton Tous et sur le bouton OK afin de sélectionner tous les codes de la variable dépendante. De la même manière, cliquez sur le bouton Codes facteurs et sélectionnez tous les codes du prédicteur catégoriel.

Dans l'onglet Avancé, cliquez sur le bouton Validation croisée pour afficher la boîte de dialogue Validation Croisée. Cliquez sur le bouton Variable avec les identifiants d'échantillon et sélectionnez la variable Échant comme variable avec les identifiants d'échantillons (pour faire une distinction entre les échantillons d'analyse et de validation croisée). Sélectionnez ensuite la valeur-texte Apprenti comme Code de l'échantillon d'analyse pour identifier les observations dans l'échantillon d'analyse. Puis sélectionnez le bouton d'option ACTIF dans le cadre État et cliquez sur le bouton OK pour retourner dans l'onglet Avancé.

Sélectionnez à présent les deux boutons d'option Recherche exhaustive et Mauvais class. VC dans le cadre Options de construction de modèle pour utiliser le taux de mauvais classement dans l'échantillon de validation croisée pour déterminer le meilleur modèle. Remarque : dans ce fichier de données particulier, l'échantillon de validation croisée est simplement une copie de l'échantillon d'analyse, ainsi d'un point de vue analytique, l'utilisation de l'échantillon de validation croisée ne devrait pas être nécessaire dans ce cas (nous pourrions simplement exclure l'échantillon Test de l'analyse). Toutefois, procédons de cette manière pour illustrer cette puissante technique de data mining.

Remarque : par défaut, lorsqu'il faut choisir parmi 13 effets prédicteurs, il y a 8191 modèles avec de 1 à 13 prédicteurs à évaluer. Comme nous l'avons déjà indiqué, STATISTICA va choisir le modèle avec le plus faible taux d'erreur de classification dans l'échantillon de validation croisée (qui dans ce cas est identique à l'échantillon d'analyse).

Enfin, cliquez sur le bouton OK dans la boîte de dialogue Modèles Généraux d'Analyse Discriminante (GDA) pour afficher la boîte de dialogue GDA - Résultats. Remarque : selon les caractéristiques de votre ordinateur, cette analyse peut prendre un certain temps en raison du grand nombre de modèles à tester.

Remarque : la syntaxe GDA de l'analyse est  :

GDA;

  DEPENDENT = PRIX ("FAIBLE" "MOYEN" "ÉLEVÉ");

  GROUPS = CAT1(0 1);

  COVARIATE = ORD1 ORD2 ORD3 ORD4 ORD5 ORD6 ORD7 ORD8 ORD9 ORD10 ORD11 ORD12;

  DESIGN = ORD1 + ORD2 + ORD3 + ORD4 + ORD5 + ORD6 +

  ORD7 + ORD8 + ORD9 + ORD10 + ORD11 + ORD12 +

  CAT1;

  SAMPLE = SAMPLE (1);

  MBUILD = BESTSUBSET;

  BESTCRIT = CROSSVAL;

  START = 1;

  STOP = 13;

  MAXSUB = 10;

Étude des Résultats. Dans la boîte de dialogue GDA - Résultats - onglet Base, cliquez sur le bouton Synthèse de la recherche exhaustive dans le cadre Résultats de la construction du modèle afin d'afficher une feuille de données contenant une synthèse de l'analyse de régression par recherche exhaustive.

Didacticiels

Vous pouvez visionner l'intégralité de la série de tutoriels Le Data Mining en 35 Leçons avec STATISTICA en remplissant le formulaire d'inscription. Vous serez alors notifié(e) automatiquement de la disponibilité des nouveaux épisodes et recevrez d'autres informations utiles.

StatSoft propose par ailleurs une série de didacticiels et présentations interactives décrivant pas-à-pas différentes opérations que vous pouvez réaliser à l'aide de STATISTICA. Si vous souhaitez voir aborder un thème particulier, merci de nous écrire.