Partager : |
Concepts Fondamentaux en Statistique
Statistiques Fondamentales :
Ajustement de Distributions
Sommaire :
Principes Fondamentaux
Dans certains domaines de recherche, il est possible de formuler des hypothèses quant à la distribution spécifique de la variable étudiée. Par exemple, des variables dont les valeurs sont déterminées par un nombre infini d'événements aléatoires indépendants suivent la distribution normale : on peut penser que la taille d'un individu résulte d'une infinité de facteurs indépendants comme des prédispositions génétiques, des maladies infantiles, la nutrition, etc... (observez l'animation ci-dessous pour avoir un exemple de distribution normale). En substance, la taille tend à être distribuée normalement dans la population française. En revanche, si les valeurs d'une variable résultent d'événements très rares, la variable sera distribuée selon la distribution de Poisson (parfois appelée distribution des événements rares). Par exemple, les accidents industriels peuvent être considérés comme la conjonction d'une suite d'événements malheureux (et peu probables), et leur fréquence tend à être distribuée selon la distribution de Poisson. Ces distributions, ainsi que les autres distributions disponibles sont décrites en détail dans les rubriques respectives du glossaire du Manuel Électronique.
Les procédures d'ajustement de distributions sont également utilisées lorsque vous souhaitez vérifier l'hypothèse de normalité avant d'utiliser des tests non paramétriques (voir la rubrique Tests Non Paramétriques - Principes Fondamentaux). Par exemple, vous pouvez utiliser le test de normalité de Kolmogorov-Smirnov ou le test W de Shapiro-Wilk afin de tester la normalité.
Ajustement d'une Distribution
Dans une optique prédictive, il est souvent souhaitable de comprendre la forme sous-jacente de la distribution d'une population. Afin de déterminer cette distribution sous-jacente, il est courant d'ajuster la distribution observée par une distribution théorique en comparant les effectifs observés dans les données aux effectifs attendus par la distribution théorique (c'est-à-dire un test du Chi² de qualité d'ajustement).
Quelle distribution utiliser. Comme cela a été décrit précédemment, certains types de variables suivent des distributions spécifiques. Les variables dont les valeurs sont déterminées par une infinité d'événements aléatoires indépendants suivent la loi normale, alors que les variables dont les valeurs constituent le résultat d'un événement très rare suivent la distribution de Poisson. Les principales distributions qui ont été proposées pour modéliser des données de temps de survie ou d'échec (décès) sont la distribution exponentielle (et exponentielle linéaire), la distribution de Weibull pour des événements extrêmes, et la distribution Gompertz. La rubrique Types de Distributions décrit un certain nombre de distributions avec quelques exemples de types de données suivant habituellement une distribution spécifique, ainsi que les fonctions de densité de probabilité de chaque distribution.
Types de Distributions
Distribution de Bernoulli. Cette distribution décrit bien les situations dans lesquelles un "essai" est réalisé, avec comme résultat, soit un "succès" soit un "échec". Par exemple, le fait de jouer à pile ou face, ou de modéliser le succès ou l'échec d'une intervention chirurgicale sont de bons exemples de ce type de distribution. La distribution de Bernoulli se définit comme suit :
où
p |
représente la probabilité qu'un événement particulier (par exemple, le succès) se produise. |
Distribution Bêta. La distribution Bêta est le fruit d'une transformation de la distribution F et s'utilise habituellement pour modéliser la distribution de statistiques d'ordre. Puisque la distribution Bêta est bornée des deux côtés, elle est souvent utilisée pour représenter des processus avec des limites naturelles inférieures et supérieures. Pour des exemples, veuillez vous reporter à l'ouvrage de Hahn et Shapiro (1967). La distribution Bêta se définit comme suit :

où
|
représente la fonction Gamma |
|
représentent les paramètres de forme (respectivement Forme1 et Forme2) |
L'animation ci-dessus représente la distribution Bêta lorsque ces deux paramètres de forme changent.
Distribution Binomiale. La distribution binomiale permet de décrire la distribution d'événements binomiaux, comme le nombre d'hommes et de femmes dans un échantillon aléatoire de sociétés commerciales ou le nombre de composantes défectueuses dans des échantillons de 20 unités, issus d'un processus de production. La distribution binomiale se définit comme suit :
où
p |
représente la probabilité que l'événement respectif se produise |
q |
est égal à 1-p |
n |
représente le nombre maximum d'essais indépendants. |
Distribution de Cauchy. La distribution de Cauchy est intéressante pour des raisons théoriques. Bien que sa moyenne puisse être nulle, puisqu'elle est symétrique par rapport à zéro, l'espérance mathématique, la variance, les moments d'ordre supérieur et la fonction génératrice de moments n'existent pas. La distribution Cauchy se définit comme suit :
où
|
représente le paramètre de position (médiane) |
|
représente le paramètre d'échelle |
|
représente la constante Pi (3,1415...) |
L'animation ci-dessus montre l'évolution de la forme de la distribution de Cauchy lorsque le paramètre de position est égal à 0 et que le paramètre de forme est égal à 1, 2, 3 et 4.
Distribution du Chi². La distribution du Chi-deux permet d'ajuster des distributions continues à vos données comme indiqué ci-après. La somme de v variables aléatoires indépendantes au carré, chacune étant distribuée suivant la loi normale, est distribuée selon la loi du Chi-deux à v degrés de liberté. Cette distribution est généralement utilisée dans la modélisation de variables aléatoires (par exemple, représentant des effectifs) dans de nombreuses applications statistiques.
|
représente les degrés de liberté |
e |
représente la base du logarithme népérien, également appelée e d'Euler (2,71...) |
|
(gamma) représente la fonction Gamma. |
L'animation ci-dessus indique l'évolution de la forme de la distribution du Chi² lorsque le nombre de degrés de liberté augmente (1, 2, 5, 10, 25 et 50).
Distribution Exponentielle. La distribution exponentielle permet d'ajuster des distributions continues à vos données comme indiqué ci-après. Si T est le temps qui s'écoule entre deux événements rares se produisant en moyenne avec un taux l par unité de temps, alors T est distribué exponentiellement avec un paramètre l (lambda). La distribution exponentielle est donc fréquemment utilisée pour modéliser l'intervalle de temps qui s'écoule entre des événements aléatoires successifs. L a période qui s'écoule entre deux croisements de véhicules à un carrefour, la durée de vie d'équipements électroniques, ou l'arrivée de clients à la caisse d'un supermarché constituent des exemples de variables distribuées de cette manière.

où
|
représente un paramètre
de la fonction exponentielle (il est également possible d'utiliser le
paramètre d'échelle b=1/ |
e |
représente la base du logarithme népérien, parfois appelée e d'Euler (2,71...) |
Valeur extrême. La distribution valeur extrême est souvent utilisée pour modéliser des événements extrêmes, tels que l'importance de crues, l'intensité des rafales de vent rencontrées par des avions, les indices maximum de stock pour une année donnée, etc... ; elle est également souvent utilisée pour les tests de fiabilité, par exemple, pour représenter la distribution des temps à l'échec de circuits électriques (voir Hahn et Shapiro, 1967). La distribution de valeur extrême (Type I) a pour fonction de densité :
a |
représente le paramètre de position |
b |
représente le paramètre d'échelle |
e |
représente la base du logarithme népérien, également appelé e d'Euler (2,71...) |
Distribution du
F. La distribution du F
de Snedecor est essentiellement utilisée dans les tests de variance (par
exemple, ANOVA).
Le ratio de deux Chi² divisés
par leurs degrés de liberté respectifs suit une distribution du F. La distribution du F
(pour x > 0) a pour fonction de densité de probabilité (pour = 1, 2, ...;
= 1, 2, ...):
où
|
représentent les paramètres de forme, degrés de liberté |
|
représente la fonction Gamma |
L'animation ci-dessus fait apparaître différentes régions critiques (valeur p) pour une distribution du F avec les deux degrés de liberté égaux à 10.
Distribution Gamma. La fonction de densité de la distribution exponentielle possède un mode égal à zéro. Dans de nombreux cas, nous savons a priori que le mode de la distribution d'une variable aléatoire particulière est différent de zéro (par exemple, lors de la modélisation de la distribution des durées de vie de produits tels que des ampoules électriques, ou le temps passé dans une file d'attente afin d'obtenir son billet d'entrée pour un match de football). Dans ces cas là, la distribution gamma permet de bien décrire la distribution sous-jacente. La distribution Gamma se définit comme suit :
|
représente la fonction Gamma |
c |
représente le paramètre de Forme |
b |
représente le paramètre d'échelle. |
e |
représente la base du logarithme népérien, parfois appelée e d'Euler (2,71...) |
L'animation ci-dessus représente la distribution gamma lorsque le paramètre de forme passe de 1 à 6.
Distribution Géométrique. Si vous effectuez des essais de Bernoulli indépendants jusqu'à ce qu'un "succès" se produise, le nombre total d'essais requis est une variable aléatoire géométrique. La distribution géométrique se définit comme suit :
où
p |
représente la probabilité qu'un événement particulier (par exemple, succès) se produise. |
Distribution Gompertz. La distribution Gompertz est une distribution théorique des durées de survie. Gompertz (1825) a proposé un modèle de probabilités pour la mortalité humaine, basé sur l'hypothèse que "l'énergie moyenne dépensée par un homme à éviter de mourir est telle qu'à la fin de chaque période de temps égales d'une infiniment courte durée, il perd des portions identiques de l'énergie restante qu'il avait pour résister à la mort au début de ces intervalles" (Johnson, Kotz, Balakrishnan, 1995, p. 25). La fonction de risque obtenue est la suivante :
Elle est souvent utilisée en Analyse de Survie. Voir Johnson, Kotz, Balakrishnan (1995) pour plus d'informations.
Distribution de Laplace. Pour des applications mathématiques intéressantes de la distribution de Laplace, voir Johnson et Kotz (1995). La distribution de Laplace (ou Double Exponentielle) se définit comme suit :
et b>0
où
a |
représente le paramètre de position (moyenne) |
b |
représente le paramètre d'échelle |
e |
représente la base du logarithme népérien, parfois appelée e d'Euler (2,71...) |
Le graphique ci-dessus illustre l'évolution de la forme de la distribution de Laplace lorsque le paramètre de position demeure égal à 0 et que le paramètre d'échelle est égal à 1, 2, 3 puis 4.
Distribution Logistique. La distribution logistique est utilisée pour modéliser des réponses binaires (par exemple, le Sexe) et s'utilise fréquemment en régression logistique. La distribution logistique se définit comme suit :
où
a |
représente le paramètre de position (moyenne) |
b |
représente le paramètre d'échelle |
e |
représente la base du logarithme népérien, parfois appelée e d'Euler (2,71...) |
Le graphique ci-dessus illustre l'évolution de la forme de la distribution logistique lorsque le paramètre de position est égal à 0 et que le paramètre d'échelle est égal à 1, 2 puis 3.
Distribution Log-normale. La distribution log-normale est souvent utilisée dans la simulation de variables comme les revenus personnels, l'âge au moment du premier mariage ou la tolérance à un poison chez des animaux. D'une manière générale, si x est un échantillon issu d'une distribution normale, y = ex sera un échantillon suivant une distribution log-normale. Par conséquent, la distribution log-normale se définit comme suit :
où
|
représente le paramètre d'échelle |
|
représente le paramètre de forme |
e |
représente la base du logarithme népérien, parfois appelée e d'Euler (2,71...) |
L'animation ci-dessus illustre une distribution log-normale pour un mu égal à 0 et un sigma de 0,10, 0,30, 0,50, 0,70 et 0,90.
Distribution Normale. La distribution normale (la "courbe en cloche" qui est symétrique par rapport à la moyenne) est une fonction théorique souvent utilisée en statistique inférentielle comme approximation de distributions d'échantillonnage (voir aussi la rubrique Concepts Élémentaires). D'une manière générale, la loi normale fournit un bon modèle pour une variable aléatoire lorsque :
1. La variable a une forte tendance à prendre une valeur centrale ;
2. Il existe une probabilité identique d'observer un écart positif ou négatif par rapport à cette valeur centrale ;
3. La fréquence des écarts chute rapidement à mesure que ces écarts deviennent plus importants.
On peut considérer la loi normale, comme la conjonction d'une infinité d'événements aléatoires indépendants (binomiaux) déterminant les valeurs d'une variable particulière. Par exemple, il existe sans doute une infinité de facteurs qui déterminent la taille d'un individu (des milliers de gênes, la nutrition, les maladies, etc...). Aussi, peut-on s'attendre à une distribution normalement distribuée de la taille dans la population. La fonction de répartition normale est déterminée par la formule suivante :
où
|
représente la moyenne |
|
représente l'écart-type |
e |
représente la base du logarithme népérien, parfois appelée e d'Euler (2,71...) |
|
représente la constante Pi (3,14...) |
L'animation ci-dessus illustre plusieurs régions critiques de la distribution normale standard (c'est-à-dire avec une moyenne de 0 et un écart-type de 1). La distribution normale est souvent utilisée pour les tests d'hypothèses.
Distribution de Pareto. La distribution de Pareto est souvent utilisée dans le suivi des processus de production (voir les modules Cartes de Contrôle Qualité et Analyse de Processus). Par exemple, une machine qui produit des pneumatiques pour automobiles va occasionnellement produire un défaut sur le pneu. La distribution de Pareto peut être utilisée pour modéliser la longueur de pneumatique entre deux défauts consécutifs. La distribution standard de Pareto se définit comme suit :
où
c |
représente le paramètre de forme |
L'animation ci-dessus illustre la distribution de Pareto pour un paramètre de forme égal à 1, 2, 3, 4 et 5.
Distribution de Poisson. La distribution de Poisson est parfois également appelée distribution des événements rares. Comme exemple de variables distribuées selon la loi de Poisson, vous pouvez prendre le nombre d'accidents par personne, le nombre de gains au casino par personne, ou encore le nombre de défauts critiques repérés dans un processus de production. La distribution de Poisson se définit comme suit :
où
|
(lambda) représente l'espérance mathématique de x (la moyenne) |
e |
représente la base du logarithme népérien, parfois appelée e d'Euler (2,71...) |
Distribution de Rayleigh. Si deux variables indépendantes y1 et y2 sont indépendantes entre elles et qu'elles sont normalement distribuées avec une variance égale, la variable x = Ã- (y12+ y22) suit alors une distribution de Rayleigh. Ainsi un exemple (et une métaphore adaptée) d'une variable de ce type serait la distance des fléchettes à la cible dans un jeu de fléchettes, où les erreurs sur les deux dimensions de la cible sont indépendantes et normalement distribuées. La distribution de Rayleigh se définit comme suit :
où
b |
représente le paramètre d'échelle |
e |
représente la base du logarithme népérien, parfois appelée e d'Euler (2,71...) |
Le graphique ci-dessus illustre l'évolution de la forme de la distribution de Rayleigh lorsque le paramètre d'échelle est égal à 1, 2 et 3.
Distribution uniforme. La distribution uniforme permet de décrire des variables aléatoires avec une densité de probabilité constante sur un intervalle défini a<b.
où
a<b |
sont des constantes. |
Distribution du
t de Student. La distribution du t
de Student est symétrique par rapport à zéro, et sa forme est proche de
celle d'une distribution
normale standard. Elle est essentiellement utilisée pour tester des
hypothèses sur la moyenne d'une population particulière. La distribution
du t de Student se définit comme
suit (pour = 1, 2, . . .)
où
|
représente le paramètre de forme, degrés de liberté |
|
représente la fonction Gamma |
|
représente la constante Pi (3,14 . . .) |
La forme de la distribution du t de Student dépend du nombre de degrés de liberté. Comme le montre l'illustration ci-dessus, la forme de la distribution évolue à mesure que le nombre de degrés de liberté augmente.
Distribution de Weibull. Comme nous l'avons déjà indiqué, la distribution exponentielle est souvent utilisée pour modéliser des mesures de temps à l'échec, lorsque le taux d'échec (risque) est constant au cours du temps. Lorsque la probabilité d'échec varie au cours du temps, vous devez utiliser la distribution Weibull. Ainsi, la distribution Weibull est souvent utilisée dans les tests de fiabilité (par exemple, de relais électroniques, bouteilles d'oxygène, etc... ; voir Hahn et Shapiro, 1967). La distribution Weibull se définit comme suit :
où
b |
représente le paramètre d'échelle |
c |
représente le paramètre de forme |
e |
représente la base du logarithme népérien, parfois appelée e d'Euler (2,71...) |
L'animation ci-dessus illustre la distribution de Weibull lorsque le paramètre de forme augmente (0.5, 1, 2, 3, 4, 5 et 10).
Ajustement de Distributions
Le module Ajustement de Distributions est utilisé pour évaluer l'ajustement des données observées à des distributions théoriques. Reportez-vous à la rubrique Types de Distributions pour obtenir une description des distributions disponibles. Notez également que le module Analyse de Survie comporte des procédures spécialisées pour ajuster des données censurées (incomplètes) pour l'analyse de survie ou du temps à l'échec par les distributions de Weibull et de Gompertz. Le fichier de données utilisé pour cet exemple est Irisdat.sta (une partie de ce fichier de données est visible ci-dessous). Ouvrez ce fichier de données à l'aide de la commande Ouvrir des Exemples du menu Fichier ; vous trouverez ce fichier dans le répertoire Fichiers de Données. Ce fichier comporte des données rapportées par Fisher (1936) sur les longueurs et largeurs des sépales (Lonsepal, Larsepal) et des pétales (Lonpetal, Larpetal) pour 50 fleurs de trois types d'iris différents. Une analyse discriminante de ce fichier de données est également réalisée dans la rubrique Analyse Discriminante - Exemple.
Les distributions des quatre variables décrivant les longueurs et largeurs des sépales et pétales vont à présent être examinées. Plus particulièrement, on s'attend à ce que ces mesures suivent la distribution normale.
Spécification de l'analyse. Sélectionnez la commande Ajustement de Distributions à partir du menu Statistiques pour afficher le Panneau de Démarrage Ajustement de Distributions. Puis, sélectionnez le bouton d'option Distributions Continues et effectuez un double-clic sur l'option Normale dans la liste de choix. Dans la boîte de dialogue résultante (Ajustement de Distributions Continues), cliquez sur le bouton Variable pour afficher la boîte de dialogue standard de sélection de variables. Là, sélectionnez la variable Lonsepal puis cliquez sur le bouton OK. A ce point, le fichier de données va être traité et l'onglet Paramètres va afficher la moyenne et la variance calculées comme valeurs par défaut pour les champs Moyenne et Variance. Vous pouvez également ajuster le Nombre de catégories et les Limites inférieure et supérieure pour les calculs de distributions de fréquence. La boîte de dialogue Ajustement de Distributions Continues - onglet Paramètres apparaît ainsi :
Maintenant, cliquez sur l'onglet Options et sélectionnez le bouton d'option Oui (continu) dans le cadre Test de Kolmogorov-Smirnov. Acceptez toutes les autres sélections par défaut de cette boîte de dialogue et cliquez sur le bouton Synthèse pour calculer la distribution de fréquence.
Tests statistiques. La valeur du Chi-deux est significative au niveau de 0,05 (p = 0,025). En conséquence, sur la base du test du Chi-deux, vous pouvez conclure que la distribution dévie significativement de la distribution normale standard. Cependant, le test du d de Kolmogorov-Smirnov n'est pas significatif (p < 0,20). Ce type de résultat n'est pas rare parce que le test de Kolmogorov-Smirnov n'est pas une procédure aussi précise qu'une technique de détection de grosses déviations par rapport à une distribution supposée. Fréquemment, la valeur du Chi-deux est une valeur grandement affectée par la façon par laquelle la distribution est "découpée", c'est-à-dire, par le nombre de catégories, les valeurs minimum, et maximum que vous avez choisi. Par exemple, si vous découpez la distribution de Lonsepal en 23 parties (saisissez 23 dans le champ d'édition Nombre de catégories de l'onglet Paramètres), à la place de la valeur par défaut de 10 catégories, alors la valeur du Chi-deux résultante est seulement significative marginalement au niveau p = 0,05.
Ce qui est important est la façon dont la forme générale de la distribution observée approche la distribution normale théorique.
À présent, revenez à la boîte de dialogue Ajustement de Distributions Continues. Dans l'onglet Options, du cadre Graphique, vous pouvez choisir de tracer un histogramme de la Distribution de fréquence ou de la Distribution cumulée avec les Effectifs bruts ou les Fréquences relatives.
Acceptez les sélections par défaut pour le graphique et cliquez sur le bouton Tracé de la distribution observée et théorique de l'onglet Base pour produire l'histogramme de fréquence de cette variable. (Notez que vous devez toujours avoir 23 dans le champ d'édition Nombre de catégories de l'onglet Paramètres.)
Il semble que la distribution de Lonsepal soit bimodale, c'est-à-dire qu'il semble y avoir deux "pics". De plus, il y a un manque d'ajustement important du côté gauche de la distribution observée où le premier pic apparaît. En conséquence vous pouvez conclure à partir de cette analyse que la distribution normale continue ne constitue probablement pas un modèle adéquat de la distribution observée.
Didacticiels
Vous pouvez visionner l'intégralité de la série de tutoriels Le Data Mining en 35 Leçons avec STATISTICA en remplissant le formulaire d'inscription. Vous serez alors notifié(e) automatiquement de la disponibilité des nouveaux épisodes et recevrez d'autres informations utiles.
StatSoft propose par ailleurs une série de didacticiels et présentations interactives décrivant pas-à-pas différentes opérations que vous pouvez réaliser à l'aide de STATISTICA. Si vous souhaitez voir aborder un thème particulier, merci de nous écrire.

Autres Méthodes
STATISTICA Data Miner offre la gamme la plus riche du marché en termes de solutions de data mining, avec une interface-utilisateur extrêmement simple à utiliser, basée sur des icônes pour :


- Drill-Down Interactif
- Sélection et Filtrage des Prédicteurs
- Modèles d'Arbres de Classification et de Régression (C&RT)
- Modèles CHAID : Des Arbres de Classification bien adaptés pour la Segmentation en Marketing et CRM
- Arbres de Décision Interactifs (CandRT, CHAID)
- Boosting d'Arbres de Classification et de Régression (Stochastic Gradient Boosting Trees)
- Forêts Aléatoires (ou Forêts Décisionnelles)
- Classification Généralisée EM et k-Moyennes : des techniques performantes de segmentation
- MARSplines (Multivariate Adaptive Regression Splines)
- Machine Learning : SVM (Séparateurs à Vaste Marge), Réseaux Bayésiens et K-Plus Proches Voisins
- Modèles Additifs Généralisés (GAM)
- Règles d'Association ou la Problématique du Panier de la Ménagère
- Regroupement de Modalités pour du Data Mining Prédictif
- Qualité d'Ajustement (Classification, Prévision)
- Déploiement Rapide de Modèles Prédictifs (PMML/XML)