Glossaire



| 2 | 3 | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z |

Échantillonnage Aléatoire Stratifié

En général, l'échantillonnage aléatoire est le processus de sélection aléatoire d'observations dans une population pour créer un sous-échantillon qui "représente" les observations dans cette population (voir Kish, 1965 ; voir aussi les rubriques Échantillonnage de Probabilité, Échantillonnage Aléatoire Simple et Échantillons EPSEM  ; voir aussi la rubrique Échantillon Représentatif pour une exploration succincte de cette notion souvent mal comprise). Dans l'échantillonnage stratifié, on applique en général des fractions d'échantillon spécifiques (identiques ou différentes) aux différents groupes (strates) dans la population pour tracer l'échantillon. Dans STATISTICA, vous pouvez tracer les échantillons aléatoires stratifiés en utilisant les options de la boîte de dialogue Échantillonnage Aléatoire.

Sur-échantillonnage de strates particulières pour sur-représenter des événements rares. Dans certaines applications de data mining prédictif, il est souvent nécessaire d'appliquer un échantillonnage stratifié pour sur-échantillonner systématiquement (appliquer une fraction d'échantillonnage supérieure) des "événements rares" d'intérêt particulier. Par exemple, pour un catalogue de vente au détail, le taux de personnes répondant à des offres particulières du catalogue peut être inférieur à 1%, et lorsque l'on analyse les données historiques (des campagnes d'offres antérieures) pour construire un modèle afin de cibler les acheteurs potentiels plus efficacement, il est souhaitable de sur-échantillonner les anciennes personnes ayant répondu (c'est-à-dire, les personnes interrogées "rares" ayant passé commande dans le catalogue) ; vous pouvez alors appliquer les diverses techniques de construction de modèle pour la classification (voir le Data Mining) pour un échantillon consistant en approximativement 50% de personnes répondant et 50% de personnes ne répondant pas. Sinon, si on traçait un échantillon aléatoire simple pour l'analyse (avec 1% de personnes répondant), pratiquement toutes les techniques de construction de modèle prédiraient alors une simple "non-réponse" pour toutes les observations, et serait correcte (de façon triviale) dans 99% des cas.