Glossaire
Stacking (Empilement Généralisé)
Le concept du stacking (pour Empilement Généralisé) se rencontre dans le domaine du data mining prédictif, et permet de combiner les prévisions issues de différents modèles. Il s'avère particulièrement utile lorsque les types de modèles contenus dans le projet sont très différents.
Supposez que votre projet de data mining contienne des arbres de classification, comme C&RT ou CHAID, des analyses discriminantes linéaires (pour un exemple, voir GDA) et des réseaux de neurones (voir le module STATISTICA Réseaux de Neurones Automatisés). Chaque modèle va calculer des classifications prévues pour un échantillon de validation croisée, sur lequel nous allons calculer des statistiques globales de qualité d'ajustement (par exemple, les taux d'erreur de classification). L'expérience a montré que nous obtenons souvent de meilleurs résultats (prévisions plus précises) en combinant les prévisions réalisées par différentes méthodes (par exemple, voir Witten et Frank, 2000). Dans le stacking, les prévisions issues des différents modèles de classification sont utilisées en entrée d'un méta-learner, qui va alors chercher à combiner les prévisions afin d'obtenir la meilleure classification finale prévue. Ainsi, par exemple, les classifications produites par des arbres de classification, le modèle linéaire et des réseaux de neurones vont être utilisées comme variables d'entrée d'un "super-modèle de classification" par les réseaux de neurones. Ce "super-modèle de classification" va alors chercher à "apprendre" à partir des données la manière de combiner les prévisions issues des différents modèles afin d'obtenir la meilleure classification possible (la plus juste).
Le Boosting, le Bagging (Voting) constituent d'autres méthodes permettant de combiner les prévisions issues de différents modèles ou méthodes (par exemple, à partir de différents jeux de données utilisés pour l'apprentissage).
Voir aussi la rubrique Data Mining.