Glossaire
Bagging
Le concept du bagging (voting pour les classifications, averaging pour les problèmes de type régression avec des variables dépendantes continues) trouve son application dans le domaine du data mining prédictif, pour combiner les classifications prévues (prévisions) à partir de plusieurs modèles, ou à partir du même type de modèle pour différentes données d'apprentissage. Il est également utilisé pour résoudre le problème inhérent d'instabilité des résultats lorsque des modèles complexes sont appliqués à des jeux de données relativement petits.
Supposez que votre tâche de data mining consiste à construire un modèle de classification prédictive, et que le jeu de données sur lequel vous entraînez le modèle (échantillon d'apprentissage, qui comporte les classifications observées) est relativement petit. Vous pouvez sous-échantillonner de façon répétitive (avec remplacement) votre jeu de données, et appliquer, par exemple, un arbre de classification (par exemple, C&RT ou CHAID) aux échantillons successifs. Dans la pratique, les différents échantillons vont souvent produire des arbres très différents, illustrant l'instabilité des modèles qui est flagrante sur des jeux de données de petite taille. Une méthode permettant d'obtenir une prévision unique (pour les nouvelles observations) consiste à utiliser tous les arbres produits par les différents échantillons, puis de réaliser un vote : La classification finale sera celle qui aura été prévue par le plus grand nombre d'arbres. Remarque : il est également possible de réaliser des combinaisons pondérées de prévisions (vote pondéré, moyenne pondérée), et cette technique est relativement fréquente. La procédure du Boosting est en fait un algorithme sophistiqué (machine learning) permettant de produire des pondérations pour le voting ou les prévisions pondérées. Voir aussi la rubrique Data Mining.