Glossaire
Boosting
Le concept de boosting se rencontre dans le domaine du data mining prédictif, lorsqu'il s'agit de générer différents modèles (pour des prévisions ou des classifications), et d'en tirer des pondérations permettant de combiner les prévisions réalisées par ces différents modèles en une seule prévision ou une seule classification prévue (voir aussi la rubrique Bagging).
Un algorithme élémentaire de boosting fonctionne de la manière suivante : Il commence par appliquer aux données d'apprentissage une certaine méthode (par exemple, un arbre de classification de type C&RT ou CHAID), dans laquelle chaque observation possède une pondération identique. Il calcule les classifications prévues, et applique des pondérations inversement proportionnelles à l'exactitude de la classification aux observations. En d'autres termes, il affecte une pondération plus forte aux observations difficiles à classer (qui présentent un taux de mauvaise classification élevé), et des pondérations plus faibles à celles qui sont faciles à classer (avec un faible taux d'erreur de classification). Dans le cadre de C&RT par exemple, différents coûts d'erreur de classification (pour les différentes classes) pourront s'appliquer, de façon inversement proportionnelle à l'exactitude de la prévision dans chaque classe. Il va ensuite appliquer à nouveau la classification aux données pondérées (ou avec d'autres coûts d'erreur de classification), et poursuivre avec l'itération suivante (application de la méthode analytique pour la classification des données re-pondérées).
Le boosting génère une séquence de modèles de classification, chaque modèle de classification successif dans la séquence permettant de mieux prévoir la classification des observations qui étaient mal classées par les modèles de classification précédent. Lors du déploiement (pour la prévision ou la classification de nouvelles observations), les prévisions issues des différents modèles de classification pourront alors être combinées (par exemple, par la technique du voting, ou par une procédure de voting pondéré) afin d'obtenir la meilleure prévision ou classification.
Remarque : le boosting peut également s'appliquer aux méthodes d'apprentissage qui n'intègrent pas explicitement de pondérations ni de coûts d'erreurs de classification. Dans ce cas, il est possible d'appliquer un échantillonnage aléatoire sur les données d'apprentissage au cours des étapes successives du boosting, avec une probabilité de sélectionner une observation dans le sous-échantillon inversement proportionnelle à l'exactitude de la prévision de cette observation lors de l'itération précédente (dans la séquence des itérations réalisées par la procédure de boosting).
Voir aussi la rubrique Data Mining.