Glossaire



| 2 | 3 | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z |

Algorithmes d'Apprentissage (Incrémentiel vs.

Non-Incrementiel)

Les méthodes (algorithmes) du data mining prédictif sont aussi appelées algorithmes "d'apprentissage", car elles utilisent l'information issue des données pour prévoir de nouvelles observations. Ces algorithmes peuvent être répartis entre ceux qui nécessitent un ou peut être deux passages complets par les données d'entrée, et ceux qui nécessitent un accès multiple itératif aux données pour compléter l'estimation. Le premier type d'algorithmes est aussi appelé algorithmes d'apprentissage incrémentiel, car ils réalisent tous les calculs nécessaires pour ajuster les modèles respectifs en traitant les observations une par une, en "affinant" à chaque fois la solution ; ainsi, une fois que toutes les observations ont été traitées, il n'y a plus qu'à réaliser quelques calculs supplémentaires pour produire les résultats finaux. Les algorithmes d'apprentissage non-incrémentiel sont ceux qui nécessitent de traiter toutes les observations à chaque itération d'une procédure itérative pour affiner une solution finale. Objectivement, les algorithmes d'apprentissage incrémentiel sont souvent plus rapides que les algorithmes d'apprentissage non-incrémentiel, et pour les ensembles de données extrêmement grands, les algorithmes d'apprentissage non-incrémentiel sont pas applicables du tout (sans un sous-échantillonnage préalable).

STATISTICA Data Miner comprends une large sélection d'algorithmes d'apprentissage non-incrémentiel et incrémentiel, qui peuvent être ajustés à des projets de data mining prédictif constitués de quelques milliers d'observations et de peu de variables (colonnes des données), tout comme à des situations dans lesquelles les données consistent en plusieurs millions d'observations, et des centaines de milliers de variables (c'est-à-dire, des données de plusieurs gigabits). Des méthodes d'échantillonnage aléatoire efficaces sont également inclues, permettant ainsi de sélectionner de façon correcte des échantillons pour les analyses ultérieures à partir de bases de données énormes.

Voir aussi les rubriques Data Mining Prédictif et Interface Directe avec les Bases de Données (IDBD).