Glossaire



| 2 | 3 | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z |

Text Mining

Si le data mining s'attache essentiellement à identifier des phénomènes particuliers dans des données numériques, le text mining décrit le processus permettant de dégager le "sens" d'un ensemble de documents. C'est le travail des algorithmes qui comptabilisent les différents mots et expressions, et analysent la structure des documents. Les différents documents et leur contenu, une fois comptabilisés et "numérisés", peuvent ensuite être utilisés en entrée d'analyses numériques afin d'en dégager les concepts, les termes importants, etc...

Le text mining trouve ses principales applications dans les dépouillements d'enquêtes ou les projets d'analyse des données pour lesquels certaines des réponses se présentent sous une forme non-structurées ou textuelle (par exemple, des messages électroniques, des commentaires, des suggestions dans un questionnaire de satisfaction avec des questions ouvertes, la description de symptômes médicaux par des patients ou des praticiens, des réclamations, etc...) qu'il est souhaitable d'intégrer dans le cours de l'analyse globale. Ces techniques sont également fréquemment utilisées pour produire des modèles prédictifs permettant de classifier automatiquement du texte, par exemple, pour faire suivre automatiquement les e-mails vers le destinataire le plus approprié, ou pour faire la distinction entre les "spam" et les messages importants.  

Vous trouverez un présentation des méthodes du text mining, ainsi que l'historique des différentes approches dans l'ouvrage de Manning et Schütze (2002) ; voir aussi STATISTICA Text Mining et Extraction de Document pour plus d'informations.