Glossaire



| 2 | 3 | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z |

Indexation Sémantique Latente

Dans le cadre du text mining, le processus dit d'indexation sémantique latente s'attache à trouver des dimensions sous-jacentes "explicites" à partir des mots (ou des termes) extraits à partir d'un ensemble de documents.

Le résultat le plus élémentaire du text mining est l'indexation initiale des mots rencontrés dans les documents d'entrée, avec le calcul d'une table de fréquences contenant les effectifs simples représentant le nombre d'apparition de chacun des mots dans chacun des documents d'entrée. En outre, dans la pratique, vous avez la possibilité de transformer ces effectifs bruts en indices qui vont mieux refléter "l'importance" (relative) des mots et/ou leur spécificité sémantique dans le cadre des documents d'entrée qui sont analysés (voir aussi la définition de la fréquence inverse des documents).

Ensuite, pour interpréter la "signification" ou "l'espace sémantique" constitué par les mots extraits et donc, par les documents analysés, il est courant de projeter les mots et les documents dans un espace commun, calculé à partir des fréquences des mots ou des fréquences transformées des mots (par exemple, les fréquences inverses des documents). D'une manière générale, voici comment le processus fonctionne :

Supposons que vous ayez indexé un recueil de commentaires de la part d'utilisateurs par rapport à leur nouveau véhicule (par exemple, de marques et de modèles différents). Vous pouvez mettre en évidence qu'à chaque fois qu'un commentaire comporte le terme "kilomètre au cent", il comporte également le terme "économie". Par ailleurs, lorsque le rapport intègre le terme "fiabilité", il intègre également le terme "défaut" (par exemple, pour faire référence à la notion de "aucun défaut"). Toutefois, il n'existe pas véritablement de schéma clair concernant l'utilisation les termes "économie" et "fiabilité", c'est-à-dire que certains documents vont contenir un seul des deux termes, les deux ou aucun des deux. En d'autres termes, ces quatre termes "kilomètre au cent" et "économie" d'une part, et "fiabilité" et "défaut" d'autre part vont décrire deux dimensions indépendantes - la première concerne les coûts globaux de fonctionnement du véhicule, tandis que la seconde concerne la qualité et les finitions.

L'idée de l'indexation sémantique latente consiste à identifier ces dimensions sous-jacentes ("explicites"), dans lesquelles nous pouvons projeter les lots et les documents. L'objectif consiste à mettre en évidence des grands thèmes sous-jacents (latents) qui sont décrits ou évoqués dans les documents d'entrée, mais aussi à identifier les documents qui traitent essentiellement de chacune des dimensions (par exemple, économie, fiabilité ou les deux).

Dans la pratique (par exemple, dans le module STATISTICA Text Mining et Extraction de Documents), la décomposition en valeurs singulières est souvent utilisée pour extraire les dimensions sémantiques sous-jacentes à partir de la matrice des effectifs (transformés) d'apparition des mots dans les documents.

Pour plus d'informations, voir Manning et Schütze (2002) ; voir aussi la rubrique STATISTICA Text Mining et Extraction de Documents - Introduction.