STATISTICA Text Miner


Flyer de STATISTICA Data Miner

En bref...

STATISTICA Text Miner est une extension (facultative et complémentaire) du produit STATISTICA Data Miner, permettant de transformer des données textuelles non structurée en catégories explicites et pertinentes d'aide à la décision.

Comme le savent déjà la plupart des utilisateurs familiarisés avec le data mining, les véritables données dans les applications concrètes se présentent sous des formes très diverses, et ne sont pas toujours organisées, ni facilement exploitables pour l'analyse. STATISTICA Text Miner va rechercher et exploiter l'information sous-jacente qui n'est pas directement apparente et la transformer en données traditionnelles structurées.

Comment Utiliser STATISTICA Text Miner ?

  • Analyse du contenu de pages Web. Par exemple, les utilisateurs peuvent traiter et résumer automatiquement toutes les pages Web de certaines sociétés, des notes d'information, etc...

  • Inclure des documents non structurés dans des projets de data mining prédictif. Par exemple, les utilisateurs peuvent inclure des réponses à des questions ouvertes, la description des symptômes médicaux renseignés par les patients, etc... dans des projets de data mining pour réaliser une typologie des patients et de leurs symptômes.

  • Analyse de vastes bases de stockage de documents. Par exemple, les utilisateurs peuvent analyser des entrepôts de stockage textuels contenant des lettres de réclamations ou des plaintes (dans le domaine de l'assurance, etc...), afin d'inclure ces informations dans des projets de détection de fraudes.

Comme pour toutes les composantes de STATISTICA Data Miner, STATISTICA Text Miner a été spécifiquement conçu comme un outil généraliste avec une architecture ouverte d'exploration ("fouille") des informations non structurées. Les outils de sélection/extraction des prédicteurs et autres outils analytiques proposés dans STATISTICA Text Miner ne sont pas seulement applicables à des documents textuels ou à des pages Web ; ils peuvent également être utilisés pour indexer, classifier, ou inclure dans vos analyses des informations non structurées comme des fichiers sons, des bitmaps (préalablement traités) etc...

Intégration avec STATISTICA, STATISTICA Data Miner

et STATISTICA Entreprise Server

STATISTICA Text Miner est parfaitement intégré avec l'ensemble de la ligne de produits STATISTICA. Il ne s'agit en aucun cas d'un logiciel indépendant, développé par une tierce partie et "connecté" à STATISTICA. Vous pouvez intégrer la fonctionnalité de text mining à votre environnement de travail STATISTICA Data Miner, STATISTICA Entreprise Server ou à toutes vos applications personnalisées STATISTICA.

Par exemple, un client peut :

  • accéder automatiquement aux données stockées dans un entrepôt de données
  • mettre à jour certaines analyses et synthèses numériques reposant sur des informations textuelles
  • publier les résultats sur Internet pour les utilisateurs habilités

La solution est évolutive et repose sur la technologie du traitement distribué afin de tirer le meilleur parti des performances avancées des serveurs multi-processeurs.

Le programme est servi sur CD-ROM avec un jeu de documentation.

Fonctionnalités de STATISTICA Text Miner

Réalisez vos analyses dans votre navigateur Internet

Accès aux Documents

  • Le programme contient de nombreuses options pour accéder à des documents textuels sous différent formats, en particulier .txt (texte), .pdf (Adobe), .ps (PostScript), .html, .xml (formats Web), et la plupart des formats de Microsoft Office (par exemple, .doc, .rtf).
  • Des options flexibles d'interface-utilisateur (et des fonctions d'automatisation) vous permettent de sélectionner un grand nombre de fichiers simultanément (par exemple, pour sélectionner tous les documents contenus dans un répertoire particulier).
  • Le programme est doté de fonctionnalités de navigation sur le Web, et permet d'extraire des documents du Web, à partir d'une page racine (URL) déterminée du Web. Tous les documents liés à cette page particulière seront incluses, de même que les documents liés à ces sous-documents, et ainsi de suite, jusqu'à un niveau (ou une "profondeur") défini par l'utilisateur.
  • Les noms de fichiers et URL peuvent également être stockés dans des variables textuelles des fichiers de données STATISTICA. De cette manière, le programme peut non seulement traiter le texte contenu dans les variables textuelles, mais également interpréter convenablement les références à des documents textuels ou à des URL. Ainsi, l'information numérique et l'information textuelle (contenue dans de vastes documents) peuvent être stockées sur une base individuelle (par observation) et vous pouvez réaliser des analyses explicites sur des fichiers de données dans lesquels chaque observation va contenir à la fois des données numériques et des informations textuelles (volumineuses) non structurées (par exemple, l'âge, la taille, et le poids des patients, ainsi que la description des symptômes et le diagnostique des praticiens).
  • Des options vous permettent d'importer ces listes de fichiers de données ou d'URL dans les colonnes d'une feuille de données STATISTICA.

Traitement des Documents

    Les documents peuvent être préparés (prétraités) avant (en fait, en même temps que) l'indexation de tous les documents ; plus précisément :
  • Vous pouvez appliquer des règles d'exclusion et des listes de regroupement (pour exclure les formes courantes mais non discriminantes (on parle alors de "mots vides") telles que les mots "un", "le", "à", "de" en langue française, etc...), avant d'appliquer un algorithme de lemmatisation (afin que les mots Français tels que "voyageant" et "voyager" soient tous deux comptabilisés comme des occurrences de "voyage").
  • STATISTICA Text Miner comporte des listes de regroupement et des algorithmes de lemmatisation pour l'Allemand, l'Anglais, le Danois, l'Espagnol, le Français, le Hollandais, l'Italien, le Portugais, le Suédois, et d'autres langues (veuillez vous renseigner pour une liste exhaustive des langues disponibles) ; vous pouvez modifier les listes de regroupement (les enrichir) à volonté ; le programme est conçu pour permettre d'incorporer d'autres langues avec un minimum d'efforts.
  • Le programme va ensuite indexer les documents "regroupés et lemmatisés", afin de créer un comptage des effectifs de tous les mots (formes) et pour tous les documents ; cette information "brute" (effectifs) sera la base de toutes les analyses numériques ultérieures.
  • Avant de créer un Fichier de Données STATISTICA contenant les effectifs (etc...) pour synthétiser les documents, vous pouvez appliquer d'autres filtres ; par exemple, les effectifs de certains mots particuliers (les plus fréquents) par document peuvent être normalisés (selon la taille de chaque document), transformés (par exemple, par une transformation log), et éventuellement "compressés" en appliquant par exemple divers algorithmes d'extraction de caractéristiques comme la Décomposition en Valeurs Singulières, spécifiquement optimisée pour traiter de grandes matrices.
  • Le fichier de données obtenu, avec l'information numérique (par exemple, les dimensions de la décomposition en valeurs singulières, les effectifs bruts, les fréquences relatives, l'effectif des mots les plus fréquents, etc...) est alors prêt pour un traitement par d'autres analyses.
  • Diverses options permettent d'écrire l'information extraire d'un texte particulier dans un fichier de données, ou directement dans une base de données externe (voir aussi la description de la Technologie IDBD [Interface Directe avec les Bases de Données] de STATISTICA ).

Analyse des Documents

    Toutes les méthodes d'analyse statistique peuvent s'appliquer aux synthèses numériques issues des documents textuels :
  • Des statistiques de synthèse élémentaires peuvent extraire les formes (mots) les plus fréquemment utilisées dans les documents.
  • En projetant les documents sur les dimensions de la Décomposition en Valeurs Singulières (par exemple, grâce à une ACP), vous pouvez créer des espaces dimensionnels de documents, afin d'évaluer la ressemblance (proximité) des documents, etc...
  • En projetant les documents sur les dimensions en fonction des effectifs originaux (transformés) des formes, vous pouvez créer des représentations simultanées des documents et des formes, et donc dégager la "signification" des documents.
  • Les techniques de clustering (comme les k-means ou les classifications EM) peuvent s'appliquer pour créer des typologies de documents similaires.
  • Les techniques de data mining prédictif permettent de mettre en relation la synthèse numérique des documents à d'autres indicateurs, comme par exemple, les intentions de fraudes, des diagnostiques médicaux, etc...
  • Les composantes analytiques clé nécessitant des traitements intensifs sont implémentés grâce à la technologie du multithreading, afin d'utiliser de façon optimale les ressources et les performances des serveurs multi-processeurs les plus évolués.

Haut de la Page

STATISTICA Text Miner est compatible avec les systèmes d'exploitation Windows XP, Windows Server 2003, Windows Vista, Windows 7 et Windows Server 2008.

Configuration minimum :

  • Système d'exploitation : Windows XP ou ultérieur
  • RAM : 1 Go
  • Processeur : 2 GHz

Configuration recommandée :

  • Système d'exploitation : Windows Server 2003 ou ultérieur
  • RAM : 4 Go
  • Processeur : 2,0 GHz, 64-bit, double coeur

Versions natives en 64-bits et versions optimisées pour les ordinateurs multiprocesseurs disponibles.

Didacticiels en anglais

N'hésitez pas à consulter notre série de didacticiels en anglais sur YouTube ou sur notre site Web. Vous trouverez des vidéo-clips décrivant pas-à-pas différentes opérations que vous pouvez réaliser à l'aide de STATISTICA. Si vous souhaitez voir aborder un thème particulier, merci de nous écrire.