STATISTICA ETL :

Extract, Transform and Load


STATISTICA ETL, complément idéal de STATISTICA 
Entreprise pour aligner ou agréger des données 
process issues de bases de données diverses, sur la 
base d'identifiants temporels ou de batch.
Les fonctionnalités avancées de STATISTICA ETL (Extract, Transform and Load) viennent compléter l'ensemble des fonctionnalités de STATISTICA Entreprise en apportant aux entrepôts de données (data warehouses) spécialisés,  la possibilité d'intégrer des données historiques issues de différents canaux  ou à différentes étapes des processus de production, avec des données relatives à la qualité, au retraitement et aux produits finis, pour une solution complète et experte de suivi des processus...

En bref... Quelques questions à se poser !


À l'aide de vos bases de données actuelles et de vos méthodes de suivi  de processus en place, êtes-vous en mesure de déterminer rapidement comment les différentes étapes de vos processus ont affecté la qualité mesurée il y a une heure, une journée, une semaine ? Y a t'il une évolution de la tendance ? Les relations entre certains paramètres du processus sont-elles en train de dériver ?

  • STATISTICA ETL est la solution la plus avancée disponible à ce  jour pour créer des entrepôts de données (data warehouses) supportant des vues complètes de vos données, avec des outils permettant d'extraire des informations directement exploitables,   et garantissant un retour sur investissement (ROI) rapide sur vos appareils existants de collecte de données, vos outils et votre infrastructure informatique.

  • Si vous déployez STATISTICA ETL au travers de STATISTICA Entreprise, vous pourrez rapidement :

    1. Mettre en place des cartes de contrôle qualité et tous les calculs nécessaires de capabilité de processus

    2. Calculer des cartes de contrôle et indices de capabilité du processus pour différents processus et à partir de sources de données diverses

    3. Appliquer à l'ensemble de votre processus, des techniques avancées de suivi de processus comme des détecteurs virtuels basés sur les réseaux de neurones, des méthodes avancées de reconnaissance de formes, des algorithmes sensibles de détection de points de rupture qui vont vous alerter dès que "quelque chose est sur le point de dériver" avant qu'il ne soit trop tard, ou encore les méthodes et algorithmes de data mining les plus pointus actuellement disponibles pour une détection efficace des causes les plus probables dans des données complexes
En conclusion : Pour gérer et optimiser des processus de production complexes, STATISTICA ETL est l'outil qu'il vous faut.

Aperçu des Fonctionnalités


STATISTICA ETL allie la puissance du système STATISTICA pour le traitement efficace de données contenues dans des bases de données traditionnelles (Microsoft SQL®, Oracle®) ou des bases de données process spécialisées (par exemple, OSI Pi®), avec les fonctionnalités avancées de traitement des données proposées dans STATISTICA pour le filtrage, l'agrégation, l'alignement et l'analyse des données.
STATISTICA ETL est la solution idéale pour :
  • Mettre en place des plates-formes analytiques au niveau de l'entreprise afin d'intégrer l'historique des processus avec des systèmes avancés de contrôle qualité et de suivi des processus

  • Créer des entrepôts de données spécialisés qui vont aligner et valider des données temporelles (par exemple, des données chronologique par batch, telles qu'elles sont généralement collectées dans diverses industries de process) avec les résultats (par exemple, des tests de composition chimique des produits)

  • Construire des entrepôts de données pour des analyses ad-hoc et des analyses automatisées des causes les plus probables (RCA - root cause analysis) pour des processus de production complexes (par exemple, industrie chimique ou pharmaceutique, production d'électricité, extraction minière, etc...)

  • Créer des entrepôts de données conformes aux exigences de la réglementation 21 CFR Part 11 en matière de reporting, pour des processus complexes

  • Toute application d'entrepôt de données nécessitant la validation, la transformation, l'agrégation, la standardisation, ou la fusion de données non-conventionnelles, et qui ne peut pas être construite avec les outils traditionnels de bases de données

Extraction des Données (Extract)


STATISTICA Entreprise offre une plate-forme sécurisée pour gérer efficacement des connexions à différentes bases de données, ou à différents types de bases de données, en particulier des bases de données process (par exemple, grâce à l'outil spécialisé STATISTICA Connecteur PI). STATISTICA Entreprise stocke les méta-données, c'est-à-dire un ensemble structuré d'informations servant à décrire la nature des tables requêtées, comme les limites de contrôle ou de spécification, l'intervalle de validité des données, etc... Voir STATISTICA Entreprise pour plus d'informations.

Transformation des Données (Transform)


Le module STATISTICA ETL met à votre disposition tout un ensemble de fonctionnalités pour le traitement et la fusion des données, notamment les données process qui sont particulièrement difficiles à gérer à l'aide des outils traditionnels de bases de données.

Agrégation, alignement et réplication de données temporelles. Pour suivre des processus continus, comme il en existe dans l'industrie chimique ou pharmaceutique, le domaine de la production d'électricité, du raffinage, etc..., il est important d'enregistrer les paramètres critiques du processus dans un "historique" du processus à intervalles de temps réguliers. Il existe généralement des bases de données dédiées ultra-spécialisées en place comme la base de données PI d'OSI Soft, qui vont permettre l'enregistrement fréquent et efficace des données. Toutefois, pour pouvoir utiliser ces données dans des analyses, par exemple, pour l'analyse des facteurs influents ou pour le suivi des processus, ces données doivent préalablement être agrégées et alignées, par exemple, avec les données des produits finis.
  • STATISTICA ETL vous permet d'aligner des données process temporelles avec d'autres sources de données, comme les données process collectées à différents intervalles de temps, ou seulement collectées une fois par pièce, identifiant, batch, etc...
Empilage et désempilage automatique, et normalisation des données batch-temporelles, pour les processus par batch. La fabrication de produits chimiques ou pharmaceutiques implique généralement le traitement de différents batch de matériaux au cours de différentes étapes de la synthèse, avec l'enregistrement de divers aspects de la maturation du batch à chacune de ces étapes. Les données collectées sont alors enregistrées dans un système de gestion informatisé de laboratoire ou LIMS (Laboratory Information Management System), constitué de données process temporelles, organisées par identifiant de batch. Afin de permettre l'exploitation de ces données, il est nécessaire de transformer les étiquettes de date/heure en durées écoulées depuis le début du process, et de normaliser les données de manière à obtenir,  pour chaque batch, des temps écoulés comparables pour les analyses.

  • STATISTICA ETL vous permet de traiter des données par batch, afin d'obtenir des batch de même "taille" et désempiler ces données afin de pouvoir les exploiter dans d'autres analyses et suivi du processus de maturation (voir aussi le produit STATISTICA MSP Multidimensionnelle pour plus d'informations).
Agréger des données à l'aide de statistiques robustes. L'agrégation des données process (par exemple, des données collectées toutes les minutes à agréger avec des données horaires) nécessitent généralement d'appliquer des méthodes d'agrégation qui vont bien au delà de ce que peuvent faire les outils classiques des bases de données. Par exemple, les données temporelles peuvent comporter des points aberrants, ou être particulièrement bruitées, et donc masquer des tendances importantes, ou des modifications dans ces tendances.
  • STATISTICA ETL intègre de nombreux outils pour agréger et/ou lisser les données, afin de pouvoir appliquer des méthodes de suivi de processus (par exemple, pour la détection de tendance ou de point de rupture) à des estimations robustes ou lissées des moyennes de processus pour des intervalles de temps agrégés.
Agrégation et alignement de sources de données multiples et disparates. Les processus complexes, comme on en trouve dans la fabrication des semi-conducteurs, l'industrie pharmaceutique, etc... nécessitent un stockage complexe des données, en phase avec la nature spécifique des processus à suivre et enregistrer. Il n'est donc pas rare d'avoir différentes sources ou bases de données distinctes, comme des fichiers de données plats (par exemple, CSV) créés automatiquement par les équipements, des données PI, des données de test de composition chimique dans un système LIMS, etc..., que nous devons agréger et aligner, pour permettre l'analyse pertinente des causes les plus probables (RCA) des problèmes, ou un suivi complet des processus.
  • STATISTICA ETL Met à votre disposition tous les outils nécessaires pour configurer des tâches complexes d'alignement de données issues de plusieurs sources disparates dans un même objet ETL, que vous pouvez déployer dans STATISTICA Entreprise afin de les appliquer à la demande ou sous forme de tâches planifiées d'ETL, en vue de soutenir un système de data warehouse dédié, stockant les données validées et alignées pour le suivi et l'optimisation des processus.
Les fonctionnalités de Transformation disponibles dans STATISTICA ETL dépassent de loin celles qui sont généralement proposées dans les outils classiques de bases de données ou dans les requêteurs, en permettant de construire des entrepôts de données (data warehouses) dédiés et spécialisés afin d'optimiser vos processus sans avoir à programmes vos propres d'applications-maison. STATISTICA ETL est une solution efficace pour créer des entrepôts de données avec des fonctionnalités analytiques automatisées, simples et sophistiquées, vous permettant d'exploiter toute la valeur des données que vous collectez !

Réintégration des Données (Load)

La solution STATISTICA ETL vous permet d'automatiser le processus de validation et l'alignement de différentes sources de données disparates dans une même source adaptée aux analyses ad-hoc ou automatisées. Lorsqu'elles sont déployées dans le cadre de STATISTICA Entreprise, les données peuvent être réintégrées dans des tables dédiées des bases de données, ou dans des tableaux de données STATISTICA, afin de permettre aux analystes ou aux ingénieurs process de disposer d'un accès pratique aux données de performance en temps réel, sans devoir préalablement effectuer des tâches fastidieuses de transformation ou de nettoyage des données avant de pouvoir en extraire des informations exploitables.