Dans
les processus de production modernes, les quantités
d’information à traiter sont de plus en plus
nombreuses, et les sources de données, multiples.
L’enjeu des outils décisionnels consiste
à fournir, aussi rapidement
que possible, une
information synthétique permettant
d’anticiper ou de corriger les problèmes avant
qu’il ne soit trop tard...
Les outils d’ETL (Extract, Transform
and Load) s’inscrivent dans cette
logique en permettant de synchroniser diverses bases de
données entre elles. Ils utilisent des connecteurs pour
importer et exporter des données, qu'ils vont transformer
(agréger, filtrer, convertir...) et aligner.
En bref... Quelques questions
à se poser !
À l'aide de vos bases de données actuelles et de
vos méthodes de suivi de processus en place,
êtes-vous en mesure de déterminer rapidement
comment les différentes étapes de vos processus
ont affecté la qualité mesurée il y a
une heure, une journée, une semaine ? Y a t'il une
évolution de la tendance ? Les relations entre certains
paramètres du processus sont-elles en train de
dériver ?
- STATISTICA ETL
est la solution la plus avancée disponible à
ce jour pour créer des entrepôts de
données (data warehouses) supportant des vues
complètes de vos données, avec des outils
permettant d'extraire des informations directement exploitables,
et garantissant un retour sur investissement (ROI) rapide
sur vos appareils existants de collecte de données, vos
outils et votre infrastructure informatique.
- Si vous déployez STATISTICA
ETL au travers de STATISTICA
Entreprise, vous pourrez rapidement :
- Mettre en place des cartes de
contrôle qualité et tous les calculs
nécessaires de capabilité de processus
- Calculer des cartes de
contrôle et indices de capabilité du processus
pour différents processus et à partir de sources
de données diverses
- Appliquer à l'ensemble
de votre processus, des techniques avancées de suivi de
processus comme des détecteurs virtuels basés sur
les réseaux de neurones, des méthodes
avancées de reconnaissance de formes, des algorithmes
sensibles de détection de points de rupture qui vont vous
alerter dès que "quelque chose est sur le point de
dériver" avant qu'il ne soit trop tard, ou encore les
méthodes et algorithmes de data mining les plus pointus
actuellement disponibles pour une détection efficace des
causes les plus probables dans des données complexes
Aperçu
des Fonctionnalités de STATISTICA ETL
STATISTICA ETL
allie la puissance du système STATISTICA
pour le traitement efficace
de données contenues dans des bases de données
traditionnelles (Microsoft SQL®, Oracle®)
ou des bases de données process
spécialisées (par exemple, OSI Pi®), avec
les fonctionnalités
avancées de traitement des données
proposées dans STATISTICA pour le
filtrage, l'agrégation,
l'alignement et l'analyse des données.
STATISTICA ETL
est la solution idéale pour :
- Mettre en place des plates-formes
analytiques au niveau de l'entreprise afin d'intégrer
l'historique des processus avec des systèmes
avancés de contrôle qualité et de suivi
des processus
- Créer des
entrepôts de données
spécialisés qui vont aligner et valider des
données
temporelles (par exemple, des données chronologique par
batch, telles qu'elles sont
généralement collectées dans diverses
industries de process) avec les résultats (par
exemple, des tests de composition chimique des produits)
- Construire des entrepôts
de données pour des analyses ad-hoc et des analyses
automatisées
des causes les plus probables (RCA - root cause analysis) pour des
processus de production
complexes (par exemple, industrie chimique ou pharmaceutique,
production d'électricité,
extraction minière, etc...)
- Créer des
entrepôts de données conformes aux exigences de la
réglementation 21 CFR
Part 11 en matière de reporting, pour des processus complexes
- Toute application
d'entrepôt de données nécessitant la
validation, la transformation,
l'agrégation, la standardisation, ou la fusion de
données non-conventionnelles, et
qui ne peut pas être construite avec les outils traditionnels
de bases de données
Extraction des
Données (Extract)
STATISTICA Entreprise
offre une plate-forme sécurisée pour
gérer efficacement des connexions
à différentes bases de données, ou
à différents types de bases de
données, en particulier
des bases de données process (par exemple, grâce
à l'outil spécialisé STATISTICA Connecteur PI).
STATISTICA Entreprise
stocke les méta-données, c'est-à-dire
un ensemble structuré d'informations servant à
décrire la nature des tables requêtées,
comme les limites de contrôle ou de spécification,
l'intervalle de validité des données, etc... Voir
STATISTICA
Entreprise pour plus d'informations.
Transformation
des Données (Transform)
Le module STATISTICA ETL
met à votre disposition tout un ensemble de
fonctionnalités
pour le traitement et la fusion des données, notamment les
données process qui sont
particulièrement difficiles à gérer
à l'aide des outils traditionnels de bases de
données.
Agrégation, alignement
et réplication de données temporelles.
Pour suivre des processus continus, comme il en existe dans l'industrie
chimique ou pharmaceutique, le domaine de la production
d'électricité, du raffinage, etc..., il est
important d'enregistrer les paramètres critiques du
processus dans un "historique" du processus à intervalles de
temps réguliers. Il existe
généralement des bases de données
dédiées ultra-spécialisées
en place comme la base de données PI d'OSI Soft, qui vont
permettre l'enregistrement fréquent et efficace des
données. Toutefois, pour pouvoir utiliser ces
données dans des analyses, par exemple, pour l'analyse des
facteurs influents ou pour le suivi des processus, ces
données doivent préalablement être
agrégées et alignées, par exemple,
avec les données des produits finis.
- STATISTICA ETL
vous permet d'aligner des données process temporelles avec
d'autres sources de données, comme les données
process collectées à différents
intervalles de temps, ou seulement collectées une fois par
pièce, identifiant, batch, etc...
Empilage
et désempilage automatique, et normalisation des
données batch-temporelles, pour les processus par batch.
La fabrication de produits chimiques ou pharmaceutiques implique
généralement le traitement de
différents batch de matériaux au cours de
différentes étapes de la synthèse,
avec l'enregistrement de divers aspects de la maturation du batch
à chacune de ces étapes. Les données
collectées sont alors enregistrées dans un système
de gestion informatisé de laboratoire ou LIMS
(Laboratory Information Management System), constitué de
données process temporelles, organisées par
identifiant de batch. Afin de permettre l'exploitation de ces
données, il est nécessaire de transformer les
étiquettes de date/heure en durées
écoulées depuis le début du process,
et de normaliser les données de manière
à obtenir, pour chaque batch, des temps
écoulés comparables pour les analyses.
- STATISTICA ETL
vous permet de traiter des données par batch, afin d'obtenir
des batch de même "taille" et désempiler ces
données afin de pouvoir les exploiter dans d'autres analyses
et suivi du processus de maturation (voir aussi le produit STATISTICA MSP Multidimensionnelle
pour plus d'informations).
Agréger
des données à l'aide de statistiques robustes.
L'agrégation des données process (par exemple,
des données collectées toutes les minutes
à agréger avec des données horaires)
nécessitent généralement d'appliquer
des méthodes d'agrégation qui vont bien au
delà de ce que peuvent faire les outils classiques des bases
de données. Par exemple, les données temporelles
peuvent comporter des points aberrants, ou être
particulièrement bruitées, et donc masquer des
tendances importantes, ou des modifications dans ces tendances.
- STATISTICA ETL
intègre de nombreux outils pour agréger et/ou
lisser les données, afin de pouvoir appliquer des
méthodes de suivi de processus (par exemple, pour la
détection de tendance ou de point de rupture) à
des estimations robustes ou lissées des moyennes de
processus pour des intervalles
de temps agrégés.
Agrégation
et alignement de sources de données multiples et disparates.
Les processus complexes, comme on en trouve dans la fabrication des
semi-conducteurs, l'industrie pharmaceutique, etc...
nécessitent un stockage complexe des données, en
phase avec la nature spécifique des processus à
suivre et enregistrer. Il n'est donc pas rare d'avoir
différentes sources ou bases de données
distinctes, comme des fichiers de données plats (par
exemple, CSV) créés automatiquement par les
équipements, des données PI, des
données de test de composition chimique dans un
système LIMS, etc..., que nous devons agréger et
aligner, pour permettre l'analyse pertinente des causes les plus
probables (RCA) des problèmes, ou un suivi complet des
processus.
- STATISTICA ETL
met à votre disposition tous les outils
nécessaires pour configurer des tâches complexes
d'alignement de données issues de plusieurs sources
disparates dans un même objet ETL, que
vous pouvez déployer dans STATISTICA Entreprise
afin de les appliquer à la demande ou sous forme de
tâches planifiées d'ETL,
en vue de soutenir un système de data warehouse
dédié, stockant les données
validées et alignées pour le suivi et
l'optimisation des processus.
Les
fonctionnalités de Transformation
disponibles dans STATISTICA ETL
dépassent de loin celles qui sont
généralement proposées dans les outils
classiques de bases de données ou dans les
requêteurs, en permettant de construire des
entrepôts de données (data warehouses)
dédiés et spécialisés afin
d'optimiser vos processus sans avoir à programmes vos
propres d'applications-maison. STATISTICA ETL
est une solution efficace pour créer des entrepôts
de données avec des fonctionnalités analytiques
automatisées, simples et sophistiquées, vous
permettant d'exploiter toute la valeur des données que vous
collectez !
Réintégration
des Données (Load)
La
solution STATISTICA ETL
vous permet d'automatiser le processus de validation et l'alignement
de différentes sources de données disparates dans
une même source adaptée aux analyses
ad-hoc ou automatisées. Lorsqu'elles sont
déployées dans le cadre de STATISTICA
Entreprise,
les données peuvent être
réintégrées dans des tables
dédiées des bases de données,
ou dans des tableaux de données STATISTICA,
afin de permettre aux analystes ou aux
ingénieurs process de disposer d'un accès
pratique aux données de performance en
temps réel, sans devoir préalablement effectuer
des tâches fastidieuses de transformation
ou de nettoyage des données avant de pouvoir en extraire des
informations exploitables.