Le programme est servi sur CD-ROM avec un jeu de documentation.
Fonctionnalités
de
STATISTICA
Statistiques Avancées + Solutions Industrielles
STATISTICA
Statistiques Avancées + Solutions Industrielles
intègre l'ensemble des fonctionnalités disponibles dans STATISTICA
Statistiques Avancées et dans STATISTICA
Solutions Industrielles :
- STATISTICA
Statistiques Avancées offre la gamme la plus vaste
de techniques exploratoires multivariées et d'outils
interactifs de modélisation linéaire et
non-linéaire dans un seul logiciel. Grâce à STATISTICA
Statistiques Avancées, explorez les relations
entre les variables, créez des typologies,
modélisez les relations entre vos variables
(modèles avec des prédicteurs continus et
catégoriels, interactions, modèles
hiérarchiques...) ; vous disposez de tous les outils pour
sélectionner automatiquement le meilleur modèle.
- STATISTICA
Solutions Industrielles offre une gamme étendue de
statistiques industrielles pour accompagner efficacement votre
démarche qualité ; vous disposez de tous les
outils nécessaires à la mise en place d'une méthodologie six
sigma grâce aux raccourcis DMAIC
intégrés.
Langage de programmation
Visual Basic et nombreux graphiques intégrés dans
toutes les analyses.
STATISTICA Statistiques Avancées + Solutions Industrielles
fonctionne sur les plates-formes Windows XP, Windows Vista et Windows
7. Ce produit est constitué des modules suivants :
STATISTICA
Base
STATISTIQUES
DESCRIPTIVES, DÉCOMPOSITIONS ET ANALYSE EXPLORATOIRE DES
DONNÉES. STATISTICA Base vous
propose une large gamme de méthodes pour réaliser
vos analyses exploratoires :
Statistiques Descriptives et Graphiques.
Le programme calcule les statistiques descriptives les plus courantes
et généralistes comme les médianes,
modes, quartiles, centiles personnalisés, moyennes et
écarts-types, intervalles inter-quartiles, limites de
confiance autour de la moyenne, asymétries et aplatissements
(avec leurs erreurs-types respectives), moyennes harmoniques et
géométriques, ainsi que de nombreuses
statistiques descriptives et diagnostiques
spécialisés. Comme dans tous les modules de STATISTICA,
de nombreux graphiques vous aident lors de la phase exploratoire de vos
analyses, par exemple, divers types de boîtes à
moustaches, histogrammes, histogrammes bivariés (en 3D ou
catégorisés), nuages de points en 2D et 3D avec
représentation différenciée de
catégories, tracés de normalité
(droite de Henry, normalité par moitié,
écarts à la normalité),
tracés Q-Q, tracés P-P,
etc... Différents tests sont proposés pour
vérifier la normalité de vos données
(tests de Kolmogorov-Smirnov, Lilliefors et Shapiro-Wilk ; vous pouvez
toutefois tester l'ajustement de nombreuses autres distributions ; voir
aussi le descriptif du module Analyse
de Processus ainsi que le paragraphe concernant
l'ajustement dans les Graphiques).
Analyses
par Groupe (Décompositions). La plupart des
statistiques descriptives et graphiques de synthèse peuvent
être calculés pour des données
catégorisées (décomposées)
selon une ou plusieurs variables de classement. Par exemple, quelques
clics de souris vous permettent de décomposer vos
données en fonction du Sexe et de l'Âge
et de visualiser les représentations
catégorisées sous forme d'histogrammes, de
boîtes à moustaches, de tracés de
normalité, de nuages de points, etc... Si vous
sélectionnez plus de deux variables
(catégorielles) de classement, des cascades
de graphiques seront automatiquement produites. Des options vous
permettent de catégoriser vos données selon des
variables continues ; par exemple, vous pouvez ventiler cette variable
continue en un certain nombre de classes, ou utiliser l'une des options
de recodification pour définir la manière dont la
variable sera recodifiée (vous pouvez spécifier
des options de catégorisation d'une complexité
quasi-illimitée, pouvant faire intervenir toutes les
variables de votre fichier de données, et ce, à
tout moment). En outre, une procédure
spécialisée de décomposition
hiérarchique permet à l'utilisateur de
catégoriser ses données en spécifiant
jusqu'à six variables catégorielles, et de tracer
toute une gamme de graphiques ou calculer de nombreuses statistiques
descriptives et matrices de corrélations pour
chaque catégorie (l'utilisateur peut, de
façon interactive, ignorer certains facteurs de la table de
décomposition complète, et ne visualiser les
statistiques que pour certains des tableaux marginaux). De nombreuses
options de mise en forme et d'étiquetage permettent
à l'utilisateur de produire des tableaux et comptes-rendus
de qualité, avec les noms et descriptions
détaillées des variables. Remarque : vous pouvez
spécifier des plans très importants pour la
procédure de décomposition (par exemple, 100.000
groupes pour une seule variable de classement), et les
résultats contiennent toutes les statistiques
appropriées de l'ANOVA (notamment le tableau complet de
l'ANOVA, des tests d'hypothèses comme le test
d'homogénéité des variances de Levene,
sept tests post-hoc, etc...). Comme dans tous les
autres modules de STATISTICA, les calculs sont
effectués en précision étendue (la "quadruple"
précision, à chaque fois que c'est possible) afin
de produire les résultats avec un niveau de
précision sans égal (voir la section sur la Précision).
La nature interactive du programme rend l'analyse exploratoire des
données très simple. Par exemple, vous pouvez
produire des graphiques exploratoires directement depuis les feuilles
de données en pointant simplement avec la souris une cellule
ou un groupe de cellules spécifiques. Des cascades
de graphiques même complexes (par exemple,
catégorisation multiple) peuvent être
créées d'un seul clic et affichés sous
forme de diaporama. Outre les nombreux graphiques statistiques
prédéfinis, vous avez à votre
disposition quantité de graphiques pour
représenter vos données brutes, statistiques de
synthèse, relations entre vos statistiques. Toutes les
techniques graphiques exploratoires (décrites dans la
section sur les Graphiques)
sont intégrées aux statistiques pour simplifier
l'analyse graphique de vos données (par exemple, suppression
interactive des points atypiques, sélection de
sous-ensembles, lissage, fonction d'ajustement, options extensives
d'habillage/balayage permettant à l'utilisateur d'identifier
et/ou d'extraire simplement les données
sélectionnées, etc...). Voir aussi la section sur
les Statistiques de Blocs,
ci-dessous.

CORRÉLATIONS. Diverses options vous
permettent d'étudier les corrélations entre vos
variables. Les mesures d'association les plus courantes peuvent
être calculées, notamment le r
de Pearson, le R des rangs de Spearman, le
tau (b, c) de Kendall,
le Gamma, le rtétrachorique,
le Phi, le V de Cramer, le
coefficient de contingence C, le D
de Sommer, les coefficients d'incertitude, les corrélations
partielles et semi-partielles, les autocorrélations,
diverses mesures de distances, etc... (des régressions
non-linéaires, ou sur des données
censurées et autres mesures
spécialisées de corrélations sont
proposées dans les modules Estimation
Non-Linéaire, Analyse de Survie,
ainsi que dans d'autres modules du produit complémentaire STATISTICA Statistiques
Avancées). Vous pouvez calculer des
matrices de corrélation avec diverses options de traitement
des valeurs manquantes : vous pouvez ignorer les cellules à
valeurs manquante, ignorer toute observation contenant au moins une
valeur manquante, ou remplacer les valeurs manquantes par la moyenne de
la variable respective. Comme dans tous les autres modules de STATISTICA,
les calculs sont réalisés en précision
étendue (la "quadruple" précision,
à chaque fois que c'est possible) afin d'obtenir des
résultats aussi précis que possible (voir la
section sur la Précision).
Comme tous les autres résultats de STATISTICA,
les matrices de corrélations sont affichées dans
des feuilles de données, vous offrant diverses options de
mise en forme (voir ci-dessous) et de représentation des
résultats numériques ; vous pouvez ainsi cliquer
sur une corrélation particulière dans la feuille
de données et choisir de représenter ce
coefficient grâce à l'un des nombreux "graphiques
de synthèse" disponibles (par exemple, un nuage de points
avec des intervalles de confiance, divers histogrammes
bivariés en 3D, des tracés de
probabilité, etc...).
Balayage et détection des points
atypiques. L'outil de balayage dans les
nuages de points permet à l'utilisateur de
sélectionner/désélectionner des points
individuels dans le tracé pour mesurer leur influence sur la
droite de régression (ou sur la courbe d'ajustement).
Formats d'affichage des nombres.
Divers formats globaux d'affichage sont proposés pour les
corrélations ; les coefficients de corrélation
significatifs peuvent apparaître en surbrillance
automatiquement, et chaque cellule de la feuille de données
peut reporter les n et niveaux p,
ou encore, vous pouvez demander les résultats
détaillés avec toutes les statistiques
descriptives (moyennes et écarts-types par couples,
pondérations B, ordonnées à l'origine,
etc...). Comme pour tous les autres résultats
numériques, les matrices de corrélations sont
affichées dans des feuilles de données offrant
des options de zoom et d'affichage/mise en forme interactifs (par
exemple, changer +.4 en +.41358927645193)
; vous pouvez donc compacter de grandes matrices (soit en utilisant le
zoom, soit en modifiant la largeur des colonnes à l'aide de
la souris pour des colonnes individuelles, ou en utilisant un bouton de
la barre d'outils pour modifier la largeur de toutes les colonnes) afin
de faciliter l'identification visuelle des coefficients
dépassant un certain niveau personnalisé, ou un
seuil de significativité (par exemple, les cellules
respectives peuvent apparaître en rouge dans la feuille de
données).
Nuage de points, nuages matriciels,
analyses par groupes. Comme dans toutes les boîtes
de dialogue de résultats, de nombreuses options graphiques
globales vous permettent de poursuivre l'analyse des relations entre
les variables, comme par exemple divers nuages de points en 2D et 3D
(avec ou sans les noms d'observations) destinés à
identifier la structure des relations entre des séries de
variables ou catégories d'observations. Les matrices de
corrélations peuvent être calculées en
fonction des variables de classement et
représentées dans des nuages de points
catégorisés. En outre, vous pouvez produire des
"décompositions de matrices de corrélations" (une
matrice par catégorie), qui seront affichées dans
des feuilles de données distinctes, et qui pourront
être enregistrées sous forme de matrices de
corrélations empilées (que vous pourrez ensuite
utiliser par exemple en entrée d'une nouvelle analyse dans
le module Modélisation
d'Équations Structurelles et Analyse de Causalité
[SEPATH] proposé dans le produit
complémentaire STATISTICA
Statistiques Avancées). Vous pouvez
synthétiser une matrice de corrélations
entière dans un même graphique grâce
à l'option Nuage de points matriciel
(avec une densité quasi-illimitée) ; vous pouvez
examiner de larges matrices de nuages de points de façon
interactive en "zoomant" sur des sections
spécifiques du graphique (ou en utilisant les barres de
défilement en mode zoom [voir l'illustration ci-contre]).
Vous pouvez également produire des nuages de points
matriciels catégorisés (un tracé
matriciel par catégorie). Vous avez par ailleurs la
possibilité de tracer des nuages de points matriciels multi-groupes,
chaque catégorie distincte (par exemple, définie
selon les modalités d'une variable de classement ou par des
filtres de sélection d'une complexité
quasi-illimitée) étant
représentée par un symbole de points
différent. D'autres méthodes graphiques peuvent
être utilisées pour représenter des
matrices de corrélations et rechercher des structures
globales (par exemple, courbes d'isoréponse, surfaces non
lissées, tracés de figures, etc...). Toutes ces
opérations peuvent être
réalisées en quelques clics et divers raccourcis
permettent de simplifier le paramétrage des analyses ; vous
pouvez afficher simultanément autant de feuilles de
données et de graphiques que vous le souhaitez, ce qui
permet de comparer les résultats et réaliser des
analyses exploratoires interactives de façon
extrêmement simple.
|
 STATISTIQUES
ÉLÉMENTAIRES SUR DES TABLEAUX DE
RÉSULTATS (FEUILLES DE DONNÉES). STATISTICA
est un système analytique intégré qui
affiche tous ses résultats numériques sous la
forme de feuilles de données utilisables directement (sans
aucune modification) en entrée d'autres analyses. Vous
pouvez ainsi produire des statistiques
élémentaires (ou tout autre type d'analyse
statistique) à partir des tableaux de résultats
d'une analyse précédente ; vous pouvez par
exemple calculer très rapidement un tableau de moyennes sur
2000 variables, puis utiliser ce tableau comme fichier
d'entrée pour analyser la distribution de ces moyennes selon
les variables. Les statistiques élémentaires sont
donc accessibles à tout moment d'une analyse, et peuvent
être calculées sur toute type de
résultat.
Statistiques
de Blocs. Outre les statistiques descriptives que vous pouvez
calculer sur chaque feuille de données, vous pouvez mettre
des blocs de cellules numériques en surbrillance dans une
feuille de données, et produire rapidement un certain nombre
de graphiques et de statistiques descriptives sur ce bloc
sélectionné (sous-ensemble de données)
uniquement. Par exemple, si vous avez produit une feuille de
données avec les caractéristiques de tendance
centrale de 2000 variables (par exemple, avec les moyennes, modes,
médianes, moyennes géométriques et
harmoniques) ; vous pouvez mettre un bloc en surbrillance, disons de
200 variables avec uniquement les moyennes et les médianes,
puis produire un graphique curviligne multiple de ces deux mesures pour
les 200 variables sélectionnées. Vous pouvez
réaliser des analyses statistiques sur des blocs de lignes
ou de colonnes ; par exemple, vous pouviez
également produire un tracé curviligne d'un
groupe de variables en fonction de différentes
caractéristiques de tendance centrale. Pour
résumer, les statistiques de blocs vous permettent de
produire des statistiques et graphiques statistiques à
partir de valeurs arbitrairement sélectionnées
(mises en surbrillance) dans votre feuille de données
(données d'entrée ou résultats
d'analyses).
|
CALCULATEUR
INTERACTIF DE PROBABILITÉS. Un Calculateur
de Probabilités interactif est accessible depuis
toutes les barres d'outils. Il vous propose une large gamme de
distributions (en particulier Bêta, Cauchy,
Chi2, Exponentielle,
Valeur Extrême, F,
Gamma, Laplace, Log-normale,
Logistique, Pareto, Rayleigh,
t (Student), Weibull, et Z
(Normale)) ; la mise à jour interactive des
graphiques dans cette boîte de dialogue (tracé des
fonctions de répartition et de densité) permet
à l'utilisateur de visualiser ces distributions en utilisant
les micro-défilements "intelligents" de
STATISTICA qui permettent à
l'utilisateur d'augmenter la dernière décimale
significative (en appuyant sur le bouton GAUCHE de la souris) ou
l'avant-dernière (en appuyant sur le bouton DROIT de la
souris). Diverses options vous permettent de produire des graphiques
composés et personnalisables de distributions avec des
seuils spécifiques. Ce calculateur de
probabilités vous permet donc d'explorer de façon
interactive les distributions (par exemple, les probabilités
respectives associées à différents
paramètres de dispersion (forme)).
|
Tests
T et autres Tests
d'Homogénéité entre des Groupes.
Vous pouvez calculer des tests t pour des
échantillons appariés ou indépendants,
comparer des valeurs à un standard (par exemple,
tester des moyennes par rapport à une constante
particulière) ou encore des tests multivariés T
2 de Hotelling (voir aussi le module ANOVA/MANOVA
et le module GLM
(Modèle Linéaire Général)
proposé dans le produit complémentaire STATISTICA Statistiques
Avancées. Diverses options vous
permettent de comparer aisément vos variables (par exemple,
vous pouvez traiter différentes colonnes de votre feuille de
données comme des échantillons distincts) et vos
groupes (par exemple, si vos données contiennent une
variable catégorielle de classement représerntant
par exemple le Sexe, et permettant d'identifier à quel
groupe chaque observation appartient). Par exemple, après un
test t pour des échantillons
indépendants, vous pouvez calculer des tests t
avec une estimation séparée des variances, le
test d'homogénéité des variances de
Levene, divers histogrammes catégorisés,
boîtes à moustaches, tracés de
probabilités, ou nuages de points
catégorisés, etc... D'autres tests
d'homogénéité (plus
spécialisés) sont proposés dans des
modules spécifiques (par exemple, Tests
Non-Paramétriques (voir ci-dessous), ou
encore Analyse
de Survie et Fiabilité/Analyse
d'Échelle (tous deux proposés
dans le produit complémentaire STATISTICA Statistiques
Avancées).
|
 TABLES DE
FRÉQUENCES, TRIS CROISÉS, ANALYSE DE
RÉPONSES MULTIPLES. Diverses
fonctionnalités vous permettent de croiser des variables
continues, catégorielles, et à
réponses ou dichotomies multiples. De nombreuses options
vous permettent de contrôler la mise en forme et le format
des tableaux. Ainsi, pour des tableaux avec des variables de
réponses ou dichotomies multiples, les effectifs marginaux
et pourcentages peuvent être calculés à
partir du nombre total de répondants ou de
réponses, les variables à réponses
multiples peuvent être traitées par couples, et
vous pouvez comptabiliser (ou ignorer) les valeurs manquantes de
diverses manières. Les tables de fréquences
peuvent également être calculées en
utilisant des filtres de sélection logiques (d'une
complexité quasi-illimitée, utilisant toute
variable du fichier de données) pour affecter les
observations à des catégories du tableau. Tous
les tableaux peuvent être personnalisés et mis en
forme (habillés) pour produire des comptes-rendus de
qualité. Par exemple, des tableaux "de synthèse
à plusieurs entrées" peuvent être
produits avec une organisation hiérarchique des facteurs ;
dans les tableaux croisés, vous pouvez reporter le
pourcentage de chaque cellule par rapport au total en ligne, en colonne
ou à l'effectif total ; vous pouvez utiliser des
étiquettes pour décrire les catégories
de votre tableau, ou encore mettre les effectifs supérieurs
à un certain seuil en surbrillance dans le tableau, etc...
Le programme peut reporter les effectifs cumulés et
relatifs, les effectifs transformés Logit et Probit, les
effectifs normaux théoriques (ainsi que les tests de
Kolmogorov-Smirnov, Lilliefors et Shapiro-Wilk), les effectifs
théoriques et les résidus dans les tableaux
croisés, etc... Divers tests statistiques vous sont
proposés pour les tableaux croisés, notamment les
tests du Chi2 de Pearson, du
Maximum de Vraisemblance et de Yates (corrigé), le Chi2
de McNemar, le test exact de Fisher
(unilatéral et bilatéral), le Phi,
et le r tétrachorique ; ou encore le tau
(a, b) de
Kendall, Gamma, r de Spearman, D
de Sommer, coefficients d'incertitude, etc...
Graphiques. Diverses options
graphiques vous sont également proposées, en
particulier des histogrammes simples, catégorisés
(multiples), ou en 3D, des histogrammes croisés (pour chaque
"section" d'un tableau
élémentaire, à double
entrée, ou d'ordre multiple), ainsi que de nombreux autres
graphiques, y compris un "tracé d'interaction des effectifs"
qui synthétise les effectifs d'un tableau
croisé complexe (sur le même principe que les
tracés de moyennes dans l'ANOVA). Vous pouvez visualiser des
cascades de graphiques même
complexes (par exemple, catégorisation multiple, ou
interactions) de façon interactive. Voir aussi la section
sur les Statistiques de Blocs,
ci-dessus, et la description des modules Analyse
Log-Linéaire et Analyse
des Correspondances (tous deux proposés
dans le produit complémentaire STATISTICA Statistiques
Avancées).
|
 RÉGRESSION
MULTIPLE. Le module Régression Multiple
propose diverses techniques de régression
linéaire, en particulier des régressions simples,
multiples, pas-à-pas (ascendante, descendante, ou par
blocs), hiérarchiques, non-linéaires (en
particulier polynomiale, exponentielle, logarithmique, etc...), des
régressions Ridge, avec ou sans ordonnée
à l'origine (c'est-à-dire passant ou non par
l'origine), et modèles de moindres carrés
pondérés ; d'autres méthodes
avancées sont proposées dans le module Modèles
Généraux de Régression (GRM)
(par exemple, recherche exhaustive du meilleur modèle,
régression pas-à-pas multivariée pour
plusieurs variables dépendantes, avec des modèles
pouvant comporter des effets de facteurs catégoriels ;
synthèse statistique des échantillons
utilisés pour la validation et la prévision,
hypothèses personnalisées, etc...). Le module Régression
Multiple permet de calculer divers diagnostiques et
statistiques, notamment la table complète de la
régression (y compris les erreurs-types de B, Bêta
et de l'ordonnée à l'origine, le R2
et le R2 ajusté
pour les modèles avec ou sans ordonnée
à l'origine et la table ANOVA de la régression),
la matrice des corrélations partielles, les
corrélations et covariances des coefficients de
régression, la matrice sweep (inverse), le d
de Durbin-Watson, les distances de Mahalanobis et de Cook, les
intervalles de confiance autour des valeurs prévues , etc...
Valeurs prévues et
résidus. De nombreux tracés tels que
nuages de points, histogrammes, tracés de
normalité (droite de Henry, normalité par
moitié, écarts à la
normalité), tracés de corrélations
partielles, etc..., vous permettent de poursuivre l'analyse des
résidus et des points atypiques plus avant. Les
résultats de chaque observation peuvent être
représentés graphiquement à l'aide des
tracés exploratoires de figures et autres graphiques
multidimensionnels intégrés, accessibles
directement depuis les feuilles de données. Les
résidus et les valeurs prévues peuvent
être automatiquement ajoutées au fichier de
données. Une routine de prévision permet
à l'utilisateur d'effectuer des analyses conditionnelles,
et de calculer de façon interactive les valeurs
prévues pour des valeurs spécifiques des
prédicteurs.
Analyses par Groupes ; procédures
associées. D'autres procédures de
régression permettent de traiter des modèles
extrêmement importants. Une option vous permet de
réaliser des régressions multiples
décomposées selon une ou plusieurs variables
catégorielles (régression multiple par groupe) ;
d'autres procédures permettent encore de traiter des
modèles avec plusieurs milliers de variables, de calculer
des régressions par les Moindres Carrés
à deux Étapes, ainsi que des
transformations Box-Cox et Box-Tidwell
avec des graphiques. Le produit complémentaire STATISTICA Statistiques
Avancées, contient également
divers modules généraux d'estimation
non-linéaire (Estimation
Non-Linéaire, Modèles
Linéaires/Non-Linéaires
Généralisés (GLZ),
Modèles
Généraux PLS) qui permettant
d'estimer pratiquement tout type de modèle
non-linéaire personnalisé, en particulier Logit,
Probit, etc... Ce produit complémentaire contient
également un module généraliste de Modélisation
d'Équations Structurelles et d'Analyse de
Causalité (SEPATH),
qui vous permet d'analyser des matrices de corrélations, de
covariance ou des moments, très importantes (pour des
modèles avec ordonnée à l'origine).
|
 TESTS
NON-PARAMÉTRIQUES. Le module Tests
Non-Paramétriques contient toute une gamme de
statistiques descriptives et inférentielles, avec les tests
les plus courants et certaines procédures
spéciales. Parmi les procédures statistiques
disponibles, citons le test des séries de Wald-Wolfowitz, le
test U de Mann-Whitney (avec les
probabilités exactes [et non les approximations Z]
pour les petits échantillons), les tests de
Kolmogorov-Smirnov, le test de Wilcoxon pour des
échantillons appariés, l'ANOVA par rangs de
Kruskal-Wallis, le test de la médiane, le test des signes,
l'ANOVA par rangs de Friedman, le test Q de
Cochran, le test de McNemar, le coefficient de concordance de Kendall,
le tau (b, c)
de Kendall, le R de Spearman, le test exact de
Fisher, les tests du Chi2,
le V2, Phi,
Gamma, le d de Sommer, les
coefficients de contingence, etc... (des statistiques et tests
non-paramétriques spécialisés sont
également disponibles dans d'autres modules, par exemple Analyse de Survie,
, etc..., ou dans le module Analyse
de Processus) Tous les tests (basés sur
des rangs) permettent de tenir compte des ex-aequos et appliquent des
corrections pour les petits n ou les ex-aequos.
Comme dans tous les autres modules de STATISTICA,
des graphiques sont intégrés à tous
les tests (notamment des nuages de points, boîtes
à moustaches spécialisées,
tracés curvilignes, histogrammes, et autres graphiques en 2D
ou 3D).
|
ANOVA/MANOVA.
Le module ANOVA/MANOVA ne contient qu'une partie des
fonctionnalités proposées dans le module Modèle
Linéaire Général et peut
réaliser des analyses de variance univariées et
multivariées sur des plans factoriels avec ou sans mesures
répétées (ce module peut traiter au
maximum un facteur de mesure répétée).
Pour des modèles linéaires plus complexes avec
des variables prédictives catégorielles ou
continues, des effets aléatoires, et plusieurs facteurs de
mesures répétées, vous devez utiliser
le module Modèle Linéaire
Général (le module Modèles
Généraux de Régression (GRM)
offre diverses options d'analyse pas-à-pas et de
sélection du meilleur modèle). Dans le module
ANOVA/MANOVA , vous pouvez spécifier tous les
modèles de manière extrêmement simple,
en termes fonctionnels de variables et niveaux (et
non pas en termes techniques, par exemple, en spécifiant des
matrices de codes), et même les utilisateurs les moins
familiarisés avec l'ANOVA peuvent analyser des
modèles très complexes avec STATISTICA.
Interface-utilisateur. Comme dans le
module Modèle Linéaire
Général, le module ANOVA/MANOVA offre
trois interfaces-utilisateur alternatives pour spécifier les
modèles : (1) Un Assistant Analyse qui vous guide
pas-à-pas pour spécifier votre modèle,
(2) une interface-utilisateur simplifiée qui vous permet de
spécifier votre modèle en
sélectionnant les variables, les codes, les niveaux, et
d'autres options du modèle dans une boîte de
dialogue de spécifications rapides, et (3) un
Éditeur de Syntaxe qui vous permet de spécifier
vos modèles et leurs options grâce à
des mots-clé et une syntaxe commune.
Méthodes de calcul. Par
défaut, le programme utilise une paramétrisation
sigma-restreint pour les modèles factoriels et applique
l'approche de l'hypothèse efficace (voir Hocking, 19810)
lorsque le modèle n'est pas équilibré
ou s'il est incomplet. Il est possible de calculer les
hypothèses (standard) de type I, II, III, et IV ; les
hypothèses de type V et de type VI permettent de
réaliser des tests dans la logique des analyses-type des
plans factoriels fractionnaires utilisés dans les
applications industrielles et d'amélioration de la
qualité (voir aussi la description du module Plans
d'Expériences).
Résultats. Le module
ANOVA/MANOVA n'est pas limité en termes de routines de
calcul ce qui vous permet d'accéder à l'ensemble
des outils analytiques disponibles dans le module Modèle
Linéaire Général (voir la
description du module Module Linéaire
Général (GLM) pour plus d'informations)
; parmi les résultats standard, vous retrouverez les
tableaux de synthèse de l'ANOVA, les résultats
univariés et multivariés des facteurs de mesures
répétées à plus de 2
niveaux, les ajustements de Greenhouse-Geisser et Huynh-Feldt, les
tracés d'interactions, des statistiques descriptives
détaillées, diverses statistiques sur les
résidus, les comparaisons planifiées et tests post-hoc,
des tests d'hypothèses et termes d'erreur
personnalisés, diverses statistiques et tracés
diagnostiques détaillés (par exemple, un
histogramme des résidus intra, tests
d'homogénéité des variances,
tracés des moyennes en fonction des écarts-types,
etc...).
|
 AJUSTEMENT
DE DISTRIBUTIONS. Les options du module Ajustement
de Distributions vous permettent de comparer la distribution
d'une variable en fonction de nombreuses distributions
théoriques. Vous pouvez ajuster vos données par
une distribution Normale, Uniforme,
Exponentielle, Gamma, Log-normale,
du Chi2, Weibull,
Gompertz, Binomiale, de Poisson,
Géométrique, ou de Bernoulli.
Vous pouvez ensuite évaluer l'ajustement par un test du Chi2
ou par un test de Kolmogorov-Smirnov (avec contrôle des
paramètres d'ajustement) ; les tests de Lilliefors et
Shapiro-Wilk sont également proposés (voir
ci-dessus). Vous pouvez évaluer l'ajustement d'une
distribution particulière à une distribution
empirique grâce à des histogrammes
personnalisés (standard ou cumulés) avec
superposition des fonctions sélectionnées ; vous
pouvez produire des graphiques curvilignes et en bâtons des
effectifs théoriques et observés, ou des
divergences et autres résultats dans toutes les feuilles de
données de résultats. D'autres options
d'ajustement de distributions sont proposées dans le module STATISTICA Analyse de
Processus, où l'utilisateur peut estimer
les paramètres par le maximum de vraisemblance pour les
distributions Bêta, Exponentielle,
Valeur Extrême (Type I, Gumbel), Gamma,
Log-normale, Rayleigh, et Weibull.
Ce module vous permet également de sélectionner
et ajuster automatiquement la meilleure distribution à vos
données, ou encore d'ajuster des distributions
générales par les moments (à l'aide
des courbes de Johnson et de Pearson). Des fonctions
personnalisées en 2 et 3 dimensions peuvent
également être représentées
et superposées sur les graphiques. Les fonctions peuvent
faire référence à de nombreuses
distributions comme la distribution Bêta,
Binomiale, de Cauchy, du Chi2,
Exponentielle, Valeur
Extrême, du F, Gamma,
Géométrique, Laplace,
Logistique, Normale, Log-normale,
de Pareto, de Poisson, Rayleigh,
du t (Student), ou de Weibull,
ou leurs intégrales et inverses. D'autres
fonctionnalités permettant d'ajuster des fonctions
prédéfinies ou personnalisées d'une
complexité quasi-illimitée à vos
données sont décrites dans le cadre du module Estimation
Non-Linéaire (disponible dans le produit
STATISTICA Statistiques Avancées).
|
Techniques
Exploratoires Multivariées
 CLASSIFICATIONS.
Ce module propose diverses méthodes de classification (k-moyennes,
classification ascendante hiérarchique (CAH), classification
conjointe). Le programme peut traiter des fichiers de
données brutes ou des matrices contenant diverses mesures de
distances (par exemple, de corrélations). L'utilisateur peut
agréger des observations, des variables, ou les deux, avec
différentes options de mesure des distances (euclidienne,
euclidienne au carré, City-block (Manhattan), Chebychev,
distances à la puissance, percentage disagreement
et 1-r) et d'agrégation des
données (saut minimum, diamètre,
barycentre ou moyenne pondérée ou non du
groupe, méthode de Ward, ...). Les matrices des distances
peuvent être enregistrées pour poursuivre
l'analyse dans d'autres modules de STATISTICA. Dans
la procédure des k-moyennes,
l'utilisateur a un contrôle total sur les centres de classes
initiaux. Vous pouvez analyser des modèles très
vastes (par exemple, vous pouvez analyser plus de 1000 variables ou
plus d'un million de distances individuelles avec une CAH). Outre les
résultats standard de la classification, diverses
statistiques descriptives et diagnostiques
détaillés (comme le schéma de
l'agrégation dans une classification ascendante
hiérarchique, ou la table ANOVA dans les k-moyennes)
peuvent être calculés. Une variable indiquant
l'appartenance de chaque observation à une classe peut
être ajoutée au fichier de données pour
un traitement (approfondi) ultérieur. Les graphiques
spécifiques proposés dans le module Classifications
sont notamment le dendrogramme, les tracés matriciels en
mosaïque pour les classifications conjointes, le
tracé des étapes de l'agrégation, le
tracé des moyennes dans les k-moyennes,
etc...
|
ANALYSE
FACTORIELLE. Le module Analyse factorielle
contient de nombreuses statistiques, options, et techniques d'analyse
factorielle (et d'analyse factorielle hiérarchique) avec de
nombreux graphiques analytiques et exploratoires et toute une gamme de
diagnostiques étendus. Vous pouvez réaliser des
analyses en composantes principales, ou des analyses factorielles
classiques et hiérarchiques (obliques) sur des jeux de
données très importants (par exemple, plusieurs
milliers de variables). Vous pouvez également
réaliser des analyses factorielles confirmatoires (et des
analyses de causalité) dans le module Modélisation
d'Équations Structurelles (SEPATH).
|
ACP "À
LA FRANÇAISE" (ANALYSE EN COMPOSANTES PRINCIPALES).
STATISTICA possède
également un programme spécifique d'ACP
"à la française". Vous pouvez obtenir les valeurs
propres (standard, cumulées, relatives), les poids
factoriels, les coordonnées des individus sur les axes (que
vous pouvez ensuite ajouter au fichier de données,
représenter graphiquement, et recodifier de façon
interactive), ainsi que d'autres statistiques et diagnostiques plus
techniques. Les rotations disponibles sont : Varimax, Equamax,
Quartimax, Biquartimax (brutes ou normalisées), et Obliques.
L'espace factoriel peut être représenté
"section par section" sous la forme de nuages de
points en 2D ou en 3D avec le nom des variables ; d'autres graphiques
intégrés vous sont proposés comme le
tracé des valeurs propres, divers nuages de points,
graphiques curvilignes et tracés en bâtons.
Après avoir déterminé une solution
factorielle, l'utilisateur peut ensuite recalculer
(c'est-à-dire, reconstruire) la matrice de
corrélations à partir du nombre de facteurs
retenus afin d'évaluer l'ajustement du modèle
factoriel. Vous pouvez utiliser en entrée d'analyse, des
fichiers de données brutes ou des matrices de
corrélations. Vous pouvez également
réaliser des analyses factorielles confirmatoires dans le
module Modélisation
d'Équations Structurelles et Analyse de Causalité,
où un Assistant spécifique
à l'Analyse Factorielle Confirmatoire
vous guide pas-à-pas pour spécifier votre
modèle.
|
ANALYSE
CANONIQUE. Ce module vous propose diverses
procédures d'analyse canonique ; le programme accepte en
entrée des fichiers de données brutes ou des
matrices de corrélations et calcule les statistiques
classiques de la corrélation canonique (en particulier, les
vecteurs propres, les valeurs propres, les coefficients de redondance,
les poids canoniques, les variances extraites, les tests de
significativité de chaque racine, etc...) et de nombreux
diagnostiques poussés. Les résultats des variants
canoniques peuvent être calculés pour chaque
observation et ajoutés au fichier de données, ou
représentés à l'aide des
tracés de figures intégrés. Le module Analyse
Canonique propose également divers graphiques
intégrés (notamment le tracé des
valeurs propres, les corrélations canoniques, les nuages de
points des variants canoniques, ...). Remarques : vous pouvez
réaliser des analyses confirmatoires de relations
structurelles entre des variables latentes dans le module SEPATH (Modélisation
d'Équations Structurelles et Analyse de Causalité).
Vous pouvez également réaliser une
sélection pas-à-pas et rechercher le meilleur
modèle de prédicteurs pour des modèles
de type MANOVA/MANCOVA (avec plusieurs variables
dépendantes) dans le module Modèles
Généraux de Régression (GRM).
|
ANALYSE
de FIABILITÉ/ÉCHELLE. Ce
module
propose toute une gamme de procédures pour la mise en place
et l'évaluation d'enquêtes et de questionnaires.
Comme dans les autres modules de STATISTICA Vous
pouvez analyser des modèles très importants. Vous
pouvez calculer des statistiques de fiabilité pour toutes
les questions d'une échelle, sélectionner de
façon interactive des sous-ensembles, ou comparer des
sous-ensembles de questions par la méthode dite "par
moitié". Au cours d'une même analyse, vous pouvez
évaluer la fiabilité d'une échelle de
sommes ou de "sous-échelles". Lorsque vous supprimez de
façon interactive des questions, un nouvel indicateur de
fiabilité est calculé instantanément
sans avoir à retraiter le fichier de données. Les
statistiques produites sont les matrices de corrélations et
les statistiques descriptives des questions, l'alpha
de Cronbach, l'alpha standardisé, la
corrélation moyenne inter-questions, la table ANOVA
complète de l'échelle, toutes les statistiques
questions-total (y compris les R multiples
question-total), la fiabilité par moitié, et les
corrélations entre les deux moitiés
corrigées pour l'atténuation. Divers graphiques
(nuages de points, histogrammes, tracés curvilignes et
autres tracés intégrés) ainsi que des
procédures conditionnelles interactives vous aident lors de
l'élaboration des échelles. Par exemple,
l'utilisateur peut calculer la fiabilité attendue
après l'ajout d'un certain nombre de questions à
l'échelle, et peut estimer le nombre de questions qu'il
faudrait ajouter à l'échelle pour obtenir une
fiabilité donnée. En outre, l'utilisateur peut
estimer la corrélation corrigée de
l'atténuation entre l'échelle courante et une
autre mesure (compte tenu de la fiabilité de
l'échelle actuelle)
|
![Arbres de Décision
[Classification]](images/tre_1.gif) ARBRES DE
DÉCISION [CLASSIFICATION].
Le module Arbres de Décision [Classification]
de STATISTICA utilise les derniers algorithmes
développés pour produire efficacement et tester
la robustesse des arbres de classification (un arbre de classification
est une règle permettant de prévoir la classe
d'appartenance d'un objet à partir des valeurs des variables
prédictives). D'autres méthodes
avancées d'arbres de classification, y compris des
méthodes flexibles de construction de modèles et
des outils interactifs d'exploration d'arbres sont également
disponibles dans les modules Modèles d'Arbres de
Classification et de Régression (GTrees) et Modèles
CHAID (Chi-square Automatic Interaction Detection). Les
arbres de classification peuvent être produits en utilisant
des variables prédictives catégorielles, des
variables prédictives ordonnées, ou les deux, et
en réalisant des divisions univariées ou des
combinaisons linéaires de divisions. Diverses options
d'analyse vous sont proposées, notamment des divisions
exhaustives (comme dans THAID et C&RT)
ou des divisions basées sur une analyse discriminante ;
sélection non-biaisée des variables (comme dans QUEST)
; règles d'arrêt direct de l'élagage
(comme dans FACT) ou élagage de
bas-en-haut (comme dans CART) ; élagage
basé sur les taux de mauvaise classification ou sur la
fonction d'écrt ; coefficients de qualité
d'ajustement du Chi2
généralisé, du G2,
ou de Gini. Vous pouvez demander des
coûts de mauvais classement ou des probabilités a
priori égaux, estimés à
partir des données, ou personnalisés. Vous pouvez
également spécifier la valeur v
de la validation croisée par v-ensembles
lors de la construction de l'arbre ou pour l'estimation de l'erreur,
l'importance de la règle de l'Erreur-Type, la taille minimum
d'un noeud avant élagage, les amorces des
générateurs de nombres aléatoires, et
la valeur alpha pour la sélection des
variables. Diverses options graphiques intégrées
vous permettent d'explorer vos données d'entrée
et de sortie.
Voir aussi la description des modules : Arbres de Décision
(GTrees) et CHAID
(Chi-square Automatic Interaction Detection)
|
 ANALYSE
DES CORRESPONDANCES Ce module contient diverses techniques
d'analyse des correspondances, simple et multiple, applicables sur des
tableaux très vastes. Le programme accepte en
entrée des fichiers de données avec des variables
de classement (codes) destinées à calculer les
tableaux croisés ; vous pouvez aussi utiliser des fichiers
de données contenant des effectifs (ou d'autres mesures de
correspondance, association, ressemblance, confusion, etc...) avec des
variables de classement permettant de renseigner les
différentes cellules du tableau d'entrée avec les
effectifs correspondants (ou d'autres mesures de correspondance) ; vous
pouvez enfin utiliser un fichier contenant bruts uniquement (dans ce
cas, l'utilisateur peut saisir et analyser directement une table de
fréquences). Pour une analyse des correspondances multiple,
l'utilisateur peut spécifier directement la table de Burt
en entrée d'analyse. Le programme calcule notamment le
tableau des pourcentages lignes, des pourcentages colonnes et des
pourcentages totaux, les valeurs théoriques,
l'écart entre les valeurs observées et
théoriques, les écarts
centrés-réduits, et les contributions au Chi2.
Le module Analyse des Correspondances va
également calculer les valeurs propres et vecteurs propres
généralisés, et calculer divers
diagnostiques standard, notamment les valeurs singulières,
les valeurs propres, et la proportion d'inertie sur chaque dimension.
L'utilisateur peut choisir manuellement le nombre de dimensions, ou
spécifier un seuil correspondant à la part
maximale d'inertie cumulée. Le programme va calculer les
valeurs standard des coordonnées pour les points lignes et
colonnes. Vous pouvez choisir une standardisation des profils-lignes,
des profils-colonnes, des profils lignes et colonnes, ou une
standardisation canonique. Pour chaque dimension et chaque point ligne
ou colonne, le programme calcule l'inertie, la qualité de
représentation et les cosinus2.
En outre, l'utilisateur peut produire (dans des feuilles de
données) la matrice des vecteurs singuliers
généralisés ; comme pour les valeurs
de toutes les feuilles de données, ces matrices sont
accessibles en STATISTICA Visual Basic, ce qui vous
permet par exemple de définir vos propres
méthodes (non-standard) de calcul des
coordonnées. Vous pouvez calculer les coordonnées
et les statistiques associées (qualité de
représentation et cosinus2)
des points supplémentaires (observations ou variables), et
comparer ces résultats à ceux des points lignes
et colonnes actifs. Vous pouvez aussi ajouter des points
supplémentaires (observations et/ou variables) dans
l'analyse des correspondances multiple. Outre les histogrammes en 3D
proposés pour toutes les tables, vous pouvez
représenter les valeurs propres dans un graphique
curviligne, et afficher les points lignes ou colonnes dans des
tracés en 1D, 2D, et 3D. Vous pouvez représenter
les points lignes et colonnes avec les points
supplémentaires dans un même graphique (chaque
type de point utilisant une couleur et un symbole de points
différents, afin d'identifier rapidement les
différents types de points du graphique). Tous les points
sont étiquetés et vous pouvez limiter le nom des
points à un certain nombre de caractères.
|
ANALYSE
DE PROXIMITÉ. Le module Analyse de
Proximité vous permet de réaliser des
analyses multidimensionnelles (non métriques). Vous pouvez
analyser des matrices de similarité, de
dissimilarité, ou de corrélations entre variables
(c'est-à-dire, des "objets" ou des observations) en
spécifiant jusqu'à 9 dimensions. La configuration
de départ peut être calculée par le
programme (à l'aide d'une ACP) ou
spécifiée par l'utilisateur. Le programme utilise
une procédure itérative pour minimiser la valeur
de la contrainte et le coefficient d'aliénation. Vous pouvez
suivre le déroulement des itérations et
l'évolution des valeurs. Vous pouvez étudier les
configurations finales dans des feuilles de données et des
nuages de points en 2D ou 3D de l'espace dimensionnel avec
identification des points. Les résultats standard incluent
les valeurs de la contrainte brute (F brut), le
coefficient de contrainte S de Kruskal, ou encore
le coefficient d'aliénation. Vous pouvez évaluer
la qualité d'ajustement grâce aux diagrammes de
Shepard (avec d-chapeau et d-étoile).
Comme toujours dans STATISTICA, vous pouvez
enregistrer la configuration finale dans un fichier de
données, réutilisable en entrée d'une
autre analyse.
|
 ANALYSE
DISCRIMINANTE. Le module Analyse Discriminante
contient diverses procédures d'analyse discriminante
pas-à-pas. STATISTICA contient
également un module généraliste Analyse Discriminante
Générale (voir ci-dessous)
qui permet d'ajuster des modèles de type ANOVA/ANCOVA
à des variables dépendantes
catégorielles, et permet divers types d'analyses
avancées (par exemple, sélection du meilleur
modèle, estimation de probabilités a
posteriori, etc...). Vous pouvez réaliser des
analyses pas-à-pas ascendantes ou descendantes, ou inclure
des blocs personnalisés de variables dans le
modèle. Outre les nombreux graphiques et diagnostiques
destinés à décrire les fonctions
discriminantes, le programme vous propose diverses options et
statistiques pour la classification des anciennes ou
des nouvelles observations (dans un objectif de
validation du modèle). Les statistiques disponibles sont les
lambda de Wilk, lambda
partiels, les F d'inclusion (ou d'exclusion), les
niveaux p, les valeurs de tolérance et
les R2. Le programme
réalise une analyse canonique complète et reporte
les valeurs propres brutes et cumulées de toutes les
racines, avec leur niveau p, les coefficients bruts
et centrés-réduits de la fonction discriminante
(canonique), la matrice des coefficients de structure (ou poids
factoriels), les moyennes des fonctions discriminantes, et les scores
de chaque observation (que vous pouvez ensuite ajouter automatiquement
au fichier de données). De nombreux graphiques
intégrés vous sont proposés, notamment
les histogrammes des scores canoniques de chaque groupe (et de tous les
groupes ensemble), des nuages de points spéciaux de coupes
de variables canoniques (l'appartenance des observations individuelles
à un groupe apparaît clairement), une gamme
complète de graphiques catégorisés
(multiples) qui vous permettent d'étudier la distribution et
les relations entre les variables dépendantes en fonction
des groupes (en particulier, des boîtes à
moustaches, des histogrammes, des nuages de points et des
tracés de probabilités multiples). Le module Analyse
Discriminante calcule également les fonctions de
classification standard de chaque groupe. Vous pouvez
étudier la classification des observations en termes de
distances de Mahalanobis, de probabilités a
posteriori, ou de classifications observées, et
vous pouvez représenter les résultats des
observations individuelles à l'aide de tracés
exploratoires de figures, ou d'autres graphiques multidimensionnels
intégrés directement aux feuilles de
données. Toutes ces valeurs peuvent être
ajoutées automatiquement au fichier de données
pour poursuivre l'analyse. Vous pouvez produire une matrice de
synthèse de la classification avec le nombre et le
pourcentage d'observations correctement classées. Plusieurs
options permettent de spécifier les probabilités
de classification a priori et vous pouvez
spécifier des filtres de sélection pour prendre
en compte ou éliminer certaines observations
spécifiques de la classification (par exemple, pour valider
les fonctions de classification sur un nouvel échantillon).
|
ANALYSE
DISCRIMINANTE GÉNÉRALE (GDA). Le module
Analyse Discriminante Générale
(GDA) de STATISTICA est une extension du Modèle
Linéaire Général pour
traiter des problèmes de classification. Comme le module Analyse
Discriminante, GDA vous permet de
d'effectuer des analyses discriminantes classiques ou
pas-à-pas. GDA est en fait un cas
particulier du modèle linéaire
général, et offre donc des techniques analytiques
très utiles, qui sont tout à la fois novatrices,
efficaces et puissantes. Comme pour l'analyse discriminante
traditionnelle, GDA vous permet de
spécifier une variable dépendante
catégorielle. Pour les besoins de l'analyse, le groupe
d'appartenance (défini par la variable
dépendante) est alors codé en variables
d'indicateurs, et toutes les méthodes de GRM
peuvent alors s'appliquer. GDA vous permet
également d'accéder aux nombreuses statistiques
sur les résidus proposées dans les modules GRM
et GLM. GDA offre des outils
puissants et efficaces pour le data mining ou la recherche
appliquée. GDA va calculer tous les
résultats standard d'une analyse discriminante classique,
notamment les coefficients de la fonction discriminante, les
résultats de l'analyse canonique (coefficients bruts et
centrés-réduits, les tests des racines
canoniques, etc.), les statistiques de la classification (notamment la
distance de Mahalanobis, les probabilités a
posteriori, la classification des observations dans
l'échantillon d'analyse et de validation, la matrice de la
classification, etc...), et bien d'autres statistiques encore. Pour
plus d'informations sur les spécificités du
module GDA, cliquez
ici.
|
Modèles
Linéaires/Non-Linéaires Avancés
 DÉCOMPOSITION
DE LA VARIANCE ET MODÈLES MIXTES
ANOVA/ANCOVA. Le module Décomposition de
la Variance et Modèle Mixte ANOVA/ANCOVA est un
module spécialisé permettant de traiter des
modèles avec des effets aléatoires et/ou des
facteurs à plusieurs niveaux. Le module Modèle
Linéaire Général offre
également diverses options pour traiter des effets
aléatoires et calculer les composantes de la variance. On
rencontre fréquemment les facteurs avec des effets
aléatoires en recherche industrielle, lorsque les niveaux
d'un facteur représentent des valeurs d'une variable
aléatoire (par opposition à un choix ou un
arrangement délibéré de la part de
l'expérimentateur). Le module Décomposition de la
Variance vous permet d'analyser des plans avec toute combinaison
d'effets fixes ou aléatoires, et de covariants. Vous pouvez
analyser des modèles ANOVA/ANCOVA très importants
de manière efficace puisque les facteurs peuvent comptorter
plusieurs centaines de niveaux. Le programme peut analyser des plans
factoriels standard (croisés), des plans
hiérarchiquement imbriqués, et calculer les
moyennes et les sommes des carrés standard de Type
I, II, et III pour analyser la variance
des effets du modèle. En outre, vous pouvez calculer les
moyennes des carrés théoriques pour les effets du
plan, les composantes de la variance pour les effets
aléatoires du modèle, les coefficients de la
synthèse du dénominateur, ainsi que la table
ANOVA complète avec des tests basés sur les
sommes des carrés des erreurs
synthétisées et les degrés de
liberté (méthode de Satterthwaite). D'autres
méthodes vous permettent d'estimer les composantes de la
variance (par exemple, MIVQUE0, la
méthode du maximum de vraisemblance [ML],
la méthode du maximum de vraisemblance restreint [REML]).
Pour les estimations du maximum de vraisemblance, les deux algorithmes
de Newton-Raphson et Fisher sont utilisés, et le
modèle n'est pas changé arbitrairement
(réduit) lors de l'estimation pour prévenir des
situations où la plupart des composantes sont proches ou
égales à zéro. Diverses options vous
permettent d'étudier les moyennes marginales
pondérées et non pondérées,
ainsi que leurs intervalles de confiance. Nombre d'options graphiques
sont proposées pour représenter les
résultats.
 ANALYSE
DE SURVIE. Ce module vous offre diverses techniques
pour analyser des données censurées en sciences
sociales, biologie, et recherche médicale, ainsi que des
procédures utilisées en marketing et dans
l'industrie (par exemple, contrôle qualité,
estimation de fiabilité, etc...). Outre les tables de survie
qui sont calculées avec diverses statistiques descriptives
et estimations Limite-Produit de Kaplan-Meier, l'utilisateur peut
comparer les fonctions de survie dans différents groupes en
utilisant diverses méthodes (test de Gehan, test F
de Cox, test de Cox-Mantel, test des Log-rangs, et test Wilcoxon
généralisé de Peto & Peto).
Vous pouvez également représenter les
tracés de Kaplan-Meier par groupes (les observations non
censurées sont identifiées dans les graphiques
par des symboles de points différents). Le programme vous
propose également toute une gamme de procédures
d'ajustement de fonctions de survie (en particulier les fonctions Exponentielle,
Risque Linéaire, Gompertz,
et Weibull) en utilisant les méthodes
des moindres carrés pondérés ou non
pondérés (l'estimation des paramètres
par le maximum de vraisemblance pour diverses distributions, notamment Weibull,
peut également être calculée dans le
produit complémentaire STATISTICA
Solutions Industrielles.
Enfin, le programme vous propose quatre modèles explicatifs
généraux (modèle de risque
proportionnel de Cox, modèles de régression
exponentiel, normal et log-normal) avec des diagnostiques
poussés (analyse stratifiée) et des graphiques de
survie pour des valeurs personnalisées des
prédicteurs. Pour la régression de risque
proportionnel de Cox, l'utilisateur peut choisir de stratifier
l'échantillon pour utiliser différents seuils de
risque dans différentes strates (avec un vecteur de
coefficients constant), ou spécifier différents
seuils de risque et vecteurs de coefficients. Des
fonctionnalités générales sont
proposées pour définir un ou plusieurs covariants
dépendants du temps (vous pouvez les spécifier
grâce à des formules flexibles utilisant des
expressions arithmétiques, pouvant comporter des fonctions
logiques standard et le temps (par exemple, tps_dep=age+age*log(t_)*(age>45),
où t_ fait
référence à la durée de
survie) ainsi que toute une gamme de fonctions de distribution). Comme
dans chaque module de STATISTICA, l'utilisateur
peut accéder aux paramètres techniques pour les
modifier dans les procédures (ou accepter les
paramètres dynamiques par défaut). Le module vous
propose également de nombreux graphiques et diagrammes
spécialisés pour vous aider à
interpréter les résultats (en particulier, des
tracés cumulés de proportions de
survie/échec, fonctions de risque et de risque
cumulé, structure des données
censurées, fonctions de densité de
probabilité, tracé de comparaison de groupes,
tracés d'ajustement de distributions, divers
tracés de résidus, etc...). Pour les applications
industrielles, voir aussi les techniques d'Analyse de Weibull.

ESTIMATION NON-LINÉAIRE (et
Régression Logit/Probit). Le module Estimation
Non-Linéaire permet à l'utilisateur
d'ajuster tout modèle non-linéaire. L'une des
spécificités de ce module est que (contrairement
aux programmes traditionnels d'estimation non-linéaire),
aucune limite n'est imposée quant à la taille du
fichier de données à traiter.
Méthode d'Estimation. Les
modèles peuvent être estimés par la
méthode des moindres carrés ou du maximum de
vraisemblance, en utilisant toute fonction personnalisée de
perte. Si vous utilisez la méthode des moindres
carrés, vous pouvez utiliser les puissants algorithmes
Levenberg-Marquardt et Gauss-Newton pour estimer les
paramètres d'une régression linéaire
ou non-linéaire.
Pour des jeux de données de grande taille ou pour des
problèmes très spécifiques de
régression non-linéaire (comme ceux
classés comme "Ultra difficiles" parmi les
Données Statistiques de Référence
fourni par le National Institute of Standards and Technology; voir
http://www.nist.gov/itl/div898/strd/index.html),si vous utilisez les
critères des moindres carrés, c'est la
méthode recommandée pour un calcul
précis des paramètres estimés. En
utilisant les fonctions de perte, l'utilisateur a le choix entre quatre
procédures puissantes d'estimation (quasi-Newton, Simplex,
déplacement de la structure de Hooke-Jeeves, et recherche de
la structure de Rosenbrock de rotation des coordonnées) afin
d'obtenir des estimations de paramètres stables dans la
plupart des cas, même avec des conditions
numériques astreignantes (voir la page Validation
Benchmarks).
Les Modèles. L'utilisateur
peut spécifier tout type de modèle en saisissant
l'équation respective dans un éditeur (ces
équations pouvant comporter des opérateurs
logiques, ce qui vous permet d'estimer des modèles de
régression discontinus et des modèles avec des
variables d'indicateur). Les équations peuvent utiliser une
large gamme de fonctions de répartition et fonctions de
répartition cumulées (Bêta,
Binomiale, Cauchy, Chi2,
Exponentielle, Valeur
Extrême, F, Gamma,
Géométrique, Laplace,
Logistique, Normale, Log-Normale,
Pareto, Poisson, Rayleigh,
t (Student), ou Weibull).
L'utilisateur peut contrôler tous les aspects de la
procédure d'estimation par exemple, valeurs de
départ, incréments, critères de
convergence, etc...). Les modèles de régression
non-linéaires les plus courants sont
prédéfinis dans le module Estimation
Non-linéaire et peuvent
être choisis simplement dans les menus. Ces
modèles de régression incluent les
régressions Probit et Logit pas-à-pas, le
modèle de régression Exponentiel, et la
régression linéaire par segment (point de
rupture). Remarque : STATISTICA propose
également de puissants algorithmes pour l'ajustement des
modèles linéaires
généralisés, notamment les
modèles probit et logit multinomial, et les
modèles additifs
généralisés ; voir la description
respective pour plus d'informations.
Résultats.
Outre
les diverses statistiques descriptives, l'estimation
non-linéaire fournit de façon standard
l'estimation des paramètres et de leurs erreurs-types
(calculées indépendamment de l'estimation
proprement dite, grâce à une
différenciation finie pour optimiser la précision
; voir la page Validation
Benchmarks ); la matrice de variance/covariance
des paramètres estimés, les valeurs
prévues, résidus, et diverses mesures de
qualité d'ajustement (par exemple, log-vraisemblance des
modèles nul/estimé et test de
différence du Chi2,
part de variance expliquée, classification des observations
et odds ratios pour les modèles Logit et Probit, etc...).
Les valeurs prévues et les résidus peuvent
être ajoutés au fichier de données pour
poursuivre l'analyse ultérieurement. Pour les
modèles Probit et Logit, l'ajustement
incrémentiel est automatiquement calculé lorsque
des paramètres sont ajoutés ou
supprimés du modèle de régression
(ainsi, l'utilisateur peut utiliser une procédure
d'estimation non-linéaire pas-à-pas ; les options
pour les régressions ascendante ou descendante
ainsi que pour la sélection des meilleurs
prédicteurs pour les modèles logit et probit sont
proposées dans le module Modèles
Linéaires/Non-Linéaires
Généralisés, voir
ci-dessous).
Graphiques. Tous les
résultats peuvent être
représentés grâce aux nombreux
graphiques intégrés disponibles, en particulier
des graphiques en 2D et 3D (surface de réponse) d'ajustement
de tout type de fonction arbitraire permettant à
l'utilisateur de visualiser la qualité de l'ajustement et
d'identifier les points atypiques ou zones de divergence entre le
modèle et les données ; l'utilisateur peut
ajuster de façon interactive l'équation de la
fonction d'ajustement (reportée sur le graphique) sans avoir
à retraiter les données et visualiser les
principaux aspects du processus d'ajustement non-linéaire ;
vous pouvez conserver une cascade de représentation
consécutives (et/ou les enregistrer dans un compte-rendu
combinant graphiques et statistiques, ou encore les imprimer). De
nombreux autres graphiques spécialisés permettent
d'évaluer le processus d'ajustement et de
représenter les résultats, en particulier
l'histogramme des variables sélectionnées et des
résidus, des nuages de points des valeurs
observées en fonction des valeurs prévues et des
valeurs prévues en fonction des résidus, des
droites de Henry et des tracés de normalité par
moitié des résidus, etc... .
ANALYSE
LOG-LINÉAIRE. Ce module constitue un outil complet
de modélisation log-linéaire de tables de
fréquences d'ordre multiple. Remarque : STATISTICA
comprend également le module Modèles
Linéaires/Non-Linéaires
Généralisés , qui
permet d'analyser des modèles logit
binomiaux et multinomiauxs avec des modèles
codifiés sur le principe de l'ANOVA/ANCOVA. Avec le module Analyse
Log-Linéaire, L'utilisateur peut analyser des
tables jusqu'à 7 entrées. Vous pouvez analyser
des tables complètes et incomplètes (avec des
zéros structurels). Les tables de fréquences
peuvent être calculées sur des données
brutes, ou saisies directement dans le programme. Le module Analyse
Log-linéaire vous propose toute une gamme de
procédures de modélisation avancées
dans un environnement interactif et flexible qui facilite les analyses
exploratoires et confirmatoires de tableaux complexes. L'utilisateur
peut à tout moment visualiser le tableau complet des valeurs
observées, les tableaux marginaux, ainsi que les valeurs
ajustées (théoriques) ; il peut
évaluer l'ajustement de tous les modèles
d'association partiels et marginaux ou sélectionner des
modèles spécifiques (tables marginales)
à ajuster aux données observées. Le
programme vous propose une procédure intelligente de
sélection automatique du meilleur modèle qui va
tout d'abord déterminer l'ordre nécessaire des
termes d'interaction pour qu'un modèle ajuste les
données, puis, en procédant par
élimination, déterminer le meilleur
modèle qui ajuste de manière satisfaisante les
données (en utilisant des critères
déterminés par l'utilisateur). Le programme
calcule le G2 (Chi2
du maximum de vraisemblance), le Chi2
standard de Pearson avec les degrés de
liberté et niveaux de significativité, les tables
observées et attendues, les tables marginales, etc... Le
module Analyse Log-Linéaire vous propose
divers graphiques en 2D et 3D pour représenter des tables de
fréquences à 2 entrées ou plus (en
particulier des cascades interactives,
personnalisées d'histogrammes
catégorisés et d'histogrammes en 3D
représentant des "sections" de tables
à entrées multiples), des tracés de
fréquences observées et ajustées,
divers tracés de résidus
(standardisés, composantes du Chi2
du maximum de vraisemblance, écarts de Freeman-Tukey,
etc...), et bien d'autres...
 SÉRIES
CHRONOLOGIQUES/PRÉVISIONS. Le
module Séries Chronologiques contient
une large gamme de statistiques descriptives, modélisations,
décompositions et méthodes de
prévisions. Ces procédures sont
intégrées, c'est-à-dire que les
résultats d'une analyse (par exemple, résidus
ARIMA) peuvent être utilisés directement en
entrée d'une autre analyse (par exemple, pour calculer
l'autocorrélation des résidus). En outre, de
nombreuses options vous permettent d'étudier et
représenter une ou plusieurs séries. Les analyses
peuvent porter sur de très longues séries.
Plusieurs séries peuvent être
conservées dans l'aire de travail active
du programme (par exemple, plusieurs séries de
données brutes ou séries produites au cours des
différentes étapes de votre analyse) ; vous
pouvez visualiser et comparer des séries. Le programme garde
automatiquement la trace des analyses successives, et conserve un
registre des transformations et autres résultats (par
exemple, résultats ARIMA, composantes
saisonnières, etc...). Ainsi, l'utilisateur peut toujours
revenir à ses transformations initiales ou comparer
(représenter) la série originale avec ses
transformations. Les informations sur les transformations
consécutives sont conservées sous forme de
description détaillée de la variable, ce qui
permet de préserver "l'historique" de chaque
série lors de l'enregistrement des nouvelles variables
créées dans un fichier de données. Les
procédures spécifiques du module Séries
Chronologiques sont décrites dans les paragraphes
suivants.
Transformations, Modélisation,
Tracés, Autocorrélations. Les options
disponibles permettent à l'utilisateur d'explorer de
manière approfondie la structure de la série
d'entrée, et de réaliser les transformations les
plus courantes, notamment : pour retirer le trend, supprimer
l'autocorrélation, lisser la série à
l'aide de moyennes mobiles (pondérées ou non,
avec des pondérations personnalisées ou de
Daniell, Tukey, Hamming, Parzen, ou encore Bartlett), des
médianes mobiles, ou un lissage Exponentiel simple (voir la
description des différentes options de lissage Exponentiel,
ci-dessous), différencier, intégrer,
résidualiser, décaler, lisser avec un filtre
4253H, réaliser les transformations de Fourier (et leurs
inverses), etc... Les analyses d'autocorrélations,
d'autocorrélations partielles, et de corrélations
croisées peuvent également être
réalisées.
Séries Chronologiques
Interrompues - Analyses d'Intervention. Le module Séries
Chronologiques vous permet d'utiliser toutes les techniques
ARIMA. Les modèles peuvent comporter une constante, et les
séries peuvent être transformées avant
l'analyse ; ces transformations sont automatiquement
"annulées" lorsque les prévisions ARIMA sont
calculées, afin que ces prévisions et leurs
erreurs-types soient exprimées en termes de valeurs de la
série originale. Les sommes des carrés
conditionnelles peuvent être calculées par le
maximum de vraisemblance approché ou exact, et la
procédure ARIMA du module Séries
Chronologiques est particulièrement bien
adaptée pour ajuster des modèles avec de longs
cycles saisonniers (par exemple, des périodes de 30 jours).
Le programme estime pour vous les paramètres, leurs
erreurs-types et les corrélations entre les
paramètres. Prévisions et erreurs-types
associées peuvent être calculées puis
représentées, et ajoutées à
la série de départ. En plus, de nombreuses
options vous sont proposées pour étudier les
résidus ARIMA (pour la validité du
modèle), notamment une large gamme de graphiques. La
procédure ARIMA du module Séries
Chronologiques permet à l'utilisateur d'analyser
des séries interrompues (intervention). Plusieurs
interventions simultanées peuvent être
modélisées, et il peut s'agir d'interventions
abruptes-permanentes avec un seul paramètre, ou des
interventions graduelles et temporaires avec deux paramètres
(vous pouvez visualiser les graphiques des différents motifs
d'impact). Des prévisions peuvent être
calculées pour tous les modèles d'intervention,
et peuvent être tracées (avec la série
de départ) ou ajoutées à la
série originale.
Lissage Exponentiel Saisonnier et Non
Saisonnier. Le module Séries
Chronologiques contient les 12 modèles courants de
lissage Exponentiel. Vous pouvez spécifier des
modèles avec des composantes saisonnières
additives ou multiplicatives et/ou un trend linéaire,
Exponentiel, ou amorti ; vous trouverez donc dans les
modèles disponibles les fameux modèles avec trend
linéaire Holt-Winter. L'utilisateur peut
spécifier la valeur initiale du lissage, la valeur initiale
du trend, et les facteurs saisonniers (éventuellement). Vous
pouvez spécifier des paramètres de lissage
distincts pour le trend et les composantes saisonnières.
L'utilisateur dispose d'une grille de recherche des
paramètres afin d'identifier les meilleurs
paramètres ; les feuilles de résultats
respectives reportent toutes les combinaisons de paramètres,
l'erreur moyenne, l'erreur moyenne absolue, la somme des
carrés de l'erreur, l'erreur quadratique moyenne, l'erreur
moyenne relative, et l'erreur moyenne relative en valeur absolue. Le
plus faible de ces indices d'ajustement apparaît en
surbrillance dans la feuille de résultats. En outre,
l'utilisateur peut demander une recherche automatique des meilleurs
paramètres en utilisant le critère de l'erreur
quadratique moyenne, de l'erreur absolue moyenne, ou de l'erreur
moyenne relative en valeur absolue (une procédure
générale de minimisation est
utilisée). Les résultats du lissage Exponentiel
respectif, les résidus, ou le nombre demandé de
prévisions sont disponibles et utilisables pour d'autres
analyses et tracés. Un tracé de
synthèse vous permet également de tester la
validité du modèle de lissage Exponentiel
respectif ; ce tracé représente la
série de départ avec les valeurs
lissées et les prévisions, ainsi que les
résidus lissés tracés
séparément selon l'axe Y droit.
Décomposition
Saisonnière Classique (Méthode I du Census).
L'utilisateur peut spécifier la
périodicité du mouvement saisonnier, et choisir
un modèle additif ou multiplicatif. Le programme calcule les
moyennes mobiles, ratios ou différences, facteurs
saisonniers, séries corrigées des variations
saisonnières (CVS), le trend-cycle lissé, et la
composante irrégulière (aléas
mineurs). Ces composantes sont alors disponibles pour d'autres analyses
; ainsi, l'utilisateur peut tracer des histogrammes, tracés
de normalité, etc... pour certaines ou toutes ces
composantes (par exemple, pour tester la validité du
modèle).
Décomposition
Saisonnière Mensuelle et Trimestrielle X-11 et Ajustement
Saisonnier (Méthode II du Census). Le module Séries
Chronologiques vous permet d'utiliser la variante X-11 de la
Méthode II du Census (procédure d'ajustement
saisonnier), qui a été proposée par le
Bureau du Recensement Américain (US Bureau of the
Census). Si les algorithmes originaux du X-11
n'étaient pas compatibles avec l'an 2000 compatible (seules
des données antérieures à Janvier 2000
pouvaient être analysées), la mise en oeuvre de la
méthode X-11 dans STATISTICA peut
traiter des données antérieures au 1er Janvier
2000, postérieures à cette date, ou encore des
séries commençant avant cette date pour se
terminer après l'an 2000. L'organisation des options et des
boîtes de dialogue suit fidèlement les
définitions et conventions décrites dans la
documentation du Bureau du Recensement. Vous avez la
possibilité de spécifier des modèles
saisonniers additifs et multiplicatifs ou des facteurs de jours
ouvrés et d'ajustement saisonniers. La variation des jours
ouvrés peut être estimée par
régression (avec contrôle des aléas
majeurs), et être utilisée pour ajuster la
série (conditionnellement si demandé). Des
options standard vous permettent de corriger les aléas
majeurs, calculer les facteurs saisonniers, et calculer le trend-cycle
(l'utilisateur a le choix entre divers types de moyennes mobiles
pondérées ; le programme peut
sélectionner automatiquement la taille et le type optimal de
moyenne mobile). Les composantes finales (saisonnière,
trend-cycle, irrégulière) ainsi que la
série CVS sont automatiquement disponibles pour d'autres
analyses et représentations graphiques ; ces composantes
peuvent également être enregistrées
pour un traitement ultérieur avec d'autres programmes. Le
programme permet de représenter les différentes
composantes, en particulier par des tracés
catégorisés mensuels (ou trimestriels).
Modèles
Polynomiaux de Distribution des Décalages. Les
méthodes polynomiales de distribution des
décalages accessibles dans le module Séries
Chronologiques permettent d'estimer des modèles
avec décalages sans contraintes ainsi que des
modèles d'Almon (sous contraintes). De nombreux graphiques
vous permettent d'examiner la distribution des variables du
modèle.
Analyse Spectrale (Fourier) et
Analyse
Spectrale Croisée. Le module Séries
Chronologiques vous propose diverses techniques d'analyse
spectrale (décomposition de Fourier) et d'analyse spectrale
croisée. Le programme est particulièrement bien
adapté à l'analyse de très longues
séries (par exemple, avec plus de 250.000 observations), et
n'impose aucune contrainte quant à la taille des
séries (la longueur de la série de
départ ne doit pas nécessairement être
un multiple de 2). Toutefois, l'utilisateur a la possibilité
de consolider ou tronquer sa série avant de l'analyser. Vous
pouvez, avant votre analyse, "détrender" votre
série, retrancher la moyenne, ou la fuseler. Dans le cadre
d'une analyse spectrale simple, le programme calcule les
fréquences, les périodes, les coefficients les
sinus et cosinus, les valeurs du périodogramme, et estime
les densités spectrales. Ces densités peuvent
être estimées à l'aide de
pondérations et tailles de fenêtres
personnalisées ou en utilisant celles de Daniell, Hamming,
Bartlett, Tukey ou Parzen. Une option, très utile pour
l'analyse des longues séries, vous permet de n'afficher
qu'un nombre donné de valeurs de densité ou du
périodogramme (les plus importantes) en ordre
décroissant ; ainsi, les pics les plus forts du
périodogramme ou de la densité peuvent
aisément être mis en évidence dans des
séries même longues. L'utilisateur peut utiliser
le test d de Kolmogorov-Smirnov pour
vérifier si les valeurs du périodogramme suivent
une distribution Exponentielle (c'est-à-dire, pour savoir si
la série d'entrée est une série de
bruits aléatoires). De nombreux tracés permettent
de synthétiser les résultats ; l'utilisateur peut
représenter les coefficients sinus et cosinus, les valeurs
du périodogramme ou du log-périodogramme, les
valeurs de densité spectrale, et les log-densités
selon les fréquences, périodes, ou
log-périodes. Pour les longues séries de
départ, l'utilisateur peut choisir le segment
(période) pour lequel les valeurs du
périodogramme ou de densité seront
tracées, ce qui permet d'accroître la
"résolution" du tracé. Pour les analyses
spectrales croisées, en plus des résultats d'une
analyse spectrale simple sur chaque série, le programme
calcule le périodogramme croisé (partie
réelle et imaginaire), les densités
co-spectrales, le spectre de quadrature, l'amplitude
croisée, les valeurs de cohérence et de gain,
ainsi que le spectre de phase. Tous ces résultats peuvent
être représentés en fonction des
fréquences, périodes, ou log-périodes,
soit pour toutes les périodes (fréquences), soit
pour un segment donné uniquement. Vous pouvez demander
autant de valeurs (les plus fortes) du périodogramme
croisé (réel ou imaginaire) que vous le souhaitez
dans une feuille de résultats classée dans
l'ordre décroissant d'importance (pour faciliter
l'identification des pics importants lors de l'analyse de longues
séries). Comme dans toutes les autres procédures
du module Séries Chronologiques, toutes
ces séries calculées en sortie d'analyse peuvent
être ajoutées à l'aire de travail
active, et sont disponibles pour de nouvelles analyses avec d'autres
méthodes chronologiques ou modules de STATISTICA.
|
Techniques de Prévision Basées
sur une Régression. Enfin, STATISTICA
vous propose des techniques de prévision basées
sur des régressions pour des variables
décalées ou non (en particulier des
régressions passant par l'origine, des
régressions non-linéaires, et des
prévisions conditionnelles
interactives).
 MODÉLISATION
D'ÉQUATIONS STRUCTURELLES ET ANALYSE DE CAUSALITÉ
(SEPATH). STATISTICA
vous offre diverses techniques de modélisation
d'équations structurelles, avec diverses
fonctionnalités de simulations de Monte-Carlo ( SEPATH).
Le module SEPATH est un programme
évolué, avec une interface-utilisateur
"intelligente". Il vous propose toute une gamme de
procédures de modélisation
intégrées avec des outils performants pour
spécifier des modèles même complexes
sans avoir besoin de recourir à une syntaxe de commandes.
Grâce aux Assistants et aux Outils
de Construction de Causalité, vous
définissez l'analyse en termes simples et fonctionnels, en
utilisant les menus et les boîtes de dialogue (contrairement
à d'autres programmes de modélisation
d'équations structurelles, vous n'avez pas besoin de
maîtriser un "langage" complexe). SEPATH
est un module complet qui offre de nombreuses
fonctionnalités avancées : le programme peut
analyser des matrices de corrélations, de covariances, et
des moments (moyennes structurées, modèles avec
ordonnée à l'origine) ; tous les
modèles peuvent être
spécifiés à l'aide de l' Assistant
de Causalité, de l' Assistant d'Analyse
Factorielle, et aux outils de Construction de
Causalité ; ces fonctionnalités sont
particulièrement efficaces et permettent à
l'utilisateur de spécifier des modèles
même complexes en quelques minutes, en choisissant des
options dans des boîtes de dialogue. Le module SEPATH
calcule, à l'aide de techniques d'optimisation sous
contraintes, les erreurs-types des modèles
standardisés, et des modèles ajustés
aux matrices de corrélations. Divers diagnostiques
statistiques sont calculés, en particulier les indices
d'ajustement standard et les indices d'ajustement basés sur
la non-centralité, pour prendre en compte les
développements les plus récents dans le domaine
de la modélisation d'équations structurelles.
L'utilisateur peut ajuster des modèles à
plusieurs échantillons (groupes), et spécifier
pour chaque groupe des paramètres fixes, libres, ou sous
contraintes (identiques pour tous les groupes). Lorsque vous analysez
les matrices des moments, vous pouvez tester des hypothèses
complexes sur les moyennes structurées dans
différents groupes. La documentation du module SEPATH
comporte de nombreux exemples détaillés et
expliqués, issus de la littérature, en
particulier des exemples d'analyse factorielle confirmatoire, analyse
de causalité, modèles théoriques pour
des tests congénériques, matrices
multi-traits-multi-méthodes, analyse factorielle
longitudinale, symétrie complexe, moyennes structurelles,
etc...
Simulations de Monte-Carlo dans
SEPATH.
Le module SEPATH de STATISTICA (voir
ci-dessus) vous offre des options puissantes pour vos simulations de Monte-Carlo
: vous pouvez générer (et sauvegarder) des
fichiers de données pour des modèles
prédéfinis, basés sur des
distributions normales ou asymétriques. Vous pouvez aussi
calculer des estimations de bootstrap, ou les distributions de divers
diagnostiques statistiques, estimations de paramètres,
etc... à l'aide d'expériences de Monte-Carlo.
Nombre d'options graphiques flexibles vous permettent de visualiser vos
résultats (par exemple, distributions des
paramètres) à partir de ces
expériences de Monte-Carlo.
MODÈLE
LINÉAIRE GÉNÉRAL
(GLM). Le module Modèle
Linéaire Général (GLM) de STATISTICA
permet d'analyser les réponses d'une ou plusieurs variables
dépendantes en fonction d'une ou plusieurs variables
indépendantes continues ou discontinues. Le module Modèle
Linéaire Général n'est pas
seulement l'outil le plus avancé du marché au
niveau statistique, mais aussi le plus complet avec une large gamme
d'options et de graphiques accompagnant toutes les statistiques et
diagnostiques étendus. Conçu avec une "approche
sans compromis", le module GLM offre une grande
sélection d'options pour traiter des problèmes
controversés ne possédant pas de solution
universellement reconnue. GLM va calculer tous les
résultats standard, notamment les tables ANOVA avec les
tests univariés ou multivariés, les statistiques
descriptives, etc... GLM offre un grand nombre de
résultats et de graphiques qui font souvent
défaut dans d'autres programmes. GLM
permet également de tester de manière simple les
combinaisons linéaires des paramètres
estimés ; spécification de termes d'erreur et
effets personnalisés ; méthodes
complètes de comparaison post-hoc des
effets inter-groupes ainsi que des effets de mesures
répétées, et effets d'interaction
entre les mesures répétées. Cliquez ici pour plus
d'informations sur les fonctionnalités offertes par GLM.

MODÈLES GÉNÉRAUX DE
RÉGRESSION (GRM). Le module Modèles
Généraux de Régression (GRM)
de STATISTICA constitue un outil
extrêmement riche et souple pour calculer les
résultats spécifiques et standard du
modèle linéaire général,
avec un ensemble complet de modèles de régression
pas-à-pas et de construction du meilleur modèle
permettant de traiter à la fois des variables continues et
discrètes. Le module GRM vous permet
d'utiliser les méthodes pas-à-pas et de
sélection du meilleur modèle, pour construire des
modèles extrêmement complexes, notamment des plans
avec des effets pour les variables prédictives
catégorielles. C'est pourquoi le terme
"général" dans Modèle de
Régression Général fait
référence à la fois à
l'utilisation du modèle linéaire
général et au fait que, contrairement
à d'autres programmes de régression
pas-à-pas, GRM ne se limite pas
à l'analyse de plans ne contenant que des variables
prédictives continues. En outre, vous pouvez
accéder à des résultats
spécifiques comme le diagramme de Pareto des
paramètres estimés, une synthèse
complète du modèle (tests) avec diverses
méthodes permettant d'évaluer des
modèles sans ordonnée à l'origine,
corrélations partielles ou semi-partielles, etc... Pour plus
d'informations sur les possibilités offertes par GRM
cliquez ici.

MODÈLES LINÉAIRES/NON-LINÉAIRES
GÉNÉRALISÉS (GLZ). Le module
Modèles
Linéaires/Non-Linéaires
Généralisés (GLZ) permet de
rechercher des relations à la fois linéaires et
non-linéaires entre une variable de réponse et
des variables prédictives continues ou
catégorielles (y compris probit et logit multinomiales,
modèles de détection du signal et bien d'autres).
Parmi les applications spécifiques des modèles
linéaires généralisés,
citons des types d'analyse largement utilisées comme les
régressions probit et logit binomiales ou multinomiales, ou
les modèles de la Théorie de Détection
du Signal. Le module GLZ va calculer tous les
résultats statistiques standard, comme les tests du ratio de
vraisemblance, et les tests de Wald de significativité des
effets, les paramètres estimés ainsi que leurs
erreurs-types et leurs intervalles de confiance, etc...
L'interface-utilisateur, les méthodes de
spécification des modèles, et l'aspect
général du programme sont proches de ceux des
modules GLM, GRM et PLS.
L'utilisateur peut aisément spécifier des
modèles de type ANOVA ou ANCOVA, des surfaces de
réponse, des plans de mélange, etc... Ainsi, les
utilisateurs néophytes n'auront aucune difficulté
pour analyser leurs données à l'aide du module Modèles
Linéaires/Non-Linéaires
Généralisés. En outre, GLZ
propose une gamme complète d'outils pour vérifier
les modèles, comme des feuilles de données ou des
graphiques concernant les statistiques des résidus ou pour
mettre en évidence les points atypiques, notamment les
résidus bruts, les résidus de Pearson, les
résidus des écarts, les résidus de
Pearson studentisés, les résidus des
écarts studentisés, les résidus de
vraisemblance, les statistiques différentielles du Chi2,
l'écart différenciel, et les distances
généralisées de Cook, etc.... Cliquez ici pour plus
d'informations sur GLZ.
STATISTICA
Cartes de Contrôle Qualité
STATISTICA Cartes de Contrôle Qualité
vous propose une large gamme de techniques de contrôle
qualité (avec des cartes de contrôle de grande
qualité), d'une souplesse et d'une richesse incomparables.
Ce produit est idéal, pour les systèmes de
contrôle qualité automatisés en
atelier, quel que soit le type et le niveau de complexité
(voir aussi le descriptif des Systèmes
Entreprise de STATISTICA, comme pour les
systèmes sophistiqués d'analyse et de recherche
d'amélioration de la qualité. Diverses options
d'automatisation et raccourcis d'interface-utilisateur vous permettent
de simplifier encore vos tâches routinières ; en
outre, la plupart des options de mise en forme graphique et
spécifications peuvent être modifiées
de façon permanente (enregistrées sous forme de
paramètres par défaut du système ou de
modèles réutilisables). Enfin, STATISTICA
Cartes de Contrôle Qualité met
à votre disposition diverses fonctionnalités
puissantes et simples à utiliser pour créer de
nouvelles procédures analytiques et les ajouter de
façon permanente à votre application, et ces
options s'avèrent particulièrement utiles lorsque
des analyses de contrôle qualité doivent
s'intégrer dans des systèmes de collecte des
données et de suivi.
Cartes standard. Le
programme vous permet de créer des diagrammes de Pareto, des
cartes X-barre, R, S,
S2 (variance), des cartes C,
Np (effectifs binomiaux), P
(proportions binomiales), U, Cusum (somme
cumulée), des cartes d'étendues mobiles, des
cartes individuelles (pour des observations individuelles), des cartes MA
(moyenne mobile) et EWMA (moyenne mobile
pondérée exponentiellement). Ces cartes peuvent
être basées sur des valeurs
personnalisées ou sur des paramètres (moyennes,
étendues, proportions, etc...) calculés
à partir des données. La plupart des cartes de
contrôle aux variables peuvent être construites
à partir des observations individuelles (par exemple, cartes
d'étendues mobiles) ou d'échantillons
constitués de plusieurs observations. Vous pouvez
spécifier des limites de contrôle en termes de
sigma (par exemple, 3 * sigma), de probabilités normales ou
non (courbes de Johnson) (par exemple, p=0,01, 0,99), ou encore de
constantes. Pour des échantillons de tailles
différentes, les cartes de contrôle peuvent
être calculées avec des limites de
contrôle variables ou des limites basées sur des
valeurs centrées-réduites. Pour la plupart des
cartes, vous pouvez utiliser plusieurs ensembles de
spécifications sur une même carte (par exemple,
les limites de contrôle de tous les nouveaux
échantillons peuvent être calculées
à partir d'un sous-ensemble d'échantillons
antérieurs, etc...). Comme pour tous les graphiques STATISTICA,
les cartes de contrôle STATISTICA sont
ultra-personnalisables ; vous pouvez ajouter des titres, des
commentaires, tracer des traits ou des droites ou ancrer dynamiquement
certaines zones spécifiques à des valeurs
particulières de l'échelle , ou
étiqueter les différents échantillons
à l'aide de dates, d'identifiants, etc...
Balayage
analytique interactif et étiquetage des points. Différents
outils de balayage analytique généralistes,
"intelligents" et complets vous permettent, de manière
interactive, de supprimer ou étiqueter des points aberrants
(ou réaliser des analyses conditionnelles) sur des cartes
individuelles ou sur des ensembles de cartes. L'utilisateur peut
sélectionner des échantillons individuels ou des
groupes d'échantillons sur la base des critères
actuellement spécifiés pour la carte (limites de
contrôle, tests des séries), et les exclure des
calculs de la carte (mais en continuant à les faire
apparaître sur la carte) ou même les
éliminer totalement de la carte. Vous pouvez utiliser les
mêmes critères d'inclusion/exclusion
d'échantillons sur plusieurs cartes ; de cette
manière, vous pouvez réaliser un balayage de
plusieurs cartes simultanément (par exemple, un point exclu
d'une carte X-barre et d'une carte R
sera simultanément exclu de tous les histogrammes).
L'utilisateur peut également demander à
représenter toutes les observations individuelles pour les
échantillons sélectionnés (ou tous les
échantillons).
Assigner des causes et des actions. L'utilisateur
a la possibilité d'assigner des causes, des actions, et/ou
des commentaires aux points aberrants ou à tout autre point
de la carte, dans la plupart des cartes. Vous pouvez affecter des
étiquettes de causes et d'actions à l'aide d'un
balayage interactif, mais vous pouvez également laisser le
programme détecter et sélectionner les
échantillons hors-contrôle pour vous.
Un système
flexible et personnalisable de notification d'alarmes. De
nombreuses options vous permettent de spécifier vos propres
critères personnalisés pour définir
les conditions hors-contrôle ou les
"événements notables" (par exemple, violation
d'un test des séries, observation individuelle en dehors des
limites de spécifications, etc...). Vous pouvez configurer
le système de notification d'alarmes pour
déclencher divers types de "réponses" lorsqu'un
événement particulier se produit ; par exemple,
vous pouvez mettre en place un système qui va
automatiquement se déclencher en cas
d'échantillon hors-contrôle. STATISTICA
Cartes de Contrôle va alors (par exemple)
automatiquement demander à l'opérateur de
renseigner une cause, puis exécuter un programme STATISTICA
Visual Basic qui va calculer diverses statistiques ou
exécuter une application externe pour envoyer un e-mail aux
ingénieurs en charge de superviser le processus
correspondant et appeler le superviseur sur son pager.
Vous pouvez sauvegarder les notifications d'alarmes dans un fichier de
configuration (et l'utiliser pour de nouvelles cartes), ou utiliser ces
notifications d'alarmes par défaut pour toutes vos nouvelles
cartes.
Mode
superviseur et opérateur ; protection par un mot de passe. Toutes
les fonctions d'édition des cartes en atelier (en
particulier, l'affectation de causes, d'actions, le balayage, la
notification d'alarme, etc...), les spécifications des
cartes ou le fichier de données lui-même peuvent
être protégés par un mot de passe, afin
de créer un mode opérateur
personnalisé avec un accès limité aux
cartes ou à leurs données. Les cartes peuvent
être enregistrées (par exemple, par le
superviseur), et ouvertes par l'opérateur en
accès limité.
Organisation des données. Pour
la plupart des cartes, vous pouvez organiser les données de
telle sorte qu'elles s'adaptent au format dans lequel elles sont
collectées par les applications de contrôle
qualité. Vous pouvez identifier les différents
échantillons en utilisant un identifiant ou un code, mais
vous pouvez aussi spécifier un nombre constant de mesures
par échantillon (et par gamme, voir ci-dessous).
Cartes petites
séries. La plupart des cartes de
contrôle standard aux mesures ( X-barre, R,
S, S2, MA,
EWMA) et aux attributs ( C, U,
P, Np) peuvent être
utilisées pour des séries courtes ( cartes
petites séries pour plusieurs gammes ou machines).
Pour les cartes de contrôle petites séries aux
mesures (variables), vous pouvez spécifier des valeurs cible
nominales uniquement ( carte nominale ou carte
cible), ou des valeurs cible et des valeurs de dispersion
pour des cartes petites séries
centrées-réduites. Vous avez à votre
disposition, diverses options pour trier les points
d'échantillons dans les cartes respectives, et les
représenter en fonction du numéro
d'échantillon, de la gamme, ou dans l'ordre chronologique
où les échantillons respectifs ont
été tirés. Diverses statistiques
détaillées sont calculées par gamme et
par échantillon. Les identifiants respectifs des
échantillons et des gammes pour chaque mesure peuvent
être issus du fichier de données et/ou vous pouvez
affecter un certain nombre constant d'observations successifs
à des échantillons et/ou à des gammes
consécutives. Remarque : toutes les options et statistiques
des cartes (indices de capabilité et de performance, tests
des séries, etc...) habituellement reportées sur
les cartes standard sont également disponibles pour les
cartes petites séries.
Statistiques et options des cartes. De
nombreuses autres statistiques de contrôle qualité
sont également proposées. Vous pouvez calculer
des indices de capabilité et de performance du processus
(par exemple, les indices Cpk,
Ppk, etc... pour des
distributions normales, les indices Cpk,
Ppk, etc... pour des
distributions non-normales), produire les histogrammes des
caractéristiques de qualité respectives, ou
réaliser automatiquement l'un des sept tests des
séries disponibles. Les cartes de contrôle
standard aux mesures sont produits par défaut sous la forme
de graphiques composés ; par exemple, les cartes X-barre,
R (ou S, ou S2)
sont représentées avec éventuellement
les histogrammes des moyennes, étendues, proportions, etc...
respectifs, sur la même carte. Les points atypiques
(échantillons situés au-delà des
limites de contrôle) ou les segments de données
successives identifiées par un test des séries
vont automatiquement apparaître en surbrillance (dans une
couleur différente) dans les tracés. Vous pouvez
également ajouter des droites d'alerte, tracer des courbes
de moyennes mobiles ou de moyennes mobiles exponentiellement
pondérées, ou encore des droites
représentant les spécifications du processus.
Limites de contrôle et indices de
capabilité/performance du processus non normaux. Pour
les cartes de contrôle aux mesures, outre les statistiques et
cartes habituels basés sur la Loi Normale, le programme va
également calculer des cartes pour des mesures qui ne sont
pas distribuées normalement (par exemple, pour des mesures
distribuées de façon très
asymétrique). Ces options sont très importantes
lorsque vous travaillez avec des tailles d'échantillon
faibles (et où par conséquent, des
écarts à la normalité pourraient
conduire à sur-estimer ou sous-estimer les taux d'erreur si
les statistiques basées sur la Loi Normale
étaient utilisées). Le programme calcule des
limites de contrôle sur la base de l'ajustement des courbes
de Johnson aux quatre premiers moments des données
observées ; vous pouvez également utiliser des
valeurs personnalisées pour les moments. Les indices de
capabilité du processus peuvent être
calculés sur la base de l'ajustement des courbes de Johnson
ainsi que sur celles Pearson. Remarque : il est également
possible de calculer des indices de capabilité sur la base
de distributions spécifiques dans le module Analyse
de Processus.
Autres
résultats et tracés. Pour la plupart
des cartes (y compris la carte R), vous pouvez
calculer et représenter les courbes d'efficacité
respectives. Outre les cartes, les valeurs respectives
(représentées sur les cartes) peuvent
également être affichées dans des
feuilles de données, ce qui vous permet de visualiser les
valeurs précises des droites et des points qui sont
représentés. Vous pouvez imprimer des cartes
personnalisées (vierges) que l'ingénieur pourra
ultérieurement "compléter" à la main
s'il le souhaite. Remarque : comme tous les autres graphiques de STATISTICA,
les graphiques produits par STATISTICA Cartes de
Contrôle peuvent être
personnalisés à façon et
enregistrés pour d'autres analyses et/ou personnalisations.
Système
de contrôle qualité en temps réel ;
source de données externes. La plupart des
graphiques et cartes de contrôle de STATISTICA
Cartes de Contrôle peuvent être
automatiquement liés aux données et
actualisés dès que les données sont
mises à jour. Afin de faciliter le transfert des
données, deux applications STATISTICA
(facultatives) puissantes sont disponibles : STATISTICA
Entreprise/QC et STATISTICA Entreprise.
STATISTICA Entreprise. STATISTICA
Entreprise est une version groupware de STATISTICA,
totalement intégrée, avec un data warehouse
(entrepôt de données) centralisé
puissant. STATISTICA Entreprise constitue une
interface généraliste efficace avec les
systèmes existants de stockage des données dans
l'entreprise et permet un partage des projets et de l'information entre
les différents utilisateurs (autorisés) du
système (fonctionnalité groupware
avancée).
STATISTICA Entreprise/QC. STATISTICA
Entreprise/QC est un logiciel intégré
multi-utilisateurs offrant un accès complet à des
fonctionnalités de MSP (Maîtrise Statistique des
Procédés) à l'échelle de
l'entreprise. STATISTICA Entreprise/QC est
organisé autour d'une base de données
centralisée, et offre tous les outils nécessaires
pour traiter et gérer des données issues de
différentes sources, et pour coordinonner le travail de
différents opérateurs, ingénieurs
qualité et superviseurs. STATISTICA Entreprise/QC
comme STATISTICA Entreprise vous offre des
fonctionnalités très souples pour
créer une intégration efficace entre les
procédures proposées dans le produit STATISTICA
Cartes de Contrôle et les données
contenues dans vos bases de données existantes, et
élaborer des systèmes de suivi de la
qualité à l'échelle de l'entreprise.
STATISTICA
Plans d'Expériences
Plans
d'Expériences. STATISTICA Plans
d'Expériences offre une gamme très
complète de procédures pour construire et
analyser divers plans d'expériences utilisés en
recherche industrielle (qualité) : plans factoriels 2**(k-p)
avec blocs (pour plus de 100 facteurs, y compris des algorithmes de
recherche spécifiques, très efficaces pour
trouver des plans avec un minimum d'aberrations et un maximum d'effets
non confondus, où l'utilisateur peut spécifier
les effets d'interaction devant être non confondus), plans de
sélection (criblage) (pour plus de 100 facteurs, en
particulier les plans de Plackett-Burman), plans factoriels 3**(k-p)
avec blocs (en particulier les plans de Box-Behnken), plans de
mélange, plans composites centrés ou surfaces de
réponse (en particulier les petits plans composites
centrés), Carrés Latin, plans robustes de Taguchi
(matrices orthogonales), plans de mélange et plans de
surfaces triangulaires, sommets et barycentres pour des
surfaces et mélanges sous contraintes, et plans D-
et A-optimaux pour les plans factoriels, de
surfaces, et de mélanges. Divers modèles de plans
spécifiques sont disponibles, et nous décrirons
les méthodes permettant de les générer
et de les analyser dans les paragraphes suivants.
Analyse de
Plans d'Expériences : Principales fonctionnalités.
Les options permettant d'analyser les plans factoriels, surfaces de
réponse, et plans de mélange sont de nature
généraliste. Elles permettent de manipuler des
plans non équilibrés et incomplets, et donnent
à l'utilisateur un contrôle total sur le choix des
modèles à ajuster aux données. Le
programme calcule l'inverse généralisé
de la matrice X'X (où X
représente la matrice du modèle) pour
déterminer les effets estimables, et les effets
aliassés des autres effets. Le programme donne aussi
automatiquement la table des alias et estime les paramètres
de tous les effets non-redondants. Vous pouvez également
introduire ou exclure manuellement certains effets
spécifiques de votre modèle (rapidement et
simplement), et observer l'effet obtenu sur l'ajustement global. Toutes
les analyses peuvent porter sur les valeurs originales ou
recodifiées des facteurs et de nombreuses options permettent
de représenter les paramètres estimés,
le tableau de l'analyse de la variance, etc... D'autres options
permettent d'explorer les moyennes prévues
(ajustées), surfaces de réponse, etc... ; ces
options sont décrites plus en détail ci-dessous
dans le cadre des plans respectifs.
Analyses des
résidus et transformations. De nombreux graphiques
et options de sorties permettent d'approfondir l'analyse des
résidus à partir d'un modèle
donné. Plus précisément, le programme
calcule les valeurs prévues (ajustées), les
résidus et leurs erreurs-types, les intervalles de
prévision personnalisés et les intervalles de
confiance autour des valeurs prévues (ajustées),
les valeurs centrées-réduites des valeurs
prévues et des résidus, les résidus
studentisés, les résidus supprimés,
les résidus studentisés supprimés, les
distances de Mahalanobis et de Cook, les valeurs DFFIT
et DFFIT centrées-réduites,
etc... Toutes ces statistiques sur les résidus peuvent
être enregistrées en vue de poursuivre l'analyse
dans d'autres modules de STATISTICA (par exemple,
pour analyser l'autocorrélation des erreurs dans le module Séries
Chronologiques). En outre, ces statistiques sur les
résidus pour chaque observation peuvent être
examinées par numéro croissant d'observations, ou
selon l'importance des résidus ; ainsi, vous pouvez
identifier rapidement les points atypiques. Pour évaluer
l'ajustement du modèle respectif, et identifier les points
atypiques, vous pouvez tracer divers histogrammes des
résidus (et des résidus supprimés) ou
des valeurs prévues, des nuages de points des
résidus (supprimés) en fonction des valeurs
prévues, ou des tracés normalité,
normalité par moitié, ou tracés des
écarts à la normalité (des
résidus supprimés). Pour contrôler
l'autocorrélation des résidus, vous pouvez aussi
représenter les valeurs des résidus
(supprimés) en fonction des numéros
d'observations. Dans tous les tracés d'observations
individuelles (par exemple, résidus des observations), les
points sont associés au numéro ou au nom de
l'observation respective, ce qui vous permet d'identifier
très facilement les points atypiques dans le fichier de
données. Enfin, les valeurs lambda du
maximum de vraisemblance peuvent être calculées
pour la transformation Box-Cox des variables de réponse ; le
tracé de la somme des carrés des
résidus en fonction de lambda, avec la limite de confiance
de lambda, accompagne les résultats dans
le tracé de la transformation de Box-Cox.
Optimisation d'une ou
plusieurs variables de réponse : Profil de
réponse (désirabilité). Un
ensemble d'options spécifiques permettent à
l'utilisateur d'optimiser de façon interactive une ou
plusieurs variables de réponse, compte tenu du
modèle actuel. Tout d'abord, pour des modèles de
surface de réponse du second ordre et pour des
modèles de surface de mélange, le programme va
calculer les réglages des facteurs associés au
minimum, au maximum, ou au point selle la surface respective
(c'est-à-dire, déterminer la valeur critique de
la surface, avec les valeurs propres et les vecteurs propres
respectifs, pour indiquer la courbure et l'orientation de la surface de
réponse quadratique). Remarque : pour les plans de
mélange, les options du profil de
désirabilité ne sont pas basées sur un
simple reparamétrage du modèle de
mélange vers un modèle de surface sans
contraintes (pouvant conduire à des résultats
erronés, où les paramétrages de
facteurs optimaux sont des mélanges incorrects). Tous les
calculs sont en revanche basés sur le véritable
modèle de mélange (ajusté sous
contraintes). Ainsi, lorsque vous recherchez les
paramétrages optimaux des facteurs, compte tenu de la
fonction de désirabilité d'une ou plusieurs
variables de réponse, seule la région
expérimentale sous contraintes (mélange) sera
prise en compte, garantissant ainsi que les paramétrages
obtenus des facteurs vont spécifier un mélange
correct. De nombreuses options graphiques permettent de
représenter les valeurs prévues d'une ou
plusieurs variables de réponse en fonction des
différents facteurs de l'analyse, tout en maintenant
constants les autres facteurs à des valeurs
données. Plus précisément, si vous
avez plusieurs variables de réponse, vous pouvez
spécifier une fonction de désirabilité
reflétant la valeur la plus désirable de chaque
variable de réponse, et l'importance de chaque variable dans
la désirabilité globale. Vous pouvez ensuite
représenter les profils de la fonction de
désirabilité (calculée à
partir des valeurs prévues de chaque variable de
réponse) pour un nombre défini de niveaux sur
chaque facteur. En outre, vous pouvez représenter les
profils de chaque variable de réponse individuelle sur un
même graphique avec les intervalles de confiance.
 La
fonction de désirabilité peut être
représentée sous la forme de surfaces de
réponse ou de courbes d'isoréponse (de
désirabilité), et vous pouvez produire des
tracés matriciels de tous les facteurs de l'analyse (voir
l'illustration ci-contre). Vous pouvez rapidement modifier les
paramètres comme la grille factorielle ou la fonction de
désirabilité et ainsi réaliser des
analyses interactives (par exemple, vous pouvez rapidement exclure
certaines variables spécifiques de l'analyse, et observer
l'effet résultant sur la fonction de
désirabilité globale). Vous pouvez
également enregistrer les spécifications de
fonctions complexes de désirabilité pour
plusieurs variables de réponse dans un fichier, puis les
récupérer rapidement pour analyser d'autres
expériences avec les mêmes variables de
réponse. Enfin, vous avez la possibilité de
déterminer la valeur optimale de la fonction de
désirabilité, soit en utilisant une grille de
recherche sur la région expérimentale, soit en
utilisant un algorithme efficace et généraliste
d'optimisation de fonctions (particulièrement utile pour
optimiser des fonctions de désirabilité dans des
expériences faisant appel à de nombreux
facteurs). Remarque : vous retrouverez également ces options
de profils de désirabilité dans les modules
suivants : Modèle
Linéaire Général (GLM),
Modèles
Généraux de Régression (GRM)
et Modèles
Généraux d'Analyse Discriminante (GDA)
(pour des réponses catégorielles).
Plans factoriels
fractionnaires à deux niveaux 2**(k-p) avec blocs (Plans de
Box-Hunter-Hunter avec minimum d'aberration. STATISTICA
Plans d'Expériences vous propose toute la gamme
des les plans standard, également
dénommés "avec minimum d'aberrations" (comme dans
des ouvrages de référence de Box et Draper, 1987
; Box, Hunter et Hunter, 1978 ou encore dans l'ouvrage de Montgomery,
1991). Vous pouvez afficher les plans dans une feuille de
données ; vous pouvez randomiser les essais (par blocs ou
globalement), et ajouter des colonnes vierges à votre
feuille de données. Des options vous permettent de
spécifier les niveaux inférieurs et
supérieurs des facteurs, et vous pouvez afficher et
enregistrer le plan en termes de niveaux codés des facteurs
ou en conservant la métrique originale des facteurs. Vous
pouvez également demander des réplications,
ajouter des points centraux au plan, ou ajouter des replis au plan
original. Vous pouvez également afficher les
générateurs de plans fractionnaires et les
générateurs de blocs du plan, ainsi que la
matrice des alias des effets principaux et des interactions. STATISTICA
Plans d'Expériences va automatiquement
réaliser une ANOVA complète du plan.
L'utilisateur a un contrôle total sur les effets et les
interactions à inclure dans le modèle, et peut
examiner les corrélations entre les colonnes de la matrice
du modèle ( X) ou l'inverse de la matrice X'X
(c'est-à-dire, les matrices de covariance et de
corrélations des paramètres estimés).
Le programme estime les paramètres de l'ANOVA et leurs
erreurs-types ainsi que les intervalles de confiance, les coefficients
des valeurs des facteurs recodifiés ( -1, +1)
avec leurs erreurs-types et les intervalles de confiance, ainsi que les
coefficients (erreurs-types, intervalles de confiance) des facteurs non
transformés. Sur la base de ces estimations, le programme
peut calculer les valeurs prévues (erreurs-types,
intervalles de confiance) pour des niveaux personnalisés des
facteurs.
 Le
programme va calculer la table ANOVA complète, en utilisant
la moyenne des carrés de l'erreur, ou, lorsque le plan est
au moins partiellement répliqué, sur en utilisant
une estimation de l'erreur pure. Si une estimation de l'erreur pure est
disponible, le programme va effectuer un test de manque d'ajustement
global ; si le plan contient des points centraux, le programme
réalise un contrôle global de courbure.
L'utilisateur peut visualiser la table des moyennes et les moyennes
marginales, et leurs intervalles de confiance. De nombreuses options
vous permettent de représenter les résultats sous
une forme graphique : le diagramme de Pareto des effets, les
tracés de normalité et de normalité
par moitié des effets, des tracés
carrés et cubes, des tracés de moyennes et
d'interactions (avec intervalles de confiance des moyennes marginales),
des surfaces de réponse, et des courbes
d'isoréponse. En outre, toutes les
fonctionnalités décrites ci-dessus (sous les
intitulés Plans d'Expériences,
Analyse de Plans d'Expériences : Principales
fonctionnalités, Analyse des
résidus et transformations et Optimisation
d'une ou plusieurs variables de réponse : profil de
réponse (désirabilité)) vous
permettent d'étudier en détail les
résidus, mais aussi d'évaluer la
qualité d'ajustement du modèle, et de trouver les
réglages optimaux des facteurs, compte tenu d'une ou
plusieurs variables de réponse.
Plans factoriels
fractionnaires 2**(k-p) avec blocs et minimum d'aberration et maximum
de non confondus : Recherche générale de plans.
Outre les plans standard 2**(k-p), STATISTICA Plans
d'Expériences offre une option
généraliste de recherche de plans permettant de
générer des plans factoriels fractionnaires avec
un minimum d'aberration (le moins confondus possibles), avec ou sans
blocs, avec jusqu'à 100 facteurs et plus de 2.000 essais.
Ces plans particulièrement efficaces ont
été découverts récemment et
ils vous permettent de tester un plus grand nombre d'interactions
(spécifiques) entre les facteurs par rapport aux plans
standard de Box-Hunter. STATISTICA Plans
d'Expériences est actuellement le seul programme
sur le marché à vous offrir cette
fonctionnalité. Pour une résolution
donnée, vous pouvez également réaliser
une recherche complète de tous les groupes
(non-isomorphiques) de générateurs, ou
spécifier des ensembles particuliers d'interactions
à garder non confondues pour la résolution
respective. Outre le critère habituel de recherche de
"minimum d'aberrations", vous pouvez aussi choisir le
critère du "maximum non confondus" qui permettra de trouver
le plan contenant le plus grand nombre possible d'effets non confondus
(avec les autres effets, pour une résolution
donnée du plan). Comme pour les plans standard 2**(k-p)
décrits au paragraphe précédent, ces
plans peuvent être améliorés (en
ajoutant des réplications, des points centraux, des replis,
etc...). Toutes les options analytiques décrites
précédemment s'appliquent également
à ces plans (ou tout plan arbitraire 2**(k-p)).
Plans de Criblage
[ou de sélection] (Plackett-Burman). STATISTICA
Plans d'Expériences permet à
l'utilisateur de construire et d'analyser des plans de criblage pour un
grand nombre de facteurs. Le programme permet de
générer des plans de Plackett-Burman (matrice de
Hadamard) et des plans factoriels fractionnaires saturés
avec jusqu'à 127 facteurs. Comme pour les plans 2**(k-p),
l'utilisateur peut demander des réplications du plan,
ajouter manuellement des points centraux, et imprimer ou enregistrer le
plan. Les mêmes options sont disponibles pour l'analyse des
plans de criblage que celles décrites pour l'analyse des
plans 2**(k-p) (voir les paragraphes précédents).
Plans factoriels
à différents niveaux (mixtes). Le
programme permet également de produire des plans avec des
niveaux mixtes (tels qu'il sont décrits par le Bureau
National Américain de Normalisation, Département
du Commerce). Les options de création et d'analyse
disponibles pour ces plans sont identiques à celles
décrites pour les plans 3**(k-p) (voir le paragraphe
précédent).
Plans factoriels
fractionnaires à trois niveaux 3**(k-p) avec blocs et plans
de Box-Behnken. STATISTICA Plans
d'Expériences offre tous les plans 3**(k-p)
standard (avec blocs). Les plans standard de Box-Behnken sont
également disponibles. Comme pour tous les autres plans,
l'utilisateur a la possibilité d'afficher et d'enregistrer
ces plans dans un ordre standard ou aléatoire, de demander
des réplications ou ajouter des essais individuels, ou
encore d'examiner le plan et les générateurs de
bloc, etc... Le programme réalise une analyse
complète des plans 3**(k-p). L'utilisateur a un
contrôle total sur les effets à inclure dans
l'analyse. Les effets principaux sont divisés en effets
linéaires et quadratiques, et les interactions en effets
linéaire-linéaire,
linéaire-quadratique, quadratique-linéaire et
quadratique-quadratique. L'utilisateur peut visualiser la matrice de
corrélations de la matrice du modèle ( X)
ainsi que l'inverse de X'X. Le programme calcule
les estimations standard des paramètres de l'ANOVA
(erreurs-types, intervalles de confiance, significativité
statistique, etc...), les coefficients des facteurs
recodifiés ( -1, 0, +1) et les
coefficients des facteurs non recodifiés. Sur la base de ces
valeurs, le programme permet de calculer les valeurs prévues
(et les erreurs-types, intervalles de confiance) pour des valeurs
personnalisées des facteurs. La table ANOVA reporte les
tests des composantes linéaires et quadratiques pour chaque
effet. Si le plan comporte des réplications, l'estimation de
l'erreur pure pourra être utilisée pour l'ANOVA et
pour tester la significativité ; dans ce cas un test global
de manque d'ajustement sera également
réalisé.
Pour vous aider à interpréter les
résultats, le programme calcule la table des moyennes (et
les intervalles de confiance) ainsi que les moyennes marginales (et les
intervalles de confiance) des interactions. Les options graphiques
disponibles incluent les tracés de moyennes et de moyennes
marginales (avec les intervalles de confiance), le diagramme de Pareto
des effets, ainsi que les tracés de normalité et
de normalité par moitié des effets, ou les
surfaces de réponse et courbes d'isoréponse. En
outre, toutes les fonctionnalités décrites
ci-dessus (sous les intitulés Plans
d'Expériences, Analyse de Plans
d'Expériences : Principales fonctionnalités,
Analyse des résidus et transformations et
Optimisation d'une ou plusieurs variables de
réponse : profil de réponse
(désirabilité)) vous permettent
d'étudier en détail les résidus, mais
aussi d'évaluer la qualité d'ajustement du
modèle, et de trouver les réglages optimaux des
facteurs, compte tenu d'une ou plusieurs variables de
réponse.
Plans composites
centrés (surface de réponse). Vous avez
à votre disposition tous les plans standard, notamment de
petits plans composites centrés (basés sur les
plans de Plackett-Burman). Outre les options standard disponibles pour
tous les plans (ajouter des essais, randomisation,
réplications, paramétrages inférieurs
et supérieurs des facteur, etc... ; reportez-vous
à la description des plans 2**(k-p) pour plus
d'informations), vous pouvez choisir des points étoiles
centrés, ou qui sont calculés pour obtenir
l'isovariance par rotation, l'orthogonalité, ou les deux.
Les options d'analyse sont voisines de celles décrites pour
les plans 3**(k-p) et 2**(k-p) ci-dessus. L'utilisateur peut calculer
les paramètres de l'ANOVA, les coefficients des valeurs des
facteurs recodifiés, et les coefficients des facteurs non
transformés. Vous pouvez également calculer les
valeurs prévues pour des valeurs personnalisés
des facteurs. Vous avez un contrôle total sur les effets
à inclure dans le modèle, et vous pouvez
représenter la matrice de corrélations de la
matrice du modèle ( X) et de l'inverse de X'X.
S'il existe des réplications, la table ANOVA reportera
l'estimation de l'erreur pure et un test global de manque d'ajustement.
Parmi les graphiques standard, citons le diagramme de Pareto des
effets, les tracés de probabilité des effets, les
surfaces de réponse et courbes d'isoréponse (s'il
existe plus de deux facteurs, pour des valeurs
personnalisées des facteurs supplémentaires). En
outre, toutes les fonctionnalités décrites
ci-dessus (sous les intitulés Plans
d'Expériences, Analyse de Plans
d'Expériences : Principales fonctionnalités,
Analyse des résidus et transformations et
Optimisation d'une ou plusieurs variables de
réponse : profil de réponse
(désirabilité)) vous permettent
d'étudier en détail les résidus, mais
aussi d'évaluer la qualité d'ajustement du
modèle, et de trouver les réglages optimaux des
facteurs, compte tenu d'une ou plusieurs variables de
réponse.
Carrés
Latins. L'utilisateur peut choisir entre
différents Carrés Latin, comportant
jusqu'à neuf niveaux. Chaque fois que c'est possible, le
programme construit des Carrés Greco-Latin et des
Carrés Hyper-Greco Latin. Lorsque plusieurs
Carrés Latins distincts sont disponibles, le programme en
choisi un au hasard, mais l'utilisateur peut toujours
sélectionner le ou les Carrés Latin
souhaités. Vous pouvez afficher les plans dans une feuille
de données, randomisés l'ordre, ou ajouter des
colonnes vierges pour créer de nouvelles variables
dépendantes. Vous pouvez également enregistrer le
plan sous la forme d'un fichier de données STATISTICA.
Une fois que vous avez ajouté les données
observées dans le fichier de données, vous pouvez
aisément analyser l'expérience. Outre la table
ANOVA complète, STATISTICA Plans
d'Expériences calcule les moyennes de tous les
facteurs, et vous pouvez représenter ces moyennes dans un
tracé de synthèse.
Plans
robustes de Taguchi. STATISTICA Plans
d'Expériences peut produire des matrices
orthogonales comportant jusqu'à 31 facteurs, et vous pouvez
analyser des plans jusqu'à 65 facteurs. Comme pour tous les
types de plans, vous pouvez randomiser les essais, et ajouter des
colonnes vierges à la feuille de données afin
d'accueillir les données des variables
dépendantes. Vous pouvez aussi étudier les alias
des interactions d'ordre deux. STATISTICA Plans
d'Expériences calcule automatiquement les ratios
standard signal/bruit ( S/B) pour des
problèmes du type : (1) L'optimum est un minima,
(2) L'optimum est la nominale, (3) L'optimum
est un maxima, (4) Critère
ciblé, (5) Fraction
défectueuse et (6) Nombre de
défauts par intervalle ( analyse
d'accumulation). Vous pouvez également analyser
des données non transformées ; ainsi, vous pouvez
produire tout type de ratio S/B
personnalisé grâce au langage de programmation
Visual Basic et les analyser
grâce à cette procédure. Outre des
statistiques descriptives complètes, vous pouvez visualiser
les ratios S/Bcalculés. Les
résultats complets de l'ANOVA sont reportés dans
une feuille de données interactive où
l'utilisateur peut ajouter ou supprimer des effets
spécifiques dans le terme d'erreur. Une feuille de
données interactive similaire permet à
l'utilisateur de prévoir Eta (le ratio S/B)
sous les conditions optimales, c'est à dire, aux
paramétrages des niveaux des facteurs. Vous avez la
possibilité d'inclure ou d'exclure des effets
spécifiques du modèle, et spécifier
des niveaux particuliers pour les facteurs. Enfin, vous pouvez
représenter les moyennes dans un tracé standard
des effets principaux d' Eta par niveau de facteur ;
si vous réalisez une analyse d'accumulation sur des
données catégorielles, vous pourrez
représenter les résultats sous la forme d'un
tracé empilé ou d'un tracé curviligne
des probabilités cumulées selon les
catégories des niveaux des facteurs
sélectionnés. Remarque : vous pouvez optimiser
différents types de fonctions de
désirabilité des réponses pour une ou
plusieurs variables grâce au profil de
réponse (désirabilité)
décrit précédemment, et disponible
pour les plans 2**(k-p), 3**(k-p), plans composites centrés,
etc... (ou dans les modules GLM,
GRM,
GDA).
Plans de
mélanges et surfaces triangulaires. Cette
procédure offre un certain nombre d'options pour construire
des plans simplexes et simplexes centrés sur des variables
de mélange. Ces plans peuvent être
améliorés en ajoutant des points
intérieurs et un barycentre. Vous pouvez
spécifier des limites inférieures pour chaque
facteur, et le programme va alors construire automatiquement le plan
respectif dans un sous-simplexe défini par les contraintes.
Vous pouvez ajouter plusieurs contraintes supérieures et
inférieures grâce aux fonctionnalités
généralistes de construction de plans dans des
régions expérimentales sous contraintes (voir
ci-dessous). Vous pouvez ajouter des essais individuels ou des
réplications, et afficher puis enregistrer le plan dans un
ordre standard ou randomisé. Le programme calcule les
coefficients des pseudo-composantes et des composantes dans leur
métrique originale, avec les erreurs-types, intervalles de
confiance, et tests de significativité statistique.
(Remarque : le module Modèle
Linéaire Général (GLM)
offre également des fonctionnalités pour analyser
des plans de mélange. Ces options sont
particulièrement utiles pour analyser les plans combinant
à la fois des variables de mélange et d'autres
variables dans des plans complexes). L'utilisateur a un
contrôle total sur les termes à inclure dans le
modèle ; les modèles standard sont les
modèles linéaires, quadratiques, cubiques
spéciaux et cubiques complets. La table ANOVA reporte les
tests d'ajustement incrémentiel des différents
modèles, et si le plan comporte des essais
répliqués, un test de défaut
d'ajustement basé sur l'estimation de l'erreur pure sera
également calculé. Parmi les résultats
standard, citons la table des moyennes, les corrélations des
colonnes de la matrice du modèle ( X),
l'inverse de la matrice du modèle X'X (la
matrice de variance/covariance des paramètres
estimés), le diagramme de Pareto, les tracés de
normalité des paramètres estimés,
etc... L'utilisateur peut aussi calculer des prévisions en
utilisant des valeurs personnalisées des facteurs.
Différents graphiques spécialisés
permettent de synthétiser les résultats des
expériences de mélange sous forme de
tracés de réponse pour des mélanges
personnalisés de référence, ainsi que
des surfaces triangulaires et courbes d'isoréponse. S'il
l'expérience comporte plus de 3 composantes, vous pouvez
produire des surfaces de réponse et courbes
d'isoréponse pour des valeurs personnalisées
d'autres composantes. Enfin, toutes les fonctionnalités
décrites ci-dessus (sous les intitulés Plans
d'Expériences, Analyse de Plans
d'Expériences : Principales fonctionnalités,
Analyse des résidus et transformations et
Optimisation d'une ou plusieurs variables de
réponse : profil de réponse
(désirabilité)) vous permettent
d'étudier en détail les résidus, mais
aussi d'évaluer la qualité d'ajustement du
modèle, et de trouver les réglages optimaux des
facteurs, compte tenu d'une ou plusieurs variables de
réponse. Remarque : les options du profil de
réponse (désirabilité) disponibles
pour les plans de mélange ne se limitent pas à un
simple reparamétrage du modèle de
mélange en modèle de surface sans contraintes ;
en revanche, tous les calculs sont réalisés sur
la base du véritable modèle de mélange
(ajusté). Ainsi, lorsque vous recherchez les
réglages optimaux des facteurs compte tenu d'une fonction de
désirabilité pour une ou plusieurs variables de
réponse, seule la région expérimentale
sous contrainte (mélange) est étudiée,
et vous avez ainsi la certitude que les réglages obtenus
pour les facteurs décrivent un mélange valide.
Plans de
mélanges et surfaces sous contraintes. STATISTICA
Plans d'Expériences contient un certain nombre de
procédures permettant de calculer des points sommets et
barycentres pour des surfaces et mélanges sous
contraintes définis par des contraintes
linéaires. Vous pouvez spécifier les limites
inférieures et supérieures des facteurs, ainsi
que toute autre contrainte linéaire (de la forme A 1*x 1
+ ... + A n*x n + A 0
>= 0) concernant les valeurs des facteurs. Le programme va
calculer ensuite les points sommets et les points barycentres
éventuels de la région sous contraintes. Les
contraintes sont traitées de façon
séquentielle et les contraintes inutiles sont ises en
évidence et écartées. De nombreuses
autres options permettent d'examiner les caractéristiques de
la région sous contraintes. Vous pouvez
représenter les points sommets et barycentres dans
des nuages de points triangulaires (pour les mélanges) ou en
3D. Vour pouvez aussi calculer la matrice de corrélations
des colonnes de la matrice X du modèle
pour différents types de plans ainsi que l'inverse de la
matrice X'X (c'est-à-dire, la matrice
de variance/covariance des paramètres estimés).
Vous pouvez ainsi évaluer les caractéristiques du
plan, sur la base des points sommets et barycentres. Ces points
peuvent ensuite être soumis aux fonctionnalités de
plan optimal (voir ci-dessous), pour construire des plans avec un
nombre minimum d'essais.
Plans
D- et A-optimaux. Le programme contient différents
algorithmes permettant de construire des plans optimaux. Vous pouvez
choisir entre le critère d'optimalité D
(déterminant) et le critère
d'optimalité A (ou trace), et avez la
possibilité de spécifier des modèles
de surfaces de réponse et de mélanges. Vous
pouvez spécifier manuellement la liste de points candidats
du plan, ou récupérer cette liste à
partir d'un fichier de données STATISTICA
(par exemple, un plan que vous auriez
précédemment créé
grâce aux fonctionnalités de calcul des points
sommets et barycentres pour des surfaces sous contraintes et
des mélanges, voir ci-dessus). Vous pouvez forcer
l'inclusion ce certains points candidats spécifiques dans le
plan final, ce qui vous permet d'améliorer ou de
"réparer" des expériences existantes. Le
programme offre tous les algorithmes de recherche les plus courants
pour construire des plans D- et A-optimaux
: la procédure séquentielle de recherche de
Dykstra, la procédure d'échange simple de
Wynn-Mitchell, la procédure DETMAX
(échange avec excursions), la procédure de
permutation simultanée de Fedorov, ainsi qu'une
procédure de permutation simultanée
modifiée. Pour le plan final, le programme va calculer le
déterminant de X'X et les
efficacités D, A et G.
Vous pouvez également examiner la matrice de
corrélations des colonnes de la matrice du plan final ( X),
et l'inverse de la matrice X'X (la matrice de
variance/covariance des estimations de paramètres). Les
points du plan final peuvent être
représentés sous la forme de nuages de points en
3D et de surfaces triangulaires (pour les mélanges).
Autres
procédures pour analyser des données
collectées au cours d'expériences. STATISTICA
met à votre disposition de nombreuses méthodes
statistiques pour analyser des données collectées
au cours d'expériences et pour ajuster des
modèles de type ANOVA/ANCOVA à des variables
continues ou catégorielles. Plus
précisément, STATISTICA
contient les modules suivants :
- Modèle
Linéaire Général (GLM)
et Modèles
Généraux de Régression (GRM)
(tous deux proposés dans ce produit) avec des
procédures sophistiquées de construction de
modèles (sélection pas-à-pas des
prédicteurs et recherche exhaustive du meilleur
modèle).
- Modèles
Linéaires/Non-Linéaires
Généralisés (GLZ)
(proposé dans ce produit), qui permet également
de sélectionner les prédicteurs
pas-à-pas et d'effectuer une recherche exhaustive du
meilleur modèle dans des plans de type ANOVA/ANCOVA, pour
différentes alternatives aux modèles
linéaires des moindres carrés, comme les
modèles logit, logit multinomial et probit.
- Modèles
Généraux d'Analyse Discriminante (GDA)
(proposé dans ce produit), qui vous permet d'utiliser des
plans d'expériences de type ANOVA/ANCOVA pour des
classifications, et d'utiliser une sélection
pas-à-pas des prédicteurs ou par recherche
exhaustive du meilleur modèle ; le module GDA offre
également un profil de désirabilité et
diverses méthodes d'optimisation des réponses,
permettant de mettre en évidence les combinaisons, niveaux
et/ou valeurs de facteurs qui vont maximiser les
probabilités de classification a posteriori
d'une ou plusieurs catégories de la variable
dépendante.
- Modèles
d'Arbres de Classification et de Régression
et Modèles
CHAID, tous deux proposés dans le
produit STATISTICA Data
Miner), qui vous permettent d'évaluer
l'efficacité des plans d'expériences de type
ANOVA/ANCOVA pour construire des arbres de classification or de
régression hiérarchiques avec une forte
non-linéarité.
STATISTICA peut donc s'utiliser dans des
problématiques d'amélioration de la
qualité de façon tout à fait innovante
et créative, lorsque les variables dépendantes
étudiées sont de nature catégorielle,
ou lorsque l'effet des variables prédictives (effets) est de
nature clairement non-linéaire.
STATISTICA
Analyse de Processus
STATISTICA Analyse de Processus est
constitué de deux modules vous permettant d'utiliser les
techniques d'analyses de processus, les analyses de
répétabilité et de
reproductibilité, l'analyse de Weibull,
les plans d'échantillonnage, et les techniques de
décomposition de la variance pour des effets
aléatoires ; chacune de ces techniques est
décrite dans les paragraphes suivants.
Analyse
de capabilité du processus. STATISTICA
Analyse de Processus vous offre un certain nombre d'options
pour calculer des indices de capabilité sur des
données groupées ou non (par exemple, Cp,
Cr, Cpk,
Cpl, Cpu,
K, Cpm,
Pp, Pr,
Ppk, Ppl,
Ppu), des
limites de tolérance normales ou non, avec les
tracés de capabilité du processus correspondants
(histogramme avec l'étendue du processus, limites de
spécification, courbe normale). En outre, au lieu des
indices et statistiques basés sur la Loi Normale,
l'utilisateur peut choisir des estimations (par exemple, Cpk,
Cpl, Cpu
basés sur la méthode des centiles) en utilisant
des distributions non-normales généralistes
(ajustement des courbes de Johnson et Pearson par les moments), ou
d'autres distributions continues, comme les distributions Bêta,
Exponentielle, Valeur Extrême
(Type I, Gumbel), Gamma, Log-Normale,
Rayleigh et Weibull. Le
programme estime les paramètres de ces distributions par le
maximum de vraisemblance, et offre de nombreuses options pour
évaluer la qualité de l'ajustement de la
distribution respective aux données, notamment la
répartition des effectifs avec les effectifs
observés et théoriques, la statistique d
de Kolmogorov-Smirnov, divers histogrammes, tracés de
Probabilité-Probabilité (P-P)
et tracés Quantiles-Quantiles (Q-Q). Une
option vous permet également d'ajuster automatiquement
toutes les distributions, et de retenir celle qui ajuste le mieux les
données.
Analyses
de
Répétabilité/Reproductibilité
(R&R). Vous pouvez produire et analyser des plans de
répétabilité/reproductibilité
avec un ou plusieurs essais. Les données de l'analyse R&R
peuvent être organisés sous forme de
données brutes ou être mis en tableau dans un
format standard de feuille de données de R&R
utilisée dans de nombreuses publications de la
Société Américaine de
Contrôle Qualité ainsi que dans les ouvrages du
Groupe d'Action Automobile). Les résultats produits vous
permettent d'estimer les composantes de la variance
(répétabilité ou variation de
l'équipement, de l'opérateur ou variation de
l'estimation, variation des pièces, variation
opérateur-par-pièce, etc...), en utilisant la
méthode des étendues, ou la table ANOVA. Si vous
utilisez la table ANOVA, les intervalles de confiance des composantes
de la variance seront également estimés. D'autres
statistiques vous permettent d'estimer les composantes de la variance,
notamment le pourcentage de tolérance, la variation du
processus, et la variation totale. Le programme calcule
également les statistiques descriptives par
opérateur/pièce, des cartes d'étendue
et sigma par opérateurs/pièces, diverses
boîtes à moustaches, et des tracés de
synthèse R&R. Remarque :
d'autres méthodes vous permettent d'estimer les composantes
de la variance pour des effets aléatoires dans le module
spécialisé STATISTICA
Décomposition de la Variance (proposé
dans cette application, voir ci-dessous), ainsi que dans le module Modèle
Linéaire Général,
disponible dans ce produit.
|
Analyse
de Weibull. Les options de l'analyse de Weibull offrent un
certain nombre de techniques graphiques puissantes permettant
d'exploiter la puissance et le caractère
généraliste de la distribution Weibull qui peut
trouver son application dans différents domaines.
L'utilisateur peut produire des tracés de
probabilités Weibull et estimer les paramètres de
la distribution, ainsi que les intervalles de confiance de la
fiabilité. Les tracés de probabilités
peuvent être produits pour des données
complètes, mono-censurées, ou
multi-censurées, et les paramètres peuvent
être estimés pour des tracés de risque
des ordres d'échec. Les méthodes d'estimation
disponibles sont le maximum de vraisemblance (pour des
données complètes et censurées), des
facteurs de pondération basés sur des techniques
d'estimation linéaire pour des données
complètes et mono-censurées, ainsi que les
Estimateurs Modifiés des Moments, qui offrent des
estimations non-biaisées de la moyenne et de la variance.
Des intervalles de confiance sont calculés pour les
paramètres de forme, d'échelle, et de position,
ainsi que pour les centiles. Le programme comporte des tests graphiques
de qualité d'ajustement, ainsi que les tests d'ajustement de
Hollander-Proschan, Mann-Scheuer-Fertig, et Anderson-Darling. Remarque
: le module Modèles
Linéaires/Non-Linéaires
Généralisés offre
diverses options pour ajuster des modèles
linéaires généralisés issus
de la famille des distributions exponentielles à des
données normales et non normales.
|
Plans
d'échantillonage. Vous pouvez produire des plans
d'échantillonnage fixes et séquentiels pour des
moyennes normales et binomiales, ou des fréquences de
Poisson. Parmi les résultats produits, citons les tailles
d'échantillons, les courbes d'efficacité, les
tracés des plans séquentiels avec ou sans
données, la période opérationnelle
moyenne (H0/H1).
Remarque : le produit STATISTICA Puissance de Test
offre également diverses options pour calculer les
estimations de tailles d'échantillon requises et de la
puissance de test pour un grand nombre de modèles (par
exemple, ANOVA) et de type de données (par exemple, pour des
effectifs binaires, des données censurées de
temps à l'échec, etc...).
|
Puissance
de Test
![[Captures]](images/power_ss.gif) L'utilisation du module Puissance de
Test lors de la conception et l'analyse de vos
problèmes de recherche, vous assure de toujours utiliser vos
ressources le plus efficacement possible. Il n'a en effet rien de plus
décevant que de constater que vos travaux de recherche
manquent de fiabilité parce que la taille des
échantillons que vous avez utilisée est trop
faible. De même que l'utilisation d'échantillons
surdimensionnés peut constituer une perte de temps et
d'argent. Le module Puissance de Test va vous aider
à déterminer la taille idéale pour vos
échantillons et va enrichir vos travaux de recherche avec
une variété d'outils pour estimer les intervalles
de confiance et mener des analyses complètes de puissance de
tests.
Le module Puissance
de Test est un outil généraliste
complet pour vous aider dans vos tâches de conception et
d'analyse de travaux de recherche, vous permettant par exemple de
déterminer si la taille de votre échantillon est
appropriée à l'objectif de votre
étude. Il offre également une grande
variété d'outils pour analyser tous les aspects
des calculs de puissance de test et de taille d'échantillon.
Pourquoi Le module Puissance de Test
est-il le programme le plus moderne et le plus puissant de ce type ?
![[Boîte de dialogue des options]](images/pow_startup.gif)
- Parce qu'aucun autre programme de calcul de puissance de
test ne réunit autant de possibilités que le
module Puissance de Test.
- Parce que le module Puissance de Test
est de loin le plus rapide et le plus simple à utiliser.
- Parce que le module Puissance de Test
est le seul programme de ce type disponible sur le marché
qui va au-delà des simples tests standards de "l'effet
zéro", et qui intègre des méthodes
modernes utilisant la technologie des estimations d'intervalles. Le
programme peut calculer les intervalles de confiance exacts des tailles
des effets et les utiliser pour construire les intervalles de confiance
exacts de la puissance de test et des tailles
d'échantillons.
- Parce que le module Puissance de Test
offre des routines de calcul d'une précision et d'une
puissance sans égal. Les algorithmes de calcul sont
extrêmement précis et maintiennent cette
précision à travers une plus large gamme de
paramètres que les autres applications de puissance de
tests.
![[Calculateur du t]](images/t_calc.gif)
Examinez les captures d'écran ci-dessus qui
illustrent la manière dont le module Puissance de
Test peut traiter des calculs extrêmement lourds
sur des distributions non centrées. Un programme d'analyse
de puissance de test va produire un message d'erreur et refuser de
produire les calculs de l'exemple du F non
centré, avec un message "Échec de
Vérification des Limites". Un autre programme va produire,
sans autre commentaire, des résultats totalement faux pour
l'exemple du t non centré.
- Parce qu'en appuyant sur quelques boutons, le programme va
produire automatiquement des graphiques élégants
et professionnels, représentant la puissance de test en
fonction de la taille d'échantillon, la puissance de test en
fonction de la taille des effets, la puissance de test en fonction de
alpha. Des menus pour personnaliser l'étendue des graphiques
sont immédiatement disponibles, ce qui vous permet de
définir délimiter la zone à
étudier et de produire rapidement plusieurs graphiques
à la suite. Le programme produit tout le détail
de la procédure, décrivant le calcul sous une
forme pouvant être transférée
directement dans votre rapport final, publication, etc...
Calculs de Taille d'Échantillon. Le
module Puissance de Test calcule la taille
d'échantillon en fonction du risque de première
espèce et de la valeur des effets pour tous les tests cités ci-dessous. Le module Puissance de Test
calcule la puissance de test en fonction de la taille
d'échantillon, de la taille de l'effet, du risque de
première espèce pour les tests suivants :
- Comparaison d'une moyenne à un standard
- Test-t de comparaison de 2 moyennes dans
des échantillons indépendants
- Test-t de comparaison de 2 moyennes dans
des échantillons appariés
- Contrastes Planifiés
- ANOVA à 1 facteur (effets fixes ou
aléatoires)
- ANOVA à 2 facteurs
- Test du Chi2 sur une seule variable
- Test F de comparaison de 2 variances
- Test-Z (ou test du Chi2) de
comparaison d'une proportion à un standard
- Test-Z de coimparaison de 2 proportions
indépendantes
- Test de Mcnemar sur 2 proportions appariées
- Test-F de significativité du R2
- Test-t de significativité du
coefficient de corrélation
- Test-t de comparaison de 2 coefficients
de corrélation indépendants
- Test des Log-rangs de l'analyse de survie
- Test d'égalité de survie
exponentielle, avec période cumulée
- Test d'égalité de survie
exponentielle, avec une période cumulée et
abandons
- Test de significativité du Chi2
en modélisation d'équations structurelles
- Tests d'ajustement en analyse factorielle confirmatoire
dans la modélisation d'équations structurelles
... et bien plus encore !
Estimation des Intervalles de Confiance. La pratique
statistique moderne a donné un nouvel élan
à l'estimation des intervalles de confiance, non seulement
pour la conception des études, mais également
pour leur interprétation. Le module Puissance de
Test est le seul programme de ce type à calculer
les intervalles de confiance pour un certain nombre de grandeurs
statistiques importantes comme la taille des effets
centrés-réduits (dans les tests t
et l'ANOVA), les coefficients de corrélation, la
corrélation multiple au carré, une proportion
dans un échantillon et la différence entre les
proportions de plusieurs échantillons
(indépendants ou appariés). Ces
possibilités peuvent être utilisées
à la fois pour construire les intervalles de confiance sur
les valeurs telles que la puissance du test ou les tailles
d'échantillons, permettant ainsi à l'utilisateur
de construire à partir de données issues d'une
étude particulière, un intervalle de confiance
exact sur la taille d'échantillon requise pour une autre
étude.
Calculateurs de Distributions Statistiques. Outre,
le large choix de distributions disponibles dans tous les modules de STATISTICA,
le module Puissance de Test offre des
procédures spécifiques
particulièrement utiles pour réaliser des calculs
de puissance de test. Ces routines, qui incluent les distributions non
centrées de Student, du F et du Chi 2,
la distribution binomiale, les distributions exactes des coefficients
de corrélation et du coefficient de corrélation
multiple au carré, se caractérisent par leurs
faculté à produire une solution lorsqu'un
paramètre reste inconnu, et à traiter des cas
"non-nuls".
Par exemple, le programme peut non seulement calculer le coefficient de
corrélation de Pearson p en fonction de r
et de N pour rho=0, mais aussi
pour d'autres valeurs de rho. En outre, il peut
déterminer la valeur exacte de rho pour
un r donné à un pourcentage
particulier, et pour une taille d'échantillon N
donnée.
Exemple d'Application.
Imaginons que vous souhaitiez produire une ANOVA à un
facteur pour étudier l'effet d'un médicament.
Avant de concevoir l'étude, vous réalisez qu'une
étude similaire a déjà
été réalisée
précédemment. Cette étude
particulière était basée sur 4
groupes, avec N = 50 observations par groupe, et a donné une
valeur du F égale à 15,4.
À partir de cette information, vous pouvez (a)
évaluer l'importance de l'effet dans la population avec un
intervalle de confiance exact, (b) utiliser cette information pour
définir la taille minimum de votre échantillon
pour cette nouvelle étude.
Saisissez simplement les données dans la boîte de
dialogue appropriée, et les résultats sont
calculés instantanément comme vous pouvez le
constater à gauche.
Dans cet exemple, nous constatons que l'intervalle de confiance
à 90% de l'effet quadratique moyen
centré-réduit (RMSSE), est compris entre 0,398 et
0,686. Avec des effets de cette ampleur, il n'est pas
étonnant que l'intervalle de confiance à 90% de
la puissance du test soit compris entre 0,989 et presque 1. Nous
pouvons utiliser cette information pour construire l'intervalle de
confiance du N désiré afin
d'obtenir la puissance de test cible (dans ce cas, 90%). Cet intervalle
de confiance est compris entre 12 et 31. Ainsi, sur la base de
l'étude précédente, nous pouvons
être sûr à 90% qu'une taille
d'échantillon n'excédant pas 31 aurait
été suffisante pour obtenir une puissance de test
de 0,90.
![[Premier graphique]](images/power1.gif) ![[Second graphique]](images/power2.gif)
Revenons
à notre étude, et supposons que nous cherchions
à examiner la relation entre la puissance de test et la
taille de l'effet pour une taille d'échantillon
égale à 31. Le premier graphique (à
gauche) indique clairement que tant que la taille de l'effet du
médicament demeure dans l'intervalle de confiance
défini dans l'étude
précédente, la puissance du test reste
importante. En revanche, si la taille de l'effet de notre
médicament est de l'ordre de 0,25, la puissance du test
deviendrait clairement inadaptée. De la même
manière, si nous utilisions la même taille
d'échantillon que dans l'étude
précédente (c'est-à-dire 50 individus
par groupe), nous constaterions que la puissance de test reste
raisonnable, même pour des effets de l'ordre de 0,28 (voir le
graphique à droite). Avec le module Puissance de
Test, toute cette analyse ne prendrait guère plus
qu'une minute ou deux.
|