
Fonctionnalités de STATISTICA - Statistiques Avancées
STATISTICA Statistiques Avancées offre la gamme la plus veste de techniques exploratoires multivariées et d'outils
interactifs de modélisation linéaire et non-linéaire dans un seul logiciel. Langage de programmation
Visual Basic et nombreux graphiques intégrés dans toutes les analyses.
Grâce à STATISTICA Statistiques Avancées, explorez les relations entre les variables, créez des typologies,
modélisez les relations entre vos variables (modèles avec des prédicteurs continus et catégoriels, interactions,
modèles hiérarchiques...) ; vous disposez de tous les outils pour sélectionner automatiquement le meilleur modèle.
STATISTICA Statistiques Avancées fonctionne sur les plates-formes
Windows 2000, Windows XP et Windows Vista. Ce produit est constitué des modules suivants :
STATISTIQUES
DESCRIPTIVES, DÉCOMPOSITIONS ET ANALYSE EXPLORATOIRE DES DONNÉES. STATISTICA
Base vous propose une large gamme de méthodes pour réaliser vos analyses exploratoires :
Statistiques Descriptives et Graphiques. Le programme calcule les statistiques descriptives les plus courantes et généralistes comme les médianes, modes, quartiles, centiles personnalisés, moyennes et écarts-types, intervalles inter-quartiles, limites de confiance autour de la moyenne, asymétries et aplatissements (avec leurs erreurs-types respectives), moyennes harmoniques et géométriques, ainsi que de nombreuses statistiques descriptives et diagnostiques spécialisés. Comme dans tous les modules de STATISTICA, de nombreux graphiques vous aident lors de la phase exploratoire de vos analyses, par exemple, divers types de boîtes à moustaches, histogrammes, histogrammes bivariés (en 3D ou catégorisés), nuages de points en 2D et 3D avec représentation différenciée de catégories, tracés de normalité (droite de Henry, normalité par moitié, écarts à la normalité), tracés Q-Q, tracés P-P, etc... Différents tests sont proposés pour vérifier la normalité de vos données (tests de Kolmogorov-Smirnov, Lilliefors et Shapiro-Wilk ; vous pouvez toutefois tester l'ajustement de nombreuses autres distributions ; voir aussi le descriptif du module Analyse de Processus ainsi que le paragraphe concernant l'ajustement dans les Graphiques).
![]()
CORRÉLATIONS. Diverses
options vous permettent d'étudier les corrélations entre vos variables.
Les mesures d'association les plus courantes peuvent être calculées, notamment
le r de Pearson, le R des rangs de Spearman, le tau (b, c) de Kendall,
le Gamma, le rtétrachorique, le Phi, le V de Cramer, le coefficient de contingence
C, le D de Sommer, les coefficients d'incertitude, les corrélations partielles et semi-partielles,
les autocorrélations, diverses mesures de distances, etc... (des régressions non-linéaires, ou sur des données
censurées et autres mesures spécialisées de corrélations sont proposées dans les modules Estimation
Non-Linéaire, Analyse de
Survie, ainsi que dans d'autres modules du produit complémentaire STATISTICA Statistiques Avancées). Vous pouvez calculer des matrices de corrélation avec
diverses options de traitement des valeurs manquantes : vous pouvez ignorer les cellules à
valeurs manquante, ignorer toute observation contenant au moins une valeur manquante,
ou remplacer les valeurs manquantes par la moyenne de la variable respective. Comme
dans tous les autres modules de STATISTICA, les calculs
sont réalisés en précision étendue (la "quadruple" précision, à chaque
fois que c'est possible) afin d'obtenir des résultats aussi précis que possible
(voir la section sur la Précision).
Comme tous les autres résultats de STATISTICA, les matrices de
corrélations sont affichées dans des feuilles de données, vous offrant
diverses options de mise en forme (voir ci-dessous) et de représentation des
résultats numériques ; vous pouvez ainsi cliquer sur une corrélation
particulière dans la feuille de données et choisir de représenter ce
coefficient grâce à l'un des nombreux "graphiques de synthèse" disponibles
(par exemple, un nuage de points avec des intervalles de confiance,
divers histogrammes bivariés en 3D, des tracés de probabilité, etc...).
Balayage et détection des points atypiques. L'outil de balayage dans les nuages de points permet à l'utilisateur de sélectionner/désélectionner des points individuels dans le tracé pour mesurer leur influence sur la droite de régression (ou sur la courbe d'ajustement). Formats d'affichage des nombres. Divers formats globaux d'affichage sont proposés pour les corrélations ; les coefficients de corrélation significatifs peuvent apparaître en surbrillance automatiquement, et chaque cellule de la feuille de données peut reporter les n et niveaux p, ou encore, vous pouvez demander les résultats détaillés avec toutes les statistiques descriptives (moyennes et écarts-types par couples, pondérations B, ordonnées à l'origine, etc...). Comme pour tous les autres résultats numériques, les matrices de corrélations sont affichées dans des feuilles de données offrant des options de zoom et d'affichage/mise en forme interactifs (par exemple, changer +.4 en +.41358927645193) ; vous pouvez donc compacter de grandes matrices (soit en utilisant le zoom, soit en modifiant la largeur des colonnes à l'aide de la souris pour des colonnes individuelles, ou en utilisant un bouton de la barre d'outils pour modifier la largeur de toutes les colonnes) afin de faciliter l'identification visuelle des coefficients dépassant un certain niveau personnalisé, ou un seuil de significativité (par exemple, les cellules respectives peuvent apparaître en rouge dans la feuille de données).
|
![]()
STATISTIQUES ÉLÉMENTAIRES SUR DES TABLEAUX DE RÉSULTATS (FEUILLES DE DONNÉES).
STATISTICA est un système analytique intégré qui affiche tous ses résultats numériques sous la forme
de feuilles de données utilisables directement (sans aucune modification) en entrée d'autres analyses.
Vous pouvez ainsi produire des statistiques élémentaires (ou tout autre type d'analyse statistique)
à partir des tableaux de résultats d'une analyse précédente ; vous pouvez par exemple calculer très rapidement
un tableau de moyennes sur 2000 variables, puis utiliser ce tableau comme fichier d'entrée pour analyser la
distribution de ces moyennes selon les variables. Les statistiques élémentaires sont donc accessibles à
tout moment d'une analyse, et peuvent être calculées sur toute type de résultat.
Statistiques de Blocs. Outre les statistiques descriptives que vous pouvez calculer sur chaque feuille de données, vous pouvez mettre des blocs de cellules numériques en surbrillance dans une feuille de données, et produire rapidement un certain nombre de graphiques et de statistiques descriptives sur ce bloc sélectionné (sous-ensemble de données) uniquement. Par exemple, si vous avez produit une feuille de données avec les caractéristiques de tendance centrale de 2000 variables (par exemple, avec les moyennes, modes, médianes, moyennes géométriques et harmoniques) ; vous pouvez mettre un bloc en surbrillance, disons de 200 variables avec uniquement les moyennes et les médianes, puis produire un graphique curviligne multiple de ces deux mesures pour les 200 variables sélectionnées. Vous pouvez réaliser des analyses statistiques sur des blocs de lignes ou de colonnes ; par exemple, vous pouviez également produire un tracé curviligne d'un groupe de variables en fonction de différentes caractéristiques de tendance centrale. Pour résumer, les statistiques de blocs vous permettent de produire des statistiques et graphiques statistiques à partir de valeurs arbitrairement sélectionnées (mises en surbrillance) dans votre feuille de données (données d'entrée ou résultats d'analyses).
|
CALCULATEUR INTERACTIF DE PROBABILITÉS.
Un Calculateur de Probabilités interactif est accessible depuis toutes
les barres d'outils. Il vous propose une large gamme de
distributions (en particulier Bêta, Cauchy, Chi2,
Exponentielle, Valeur Extrême, F, Gamma,
Laplace, Log-normale, Logistique, Pareto,
Rayleigh, t (Student), Weibull, et Z (Normale)) ; la
mise à jour interactive des graphiques dans cette boîte de dialogue (tracé des
fonctions de répartition et de densité) permet à l'utilisateur de visualiser ces
distributions en utilisant les micro-défilements "intelligents" de
STATISTICA qui permettent à l'utilisateur d'augmenter la dernière
décimale significative (en appuyant sur le bouton GAUCHE de la souris) ou
l'avant-dernière (en appuyant sur le bouton DROIT de la souris).
Diverses options vous permettent de produire des graphiques composés et personnalisables de
distributions avec des seuils spécifiques. Ce calculateur de probabilités vous
permet donc d'explorer de façon interactive les distributions (par exemple, les
probabilités respectives associées à différents paramètres de dispersion (forme)).
|
Tests T et autres Tests d'Homogénéité
entre des Groupes. Vous pouvez calculer des tests t pour des
échantillons appariés ou indépendants, comparer des valeurs à un standard (par exemple,
tester des moyennes par rapport à une constante particulière) ou encore des tests
multivariés T 2 de Hotelling (voir aussi le module ANOVA/MANOVA
et le module GLM (Modèle
Linéaire Général) proposé dans le produit complémentaire
STATISTICA Statistiques Avancées.
Diverses options vous permettent de comparer aisément vos variables (par
exemple, vous pouvez traiter différentes colonnes de votre feuille de données
comme des échantillons distincts) et vos groupes (par exemple, si vos données
contiennent une variable catégorielle de classement représerntant par exemple le Sexe,
et permettant d'identifier à quel groupe chaque observation appartient). Par exemple,
après un test t pour des échantillons indépendants, vous pouvez calculer des
tests t avec une estimation séparée des variances, le test d'homogénéité des
variances de Levene, divers histogrammes catégorisés, boîtes à moustaches, tracés de
probabilités, ou nuages de points catégorisés, etc... D'autres tests d'homogénéité (plus
spécialisés) sont proposés dans des modules spécifiques (par exemple, Tests Non-Paramétriques
(voir ci-dessous), ou encore Analyse de
Survie et Fiabilité/Analyse
d'Échelle (tous deux proposés dans le produit complémentaire STATISTICA Statistiques Avancées).
|
![]() TABLES DE FRÉQUENCES,
TRIS CROISÉS, ANALYSE DE RÉPONSES MULTIPLES. Diverses fonctionnalités
vous permettent de croiser des variables continues, catégorielles, et à
réponses ou dichotomies multiples. De nombreuses options vous permettent de contrôler la
mise en forme et le format des tableaux. Ainsi, pour des tableaux avec des variables de réponses
ou dichotomies multiples, les effectifs marginaux et pourcentages peuvent être calculés à partir du
nombre total de répondants ou de réponses, les variables à réponses multiples peuvent être traitées
par couples, et vous pouvez comptabiliser (ou ignorer) les valeurs manquantes de diverses manières. Les
tables de fréquences peuvent également être calculées en utilisant des filtres de sélection logiques
(d'une complexité quasi-illimitée, utilisant toute variable du fichier de données) pour affecter les
observations à des catégories du tableau. Tous les tableaux peuvent être personnalisés et mis en forme
(habillés) pour produire des comptes-rendus de qualité. Par exemple, des tableaux "de synthèse à plusieurs
entrées" peuvent être produits avec une organisation hiérarchique des facteurs ; dans les tableaux croisés,
vous pouvez reporter le pourcentage de chaque cellule par rapport au total en ligne, en colonne ou à
l'effectif total ; vous pouvez utiliser des étiquettes pour décrire les catégories de votre tableau, ou
encore mettre les effectifs supérieurs à un certain seuil en surbrillance dans le tableau, etc... Le
programme peut reporter les effectifs cumulés et relatifs, les effectifs transformés Logit et Probit,
les effectifs normaux théoriques (ainsi que les tests de Kolmogorov-Smirnov, Lilliefors et
Shapiro-Wilk), les effectifs théoriques et les résidus dans les tableaux croisés, etc...
Divers tests statistiques vous sont proposés pour les tableaux croisés, notamment les tests du Chi2 de Pearson,
du Maximum de Vraisemblance et de Yates (corrigé), le Chi2 de McNemar, le test exact de Fisher
(unilatéral et bilatéral), le Phi, et le r tétrachorique ; ou encore le tau (a, b)
de Kendall, Gamma, r de Spearman, D de Sommer, coefficients d'incertitude, etc...
Graphiques. Diverses options graphiques vous sont également proposées, en particulier des histogrammes simples, catégorisés (multiples), ou en 3D, des histogrammes croisés (pour chaque "section" d'un tableau élémentaire, à double entrée, ou d'ordre multiple), ainsi que de nombreux autres graphiques, y compris un "tracé d'interaction des effectifs" qui synthétise les effectifs d'un tableau croisé complexe (sur le même principe que les tracés de moyennes dans l'ANOVA). Vous pouvez visualiser des cascades de graphiques même complexes (par exemple, catégorisation multiple, ou interactions) de façon interactive. Voir aussi la section sur les Statistiques de Blocs, ci-dessus, et la description des modules Analyse Log-Linéaire et Analyse des Correspondances (tous deux proposés dans le produit complémentaire STATISTICA Statistiques Avancées).
|
![]() RÉGRESSION MULTIPLE. Le module Régression Multiple propose diverses techniques
de régression linéaire, en particulier des régressions simples, multiples, pas-à-pas (ascendante, descendante,
ou par blocs), hiérarchiques, non-linéaires (en particulier polynomiale, exponentielle, logarithmique, etc...),
des régressions Ridge, avec ou sans ordonnée à l'origine (c'est-à-dire passant ou non par l'origine), et
modèles de moindres carrés pondérés ; d'autres méthodes avancées sont proposées dans le module Modèles
Généraux de Régression (GRM) (par exemple, recherche exhaustive du meilleur modèle, régression pas-à-pas
multivariée pour plusieurs variables dépendantes, avec des modèles pouvant comporter des effets de facteurs
catégoriels ; synthèse statistique des échantillons utilisés pour la validation et la prévision, hypothèses
personnalisées, etc...). Le module Régression Multiple permet de calculer divers diagnostiques et
statistiques, notamment la table complète de la régression (y compris les erreurs-types de B, Bêta et
de l'ordonnée à l'origine, le R2 et le R2 ajusté pour les modèles avec ou sans ordonnée à
l'origine et la table ANOVA de la régression), la matrice des corrélations partielles, les corrélations et
covariances des coefficients de régression, la matrice sweep (inverse), le d de Durbin-Watson, les
distances de Mahalanobis et de Cook, les intervalles de confiance autour des valeurs prévues , etc...
Valeurs prévues et résidus. De nombreux tracés tels que nuages de points, histogrammes, tracés de normalité (droite de Henry, normalité par moitié, écarts à la normalité), tracés de corrélations partielles, etc..., vous permettent de poursuivre l'analyse des résidus et des points atypiques plus avant. Les résultats de chaque observation peuvent être représentés graphiquement à l'aide des tracés exploratoires de figures et autres graphiques multidimensionnels intégrés, accessibles directement depuis les feuilles de données. Les résidus et les valeurs prévues peuvent être automatiquement ajoutées au fichier de données. Une routine de prévision permet à l'utilisateur d'effectuer des analyses conditionnelles, et de calculer de façon interactive les valeurs prévues pour des valeurs spécifiques des prédicteurs. Analyses par Groupes ; procédures associées. D'autres procédures de régression permettent de traiter des modèles extrêmement importants. Une option vous permet de réaliser des régressions multiples décomposées selon une ou plusieurs variables catégorielles (régression multiple par groupe) ; d'autres procédures permettent encore de traiter des modèles avec plusieurs milliers de variables, de calculer des régressions par les Moindres Carrés à deux Étapes, ainsi que des transformations Box-Cox et Box-Tidwell avec des graphiques. Le produit complémentaire STATISTICA Statistiques Avancées, contient également divers modules généraux d'estimation non-linéaire (Estimation Non-Linéaire, Modèles Linéaires/Non-Linéaires Généralisés (GLZ), Modèles Généraux PLS) qui permettant d'estimer pratiquement tout type de modèle non-linéaire personnalisé, en particulier Logit, Probit, etc... Ce produit complémentaire contient également un module généraliste de Modélisation d'Équations Structurelles et d'Analyse de Causalité (SEPATH), qui vous permet d'analyser des matrices de corrélations, de covariance ou des moments, très importantes (pour des modèles avec ordonnée à l'origine).
|
![]() TESTS NON-PARAMÉTRIQUES. Le module
Tests Non-Paramétriques CONTIENT toute une gamme de statistiques descriptives et inférentielles,
avec les tests les plus courants et certaines procédures spéciales.
Parmi les procédures statistiques disponibles, citons le test des séries de Wald-Wolfowitz, le test
U de Mann-Whitney (avec les probabilités exactes [et non les approximations Z] pour les
petits échantillons), les tests de Kolmogorov-Smirnov, le test de Wilcoxon pour des échantillons appariés,
l'ANOVA par rangs de Kruskal-Wallis, le test de la médiane, le test des signes, l'ANOVA par rangs de
Friedman, le test Q de Cochran, le test de McNemar, le coefficient de concordance de Kendall, le
tau (b, c) de Kendall, le R de Spearman, le test exact de Fisher, les tests du
Chi2, le V2, Phi, Gamma, le d de Sommer, les coefficients de contingence,
etc... (des statistiques et tests non-paramétriques spécialisés sont également disponibles dans d'autres
modules, par exemple Analyse de
Survie, , etc..., ou dans le module Analyse de Processus) Tous les tests (basés sur des rangs) permettent de tenir compte des ex-aequos
et appliquent des corrections pour les petits n ou les ex-aequos. Comme dans tous les autres modules
de STATISTICA, des graphiques sont intégrés à tous les tests (notamment des nuages de points,
boîtes à moustaches spécialisées, tracés curvilignes, histogrammes, et autres graphiques en 2D ou 3D).
|
ANOVA/MANOVA. Le module ANOVA/MANOVA ne contient qu'une partie des fonctionnalités proposées
dans le module Modèle Linéaire
Général et peut réaliser des analyses de variance univariées et multivariées sur des plans
factoriels avec ou sans mesures répétées (ce moduile peut traiter au maximum un facteur de mesure répétée).
Pour des modèles linéaires plus complexes avec des variables prédictives catégorielles ou continues, des
effets aléatoires, et plusieurs facteurs de mesures répétées, vous devez utiliser le module Modèle
Linéaire Général (le module Modèles
Généraux de Régression (GRM) offre diverses options d'analyse pas-à-pas et de sélection du
meilleur modèle). Dans le module ANOVA/MANOVA , vous pouvez spécifier tous les modèles de manière
extrêmement simple, en termes fonctionnels de variables et niveaux (et non pas en termes techniques,
par exemple, en spécifiant des matrices de codes), et même les utilisateurs les moins familiarisés avec
l'ANOVA peuvent analyser des modèles très complexes avec STATISTICA.
Interface-utilisateur. Comme dans le module Modèle Linéaire Général, le module ANOVA/MANOVA offre trois interfaces-utilisateur alternatives pour spécifier les modèles : (1) Un Assistant Analyse qui vous guide pas-à-pas pour spécifier votre modèle, (2) une interface-utilisateur simplifiée qui vous permet de spécifier votre modèle en sélectionnant les variables, les codes, les niveaux, et d'autres options du modèle dans une boîte de dialogue de spécifications rapides, et (3) un Éditeur de Syntaxe qui vous permet de spécifier vos modèles et leurs options grâce à des mots-clé et une syntaxe commune. Méthodes de calcul. Par défaut, le programme utilise une paramétrisation sigma-restreint pour les modèles factoriels et applique l'approche de l'hypothèse efficace (voir Hocking, 19810) lorsque le modèle n'est pas équilibré ou s'il est incomplet. Il est possible de calculer les hypothèses (standard) de type I, II, III, et IV ; les hypothèses de type V et de type VI permettent de réaliser des tests dans la logique des analyses-type des plans factoriels fractionnaires utilisés dans les applications industrielles et d'amélioration de la qualité (voir aussi la description du module Plans d'Expériences). Résultats. Le module ANOVA/MANOVA n'est pas limité en termes de routines de calcul ce qui vous permet d'accéder à l'ensemble des outils analytiques disponibles dans le module Modèle Linéaire Général (voir la description du module Module Linéaire Général (GLM) pour plus d'informations) ; parmi les résultats standard, vous retrouverez les tableaux de synthèse de l'ANOVA, les résultats univariés et multivariés des facteurs de mesures répétées à plus de 2 niveaux, les ajustements de Greenhouse-Geisser et Huynh-Feldt, les tracés d'interactions, des statistiques descriptives détaillées, diverses statistiques sur les résidus, les comparaisons planifiées et tests post-hoc, des tests d'hypothèses et termes d'erreur personnalisés, diverses statistiques et tracés diagnostiques détaillés (par exemple, un histogramme des résidus intra, tests d'homogénéité des variances, tracés des moyennes en fonction des écarts-types, etc...).
|
![]() AJUSTEMENT DE
DISTRIBUTIONS.
Les options du module Ajustement de Distributions vous permettent de comparer la distribution
d'une variable en fonction de nombreuses distributions théoriques. Vous pouvez ajuster vos données par
une distribution Normale, Uniforme, Exponentielle, Gamma, Log-normale,
du Chi2, Weibull, Gompertz, Binomiale, de Poisson, Géométrique,
ou de Bernoulli. Vous pouvez ensuite évaluer l'ajustement par un test du Chi2 ou par un test
de Kolmogorov-Smirnov (avec contrôle des paramètres d'ajustement) ; les tests de Lilliefors et Shapiro-Wilk
sont également proposés (voir ci-dessus). Vous pouvez évaluer l'ajustement d'une distribution particulière
à une distribution empirique grâce à des histogrammes personnalisés (standard ou cumulés) avec superposition
des fonctions sélectionnées ; vous pouvez produire des graphiques curvilignes et en bâtons des effectifs
théoriques et observés, ou des divergences et autres résultats dans toutes les feuilles de données de
résultats. D'autres options d'ajustement de distributions sont proposées dans le module STATISTICA Analyse de Processus, où
l'utilisateur peut estimer les paramètres par le maximum de vraisemblance pour les distributions
Bêta, Exponentielle, Valeur Extrême (Type I, Gumbel), Gamma, Log-normale,
Rayleigh, et Weibull. Ce module vous permet également de sélectionner et ajuster automatiquement
la meilleure distribution à vos données, ou encore d'ajuster des distributions générales par les moments
(à l'aide des courbes de Johnson et de Pearson). Des fonctions personnalisées en 2 et 3 dimensions peuvent
également être représentées et superposées sur les graphiques. Les fonctions peuvent faire référence à de
nombreuses distributions comme la distribution Bêta, Binomiale, de Cauchy, du Chi2,
Exponentielle, Valeur Extrême, du F, Gamma, Géométrique, Laplace,
Logistique, Normale, Log-normale, de Pareto, de Poisson, Rayleigh,
du t (Student), ou de Weibull, ou leurs intégrales et inverses. D'autres fonctionnalités
permettant d'ajuster des fonctions prédéfinies ou personnalisées d'une complexité quasi-illimitée à vos
données sont décrites dans le cadre du module Estimation
Non-Linéaire (disponible dans le produit STATISTICA Statistiques Avancées).
|
![]()
CLASSIFICATIONS. Ce module propose diverses méthodes de classification (k-moyennes,
classification ascendante hiérarchique (CAH), classification conjointe). Le programme peut traiter des fichiers
de données brutes ou des matrices contenant diverses mesures de distances (par exemple, de corrélations).
L'utilisateur peut agréger des observations, des variables, ou les deux, avec différentes options de mesure des
distances (euclidienne, euclidienne au carré, City-block (Manhattan), Chebychev, distances à la puissance,
percentage disagreement et 1-r) et d'agrégation des données (saut minimum, diamètre, centroïde
ou moyenne pondérée ou non du groupe, méthode de Ward, ...). Les matrices des distances peuvent être enregistrées
pour poursuivre l'analyse dans d'autres modules de STATISTICA. Dans la procédure des k-moyennes,
l'utilisateur a un contrôle total sur les centres de classes initiaux. Vous pouvez analyser des modèles très
vastes (par exemple, vous pouvez analyser plus de 1000 variables ou plus d'un million de distances individuelles
avec une CAH). Outre les résultats standard de la classification, diverses statistiques descriptives et
diagnostiques détaillés (comme le schéma de l'agrégation dans une classification ascendante hiérarchique, ou
la table ANOVA dans les k-moyennes) peuvent être calculés. Une variable indiquant l'appartenance
de chaque observation à une classe peut être ajoutée au fichier de données pour un traitement (approfondi)
ultérieur. Les graphiques spécifiques proposés dans le module Classifications sont notamment
le dendrogramme, les tracés matriciels en mosaïque pour les classifications conjointes, le tracé des
étapes de l'agrégation, le tracé des moyennes dans les k-moyennes, etc...
|
ANALYSE FACTORIELLE. Le module Analyse factorielle contient de nombreuses statistiques,
options, et techniques d'analyse factorielle (et d'analyse factorielle hiérarchique) avec de nombreux graphiques
analytiques et exploratoires et toute une gamme de diagnostiques étendus. Vous pouvez réaliser des analyses
en composantes principales, ou des analyses factorielles classiques et hiérarchiques (obliques) sur des jeux
de données très importants (par exemple, plusieurs milliers de variables). Vous pouvez également réaliser
des analyses factorielles confirmatoires (et des analyses de causalité) dans le module Modélisation d'Équations Structurelles
(SEPATH).
|
ACP "À LA FRANÇAISE" (ANALYSE EN COMPOSANTES
PRINCIPALES). STATISTICA possède également un programme spécifique d'ACP "à la française".
Vous pouvez obtenir les valeurs propres (standard, cumulées, relatives), les poids factoriels, les coordonnées
des individus sur les axes (que vous pouvez ensuite ajouter au fichier de données, représenter graphiquement, et
recodifier de façon interactive), ainsi que d'autres statistiques et diagnostiques plus techniques. Les rotations
disponibles sont : Varimax, Equamax, Quartimax, Biquartimax (brutes ou normalisées), et Obliques. L'espace
factoriel peut être représenté "section par section" sous la forme de nuages de points en 2D ou en 3D
avec le nom des variables ; d'autres graphiques intégrés vous sont proposés comme le tracé des valeurs propres,
divers nuages de points, graphiques curvilignes et tracés en bâtons. Après avoir déterminé une solution
factorielle, l'utilisateur peut ensuite recalculer (c'est-à-dire, reconstruire) la matrice de corrélations à
partir du nombre de facteurs retenus afin d'évaluer l'ajustement du modèle factoriel. Vous pouvez utiliser en
entrée d'analyse, des fichiers de données brutes ou des matrices de corrélations. Vous pouvez également
réaliser des analyses factorielles confirmatoires dans le module Modélisation d'Équations Structurelles et
Analyse de Causalité, où un Assistant spécifique à l'Analyse Factorielle Confirmatoire
vous guide pas-à-pas pour spécifier votre modèle.
|
ANALYSE CANONIQUE. Ce module vous propose diverses procédures d'analyse
canonique ; le programme accepte en entrée des fichiers de données brutes ou des matrices de corrélations et
calcule les statistiques classiques de la corrélation canonique (en particulier, les vecteurs propres, les
valeurs propres, les coefficients de redondance, les poids canoniques, les variances extraites, les tests
de significativité de chaque racine, etc...) et de nombreux diagnostiques poussés. Les résultats des variants
canoniques peuvent être calculés pour chaque observation et ajoutés au fichier de données, ou représentés
à l'aide des tracés de figures intégrés. Le module Analyse Canonique propose également divers
graphiques intégrés (notamment le tracé des valeurs propres, les corrélations canoniques, les nuages de
points des variants canoniques, ...). Remarques : vous pouvez réaliser des analyses confirmatoires de
relations structurelles entre des variables latentes dans le module SEPATH (Modélisation d'Équations Structurelles
et Analyse de Causalité). Vous pouvez également réaliser une sélection pas-à-pas et rechercher le
meilleur modèle de prédicteurs pour des modèles de type MANOVA/MANCOVA (avec plusieurs variables dépendantes)
dans le module Modèles Généraux de Régression
(GRM).
|
ANALYSE de FIABILITÉ/ÉCHELLE. Ce module propose toute une gamme de procédures
pour la mise en place et l'évaluation d'enquêtes et de questionnaires. Comme dans les autres modules de
STATISTICA Vous pouvez analyser des modèles très importants. Vous pouvez calculer des
statistiques de fiabilité pour toutes les questions d'une échelle, sélectionner de façon interactive des
sous-ensembles, ou comparer des sous-ensembles de questions par la méthode dite "par moitié". Au cours
d'une même analyse, vous pouvez évaluer la fiabilité d'une échelle de sommes ou de "sous-échelles".
Lorsque vous supprimez de façon interactive des questions, un nouvel indicateur de fiabilité est calculé
instantanément sans avoir à retraiter le fichier de données. Les statistiques produites sont les matrices
de corrélations et les statistiques descriptives des questions, l'alpha de Cronbach, l'alpha
standardisé, la corrélation moyenne inter-questions, la table ANOVA complète de l'échelle, toutes les
statistiques questions-total (y compris les R multiples question-total), la fiabilité par moitié,
et les corrélations entre les deux moitiés corrigées pour l'atténuation. Divers graphiques (nuages de
points, histogrammes, tracés curvilignes et autres tracés intégrés) ainsi que des procédures conditionnelles
interactives vous aident lors de l'élaboration des échelles. Par exemple, l'utilisateur peut calculer la
fiabilité attendue après l'ajout d'un certain nombre de questions à l'échelle, et peut estimer le nombre
de questions qu'il faudrait ajouter à l'échelle pour obtenir une fiabilité donnée. En outre, l'utilisateur peut
estimer la corrélation corrigée de l'atténuation entre l'échelle courante et une autre mesure (compte tenu de
la fiabilité de l'échelle actuelle)
|
![]()
ARBRES DE DÉCISION [CLASSIFICATION]. Le module Arbres de Décision [Classification] de
STATISTICA utilise les derniers algorithmes développés pour produire efficacement et tester la
robustesse des arbres de classification (un arbre de classification est une règle permettant de prévoir
la classe d'appartenance d'un objet à partir des valeurs des variables prédictives). D'autres méthodes
avancées d'arbres de classification, y compris des méthodes flexibles de construction de modèles et des
outils interactifs d'exploration d'arbres sont également disponibles dans les modules Modèles d'Arbres
de Classification et de Régression (GTrees) et Modèles CHAID (Chi-square Automatic Interaction Detection).
Les arbres de classification peuvent être produits en utilisant des variables prédictives catégorielles,
des variables prédictives ordonnées, ou les deux, et en réalisant des divisions univariées ou des
combinaisons linéaires de divisions. Diverses options d'analyse vous sont proposées, notamment des divisions
exhaustives (comme dans THAID et C&RT) ou des divisions basées sur une analyse discriminante ;
sélection non-biaisée des variables (comme dans QUEST) ; règles d'arrêt direct de l'élagage (comme dans
FACT) ou élagage de bas-en-haut (comme dans CART) ; élagage basé sur les taux de mauvaise
classification ou sur la fonction d'écrt ; coefficients de qualité d'ajustement du Chi2 généralisé,
du G2, ou de Gini. Vous pouvez demander des coûts de mauvais classement ou des probabilités a
priori égaux, estimés à partir des données, ou personnalisés. Vous pouvez également spécifier la valeur
v de la validation croisée par v-ensembles lors de la construction de l'arbre ou pour l'estimation
de l'erreur, l'importance de la règle de l'Erreur-Type, la taille minimum d'un noeud avant élagage, les
amorces des générateurs de nombres aléatoires, et la valeur alpha pour la sélection des variables.
Diverses options graphiques intégrées vous permettent d'explorer vos données d'entrée et de sortie.
Voir aussi la description des modules : Arbres de Décision (GTrees) et CHAID (Chi-square Automatic Interaction Detection)
|
![]() ANALYSE DES CORRESPONDANCES Ce module contient diverses techniques d'analyse des
correspondances, simple et multiple, applicables sur des tableaux très vastes. Le programme accepte
en entrée des fichiers de données avec des variables de classement (codes) destinées à calculer
les tableaux croisés ; vous pouvez aussi utiliser des fichiers de données contenant des effectifs
(ou d'autres mesures de correspondance, association, ressemblance, confusion, etc...) avec des variables
de classement permettant de renseigner les différentes cellules du tableau d'entrée avec les effectifs
correspondants (ou d'autres mesures de correspondance) ; vous pouvez enfin utiliser un fichier contenant
bruts uniquement (dans ce cas, l'utilisateur peut saisir et analyser directement une table de fréquences).
Pour une analyse des correspondances multiple, l'utilisateur peut spécifier directement la table de
Burt en entrée d'analyse. Le programme calcule notamment le tableau des pourcentages lignes,
des pourcentages colonnes et des pourcentages totaux, les valeurs théoriques, l'écart entre les
valeurs observées et théoriques, les écarts centrés-réduits, et les contributions au Chi2.
Le module Analyse des Correspondances va également calculer les valeurs propres et vecteurs
propres généralisés, et calculer divers diagnostiques standard, notamment les valeurs singulières,
les valeurs propres, et la proportion d'inertie sur chaque dimension. L'utilisateur peut choisir
manuellement le nombre de dimensions, ou spécifier un seuil correspondant à la part maximale d'inertie
cumulée. Le programme va calculer les valeurs standard des coordonnées pour les points lignes et colonnes.
Vous pouvez choisir une standardisation des profils-lignes, des profils-colonnes, des profils lignes et
colonnes, ou une standardisation canonique. Pour chaque dimension et chaque point ligne ou colonne,
le programme calcule l'inertie, la qualité de représentation et les cosinus2. En outre,
l'utilisateur peut produire (dans des feuilles de données) la matrice des vecteurs singuliers
généralisés ; comme pour les valeurs de toutes les feuilles de données, ces matrices sont accessibles
en STATISTICA Visual Basic, ce qui vous permet par exemple de définir vos propres méthodes
(non-standard) de calcul des coordonnées. Vous pouvez calculer les coordonnées et les statistiques
associées (qualité de représentation et cosinus2) des points supplémentaires (observations ou
variables), et comparer ces résultats à ceux des points lignes et colonnes actifs. Vous pouvez aussi
ajouter des points supplémentaires (observations et/ou variables) dans l'analyse des correspondances
multiple. Outre les histogrammes en 3D proposés pour toutes les tables, vous pouvez représenter
les valeurs propres dans un graphique curviligne, et afficher les points lignes ou colonnes dans des
tracés en 1D, 2D, et 3D. Vous pouvez représenter les points lignes et colonnes avec les points
supplémentaires dans un même graphique (chaque type de point utilisant une couleur et un symbole
de points différents, afin d'identifier rapidement les différents types de points du graphique).
Tous les points sont étiquetés et vous pouvez limiter le nom des points à un certain nombre de
caractères.
|
ANALYSE DE PROXIMITÉ. Le module Analyse de Proximité vous permet de réaliser des analyses
multidimensionnelles (non métriques). Vous pouvez analyser des matrices de similarité, de dissimilarité,
ou de corrélations entre variables (c'est-à-dire, des "objets" ou des observations) en spécifiant jusqu'à
9 dimensions. La configuration de départ peut être calculée par le programme (à l'aide d'une ACP) ou
spécifiée par l'utilisateur. Le programme utilise une procédure itérative pour minimiser la valeur de
la contrainte et le coefficient d'aliénation. Vous pouvez suivre le déroulement des itérations et
l'évolution des valeurs. Vous pouvez étudier les configurations finales dans des feuilles de données et
des nuages de points en 2D ou 3D de l'espace dimensionnel avec identification des points. Les résultats
standard incluent les valeurs de la contrainte brute (F brut), le coefficient de contrainte S
de Kruskal, ou encore le coefficient d'aliénation. Vous pouvez évaluer la qualité d'ajustement grâce aux
diagrammes de Shepard (avec d-chapeau et d-étoile). Comme toujours dans STATISTICA,
vous pouvez enregistrer la configuration finale dans un fichier de données, réutilisable en entrée d'une
autre analyse.
|
![]()
ANALYSE
DISCRIMINANTE. Le module Analyse Discriminante contient diverses procédures d'analyse discriminante
pas-à-pas. STATISTICA contient également un module généraliste
Analyse Discriminante Générale
(voir ci-dessous) qui permet d'ajuster des modèles de type ANOVA/ANCOVA à des variables dépendantes catégorielles,
et permet divers types d'analyses avancées (par exemple, sélection du meilleur modèle, estimation de probabilités
a posteriori, etc...). Vous pouvez réaliser des analyses pas-à-pas ascendantes ou descendantes, ou
inclure des blocs personnalisés de variables dans le modèle. Outre les nombreux graphiques et diagnostiques
destinés à décrire les fonctions discriminantes, le programme vous propose diverses options et statistiques
pour la classification des anciennes ou des nouvelles observations (dans un objectif de
validation du modèle). Les statistiques disponibles sont les lambda de Wilk, lambda partiels,
les F d'inclusion (ou d'exclusion), les niveaux p, les valeurs de tolérance et les R2.
Le programme réalise une analyse canonique complète et reporte les valeurs propres brutes et cumulées de
toutes les racines, avec leur niveau p, les coefficients bruts et centrés-réduits de la fonction
discriminante (canonique), la matrice des coefficients de structure (ou poids factoriels), les moyennes des
fonctions discriminantes, et les scores de chaque observation (que vous pouvez ensuite ajouter automatiquement
au fichier de données). De nombreux graphiques intégrés vous sont proposés, notamment les histogrammes des
scores canoniques de chaque groupe (et de tous les groupes ensemble), des nuages de points spéciaux
de coupes de variables canoniques (l'appartenance des observations individuelles à un groupe apparaît
clairement), une gamme complète de graphiques catégorisés (multiples) qui vous permettent d'étudier la
distribution et les relations entre les variables dépendantes en fonction des groupes (en particulier,
des boîtes à moustaches, des histogrammes, des nuages de points et des tracés de probabilités multiples).
Le module Analyse Discriminante calcule également les fonctions de classification standard de chaque
groupe. Vous pouvez étudier la classification des observations en termes de distances de Mahalanobis,
de probabilités a posteriori, ou de classifications observées, et vous pouvez représenter
les résultats des observations individuelles à l'aide de tracés exploratoires de figures, ou d'autres
graphiques multidimensionnels intégrés directement aux feuilles de données. Toutes ces valeurs peuvent être
ajoutées automatiquement au fichier de données pour poursuivre l'analyse. Vous pouvez produire une matrice
de synthèse de la classification avec le nombre et le pourcentage d'observations correctement classées.
Plusieurs options permettent de spécifier les probabilités de classification a priori et vous pouvez
spécifier des filtres de sélection pour prendre en compte ou éliminer certaines observations spécifiques
de la classification (par exemple, pour valider les fonctions de classification sur un nouvel échantillon).
|
ANALYSE DISCRIMINANTE GÉNÉRALE (GDA). Le module Analyse Discriminante Générale (GDA) de
STATISTICA est une extension du Modèle Linéaire Général pour traiter des problèmes de
classification. Comme le module Analyse Discriminante, GDA vous permet de d'effectuer des
analyses discriminantes classiques ou pas-à-pas. GDA est en fait un cas particulier du modèle
linéaire général, et offre donc des techniques analytiques très utiles, qui sont tout à la fois
novatrices, efficaces et puissantes. Comme pour l'analyse discriminante traditionnelle, GDA
vous permet de spécifier une variable dépendante catégorielle. Pour les besoins de l'analyse,
le groupe d'appartenance (défini par la variable dépendante) est alors codé en variables
d'indicateurs, et toutes les méthodes de GRM peuvent alors s'appliquer. GDA vous
permet également d'accéder aux nombreuses statistiques sur les résidus proposées dans les modules GRM
et GLM. GDA offre des outils puissants et efficaces pour le data mining ou la recherche
appliquée. GDA va calculer tous les résultats standard d'une analyse discriminante classique,
notamment les coefficients de la fonction discriminante, les résultats de l'analyse canonique (coefficients
bruts et centrés-réduits, les tests des racines canoniques, etc.), les statistiques de la classification
(notamment la distance de Mahalanobis, les probabilités a posteriori, la classification des observations
dans l'échantillon d'analyse et de validation, la matrice de la classification, etc...), et bien d'autres
statistiques encore. Pour plus d'informations sur les spécificités du module GDA, cliquez ici.
|
![]() DÉCOMPOSITION DE LA VARIANCE ET
MODÈLES MIXTES ANOVA/ANCOVA. Le module Décomposition de la Variance et Modèle
Mixte ANOVA/ANCOVA est un module spécialisé permettant de traiter des modèles
avec des effets aléatoires et/ou des facteurs à plusieurs niveaux. Le module Modèle
Linéaire Général offre également diverses options pour traiter des effets aléatoires et
calculer les composantes de la variance. On rencontre fréquemment les facteurs avec des
effets aléatoires en recherche industrielle, lorsque les niveaux d'un facteur représentent
des valeurs d'une variable aléatoire (par opposition à un choix ou un arrangement délibéré
de la part de l'expérimentateur). Le module Décomposition de la Variance vous permet d'analyser
des plans avec toute combinaison d'effets fixes ou aléatoires, et de covariants. Vous pouvez
analyser des modèles ANOVA/ANCOVA très importants de manière efficace puisque les facteurs
peuvent comptorter plusieurs centaines de niveaux. Le programme peut analyser des plans
factoriels standard (croisés), des plans hiérarchiquement imbriqués, et calculer les moyennes
et les sommes des carrés standard de Type I, II, et III
pour analyser la variance des effets du modèle. En outre, vous pouvez calculer les moyennes
des carrés théoriques pour les effets du plan, les composantes de la variance pour les effets
aléatoires du modèle, les coefficients de la synthèse du dénominateur, ainsi que la table ANOVA
complète avec des tests basés sur les sommes des carrés des erreurs synthétisées et les degrés
de liberté (méthode de Satterthwaite). D'autres méthodes vous permettent d'estimer les composantes
de la variance (par exemple, MIVQUE0, la méthode du maximum de vraisemblance [ML],
la méthode du maximum de vraisemblance restreint [REML]). Pour les estimations du maximum
de vraisemblance, les deux algorithmes de Newton-Raphson et Fisher sont utilisés, et le modèle
n'est pas changé arbitrairement (réduit) lors de l'estimation pour prévenir des situations où la
plupart des composantes sont proches ou égales à zéro. Diverses options vous permettent d'étudier
les moyennes marginales pondérées et non pondérées, ainsi que leurs intervalles de confiance. Nombre
d'options graphiques sont proposées pour représenter les résultats.
![]()
ANALYSE DE SURVIE.
Ce module vous offre
diverses techniques pour analyser des données censurées en sciences
sociales, biologie, et recherche médicale, ainsi que des procédures
utilisées en marketing et dans l'industrie (par exemple, contrôle qualité,
estimation de fiabilité, etc...). Outre les tables de survie qui sont
calculées avec diverses statistiques descriptives et estimations
Limite-Produit de Kaplan-Meier, l'utilisateur peut comparer les fonctions
de survie dans différents groupes en utilisant diverses méthodes (test de
Gehan, test F de Cox, test de Cox-Mantel, test des Log-rangs, et
test Wilcoxon généralisé de Peto & Peto). Vous pouvez également
représenter les tracés de Kaplan-Meier par groupes (les observations non
censurées sont identifiées dans les graphiques par des symboles de points
différents). Le programme vous propose également toute une gamme de
procédures d'ajustement de fonctions de survie (en particulier les
fonctions Exponentielle, Risque Linéaire, Gompertz,
et Weibull) en utilisant les méthodes des moindres carrés pondérés
ou non pondérés (l'estimation des paramètres par le maximum de
vraisemblance pour diverses distributions, notamment Weibull, peut
également être calculée dans le produit complémentaire STATISTICA Solutions Industrielles.
Enfin, le programme vous propose quatre modèles explicatifs généraux (modèle de risque proportionnel de Cox, modèles de régression exponentiel, normal et log-normal) avec des diagnostiques poussés (analyse stratifiée) et des graphiques de survie pour des valeurs personnalisées des prédicteurs. Pour la régression de risque proportionnel de Cox, l'utilisateur peut choisir de stratifier l'échantillon pour utiliser différents seuils de risque dans différentes strates (avec un vecteur de coefficients constant), ou spécifier différents seuils de risque et vecteurs de coefficients. Des fonctionnalités générales sont proposées pour définir un ou plusieurs covariants dépendants du temps (vous pouvez les spécifier grâce à des formules flexibles utilisant des expressions arithmétiques, pouvant comporter des fonctions logiques standard et le temps (par exemple, tps_dep=age+age*log(t_)*(age>45), où t_ fait référence à la durée de survie) ainsi que toute une gamme de fonctions de distribution). Comme dans chaque module de STATISTICA, l'utilisateur peut accéder aux paramètres techniques pour les modifier dans les procédures (ou accepter les paramètres dynamiques par défaut). Le module vous propose également de nombreux graphiques et diagrammes spécialisés pour vous aider à interpréter les résultats (en particulier, des tracés cumulés de proportions de survie/échec, fonctions de risque et de risque cumulé, structure des données censurées, fonctions de densité de probabilité, tracé de comparaison de groupes, tracés d'ajustement de distributions, divers tracés de résidus, etc...). Pour les applications industrielles, voir aussi les techniques d'Analyse de Weibull.
![]() ESTIMATION
NON-LINÉAIRE (et Régression Logit/Probit). Le module Estimation Non-Linéaire permet
à l'utilisateur d'ajuster tout modèle non-linéaire. L'une des spécificités de ce module
est que (contrairement aux programmes traditionnels d'estimation non-linéaire), aucune
limite n'est imposée quant à la taille du fichier de données à traiter.
Méthode d'Estimation. Les modèles peuvent être estimés par la méthode des moindres carrés ou du maximum de vraisemblance, en utilisant toute fonction personnalisée de perte. Si vous utilisez la méthode des moindres carrés, vous pouvez utiliser les puissants algorithmes Levenberg-Marquardt et Gauss-Newton pour estimer les paramètres d'une régression linéaire ou non-linéaire. Pour des jeux de données de grande taille ou pour des problèmes très spécifiques de régression non-linéaire (comme ceux classés comme "Ultra difficiles" parmi les Données Statistiques de Référence fourni par le National Institute of Standards and Technology; voir http://www.nist.gov/itl/div898/strd/index.html),si vous utilisez les critères des moindres carrés, c'est la méthode recommandée pour un calcul précis des paramètres estimés. En utilisant les fonctions de perte, l'utilisateur a le choix entre quatre procédures puissantes d'estimation (quasi-Newton, Simplex, déplacement de la structure de Hooke-Jeeves, et recherche de la structure de Rosenbrock de rotation des coordonnées) afin d'obtenir des estimations de paramètres stables dans la plupart des cas, même avec des conditions numériques astreignantes (voir la page Validation Benchmarks). Les Modèles. L'utilisateur peut spécifier tout type de modèle en saisissant l'équation respective dans un éditeur (ces équations pouvant comporter des opérateurs logiques, ce qui vous permet d'estimer des modèles de régression discontinus et des modèles avec des variables d'indicateur). Les équations peuvent utiliser une large gamme de fonctions de répartition et fonctions de répartition cumulées (Bêta, Binomiale, Cauchy, Chi2, Exponentielle, Valeur Extrême, F, Gamma, Géométrique, Laplace, Logistique, Normale, Log-Normale, Pareto, Poisson, Rayleigh, t (Student), ou Weibull). L'utilisateur peut contrôler tous les aspects de la procédure d'estimation par exemple, valeurs de départ, incréments, critères de convergence, etc...). Les modèles de régression non-linéaires les plus courants sont prédéfinis dans le module Estimation Non-linéaire et peuvent être choisis simplement dans les menus. Ces modèles de régression incluent les régressions Probit et Logit pas-à-pas, le modèle de régression Exponentiel, et la régression linéaire par segment (point de rupture). Remarque : STATISTICA propose également de puissants algorithmes pour l'ajustement des modèles linéaires généralisés, notamment les modèles probit et logit multinomial, et les modèles additifs généralisés ; voir la description respective pour plus d'informations.
Graphiques. Tous les résultats peuvent être représentés grâce aux nombreux graphiques intégrés disponibles, en particulier des graphiques en 2D et 3D (surface de réponse) d'ajustement de tout type de fonction arbitraire permettant à l'utilisateur de visualiser la qualité de l'ajustement et d'identifier les points atypiques ou zones de divergence entre le modèle et les données ; l'utilisateur peut ajuster de façon interactive l'équation de la fonction d'ajustement (reportée sur le graphique) sans avoir à retraiter les données et visualiser les principaux aspects du processus d'ajustement non-linéaire ; vous pouvez conserver une cascade de représentation consécutives (et/ou les enregistrer dans un compte-rendu combinant graphiques et statistiques, ou encore les imprimer). De nombreux autres graphiques spécialisés permettent d'évaluer le processus d'ajustement et de représenter les résultats, en particulier l'histogramme des variables sélectionnées et des résidus, des nuages de points des valeurs observées en fonction des valeurs prévues et des valeurs prévues en fonction des résidus, des droites de Henry et des tracés de normalité par moitié des résidus, etc... .
ANALYSE LOG-LINÉAIRE.
Ce module constitue un outil complet
de modélisation log-linéaire de tables de fréquences
d'ordre multiple.
Remarque : STATISTICA comprend également le
module Modèles Linéaires/Non-Linéaires Généralisés
, qui permet d'analyser des modèles logit
binomiaux et multinomiauxs avec des modèles codifiés
sur le principe de l'ANOVA/ANCOVA.
Avec le module Analyse Log-Linéaire, L'utilisateur peut
analyser des tables jusqu'à 7 entrées. Vous pouvez
analyser des tables complètes et incomplètes (avec des zéros structurels).
Les tables de fréquences peuvent être calculées sur des données brutes, ou
saisies directement dans le programme. Le module Analyse
Log-linéaire vous propose toute une gamme de procédures de
modélisation avancées dans un environnement interactif et flexible qui
facilite les analyses exploratoires et confirmatoires de tableaux
complexes. L'utilisateur peut à tout moment visualiser le tableau complet
des valeurs observées, les tableaux marginaux, ainsi que les valeurs
ajustées (théoriques) ; il peut évaluer l'ajustement de tous les modèles
d'association partiels et marginaux ou sélectionner des modèles
spécifiques (tables marginales) à ajuster aux données observées. Le
programme vous propose une procédure intelligente de sélection automatique
du meilleur modèle qui va tout d'abord déterminer l'ordre nécessaire des termes
d'interaction pour qu'un modèle ajuste les données, puis, en procédant par
élimination, déterminer le meilleur modèle qui ajuste de manière
satisfaisante les données (en utilisant des critères déterminés par
l'utilisateur). Le programme calcule le G2 (Chi2 du
maximum de vraisemblance), le Chi2 standard de Pearson avec
les degrés de liberté et niveaux de significativité, les tables observées
et attendues, les tables marginales, etc... Le module Analyse Log-Linéaire
vous propose divers graphiques en 2D et 3D pour représenter des tables de
fréquences à 2 entrées ou plus (en particulier des cascades
interactives, personnalisées d'histogrammes catégorisés et
d'histogrammes en 3D représentant des "sections" de tables à
entrées multiples), des tracés de fréquences observées et ajustées, divers
tracés de résidus (standardisés, composantes du Chi2 du maximum de
vraisemblance, écarts de Freeman-Tukey, etc...), et bien d'autres...
![]() SÉRIES CHRONOLOGIQUES/PRÉVISIONS.
Le module Séries
Chronologiques contient une large gamme de statistiques descriptives,
modélisations, décompositions et méthodes de prévisions. Ces procédures
sont intégrées, c'est-à-dire que les résultats d'une analyse (par exemple,
résidus ARIMA) peuvent être utilisés directement en entrée d'une autre analyse
(par exemple, pour calculer l'autocorrélation des résidus). En outre, de
nombreuses options vous permettent d'étudier et représenter une ou plusieurs séries.
Les analyses peuvent porter sur de très longues
séries. Plusieurs séries peuvent être conservées dans
l'aire de travail active du programme (par exemple, plusieurs
séries de données brutes ou séries produites au cours des différentes
étapes de votre analyse) ; vous pouvez visualiser et comparer des séries.
Le programme garde automatiquement la trace des analyses successives, et
conserve un registre des transformations et autres résultats (par exemple,
résultats ARIMA, composantes saisonnières, etc...). Ainsi, l'utilisateur
peut toujours revenir à ses transformations initiales ou comparer
(représenter) la série originale avec ses transformations. Les
informations sur les transformations consécutives sont conservées sous
forme de description détaillée de la variable, ce qui permet de préserver "l'historique"
de chaque série lors de l'enregistrement des nouvelles variables créées
dans un fichier de données. Les procédures spécifiques
du module Séries Chronologiques sont décrites dans les paragraphes
suivants.
Transformations, Modélisation, Tracés, Autocorrélations. Les options disponibles permettent à l'utilisateur d'explorer de manière approfondie la structure de la série d'entrée, et de réaliser les transformations les plus courantes, notamment : pour retirer le trend, supprimer l'autocorrélation, lisser la série à l'aide de moyennes mobiles (pondérées ou non, avec des pondérations personnalisées ou de Daniell, Tukey, Hamming, Parzen, ou encore Bartlett), des médianes mobiles, ou un lissage Exponentiel simple (voir la description des différentes options de lissage Exponentiel, ci-dessous), différencier, intégrer, résidualiser, décaler, lisser avec un filtre 4253H, réaliser les transformations de Fourier (et leurs inverses), etc... Les analyses d'autocorrélations, d'autocorrélations partielles, et de corrélations croisées peuvent également être réalisées.
Décomposition Saisonnière Classique (Méthode I du Census). L'utilisateur peut spécifier la périodicité du mouvement saisonnier, et choisir un modèle additif ou multiplicatif. Le programme calcule les moyennes mobiles, ratios ou différences, facteurs saisonniers, séries corrigées des variations saisonnières (CVS), le trend-cycle lissé, et la composante irrégulière (aléas mineurs). Ces composantes sont alors disponibles pour d'autres analyses ; ainsi, l'utilisateur peut tracer des histogrammes, tracés de normalité, etc... pour certaines ou toutes ces composantes (par exemple, pour tester la validité du modèle).
Modèles Polynomiaux de Distribution des Décalages. Les méthodes polynomiales de distribution des décalages accessibles dans le module Séries Chronologiques permettent d'estimer des modèles avec décalages sans contraintes ainsi que des modèles d'Almon (sous contraintes). De nombreux graphiques vous permettent d'examiner la distribution des variables du modèle.
|
Techniques de Prévision Basées sur une Régression. Enfin, STATISTICA vous propose des techniques de prévision basées sur des régressions pour des variables décalées ou non (en particulier des régressions passant par l'origine, des régressions non-linéaires, et des prévisions conditionnelles interactives).
| Haut de la Page |

MODÉLISATION D'ÉQUATIONS STRUCTURELLES ET ANALYSE DE CAUSALITÉ
(SEPATH). STATISTICA vous offre diverses techniques de
modélisation d'équations structurelles, avec diverses fonctionnalités de
simulations de Monte-Carlo (SEPATH). Le module SEPATH
est un programme évolué, avec une interface-utilisateur
"intelligente". Il vous propose toute une gamme de procédures de modélisation
intégrées avec des outils performants pour spécifier des modèles
même complexes sans avoir besoin de recourir à une syntaxe de commandes. Grâce aux
Assistants et aux Outils de Construction de Causalité, vous définissez
l'analyse en termes simples et fonctionnels, en utilisant les menus et les boîtes de
dialogue (contrairement à d'autres programmes de modélisation d'équations
structurelles, vous n'avez pas besoin de maîtriser un "langage" complexe).
SEPATH est un module complet qui offre de nombreuses fonctionnalités
avancées : le programme peut analyser des matrices de corrélations, de covariances,
et des moments (moyennes structurées, modèles avec ordonnée à l'origine) ; tous les
modèles peuvent être spécifiés à l'aide de l'Assistant de Causalité,
de l'Assistant d'Analyse Factorielle, et aux outils de Construction de
Causalité ; ces fonctionnalités sont particulièrement efficaces et permettent
à l'utilisateur de spécifier des modèles même complexes en quelques minutes, en
choisissant des options dans des boîtes de dialogue. Le module SEPATH
calcule, à l'aide de techniques d'optimisation sous contraintes, les
erreurs-types des modèles standardisés, et des modèles ajustés aux matrices de
corrélations. Divers diagnostiques statistiques sont calculés, en particulier
les indices d'ajustement standard et les indices d'ajustement basés sur la
non-centralité, pour prendre en compte les développements les plus récents dans
le domaine de la modélisation d'équations structurelles. L'utilisateur peut
ajuster des modèles à plusieurs échantillons (groupes), et spécifier pour chaque
groupe des paramètres fixes, libres, ou sous contraintes (identiques pour tous
les groupes). Lorsque vous analysez les matrices des moments, vous pouvez tester
des hypothèses complexes sur les moyennes structurées dans différents groupes.
La documentation du module SEPATH comporte de nombreux exemples détaillés
et expliqués, issus de la littérature, en particulier des exemples d'analyse
factorielle confirmatoire, analyse de causalité, modèles théoriques pour des
tests congénériques, matrices multi-traits-multi-méthodes, analyse factorielle
longitudinale, symétrie complexe, moyennes structurelles, etc...
| Haut de la Page |
Simulations de Monte-Carlo dans SEPATH.
Le module
SEPATH de STATISTICA (voir ci-dessus) vous offre des options
puissantes pour vos simulations de Monte-Carlo : vous pouvez générer (et
sauvegarder) des fichiers de données pour des modèles prédéfinis, basés sur des
distributions normales ou asymétriques. Vous pouvez aussi calculer des
estimations de bootstrap, ou les distributions de divers diagnostiques
statistiques, estimations de paramètres, etc... à l'aide d'expériences de
Monte-Carlo. Nombre d'options graphiques flexibles vous permettent de
visualiser vos résultats (par exemple, distributions des paramètres) à partir de
ces expériences de Monte-Carlo.
| Haut de la Page |
MODÈLE LINÉAIRE GÉNÉRAL
(GLM). Le module Modèle Linéaire Général (GLM) de STATISTICA permet d'analyser les réponses
d'une ou plusieurs variables dépendantes en fonction d'une ou plusieurs
variables indépendantes continues ou discontinues. Le module Modèle Linéaire
Général n'est pas seulement l'outil le plus avancé du marché au niveau statistique,
mais aussi le plus complet avec une large gamme d'options et de graphiques
accompagnant toutes les statistiques et diagnostiques étendus.
Conçu avec une "approche sans compromis", le module GLM offre une grande
sélection d'options pour traiter
des problèmes controversés ne possédant pas de solution universellement reconnue.
GLM va calculer tous les résultats standard, notamment les tables ANOVA avec les
tests univariés ou multivariés, les statistiques descriptives, etc... GLM
offre un grand nombre de résultats et de graphiques qui font souvent défaut dans
d'autres programmes. GLM permet également de tester de manière simple
les combinaisons linéaires des paramètres estimés ; spécification de
termes d'erreur et effets personnalisés ; méthodes complètes de comparaison
post-hoc des effets inter-groupes ainsi que des effets de mesures répétées, et effets
d'interaction entre les mesures répétées. Cliquez ici
pour plus
d'informations sur les fonctionnalités offertes par GLM.
| Haut de la Page |

MODÈLES GÉNÉRAUX DE RÉGRESSION (GRM).
Le module Modèles Généraux de Régression (GRM) de STATISTICA constitue un
outil extrêmement riche et souple pour calculer les résultats spécifiques et standard du modèle linéaire
général, avec un ensemble complet de modèles de régression pas-à-pas et de
construction du meilleur modèle permettant de traiter à la fois des variables
continues et discrètes. Le module GRM vous permet d'utiliser les
méthodes pas-à-pas et de sélection du meilleur modèle, pour construire des
modèles extrêmement complexes, notamment des plans avec des effets pour
les variables prédictives catégorielles. C'est pourquoi le terme "général" dans Modèle de Régression
Général fait référence à la fois à l'utilisation du modèle linéaire
général et au fait que, contrairement à d'autres programmes de régression
pas-à-pas, GRM ne se limite pas à l'analyse de plans ne contenant que des
variables prédictives continues. En outre, vous pouvez accéder à
des résultats spécifiques comme le diagramme de Pareto des paramètres estimés,
une synthèse complète du modèle (tests) avec diverses méthodes permettant d'évaluer des
modèles sans ordonnée à l'origine, corrélations partielles ou semi-partielles,
etc... Pour plus d'informations sur les possibilités offertes par GRM cliquez ici.
| Haut de la Page |

MODÈLES LINÉAIRES/NON-LINÉAIRES
GÉNÉRALISÉS (GLZ). Le module Modèles
Linéaires/Non-Linéaires Généralisés (GLZ) permet de rechercher des relations à la fois
linéaires et non-linéaires entre une variable de réponse et des variables
prédictives continues ou catégorielles (y compris probit et logit multinomiales, modèles de
détection du signal et bien d'autres). Parmi les applications spécifiques des
modèles linéaires généralisés, citons des types d'analyse largement utilisées comme
les régressions probit et logit binomiales ou multinomiales, ou les modèles de la
Théorie de Détection du Signal. Le module GLZ va calculer tous les résultats statistiques
standard, comme les tests du ratio de vraisemblance, et les tests de Wald de significativité
des effets, les paramètres estimés ainsi que leurs erreurs-types et leurs
intervalles de confiance, etc... L'interface-utilisateur, les
méthodes de spécification des modèles, et l'aspect général du programme sont
proches de ceux des modules GLM, GRM et PLS.
L'utilisateur
peut aisément spécifier des modèles de type ANOVA ou ANCOVA, des surfaces de réponse,
des plans de mélange, etc... Ainsi, les utilisateurs néophytes n'auront aucune difficulté
pour analyser leurs données à l'aide du module Modèles Linéaires/Non-Linéaires Généralisés.
En outre, GLZ propose une gamme complète d'outils pour vérifier les modèles,
comme des feuilles de données ou des graphiques concernant les statistiques des résidus ou
pour mettre en évidence les points atypiques, notamment les résidus bruts, les
résidus de Pearson, les résidus des écarts, les résidus de Pearson studentisés, les
résidus des écarts studentisés, les résidus de vraisemblance, les statistiques
différentielles du Chi2, l'écart différenciel, et les distances généralisées de
Cook, etc.... Cliquez ici pour plus d'informations sur GLZ.
| Haut de la Page |
| Demande de Devis |
| Page d'Accueil de StatSoft France |
L'utilisation du module Puissance de Test
lors de la conception et l'analyse de vos problèmes de recherche, vous assure de toujours utiliser vos
ressources le plus efficacement possible. Il n'a en effet rien de plus décevant que de constater que vos
travaux de recherche manquent de fiabilité parce que la taille des échantillons que vous avez utilisée
est trop faible. De même que l'utilisation d'échantillons surdimensionnés peut constituer une perte de
temps et d'argent. Le module Puissance de Test va vous aider à déterminer la taille idéale pour
vos échantillons et va enrichir vos travaux de recherche avec une variété d'outils pour estimer les
intervalles de confiance et mener des analyses complètes de puissance de tests.
| Haut de la Page |
Le module Puissance de Test est un outil généraliste complet pour vous aider dans vos tâches de conception et d'analyse de travaux de recherche, vous permettant par exemple de déterminer si la taille de votre échantillon est appropriée à l'objectif de votre étude. Il offre également une grande variété d'outils pour analyser tous les aspects des calculs de puissance de test et de taille d'échantillon.
Pourquoi Le module Puissance de Test est-il le programme le plus moderne et le plus puissant de ce type ?
Examinez les captures d'écran ci-dessus qui illustrent la manière dont le module Puissance de Test peut traiter des calculs extrêmement lourds sur des distributions non centrées. Un programme d'analyse de puissance de test va produire un message d'erreur et refuser de produire les calculs de l'exemple du F non centré, avec un message "Échec de Vérification des Limites". Un autre programme va produire, sans autre commentaire, des résultats totalement faux pour l'exemple du t non centré.
| Haut de la Page |
Exemple d'Application. Imaginons que vous
souhaitiez produire une ANOVA à un facteur pour étudier l'effet d'un médicament. Avant de concevoir
l'étude, vous réalisez qu'une étude similaire a déjà été réalisée précédemment. Cette étude particulière
était basée sur 4 groupes, avec N = 50 observations par groupe, et a donné une valeur du F égale à
15,4. À partir de cette information, vous pouvez (a) évaluer l'importance de l'effet dans la population avec
un intervalle de confiance exact, (b) utiliser cette information pour définir la taille minimum de votre
échantillon pour cette nouvelle étude.
![[Premier graphique]](images/power1.gif)
Revenons à notre étude, et supposons que nous cherchions
à examiner la relation entre la puissance de test et la taille de l'effet pour une taille d'échantillon
égale à 31. Le premier graphique (à gauche) indique clairement que tant que la taille de l'effet du médicament
demeure dans l'intervalle de confiance défini dans l'étude précédente, la puissance du test reste importante.
En revanche, si la taille de l'effet de notre médicament est de l'ordre de 0,25, la puissance du test
deviendrait clairement inadaptée. De la même manière, si nous utilisions la même taille d'échantillon
que dans l'étude précédente (c'est-à-dire 50 individus par groupe), nous constaterions que la puissance
de test reste raisonnable, même pour des effets de l'ordre de 0,28 (voir le graphique à droite).
Avec le module Puissance de Test, toute cette analyse ne prendrait guère plus qu'une minute ou deux.
| Haut de la Page |
| Demande de Devis |
| Page d'Accueil de StatSoft France |
![[StatSoft]](images/sssmall.gif)
2, rue Louis Pergaud - 94700
MAISON-ALFORT
Téléphone: +33
(0)1-45-185-999;
Fax: +33 (0)1-45-185-285
e-mail: info@statsoft.fr
©Copyright StatSoft 1984-2010.
StatSoft, le logo StatSoft, STATISTICA, STATISTICA Entreprise/QC,
STATISTICA Entreprise, Data Miner, SEPATH et GTrees sont des marques
déposées par StatSoft.