Analyser des Modèles Linéaires et Non-Linéaires :



STATISTICA contient cinq types modules puissants pour analyser des modèles linéaires et non-linéaires : Modèle Linéaire Général (GLM), Modèles Généraux de Régression (GRM), Modèles Généraux d'Analyse Discriminante (GDA), Modèles Linéaires Généralisés (GLZ) et Modèles Généraux de PLS (PLS). Remarque : STATISTICA offre également une implémentation des Modèles Additifs Généralisés (GAM), des Arbres de Classification et de Régression (GTrees), et des Modèles CHAID (Chi-square Automatic Interaction Detection) dans le produit STATISTICA Data Miner ; ces modules peuvent également être utilisés pour ajuster des modèles non-linéaires (de type ANOVA/ANCOVA) à des variables dépendantes (critères) continues ou catégorielles.

Tous ces modules sont extrêmement complets, offrent une implémentation avancée des méthodes respectives, et partagent tous des interfaces-utilisateur généralistes similaires.

           Fonctionnalités Communes aux Cinq Modules

Trois Interfaces-Utilisateur Différentes : (1) Spécifications Rapides, (2) Assistant Analyse et (3) Éditeur de Syntaxe. Ces modules offrent trois types d'interface-utilisateur pour spécifier des modèles (par exemple, des modèles ANOVA/ANCOVA, des modèles de régression, des surfaces de réponse, des plans de mélange, etc... ; voir la description de GLM pour plus d'informations) :

  1. Les boîtes de dialogue de Spécifications Rapides vous permettent de spécifier les variables nécessaires, etc,... en fonction du choix du modèle initial (par exemple, si vous choisissez une surface de réponse, vous devrez spécifier des prédicteurs continus et éventuellement une variable de bloc),

    [Spécifications Rapides GLZ]

  2. Des Assistants Analyse puissants qui vous guident pas-à-pas tout au long du processus de spécification du modèle, et

    [Assistant GRM]

  3. Un Éditeur de Syntaxe permet d'écrire le script de l'analyse en langage traditionnel SAS? ou en langage VGLM, plus simple et plus souple à utiliser (les deux incluant des boîtes de dialogue de "saisie rapide" avec des raccourcis de touches et des options pour ouvrir des fichiers contenant de la syntaxe de commandes préenregistrée au format texte).

    [Éditeur de syntaxe GLM]

Générer automatiquement la syntaxe des commandes. STATISTICA génère automatiquement la syntaxe complète de tous les modèles spécifiés en mode Spécification Rapide (voir le point 1) ou avec l'Assistant Syntaxe (voir point 2). Vous pouvez réexécuter ces commandes "actives" (pouvant même décrire des modèles ultra-sophistiqués et personnalisés), les modifier manuellement, les enregistrer pour vos utilisations futures, ou les inclure dans des programmes STATISTICA Visual Basic pour automatiser des procédures sur de nouvelles données, etc... Dans la mesure où la syntaxe pour spécifier les modèles linéaires généraux est commune à tous ces modules, vous pouvez également aisément adapter les spécifications d'un type d'analyse à un autre afin, par exemple, d'ajuster le même modèle dans GLM et GLZ.

Échantillon de calcul (apprentissage), échantillon de validation croisée (vérification), et échantillon de prévision. Ces cinq modules vont calculer des statistiques détaillées sur les résidus, que vous pourrez enregistrer pour d'autres analyses, dans d'autres modules. En outre, vous pouvez calculer les statistiques sur les résidus et les valeurs prévues séparément pour les observations sur lesquelles les résultats respectifs ont été calculés (échantillon de calcul ou d'apprentissage), pour les observations exclues explicitement du calcul d'ajustement du modèle (échantillon de validation croisée ou de vérification) et pour les observations ne possédant pas de valeur pour les variables de réponse (échantillon de prévision). Toutes les options de résultats graphiques (tracés de probabilité, histogrammes, nuages de points des statistiques prévues et de résidus,...) sont accessibles pour tous ces échantillons. Ces cinq modules offrent donc des méthodes diagnostiques extrêmement poussées pour évaluer la qualité d'ajustement des modèles.

Comparer des analyses ; modifier des analyses. Comme pour toutes les fonctionnalités analytiques de STATISTICA, vous pouvez conserver plusieurs instances des différents modules ouvertes simultanément, ce qui vous permet d'effectuer différentes analyses en même temps, sur des données identiques ou sur des données différentes. Cette fonctionnalité est particulièrement utile pour comparer les résultats d'analyses différentes sur le même ensemble de données ou d'une même analyse sur des données différentes. Pour modifier une analyse, vous n'avez pas besoin de reformuler complètement tout le modèle ; vous n'avez qu'à apporter les modifications désirées. Vous pouvez aisément comparer les résultats issus des diverses modifications d'une analyse. STATISTICA GLM, GRM, GDA, GLZ et VPLS portent les analyses conditionnelles à un autre niveau, en permettant la comparaison de différentes données et de différentes analyses en même temps.

Haut de la Page

  Modèle Linéaire Général (GLM)

Les sections suivantes résument certains des principaux avantages et fonctionnalités uniques de GLM par rapport aux autres programmes. Il est important de souligner que GLM est non seulement l'outil de modélisation linéaire générale le plus avancé du point de vue des calculs, mais également l'application la plus complète actuellement disponible sur le marché avec la gamme la plus étendue d'options, de graphiques, de statistiques et de diagnostics associés. Elle a été conçue avec une "approche sans compromis" pour résoudre tous les problèmes de modélisation linéaire générale, y compris les plus complexes. STATISTICA GLM offre une sélection complète d'options pour traiter des problèmes "controversés", ne possédant pas de solution universelle (consensuelle) reconnue.

[Panneau de Démarrage de GLM]

Modèles. L'utilisateur peut choisir des méthodes simples ou ultra-personnalisées de modèles d'ANOVA ou de MANCOVA imbriquées, factorielles, à un facteur, à effets principaux, des plans à mesures répétées, des modèles de régression simple, multiple et polynomiale, des surfaces de réponse (avec ou sans variable de bloc), des surfaces de mélange, des plans simples ou complexes d'analyse de covariance (par exemple, avec pentes séparées), ou des plans généraux MANCOVA multivariés. Les facteurs peuvent être fixés ou aléatoires (dans ce cas, les termes d'erreur synthétiques seront calculés). Tous ces modèles peuvent être spécifiés dans l'un des trois types d'interface-utilisateur décris précédemment et personnalisés de plusieurs manières (par exemple, vous pouvez éliminer certains effets, spécifier des hypothèses personnalisées, etc...). En outre, GLM permet de traiter des plans analytiques très importants ; par exemple, vous pouvez spécifier des facteurs de mesures répétées à plus de 1000 niveaux, des modèles avec plus de 1000 covariants, ou analyser de manière efficace des modèles inter-groupes véritablement énormes.

Modèle sur-paramétré et modèle sigma-restreint. Sans entrer dans le détail de ce type de modèle, la plupart des logiciels statistiques ne proposent que le modèle sur-paramétré et rares sont ceux qui proposent le modèle sigma-restreint. STATISTICA GLM est le seul programme à proposer les deux. Chacun de ces deux modèles possède ses propres avantages et inconvénients, mais les deux approches sont nécessaires pour couvrir l'ensemble des problèmes du modèle linéaire général et traiter efficacement les problèmes analytiques les plus avancés et les plus pointus. Par exemple, les plans imbriqués et les plans à pente séparée sont mieux analysés avec un modèle sur-paramétré ; la manière la plus courante d'estimer les composantes de la variance et de calculer les termes d'erreur synthétiques dans un modèle ANOVA mixte, est basée sur un modèle sur-paramétré. Les plans factoriels avec de nombreux facteurs sont mieux analysés avec un modèle sigma-restreint ; en résumé, une simple interaction entre 2 facteurs à 2 niveaux ne nécessite qu'une seule colonne dans la matrice du modèle si vous utilisez un modèle sigma-restreint, contre 4 colonnes dans un modèle sur-paramétré. Ainsi, l'analyse d'un modèle factoriel complet à 8 facteurs ne nécessite que quelques secondes dans GLM.

Traitement de modèles avec des cellules manquantes. STATISTICA GLM calcule la somme des carrés de type I à IV pour des plans non équilibrés et incomplets. Cependant, comme nous le constatons souvent (Searle, 1987 ; Millken & Johnson, 1986), appliquer ces méthodes à des plans "complexes" contenant des cellules manquantes réparties de façon plus ou moins aléatoire dans le plan, peut conduire à des résultats erronés, voire incohérents. C'est la raison pour laquelle STATISTICA GLM offre également deux méthodes complémentaires pour analyser des plans avec des cellules manquantes : la "décomposition efficace de l'hypothèse" proposée par Hockings (1985) et une méthode qui va automatiquement écarter les effets ne pouvant être estimés complètement (par exemple, lorsque les moyennes des moindres carrés n'existent pas pour tous les niveaux des effets principaux respectifs ou des effets d'interaction). Cette dernière méthode est d'ailleurs souvent utilisée lors de l'analyse de plans hautement fractionnés dans le domaine de l'expérimentation industrielle (voir également le module STATISTICA Plans d'Expériences). Cette méthode conduit à des résultats uniques (indépendants de l'ordre des niveaux des facteurs), facilement interprétables et en accord avec la littérature des expérimentations industrielles. Cette fonctionnalité extrêmement pratique est spécifique à GLM.

Résultats statistiques. GLM calcule tous les résultats standard, notamment les tables ANOVA avec les tests univariés et multivariés, des statistiques descriptives, etc... GLM offre également un large choix d'options de résultats et particulièrement d'options graphiques absentes de la plupart des autres logiciels statistiques. Par exemple, GLM inclut une gamme complète de tracés de moyennes (observées, moindres carrés, pondérées) pour les interactions d'ordre élevé,

[Synthèse des Moyennes dans GLM]

avec des barres d'erreurs (erreurs-types) pour des effets impliquant des facteurs inter-groupes ainsi que des facteurs de mesures répétées ;

[GLM : Barres d'Erreur]

de nombreuses analyses et tracés de résidus (pour l'échantillon d'apprentissage [ou de calcul], pour l'échantillon de validation croisée [ou de vérification], et pour l'échantillon de prévision, sans valeur pour la variable dépendante [ou de réponse]) ; des tracés des composantes de la variance ; un profil de désirabilité et d'optimisation de la réponse pour tous les modèles ;

[GLM : Profil de Désirabilité]

et les moyennes ajustées pour les modèles traditionnels d'analyse de la covariance. Vous disposez de nombreuses options pour spécifier des comparaisons planifiées, notamment des fonctionnalités pour spécifier les contrastes en syntaxe de commande standard ou à l'aide de boîtes de dialogue "intelligentes" (de type Assistant) très simples à utiliser :

[Contrastes GLM]

(ces boîtes de dialogue permettent à l'utilisateur de saisir les coefficients de contraste pour des niveaux de facteurs ou des cellules du plan clairement libellés. Le programme va alors comparer les moyennes ("prévues") des moindres carrés, c'est-à-dire les moyennes prévues par, et cohérentes avec, le modèle actuel. Il s'agit d'une solution véritablement unique pour aborder les problèmes de comparaisons planifiées dans des plans complexes et incomplets) ; STATISTICA GLM permet de tester simplement les combinaisons linéaires de paramètres estimés (par exemple, pour tester l'égalité de certains coefficients de régression spécifiques) ; de spécifier des termes d'erreurs et effets personnalisés ; offre des méthodes complètes de comparaisons post-hoc des effets inter-groupes ainsi que des effets de mesures répétées et les interactions entre les mesures répétées et les effets inter, notamment : test LSD de Fisher, de Bonferroni, de Scheffé, HSD de Tukey, HSD pour N inégaux, test de Newman Keuls, de Duncan et de Dunnett

[Tests Post Hoc de GLM]

(avec des options flexibles pour estimer les termes d'erreurs appropriés de ces tests), et des tests d'hypothèses (test de Levene, tracé de moyennes en fonction des écarts-types, etc...).

Haut de la Page

  STATISTICA Modèles Généraux de Régression (GRM)

STATISTICA Modèles Généraux de Régression (GRM) est également une misde en oeuvre spécifique et extrêmement flexible du modèle linéaire général. Plus précisément, les procédures de GRM permettent d'utiliser les méthodes pas-à-pas et par recherche exhaustive (du meilleur modèle) afin de construire des modèles d'une grande complexité, y compris des modèles avec des variables prédictives catégorielles. Ainsi, le terme "généraux" des Modèles Généraux de Régression fait référence à la fois à l'utilisation du modèle linéaire général et au fait que, contrairement à la plupart des autres programmes de régression pas-à-pas, GRM ne se limite pas à l'analyse de modèles ne comportant que des variables prédictives continues.

[Panneau de Démarrage de GRM]

Sélection pas-à-pas et recherche exhaustive du meilleur modèle pour des prédicteurs continus et catégoriels (modèles ANOVA) dans des modèles avec plusieurs variables dépendantes. GRM est un programme "dérivé" du module Modèle Linéaire Général (GLM) de STATISTICA. Outre les nombreuses options analytiques spécifiques qui sont proposées dans GLM (notamment les comparaisons planifiées, des hypothèses personnalisées, une large gamme de tests post-hoc, des options d'analyse des résidus, etc...), le module Modèles Généraux de Régression GRM vous permet de construire des modèles pas-à-pas et par recherche exhaustive du meilleur modèle (meilleur groupe de prédicteurs). GRM rend ces techniques disponibles, non seulement pour les problèmes analytiques traditionnels avec une seule variable dépendante, mais également pour des modèles comportant plusieurs variables dépendantes ; d'une certaine manière, GRM peut être considéré comme un programme d'analyse canonique (unique) pas-à-pas et par recherche exhaustive du meilleur modèle. Ces méthodes peuvent être utilisées avec des plans comportant des variables prédictives continues et/ou catégorielles (c'est-à-dire des modèles ANOVA et ANCOVA), et les techniques utilisées dans GRM garantissent que les effets à plusieurs degrés de liberté seront considérés (inclus ou exclus du modèle) en bloc. Plus précisément, GRM permet de construire des modèles par sélection ascendante ou descendante uniquement (les effets ne peuvent être inclus ou exclus qu'une seule fois au cours du processus de sélection), par sélection ascendante ou descendante standard (les effets peuvent être inclus ou exclus du modèle à chaque étape selon les critères du F ou du p d'inclusion ou d'exclusion), ou par recherche exhaustive du meilleur modèle (sous-ensemble de prédicteurs). Cette dernière méthode permet à l'utilisateur de contrôler de façon flexible les modèles considérés au cours de la phase de recherche du meilleur modèle (par exemple, la taille maximum et minimum du sous-ensemble de prédicteurs, le CP de Mallow, le R2, et le R2 ajusté, etc...).

Résultats. Le module des Modèles Généraux de Régression (GRM) offre toutes les options standard et spécifiques décrites dans le cadre du module GLM (notamment les profils de désirabilité ; les statistiques sur les valeurs prévues et les résidus des échantillons d'apprentissage, de validation croisée et de prévision ; des tests d'hypothèses ; des tracés de moyennes ; etc...). En outre, des résultats spécifiques à la régression sont également disponibles, en particulier les diagrammes de Pareto des paramètres estimés, la synthèse complète du modèle (tests) avec diverses méthodes pour évaluer des modèles sans ordonnée à l'origine, les corrélations partielles et semi-partielles, etc...

Haut de la Page

Modèles Généraux d'Analyse Discriminante (GDA)

Le module STATISTICA Modèles Généraux d'Analyse Discriminante (GDA) est une extension et une généralisation du Modèle Linéaire Général à des problèmes de classification. Tout comme le module d'Analyse Discriminante standard, le module GDA vous permet de réaliser des analyses discriminantes standard et pas-à-pas. Toutefois, GDA aborde le problème d'analyse discriminante comme un cas particulier du modèle linéaire général, et offre par conséquent des techniques analytiques extrêmement utiles, tout à la fois innovantes, efficaces et très puissantes.

Approche statistique et applications spécifiques. Comme en analyse discriminante traditionnelle, GDA vous permet de spécifier une variable dépendante catégorielle. Pour l'analyse, l'appartenance au groupe (par rapport à la variable dépendante) est alors codifiée dans des variables-indicateur (indicateurs), et toutes les méthodes de GRM (décrites ci-dessus) peuvent s'appliquer. Dans les boîtes de dialogue de résultats, vous pouvez accéder à toute la gamme de statistiques sur les résidus que vous pouvez trouver dans GRM et dans GLM ; par exemple, vous pouvez visualiser toutes les valeurs prévues et résidus produits dans les analyses de type régression pour chacun des groupes (chaque variable dépendante indicateur codifiée), et choisir parmi les nombreux tracés de résidus disponibles. Vous pouvez naturellement accéder à toutes les statistiques spécialisées de prévision et de classification qui sont habituellement produites en analyse discriminante ; mais ces statistiques sont accessibles sous une forme novatrice grâce à l'approche unique de STATISTICA. Vous pouvez par exemple produire des "profils de désirabilité" en combinant les probabilités de prévision a posteriori des groupes dans un score de désirabilité, puis laisser le programme rechercher les valeurs ou les combinaisons de paramétrages des prédicteurs catégoriels qui vont optimiser ce score. Ainsi, GDA offre des outils efficaces et puissants pour le data mining et pour la recherche appliquée ; par exemple, vous pouvez utiliser des méthodes de Plans d'Expériences pour produire un plans d'expérience d'amélioration de la qualité, appliquer ce plan à des données catégorielles de sortie (par exemple, des classifications distinctes libellées "excellent", "acceptable" ou "rejet"), puis modéliser les probabilités de prévision a posteriori de ces sorties en utilisant les variables de votre plan d'expériences.

Résultats standard de l'analyse discriminante. STATISTICA GDA va calculer tous les résultats standard de l'analyse discriminante, notamment les coefficients de la fonction discriminante, les résultats de l'analyse canonique (coefficients bruts et standardisés, tests de significativité des racines canoniques successives, etc...), les statistiques de la classification (notamment les distances de Mahalanobis, les probabilités a posteriori, la véritable classification des observations dans l'échantillon d'analyse et dans l'échantillon de validation, la matrice de mauvaise classification, etc...).

Spécificités de GDA, actuellement disponibles uniquement dans STATISTICA. En outre, STATISTICA GDA offre de nombreuses fonctionnalités et résultats uniques :

Spécifier des variables prédictives et leurs effets ; construction du modèle :

1. Possibilité de spécifier des prédicteurs continus et catégoriels, et non pas seulement des prédicteurs continus pour l'analyse (une limitation courante dans les programmes traditionnels d'analyse discriminante) ; GDA vous permet de spécifier des modèles de type ANOVA et ANCOVA simples et complexes, par exemple, un mélange de prédicteurs catégoriels et continus, des plans polynomiaux (surface de réponse), des plans factoriels, des plans imbriqués, etc...

2. Effets à plusieurs degrés de liberté dans la sélection pas-à-pas ; les termes représentant l'ensemble des prédicteurs (constitué de prédicteurs continus à un seul degré de liberté, mais également d'effets à plusieurs degrés de liberté) peuvent être utilisés dans les analyses discriminantes pas-à-pas ; les effets à plusieurs degrés de liberté sont toujours inclus/exclus par blocs.

3. Sélection par recherche exhaustive du meilleur modèle des effets de prédicteurs ; vous pouvez spécifier des effets à un seul ou plusieurs degrés de liberté pour les analyses discriminantes par recherche exhaustive ; le programme va sélectionner les effets (jusqu'à un certain nombre d'effets spécifié par l'utilisateur) qui produisent la meilleure discrimination entre les groupes.

4. Sélection des effets de prédicteurs basés sur les taux de mauvaise classification ; GDA permet à l'utilisateur de construire son modèle (sélection des effets des prédicteurs), non seulement sur la base des critères traditionnels (par exemple, p d'inclusion/d'exclusion ; lambda de Wilk), mais également sur la base des taux de mauvaise classification ; en d'autres termes, le programme va sélectionner les effets des prédicteurs qui vont maximiser la précision de la classification, soit pour les observations à partir desquelles les paramètres ont été estimés, soit pour l'échantillon de validation croisée (afin de prévenir le sur-ajustement) ; ces techniques permettent d'utiliser GDA comme un outil de data mining rapide de type réseau de neurones pour des problèmes de classification, et que vous pouvez utiliser comme une alternative à d'autres techniques similaires (arbres de classification, méthodes spécifiques de réseaux de neurones, etc... ; GDA tend à être plus rapide que ces techniques dans la mesure où il demeure basé sur le Modèle Linéaire Général, plus efficace).

Résultats statistiques ; profil de désirabilité :

1. Résultats détaillés et statistiques/tracés diagnostiques ; outre les résultats statistiques standard, GDA offre de nombreuses informations auxiliaires pour aider l'utilisateur à décider de l'adéquation d'un modèle retenu d'analyse discriminante (statistiques descriptives et graphiques, distances de Mahalanobis, distances de Cook, et leviers des prédicteurs, etc...).

2. Profils des classifications attendues ; GDA contient une adaptation du profil de réponse généraliste de GLM (GRM) ; ces options permettent à l'utilisateur de déterminer rapidement les valeurs (ou niveaux) des variables prédictives qui vont maximiser les probabilités de classification a posteriori pour un seul groupe, ou pour un ensemble de groupes dans les analyses ; d'une certaine manière, l'utilisateur peut rapidement déterminer les profils types des valeurs des prédicteurs (ou des niveaux des prédicteurs) qui identifient un groupe (ou un ensemble de groupes) dans l'analyse.

Une note de mise en garde pour les modèles avec des prédicteurs catégoriels, et autres techniques avancées. Le module d'Analyse Discriminante Générale offre des fonctionnalités qui font de cette technique un outil généraliste de classification et de data mining. Toutefois, la plupart des ouvrages traitant de l'analyse discriminante -- pour ne pas dire tous -- se limitent aux analyses simples et pas-à-pas avec des prédicteurs continus à un seul degré de liberté. Il n'existe aucune "expérience" (dans la littérature) concernant la robustesse ni l'efficacité de ces techniques, lorsqu'elles sont généralisées de la manière où elles le sont dans ce module extrêmement puissant. L'utilisation de méthodes par recherche exhaustive, en particulier lorsqu'elles sont utilisées en conjonction avec des prédicteurs catégoriels ou en utilisant les taux de mauvaise classification dans un échantillon de validation croisée pour trouver le meilleur ensemble de prédicteurs, doit être plutôt considérée comme une méthode de recherche heuristique, et non comme une technique d'analyse statistique.

Haut de la Page

  Modèles Linéaires Généralisés (GLZ)

Les modèles linéaires généralisés permettent de rechercher des relations linéaires et non-linéaires entre une variable de réponse continue, ou binomiale, multinomiale ou catégorielle multinomiale et des variables prédictives continues ou catégorielles (remarque : STATISTICA contient également un module de Modèles Additifs Généralisés, GAM). Un certain nombre de type d'analyses largement utilisées peuvent être considérées comme des cas particuliers de modèles linéaires généralisés, par exemple, les régressions Probit et Logit binomiale et multinomiales (que vous pouvez spécifier rapidement grâce aux raccourcis des boîtes de dialogue) ou les modèles de la théorie de détection du signal (Signal Detection Theory). Les interfaces-utilisateur, les méthodes de spécification des modèles et l'aspect général du programme sont identiques à ceux des quatre autres modules (GLM, GRM, GDA, PLS) décrits ici. Par exemple, vous pouvez aisément spécifier des plans de type ANOVA ou MANCOVA, des surfaces de réponse, des plans de mélange, etc... Ainsi, les utilisateurs néophytes n'auront aucun mal à appliquer des modèles linéaires généralisés pour analyser leurs données.

[Panneau de Démarrage de GLZ]

Modèles et fonctions de liaison. De nombreuses distributions (de la famille des distributions exponentielles) peuvent être spécifiées pour la variable de réponse : Normale, Poisson, Gamma, Binomiale, Multinomiale, Ordinale Multinomiale, et Inverse Gaussienne. Par ailleurs, vous pouvez spécifier la nature de la relation entre les variables prédictives et les réponses en sélectionnant une fonction dite "de liaison" dans une liste complète de fonctions (courantes et spécialisées). Les fonctions de liaison disponibles sont : Log, Puissance, Identité, Logit, Probit, Log-Log complémentaire, Log-Log. ? la différence des autres modèles non-linéaires, ces modèles peuvent être ajustés à l'aide de procédures d'estimation rapide et permettent des interprétations explicites (comme pour les modèles linéaires généraux) ; c'est la raison pour laquelle elles sont largement utilisées dans les analyses de relations non-linéaires, dans les sciences et en recherche appliquée.

Sélection pas-à-pas et recherche exhaustive du meilleur modèle pour des variables prédictives catégorielle et continues (modèles de type ANOVA). En plus des techniques standard d'ajustement de modèles, le module STATISTICA Modèles Linéaires Généralisés (VGLZ) offre des options spécifiques pour l'analyse exploratoire, avec notamment des fonctionnalités de construction de modèles comme les méthodes de sélection ascendante ou descendante uniquement (les effets ne peuvent être inclus ou supprimés qu'une seule fois au cours du processus de sélection), les méthodes de sélection pas-à-pas des effets, ascendantes ou descendantes standard (les effets peuvent être inclus ou exclus du modèle à chaque étape en utilisant le critère du p d'inclusion ou d'exclusion), ou par les méthodes de régression par recherche exhaustive du meilleur modèle (en utilisant la statistique du score de vraisemblance, la vraisemblance du modèle ou le critère d'information de Akaike). Ces méthodes puissantes peuvent s'appliquer à des prédicteurs catégoriels (modèles de type ANOVA ; les effets sont alors inclus dans le modèle ou exclus du modèle comme des blocs de paramètres multiples), et à des prédicteurs continus, et permettent de gagner un temps précieux lors de la construction des modèles appropriés pour des données complexes.

Résultats. Le module Modèles Linéaires Généralisés de STATISTICA calcule tous les résultats statistiques standard, notamment les tests du ratio de vraisemblance, et les tests de significativité des effets de Wald et du score, l'estimation des paramètres ainsi que leurs écarts-types et intervalles de confiance, etc... En outre, pour les modèles de type ANOVA, vous pouvez produire des tableaux et des tracés de moyennes prévues (l'équivalent des moyennes des moindres carrés calculées dans le modèle linéaire général), avec leurs erreurs-types, afin d'aider à l'interprétation des résultats. GLZ contient également une gamme complète d'outils de vérification des modèles avec des feuilles de données et des graphiques des résidus ou autres statistiques de détection des points aberrants, notamment les résidus bruts, les résidus de Pearson, les résidus des écarts, les résidus de Pearson studentisés, les résidus des écarts studentisés, les résidus de vraisemblance, les statistiques du Chi2 différentiel, les écarts différentiels et les distances de Cook généralisées, etc... Comme décrit précédemment, vous pouvez produire les statistiques sur les valeurs prévues et les résidus pour les observations utilisées dans l'ajustement du modèle ou pour celles qui n'ont pas été utilisées pour l'ajustement (c'est-à-dire pour l'échantillon de validation croisée).

Haut de la Page

  Modèles Généraux de PLS [Partial Least Squares]

Les méthodes PLS permettent d'analyser des systèmes linéaires et ont récemment gagné en popularité (depuis quelques années seulement) ; d'ailleurs, de nombreux algorithmes et statistiques font encore l'objet de recherches à ce jour. Le module Modèles Généraux de PLS de STATISTICA offre une sélection d'algorithmes pour des problèmes univariés et multivariés de PLS. L'interface-utilisateur est très proche de celle des modules GLM, GRM, GDA, et GLZ comme décrits précédemment, et toutes les fonctionnalités et avantages décrits pour ces autres modules (par exemple, la spécification des modèles, la mise à jour automatique des résultats, etc...) s'applique également ici. En outre, grâce aux 3 types d'interface-utilisateur, également disponibles dans GLM, GRM, GDA et GLZ, vous pouvez très facilement définir un modèle dans l'un de ces modules, et analyser rapidement vos données en utilisant le même modèle dans le module PLS (GLZ). Cette souplesse d'utilisation permet à des utilisateurs, même néophytes, d'appliquer ces techniques puissantes à leurs différents problèmes d'analyse.

[Panneau de Démarrage de PLS]

Modèle sur-paramétré et sigma-restreint pour des prédicteurs catégoriels. Comme pour les modules GLM et GLZ, PLS permet de spécifier des modèles surparamétrés ou sigma-restreint pour des variables prédictives catégorielles (modèles de type ANOVA). Dans les modèles PLS, la solution sigma-restreinte peut s'avérer particulièrement utile puisqu'elle peut produire des résultats moins complexes (c'est-à-dire, expliquer davantage de dispersion avec moins de composantes, constituées de vecteurs du modèle codifiés sous une forme sigma-restreinte).

Algorithmes. STATISTICA PLS contient les deux algorithmes les plus généralistes et les plus puissants pour les analyses PLS : SIMPLS et NIPALS.

Résultats. Le module PLS va calculer tous les résultats standard d'une analyse PLS, et produit en plus de nombreux résultats, en particulier graphiques, qui ne sont généralement pas proposés dans les programmes concurrents ; par exemple, les graphiques des valeurs des paramètres en fonction du nombre de composantes, des tracés en 2D de tous les résultats statistiques (paramètres, poids factoriels, etc...), des tracés en 2D de toutes les statistiques de résidus, etc... Comme pour les modules GLM, GRM et GLZ, le module PLS offre de nombreuses options pour analyser les résidus. Vous pouvez calculer des statistiques sur les résidus et les valeurs prévues pour l'échantillon ayant servi à l'ajustement du modèle (l'échantillon d'apprentissage), mais également pour les observations n'ayant pas été utilisées pour l'ajustement du modèle (l'échantillon de validation croisée ou de vérification) et pour les observations sans valeurs observées pour les variables dépendantes (de réponse) (l'échantillon de prévision).

Haut de la Page