Glossaire



| 2 | 3 | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z |

Tests de Kolmogorov-Smirnov

Test pour un seul échantillon. Le Test de normalité de Kolmogorov-Smirnov pour un échantillon repose sur la différence maximum entre la distribution cumulée de l'échantillon et la distribution cumulée qui est testée. Si la statistique D est significative, nous devons rejeter l'hypothèse selon laquelle la distribution respective est normale. Dans la plupart des logiciels, les valeurs de probabilité qui sont reportées sont issues des tables de Massey (1951) ; ces valeurs de probabilité sont correctes lorsque la moyenne et l'écart-type de la distribution normale sont connus a priori et non estimés à partir des données. Toutefois, ces paramètres sont généralement calculés à partir des véritables données. Dans ce cas, le test de normalité implique une hypothèse conditionnelle complexe ("Quelle est la probabilité d'obtenir une statistique D de cette importance ou qui lui soit supérieure, sachant que la moyenne et l'écart-type sont calculés à partir des données"), et permet d'interpréter les probabilités de Lilliefors (Lilliefors, 1967). Remarque : au cours de ces dernières années, le test W de Shapiro-Wilk est devenu le test de normalité de référence en raison de ses bonnes propriétés de puissance par rapport à de nombreux autres tests.

Test pour deux échantillons. Le Test de Kolmogorov-Smirnov pour deux échantillons permet de tester la significativité des différences entre deux échantillons de données. Comme dans le cas du test pour un seul échantillon, la statistique permet de comparer des distributions cumulées ; dans le cas présent, les distributions cumulées des deux échantillons (par exemple, les valeurs cibles observées par rapport aux valeurs cible simulées). Une différence importante entre deux distributions cumulées observées (dans les deux échantillons) indique que les données ne sont pas issues de la distribution. Ce test peut être utilisé au cours de certains processus de construction de modèles afin de comparer les résultats prévus (basés sur les données d'entrée simulées) aux résultats observés. Une différence significative entre les résultats prévus et les résultats observés dénote généralement une insuffisance du modèle (qui n'est pas en mesure de représenter convenablement les relations entre les entrées et les sorties).