De nombreuses procédures
statistiques reposent sur la normalité des distributions. On
sait généralement que des distributions
très dissymétriques faussent les calculs.
Transformer les variables de manière à se
rapprocher de la distribution normale, ou tout du moins pour les
symétriser, est parfois un préalable
nécessaire avant toute analyse statistique.
La
transformation la plus communément répandue est
la transformée de Box-Cox, qui a été
proposée par Box et Cox (1964) dans un très
célèbre article où la transformation
s’applique seulement à la variable
dépendante.
La
transformée de Box-Cox est la transformation non
linéaire de loin la plus rencontrée en
statistique et en économétrie. Elle est
définie comme :

où
l’argument x doit être positif.
Une des raisons de
la popularité de la transformée de Box-Cox est
qu’elle incorpore à la fois la
possibilité d’aucune transformation (quand
λ= 1) et la possibilité d’une
transformation logarithmique (quand λ = 0).
La
méthode de Box-Cox n’a pas
été proposée initialement afin de
transformer vers la linéarité, mais bien pour
transformer vers la normalité. Le paramètre λ est choisi afin de rendre les
résidus de la régression de y(Y, λ) sur X les plus près possible
d’une distribution normale. La technique permet
également de considérer des intervalles de
confiance pour λ.
Le
choix de λ se fait souvent en effectuant un
graphique de la vraisemblance en fonction de λ.
On
trouve que le meilleur λ se situe à -0,114.

On
trouve la meilleure valeur en localisant un point
d’inflexion. L’intervalle de confiance consiste des
valeurs de λ associées. Ainsi
l’intervalle de confiance est [-0,14 ; -0,07].

Puisque
0 n’est pas dans l’intervalle de confiance, cela ne
semble pas compatible avec une transformation de type logarithmique (λ =0) mais bien par une transformation avec
λ=-0,114.
La
variable originale et la variable transformée sont
projetées sur ce graphique de synthèse :
