2.2 Modélisation
On dispose donc de nobservations notées (x1, ..., xn)∈Rn(cf exemples ci-dessus). On va supposer tout
d’abord que ces observations sont une réalisation d’une expérience aléatoire, c’est à dire qu’il existe des
variables aléatoires réelles (v.a.r.) (X1, ..., Xn)définies sur un espace probabilisé (Ω,F,P)telles que
(x1, ..., xn) = (X1(ω), ..., Xn(ω)) avec ω∈Ω.
Ceci permet de modéliser l’aléatoire qui est généralement présente dans le recueil des données. Par
exemple, dans les exemples introduits ci-dessus :
–Exemples 1,2 et 3 : dans ces 3 exemples, les individus considérés sont choisis au hasard parmi un
grand nombre d’individus. Si on recommence l’expérience, il y a de fortes chances qu’on choisisse
d’autres individus et qu’on obtienne des résultats différents : le résultat de l’expérience est donc bien
"aléatoire".
–Exemples 1 et 3 : après avoir choisi les individus, on réalise des mesures qui peuvent être sujettes à
des erreurs expérimentales. Ceci rajoute de l’incertitude aux résultats obtenus.
On fait ensuite des hypothèses sur la loi de probabilité du n-uplet (X1, ..., Xn).Dans le cadre de ce
chapitre, on supposera que ce sont des variables aléatoires indépendantes et identiquement
distribuées (i.i.d). Il s’agit du cadre le plus simple, mais cette hypothèse n’est pas toujours réaliste :
– Lorsqu’on considère des phénomènes indexés par le temps (cf cours M2 sur les séries temporelles),
l’hypothèse d’indépendance n’est généralement pas vérifiée. Par exemple, si (x1, x2, ..., xn)désigne le
cours d’un produit financier pendant njours successifs, alors on ne peut généralement pas supposée
que les observations successives xiet xi+1 proviennent de variables aléatoires indépendantes.
– Lorsque l’on cherche à prédire une variable (variable à expliquer) à partir d’autres variables (variables
explicatives), on suppose généralement que la loi de la variable à expliquer dépend des variables
explicatives. L’hypothèse “identiquement distribuée” n’est plus vérifiée. Ce sera la cas dans les
modèles de régression étudiés dans les chapitres suivants.
Définition. On appelle n-échantillon d’une loi de probabilité Pune suite (X1, ..., Xn)de v.a. i.i.d. qui
suivent le loi de probabilité P. On notera X1, ..., Xn∼iid P
On va ensuite supposer, dans ce chapitre, que la loi de probabilité commune de X1,X2, ..., Xnest un
loi de probabilité qui dépend d’un paramètre inconnu θ∈Θavec Θ⊂Rk(“statistique paramétrique”
par opposition à “statistique non paramétrique”). On notera alors
X1, ..., Xn∼iid Pθ
Par exemple, on supposera souvent que
X1, ..., Xn∼iid N(µ, σ2)
avec N(µ, σ2)la loi normale d’espérance µet de variance σ2. On parle alors d’échantillon gaussien. Le
paramètre inconnu est θ= (µ, σ)∈R×R+∗.
On cherche alors à estimer θà partir des observations disponibles (x1, ..., xn).
Définition. Soit (X1, ..., Xn)un n-échantillon d’une loi Pθ. Un estimateur du paramètre inconnu θ
est une variable aléatoire T=g(X1, ..., Xn)qui s’exprime en fonction de (X1, ..., Xn). Une estimation
de θest alors la valeur numérique prise par cette statistique sur une réalisation particulière (x1, ..., xn),
c’est à dire la quantité t=g(x1, ..., xn).
Exemple et définition. Prenons l’exemple 1 sur la qualité des thermomètres. On suppose à nouveau
que (x1, ..., xn)est une réalisation d’un échantillon (X1, ..., Xn). La qualité des thermomètres est
partiellement décrite par les paramètres inconnus µ=E[Xi](si les thermomètres sont de bonne qualité,
alors ils devraient fournir la bonne température en moyenne, c’est à dire qu’on devrait avoir µ= 20) et
3