L'estimation
1. Concrètement ...
Dernièrement un quotidien affichait en première page : en 30 ans les françaises ont grandi de... je ne sais
plus exactement, disons 7,1 cm. C'est peut-être un peu moins ou un peu plus, cela n'a pas d'importance.
C'était un nombre assez précis, avec une virgule, pas une dizaine ou une quinzaine de centimètres, non
quelque chose de plus précis.
Voilà un bien beau résultat... Mais comment a t-on fait pour l'obtenir? Certainement pas en mesurant
toutes les françaises : pour ce que je sais, ni mon épouse, ni mes filles, ni ma belle mère, ni ma sœ ur, n'ont
reçu la visite d'un quelconque "mesureur". D'ailleurs je ne connais pas beaucoup de gens qui ont été
mesurés. Je ne suis d'ailleurs pas sûr qu'il y a trente ans il y ait eu une opération générale de mesurage. Il
est bien plus raisonnable de penser que les résultats annoncés ne proviennent pas de l'ensemble des
françaises, mais seulement de quelques-unes d'entre elles. Ce qu'en langage statistique on appelle un
échantillon.
Mais dès lors se pose immédiatement la question de la validité des valeurs annoncées maintenant et il y a
trente ans.Examinons comment cela a pu se passer. Si toute la population n'est pas concernée, il a fallu
définir un protocole pour sélectionner un échantillon "représentatif". Chacun connat les liens entre
milieu social, nutrition et taille (liens eux-mêmes mis en évidence par d'autres enquêtes). La constitution
d'un tel échantillon a nécessairement été réalisée selon un ensemble de règles strictes.
Nous laisserons cela aux enquêteurs spécialistes.
Avant de définir ces règles, il leur a fallu toutefois se poser une première série de questions importantes :
quel doit être le nombre d'individus de l'échantillon ? ce nombre influe t'il sur la pcision du résultat
obtenu ? de quelle façon ?
Laissons cela aussi de côté pour l'instant. Nous supposerons donc que l'enquêteur soit parvenu à définir
une "taille d'échantillon idéale".
Il réalise donc la collecte de données. Comment le statisticien peut-il utiliser les valeurs recueillies pour
approcher la taille moyenne des femmes dans la population ? Il semble assez naturel de penser qu'il fera
dans un premier temps la moyenne des tailles des individus de l'échantillon.
Et voilà de nouveaux problèmes : tout d'abord ce calcul est-il une bonne façon d'estimer la moyenne
cherchée? Est-il la meilleure façon de faire cette estimation ou ne donne t'il qu'une simple idée du
résultat sur la population?
En second lieu on ne peut ignorer que le résultat de ce calcul dépend de l'échantillon choisi : il y a de
grandes chances que d'un échantillon à l'autre les valeurs trouvées soient un peu (ou très) différentes.
Enfin, il semble raisonnable de penser qu'avec un échantillon de plus grande taille on aurait pu (mais pas
à coup sûr) obtenir une meilleure approximation de ce que l'on cherche.Tout ce que nous avons dit
jusqu'à présent relève d'interrogations de bon sens. On pourrait sans doute y ajouter une question plus
préoccupante encore : une telle estimation a t'elle un sens, une véritable valeur scientifique?
Répondre à ces questions avec un peu d'objectivité demande de définir des outils qui nous y aideront.
2. Formalisation
La première idée est que la taille d'un individu varie dans toutes les populations du monde. On sait en
gros qu'il s'agit d'un réel positif. On peut donc considérer la taille comme une variable aléatoire à
valeurs dans
Cette variable aléatoire suit une loi de probabilité que l'on ne connat pas. On peut supposer
raisonnablement qu'elle admet une espérance et une variance. C'est justement cette espérance que nous
voudrions approcher à partir de l'échantillon.
On a constitué un échantillon de individus sur lequel on recueille tailles
Avec les notations précédentes, on a
(qui se traduit en français par : la taille de l'individu est 
Plutôt que de dire que l'on applique la variable à chaque individu de l'échantillon, on préfèrera dire que
la taille de la première femme de l'échantillon, c'est la valeur que prend une variable aléatoire de
même loi que (et donc de même espérance et de même variance). On recommence aux toutes les
femmes de l'échantillon .
Imaginons par exemple que l'on ait rangé l'échantillon par ordre alphabétique : sera la variable qui
donnera la taille de la première personne de la liste ainsi ordonnée, celle de la deuxième personne, et
ainsi de suite.
Si l'on prend un autre échantillon de même taille, après rangement par ordre alphabétique, on appliquera
à nouveau les variables  Pour tous les échantillons de personnes et tous les rangements
possibles, on aura toujours une valeur pour pour pour
En fait pour chacun des échantillons de n individus possibles, chaque variable prendra une valeur dans
et ce indépendamment de ce que les autres variables ont pris comme valeurs.
Ces n variables aléatoires sont indépendantes et de même loi.
Pour estimer la moyenne des tailles sur la population, on a effectué la moyenne des tailles recueillies sur
un échantillon (c'est-à-dire des nombres  et donc on a calculé

Comme nous l'avons remarqué, ce nombre varie avec les échantillons; il peut donc être considéré comme
la valeur prise par une certaine variable aléatoire qui correspond à la moyenne arithmétique des
variables On note cette variable.
On aura 
Nous retrouvons moyenne empirique (ou expérimentale) sur un échantillon de taille
On a donc approché la valeur de l'espérance de la variable par la valeur que prend la variable sur
l'échantillon.
Nous savons que si 
Or les variables sont indépendantes. Donc si
On sait que
Là encore le résultat ne dépend pas de la loi de probabilité de la variable X.En sumé on a


La loi faible des grands nombres dit alors que


Donc la probabilité que la moyenne empirique soit aussi proche que l'on veut de l'espérance cherchée
tend vers 1 quand devient infiniment grand (en fait "grand" suffira le plus souvent).
Tout cela légitime l'utilisation de
pour faire une approximation de
Reste à savoir ce qu'elle est l'erreur que l'on commet quand on fait cette approximation à partir d'un
échantillon. Ce sera le problème de l'intervalle de confiance plus loin.
3) Le problème de l'estimation
Généralisons la situation précédente. Considérons un caractère quantitatif étudié sur une population.
La valeur de ce caractère pour chaque individu de cette population peut être représentée par une
variable aléatoire.
Supposons que nous connaissions la forme de la loi suivie par cette variable. En pratique il s'agira d'une
loi usuelle comme la loi binomiale, la loi de Poisson, la loi géométrique, la loi normale...
Toutes ces lois sont données par des paramètres : nombres de répétitions de l'épreuve, probabilités du
succès, moyenne, variance...
Le plus souvent il y a un ou deux paramètres, parfois trois comme dans la loi hypergéométrique.
On connaît le type de loi que suit la variable aléatoire, mais on ne connaît pas les paramètres. Le
problème revient à en estimer la meilleure valeur possible au vue des données recueillies à partir
d'observations faites sur un ou plusieurs échantillons extraits de cette population.
En pratique, on dispose des données obtenues à partir de observations, c'est-à-dire sur un échantillon
de individus extraits de cette population.
On a donc un -uplet qui correspond aux valeurs prises par la variable pour les individus
de l'échantillon.
On peut considérer ce n-uplet comme la alisation d'un vecteur aléatoire sont
variables aléatoires de même loi que
En pratique, dans le protocole appliqué pour la constitution de l'échantillon, on peut faire en sorte que
ces variables soient indépendantes.
On cherche à estimer un des paramètres de la loi suivie par à partir des résultats obtenus pour
l'échantillon. Quelle que soit la façon dont on procède pour réaliser cette estimation, ce que nous
obtiendrons dépend des valeurs de l'échantillon. Si nous avions eu d'autres valeurs, notre estimation
aurait sans doute été différente.
On peut donc dire que l'estimation est elle-même une variable aléatoire fonction des variables
4) Mise en œuvre sur en exemple
Supposons qu'un certain caractère quantitatif dans une population puisse être représenté par une
variable aléatoire dont on sait quelle suit une loi normale de moyenne et de variance
inconnues. Cette situation est très fréquente : de très nombreux phénomènes ont des distributions très
proches de celle d'une loi normale.
Sur cette population que nous considèrerons comme suffisamment grande pour qu'il soit irréaliste de
calculer directement la moyenne et la variance, on extrait en échantillon de individus.
On peut penser au moins dans un premier temps que la moyenne et la variance calculées à partir de cet
échantillon sont des estimations (correctes ?) de la moyenne et de la variance de la population.
A chaque échantillon de taille, on peut associer sa moyenne arithmétique : on définit ainsi une variable
aléatoire que l'on note
qui est la moyenne empirique déjà rencontrée.
On peut de la même façon associer à chaque échantillon sa variance. On définit une variable aléatoire que
l'on peut noter
On aura

L'estimation que nous ferons de la variance dépend bien entendu des valeurs que prendront
et
obtenus à partir de l'échantillon. C'est donc ure variable aléatoire, fonction des variables
et
Une telle variable est appelée un estimateur de V.
Les différentes valeurs que peut prendre cet estimateur sont appelées des estimations de V
5) Définitions
On se place dans un espace probabilisé 
Soit θ un paramètre inconnu d'une variable aléatoire dont on connaît la forme de la loi de probabilité.
On extrait un échantillon de taille n de la population. Soit les différentes valeurs prises par sur
cet échantillon.
Ces valeurs peuvent être considérées comme les réalisations de variables aléatoires indépendantes,
munies de la même loi que 
Définition
On dit que est un échantillon de variables indépendantes et de même loi que
Un estimateur de θ à partir d'un échantillon de taille sera alors une variable aléatoire que l'on
note
fonction du vecteur aléatoire 
En pratique on sera amené à considérer la limite d'une telle variable quand n tend vers l'infini.
On élargit la notion d'estimateur à la suite de variables
Définition
Soit est un  échantillon de variables indépendantes et de me loi que
On appelle estimateur d'un paramètre θ une suite de variables aléatoires
fonctions de
Par abus de langage, on assimile souvent l'estimateur (qu'est la suite) avec la variable

Si
on dit que
qui correspond à la valeur numérique que prend la
variable
pour les données obtenues à partir de l'échantillon est une estimation de θ.
Devant en problème concret comme celui d'estimer la moyenne d'une certaine caractéristique
quantitative sur une population à partir des données fournies par un échantillon, la question pas toujours
simple à trancher est celle du meilleur estimateur : la moyenne, la médiane, ou tout autre chose.
Cette question demande au préalable de savoir quel sens on donne au mot "meilleur".
Certaines réflexions de bon sens permettent souvent d'écarter de mauvais candidats.
Par exemple pour le problème précédent, si l'on prend
on possède en candidat crédible puisque l'on sait que :

Or c'est justement que l'on veut estimer.
Par contre, par exemple, ne semble pas au moins en moyenne être un bon
candidat car 
quantité qui tend vers l'infini quand tend vers l'infini sauf si 
6) Qualités d'un estimateur
a) Estimateur sans biais
On attend d'un "bon" estimateur qu'en moyenne il nous donne une bonne estimation, au moins quand la
taille de l'échantillon devient grande. Autrement dit si θ est le paramètre à estimer et l'estimateur de θ,
on voudrait bien que ou au moins que 

Dans le premier cas, on dit que est un estimateur sans biais de θ, et dans le second cas on dit que est
un estimateur asymptotiquement sans biais.
Remarquons qu'un estimateur sans biais est automatiquement un estimateur asymptotiquement sans
biais. En effet si alors 

La variable
est un estimation sans biais de la moyenne d'une caractéristique sur une population.
Précisons ce qu'est le biais d'un estimateur biaisé.
Définition
On appelle biais de l'estimateur la différence
Précisons immédiatement que même si l'on recherche d'abord des estimations sans biais, l'absence de
biais n'est pas automatiquement synonyme de qualité et un estimateur biaisé n'est pas forcément un
mauvais estimateur.
b) Estimateur convergent
Il serait souhaitable également que les estimations qu'il nous donne soit d'autant plus proche de ce que
l'on cherche à estimer que devient grand.
Ce que nous avons formulé dans le 1) par
 

1 / 13 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !