L`estimation - prepacom.net

Téléchargement

L'estimation

1. Concrètement ...

Dernièrement un quotidien affichait en première page : en 30 ans les françaises ont grandi de... je ne sais

plus exactement, disons 7,1 cm. C'est peut-être un peu moins ou un peu plus, cela n'a pas d'importance.

C'était un nombre assez précis, avec une virgule, pas une dizaine ou une quinzaine de centimètres, non

quelque chose de plus précis.

Voilà un bien beau résultat... Mais comment a t-on fait pour l'obtenir? Certainement pas en mesurant

toutes les françaises : pour ce que je sais, ni mon épouse, ni mes filles, ni ma belle mère, ni ma sœ ur, n'ont

reçu la visite d'un quelconque "mesureur". D'ailleurs je ne connais pas beaucoup de gens qui ont été

mesurés. Je ne suis d'ailleurs pas sûr qu'il y a trente ans il y ait eu une opération générale de mesurage. Il

est bien plus raisonnable de penser que les résultats annoncés ne proviennent pas de l'ensemble des

françaises, mais seulement de quelques-unes d'entre elles. Ce qu'en langage statistique on appelle un

échantillon.

Mais dès lors se pose immédiatement la question de la validité des valeurs annoncées maintenant et il y a

trente ans.Examinons comment cela a pu se passer. Si toute la population n'est pas concernée, il a fallu

définir un protocole pour sélectionner un échantillon "représentatif". Chacun connat les liens entre

milieu social, nutrition et taille (liens eux-mêmes mis en évidence par d'autres enquêtes). La constitution

d'un tel échantillon a nécessairement été réalisée selon un ensemble de règles strictes.

Nous laisserons cela aux enquêteurs spécialistes.

Avant de définir ces règles, il leur a fallu toutefois se poser une première série de questions importantes :

quel doit être le nombre d'individus de l'échantillon ? ce nombre influe t'il sur la précision du résultat

obtenu ? de quelle façon ?

Laissons cela aussi de côté pour l'instant. Nous supposerons donc que l'enquêteur soit parvenu à définir

une "taille d'échantillon idéale".

Il réalise donc la collecte de données. Comment le statisticien peut-il utiliser les valeurs recueillies pour

approcher la taille moyenne des femmes dans la population ? Il semble assez naturel de penser qu'il fera

dans un premier temps la moyenne des tailles des individus de l'échantillon.

Et voilà de nouveaux problèmes : tout d'abord ce calcul est-il une bonne façon d'estimer la moyenne

cherchée? Est-il la meilleure façon de faire cette estimation ou ne donne t'il qu'une simple idée du

résultat sur la population?

En second lieu on ne peut ignorer que le résultat de ce calcul dépend de l'échantillon choisi : il y a de

grandes chances que d'un échantillon à l'autre les valeurs trouvées soient un peu (ou très) différentes.

Enfin, il semble raisonnable de penser qu'avec un échantillon de plus grande taille on aurait pu (mais pas

à coup sûr) obtenir une meilleure approximation de ce que l'on cherche.Tout ce que nous avons dit

jusqu'à présent relève d'interrogations de bon sens. On pourrait sans doute y ajouter une question plus

préoccupante encore : une telle estimation a t'elle un sens, une véritable valeur scientifique?

Répondre à ces questions avec un peu d'objectivité demande de définir des outils qui nous y aideront.

2. Formalisation

La première idée est que la taille d'un individu varie dans toutes les populations du monde. On sait en

gros qu'il s'agit d'un réel positif. On peut donc considérer la taille comme une variable aléatoire  à

valeurs dans 



Cette variable aléatoire suit une loi de probabilité que l'on ne connat pas. On peut supposer

raisonnablement qu'elle admet une espérance et une variance. C'est justement cette espérance que nous

voudrions approcher à partir de l'échantillon.

On a constitué un échantillon de  individus  sur lequel on recueille  tailles 

Avec les notations précédentes, on a



(qui se traduit en français par : la taille de l'individu  est 

Plutôt que de dire que l'on applique la variable  à chaque individu de l'échantillon, on préfèrera dire que

la taille de la première femme de l'échantillon, c'est la valeur que prend une variable aléatoire  de

même loi que  (et donc de même espérance et de même variance). On recommence aux toutes les

femmes de l'échantillon .

Imaginons par exemple que l'on ait rangé l'échantillon par ordre alphabétique :  sera la variable qui

donnera la taille de la première personne de la liste ainsi ordonnée,  celle de la deuxième personne, et

ainsi de suite.

Si l'on prend un autre échantillon de même taille, après rangement par ordre alphabétique, on appliquera

à nouveau les variables  Pour tous les échantillons de  personnes et tous les rangements

possibles, on aura toujours une valeur pour  pour  pour 

En fait pour chacun des échantillons de n individus possibles, chaque variable  prendra une valeur dans



 et ce indépendamment de ce que les autres variables ont pris comme valeurs.

Ces n variables aléatoires sont indépendantes et de même loi.

Pour estimer la moyenne des tailles sur la population, on a effectué la moyenne des tailles recueillies sur

un échantillon (c'est-à-dire des nombres  et donc on a calculé





Comme nous l'avons remarqué, ce nombre varie avec les échantillons; il peut donc être considéré comme

la valeur prise par une certaine variable aléatoire qui correspond à la moyenne arithmétique des

variables  On note  cette variable.

On aura 



Nous retrouvons moyenne empirique (ou expérimentale) sur un échantillon de taille 

On a donc approché la valeur de l'espérance de la variable  par la valeur que prend la variable  sur

l'échantillon.

Nous savons que si   



Or les variables  sont indépendantes. Donc si 

On sait que







Là encore le résultat ne dépend pas de la loi de probabilité de la variable X.En résumé on a







La loi faible des grands nombres dit alors que













Donc la probabilité que la moyenne empirique soit aussi proche que l'on veut de l'espérance cherchée

tend vers 1 quand devient infiniment grand (en fait "grand" suffira le plus souvent).

Tout cela légitime l'utilisation de 

pour faire une approximation de 

Reste à savoir ce qu'elle est l'erreur que l'on commet quand on fait cette approximation à partir d'un

échantillon. Ce sera le problème de l'intervalle de confiance plus loin.

3) Le problème de l'estimation

Généralisons la situation précédente. Considérons un caractère quantitatif étudié sur une population.

La valeur de ce caractère pour chaque individu de cette population peut être représentée par une

variable aléatoire.

Supposons que nous connaissions la forme de la loi suivie par cette variable. En pratique il s'agira d'une

loi usuelle comme la loi binomiale, la loi de Poisson, la loi géométrique, la loi normale...

Toutes ces lois sont données par des paramètres : nombres de répétitions de l'épreuve, probabilités du

succès, moyenne, variance...

Le plus souvent il y a un ou deux paramètres, parfois trois comme dans la loi hypergéométrique.

On connaît le type de loi que suit la variable aléatoire, mais on ne connaît pas les paramètres. Le

problème revient à en estimer la meilleure valeur possible au vue des données recueillies à partir

d'observations faites sur un ou plusieurs échantillons extraits de cette population.

En pratique, on dispose des données obtenues à partir de observations, c'est-à-dire sur un échantillon

de individus extraits de cette population.

On a donc un -uplet qui correspond aux valeurs prises par la variable pour les individus

de l'échantillon.

On peut considérer ce n-uplet comme la réalisation d'un vecteur aléatoire où sont

variables aléatoires de même loi que 

En pratique, dans le protocole appliqué pour la constitution de l'échantillon, on peut faire en sorte que

ces variables soient indépendantes.

On cherche à estimer un des paramètres de la loi suivie par à partir des résultats obtenus pour

l'échantillon. Quelle que soit la façon dont on procède pour réaliser cette estimation, ce que nous

obtiendrons dépend des valeurs de l'échantillon. Si nous avions eu d'autres valeurs, notre estimation

aurait sans doute été différente.

On peut donc dire que l'estimation est elle-même une variable aléatoire fonction des variables



4) Mise en œuvre sur en exemple

Supposons qu'un certain caractère quantitatif dans une population puisse être représenté par une

variable aléatoire dont on sait quelle suit une loi normale de moyenne et de variance 

inconnues. Cette situation est très fréquente : de très nombreux phénomènes ont des distributions très

proches de celle d'une loi normale.

Sur cette population que nous considèrerons comme suffisamment grande pour qu'il soit irréaliste de

calculer directement la moyenne et la variance, on extrait en échantillon de individus.

On peut penser au moins dans un premier temps que la moyenne et la variance calculées à partir de cet

échantillon sont des estimations (correctes ?) de la moyenne et de la variance de la population.

A chaque échantillon de taille, on peut associer sa moyenne arithmétique : on définit ainsi une variable

aléatoire que l'on note

qui est la moyenne empirique déjà rencontrée.

On peut de la même façon associer à chaque échantillon sa variance. On définit une variable aléatoire que

l'on peut noter 

On aura









 





L'estimation que nous ferons de la variance dépend bien entendu des valeurs que prendront 

et 

obtenus à partir de l'échantillon. C'est donc ure variable aléatoire, fonction des variables 

et 

Une telle variable est appelée un estimateur de V.

Les différentes valeurs que peut prendre cet estimateur sont appelées des estimations de V

5) Définitions

On se place dans un espace probabilisé 

Soit θ un paramètre inconnu d'une variable aléatoire dont on connaît la forme de la loi de probabilité.

On extrait un échantillon de taille n de la population. Soit les différentes valeurs prises par sur

cet échantillon.

Ces valeurs peuvent être considérées comme les réalisations de  variables aléatoires indépendantes,

munies de la même loi que 

Définition

On dit que est un  échantillon de variables indépendantes et de même loi que 

Un estimateur de θ à partir d'un échantillon de taille sera alors une variable aléatoire que l'on

note 

fonction du vecteur aléatoire 

En pratique on sera amené à considérer la limite d'une telle variable quand n tend vers l'infini.

On élargit la notion d'estimateur à la suite de variables 



Définition

Soit est un  échantillon de variables indépendantes et de même loi que 

On appelle estimateur d'un paramètre θ une suite de variables aléatoires 

fonctions de



Par abus de langage, on assimile souvent l'estimateur (qu'est la suite) avec la variable 



Si 

on dit que 

 qui correspond à la valeur numérique que prend la

variable

 pour les données obtenues à partir de l'échantillon est une estimation de θ.

Devant en problème concret comme celui d'estimer la moyenne d'une certaine caractéristique

quantitative sur une population à partir des données fournies par un échantillon, la question pas toujours

simple à trancher est celle du meilleur estimateur : la moyenne, la médiane, ou tout autre chose.

Cette question demande au préalable de savoir quel sens on donne au mot "meilleur".

Certaines réflexions de bon sens permettent souvent d'écarter de mauvais candidats.

Par exemple pour le problème précédent, si l'on prend





on possède en candidat crédible puisque l'on sait que :





Or c'est justement que l'on veut estimer.

Par contre, par exemple,  ne semble pas au moins en moyenne être un bon

candidat car 

quantité qui tend vers l'infini quand tend vers l'infini sauf si 

6) Qualités d'un estimateur

a) Estimateur sans biais

On attend d'un "bon" estimateur qu'en moyenne il nous donne une bonne estimation, au moins quand la

taille de l'échantillon devient grande. Autrement dit si θ est le paramètre à estimer et l'estimateur de θ,

on voudrait bien que ou au moins que 



Dans le premier cas, on dit que est un estimateur sans biais de θ, et dans le second cas on dit que est

un estimateur asymptotiquement sans biais.

Remarquons qu'un estimateur sans biais est automatiquement un estimateur asymptotiquement sans

biais. En effet si alors 



La variable 

est un estimation sans biais de la moyenne d'une caractéristique sur une population.

Précisons ce qu'est le biais d'un estimateur biaisé.

Définition

On appelle biais de l'estimateur la différence 

Précisons immédiatement que même si l'on recherche d'abord des estimations sans biais, l'absence de

biais n'est pas automatiquement synonyme de qualité et un estimateur biaisé n'est pas forcément un

mauvais estimateur.

b) Estimateur convergent

Il serait souhaitable également que les estimations qu'il nous donne soit d'autant plus proche de ce que

l'on cherche à estimer que devient grand.

Ce que nous avons formulé dans le 1) par

 





1 / 13 100%

Documents connexes

ExamHLMA406bis Fichier

TP 4 - David Haziza Website

Exercices : Statistiques Paramétriques & Non Paramétriques

Devoir1

les notations

Une loi (8 points) 1 Variables Gaussiennes (12 points)

TD n 3 : Estimation par maximum de vraisemblance.

Devoir3

TD Estimation Maximum de Vraisemblance - Maths Supérieures

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

L`estimation - prepacom.net

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

L`estimation - prepacom.net

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib