Probabilités Elémentaires – Licence
Chapitre 7 : Echantillonnage et estimation
Jusqu’à présent, nous travaillions avec des variables aléatoires dont les lois de probabilité, ainsi
que leurs paramètres, étaient connus ou supposés connus, ce qui nous permettait de calculer des
probabilités relatives à ces variables. La démarche statistique est inverse : les lois des variables,
ou au moins leurs paramètres, sont inconnus et vont être "inférés" à travers l’observation d’un
échantillon.
1 Echantillonnage
1.1 Description des données statistiques sur un caractère
On considère ici une population, c’est-à-dire un ensemble d’individus, et on s’intéresse à un carac-
tère particulier des individus de cette population, qu’on suppose, pour chaque individu, quantifiable
par un nombre réel. On a mesuré expérimentalement la valeur du caractère de nindividus et on a
trouvé les nombres x1,· · · , xn.
Exemples :
1. La population est l’ensemble des câbles fabriqués dans une usine donnée, le caractère est la
charge de rupture d’un câble. On a mesuré la charge de rupture de 12 de ces câbles et obtenu
la liste :
1440 1410 1520 1470 1430 1490 1455 1445 1472 1455 1470 1430
2. La population est l’ensemble des jeux de pile ou face effectués avec une pièce de monnaie
donnée, le caractère est égal à 1 si on obtient face et 0 si on obtient pile. On a lancé la pièce
10 fois et obtenu la liste :
0 0 1 0 0 1 0 1 1 0
Nous rappelons maintenant les outils les plus courants de description des propriétés des listes de
résultats x1,· · · , xnobtenues dans ce contexte expérimental.
1.1.1 Représentations graphiques
On peut représenter l’ensemble de ces nombres graphiquement par :
la fonction de répartition empirique : l’ordonnée du point d’abscisse aest égale à
1
n|{j∈ {1,· · · , n}:xja}|.
le diagramme en bâtons des effectifs : la hauteur du bâton d’abscisse aest égale à
|{j∈ {1,· · · , n}:xj=a}|.
Cette représentation n’a d’intérêt que s’il y a des répétitions dans la liste x1,· · · , xn.
un histogramme des fréquences : la surface du rectangle, dont la base est l’intervalle borné I, est
égale à
1
n|{j∈ {1,· · · , n}:xjI}|.
Un tel histogramme dépend de la façon dont on découpe en intervalles l’ensemble des valeurs du
caractère.
1.1.2 Mesures de tendance et de dispersion
On peut aussi en calculer des tendances centrales :
la moyenne empirique ¯x=1
nPn
i=1 xi.
1
la médiane m: si les xjsont rénumérotés de telle sorte que x(1) ≤ · · · ≤ x(n),
m=(x(k)si n= 2k1,
1
2(x(k)+x(k+1))si n= 2k.
Les quartiles, les déciles, et plus généralement les s-quantiles sont définis de façon analogue en
répartissant les x(i)en 4, 10 ou s groupes, au lieu de 2 pour la médiane.
le mode : la valeur a(ou l’une des valeurs) qui maximise |{j∈ {1,· · · , n}:xj=a}|.
On peut en décrire la dispersion par :
l’étendue : différence entre la plus grande et la plus petite valeur des xi.
l’écart entre certains quantiles : par exemple, différence entre les troisième et premier quartiles.
l’écart moyen à la médiane : 1
nPn
i=1 |xim|.
la variance empirique :
s2=1
n
n
X
i=1
(xi¯x)2.
Reprenons l’exemple 1. S’il ne veut pas faire faillite, le fabricant des câbles ne peut pas mesurer
la charge de rupture de tous les câbles qu’il fabrique, puisque cette mesure les détruit. La valeur
moyenne de la charge de rupture qu’il a calculée en testant 12 câbles reflète-t-elle bien la valeur
moyenne de la charge de rupture de l’ensemble des câbles ? La fonction de répartition empirique
obtenue est-elle une bonne approximation de celle qu’on obtiendrait après le test de tous les câbles
ou de 1200 de ces câbles ? L’objet de la théorie des statistiques est de répondre à des questions de
ce type, c’est-à-dire d’estimer la pertinence de la généralisation des caractéristiques de l’échantillon
expérimental à la population toute entière.
La démarche choisie est celle de la modélisation probabiliste. On assimile le caractère numérique,
dont x1,· · · , xnest un échantillon observé, à une variable aléatoire Xdont la loi est inconnue, ou
dont le type est connu mais certains des paramètres sont inconnus. Par exemple, il se peut qu’on
sache, pour des raisons théoriques ou en conséquence d’expériences antérieures, que la charge de
rupture d’un câble suit une loi normale N(µ, σ2)de paramètres µet σ2inconnus ; mais on peut
aussi n’avoir aucune idée a priori sur le type de sa loi.
On représente l’expérience de l’échantillonage par nvariables aléatoires X1,· · · , Xn, indépendantes
et de même loi que X, et on considère que la liste (x1,· · · , xn)est un résultat possible de cette
expérience, c’est-à-dire une valeur particulière prise par le vecteur aléatoire (X1,· · · , Xn).
Nous allons dans ce cours voir comment l’échantillon expérimental peut être utilisé pour estimer la
loi de Xou certaines de ses caractéristiques, et donner des moyens de mesurer la validité de ces
estimations.
1.2 Echantillons aléatoires et statistiques
Définition 1. Soit Xune variable aléatoire associée à un univers . Un échantillon aléatoire
de Xde taille nest un n-uplet (X1,· · · , Xn)de variables aléatoires indépendantes de même loi
que X. La loi de Xsera appelée loi mère. Une réalisation de cet échantillon est un n-uplet de réels
(x1,· · · , xn)Xi(ω) = xi.
Définition 2. Soit (X1,· · · , Xn)un échantillon aléatoire. Une statistique est une variable aléatoire
de la forme Φ(X1,· · · , Xn), où Φest une fonction de Rndans Rp.
Exemple : Un mois avant un référendum, on sonde 1000 personnes inscrites sur les listes électorales
sur leur intention d’aller voter. Les 1000 personnes ont été tirées au hasard (avec remise) dans la
population des inscrits. On obtient 650 intentions favorables. Si on tire une personne au hasard et
qu’on l’interroge, on peut représenter sa réponse par une variable aléatoire X qui vaut 1 si elle a
l’intention d’aller voter, et 0 sinon. La loi de Xest une loi de Bernoulli de paramètre p, inconnu,
égal à la proportion dans la population des inscrits des personnes ayant l’intention d’aller voter.
On peut représenter l’expérience du sondage en introduisant 1000 variables aléatoires (X1,· · · , Xn)
indépendantes car les 1000 personnes ont été tirées au hasard (avec remise), et qui suivent la loi
B(1, p):(X1,· · · , Xn)est donc un échantillon aléatoire de loi B(1, p).
Le sondage a donné des valeurs expérimentales de cet échantillon, x1,· · · , x1000, telles que x1+
· · · +x1000 = 650. Une statistique usuelle est la moyenne empirique 1
n(X1+· · · +Xn), dont la
2
valeur expérimentale est ici 0,65 : c’est la proportion parmi les inscrits sondés de personnes ayant
l’intention d’aller voter. On étudiera dans la suite du cours dans quelle mesure cette valeur 0,65
peut être considérée comme une approximation de p.
2 Estimateurs
2.1 Définition et propriétés
Dans l’exemple précédent, la statistique 1
n(X1+· · · +Xn)est utilisée pour estimer le paramètre p
de la loi B(1, p)de l’échantillon X1,· · · , XnOn dira que c’est un estimateur de ce paramètre p.
Définition 3. Considérons un échantillon aléatoire X1,· · · , Xndont la loi dépend d’un paramètre θ
réel (ou vectoriel) inconnu et qu’on veut estimer. Un estimateur du paramètre θest tout simplement
une statistique dont la valeur expérimentale est utilisée comme estimation de θ.
Un estimateur peut être de plus ou moins bonne qualité, suivant la fiabilité de l’estimation de θqu’il
fournit. Les propriétés qu’on va définir maintenant permettent de cerner la qualité d’un estimateur.
Considérons un estimateur T= Φ(X1,· · · , Xn)de θ.
Définition 4. On appelle biais de Tpour θla valeur
bθ(T) = E(T)θ.
L’estimateur Tsera dit sans biais si E(T) = θ.
Définition 5. Un estimateur Test dit convergent (ou asymptotiquement sans biais) si E(T)tend
vers θlorsque ntend vers l’infini. Il sera dit consistant si Tconverge en probabilité vers θlorsque
ntend vers l’infini.
Proposition 1. Si Test convergent et de variance tendant vers 0lorsque ntend vers l’infini, alors
Test consistant.
Définition 6. La qualité d’un estimateur se mesure également par l’erreur quadratique moyenne
(ou risque quadratique) définie par
E[(Tθ)2].
Proposition 2. L’erreur quadratique moyenne s’exprime en fonction du biais et de la variance de
l’estimateur :
E[(Tθ)2]=[E(T)θ]2+V(T).
Remarques :
1. Entre deux estimateurs, le "meilleur" sera celui dont l’erreur quadratique moyenne est la plus
faible (on dit qu’il est plus efficace).
2. Entre deux estimateurs sans biais, le "meilleur" sera celui dont la variance est minimale.
3. Le critère d’erreur quadratique moyenne n’est pas parfait mais il est préféré à d’autres critères
qui semblent plus naturels comme l’erreur absolue moyenne E(|Tθ|)car il est relativement
facile à manipuler analytiquement.
2.2 Quelques estimateurs classiques
Dans ce paragraphe, X1,· · · , Xndésigne un échantillon aléatoire de X,µdésigne l’espérance des
Xiet σ2leur variance.
3
2.2.1 Moyenne empirique
Pour estimer l’espérance µ, il est naturel d’utiliser la moyenne de l’échantillon
¯
X=1
n
n
X
i=1
Xi.
Proposition 3. On a :
E(¯
X) = µet V(¯
X) = σ2
n.
La moyenne empirique ¯
Xest donc un estimateur sans biais et consistant de µ. De plus, par le
théorème limite central, ¯
Xconverge en loi vers N(µ, σ2
n)lorsque ntend vers l’infini.
Proposition 4. Toute somme de variables aléatoires normales indépendantes est une variable aléa-
toire normale. Ainsi, si X N (µ, σ2)alors pour toute valeur de n, ¯
X N (µ, σ2
n).
2.2.2 Variance empirique
Pour estimer la variance σ, il est naturel d’utiliser la variance de l’échantillon
S2=1
n
n
X
i=1
(Xi¯
X)2.
Proposition 5. Soit µ4le moment centré d’ordre 4 de X.Ona:
E(S2) = n1
nσ2et V(S2) = n1
n3[(n1)µ4(n3)σ4].
La variance empirique S2est donc un estimateur asymptotiquement sans biais et consistant de σ2.
Pour avoir un estimateur sans biais de la variance, on peut utiliser la variance empirique "corrigée"
S2=n
n1S2=1
n1
n
X
i=1
(Xi¯
X)2.
2.3 Méthodes d’estimation classiques
Considérons une variable aléatoire Xréelle, discrète ou continue, dont la loi de probabilité dépend
d’un paramètre θRpinconnu que l’on cherche à estimer à partir d’un échantillon aléatoire.
2.3.1 Méthode des moments
Le principe de cette méthode est de faire coincider les moments théoriques E(Xk), dépendant du
paramètre θ, et les moments empiriques 1
nPn
i=1 xk
iissus de l’échantillon. En effet, la loi des grands
nombres nous assure que les moments empiriques convergent vers les moments théoriques lorsque n
tend vers l’infini.
Exemples :
1. Avec une loi discrète.
On souhaite estimer le paramètre p[0,1] d’une loi géométrique à partir d’un n-échantillon.
Ce paramètre étant unidimensionnel, il nous suffit d’utiliser les moments d’ordre 1. Il faut
résoudre l’équation
E(X) = 1
n
n
X
i=1
xi1
p=1
n
n
X
i=1
xip=n
Pn
i=1 xi
.
L’estimateur de pobtenu par la méthode des moments est donc
˜p=n
Pn
i=1 Xi
=1
¯
X.
4
2. Avec une loi continue.
On souhaite estimer le paramètre θ= (µ, σ2)d’une loi normale à partir d’un n-échantillon. Ce
paramètre étant bidimensionnel, nous utilisons les moments d’ordre 1 et 2. Il faut résoudre le
système d’équations
(E(X) = 1
nPn
i=1 xi
E(X2) = 1
nPn
i=1 x2
i
(µ=1
nPn
i=1 xi
µ2+σ2=1
nPn
i=1 x2
i
(µ=1
nPn
i=1 xi
σ2=1
nPn
i=1(xi¯x)2
Les estimateurs de µet σ2obtenus par la méthode des moments sont donc la moyenne et la
variance empiriques.
2.3.2 Méthode du maximum de vraisemblance
Définissons d’abord la fonction ftelle que
f(x;θ) = (fθ(x)si Xest une v.a. continue de densité fθ,
Pθ(X=x)sinon.
Définition 7. On appelle fonction de vraisemblance de θpour une réalisation (x1,· · · , xn)d’un
échantillon, la fonction de θ:
L(x1,· · · , xn;θ) =
n
Y
i=1
f(xi;θ).
Définition 8. La méthode consistant à estimer θpar la valeur qui maximise Ls’appelle méthode
du maximum de vraisemblance :
ˆ
θ= arg max
θRp
L(x1,· · · , xn;θ).
Exemples :
1. Avec une loi discrète.
On souhaite estimer le paramètre λ > 0d’une loi de Poisson à partir d’un n-échantillon. On
af(x;λ) = eλλx
x!. La fonction de vraisemblance s’écrit donc
L(x1,· · · , xn;λ) =
n
Y
i=1
f(xi;λ) = e
n
Y
i=1
λxi
xi!.
Cette vraisemblance étant strictement positive, il est plus simple de maximiser la log-vraisemblance :
ln L(x1,· · · , xn;λ) = + ln(λ)
n
X
i=1
xi
n
X
i=1
ln(xi!).
La dérivée première
ln L(x1,· · · , xn;λ)
λ =n+Pn
i=1 xi
λ
s’annule pour λ=ˆ
λ=Pn
i=1 xi
n. La dérivée seconde
2ln L(x1,· · · , xn;λ)
λ2=Pn
i=1 xi
λ2
est toujours négative ou nulle donc nous avons bien un maximum au point λ=ˆ
λ. L’estimateur
du maximum de vraisemblance de λest donc la moyenne empirique
ˆ
λ=¯
X=1
n
n
X
i=1
Xi.
5
1 / 6 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !