Estimation paramétrique

publicité
1
Cahier de Mathématiques Appliquées no 5
Estimation paramétrique
B. Ycart
Comment connaît-on la population du globe ? Comment détermine-t-on dans
quelles limites se situe le nombre de globules rouges par litre de sang chez un
individu en bonne santé ? Comment sait-on combien d’individus sont connectés à internet ? Toutes ces évaluations sont déduites de modèles probabilistes
par les techniques statistiques d’estimation paramétrique. Le point de vue
adopté ici est orienté vers les applications en médecine, et s’appuie largement
sur l’utilisation des logiciels de calcul, qui permettent l’expérimentation sur
des échantillons simulés.
Les livres de statistique sont nombreux. Plus ou moins théoriques, plus
ou moins spécialisés vers tel ou tel domaine d’application, il est difficile d’en
recommander un en particulier. Ces notes ont été préparées à partir des
références suivantes.
J.L. Devore Probability and statistics for engineering and the sciences.
Brooks/Cole, Pacific Grove, 1991.
G. Saporta Probabilités, Analyse des données, Statistique.
Technip, Paris, 1990.
Les “cahiers de mathématiques appliquées” doivent beaucoup aux relectures scrupuleuses de Rachid Boumaza, au dynamisme de Sylvie SevestreGhalila, au soutien de l’Ecole Supérieure de la Statistique et de l’Analyse de
l’Information de Tunisie, par son directeur Makki Ksouri et son directeur des
études Nacef Elloumi, ainsi qu’à la compétence de Habib Bouchriha, directeur
du Centre des Publications Universitaires de la Tunisie.
2
Cahier de Mathématiques Appliquées no 5
Table des matières
1 Estimation ponctuelle
1.1 Modèles paramétrés . . .
1.2 Estimateurs et estimations
1.3 Qualités d’un estimateur .
1.4 Intervalles de dispersion .
1.5 Exemples d’estimateurs .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
3
5
6
9
11
2 Recherche d’estimateurs
2.1 Méthode des moments . . . . . . . . . .
2.2 Estimation par ajustement . . . . . . . .
2.3 Estimateurs des moindres carrés . . . .
2.4 Notion de vraisemblance . . . . . . . . .
2.5 Pratique du maximum de vraisemblance
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
16
16
17
19
21
24
3 Intervalles de confiance
3.1 Définitions . . . . . . . .
3.2 Echantillons gaussiens .
3.3 Modèle linéaire . . . . .
3.4 Normalité asymptotique
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
27
27
31
32
35
4 Exercices
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
39
Estimation paramétrique
1
1.1
3
Estimation ponctuelle
Modèles paramétrés
Le postulat de modélisation sur lequel toute étude statistique est basée est
le suivant :
Les données observées sont des réalisations de variables aléatoires.
Quand le résultat d’une expérience n’est pas reproductible exactement, on
suppose qu’il est la réalisation d’une variable aléatoire. La théorie des probabilités fournit des outils, comme la loi des grands nombres ou le théorème
central limite, permettant d’extraire des données ce qui est reproductible et
qui pourra donc fonder une prédiction ou une décision.
Quand on observe un caractère statistique sur une population, si l’ordre
dans lequel on prend les individus n’a pas d’importance, on choisira de considérer que les données sont des réalisations de variables aléatoires indépendantes et de même loi. Cette loi de probabilité décrit la variabilité du caractère. Même dans le cas où les individus ne sont pas interchangeables, comme
pour une série chronologique, la modélisation consistera à se ramener, en
soustrayant au besoin une fonction déterministe, au cas d’un échantillon de
variables aléatoires indépendantes.
Définition 1.1 Soit P une loi de probabilité sur IR. On appelle échantillon
de la loi P un n-uplet de variables aléatoires indépendantes et de même loi
P.
Le mot échantillon prend en statistique deux sens différents, selon que
l’on parle des données observées ou du modèle probabiliste. L’hypothèse de
modélisation consiste à voir l’échantillon (observé) comme une réalisation
d’un échantillon (théorique) d’une certaine loi de probabilité P . En d’autres
termes, on considère que les données auraient pu être produites en simulant
de façon répétée la loi de probabilité P . Pour éviter les confusions, nous désignerons par données ou échantillon observé, la séquence de nombres recueillie
(x1 , . . . , xn ). Les échantillons (théoriques) au sens de la définition ci-dessus
seront désignés par des majuscules : (X1 , . . . , Xn ).
La loi de probabilité P modélisant la variabilité des données n’a aucune
réalité physique. Cependant elle est considérée comme un objet caché. Tout
se passe comme si on disposait d’un algorithme de simulation de la loi P ,
sans connaître P elle-même : Les données sont des appels indépendants de
cet algorithme. L’objet de l’analyse statistique est d’en extraire toute information utile sur P . Si l’hypothèse de modélisation par la loi P est correcte
(l’algorithme simule effectivement cette loi), la loi des grands nombres permet d’affirmer que la distribution empirique des données est proche de P ,
pour un grand échantillon. Mais deux échantillons observés, simulés selon la
même loi, ont rarement la même distribution empirique. Afin d’extraire des
données des informations reproductibles, on est amené à réduire l’ensemble
des lois possibles à une famille particulière de lois de probabilité.
4
Cahier de Mathématiques Appliquées no 5
On appelle problème d’ajustement le problème consistant à déterminer,
dans une famille de lois de probabilité donnée, quelle est celle qui coïncide
le mieux avec l’échantillon observé. Dans la situation la plus courante, celle
que nous considérons ici, la famille dépend d’un ou plusieurs paramètres réels
inconnus. Le problème est donc de déterminer quelle valeur du paramètre
est la mieux adaptée aux données, en un sens que nous préciserons plus loin.
On parle alors d’estimation paramétrique. Nous donnons ci-dessous quelques
exemples courants de situations statistiques, avec des familles de lois communément choisies.
Echantillons binaires
Typiquement, la situation est celle où un même événement est observé ou
non dans une suite d’expériences indépendantes. Si on code les observations
par 1 et 0, la modélisation par une loi de Bernoulli s’impose. Le paramètre
inconnu est la probabilité de l’événement. On l’approche bien évidemment
par sa fréquence expérimentale.
Comptages
Un échantillon issu de comptages prend des valeurs entières positives. Plusieurs familles de lois classiques peuvent être utilisées comme modèles. Si
les objets comptés sont relativement fréquents, dans une population de taille
fixée et assez faible, les lois binomiales ou hypergéométriques sont des modèles
naturels (nombre de filles dans les fratries de 5 enfants par exemple). Si les
objets comptés possèdent un caractère relativement rare dans un grand ensemble (bactéries, individus porteurs d’un gène particulier,. . . ) on utilise souvent une loi de Poisson. Pour des durées mesurées en temps discret (nombres
de jours ou de semaines d’incubation pour une maladie) on pourra utiliser
une loi géométrique ou binomiale négative. On se laisse souvent guider par la
forme de la distribution empirique pour le choix d’un modèle. Un diagramme
en bâtons en gros unimodal pourra suggérer de modéliser par une loi binomiale négative, même s’il n’y a pas de raison profonde qui rende ce choix
naturel.
Variables normales
Les lois normales sont de très loin les plus utilisées parmi les modèles probabilistes. Cela tient à deux causes. L’une est qu’elles permettent des calculs
explicites faciles, quelle que soit la taille de l’échantillon. En particulier il
est fréquent de choisir un modèle normal pour de petits échantillons, sans
pouvoir toujours justifier ce choix. L’autre raison tient au théorème central
limite : chaque fois qu’une quantité provient du cumul d’un grand nombre de
facteurs variables relativement indépendants entre eux, cette quantité pourra
être modélisée par une loi normale. C’est le cas pour les erreurs de mesures
qui ont été la motivation historique de la loi normale, mais aussi pour de très
nombreux paramètres physiologiques (tailles, poids, numérations sanguines,
dosages hormonaux . . . ).
5
Estimation paramétrique
Durées
Des durées mesurées en temps continu sont modélisées par des lois de probabilité continues sur IR+ . En fiabilité, pour des durées de fonctionnement ou
des durées de réparation, les lois de Weibull sont souvent préférées. Les lois
exponentielles en sont un cas particulier.
Données unimodales asymétriques
Comme pour les caractères discrets, le choix d’un modèle pour un caractère
continu est souvent guidé par la forme de la distribution empirique. Il arrive
que l’histogramme d’un caractère continu soit trop dissymétrique pour qu’on
puisse utiliser la loi normale. Plusieurs familles de lois présentent des dissymétries plus ou moins importantes. C’est le cas pour les lois de Weibull, déjà
évoquées, mais aussi pour les lois gamma. Quand les ordres de grandeur des
données sont très différents, on peut les remplacer par leurs logarithmes. Si le
nouvel histogramme coïncide apparemment avec une loi normale, on utilisera
une loi log-normale comme modèle pour les données initiales.
Dans tout ce qui suit, nous désignerons par Pθ une loi de probabilité dépendant du paramètre inconnu θ. Dans la plupart des exemples, le paramètre θ
sera un nombre réel, mais il peut aussi être un entier, ou un couple de réels.
1.2
Estimateurs et estimations
Quand une famille de lois dépendant du paramètre inconnu θ a été choisie,
c’est de l’échantillon et de lui seul que l’on peut tirer les informations. On
appelle estimateur du paramètre θ, toute fonction de l’échantillon, prenant
ses valeurs dans l’ensemble des valeurs possibles pour θ. Evidemment, cette
définition un peu vague cache l’espoir que les valeurs prises par l’estimateur
soient proches de la valeur cible θ, qui est et restera inconnue.
Il importe de bien distinguer les variables aléatoires, liées à la modélisation, de leurs réalisations, identifiées aux données. Un échantillon (théorique)
est un n-uplet de variables aléatoires indépendantes et de même loi Pθ . Pour
estimer θ, on propose un estimateur, fonction de l’échantillon :
T = τ (X1 , . . . , Xn ) .
C’est aussi une variable aléatoire. Le choix du modèle et de l’estimateur T est
déconnecté du recueil des données. C’est en quelque sorte une planification
que l’on effectue avant toute observation, et qui pourra servir à plusieurs
échantillons observés du même phénomène.
Une fois un modèle choisi, on considérera un n-uplet de données (x1 , . . . , xn )
comme une réalisation des variables aléatoires (X1 , . . . , Xn ). La valeur (réelle)
prise par T :
θb = τ (x1 , . . . , xn ) ,
est l’estimation (du paramètre au vu de l’échantillon observé).
Cahier de Mathématiques Appliquées no 5
6
Prenons l’exemple simple d’une pièce dont on ignore si elle est ou non
truquée. La probabilité de tomber sur pile est le paramètre inconnu θ = p.
On se propose de réaliser 10 lancers de la pièce, que l’on modélisera par un
échantillon de taille 10 de la loi de Bernoulli de paramètre p. Le nombre de
pile obtenu sur les 10 lancers est une variable aléatoire qui suit la loi binomiale
B(10, p). Le quotient de cette variable aléatoire par 10 (la fréquence) est un
estimateur de p. Effectuons maintenant les 10 lancers en notant chaque fois 1
si pile sort, et 0 si c’est face. Une réalisation de l’échantillon est par exemple :
0, 1, 1, 0, 1, 1, 1, 0, 0, 1.
Pour cette réalisation, la fréquence empirique prend la valeur 0.6, que l’on
proposera comme estimation de p. Bien évidemment, 10 nouveaux lancers de
la même pièce pourront conduire à une réalisation différente de l’échantillon,
et à une estimation différente de p.
1.3
Qualités d’un estimateur
Pour un échantillon de taille n de la loi de Bernoulli de paramètre inconnu
p, la fréquence empirique est un estimateur de p. C’est une variable aléatoire
qui prend ses valeurs dans [0, 1]. Si n est grand, elle prend avec une forte
probabilité des valeurs proches de p, d’après la loi des grands nombres. Quel
que soit le modèle et le paramètre à estimer, prendre des valeurs proches de
ce paramètre au moins pour de grands échantillons, est la qualité principale
que l’on attend d’un estimateur. En toute rigueur, on doit considérer une
suite d’estimateurs (Tn ), où pour tout n, Tn est une variable aléatoire fonction de l’échantillon (X1 , . . . , Xn ). Par abus de langage, on appelle encore
“estimateur” cette suite.
Définition 1.2 On dit que l’estimateur (Tn ) est convergent si pour tout ε >
0:
lim P [|Tn − θ| > ε] = 0 .
n→∞
Un estimateur convergent s’écarte donc du paramètre avec une faible probabilité, si la taille de l’échantillon est assez grande.
L’exemple de base d’estimateur convergent est la moyenne empirique.
Nous noterons X n la moyenne empirique de l’échantillon (X1 , . . . , Xn ) :
Xn =
X1 + · · · + Xn
.
n
La loi faible des grands nombres affirme que X n est un estimateur convergent
de l’espérance de X.
Si le paramètre θ s’exprime comme une fonction continue de IE[X], alors
l’image de X n par cette fonction est un estimateur convergent de θ, par la
proposition suivante.
Estimation paramétrique
7
Proposition 1.3 Soit (Tn ) un estimateur convergent du paramètre θ, et φ
une fonction de IR dans IR, continue au point θ. Alors (φ(Tn )) est un estimateur convergent de φ(θ).
Considérons par exemple comme modèle la loi uniforme sur [0, θ], où
le paramètre θ est inconnu. La moyenne empirique X n est un estimateur
convergent de l’espérance de la loi, qui vaut θ/2. Donc Tn = 2X n est un
estimateur convergent de θ.
Mais d’autres espérances sont calculables. Par exemple, si X suit la loi
uniforme sur [0, θ], alors IE[log(X)] vaut log(θ)−1. Toujours d’après la loi des
grands nombres, (log(X1 ) + · · · + log(Xn ))/n est un estimateur convergent de
log(θ) − 1. Donc l’estimateur Tn′ suivant est encore un estimateur convergent
de θ :
log(X ) + · · · + log(X )
1
n
+1 .
Tn′ = exp
n
La notion de convergence ne donne aucune assurance pratique que les valeurs
prises par un estimateur seront effectivement dans un rayon fixé autour de la
vraie valeur du paramètre, pour une taille d’échantillon donnée. On quantifie
la qualité des estimateurs par la notion d’erreur quadratique.
Définition 1.4 On appelle erreur quadratique de Tn par rapport à θ la quantité :
EQ(Tn , θ) = IE[(Tn − θ)2 ] .
L’erreur quadratique est liée à la convergence par la proposition suivante.
Proposition 1.5 Si l’erreur quadratique de Tn par rapport à θ tend vers 0
quand n tend vers l’infini, alors (Tn ) est un estimateur convergent de θ.
Démonstration : Si |Tn − θ| > ε, alors (Tn − θ)2 > ε2 . Donc :
IE[(Tn − θ)2 ] > ε2 IP[|Tn − θ| > ε] .
Si IE[(Tn − θ)2 ] tend vers 0, il en est de même de IP[|Tn − θ| > ε].
Si deux estimateurs sont disponibles pour le même paramètre θ, on dira que
l’un est meilleur que l’autre si son erreur quadratique par rapport à θ est
inférieure. Dans l’exemple ci-dessus, l’erreur quadratique de Tn vaut θ2 /(3n),
l’erreur quadratique de Tn′ est équivalente à θ2 /n quand n tend vers l’infini,
Tn est donc meilleur que Tn′ .
Même pour un estimateur convergent, il peut se faire que les valeurs prises
soient décalées en moyenne par rapport à la vraie valeur du paramètre. On
dit alors que l’estimateur est biaisé.
Définition 1.6 On appelle biais de l’estimateur Tn par rapport à θ la quantité :
B(Tn , θ) = IE[Tn − θ] .
Cahier de Mathématiques Appliquées no 5
8
L’estimateur est dit sans biais si B(Tn , θ) = 0, il est dit asymptotiquement
sans biais si B(Tn , θ) tend vers 0 quand n tend vers l’infini.
Proposition 1.7 L’erreur quadratique de Tn par rapport à θ est la somme
de la variance de Tn et du carré du biais.
Démonstration : Par linéarité de l’espérance on a :
EQ(Tn , θ) = IE[(Tn − θ)2 ]
= IE[(Tn − IE[Tn ] + IE[Tn ] − θ)2 ]
= IE[(Tn − IE[Tn ])2 ] + (IE[Tn ] − θ)2 + 2(IE[Tn ] − θ)(IE[Tn − IE[Tn ]])
= V ar[Tn ] + (B(Tn , θ))2 + 0 .
Quand un estimateur est sans biais, l’erreur quadratique est égale à la variance. Le critère suivant, conséquence immédiate des propositions 1.5 et 1.7
est souvent utilisé pour démontrer qu’un estimateur est convergent.
Proposition 1.8 Si un estimateur est sans biais ou asymptotiquement sans
biais et si sa variance tend vers 0, alors il est convergent.
Quand le biais peut être explicitement calculé, on aura évidemment intérêt à le corriger pour améliorer l’estimateur. Reprenons l’exemple de la loi
uniforme sur [0, θ]. Un estimateur naturel de θ est la plus grande valeur de
l’échantillon :
Tn′′ = max{X1 , . . . , Xn } .
Comme toutes les valeurs Xi sont inférieures à θ, l’estimateur Tn′′ sous-estime
systématiquement θ. On démontre que son espérance est nθ/(n+1) et donc
son biais vaut −θ/(n+1). On peut corriger le biais en introduisant :
Tn′′′ =
n + 1 ′′
Tn .
n
Ce nouvel estimateur est sans biais, et il est meilleur que Tn′′ .
Dans le tableau ci-dessous nous rassemblons les 4 exemples d’estimateurs
du paramètre θ pour la loi uniforme U (0, θ), qui ont été introduits jusqu’ici.
Le meilleur des quatre est Tn′′′ .
Estimateur
Tn
Tn′
Tn′′
Tn′′′
Biais
0
∼ θ/(2n)
∼ −θ/n
0
Erreur quadratique
θ2 /(3n)
∼ θ2 /n
∼ 2θ2 /n2
∼ θ2 /n2
Estimation paramétrique
1.4
9
Intervalles de dispersion
L’erreur quadratique mesure la concentration d’un estimateur autour de
la valeur du paramètre. Les intervalles de dispersion sont un autre moyen de
mesurer la plus ou moins grande concentration d’une loi de probabilité. Ils
s’expriment à l’aide de la fonction quantile. Si T est une variable aléatoire, la
fonction quantile de la loi de T est la fonction de [0, 1] dans IR qui à u ∈ [0, 1]
associe :
QT (u) = inf{t t.q. IP[T ≤ t] ≥ u} .
Définition 1.9 Soit T une variable aléatoire et α un réel compris entre 0
et 1. On appelle intervalle de dispersion de niveau 1−α tout intervalle de la
forme :
[ QT (β), QT (1 − α + β) ] , avec 0 ≤ β ≤ α .
En statistique, les réels α compris entre 0 et 1 sont de tradition. La même
tradition leur affecte prioritairement les valeurs 0.05 et 0.01, plus rarement
0.02, 0.005 ou 0.001. Il faut donc lire α comme “une faible proportion”, et
1 − α comme “une forte proportion”. Un intervalle de dispersion de niveau
1−α pour T est tel que T appartient à cet intervalle avec probabilité 1−α. Il
contient donc une forte proportion des valeurs que prendra T , même s’il est
en général beaucoup plus petit que le support de la loi.
Selon les valeurs de β, on dit qu’un intervalle de dispersion de niveau 1−α
est :
• unilatéral inférieur si β = 0,
• unilatéral supérieur si β = α,
• symétrique si β = α/2,
• optimal si son amplitude est la plus courte parmi tous les intervalles de
dispersion de niveau 1−α.
Déterminer un intervalle de dispersion optimal requiert en général un
calcul numérique particulier, sauf dans le cas où la loi est symétrique, comme
une loi normale ou une loi de Student. On dit que la loi de T est symétrique
si pour tout u ∈ [0, 1],
QT (u) − QT (0.5) = QT (0.5) − QT (1 − u) .
On démontre que si la loi de T est symétrique, alors l’intervalle de dispersion
symétrique est optimal.
La notion de convergence se traduit en termes d’intervalles de dispersion
de la façon suivante.
Proposition 1.10 Soit (Tn ) un estimateur du paramètre θ. L’estimateur
(Tn ) est convergent si et seulement si pour tout (α, β), avec 0 < β < α, et
pour tout ε > 0, l’intervalle de dispersion [ QTn (β), QTn (1 − α + β) ] est inclus
dans l’intervalle [θ − ε, θ + ε] à partir d’un certain n.
Cahier de Mathématiques Appliquées no 5
10
loi gamma G(5,0.5)
0.10
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0.00
.
0
3
6
9
12
15
18
21
24
27
30
Figure 1 – Intervalle de dispersion optimal de niveau 0.95 pour la loi gamma
G(5, 0.5) (loi du khi-deux de paramètre 10).
Démonstration : Dire qu’un estimateur (Tn ) est convergent, c’est dire que la
probabilité que Tn appartienne à l’intervalle [θ − ε, θ + ε] tend vers 1 quand
la taille n de l’échantillon tend vers l’infini. Si β est différent de 0, il existe
n0 tel que pour n supérieur à n0 , la probabilité que Tn soit inférieur à θ − ε,
est inférieure à β. Ceci équivaut à dire que θ − ε est inférieur à QTn (β). De
même si α−β est différent de 0, il existe n1 tel que pour n supérieur à n1 , la
probabilité que Tn soit inférieur à θ+ε, est supérieure à 1−α+β. Ceci équivaut
à dire que θ + ε est supérieur à QTn (1 − α + β). Donc pour n supérieur à
n0 et n1 , l’intervalle de dispersion [ QTn (β), QTn (1 − α + β) ] est inclus dans
l’intervalle [θ − ε, θ + ε].
Réciproquement, si [ QTn (β), QTn (1 − α + β) ] est inclus dans [θ − ε, θ + ε]
à partir d’un certain n, alors la probabilité que Tn soit compris entre θ − ε et
θ + ε est supérieure à 1 − α. Ceci étant vrai pour tout α > 0, cette probabilité
tend vers 1.
A titre d’exemple, nous reprenons l’estimateur Tn′′ pour la loi uniforme
U (0, θ), à savoir le maximum des valeurs de l’échantillon. Sa fonction quantile
est la fonction qui à u ∈ [0, 1] associe :
QTn′′ (u) = θ u1/n .
11
Estimation paramétrique
Pour α et β ≤ α fixés, l’intervalle de dispersion [ QTn′′ (β), QTn′′ (1 − α + β) ] a
pour longueur :
θ(1 − α + β)1/n − θβ 1/n .
Il se trouve que l’intervalle de dispersion optimal coïncide avec l’intervalle
de dispersion unilatéral supérieur (β = α). La borne de gauche est θα1/n , la
borne de droite est θ. Voici quelques valeurs pour la quantité α1/n , qui tend
vers 1 quand n tend vers l’infini.
.
n .. α
10
100
1000
0.05
0.741
0.970
0.997
0.01
0.631
0.955
0.995
0.001
0.501
0.933
0.993
Quand la loi de la variable aléatoire T est discrète, la notion d’intervalle
de dispersion recèle une certaine ambiguïté. Considérons par exemple la loi
binomiale B(10, 0.6). Voici les valeurs de sa fonction de répartition.
i
F (i)
1
.002
2
.012
3
.055
4
.166
5
.367
6
.618
7
.833
8
.954
9
.994
10
1
Fixons 1−α = 0.9. En toute rigueur, la valeur de la fonction quantile au point
0.9 est 7. L’intervalle [0, 7] devrait donc être un intervalle de dispersion de
niveau 0.9 pour la loi B(10, 0.6). Pourtant sa probabilité n’est que de 0.833.
Pour les calculs utilisant les intervalles de dispersion, on applique toujours un
principe de précaution, qui consiste à garantir le niveau. On qualifiera donc
d’intervalle de dispersion de niveau 1 − α les intervalles dont la probabilité
est supérieure ou égale à 1−α. Ce principe amène à modifier la définition 1.9
pour les lois discrètes à valeurs dans IN, en remplaçant la borne de droite
QT (1 − α + β) par 1 + QT (1 − α + β). Le tableau ci-dessous donne une liste
d’intervalles de dispersion de niveau ≥ 0.9, avec leur probabilité exacte, pour
la loi B(10, 0.6).
Intervalle
Probabilité
[0, 8]
0.954
[1, 8]
0.954
[2, 8]
0.952
[3, 8]
0.941
[4, 9]
0.939
[4, 10]
0.945
Deux intervalles sont d’amplitude minimale, [3, 8] et [4, 9]. On choisira celui
dont la probabilité est la plus grande, à savoir [3, 8]. La figure 2 représente
en fonction de p les intervalles de dispersion optimaux, au sens défini cidessus, pour la loi binomiale B(10, p), ainsi que les intervalles de dispersion
symétriques.
1.5
Exemples d’estimateurs
Dans cette section, nous illustrons les notions d’estimateur, de convergence et de biais sur trois exemples, l’estimation d’une variance, le problème
des questions confidentielles, et les comptages par capture-recapture.
Cahier de Mathématiques Appliquées no 5
12
Intervalles de dispersion : loi binomiale
10
9
8
7
6
5
4
3
2
1
.
0
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Figure 2 – Intervalles de dispersion optimaux (trait plein) et symétriques
(pointillés) de niveau ≥ 0.9 pour la loi binomiale B(10, p).
Estimateurs de la variance
Soit (X1 , . . . , Xn ) un échantillon d’une loi inconnue P , qui sera supposée admettre des moments de tous ordres. Nous avons vu que la moyenne empirique
X n = (X1 +· · ·+Xn )/n est un estimateur convergent de l’espérance. C’est un
estimateur sans biais, et sa variance est égale à la variance de la loi P , divisée
par n. Comment estimer la variance de P ? L’estimateur le plus naturel est
le suivant.
Définition 1.11 On appelle variance empirique de l’échantillon
(X1 , . . . , Xn ) l’estimateur :
n
Sn2 =
1X
(Xi − X n )2 .
n i=1
Si X désigne une variable aléatoire de loi P , Sn2 est bien un estimateur
convergent de V ar[X] = IE[(X − IE[X])2 ]. Mais ce n’est pas un estimateur
sans biais. En effet :
Proposition 1.12
IE[Sn2 ] =
n−1
V ar[X] .
n
13
Estimation paramétrique
2
Démonstration : Calculons tout d’abord IE[X n ].
2
IE[X n ] =
1
IE[(X1 + · · · + Xn )2 ]
n2 

n
n
1 X 2 X X
Xi Xj  .
Xi +
= 2 IE
n
i=1
i=1
j6=i
Par définition d’un échantillon, X1 , . . . , Xn sont indépendantes et de même
loi. Donc IE[Xi2 ] = IE[X 2 ] et IE[Xi Xj ] = (IE[X])2 , où X est une variable
aléatoire quelconque de loi P . En reportant ces valeurs on obtient :
2
1
nIE[X 2 ] + n(n − 1)(IE[X])2 )
2
n
1
n−1
= IE[X 2 ] +
(IE[X])2 .
n
n
IE[X n ] =
On a donc :
1
n−1
1
IE[X12 + · · · + Xn2 ] − IE[X 2 ] −
(IE[X])2 )
n
n
n
n−1
n−1
IE[X 2 ] −
(IE[X])2 )
=
n
n
n−1
=
V ar[X] .
n
IE[Sn2 ] =
Sn2
Pour transformer
en un estimateur non biaisé, il suffit de corriger le biais
par un facteur multiplicatif.
Définition 1.13 On appelle variance empirique non biaisée l’estimateur :
n
1 X
n
Sn2 =
(Xi − X n )2 .
Vn =
n−1
n − 1 i=1
p
√
qu’en général
On peut estimer l’écart-type
par Sn2 ou bien Vn . Notons
p
p
√
aussi bien Vn que Sn2 sont des estimateurs biaisés de V ar[X]. La différence entre les deux estimateurs tend vers 0 quand la taille n de l’échantillon
tend vers l’infini. Néanmoins, la plupart des calculatrices proposent les deux
estimateurs de l’écart-type (touches σn et σn−1 ). Certains
√ logiciels (en 2parVn , d’autres Sn ou
ticulier
Scilab)
calculent
par
défaut
la
valeur
de
V
ou
n
p
Sn2 . Dans la suite, nous utiliserons surtout Sn2 , malgré l’inconvénient du
biais.
Cahier de Mathématiques Appliquées no 5
14
Questions confidentielles
Certains sujets abordés dans les enquêtes d’opinion sont parfois assez intimes, et on court le risque que les personnes interrogées se refusent à répondre franchement à l’enquêteur, faussant ainsi le résultat. On peut alors
avoir recours à une astuce consistant à inverser aléatoirement les réponses.
Considérons une question confidentielle pour laquelle on veut estimer la probabilité p de réponses positives. L’enquêteur demande à chaque personne
interrogée de lancer un dé. Si le dé tombe sur 6, la personne doit donner sa
réponse sans mentir, sinon elle doit donner l’opinion contraire à la sienne. Si
l’enquêteur ignore le résultat du dé, il ne pourra pas savoir si la réponse est
franche ou non, et on peut espérer que la personne sondée acceptera de jouer
le jeu. Généralisons légèrement la situation en tirant pour chaque personne
une variable de Bernoulli de paramètre α. Si le résultat de cette variable
est 1, la réponse est franche, sinon, elle est inversée. Soit n le nombre de
personnes interrogées. L’enquêteur ne recueille que la fréquence empirique
Fn des “oui”. La proportion inconnue des “oui” à l’issue de la procédure est
q = αp + (1 − α)(1 − p), et la fréquence Fn observée par l’enquêteur est un
estimateur sans biais et convergent de q. Remarquons que si α = 1/2, q vaut
1/2 quel que soit p. Mais si α 6= 1/2, on peut exprimer p en fonction de q :
p=
q−1+α
.
2α − 1
On peut donc proposer comme estimateur de p la quantité suivante :
Tn =
Fn − 1 + α
.
2α − 1
L’espérance de Tn est p. La variance de Tn vaut :
q(1 − q)
p(1 − p)
α(1 − α)
=
+
.
n(2α − 1)2
n
n(2α − 1)2
L’estimateur Tn est sans biais, sa variance tend vers 0, il est donc convergent.
Pour n fixé, la variance de T tend vers l’infini quand α tend vers 1/2. Elle
est minimale si α = 0 ou 1 (mais alors la procédure perd tout son intérêt). Le
problème est donc de choisir une valeur de α qui soit assez grande pour que
la confidentialité soit crédible, mais suffisamment éloignée de 1/2 pour ne pas
trop augmenter la variance de l’estimateur. Pour le dé, la valeur de α est 1/6
et le terme additionnel de la variance est proportionnel à α(1−α)/(2α−1)2 =
0.3125.
Comptages par capture-recapture
Comment estimer le nombre d’espèces d’insectes vivant sur la terre, alors
que de nombreuses espèces sont encore inconnues ? Comment connaît-on la
population de baleines dans les océans ? Le comptage par capture-recapture
15
Estimation paramétrique
permet d’évaluer des tailles de populations pour lesquelles un recensement exhaustif est impossible. La méthode est basée sur une idée simple. Considérons
une population, de taille N inconnue. On prélève dans un premier temps un
groupe d’individus, de taille m fixée. Ces individus sont recensés et marqués
de façon à être reconnus ultérieurement. Plus tard, on prélève un nouveau
groupe de taille n, et on observe le nombre X d’individus marqués dans ce
nouveau groupe. Si le deuxième prélèvement est indépendant du premier, la
loi de X est la loi hypergéométrique de paramètres N , m et n, d’espérance
nm/N . On peut s’attendre à ce que la proportion X/n d’individus marqués
dans le deuxième échantillon soit proche de la proportion d’individus marqués
dans l’ensemble de la population, m/N . Il est donc raisonnable de proposer
comme estimateur de N la quantité suivante :
T =
nm
.
X
L’inconvénient de cet estimateur est qu’il n’est pas défini si X prend la valeur
0, ce qui arrive avec une probabilité strictement positive. On peut corriger ce
défaut de deux manières. La première consiste à remplacer X par X + 1, ce
qui ne devrait pas fausser trop le résultat si les nombres envisagés sont assez
grands. Posons donc :
nm
.
T′ =
X +1
La seconde manière consiste à décider de rejeter a priori les échantillons pour
lesquels on n’obtiendrait pas d’individu marqué. Ceci revient à remplacer X
par une autre variable aléatoire X ′ dont la loi est la loi conditionnelle de X
sachant que X est strictement positif. Posons donc :
T ′′ =
nm
.
X′
Pour des valeurs de N , m et n particulières, on peut calculer numériquement
les espérances et les écarts-types de ces estimateurs. Le tableau ci-dessous
résume des résultats obtenus pour m = n = 100 et différentes valeurs de N .
N
′
IE[T
]
p
V ar[T ′ ]
′′
pIE[T ]
V ar[T ′′ ]
200
197.0
13.9
201.0
14.5
300
295.1
34.4
304.2
36.6
400
393.1
60.2
409.6
65.6
500
491.1
90.7
517.5
101.5
1000
981.3
309.3
1102.0
420.2
5000
4291.1
2459.5
5767.9
2995.4
Les deux estimateurs sont biaisés, le premier a tendance à sous-estimer la
taille N de la population, le deuxième à la sur-estimer. L’écart-type augmente
plus rapidement que N . Il est naturel que la précision relative soit d’autant
plus faible que les échantillons recueillis sont petits devant la taille inconnue
de la population.
Cahier de Mathématiques Appliquées no 5
16
2
2.1
Recherche d’estimateurs
Méthode des moments
Considérons encore une loi de probabilité Pθ dépendant du paramètre
inconnu θ, et un échantillon (X1 , . . . , Xn ) de cette loi.
Soit f une fonction de IR dans IR. Si X est une variable aléatoire de loi
Pθ , la loi de f (X) dépend aussi en général de θ, et il en est de même de
son espérance. Mais IE[f (X)] peut être estimée par la moyenne empirique
de (f (X1 ), . . . , f (Xn )). Si θ s’exprime en fonction de IE[f (X)], on en déduira
alors un estimateur de θ. Nous avons déjà utilisé cette technique plusieurs fois
dans les deux paragraphes précédents. Dans la plupart des cas, f (X) est une
puissance de X, ou de X − IE[X]. Les quantités IE[X k ] et IE[(X − IE[X])k ]
s’appellent les moments de X, d’où le nom de la méthode. Nous donnons
trois exemples d’application, aux lois gamma, bêta, et binomiale négative.
Lois gamma
Si X suit la loi gamma de paramètres a et λ, son espérance et sa variance
valent :
a
a
et V ar[X] = 2 .
IE[X] =
λ
λ
On peut donc exprimer a et λ en fonction de IE[X] et V ar[X] :
a=
IE[X]2
V ar[X]
et λ =
IE[X]
.
V ar[X]
Si on dispose d’un échantillon (X1 , . . . , Xn ) de la loi gamma de paramètres
a et λ, la moyenne empirique X et la variance empirique S 2 sont des estimateurs convergents de IE[X] et V ar[X] respectivement. On en déduit deux
estimateurs convergents de a et λ :
2
A=
X
S2
et Λ =
X
.
S2
Lois bêta
La même technique permet d’estimer les paramètres d’une loi bêta. Si X
suit la loi bêta de paramètres a et b, son espérance et sa variance valent :
IE[X] =
a
a+b
et V ar[X] =
ab
(a +
b)2 (a
+ b + 1)
.
On peut exprimer a et b en fonction de IE[X] = E et V ar[X] = V :
a=
E(E − E 2 − V )
V
et b =
E − 2E 2 + E 3 − V + EV
.
V
Si on dispose d’un échantillon de la loi bêta de paramètres a et b, la moyenne
empirique X et la variance empirique S 2 sont des estimateurs convergents de
17
Estimation paramétrique
IE[X] et V ar[X] respectivement. On en déduit deux estimateurs convergents
de a et b en remplaçant E et V par leurs estimateurs X et S 2 dans les
expressions ci-desssus.
Lois binomiales négatives
Appliquons à nouveau la technique à une loi binomiale négative. Si X suit
la loi binomiale négative de paramètres n et p, son espérance et sa variance
valent :
n(1 − p)
n(1 − p)
IE[X] =
et V ar[X] =
.
p
p2
On peut exprimer n et p en fonction de IE[X] et V ar[X] :
n=
(IE[X])2
V ar[X] − IE[X]
et p =
IE[X]
.
V ar[X]
On en déduit deux estimateurs convergents de n et p en remplaçant IE[X] et
V ar[X] par leurs estimateurs X et S 2 dans ces expressions.
L’inconvénient principal de la méthode des moments est que les estimateurs qu’elle fournit sont en général assez peu précis, et qu’il est difficile
d’étudier leur loi autrement que par simulation.
2.2
Estimation par ajustement
La modélisation probabiliste en statistique consiste à supposer qu’un
échantillon observé (x1 , . . . , xn ) est une réalisation d’un échantillon théorique
d’une certaine loi de probabilité Pθ , où le paramètre θ est inconnu. Si tel était
le cas, la distribution empirique Pb de l’échantillon observé devrait être proche
de Pθ . La distribution empirique d’un échantillon est la loi de probabilité sur
l’ensemble des valeurs, qui affecte chaque individu du poids 1/n.
Définition 2.1 Soit (x1 , . . . , xn ) un échantillon observé, c1 , . . . , ck les valeurs distinctes prises par les xi et pour h = 1, . . . , k :
nh =
n
X
11c
h
(xi ) ,
i=1
le nombre de fois où la valeur ch a été observée. La distribution empirique de
l’échantillon est la loi de probabilité Pb sur l’ensemble {c1 , . . . , ck }, telle que :
nh
.
Pb(ch ) =
n
Parmi les moyens de quantifier l’ajustement d’une distribution empirique à
une loi de probabilité théorique, nous en retiendrons deux : la distance du
khi-deux (réservée aux lois discrètes) et la distance de Kolmogorov-Smirnov.
Cahier de Mathématiques Appliquées no 5
18
Définition 2.2 Soit {c1 , . . . , cr } un ensemble fini fixé.
Soit P = (P (ch )) , h = 1, . . . , r une loi de probabilité sur cet ensemble, et
Pb = (Pb(ch )) , h = 1, . . . , r une distribution empirique sur cet ensemble. On
appelle distance du khi-deux de Pb par rapport à P , et on note Dχ2 (P, Pb), la
quantité :
r
X
(P (ch ) − Pb (ch ))2
Dχ2 (P, Pb) =
.
P (ch )
h=1
La distance de Kolmogorov-Smirnov est la distance de la norme uniforme
entre fonctions de répartition. Rappelons que la fonction de répartition empirique de l’échantillon (x1 , . . . , xn ) est la fonction de répartition de sa distribution empirique. C’est la fonction en escalier Fb qui vaut 0 avant x(1) ,
i/n entre x(i) et x(i+1) , et 1 après x(n) (les x(i) sont les statistiques d’ordre,
c’est-à-dire les valeurs ordonnées de l’échantillon).
Définition 2.3 Soient F la fonction de répartition d’une loi de probabilité
et Fb la fonction de répartition empirique de l’échantillon (x1 , . . . , xn ). On
appelle distance de Kolmogorov-Smirnov de F et Fb , et on note DKS (F, Fb ),
la quantité :
DKS (F, Fb ) = max
i=1,...,n
n
i−1 o
i .
F (x(i) ) − , F (x(i) ) −
n
n
Etant donnés un échantillon et une famille de lois de probabilité Pθ , dépendant du paramètre inconnu θ, il est naturel de choisir comme modèle celle
des lois de la famille qui s’ajuste le mieux aux données. Cela revient à donner
comme estimation de θ celle pour laquelle la distance entre la loi théorique
Pθ et la distribution empirique de l’échantillon est la plus faible.
Considérons par exemple un échantillon de données binaires. Notons f la
fréquence empirique des 1. La distance du khi-deux entre la loi de Bernoulli
de paramètre p et la distribution empirique est :
Dχ2 =
(1 − f − 1 + p)2
(f − p)2
(f − p)2
+
=
.
p
1−p
p(1 − p)
Cette distance est évidemment minimale pour p = f . Ceci s’étend trivialement à un nombre fini quelconque d’éventualités : la loi de probabilité qui
ajuste le mieux une distribution empirique sur c1 , . . . , ck au sens de la distance du khi-deux est celle qui charge chaque valeur ch avec une probabilité
égale à la fréquence expérimentale de cette valeur.
En pratique, il est rare que l’on puisse ainsi calculer explicitement l’estimation d’un paramètre par ajustement. On doit alors procéder à une minimisation numérique sur le paramètre inconnu.
19
Estimation paramétrique
2.3
Estimateurs des moindres carrés
Jusqu’ici le seul modèle probabiliste que nous ayons envisagé pour des
données observées considérait qu’elles étaient des réalisations de variables indépendantes et de même loi. Cela revient à supposer que les individus sur
lesquels les données ont été recueillies sont interchangeables, et que les différences observées entre eux sont seulement imputables au hasard. Dans de
nombreuses situations, on cherche à expliquer ces différences, c’est-à-dire à
les attribuer à l’effet d’autres caractères mesurés sur les mêmes individus. La
modélisation probabiliste considérera que la mesure (à expliquer) effectuée
sur un individu donné est une variable aléatoire, dont la loi dépend des valeurs prises sur cet individu par les caractères explicatifs, considérés comme
déterministes. Si Yi désigne la variable aléatoire associée à l’individu i, et
(1)
(k)
(xi , . . . , xi ) les valeurs prises pour cet individu par les caractères explica(1)
tifs (x , . . . , x(k) ), on séparera l’effet déterministe et l’effet aléatoire par un
modèle du type :
(k)
(1)
Yi = f (xi , . . . , xi ) + Ei ,
où (E1 , . . . , En ) est un n-uplet de variables aléatoires indépendantes et de
même loi. On parle alors de modèle de régression. La fonction f dépend de
un ou plusieurs paramètres inconnus que l’on doit estimer. On choisit pour
cela de minimiser l’erreur quadratique définie par :
n
EQ(f ) =
1X
(1)
(k)
(Yi − f (xi , . . . , xi ))2 .
n i=1
Dans certains cas classiques, on sait résoudre explicitement ce problème de
minimisation, et la solution est implémentée dans les environnements de calculs statistiques. Quand une résolution explicite est impossible, on a recours
à des algorithmes de minimisation, comme l’algorithme du gradient.
Le cas le plus basique est celui de la régression linéaire simple, où un seul
caractère est explicatif, et la fonction f est affine :
Yi = axi + b + Ei .
L’erreur quadratique est alors :
n
1X
EQ(a, b) =
(Yi − axi − b)2 .
n i=1
Les valeurs de a et b qui minimisent l’erreur quadratique s’expriment en
fonction des moyennes, variances et covariances empiriques de x et de Y .
Nous notonsP
:
• x = n1 Pxi la moyenne empirique de x.
• s2x = n1 (xi − x)2 la variance empirique de x.
P
Yi la moyenne empirique de Y .
• Y = n1
Cahier de Mathématiques Appliquées no 5
20
P
• SY2 = n1 (Yi − Y )2 la variance empirique de Y .
P
• cxY = n1 (xi − x)(Yi − Y ) la covariance de x et Y .
le coefficient de corrélation de x et Y .
• rxY = √cxY
2 2
sx S Y
Proposition 2.4 Si s2x 6= 0 (le caractère x n’est pas constant), la fonction
EQ(a, b) admet un minimum pour :
cxY
A= 2
et B = Y − Ax .
sx
La valeur de ce minimum est :
2
EQ(A, B) = SY2 (1 − rxY
).
Les variables aléatoires A et B sont les estimateurs des moindres carrés des
paramètres a et b.
On peut utiliser les estimateurs des moindres carrés pour estimer les paramètres de certaines lois, dans un problème d’ajustement. Nous traitons à
titre d’exemple les lois normales et les lois de Weibull.
Lois normales
Soit Y = (Y1 , . . . , Yn ) un échantillon de taille n de la loi normale N (µ, σ 2 ),
les paramètres µ et σ 2 étant inconnus. Pour i = 1, . . . , n, notons Y(i) les
statistiques d’ordre (valeurs Yi ordonnées de la plus grande à la plus petite). Si
l’hypothèse de normalité est pertinente, alors Y(i) doit être proche du quantile
QN (µ,σ2 ) (i/n) de la loi N (µ, σ 2 ). Rappelons que si une variable aléatoire X
suit la loi N (0, 1), alors Y = σX + µ suit la loi N (µ, σ 2 ). Ceci revient à dire
que pour tout u ∈ [0, 1] :
QN (µ,σ2 ) (u) = σQN (0,1) (u) + µ .
Notons xi = QN (0,1) (i/n) les valeurs de la fonction quantile de la loi N (0, 1)
aux points i/n. Si l’hypothèse de normalité est vérifiée, les points de coordonnées (xi , Y(i) ) devraient être proches de la droite d’équation y = σx + µ.
Les estimateurs des moindres carrés A et B pour la régression linéaire simple
des Y(i) sur les xi sont donc des estimateurs de σ et µ respectivement.
Lois de Weibull
La fonction quantile de la loi de Weibull W(a, λ) est :
1/a
1
.
QW(a,λ) (u) = − log(1 − u)
λ
Soit Y = (Y1 , . . . , Yn ) un échantillon de la loi W(a, λ), de paramètres a et
λ inconnus. Pour i = 1, . . . , n, la statistique d’ordre Y(i) doit être proche du
quantile QW(a,λ) (i/n) :
1/a
i
1
,
Y(i) ≈ − log(1 − )
λ
n
21
Estimation paramétrique
soit :
1
i
1
1
log(Y(i) ) ≈ log − log(1 − ) + log
.
a
n
a
λ
Posons xi = log(− log(1 − i/n)) et Yi′ = log(Y(i) ). Les points (xi , Yi′ ) devraient être proches de la droite d’équation y = (1/a)x + (1/a) log(1/λ). Les
estimateurs des moindres carrés A et B pour la régression linéaire simple des
Yi′ sur les xi sont des estimateurs de 1/a et (1/a) log(1/λ) respectivement.
Donc 1/A et e−B/A sont des estimateurs de a et λ respectivement.
2.4
Notion de vraisemblance
Etant donné un échantillon observé (x1 , . . . , xn ) et une loi de probabilité
Pθ , la vraisemblance quantifie la probabilité que les observations proviennent
effectivement d’un échantillon (théorique) de la loi Pθ .
Prenons l’exemple de 10 lancers de pièce. L’échantillon binaire observé
est par exemple :
0, 1, 1, 0, 1, 1, 1, 0, 0, 1.
Pour un échantillon de taille 10 de la loi de Bernoulli de paramètre p, la probabilité d’une telle réalisation est p6 (1 − p)4 . Voici quelques valeurs numériques.
p
p6 (1 − p)4
0.3
1.8 10−4
0.4
5.3 10−4
0.5
9.8 10−4
0.6
1.2 10−3
0.7
9.5 10−4
0.8
4.2 10−4
Il est naturel de choisir comme estimation de p, celle pour laquelle la
probabilité de l’échantillon observé est la plus forte, à savoir ici p = 0.6. La
figure 3 compare les fonctions qui à p associent p0.6n (1−p)0.4n pour différentes
valeurs de n. Toutes ont leur maximum en p = 0.6. Le maximum est d’autant
plus marqué que n est grand.
Définition 2.5 Soit C un ensemble fini ou dénombrable, {Pθ } une famille
de lois de probabilité sur C, et n un entier. On appelle vraisemblance associée
à la famille {Pθ }, la fonction qui à un n-uplet (x1 , . . . , xn ) d’éléments de C
et à une valeur θ du paramètre associe la quantité :
L(x1 , . . . , xn , θ) =
n
Y
Pθ (xi ) .
i=1
L’interprétation est la suivante. Considérons un échantillon théorique
(X1 , . . . , Xn ) de la loi Pθ . Par définition, les variables aléatoires X1 , . . . , Xn
sont indépendantes et de même loi Pθ . Donc la probabilité que l’échantillon
théorique (X1 , . . . , Xn ) ait pour réalisation l’échantillon observé (x1 , . . . , xn )
est le produit des probabilités pour que Xi prenne la valeur xi , à savoir :
IP[(X1 , . . . , Xn ) = (x1 , . . . , xn )] = L(x1 , . . . , xn , θ) .
Cahier de Mathématiques Appliquées no 5
22
Vraisemblances pour la loi binomiale
L
3.0
2.5
2.0
1.5
1.0
0.5
p
0.0
.
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Figure 3 – Vraisemblances pour un échantillon de taille n de la loi de Bernoulli, dont la fréquence de 1 est 0.6. La taille n varie de 5 à 50 par pas
de 5, la vraisemblance est multipliée par 2n pour que les échelles graphiques
restent comparables.
Dans le cas d’un modèle continu, la loi Pθ a une densité sur IR, et la probabilité
pour que l’échantillon prenne une valeur particulière est toujours nulle. Il
faut alors remplacer la probabilité Pθ par sa densité dans la définition de la
vraisemblance.
Définition 2.6 Soit {Pθ } une famille de lois de probabilité continues sur IR
et n un entier. Notons fθ la densité de probabilité de la loi Pθ . On appelle vraisemblance associée à la famille {Pθ }, la fonction qui à un n-uplet (x1 , . . . , xn )
d’éléments de IR et à une valeur θ du paramètre associe la quantité :
L(x1 , . . . , xn , θ) =
n
Y
fθ (xi ) .
i=1
L’interprétation est la suivante. Considérons un échantillon théorique
(X1 , . . . , Xn ) de la loi continue Pθ . Soit ε un réel strictement positif (petit).
La probabilité que l’échantillon théorique (X1 , . . . , Xn ) ait une réalisation
23
Estimation paramétrique
proche “à ε près” de l’échantillon observé (x1 , . . . , xn ) peut s’écrire :
i
h
IP X1 ∈ [x1 − 2ε , x1 + 2ε ] et . . . et Xn ∈ [xn − 2ε , xn + 2ε ]
Qn R x + ε
= i=1 xii− ε2 fθ (x) dx
2
Qn
≃ i=1 ε fθ (xi )
= εn L(x1 , . . . , xn , θ) .
Estimer un paramètre par la méthode du maximum de vraisemblance, c’est
proposer comme valeur de ce paramètre celle qui rend maximale la vraisemblance, à savoir la probabilité d’observer les données comme réalisation d’un
échantillon de la loi Pθ .
Définition 2.7 Supposons que pour toute valeur (x1 , . . . , xn ), la fonction qui
à θ associe L(x1 , . . . , xn , θ) admette un maximum unique. La valeur θb pour
laquelle ce maximum est atteint dépend de (x1 , . . . , xn ) :
θb = τ (x1 , . . . , xn ) = arg max L(x1 , . . . , xn , θ) .
On l’appelle estimation par maximum de vraisemblance.
Si (X1 , . . . , Xn ) est un échantillon (théorique) de la loi Pθ , la variable
aléatoire :
T = τ (X1 , . . . , Xn ) ,
est l’estimateur du maximum de vraisemblance de θ.
Reprenons l’exemple de la loi uniforme sur l’intervalle [0, θ]. Sa densité
est :
1
fθ (x) = 11[0,θ] (x) .
θ
La vraisemblance est la fonction qui à n réels x1 , . . . , xn et à une valeur
positive θ associe :
L(x1 , . . . , xn , θ) =
n
Y
1
i=1
θ
11[0,θ] (xi )
1
11[0,θ]n (x1 , . . . , xn )
θn
1
= n 11[max{xi },+∞[ (θ) .
θ
=
Vue comme fonction de θ, la vraisemblance est nulle si θ est inférieur à la plus
grande des valeurs observées, elle vaut 1/θn sinon. Elle est donc maximale
pour :
θb = max{x1 , . . . , xn } .
Cahier de Mathématiques Appliquées no 5
24
Si (X1 , . . . , Xn ) est un échantillon de la loi uniforme U (0, θ), l’estimateur du
maximum de vraisemblance de θ est :
T = max{X1 , . . . , Xn } .
Pour la plupart des lois de probabilité usuelles, l’estimateur du maximum
de vraisemblance est défini de façon unique, et se calcule explicitement. Sur
le plan théorique, il présente de nombreux avantages. Sous des hypothèses
vérifiées par de nombreux modèles courants, on démontre qu’il est asymptotiquement sans biais et convergent. On démontre de plus que sa variance est
minimale. La méthode du maximum de vraisemblance est donc théoriquement la meilleure des méthodes d’estimation. Nous verrons au paragraphe
suivant des exemples de calculs explicites. Quand une détermination explicite est impossible, il faut avoir recours à une détermination numérique, par
un algorithme d’optimisation.
2.5
Pratique du maximum de vraisemblance
Dans la plupart des cas d’intérêt pratique, la loi Pθ et donc aussi la vraisemblance, ont une expression dérivable par rapport à θ. Pour calculer le
maximum de la vraisemblance, il faut déterminer les valeurs pour lesquelles
la dérivée de la vraisemblance s’annule. Or par définition, la vraisemblance
est un produit de probabilités ou de densités, qui peut être assez compliqué à dériver. Il est préférable de dériver une somme, et c’est pourquoi on
commence par remplacer la vraisemblance par son logarithme. La fonction logarithme étant croissante, il est équivalent de maximiser log(L(x1 , . . . , xn , θ))
ou L(x1 , . . . , xn , θ). Une fois déterminée une valeur de θ pour laquelle la dérivée s’annule, il faut s’assurer à l’aide de la dérivée seconde que ce point est
bien un maximum. Nous traitons ci-dessous quelques familles classiques.
Lois de Bernoulli
L’ensemble des valeurs possibles est {0, 1}. Le paramètre inconnu est p.
Si (x1 , . . . , xn ) ∈ {0, 1}n est un échantillon, la vraisemblance vaut :
L(x1 , . . . , xn , p) = p
P
xi
(1 − p)n−
P
xi
.
Son logarithme est :
log(L(x1 , . . . , xn , p)) = (
X
xi ) log p + (n −
La dérivée par rapport à p est :
X
xi ) log(1 − p) .
X
X
1
1
∂ log(L(x1 , . . . , xn , p))
=(
xi ) − (n −
xi )
.
∂p
p
1−p
Elle s’annule pour :
pb =
P
xi
.
n
25
Estimation paramétrique
La dérivée seconde est :
X
X
1
1
∂ 2 log(L(x1 , . . . , xn , p))
= −(
xi ) 2 − (n −
xi )
.
2
∂p
p
(1 − p)2
Elle est strictement négative, la valeur pb est bien un maximum.
Si (X1 , . . . , Xn ) est un échantillon de la loi de Bernoulli de paramètre p,
l’estimateur du maximum de vraisemblance de p est :
P
Xi
,
n
à savoir la fréquence empirique.
Lois géométriques
L’ensemble des valeurs possibles est IN∗ . Le paramètre inconnu est p ∈]0, 1[.
Si (x1 , . . . , xn ) est un échantillon entier, la vraisemblance vaut :
L(x1 , . . . , xn , p) = pn (1 − p)
P
xi −n
.
Son logarithme est :
log(L(x1 , . . . , xn , p)) = n log p + (
La dérivée par rapport à p est :
X
xi − n) log(1 − p) .
X
1
1
∂ log(L(x1 , . . . , xn , p))
=n −(
xi − n)
.
∂p
p
1−p
Elle s’annule pour :
La dérivée seconde est :
n
pb = P .
xi
X
1
1
∂ 2 log(L(x1 , . . . , xn , p))
=
−n
−
(
xi − n)
.
2
2
∂p
p
(1 − p)2
Elle est strictement négative, la valeur pb est bien un maximum.
Si (X1 , . . . , Xn ) est un échantillon de la loi géométrique de paramètre p,
l’estimateur du maximum de vraisemblance de p est :
n
P
,
Xi
à savoir l’inverse de la moyenne empirique, ce qui est cohérent avec le fait
que le paramètre p est l’inverse de l’espérance.
Cahier de Mathématiques Appliquées no 5
26
Lois exponentielles
Le paramètre inconnu est encore λ. Il s’agit ici de lois continues, la vraisemblance est donc un produit de valeurs de la densité. Pour un n-uplet de réels
positifs (x1 , . . . , xn ) elle vaut :
L(x1 , . . . , xn , λ) =
n
Y
λe−λxi = λn e−λ
P
xi
.
i=1
Son logarithme est :
log(L(x1 , . . . , xn , λ)) = n log(λ) − λ
La dérivée par rapport à λ est :
X
xi .
∂ log(L(x1 , . . . , xn , λ))
1 X
=n −
xi .
∂λ
λ
Elle s’annule pour :
La dérivée seconde est :
b = Pn .
λ
xi
n
∂ 2 log(L(x1 , . . . , xn , λ))
=− 2 .
∂λ2
λ
b est bien un maximum.
Elle est strictement négative, la valeur λ
Si (X1 , . . . , Xn ) est un échantillon de la loi exponentielle de paramètre λ,
l’estimateur du maximum de vraisemblance de λ est :
n
P
,
Xi
à savoir l’inverse de la moyenne empirique, ce qui est cohérent avec le fait
que le paramètre λ est égal à l’inverse de l’espérance.
Lois normales
Pour un paramètre multidimensionnel, le principe est le même, mais les
calculs d’optimisation sont plus compliqués. Pour les lois normales, deux paramètres sont inconnus. Afin d’éviter les confusions dans les dérivations, nous
noterons v le paramètre de variance, habituellement noté σ 2 . Pour un n-uplet
de réels (x1 , . . . , xn ) la vraisemblance vaut :
n
n
Y
P
(x −µ)2
2
1
1
1
− i2v
√
√
L(x1 , . . . , xn , µ, v) =
e
=
e− 2v (xi −µ) .
2πv
2πv
i=1
Son logarithme est :
log(L(x1 , . . . , xn , λ)) = −
n
n
1 X
log(v) − log(2π) −
(xi − µ)2 .
2
2
2v
Estimation paramétrique
27
Les dérivées partielles par rapport aux paramètres µ et v sont :
et
∂ log(L(x1 , . . . , xn , λ))
1X
=
(xi − µ) ,
∂µ
v
n
1 X
∂ log(L(x1 , . . . , xn , λ))
=− + 2
(xi − µ)2 .
∂v
2v 2v
Elle s’annulent pour :
P
P
xi
(xi − µ
b)2
µ
b=
et vb =
.
n
n
Les dérivées partielles secondes valent :
n
∂ 2 log(L(x1 , . . . , xn , λ))
=− ,
∂µ2
v
1 X
∂ 2 log(L(x1 , . . . , xn , λ))
=− 2
(xi − µ) ,
∂µ∂v
v
n
1 X
∂ 2 log(L(x1 , . . . , xn , λ))
= 2− 3
(xi − µ)2 .
2
∂v
2v
v
La matrice hessienne (matrice des dérivées partielles secondes) au point (b
µ, vb)
est donc :
n
− vb 0
.
0 − 2bnv2
Ses valeurs propres sont négatives, le point (b
µ, vb) est bien un maximum. Si
(X1 , . . . , Xn ) est un échantillon de la loi normale de paramètres µ et v, les
estimateurs du maximum de vraisemblance de µ et v sont respectivement
la moyenne et la variance empiriques de l’échantillon, comme on pouvait s’y
attendre.
3
3.1
Intervalles de confiance
Définitions
En statistique, tout comme en physique, en chimie ou en biologie, donner
un résultat sans indication sur sa précision n’a que peu d’intérêt car il n’est
pas reproductible. Reprenons l’exemple d’un lancer de pièce truquée, pour
laquelle la probabilité p de pile est inconnue. La fréquence empirique de pile
est l’estimateur naturel de p. Si sur 100 lancers on obtient 60 pile, l’estimation
(ponctuelle) proposée pour p est 0.60. Mais ce résultat n’est pas reproductible.
Si on renouvelle les 100 lancers, on obtiendra probablement des estimations
différentes.
Plutôt que de donner une estimation ponctuelle, on proposera un intervalle, choisi de manière à contrôler par un niveau de confiance, les chances que
28
Cahier de Mathématiques Appliquées no 5
le résultat aurait d’être confirmé si on renouvelait l’expérience. On cherche
à distinguer les valeurs du paramètre pour lesquelles l’observation (60 pile
sur 100 lancers) est plausible, des valeurs pour lesquelles elle est trop peu
vraisemblable. Notons F la fréquence empirique et n le nombre de lancers.
La variable aléatoire nF suit la loi binomiale B(n, p). Le calcul numérique
donne les valeurs suivantes.
QB(100,0.523) (0.95) = 60 et QB(100,0.682) (0.05) = 60 .
Pour toute valeur de p inférieure à 0.523, la probabilité d’observer sur 100
tirages une fréquence supérieure à 0.60 est inférieure à 0.05. Pour toute valeur
de p supérieure à 0.682, la probabilité d’observer sur 100 tirages une fréquence
inférieure à 0.60 est inférieure à 0.05. En d’autres termes, pour tout p dans
l’intervalle [0.523, 0.682], on a :
60 ∈ [ QB(100,p) (0.05) , QB(100,p) (0.95) ] ,
c’est-à-dire que 60 est dans l’intervalle de dispersion symétrique de niveau
0.9 pour la loi B(100, p). Il est donc raisonnable de proposer [0.523, 0.682]
comme intervalle d’estimation pour la valeur de p.
La définition d’un intervalle de confiance est la suivante.
Définition 3.1 Soit (X1 , . . . , Xn ) un échantillon de la loi Pθ . On appelle
intervalle de confiance de niveau 1 − α un intervalle aléatoire [T1 , T2 ], où
T1 ≤ T2 sont deux statistiques, fonctions de l’échantillon, telles que :
IP[ θ ∈ [T1 , T2 ] ] = 1 − α .
Si on réalise n simulations indépendantes de la loi Pθ , les variables aléatoires
T1 et T2 prendront des valeurs particulières t1 et t2 . L’encadrement θ ∈ [t1 , t2 ]
sera alors vrai ou faux. Pour α = 0.05, si on répète 100 fois la série de n
expériences pour obtenir 100 intervalles, on peut s’attendre à ce que cinq
d’entre eux ne contiennent pas θ.
En général, les intervalles de confiance se construisent à partir des intervalles de dispersion d’un estimateur. Soit T un estimateur de θ. Parmi
les intervalles de dispersion de T , nous devons effectuer un choix cohérent (le
même pour toutes les valeurs de θ). Le plus facile est de considérer l’intervalle
de dispersion symétrique :
[QT (α/2) , QT (1 − α/2)] .
Sauf si la loi de T est symétrique (les intervalles symétriques sont alors optimaux), on obtiendra des résultats plus précis en calculant les intervalles de
dispersion optimaux (dont l’amplitude est minimale). Ce choix étant effectué,
fixons le niveau 1−α et notons [q(θ) , q(θ)] l’intervalle de dispersion pour la
loi de T . Pour toute valeur de θ, on a :
IP[ T ∈ [q(θ) , q(θ)] ] = 1 − α .
29
Estimation paramétrique
Si T est un estimateur convergent de θ et la taille de l’échantillon est assez
grande, nous avons vu (proposition 1.10) que q(θ) et q(θ) sont proches de
θ. En pratique, si Pθ est une loi continue, ce sont des fonctions strictement
croissantes de θ. On peut donc définir leurs inverses q −1 (t) et q −1 (t).
Proposition 3.2 Si q et q sont strictement croissantes, l’intervalle
[q −1 (T ) , q −1 (T )] est un intervalle de confiance de niveau 1−α pour θ.
Démonstration : La fonction q(θ) étant croissante, on a :
θ ≤ q −1 (T ) ⇐⇒ T ≥ q(θ) ,
et de même :
θ ≥ q −1 (T ) ⇐⇒ T ≤ q(θ) ,
soit :
θ ∈ [q −1 (T ) , q −1 (T )] ⇐⇒ T ∈ [q(θ) , q(θ)] .
Ces deux événements étant équivalents, leur probabilité est la même, à savoir
1−α, par définition de l’intervalle de dispersion [q(θ) , q(θ)].
Exemple : loi uniforme sur [0, θ].
Considérons un échantillon (X1 , . . . , Xn ) de la loi U (0, θ), et l’estimateur
convergent T = max{X1 , . . . , Xn }. Nous avons vu que l’intervalle de dispersion optimal de niveau 1−α est l’intervalle unilatéral [θα1/n , θ]. On a donc :
q(θ) = θα1/n
et q(θ) = θ .
Ces fonctions sont strictement croissantes et donc inversibles :
q −1 (t) = t
et q −1 (t) = tα−1/n .
L’intervalle [T, T α−1/n ] est un intervalle de confiance de niveau 1−α pour θ.
Remarquons que l’amplitude de l’intervalle diminue (la précision augmente) si
n et α augmentent (le niveau de confiance diminue). Supposons par exemple
que pour 100 tirages de la loi U (0, θ), le maximum T ait pris la valeur 1.23.
Pour α = 0.05, la valeur numérique de la borne supérieure est :
1.23 (0.05)−1/100 = 1.267405 .
Il est inutile de donner plus de chiffres significatifs que n’en a l’estimation.
Les arrondis doivent toujours aller dans le sens de la garantie du niveau
de confiance (agrandissement de l’intervalle). Les bornes inférieures seront
donc arrondies par défaut et les bornes supérieures par excès. Ici, on donnera
[1.23, 1.27] comme intervalle de confiance pour θ au niveau 0.95.
Cahier de Mathématiques Appliquées no 5
30
Quand la loi Pθ est discrète, l’échantillon (X1 , . . . , Xn ) et donc l’estimateur T ne peuvent prendre que certaines valeurs particulières. Dans ce cas,
la fonction quantile de T est une fonction en escalier et les fonctions q(θ) et
q(θ) ne sont pas strictement croissantes. Pour une loi discrète, le niveau des
intervalles de dispersion n’est pas exact. On pourra seulement garantir que :
IP[ T ∈ [q(θ) , q(θ)] ] ≥ 1 − α .
Quand il y a ambiguïté sur la valeur prise par un intervalle de confiance, les
choix à effectuer iront toujours vers la garantie du niveau de confiance. La
procédure de calcul devra être telle que :
IP[ θ ∈ [T1 , T2 ] ] ≥ 1 − α.
La figure 4 illustre cette procédure pour la situation donnée en exemple au
début du paragraphe. Les intervalles de dispersion optimaux pour une fréquence empirique sur un échantillon de taille 100 sont représentés en fonction
de p. Si la fréquence de 1 dans l’échantillon est 0.6, l’intervalle de confiance
retourné sera celui de la figure, correspondant aux abscisses où la droite horizontale d’ordonnée 0.6 coupe q(p) et q(p).
Loi binomiale B(100,p)
1.0
frequence
0.9
q(p)
0.8
q(p)
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
p
.
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Figure 4 – Intervalles de dispersion optimaux et intervalle de confiance de
niveau ≥ 0.9 pour la loi binomiale B(100, p).
31
Estimation paramétrique
3.2
Echantillons gaussiens
Ce paragraphe est consacré à la construction d’intervalles de confiance
de la moyenne et de la variance, pour les échantillons gaussiens, autrement
dit les échantillons de la loi normale N (µ, σ 2 ). L’avantage de cette situation
est que les estimateurs naturels de l’espérance et de la variance ont des lois
explicitement calculables. Nous notons (X1 , . . . , Xn ) un échantillon de la loi
N (µ, σ 2 ), X sa moyenne empirique et S 2 sa variance empirique :
n
X=
n
1X
Xi
n i=1
et S 2 =
1X
(Xi − X)2 .
n i=1
Nous rassemblons ci-dessous, et nous admettrons, les trois résultats permettant de calculer les intervalles de confiance de µ et σ 2 .
Théorème 3.3 Si (X1 , . . . , Xn ) est un échantillon de la loi N (µ, σ 2 ), alors :
r n
1.
X
−
µ
suit la loi normale N (0, 1).
σ2
r
n−1 2.
X
−
µ
suit la loi de Student T (n−1).
S2
nS 2
suit la loi du khi-deux X 2 (n−1).
3.
σ2
Les deux premières affirmations servent à estimer l’espérance µ, respectivement dans le cas où la variance σ 2 est connue et dans le cas où elle
est inconnue. Commençons par supposer que σ 2 est connue. Posons zα =
QN (0,1) (1 − α/2). L’intervalle de dispersion optimal de niveau 1−α pour la
loi N (0, 1) est [−zα , zα ]. Deux valeurs de zα sont très souvent utilisées : pour
1−α = 0.95 et 0.99, zα vaut respectivement 1.96 et 2.5758. D’après le point
1 du théorème 3.3, on a :
r n
X − µ ∈ [−zα , zα ] = 1 − α .
IP
σ2
Or :
r
n
X
−
µ
∈ [−zα , zα ] ⇐⇒ X − µ ∈
σ2
"
⇐⇒ µ ∈
L’intervalle :
"
X − zα
r
"
−zα
X − zα
σ2
, X + zα
n
r
r
r
σ2
n
σ2
, zα
n
r
σ2
n
r
σ2
, X + zα
n
#
,
#
σ2
n
#
.
Cahier de Mathématiques Appliquées no 5
32
est donc un intervalle de confiance de niveau 1−α pour µ.
Le cas où σ 2 est inconnu se traite de la même façon, en remplaçant la loi
N (0, 1) par la loi T (n − 1). C’est encore une loi symétrique, pour laquelle
l’intervalle de confiance optimal de niveau 1−α est de la forme [−tα , tα ], où :
tα = QT (n−1) (1 − α/2) .
Le même raisonnement conduit à l’intervalle de confiance suivant pour µ :
"
#
r
r
S2
S2
X − tα
.
, X + tα
n−1
n−1
Passons maintenant à l’estimation de σ 2 à partir de S 2 . La loi du khi-deux
X 2 (n−1) n’est pas symétrique, et l’intervalle de dispersion symétrique n’est
pas optimal. Nous noterons uα et vα deux réels positifs tels que [uα , vα ] soit
un intervalle de dispersion de niveau 1−α pour la loi X 2 (n−1). On pourra
calculer l’intervalle de dispersion optimal par une procédure d’optimisation
numérique, ou bien prendre l’intervalle symétrique :
uα = QX 2 (n−1) (α/2)
et vα = QX 2 (n−1) (1 − α/2) .
D’après le point 3 du théorème 3.3, on a :
nS 2
∈
[u
,
v
]
=1−α.
IP
α
α
σ2
Or :
nS 2
nS 2 nS 2
2
,
.
∈
[u
,
v
]
⇐⇒
σ
∈
α
α
σ2
vα
uα
i
h 2
nS 2
est donc un intervalle de confiance de niveau 1−α
L’intervalle nS
vα , uα
pour σ 2 .
3.3
Modèle linéaire
Les échantillons gaussiens sont souvent utilisés pour modéliser les erreurs dans les modèles de régression. Ces modèles visent à expliquer un
caractère Y (considéré comme aléatoire) par des caractères (déterministes)
(x(1) , . . . , x(k) ). On choisit une fonction de régression f , dépendant en général
de plusieurs paramètres inconnus, et on écrit les variables aléatoires Yi sous
la forme :
(1)
(k)
Yi = f (xi , . . . , xi ) + Ei ,
où (E1 , . . . , En ) est un n-uplet de variables aléatoires indépendantes et de
même loi. Les paramètres inconnus de f seront estimés par la méthode des
moindres carrés, en minimisant l’erreur quadratique :
n
EQ(f ) =
1X
(1)
(k)
(Yi − f (xi , . . . , xi ))2 .
n i=1
33
Estimation paramétrique
Dans le cas où la fonction f est affine et (E1 , . . . , En ) est un échantillon gaussien, on peut déterminer explicitement la loi des estimateurs des moindres
carrés, et en déduire des intervalles de confiance.
Nous considérons seulement la régression linéaire simple :
Yi = axi + b + Ei ,
où Ei est un échantillon de la loi normale N (0, σ 2 ). En d’autres termes, on
suppose que les Yi sont des variables aléatoires gaussiennes indépendantes,
d’espérances axi + b distinctes, mais de même variance σ 2 . Le modèle comporte 3 paramètres inconnus, a, b, et σ 2 . On estime a et b en minimisant
l’erreur quadratique :
n
EQ(a, b) =
1X
(Yi − axi − b)2 .
n i=1
On obtient ainsi (voir section 2.3) les estimateurs des moindres carrés :
A=
cxY
s2x
et B = Y − Ax .
L’erreur quadratique minimale est :
2
EQ(A, B) = SY2 (1 − rxY
).
Ces trois variables aléatoires sont des estimateurs convergents de a, b et σ 2
respectivement. Les deux premiers sont non biaisés. L’espérance de EQ(A, B)
est (n − 2)σ 2 /n, il est donc asymptotiquement sans biais. On obtient un
estimateur sans biais et convergent de σ 2 en posant :
V =
n
EQ(A, B) .
n−2
La prédiction est le premier objectif d’un modèle probabiliste. Dans le
cas de la régression linéaire, si un nouvel individu était examiné, avec une
valeur observée x∗ pour le caractère x, le modèle entraîne que la valeur Y∗ du
caractère expliqué sur cet individu est une variable aléatoire, de loi normale
N (ax∗ + b, σ 2 ). Les paramètres de cette loi auront pour estimateurs Ax∗ + B
et EQ(A, B) respectivement.
Le théorème suivant permet de calculer les lois de ces estimateurs, et donc
des intervalles de confiance. On peut le considérer comme une extension du
théorème 3.3.
Théorème 3.4 Avec les notations précédentes :
r
ns2x
(A − a) suit la loi normale N (0, 1).
1.
σ2
r
ns2x
2.
(A − a) suit la loi de Student T (n − 2).
V
Cahier de Mathématiques Appliquées no 5
34
3.
4.
s
s
σ 2 (s2x
ns2x
(Ax∗ + B − ax∗ − b) suit la loi normale N (0, 1).
+ (x∗ − x)2 )
(s2x
ns2x
(Ax∗ + B − ax∗ − b) suit la loi de Student T (n −
+ (x∗ − x)2 )
V
2).
5. (n − 2)
V
suit la loi du khi-deux X 2 (n−2).
σ2
On utilise ces résultats de la même manière que le théorème 3.3 pour en déduire des intervalles de confiance. Nous notons [−zα , zα ], [−tα , tα ] et [uα , vα ]
les intervalles de dispersion optimaux de niveau 1−α pour les lois N (0, 1),
T (n − 2) et X 2 (n − 2) respectivement. Voici les intervalles de confiance de
niveau 1−α correspondant aux différents points du théorème 3.4.
1. Intervalle de confiance pour a, si σ 2 est connu.
s
s
#
"
σ2
σ2
.
, A + zα
A − zα
ns2x
ns2x
2. Intervalle de confiance pour a, si σ 2 est inconnu.
s
s
"
#
V
V
A − tα
.
, A + tα
ns2x
ns2x
3. Intervalle de confiance pour ax∗ + b, si σ 2 est connu.
s
"
#
σ 2 (s2x + (x∗ − x)2 )
Ax∗ + B ± zα
.
ns2x
4. Intervalle de confiance pour ax∗ + b, si σ 2 est inconnu.
s
#
"
V (s2x + (x∗ − x)2 )
.
Ax∗ + B ± tα
ns2x
5. Intervalle de confiance pour σ 2 .
V
V
(n − 2)
, (n − 2)
.
vα
uα
Si on souhaite prédire la valeur de Y∗ = ax∗ +b+E∗ sur un nouvel individu, il
faudra tenir compte non seulement de l’erreur commise en estimant la valeur
de ax∗ + b mais aussi de la variance σ 2 de E∗ . Ceci augmente l’amplitude de
35
Estimation paramétrique
l’intervalle. Voici l’intervalle de prédiction de Y∗ , toujours au niveau 1 − α,
lorsque σ 2 est inconnu (et estimé par V ).
s
"
#
V ((n+1)s2x + (x∗ −x)2 )
Ax∗ +B ± tα
.
ns2x
A titre d’exemple, considérons les tailles en centimètres (xi ) et poids en kilogrammes (yi ) de 10 enfants de 6 ans.
Enfant
Taille
Poids
1
121
25
2
123
22
3
108
19
4
118
24
5
111
19
6
109
18
7
114
20
8
103
15
9
110
20
10
115
21
Les caractéristiques numériques prennent les valeurs suivantes :
x
Y
s2x s2Y rxY A
B EQ(A, B)
113.2 20.3 34.76 7.61 0.9 0.42 −27.38
1.44
Effectuer une régression linéaire signifie que l’on pense que le poids doit
croître en gros proportionnellement à la taille. La droite de régression linéaire constitue un modèle de prédiction. Pour un enfant de taille donnée,
on donnera un intervalle de poids, considéré comme “normal”, la normalité
étant définie par référence au modèle et aux données. Voici les intervalles de
prédiction de niveau 0.95 pour différentes tailles.
taille
100
110
120
130
intervalle de poids
[10.82 , 18.67]
[15.65 , 22.25]
[19.72 , 26.61]
[23.09 , 31.66]
Les intervalles de prédiction sont d’autant moins précis que la taille de l’échantillon initial était faible et que la valeur de x∗ est plus éloignée de x (voir
figure 5).
Les résultats qui précèdent s’étendent aux régressions linéaires multiples.
Les expressions explicites des intervalles de confiance sont trop compliquées
pour être reproduites ici, mais elles sont programmées dans tous les logiciels
de statistique standard.
3.4
Normalité asymptotique
La construction des intervalles de confiance nécessite de connaître la loi
des estimateurs à partir desquels ils sont construits. En dehors du cas des
échantillons gaussiens, ce n’est pas toujours possible. De plus, il est fréquent
que les calculs de lois, effectivement implémentables pour de petits échantillons, deviennent infaisables pour un échantillon de grande taille. On cherche
Cahier de Mathématiques Appliquées no 5
36
Poids
40
37
34
31
28
+
25
+
+
22
+
+
+
19
+
+
+
16
+
13
Tailles
10
80
85
90
95
100 105 110 115 120 125 130 135 140 145 150
Figure 5 – Tailles et poids d’enfants de 6 ans : droite de régression linéaire
et intervalles de prédiction.
alors à remplacer la loi de l’estimateur par une approximation plus simple,
permettant de construire des intervalles de confiance dont le niveau n’est
garanti que pour de grandes tailles d’échantillons.
Définition 3.5 Soit (X1 , . . . , Xn ) un échantillon de la loi Pθ . Pour tout n,
soient T1,n ≤ T2,n deux statistiques, fonction de l’échantillon (X1 , . . . , Xn ).
On dit que [T1,n , T2,n ] est un intervalle de confiance, de niveau asymptotique
1−α pour θ, si :
lim IP[θ ∈ [T1,n , T2,n ] ] = 1 − α .
n→∞
Le plus souvent, cette notion est utilisée quand on dispose d’un estimateur convergent de θ dont la loi est asymptotiquement normale, ce qui est
en général une conséquence du théorème central limite. Nous traitons tout
d’abord le cas de l’estimation de l’espérance.
Théorème 3.6 Soit (X1 , . . . , Xn ) un échantillon d’une loi de probabilité d’espérance µ, de variance σ 2 . Soit X n sa moyenne empirique et Sn2 sa variance
empirique. Posons :
r
r
n
n
′
(X
(X n − µ) .
Zn =
−
µ)
et
Z
=
n
n
2
σ
Sn2
37
Estimation paramétrique
Les lois des variables aléatoires Zn et Zn′ convergent vers la loi normale
N (0, 1).
Ce résultat, qui est une reformulation du théorème central limite classique,
permet de définir des intervalles de dispersion approchés pour Zn et Zn′ .
Fixons le niveau 1−α, et notons [−zα , zα ] l’intervalle de dispersion optimal
de la loi N (0, 1). Alors :
lim IP[ Zn ∈ [−zα , zα ] ] = lim IP[ Zn′ ∈ [−zα , zα ] ] = 1 − α .
n→∞
n→∞
On en déduit immédiatement deux intervalles de confiance, de niveau asymptotique 1−α pour µ :
"
#
"
r
r #
r
r
σ2
σ2
Sn2
Sn2
et
.
, X n + zα
, X n + zα
X n − zα
X n − zα
n
n
n
n
Les utilisations de la normalité asymptotique vont bien au-delà de l’estimation des moyennes. A titre d’exemple, nous traitons ci-dessous l’estimation
des quantiles d’une loi continue. Considérons un échantillon (X1 , . . . , Xn )
d’une loi continue. Nous noterons f sa densité, F sa fonction de répartition
et Q sa fonction quantile. Etant donnée une valeur u ∈]0, 1[, le problème
consiste à estimer Q(u) (par exemple, si u = 0.5, Q(u) est la médiane). A
l’échantillon (X1 , . . . , Xn ) est associée une fonction quantile empirique. Sa
valeur en u est la i-ième statistique d’ordre X(i) , où i est l’entier tel que
i−1 < nu ≤ i. Nous noterons Tn cette variable aléatoire. C’est un estimateur
convergent de Q(u). On peut écrire explicitement sa densité en fonction de
f et F :
fTn (x) =
n!
F i−1 (x)(1 − F (x))n−i f (x) .
(i − 1)!(n − i)!
Cependant, il n’y a pas en général d’expression explicite pour la fonction
de répartition ni pour la fonction quantile de Tn , et le calcul numérique
des intervalles de dispersion peut être assez problématique pour de grandes
valeurs de n. On démontre que la loi de Tn est asymptotiquement normale.
Théorème 3.7 Posons :
Zn = f (Q(u))
r
n
(Tn − Q(u)) .
u(1 − u)
La loi de Zn converge vers la loi normale N (0, 1).
Comme exemple d’application, nous revenons sur la loi uniforme U (0, θ) (cf.
1.3). Soit (X1 , . . . , Xn ) un échantillon de cette loi et Tn le quantile empirique
Cahier de Mathématiques Appliquées no 5
38
d’ordre u : c’est un estimateur convergent de Q(u) = θu. D’après le théorème
3.7, la variable aléatoire Zn suivante converge vers la loi normale N (0, 1).
r
n
Tn
Zn =
−u .
u(1 − u) θ
On en déduit l’intervalle de confiance suivant, de niveau asymptotique 1−α
pour θ.

!−1
!−1 
r
r
u(1 − u)
 .
 Tn u + zα u(1 − u)
, T n u − zα
n
n
En pratique, la taille de l’échantillon, même grande, est toujours fixée.
Dans l’utilisation de la normalité asymptotique, la question se pose évidemment de la qualité de l’approximation normale à n fixé. A partir de quelle
valeur de n est-il légitime de remplacer une loi exacte par son approximation
normale pour un calcul d’intervalle de confiance ? Il est impossible de donner
des bornes valables dans toutes les situations. A titre d’exemple, nous considérerons trois familles de lois asymptotiquement normales, les lois binomiales,
les lois de Poisson et les lois gamma (incluant les lois du khi-deux comme cas
particulier). La loi B(n, p), la loi P(n) et la loi G(n, λ) sont proches de la loi
normale de même espérance et de même variance, quand n est grand. Le tableau ci-dessous donne les distances de Kolmogorov-Smirnov entre quelques
unes de ces lois et leurs approximations normales (la distance de KolmogorovSmirnov est la différence maximale en valeur absolue entre fonctions de répartition).
Loi
DKS
Loi
DKS
B(10, 0.5)
0.0027
G(10, 1)
0.0421
B(10, 0.2)
0.0295
G(50, 1)
0.0188
B(100, 0.2)
0.0099
G(100, 1)
0.0133
P(30)
0.0121
X 2 (30)
0.0344
P(100)
0.0066
X 2 (50)
0.0266
P(200)
0.0047
X 2 (100)
0.0188
Les environnements de calcul sont désormais capables d’effectuer des calculs
précis de n’importe quel quantile pour toutes les lois usuelles. En règle générale, il faut éviter d’utiliser la normalité asymptotique quand un calcul exact
est possible.
Estimation paramétrique
4
39
Exercices
NB : Les valeurs proposées pour les tailles d’échantillons ainsi que pour les
paramètres des lois ne sont qu’indicatives. Elles pourront être modulées en
fonction de la puissance de calcul disponible.
Exercice 1 Soit (X1 , . . . , Xn ) un échantillon de la loi uniforme U (0, θ), où θ
est un paramètre inconnu. On considère les estimateurs suivants du paramètre
θ.
2
• T1,n = (X1 + · · · + Xn )
n
21
3 2
2
(X + · · · + Xn )
• T2,n =
n 1
31
4 3
3
(X + · · · + Xn )
• T3,n =
n 1
2
p
3 p
• T4,n =
( X1 + · · · + Xn )
2n
1
• T5,n = e(X1 · · · Xn ) n
• T6,n = 2X(⌈ n2 ⌉)
• T7,n = 4X(⌈ n4 ⌉)
4
• T8,n = X(⌈ 3n
4 ⌉)
3
• T9,n = max{X1 , . . . , Xn }
n+1
max{X1 , . . . , Xn }
• T10,n =
n
(Pour u ∈]0, 1[, ⌈nu⌉ désigne l’entier i tel que i−1 < nu ≤ i, et X(i) est la
i-ième statistique d’ordre de l’échantillon.)
1. Montrer que tous sont des estimateurs convergents du paramètre θ.
Calculer, lorsque c’est possible, leurs biais et leurs erreurs quadratiques
par rapport à θ.
2. Choisir une valeur de θ et simuler 1000 échantillons de taille 100 de
la loi U (0, θ). Calculer pour chacun de ces échantillons la valeur prise
par les 10 estimateurs. Calculer la moyenne empirique, et la variance
empirique des 10 échantillons de taille 1000 ainsi obtenus. En déduire
une estimation du biais et de l’erreur quadratique de chacun des 10
estimateurs.
3. A partir des échantillons de la question précédente, représenter des
histogrammes pour les 10 estimateurs, et proposer des intervalles de
dispersion de niveau 0.9.
4. Proposer un classement des 10 estimateurs.
Exercice 2 Soit (X1 , . . . , Xn ) un échantillon de la loi exponentielle E(λ),
où λ est un paramètre inconnu. On considère les estimateurs suivants du
paramètre λ.
40
Cahier de Mathématiques Appliquées no 5
−1
1
(X1 + · · · + Xn )
n
−1/2
1
2
2
(X + · · · + Xn )
• T2,n =
2n 1
−X1
+ · · · + e−Xn
e
• T3,n =
n − e−X1 − · · · − e−Xn
log(2)
• T4,n =
X(⌈ n2 ⌉)
log(4/3)
• T5,n =
X(⌈ n4 ⌉)
log(4)
• T6,n =
X(⌈ 3n
4 ⌉)
(Pour u ∈]0, 1[, ⌈nu⌉ désigne l’entier i tel que i−1 < nu ≤ i, et X(i) est la
i-ième statistique d’ordre de l’échantillon.)
• T1,n =
1. Montrer que tous sont des estimateurs convergents du paramètre λ.
Calculer, lorsque c’est possible, leurs biais et leurs erreurs quadratiques
par rapport à λ.
2. Choisir une valeur de λ et simuler 1000 échantillons de taille 100 de
la loi E(λ). Calculer pour chacun de ces échantillons la valeur prise
par les 6 estimateurs. Calculer la moyenne empirique, et la variance
empirique des 6 échantillons de taille 1000 ainsi obtenus. En déduire
une estimation du biais et de l’erreur quadratique de chacun des 6
estimateurs.
3. A partir des échantillons de la question précédente, représenter des
histogrammes pour les 6 estimateurs, et proposer des intervalles de
dispersion de niveau 0.9.
4. Proposer un classement des 6 estimateurs.
Exercice
• Lois
• Lois
• Lois
• Lois
3 Pour chacune des lois P suivantes :
exponentielles E(0.1) , E(10) .
gamma G(0.1, 1) , G(10, 1) .
du khi-deux X 2 (1) , X 2 (100) .
bêta B(0.1, 0.1) , B(1, 10) , B(10, 1) .
1. Représenter graphiquement la fonction de répartition et la fonction
quantile de la loi P .
2. Calculer les intervalles de dispersion symétriques de niveaux 0.95 et
0.99.
3. Calculer les intervalles de dispersion optimaux de niveaux 0.95 et 0.99.
Exercice 4 Pour chacune des lois P suivantes :
• Lois binomiales B(10, 0.5) , B(100, 0.5) , B(10, 0.1) , B(10, 0.9) .
• Lois géométriques G(0.1) , G(0.5) , G(0.9) .
41
Estimation paramétrique
• Lois de Poisson P(0.1) , P(10) .
• Lois hypergéométriques H(100, 50, 10) , H(100, 10, 10) .
• Lois binomiales négatives BN (10, 0.1) , B(10, 0.5) , B(10, 0.9) .
1. Représenter graphiquement la fonction de répartition et la fonction
quantile de la loi P .
2. Déterminer l’ensemble des couples d’entiers (k1 , k2 ) tels que la probabilité de l’intervalle [k1 , k2 ] pour la loi P soit supérieure ou égale à
0.95.
3. Parmi ces intervalles, déterminer celui dont la longueur est la plus
courte et la probabilité la plus proche de 0.95.
Exercice
• Lois
• Lois
• Lois
• Lois
• Lois
• Lois
5 Pour chacune des lois P suivantes :
binomiales B(10, 0.5) , B(10, 0.1) .
géométriques G(0.1) , G(0.9) .
de Poisson P(0.1) , P(10) .
uniformes U (0, 0.1) , U (0, 10) .
exponentielles E(0.1) , E(10) .
normales N (0, 0.1) , N (0, 100) .
1. Donner la valeur de l’espérance µ, de la variance σ 2 et de l’écart-type
σ de la loi P .
2. Simuler 1000 échantillons de taille 20 de la loi P , et calculer pour chacun
2
la valeur prise par la moyenne empirique X, la variance
√ empirique
√ S ,
la variance empirique non biaisée V , ainsi que par S 2 et V . On
obtient ainsi 5 échantillons de taille 1000 de ces estimateurs. Utiliser
ces 5 échantillons pour estimer le biais et l’erreur quadratique
√ moyenne
√
de X par rapport à µ, de S 2 et V par rapport à σ 2 , et de S 2 et V
par rapport à σ.
Exercice 6 On souhaite estimer la taille N d’une population par capturerecapture. Pour cela, on marque au préalable m individus. On envisage deux
approches.
(a) Tirages avec remise. On réalise n tirages indépendants successifs d’un
individu dans la population. Le nombre X d’individus marqués que l’on
a tirés suit la loi binomiale B(n, m
N ).
(b) Tirages sans remise. On prélève un groupe de n individus (distincts)
dans la population. Le nombre X d’individus marqués dans ce groupe
suit la loi hypergéométrique H(N, m, n).
Dans les deux cas on posera :
T =
mn
.
X +1
On traitera successivement les deux approches, et les valeurs de N , m et n
suivantes :
Cahier de Mathématiques Appliquées no 5
42
N
m
n
20
10
10
50
10
10
100
10
10
100
50
10
100
10
50
1. Calculer la loi de T et la représenter par un diagramme en bâtons.
2. Calculer l’espérance de T , son écart-type, et son erreur quadratique par
rapport à N .
3. Déterminer l’intervalle de dispersion optimal de niveau 0.9 pour T .
4. Simuler l’expérience 1000 fois et calculer pour chacune des 1000 répétitions la valeur prise par T . Représenter un diagramme en bâtons des
1000 valeurs obtenues, calculer leur moyenne et écart-type empiriques.
Comparer aux valeurs théoriques.
Exercice 7 On considère la loi de Poisson P(λ), de fonction génératrice
e−λ+λz .
1. Soit X une variable aléatoire de loi P(λ) et k ≥ 1 un entier. Montrer
que :
IE[X(X − 1) · · · (X − k + 1)] = λk .
2. Soit (X1 , . . . , Xn ) un échantillon de la loi P(λ), et k ≥ 1 un entier fixé.
On pose :
n
1X
Xi (Xi − 1) · · · (Xi − k + 1) .
Tk,n =
n i=1
1/k
Montrer que (Tk,n ) est un estimateur convergent de λ.
3. Choisir une valeur de λ. Simuler 1000 échantillons de taille 100 de la loi
P(λ). Pour chacun des 1000 échantillons, calculer la valeur prise par les
1/k
estimateurs (Tk,n ), pour k = 1, 2, 3, 4. On obtient ainsi un échantillon
de taille 1000 pour chacun des 4 estimateurs.
4. Pour chacun des 4 échantillons de la question précédente, représenter un
histogramme, calculer la moyenne empirique et la variance empirique.
En déduire une estimation du biais et de l’erreur quadratique des 4
estimateurs par rapport à λ.
5. Proposer un classement des 4 estimateurs.
Exercice 8 Le but de l’exercice est de comparer les estimateurs des paramètres n et p de la loi binomiale B(n, p), obtenus par la méthode des moments
et par ajustement à l’aide de la distance du khi-deux.
1. Exprimer n et p en fonction de l’espérance et de la variance de la
loi B(n, p). En déduire des estimateurs de n et p par la méthode des
moments.
2. Choisir deux valeurs pour n et p. Simuler 1000 échantillons de taille
100 de la loi B(n, p).
Estimation paramétrique
43
3. Pour chacun des 1000 échantillons, calculer la moyenne empirique, la variance empirique, et en déduire une estimation de n et p par la méthode
des moments. On obtient ainsi un échantillon de taille 1000 pour chacun des 2 estimateurs : représenter un histogramme, calculer la moyenne
empirique et la variance empirique. En déduire une estimation du biais
et de l’erreur quadratique des 2 estimateurs par rapport à n et p respectivement.
4. Pour chacun des 1000 échantillons, déterminer les valeurs de n et p
pour lesquelles la distance du khi-deux entre la distribution empirique
de l’échantillon et la loi B(n, p) est minimale. Reprendre les calculs de
la question précédente pour ces 1000 nouvelles estimations des deux
paramètres.
5. Laquelle des deux méthodes conduit aux meilleurs estimateurs ?
Exercice 9 Le but de l’exercice est de comparer les estimateurs des paramètres a et λ de la loi gamma G(a, λ), obtenus par la méthode des moments
et par ajustement à l’aide de la distance de Kolmogorov-Smirnov.
1. Choisir deux valeurs pour a et λ. Simuler 1000 échantillons de taille
100 de la loi G(a, λ).
2. Pour chacun des 1000 échantillons, calculer la moyenne empirique, la variance empirique, et en déduire une estimation de a et λ par la méthode
des moments. On obtient ainsi un échantillon de taille 1000 pour chacun des 2 estimateurs : représenter un histogramme, calculer la moyenne
empirique et la variance empirique. En déduire une estimation du biais
et de l’erreur quadratique des 2 estimateurs par rapport à a et λ respectivement.
3. Pour chacun des 1000 échantillons, déterminer les valeurs de a et λ
pour lesquelles la distance de Kolmogorov-Smirnov entre la fonction
de répartition empirique de l’échantillon et celle de la loi G(a, λ) est
minimale. Reprendre les calculs de la question précédente pour ces 1000
nouvelles estimations des deux paramètres.
4. Laquelle des deux méthodes conduit aux meilleurs estimateurs ?
Exercice 10 Le but de l’exercice est de comparer les estimateurs des paramètres a et λ de la loi de Weibull W(a, λ), obtenus par ajustement à l’aide de
la distance de Kolmogorov-Smirnov, et par régression au sens des moindres
carrés.
1. Choisir deux valeurs pour a et λ. Simuler 1000 échantillons de taille
100 de la loi W(a, λ).
2. Pour chacun des 1000 échantillons, déterminer les valeurs de a et λ
pour lesquelles la distance de Kolmogorov-Smirnov entre la fonction
de répartition empirique de l’échantillon et celle de la loi W(a, λ) est
minimale. On obtient ainsi un échantillon de taille 1000 pour chacun
44
Cahier de Mathématiques Appliquées no 5
des 2 estimateurs : représenter un histogramme, calculer la moyenne
empirique et la variance empirique. En déduire une estimation du biais
et de l’erreur quadratique des 2 estimateurs par rapport à a et λ respectivement.
3. Pour chacun des 1000 échantillons, calculer la série des statistiques
d’ordre et déterminer les valeurs de a et λ déduites de la régression
au sens des moindres carrés des logarithmes de ces statistiques d’ordre.
Reprendre les calculs de la question précédente pour ces 1000 nouvelles
estimations des deux paramètres.
4. Laquelle des deux méthodes conduit aux meilleurs estimateurs ?
Exercice 11 Le but de l’exercice est de comparer les estimateurs des paramètres µ et σ 2 de la loi normale N (µ, σ 2 ), obtenus par la moyenne et la
variance empirique, et par régression au sens des moindres carrés.
1. Choisir deux valeurs pour µ et σ 2 . Simuler 1000 échantillons de taille
100 de la loi N (µ, σ 2 ).
2. Pour chacun des 1000 échantillons, déterminer la moyenne empirique,
et la variance empirique non biaisée. On obtient ainsi un échantillon de
taille 1000 pour chacun des 2 estimateurs : représenter un histogramme.
3. Pour chacun des 1000 échantillons, calculer la série des statistiques
d’ordre et déterminer les valeurs de µ et σ 2 déduites de la régression au
sens des moindres carrés de ces statistiques d’ordre. Pour ces 1000 nouvelles estimations des deux paramètres, représenter des histogrammes,
calculer les moyennes et les variances empiriques. En déduire une estimation du biais et de l’erreur quadratique des 2 estimateurs par rapport
à µ et σ 2 respectivement.
4. Laquelle des deux méthodes conduit aux meilleurs estimateurs ?
Exercice 12 Chacune des lois P suivantes dépend d’un paramètre p ∈]0, 1[.
• Lois binomiales B(1, p), B(10, p), B(100, p).
• Loi géométrique G(p).
• Lois binomiales négatives BN (1, p), BN (10, p), BN (100, p).
Pour chacune de ces 7 lois :
1. Ecrire la fonction de vraisemblance associée à un échantillon de taille
n.
2. Déterminer l’estimateur du maximum de vraisemblance du paramètre
p.
3. Simuler un échantillon de taille 10 de la loi P . Représenter graphiquement, en fonction de p, la fonction de vraisemblance pour les valeurs
simulées. Répéter la représentation graphique pour un échantillon simulé de taille 20, puis de taille 100.
Estimation paramétrique
45
4. Choisir une valeur de p. Simuler 1000 échantillons de taille 100 de la loi
P . Calculer pour chacun de ces échantillons la valeur prise par l’estimateur du maximum de vraisemblance. Calculer la moyenne empirique, et
la variance empirique de l’échantillon de taille 1000 ainsi obtenu. En déduire une estimation du biais et de l’erreur quadratique de l’estimateur
du maximum de vraisemblance par rapport à p. Représenter un histogramme, et proposer un intervalle de dispersion symétrique de niveau
0.9.
5. Proposer un classement des 7 estimateurs de p.
Exercice 13 Chacune des lois P suivantes dépend d’un paramètre λ > 0.
• Loi de Poisson P(λ).
• Loi exponentielle E(λ).
• Lois gamma G(0.1, λ), G(10, λ).
• Lois de Weibull W(0.1, λ), W(10, λ).
Pour chacune de ces 6 lois :
1. Ecrire la fonction de vraisemblance associée à un échantillon de taille
n.
2. Déterminer l’estimateur du maximum de vraisemblance du paramètre
λ.
3. Simuler un échantillon de taille 10 de la loi P . Représenter graphiquement, en fonction de λ, la fonction de vraisemblance pour les valeurs
simulées. Répéter la représentation graphique pour un échantillon simulé de taille 20, puis de taille 100.
4. Choisir une valeur de λ. Simuler 1000 échantillons de taille 100 de la loi
P . Calculer pour chacun de ces échantillons la valeur prise par l’estimateur du maximum de vraisemblance. Calculer la moyenne empirique, et
la variance empirique de l’échantillon de taille 1000 ainsi obtenu. En déduire une estimation du biais et de l’erreur quadratique de l’estimateur
du maximum de vraisemblance par rapport à λ. Représenter un histogramme, et proposer un intervalle de dispersion symétrique de niveau
0.9.
5. Proposer un classement des 6 estimateurs de λ.
Exercice 14 On considère un échantillon (X1 , . . . , Xn ) de la loi de Bernoulli
de paramètre p et on note X sa moyenne empirique (fréquence expérimentale). On rappelle que nX suit la loi binomiale B(n, p).
1. Ecrire une procédure qui prenne en entrée les valeurs de n, p et α, et
qui retourne en sortie les bornes q(p) et q(p) de l’intervalle de dispersion
optimal pour X, de niveau 1−α.
2. Représenter graphiquement q(p) et q(p) en fonction de p, pour n =
10, 100 et α = 0.05, 0.01.
46
Cahier de Mathématiques Appliquées no 5
3. Ecrire une procédure qui prenne en entrée les valeurs de n et α, ainsi
qu’une valeur x prise par X, et qui retourne en sortie l’intervalle de
confiance optimal [t1 (x), t2 (x)] pour p, de niveau 1−α.
4. Représenter graphiquement t1 (x) et t2 (x) en fonction de x ∈]0, 1[, pour
n = 10, 100 et α = 0.05, 0.01.
Exercice 15 On considère un échantillon (X1 , . . . , Xn ) de la loi de Poisson
P(λ) et on note X sa moyenne empirique. On rappelle que nX suit la loi
P(nλ).
1. Ecrire une procédure qui prenne en entrée les valeurs de λ et α, et qui
retourne en sortie les bornes q(λ) et q(λ) de l’intervalle de dispersion
optimal pour X, de niveau 1−α.
2. Représenter graphiquement q(λ) et q(λ) en fonction de λ ∈ [0, 10], pour
n = 10, 100 et α = 0.05, 0.01.
3. Ecrire une procédure qui prenne en entrée une valeur de α, ainsi qu’une
valeur x prise par X, et qui retourne en sortie l’intervalle de confiance
optimal [t1 (x), t2 (x)] pour λ, de niveau 1−α.
4. Représenter graphiquement t1 (x) et t2 (x) en fonction de x ∈]0, 10[, pour
n = 10, 100 et α = 0.05, 0.01.
Exercice 16 On considère un échantillon (X1 , . . . , Xn ) de la loi géométrique
de paramètre p. On note T l’estimateur du maximum de vraisemblance de p.
On rappelle que n(1/T − 1) suit la loi binomiale négative BN (n, p).
1. Ecrire une procédure qui prenne en entrée les valeurs de p et α, et qui
retourne en sortie les bornes q(p) et q(p) de l’intervalle de dispersion
optimal pour T , de niveau 1−α.
2. Représenter graphiquement q(p) et q(p) en fonction de p, pour n =
10, 100 et α = 0.05, 0.01.
3. Ecrire une procédure qui prenne en entrée la valeur de α, ainsi qu’une
valeur t prise par T , et qui retourne en sortie l’intervalle de confiance
optimal [t1 (t), t2 (t)] pour p, de niveau 1−α.
4. Représenter graphiquement t1 (t) et t2 (t) en fonction de t ∈]0, 1[, pour
n = 10, 100 et α = 0.05, 0.01.
Exercice 17 On considère un échantillon (X1 , . . . , Xn ) de la loi exponentielle E(λ). On note T l’estimateur du maximum de vraisemblance pour λ.
On rappelle que n/T suit la loi gamma G(n, λ).
1. Ecrire une procédure qui prenne en entrée les valeurs de λ et α, et qui
retourne en sortie les bornes q(λ) et q(λ) de l’intervalle de dispersion
optimal pour T , de niveau 1−α.
2. Représenter graphiquement q(λ) et q(λ) en fonction de λ ∈ [0, 10], pour
n = 10, 100 et α = 0.05, 0.01.
Estimation paramétrique
47
3. Ecrire une procédure qui prenne en entrée une valeur de α, ainsi qu’une
valeur t prise par T , et qui retourne en sortie l’intervalle de confiance
optimal [t1 (t), t2 (t)] pour λ, de niveau 1−α.
4. Représenter graphiquement t1 (t) et t2 (t) en fonction de t ∈]0, 10[, pour
n = 10, 100 et α = 0.05, 0.01.
Exercice 18
1. Sur un nombre n inconnu de lancers d’une pièce équilibrée, on a obtenu
6 pile. Proposer un intervalle de confiance de niveau 0.95 pour n.
2. Sur un échantillon de taille n inconnue de la loi de Poisson P(0.5), la
somme des valeurs est 6. Proposer un intervalle de confiance de niveau
0.95 pour n.
Exercice 19 On considère le modèle linéaire Y = ax + b + E, où E suit la
loi normale N (0, σ 2 ). Ecrire une procédure qui prenne en entrée un vecteur
x = (xi ), des valeurs de a, b, σ 2 , α et m, effectuant les opérations suivantes.
1. Simuler un échantillon e = (ei ), de même taille que x, de la loi N (0, σ 2 ).
2. Calculer le vecteur y = ax + b + e.
3. Calculer les coefficients b
a et bb de la droite de régression linéaire de y
sur x, ainsi que l’erreur quadratique minimale EQ(b
a, bb).
4. Calculer les intervalles de confiance de niveau 1−α pour a, b et σ 2 .
5. Calculer, pour un vecteur x∗ = (x∗,j ) de valeurs régulièrement réparties
entre min{xi } − m et max{xi } + m, les vecteurs y = (y j ) et y = (y j )
des bornes des intervalles de prédiction de niveau 1 − α pour Yj =
ax∗,j + b + E.
6. Représenter sur un même graphique les points de coordonnées (xi , yi ),
la droite de régression linéaire de y sur x, les points de coordonnées
(x∗,j , y j ) et (x∗,j , y j ).
Exécuter la procédure pour a = 1, b = 2, σ 2 = 1, α = 0.05, m = 1, et les
vecteurs x de taille 100 définis comme suit.
• Valeurs régulièrement réparties entre 0 et 10.
• Valeurs régulièrement réparties entre 0 et 1.
• Valeurs simulées suivant la loi normale N (0, 100).
• Valeurs simulées suivant la loi normale N (0, 1).
• Valeurs simulées suivant la loi exponentielle E(1).
Exercice 20 On considère un échantillon (X1 , . . . , Xn ) de la loi de Bernoulli
de paramètre p. Pour n = 30 puis 100, puis 200 :
1. Pour des valeurs de la fréquence empirique observée x allant de 0.01 à
0.99 par pas de 0.01, calculer les intervalles de confiance optimaux pour
p de niveaux 0.95 et 0.99.
Cahier de Mathématiques Appliquées no 5
48
2. Pour les mêmes valeurs de x, calculer les intervalles de confiance approchés pour p en utilisant la normalité asymptotique.
3. Représenter graphiquement en fonction de x les différences entre les
bornes inférieures, puis entre les bornes supérieures, des intervalles
exacts et des intervalles approchés.
Exercice 21
1. Pour n = 10, 20, . . . , 100, simuler un échantillon de taille n de la loi
normale N (10, 100).
2. En supposant la variance inconnue, calculer l’intervalle de confiance
exact de niveau 0.95 pour l’espérance. Calculer l’intervalle de confiance
de niveau asymptotique 0.95. Comparer les deux intervalles.
3. Calculer l’intervalle de confiance optimal de niveau 0.95 pour la variance. Calculer l’intervalle de confiance de niveau asymptotique 0.95,
obtenu en remplaçant la loi du khi-deux par la loi normale de même
espérance et de même variance. Comparer les deux intervalles.
Exercice 22 On désire estimer la production d’une nouvelle espèce de pommier. On suppose que la production d’un pommier de cette espèce suit une
loi normale d’espérance µ et d’écart-type σ inconnus.
1. Sur un échantillon de 15 pommiers, on a observé une récolte moyenne
de 52 Kg avec un écart-type de 5 Kg. Donner un intervalle de confiance
pour la production moyenne des pommiers de cette espèce, de niveau
0.95, puis 0.99.
2. Donner un intervalle de confiance pour l’écart-type σ, de niveau 0.95.
3. Sur un échantillon de 80 pommiers, on observe une récolte moyenne de
51.5 Kg, avec un écart-type de 4.5 Kg. Donner un intervalle de confiance
pour la production moyenne des pommiers de cette espèce, de niveau
0.95, puis 0.99.
Exercice 23 On dispose de 10 prises de sang recueillies dans les mêmes
conditions sur un même sujet. On mesure pour chacune le taux de cholestérol.
On observe une moyenne empirique de 247.3 et une variance empirique de
2.01. On admet que les différentes mesures sont les réalisations d’une variable
aléatoire X suivant une loi normale d’espérance µ et de variance σ 2 inconnues.
1. Déterminer un intervalle de confiance pour µ au niveau 0.95 puis 0.99.
2. On admet que la variance de X n’est liée qu’à celle de la méthode
de dosage qui est supposée connue (σ 2 = 1.5). Reprendre la question
précédente.
3. Quelle est la probabilité pour que la variance empirique observée dépasse 3.3 ?
4. Quelle valeur pour la variance empirique a la probabilité 0.05 d’être
dépassée ?
Estimation paramétrique
49
Exercice 24 On considère un échantillon (X1 , . . . , Xn ) de la loi uniforme
U (0, θ), où θ est un paramètre inconnu.
1. Soit u ∈]0, 1[ un réel fixé. On considère le quantile empirique X(i) , où
i est l’entier tel que i−1 < nu ≤ i. Montrer que X(i) /θ suit la loi bêta
B(i, n−i+1).
2. On note [q, q] l’intervalle de dispersion optimal de niveau 1−α de la loi
bêta B(i, n−i+1). Quel intervalle de confiance basé sur X(i) peut-on
proposer pour θ ?
3. Calculer les valeurs prises par ces intervalles de confiance, en simulant
un échantillon de taille n de la loi U (0, θ), pour n = 20, 100 ; θ = 2, 10 ;
u = 0.1, 0.5 ; α = 0.05, 0.01.
4. Utiliser la normalité asymptotique des quantiles pour déterminer en
fonction de n, u, et X(i) , les bornes d’un intervalle de confiance de
niveau asymptotique 1−α pour θ.
5. Calculer les valeurs prises par ces bornes pour les échantillons de la
question 3.
Exercice 25 On considère un échantillon (X1 , . . . , Xn ) de la loi exponentielle E(λ). Soit T l’estimateur du maximum de vraisemblance pour λ. On
rappelle que n/T suit la loi gamma G(n, λ).
1. Pour λ = 0.1 puis λ = 10, et n = 10, 20, . . . , 100, simuler un échantillon
de taille n de la loi E(λ).
2. Calculer l’intervalle de confiance optimal de niveau 0.95 pour λ.
3. Calculer l’intervalle de confiance de niveau asymptotique 0.95, obtenu
en remplaçant la loi gamma par la loi normale de même espérance et
de même variance.
4. Comparer les deux intervalles.
Index
binomiale, 4, 11
binomiale négative, 4, 17
de Bernoulli, 4, 6, 21, 24
de Poisson, 4
de Student, 9, 31
de Weibull, 5, 20
du khi-deux, 31
exponentielle, 5, 26
géométrique, 4, 25
gamma, 5, 16
hypergéométrique, 4
log-normale, 5
normale, 4, 20, 26, 31
uniforme, 7, 23, 29
ajustement, 4
bilatéral, 9
capture-recapture, 14
distance
de Kolmogorov-Smirnov, 18, 38
du khi-deux, 17
distribution empirique, 17
écart-type, 13
échantillon, 3
gaussien, 31
erreur quadratique, 7, 19
estimateur, 5
asymptotiquement sans biais, 7
biaisé, 7
convergent, 6, 36
de la variance, 11
des moindres carrés, 18, 33
du maximum de vraisemblance,
23
sans biais, 7
estimation, 5
d’un quantile, 37
d’une espérance, 36
par ajustement, 17
maximum de vraisemblance, 23
méthode
des moments, 16
du maximum de vraisemblance,
24
moyenne empirique, 6, 16, 27, 31
niveau
d’un intervalle de dispersion, 9
normalité asymptotique, 35
paramètre, 5
questions confidentielles, 14
famille de lois, 4
fonction
de répartition, 11, 18, 38
quantile, 9, 20
fréquence empirique, 6
régression linéaire, 19, 33
statistique d’ordre, 18, 20
théorème central limite, 4, 36
intervalle
de confiance, 27, 32, 34
de dispersion, 8, 28
de prédiction, 34
unilatéral
inférieur, 9
supérieur, 9
variance empirique, 11, 13, 27, 31
non biaisée, 13
vraisemblance, 21
logarithme de la vraisemblance, 24
loi
bêta, 16
50
Téléchargement