1
Cahier de Mathématiques Appliquées no5
Estimation paramétrique
B. Ycart
Comment connaît-on la population du globe ? Comment détermine-t-on dans
quelles limites se situe le nombre de globules rouges par litre de sang chez un
individu en bonne santé ? Comment sait-on combien d’individus sont connec-
tés à internet ? Toutes ces évaluations sont déduites de modèles probabilistes
par les techniques statistiques d’estimation paramétrique. Le point de vue
adopté ici est orienté vers les applications en médecine, et s’appuie largement
sur l’utilisation des logiciels de calcul, qui permettent l’expérimentation sur
des échantillons simulés.
Les livres de statistique sont nombreux. Plus ou moins théoriques, plus
ou moins spécialisés vers tel ou tel domaine d’application, il est difficile d’en
recommander un en particulier. Ces notes ont été préparées à partir des
références suivantes.
J.L. Devore Probability and statistics for engineering and the sciences.
Brooks/Cole, Pacific Grove, 1991.
G. Saporta Probabilités, Analyse des données, Statistique.
Technip, Paris, 1990.
Les “cahiers de mathématiques appliquées” doivent beaucoup aux relec-
tures scrupuleuses de Rachid Boumaza, au dynamisme de Sylvie Sevestre-
Ghalila, au soutien de l’Ecole Supérieure de la Statistique et de l’Analyse de
l’Information de Tunisie, par son directeur Makki Ksouri et son directeur des
études Nacef Elloumi, ainsi qu’à la compétence de Habib Bouchriha, directeur
du Centre des Publications Universitaires de la Tunisie.
2Cahier de Mathématiques Appliquées no5
Table des matières
1 Estimation ponctuelle 3
1.1 Modèles paramétrés . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Estimateurs et estimations . . . . . . . . . . . . . . . . . . . . 5
1.3 Qualités d’un estimateur . . . . . . . . . . . . . . . . . . . . . 6
1.4 Intervalles de dispersion . . . . . . . . . . . . . . . . . . . . . 9
1.5 Exemples d’estimateurs . . . . . . . . . . . . . . . . . . . . . 11
2 Recherche d’estimateurs 16
2.1 Méthode des moments . . . . . . . . . . . . . . . . . . . . . . 16
2.2 Estimation par ajustement . . . . . . . . . . . . . . . . . . . . 17
2.3 Estimateurs des moindres carrés . . . . . . . . . . . . . . . . 19
2.4 Notion de vraisemblance . . . . . . . . . . . . . . . . . . . . . 21
2.5 Pratique du maximum de vraisemblance . . . . . . . . . . . . 24
3 Intervalles de confiance 27
3.1 Dénitions............................. 27
3.2 Echantillons gaussiens . . . . . . . . . . . . . . . . . . . . . . 31
3.3 Modèle linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.4 Normalité asymptotique . . . . . . . . . . . . . . . . . . . . . 35
4 Exercices 39
Estimation paramétrique 3
1 Estimation ponctuelle
1.1 Modèles paramétrés
Le postulat de modélisation sur lequel toute étude statistique est basée est
le suivant :
Les données observées sont des réalisations de variables aléatoires.
Quand le résultat d’une expérience n’est pas reproductible exactement, on
suppose qu’il est la réalisation d’une variable aléatoire. La théorie des pro-
babilités fournit des outils, comme la loi des grands nombres ou le théorème
central limite, permettant d’extraire des données ce qui est reproductible et
qui pourra donc fonder une prédiction ou une décision.
Quand on observe un caractère statistique sur une population, si l’ordre
dans lequel on prend les individus n’a pas d’importance, on choisira de consi-
dérer que les données sont des réalisations de variables aléatoires indépen-
dantes et de même loi. Cette loi de probabilité décrit la variabilité du carac-
tère. Même dans le cas où les individus ne sont pas interchangeables, comme
pour une série chronologique, la modélisation consistera à se ramener, en
soustrayant au besoin une fonction déterministe, au cas d’un échantillon de
variables aléatoires indépendantes.
Définition 1.1 Soit Pune loi de probabilité sur IR. On appelle échantillon
de la loi Pun n-uplet de variables aléatoires indépendantes et de même loi
P.
Le mot échantillon prend en statistique deux sens différents, selon que
l’on parle des données observées ou du modèle probabiliste. L’hypothèse de
modélisation consiste à voir l’échantillon (observé) comme une réalisation
d’un échantillon (théorique) d’une certaine loi de probabilité P. En d’autres
termes, on considère que les données auraient pu être produites en simulant
de façon répétée la loi de probabilité P. Pour éviter les confusions, nous dési-
gnerons par données ou échantillon observé, la séquence de nombres recueillie
(x1,...,xn). Les échantillons (théoriques) au sens de la définition ci-dessus
seront désignés par des majuscules : (X1,...,Xn).
La loi de probabilité Pmodélisant la variabilité des données n’a aucune
réalité physique. Cependant elle est considérée comme un objet caché. Tout
se passe comme si on disposait d’un algorithme de simulation de la loi P,
sans connaître Pelle-même : Les données sont des appels indépendants de
cet algorithme. L’objet de l’analyse statistique est d’en extraire toute infor-
mation utile sur P. Si l’hypothèse de modélisation par la loi Pest correcte
(l’algorithme simule effectivement cette loi), la loi des grands nombres per-
met d’affirmer que la distribution empirique des données est proche de P,
pour un grand échantillon. Mais deux échantillons observés, simulés selon la
même loi, ont rarement la même distribution empirique. Afin d’extraire des
données des informations reproductibles, on est amené à réduire l’ensemble
des lois possibles à une famille particulière de lois de probabilité.
4Cahier de Mathématiques Appliquées no5
On appelle problème d’ajustement le problème consistant à déterminer,
dans une famille de lois de probabilité donnée, quelle est celle qui coïncide
le mieux avec l’échantillon observé. Dans la situation la plus courante, celle
que nous considérons ici, la famille dépend d’un ou plusieurs paramètres réels
inconnus. Le problème est donc de déterminer quelle valeur du paramètre
est la mieux adaptée aux données, en un sens que nous préciserons plus loin.
On parle alors d’estimation paramétrique. Nous donnons ci-dessous quelques
exemples courants de situations statistiques, avec des familles de lois com-
munément choisies.
Echantillons binaires
Typiquement, la situation est celle où un même événement est observé ou
non dans une suite d’expériences indépendantes. Si on code les observations
par 1 et 0, la modélisation par une loi de Bernoulli s’impose. Le paramètre
inconnu est la probabilité de l’événement. On l’approche bien évidemment
par sa fréquence expérimentale.
Comptages
Un échantillon issu de comptages prend des valeurs entières positives. Plu-
sieurs familles de lois classiques peuvent être utilisées comme modèles. Si
les objets comptés sont relativement fréquents, dans une population de taille
fixée et assez faible, les lois binomiales ou hypergéométriques sont des modèles
naturels (nombre de filles dans les fratries de 5 enfants par exemple). Si les
objets comptés possèdent un caractère relativement rare dans un grand en-
semble (bactéries, individus porteurs d’un gène particulier,. . . ) on utilise sou-
vent une loi de Poisson. Pour des durées mesurées en temps discret (nombres
de jours ou de semaines d’incubation pour une maladie) on pourra utiliser
une loi géométrique ou binomiale négative. On se laisse souvent guider par la
forme de la distribution empirique pour le choix d’un modèle. Un diagramme
en bâtons en gros unimodal pourra suggérer de modéliser par une loi bino-
miale négative, même s’il n’y a pas de raison profonde qui rende ce choix
naturel.
Variables normales
Les lois normales sont de très loin les plus utilisées parmi les modèles pro-
babilistes. Cela tient à deux causes. L’une est qu’elles permettent des calculs
explicites faciles, quelle que soit la taille de l’échantillon. En particulier il
est fréquent de choisir un modèle normal pour de petits échantillons, sans
pouvoir toujours justifier ce choix. L’autre raison tient au théorème central
limite : chaque fois qu’une quantité provient du cumul d’un grand nombre de
facteurs variables relativement indépendants entre eux, cette quantité pourra
être modélisée par une loi normale. C’est le cas pour les erreurs de mesures
qui ont été la motivation historique de la loi normale, mais aussi pour de très
nombreux paramètres physiologiques (tailles, poids, numérations sanguines,
dosages hormonaux . . . ).
Estimation paramétrique 5
Durées
Des durées mesurées en temps continu sont modélisées par des lois de proba-
bilité continues sur IR+. En fiabilité, pour des durées de fonctionnement ou
des durées de réparation, les lois de Weibull sont souvent préférées. Les lois
exponentielles en sont un cas particulier.
Données unimodales asymétriques
Comme pour les caractères discrets, le choix d’un modèle pour un caractère
continu est souvent guidé par la forme de la distribution empirique. Il arrive
que l’histogramme d’un caractère continu soit trop dissymétrique pour qu’on
puisse utiliser la loi normale. Plusieurs familles de lois présentent des dissy-
métries plus ou moins importantes. C’est le cas pour les lois de Weibull, déjà
évoquées, mais aussi pour les lois gamma. Quand les ordres de grandeur des
données sont très différents, on peut les remplacer par leurs logarithmes. Si le
nouvel histogramme coïncide apparemment avec une loi normale, on utilisera
une loi log-normale comme modèle pour les données initiales.
Dans tout ce qui suit, nous désignerons par Pθune loi de probabilité dépen-
dant du paramètre inconnu θ. Dans la plupart des exemples, le paramètre θ
sera un nombre réel, mais il peut aussi être un entier, ou un couple de réels.
1.2 Estimateurs et estimations
Quand une famille de lois dépendant du paramètre inconnu θa été choisie,
c’est de l’échantillon et de lui seul que l’on peut tirer les informations. On
appelle estimateur du paramètre θ, toute fonction de l’échantillon, prenant
ses valeurs dans l’ensemble des valeurs possibles pour θ. Evidemment, cette
définition un peu vague cache l’espoir que les valeurs prises par l’estimateur
soient proches de la valeur cible θ, qui est et restera inconnue.
Il importe de bien distinguer les variables aléatoires, liées à la modélisa-
tion, de leurs réalisations, identifiées aux données. Un échantillon (théorique)
est un n-uplet de variables aléatoires indépendantes et de même loi Pθ. Pour
estimer θ, on propose un estimateur, fonction de l’échantillon :
T=τ(X1,...,Xn).
C’est aussi une variable aléatoire. Le choix du modèle et de l’estimateur Test
déconnecté du recueil des données. C’est en quelque sorte une planification
que l’on effectue avant toute observation, et qui pourra servir à plusieurs
échantillons observés du même phénomène.
Une fois un modèle choisi, on considérera un n-uplet de données (x1,...,xn)
comme une réalisation des variables aléatoires (X1,...,Xn). La valeur (réelle)
prise par T:
b
θ=τ(x1,...,xn),
est l’estimation (du paramètre au vu de l’échantillon observé).
1 / 50 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !