Master 1 ESTIMATION Mars 2009
I INTRODUCTION
Dans son livre, ”Le jeu de la science et du hasard”, Daniel Schwartz, cite cette anecdote d'un anglais qui débarque à Calais et qui
apercevant une femme rousse, conclut :”Tiens, les françaises sont rousses”....Nous rions de son erreur, mais bien souvent nous avons
du mal à l'éviter ; il cite lui même le cas d'un ami mathématicien, qui le rencontre à Paris un samedi et lui dit :”..Tu ne vas plus à
la campagne le samedi ?” ; plus loin il imagine un chirurgien, auteur d'une nouvelle technique opératoire qui écrit aux 1000 premiers
patients qui en ont bénéciée ; il reçoit 100 réponses : 75 sont très satisfaits, 25 non ; il évalue donc la proportion de succès à 75%, à
partir de cet échantillon. Cependant le doute le saisit : que sont devenus les 900 autres patients, qui n'ont pas répondu ? Réponse : ils
sont morts des suites de l'opération....No comment.
On comprend donc le problème qui se pose : on est souvent amené à décrire une population à partir d'un échantillon, soit parce
que tester la population entière est impossible, on ne peut interroger chaque électeur sur ses intentions pour construire un sondage, soit
parce que le test peut détruire l'échantillon ; on voit mal un fabriquant d'ampoules tester leur durée de vie en les laissant toutes allumées
jusqu'à leur usure complète.
C'est l'objet de l'induction ; les statisticiens appellent inférence la démarche qui consite à passer du particulier, c'est-à dire
de l'échantillon, au général, c'est-à dire à la population-mère. Les tests statistiques permettent de saisir les éffets des uctuations
d'échantillonnage et de répondre à la question fondamentale : que valent les informations issues d'un échantillon ? permettent-elles de
décrire la population ?
Ainsi se pose de façon cruciale le choix de l'échantillon, et notamment la construction d'un échantillon représentatif de la population.
On ne peut pas tester la population française par les personnes dont le nom commence par un A;ou les étudiants d'un certain cours ni
en prenant ceux du premier rang ( quand il y en a..) ni ceux du dernier rang. Ces échantillons évoqués sont dits ”biaisés”, en ce sens
qu'ils diffèrent systématiquement de la population ; ils ne sont pas représentatifs. La seule façon satisfaisante du point de vue théorique,
pour éviter le biais, est que l'appartenance d'un élément à l'échantillon ne dépende en aucun cas d'une caractéristique de cet élément
(première lettre du nom, place dans l'amphithéâtre,..), mais provienne uniquement du hasard, d'un tirage aléatoire, où chaque individu
a la même probabilité d'être choisi. Si l'on veut tester si la soupe est correctement salée, et si elle a été bien mélangée, on aura la même
conclusion en goûtant dans la marmite, ou dans l'assiette de quelqu'un.
Dans de nombreux sondages, on utilise un échantillonnage plus sophistiqué que le tirage au sort : on procède par strates, en xant
à l'avance le nombre d'individus qui devront avoir tel âge, sexe, catégorie socio-professionnelle, etc. Mais à l'intérieur de chaque
sous-groupe, les individus retenus devront résulter d'un tirage au sort.
La statistique est basée sur le fait que les données observées sont des réalisations de variables aléatoires ; ainsi les nvaleurs ob-
servées dans une population constituent nréalisations indépendantes d'une variable aléatoire Xsuivant une loi de probabilité P; ou une
réalisation du n-uplet (X1;X2;:::; Xn)où les Xisont des variables aléatoires indépendantes et de même loi, P(i:i:d: indépendantes et
identiquement distribuées). On note (x1;x2;:::; xn)un échantillon de taille nou par extension (X1;X2;:::; Xn):
Par exemple, si l'on désire tester la durée de vie d'une ampoule dans une population de taille 10000;un échantillon de taille 10 sera
noté (X1;X2;:::; X10);où X1est la durée de vie de l'ampoule N1;etc. Si l'expérience nous donne pour la première ampoule une
durée de vie de 500 heures, alors x1= 500:A partir de notre échantillon, nous pourrons calculer diverses caractéristiques, comme la
moyenne de l'échantillon, et nous chercherons à estimer la moyenne inconnue de la population.
Pour estimer un paramètre inconnu d'une population, on peut se xer deux types d'objectifs : soit rechercher une estimation sous la
forme d'un nombre et on parle alors d'estimation ponctuelle, soit rechercher un intervalle qui contienne le paramètre inconnu, avec un
risque d'erreur consenti, et on parle alors d'intervalle de conance (fourchette).
II ECHANTILLONS
Nous supposerons dans la suite que l'on procède à un échantillonnage aléatoire, c'est-à dire que tous les individus d'une population
de taille Nont été numérotés et que l'on a tiré au sort n(n<N)nombres parmi les entiers de 1àN; pour constituer un échantillon
aléatoire de taille n: On peut effectuer le tirage de deux façons donnant lieu à deux types d'échantillons.
1. Un échantillon est dit exhaustif (du latin ”épuiser”, au sens épuiser toutes les possibilités), s'il est constitué sans remise et non
exhaustif s'il est constitué avec remise.
2. Dans le cas d'un tirage non exhaustif (avec remise), il y a indépendance entre les tirages.
3. Dans le cas d'échantillons exhaustifs constitués à partir d'une population nie de taille N; il n'y a pas indépendance. On dénit alors
le taux de sondage T=n
N:Si le taux de sondage est sufsamment petit ( T0:05), on peut assimiler (comme dans la situation
d'un schéma de Bernoulli) un échantillon exhaustif à un ensemble de valeurs résultant de tirages indépendants.
4. Convention : les résultats énoncés dans ce chapitre supposent par défaut que les échantillons considérés sont soit non
exhaustifs soit exhaustifs avec un taux de sondage : T=n
Ninférieur ou égal à 5%:
Dans le cas contraire, pour des populations nies, de taille N; si n0:05N; on devra utiliser un correctif qui sera précisé.
page 1 UFR14