Biostatistique et Introduction à la Santé Publique Echantillonnage et estimation statistique Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 1 Echantillonnage statistique • Un échantillon statistique est constitué d’un nombre limité d’individus tirés au sort dans la population étudiée. • C’est le tirage au sort qui assure la représentativité. • Un échantillon de taille n d’une v.a. X est obtenu en répétant n fois l’épreuve qui donne X. • Notation : (X1, X2, … , Xn) • Une réalisation particulière : (x1, x2, … , xn) Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 2 Moyenne et variance de la somme de v.a. • Soit S la somme des v.a. X et Y : S = X + Y • E(S) = E(X) + E(Y) • Var(S) = Var (X) + Var(Y) + 2 Cov(X,Y) • Si X et Y sont indépendantes, alors Cov(X,Y) = 0 Var(S) = Var (X) + Var(Y) • La variance de la somme de variables aléatoires indépendantes est la somme de leurs variances. Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 3 La moyenne d’un échantillon est une variable aléatoire • Soit une variable X de moyenne et de variance ² • La moyenne Mn d’un échantillon de taille n est la moyenne arithmétique de ses valeurs X1, … , Xn X X ... X 1 2 n M n n 2 σ • Mn a pour moyenne et pour variance n Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 4 Théorème central limite • Quand la taille de l’échantillon est grande (tend vers l’infini), la distribution de la moyenne M des valeurs d’un échantillon tend vers une loi normale, quelle que soit la loi parente. • Soit une variable X de distribution quelconque, de moyenne et de variance ² • La moyenne des valeurs d’un échantillon de taille n a une probabilité 1- d’appartenir à l’intervalle : μ zα σ • Condition de validité : n 30 n • Il s’agit de l’intervalle de pari de la moyenne. Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 5 Intervalle de pari d’une proportion • Quand la taille de l’échantillon est grande (tend vers l’infini), la distribution de la proportion P d’une caractéristique dans un échantillon tend vers une loi normale de moyenne p et de variance pq/n (la loi parente est une binomiale de paramètres n et p). • La proportion observée dans un échantillon de taille n a une probabilité 1- d’appartenir à l’intervalle : p ( 1 p ) P p z α n 1 α • Condition de validité : np et n(1-p) 5 Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 6 Estimation • Estimateur : c’est une caractéristique calculée en fonction des observations destiné à estimer la valeur d’un paramètre inconnu d’une loi de probabilité. • Estimateur sans biais : il donne en moyenne la valeur recherchée • Estimateur convergent : tend à se rapprocher de plus en plus de la valeur recherchée quand n augmente Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 7 Estimation de la moyenne et de la variance d’un échantillon de taille n • Estimation de la moyenne xi m n • Estimation de la variance ² 2 x i 21 21 2 s ( x m ) x i i n 1 n 1 n estimateur sans biais Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 8 Estimation de la moyenne et de la variance d’un échantillon de taille n • Estimation de la moyenne xi m n • Estimation de la variance ² 2 x i 21 21 2 s ( x m ) x i i n 1 n 1 n 2 2 1 x n m n 1 i Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 9 Estimation par intervalle Intervalle de confiance de la moyenne • Un intervalle de confiance d’un paramètre inconnu est une fourchette de valeurs construite de telle sorte qu’une proportion 1- des intervalles ainsi construits recouvrent la vraie valeur du paramètre estimé. • On dit aussi que le paramètre inconnu a une probabilité 1- de se trouver à l’intérieur de cet intervalle. • Intervalle de confiance au risque de la moyenne s μ m z α n 1 α Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 condition n 30 m et s observés 10 Intervalle de confiance d’une proportion • Intervalle de confiance au risque d’une proportion inconnue à partir d’un échantillon de taille n présentant une proportion p p ( 1 p ) p z α n 1 α • conditions de validité : n et n (1-) 5 à vérifier aux bornes de l’intervalle Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 11 Intervalle de confiance d’une proportion : exercice • Dans un registre de 11 712 naissances, enregistrées de façon systématique, le nombre de filles est égal à 5 778. • Donner une estimation de la proportion de filles, et du sexe-ratio (rapport G/F) au risque 5%. • Ce résultat vous fournit-il une information sur la vraisemblance de l’équiprobabilité des sexes dans la population étudiée ? • Proportion de filles 5778/11712 = 0,493 estim. Ponctuelle 0 , 493 0 , 507 0 , 493 1,96 0,49 0,0 0,4 ; 0 F 11 712 0 , 498 0,516 • Sexe-ratio IC 95 % : ; 0,992 ; 1,06 0 , 502 0,484 1 est inclus dans l’intervalle Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 12 Attention à bien distinguer : • Intervalle de variation Concerne une variable aléatoire • Intervalle de pari Concerne la loi connue d’un paramètre (moyenne, proportion, …) • Intervalle de confiance Concerne l’estimation d’un paramètre inconnu à partir d’observations tirées d’un échantillon Novembre 2005 Pr P. Ingrand - Biostatistique PCEM2 13