Biostatistique Chapitre I: Estimation Caroline Verhoeven Table des matières 1 Introduction 2 La distribution normale 3 Distribution d’échantillonnage Théorème central limite Intervalles de confiance Intervalle de confiance pour une probabilité Caroline Verhoeven MEDI-G1203 2 / 35 1. Introduction Inférence statistique I 1 échantillonnage population µ =? échantillon x Statistique descriptive 2 inférence 3 Population : l’ensemble des individus qui nous intéressent Exemple : adultes souffrant du dos, lapins ayant les dents trop longues Echantillon : Partie de la population qu’on étudie vraiment Hypothèse de la biostatistique : la population est beaucoup plus grande que l’échantillon Caroline Verhoeven MEDI-G1203 3 / 35 1. Introduction Inférence statistique II 1 échantillonnage population µ =? échantillon x Statistique descriptive 2 inférence 3 Inférence statistique : Processus pour généraliser les conclusions obtenues pour l’échantillon vers la population Il faut idéalement que l’échantillon soit aléatoire simple, c.-à-d. que tous les individus de la population aient la même probabilité d’être choisi Caroline Verhoeven MEDI-G1203 4 / 35 1. Introduction Inférence statistique III 1 échantillonnage population µ =? échantillon x Statistique descriptive 2 inférence 3 Les individus dans la population varient ⇒ Les échantillons varient aussi Comment traiter cette variation ? Caroline Verhoeven MEDI-G1203 5 / 35 1. Introduction Statistiques pour la population La moyenne (arithmétique) : µ = La variance : σ2 = L’écart-type : σ = N 1X (x − µ)2 N i =1 i p N 1X x N i =1 i σ2 N : Le nombre de sujets dans la population Caroline Verhoeven MEDI-G1203 6 / 35 1. Introduction Statistiques pour l’échantillon La moyenne (arithmétique) : x = La variance : s2 = L’écart-type : s = 1 N X N 1X x N i =1 i (x − x)2 N − 1 i =1 i p s2 N : Le nombre de sujets dans l’échantillon Caroline Verhoeven MEDI-G1203 7 / 35 1. Introduction Variation de la moyenne Prenons 3 fois 7 mesures au hasard, avec la loi de probabilité N (0,1) 0,53 0,74 0,96 −0,28 1,02 0,29 −0,09 x 1 = 0,45 −0,76 −0,85 1,09 −0,32 −0,03 1,69 −0,33 x 2 = 0,07 Caroline Verhoeven −1,20 −1.02 1.87 0.72 −0.07 1,59 1,71 x 3 = 0,51 MEDI-G1203 8 / 35 1. Introduction Estimations ponctuelles Paramètres de la population Moyenne µ Déviation standard σ Probabilité π Estimation x s proportion Est-ce une bonne estimation ? Comment le savoir ? Il faut regarder comment les échantillons sont distribués Caroline Verhoeven MEDI-G1203 9 / 35 2. La distribution normale Définition Une distribution continue très importante est la distribution normale. Elle est définie par sa fonction de densité de probabilité (x −µ)2 1 − e 2σ2 f (x) = p 2πσ µ correspond à la moyenne pour la population σ correspond à la déviation standard pour la population 0,08 0,06 µ = 180, σ = 5 µ = 190, σ = 5 0,04 µ = 180, σ = 10 0,02 170 180 190 200 210 Caroline Verhoeven MEDI-G1203 10 / 35 2. La distribution normale Calcul de la probabilité Soit X une variable aléatoire continue, si X suit la distribution normale de paramètre µ,σ, on notera X ∼ N (µ,σ2 ) Nous avons que P(a ≤ X ≤ b) = Zb a p 1 2πσ e − (x −µ)2 2σ2 dx En particulier : 1.0 0.8 F (x) = P(X ≤ x) = Zx −∞ p 1 2πσ e (x ′ −µ)2 − 2σ2 F (x) 0.6 dx’ 0.4 0.2 160 170 180 190 200 210 x Caroline Verhoeven MEDI-G1203 11 / 35 2. La distribution normale La distribution normale centrée reduite I BProblème ! Il n’y a pas moyen de calculer l’integrale Zb a p 1 2πσ e − (x −µ)2 2σ2 dx On peut utiliser des logiciels ou des tables Des tables pour chaque µ et σ ? NON Caroline Verhoeven MEDI-G1203 12 / 35 2. La distribution normale La distribution normale centrée réduite II X a une moyenne µ ⇒ Y = aX + b a une moyenne aµ + b X a une déviation standard σ ⇒ Y = aX + b a une déviation standard |a|σ X ∼ N (µ,σ2 ), alors : Z= X −µ , σ a= 1 , σ µ σ b=− . Z a comme moyenne 0 Z a comme déviation standard 1 ⇒ Z ∼ N (0,1) Caroline Verhoeven MEDI-G1203 13 / 35 2. La distribution normale La distribution normale centrée réduite III La fonction de la loi normale centrée réduite a comme fonction de densité 1 ϕ(z) = p 2π et on note Φ(z) = P(Z ≤ z) = Caroline Verhoeven e −z Zz 2 /2 ϕ(z ′ )dz ′ −∞ MEDI-G1203 14 / 35 3. Distribution d’échantillonnage Exemple d’un échantillon Exemple 1 Le diamètre X d’un globule rouge est aléatoire, σ = 0,617, mais on ne connaît pas sa moyenne. On mesure le diamètre de 200 globules rouges d’un patient. On obtient un diamètre moyen x = 7,07µm. Si on mesure 200 autres globules, on aura une autre moyenne La moyenne de 200 globules est une variable aléatoire On a une distribution probabiliste pour la moyenne ⇒ La distribution de cette moyenne est la distribution d’échantillonnage Caroline Verhoeven MEDI-G1203 15 / 35 3. Distribution d’échantillonnage 1. Théorème central limite Théorème central limite pour σ connu Théorème 2 Soit X une variable aléatoire avec une distribution probabiliste de moyenne µ (inconnue) et de déviation standard σ (connue). La moyenne X des échantillons de X de taille N une distribution d’autant plus proche de N (µ,σ2 /N) que N est grand Remarque 3 Si la distribution de X est gaussienne, celle de X le sera aussi. Remarque 4 Si la distribution de X n’est pas trop éloignée de la normale, la distribution normale est une bonne approximation pour la distribution de X pour N ≥ 30 Caroline Verhoeven MEDI-G1203 16 / 35 3. Distribution d’échantillonnage 1. Théorème central limite Erreur standard de la moyenne σ On nomme σx = p l’erreur standard de la moyenne N Supposons que X ∼ N (0,1), distribution de X 1.5 2 N = 1 ⇒ X ∼ N (0, σN ) = N (0,1) 1.0 N = 4 ⇒ X ∼ N (0, 41 ) 0.5 -4 -2 0 1 N = 16 ⇒ X ∼ N (0, 16 ) 2 4 Caroline Verhoeven MEDI-G1203 17 / 35 3. Distribution d’échantillonnage 1. Théorème central limite Et pour σ inconnu ? L’exemple 1 n’est pas très réaliste : souvent on ne connaît pas σ Et maintenant ? Théorème 5 Soit X une variable aléatoire avec une distribution probabiliste de moyenne µ (inconnue) et de déviation standard σ (inconnue). Soit X la moyenne des échantillons de X de taille N, alors T= X −µ p s/ N a une distribution s’approchant d’autant mieux la loi de Student à N − 1 degrés de liberté, que N est grand La loi de Student ? Caroline Verhoeven MEDI-G1203 18 / 35 3. Distribution d’échantillonnage 1. Théorème central limite La loi de Student Loi de Student : distribution d’une variable continue qui dépend du degré de liberté ddl (ou df ) 0,4 0,3 N (0,1), ddl = 4 N (0,1), ddl = 14 0,2 ddl → ∞ 0,1 -4 -2 ⇒ Student → N (0,1) 2 4 Caroline Verhoeven MEDI-G1203 19 / 35 3. Distribution d’échantillonnage 1. Théorème central limite Table de Student Quantiles ddl 0, 6 0, 7 0, 8 0, 9 0,95 0.975 0.99 0.995 0.999 1 2 3 4 5 6 7 8 9 10 11 12 13 0.32 0.29 0.28 0.27 0.27 0.26 0.26 0.26 0.26 0.26 0.26 0.26 0.26 0.73 0.62 0.58 0.57 0.56 0.55 0.55 0.55 0.54 0.54 0.54 0.54 0.54 1.38 1.06 0.98 0.94 0.92 0.91 0.90 0.89 0.88 0.88 0.88 0.87 0.87 3.08 1.89 1.64 1.53 1.48 1.44 1.41 1.40 1.38 1.37 1.36 1.36 1.35 6.31 2.92 2.35 2.13 2.02 1.94 1.89 1.86 1.83 1.81 1.80 1.78 1.77 12.71 4.30 3.18 2.78 2.57 2.45 2.36 2.31 2.26 2.23 2.20 2.18 2.16 31.82 6.96 4.54 3.75 3.36 3.14 3.00 2.90 2.82 2.76 2.72 2.68 2.65 63.66 9.92 5.84 4.60 4.03 3.71 3.50 3.36 3.25 3.17 3.11 3.05 3.01 318.31 22.33 10.21 7.17 5.89 5.21 4.79 4.50 4.30 4.14 4.02 3.93 3.85 Caroline Verhoeven MEDI-G1203 20 / 35 3. Distribution d’échantillonnage 2. Intervalles de confiance Intervalle de confiance si σ connu : exemple Exemple 6 En 1991, 4017264 bébés sont nés seuls (pas jumeaux, triplés,. . .) aux Etats-Unis. On sait que la déviation standard σ = 573g pour la distribution de poids de cette population. On mesure le poids de N = 80 de ces bébés. La moyenne des poids pour ces 80 bébés : x = 3350g. Comment faire pour avoir une estimation du poids de la population de ces nouveaux-nés en laquelle j’ai confiance ? Caroline Verhoeven MEDI-G1203 21 / 35 3. Distribution d’échantillonnage 2. Intervalles de confiance Intervalle de confiance si σ connu : principe I Pour rappel : X ∼ N (µ,σ2x ) = N (µ,σ2 /N) ⇒ X −µ p ∼ N (0,1) σ/ N 0. 5 95% Le 97,5ème centile pour N (0,1) : 1,96 Ã ⇒ P −1,96 ≤ ! X −µ p ≤ 1,96 = 0,95 σ/ N −2 −1 1 2 X −µ p ≤ 1,96 σ/ N σ σ ⇔ X − 1,96 p ≤ µ ≤ X + 1,96 p −1,96 ≤ N N Caroline Verhoeven MEDI-G1203 22 / 35 3. Distribution d’échantillonnage 2. Intervalles de confiance Intervalle de confiance si σ connu : principe II On peut donc conclure que σ ¶ σ σ x − 1,96 p ;x + 1,96 p ¸ µ σ P X − 1,96 p ≤ µ ≤ X + 1,96 p = 0,95 N N L’intervalle · N N est un intervalle de confiance (IC) de 95% pour la moyenne Caroline Verhoeven MEDI-G1203 23 / 35 3. Distribution d’échantillonnage 2. Intervalles de confiance Intervalle de confiance si σ connu : signification Signification de · σ σ ¸ x − 1,96 p ;x + 1,96 p N N comme intervalle de confiance (IC) de 95% pour la moyenne Je suis confiant à 95% que la moyenne est dans cet intervalle Si je considère la moyenne de tous les échantillons de taille N, la moyenne µ sera dans 95% des cas dans l’IC µ Caroline Verhoeven MEDI-G1203 24 / 35 3. Distribution d’échantillonnage 2. Intervalles de confiance Intervalle de confiance si σ connu : calcul I · σ σ ¸ x − p ;x + p est un IC de 68% N N · ¸ σ σ σ σ x − 1,96 p ;x + 1,96 p est un IC de 95% N N¸ · x − 2,58 p ;x + 2,58 p est un IC de 99% N N 68% 95% 16% 16% -1 1 2,5% -1,96 Caroline Verhoeven 99% 2,5% 1,96 MEDI-G1203 0,5% -2,58 0,5% 2,58 25 / 35 3. Distribution d’échantillonnage 2. Intervalles de confiance Intervalle de confiance si σ connu : calcul II Si X ∼ N (µ,σ2 /N) : Général : l’IC de 1 − α pour la moyenne : · σ σ x − z1−α/2 p ;x + z1−α/2 p N N ¸ z1−α/2 : le 1 − α/2 quantile N (0,1) 1 − α/2 z1−α/2 Exemple : 1,96 est le 0,975ème quantile. Caroline Verhoeven MEDI-G1203 26 / 35 3. Distribution d’échantillonnage 2. Intervalles de confiance Intervalle de confiance si σ connu : résolution Exemple 6 Retournons à nos bébés. On a σ = 573g, un échantillon de N = 80 bébés avec x = 3350g Quel est l’IC de 90% ? · 573g 573g 3350g − 1,64 p ;3350g + 1,64 p 80 80 ¸ ≃ [3245g;3455g] Quel est l’IC de 95% ? 573g 573g 3350g − 1,96 p ;3350g + 1,96 p ≃ [3224g;3476g] 80 80 · ¸ Caroline Verhoeven MEDI-G1203 27 / 35 3. Distribution d’échantillonnage 2. Intervalles de confiance IC si σ connu : taille de l’échantillon Comment choisir N si on veut un IC d’une largeur précise ? · σ σ Largeur l de l’intervalle x − z1−α/2 p ;x + z1−α/2 p µ σ l = x + z1−α/2 p ⇒ p N N = 2z1−α/2 ³ ⇒ N = 2z1−α/2 N N ¸ : ¶ µ ¶ σ σ − x − z1−α/2 p = 2z1−α/2 p N N σ l σ ´2 l On arrondi vers le haut Caroline Verhoeven MEDI-G1203 28 / 35 3. Distribution d’échantillonnage 2. Intervalles de confiance IC si σ connu : taille de l’échantillon, exemple Exemple 6 Combien de bébés faut-il peser pour avoir un IC de 95% d’une largeur de 150g ? ¶ µ ³ σ ´2 573g 2 = 224,23 N = 2z0,975 = 2 · 1,96 l 150g On arrondi vers le haut ⇒ N = 225 L’IC de 95% sera alors donné par · 573g 573g ¸ ;3350g + 1,96 p ≃ [3275g;3425g] 3350g − 1,96 p 225 225 Caroline Verhoeven MEDI-G1203 29 / 35 3. Distribution d’échantillonnage 2. Intervalles de confiance Intervalle de confiance si σ inconnu L’IC de 1 − α pour la moyenne est : s · s x − t1−α/2,N −1 p ;x + t1−α/2,N −1 p N N ¸ On considère ici la déviation standard de l’échantillon s t1−α/2,N −1 : le quantile 1 − α/2 de t(df = N − 1) Si on veut un intervalle d’une largeur l précise, on prend : ³ N = 2t1−α/2,N −1 s ´2 l On arrondi vers le haut Caroline Verhoeven MEDI-G1203 30 / 35 3. Distribution d’échantillonnage 3. Intervalle de confiance pour une probabilité Exemple Exemple 7 Elections régionales bruxelloises de mai 2014. Sondage fait entre le 15 et le 20 novembre 2013 chez N = 703 résidents de la région bruxelloises. Résultat parti nj nj′ 159 22,6% 146 20,8% 86 12,2% 83 11,8% 75 10,7% Quels scores pensent obtenir ces partis en mai 2014, avec un taux de confiance de 95% Caroline Verhoeven MEDI-G1203 31 / 35 3. Distribution d’échantillonnage 3. Intervalle de confiance pour une probabilité Calcul On a un échantillon de N sujet Une proportion p des sujets se trouve dans une catégorie, et 1 − p dans une autre L’IC de 1 − α pour la probabilité est donné par p − z1−α/2 s p(1 − p) ,p + z1−α/2 N z1−α/2 le quantile 1 − α/2 de N (0,1) s p(1 − p) N Remarque 8 Il faut que N soit assez grand, c-à-d. Np ≥ 5 et N(1 − p) ≥ 5 Caroline Verhoeven MEDI-G1203 32 / 35 3. Distribution d’échantillonnage 3. Intervalle de confiance pour une probabilité Retour à l’exemple Exemple 7 Pour le MR N = 703 p= 159 = 0,226 703 1 − p = 0,774 z0,975 = 1,96 s (0,226)(0,774) ] 703 L’IC de 95% est donc s (0,226)(0,774) [0,226 − 1,96 ;0,226 + 1,96 703 ≃ [0,195;0,257] Caroline Verhoeven MEDI-G1203 33 / 35 3. Distribution d’échantillonnage 3. Intervalle de confiance pour une probabilité Calcul de la taille de l’échantillon Comment choisir N si on veut un intervalle d’une largeur précise ? largeur de l’IC de 1 − α : l = 2z1−α/2 ⇒ On a N= µ s 2z1−α/2 l p(1 − p) N ¶2 p(1 − p) On arrondi vers le haut. Caroline Verhoeven MEDI-G1203 34 / 35 3. Distribution d’échantillonnage 3. Intervalle de confiance pour une probabilité Calcul de la taille de l’échantillon Combien de résidents aurait-on du choisir si le MR voulait un intervalle de 95% de largeur 0,05 ? ⇒ On a 2 × 1,96 N= 0,05 µ ¶2 (0,226)(0,774) = 1075,18 → N = 1076 On arrondi vers le haut. Si on interroge 1076 personnes, on aura un intervalle de confiance de 95% : 0,226 − 1,96 s (0,226)(0,774) ;0,226 + 1,96 1076 ≃ [0,201;0,251] Caroline Verhoeven MEDI-G1203 s (0,226)(0,774) 1076 35 / 35