Probabilités et Biostatistique PCEM1 Pitié-Salpêtrière A. Mallet et V. Morice Cours 5 et 6 Statistiques descriptives Rappels et compléments (1) variable aléatoire: caractéristique observable, variable, sans anticipation expérience aléatoire: permet l’obtention d’une valeur (réalisation) types usuels de variables aléatoires: quantitatives: continues ou discrètes qualitatives: nominales ou ordinales Rappels et compléments (2) Définition de l’unité statistique:entité sur laquelle s’observe la variable aléatoire. Interprétation de la probabilité d’un événement aléatoire: valeur limite de la fréquence avec laquelle l’événement se réalise au cours d’un nombre croissant de répétitions de l’expérience. Rappels et compléments (3) la probabilité d’un événement aléatoire: est une fiction peut résulter d’une théorie pour l’approcher: répéter des expériences aléatoires les fréquences sont les contreparties expérimentales des probabilités Echantillon (1) 1. Echantillon d’unités statistiques n répétitions -> n unités statistiques concernées (sous population): constituent l’échantillon 2. Echantillon de valeurs de la variable étudiée X tirage au ‘hasard pur’ i-ème répétition -> résultat xi x1,x2,…….,xn: échantillon de valeurs de X Echantillon (2) 3. Echantillon d’une variable aléatoire X ensemble X1,X2,…….. Xn de n variables aléatoires, indépendantes entre elles, de même distribution que X un échantillon de valeurs de X est une réalisation de l’échantillon de X n s’appelle la taille de l’échantillon Echantillon (3) X premier échantillon de valeurs de X x’1 x’2 x’3 x’4 second échantillon de valeurs de X X1 X2 X3 réalisations de x4 réalisations de x3 réalisations de x2 réalisations de x1 X4 X1,X2,X3,X4 indépendantes entre elles Echantillon (3) X x1 x2 x3 x’1 x’2 x’3 x4 premier échantillon de valeurs de X première réalisation de X1,X2,X3,X4 x’4 second échantillon de valeurs de X seconde réalisation de X1,X2,X3,X4 X1 X2 X3 X4 échantillon de la variable X un échantillon de valeurs de X est une réalisation de l’échantillon de X Représentation des résultats variable qualitative Référence: répartition fréquences observées X modalité 1 X modalité 2 Répartition observée X modalité 3 Représentation des résultats variable qualitative 50 40 30 1 2 Est 20 Nord 10 0 1er trim. 3e trim. (variable à 5 modalités) 3 4 5 Représentation des résultats variable quantitative discrète Référence: répartition fréquences observées X X X valeur 1 valeur 2 valeur 3 Répartition observée ou histogramme en bâtons Représentation des résultats variable quantitative continue (1) 1,2 Référence: densité de probabilité Série2 (/m) 1 0,8 0,6 0,4 0,2 (m) 1,90 1,80 1,70 1,60 1,50 1,40 1,30 1,20 1,10 1,00 0,90 0,80 0,70 0,60 0,50 0 Représentation des résultats variable quantitative continue (2) 1,2 Référence: densité de probabilité (/m) 1 0,8 0,6 Série2 0,4 0,2 (m) 1,90 1,80 1,70 b 1,60 1,50 1,40 a 1,30 1,20 1,10 Pr(X∈[a b]) 1,00 0,90 0,80 0,70 0,60 0,50 0 Représentation des résultats variable quantitative continue (3) 1,2 Référence: densité de probabilité (/m) 1 0,8 0,6 H? Série2 0,4 0,2 (m) b-a 1,90 1,80 1,70 b 1,60 1,50 1,40 a 1,30 Proportion observée des xi∈[a b] 1,20 1,10 1,00 0,90 0,80 0,70 0,60 0,50 0 Représentation des résultats variable quantitative continue (4) 1,2 Référence: densité de probabilité (/m) 1 0,8 H = proportion des xi∈[a b] / (b-a) 0,6 Série2 0,4 0,2 (m) b-a 1,90 1,80 1,70 b 1,60 1,50 1,40 a 1,30 Proportion observée des xi∈[a b] 1,20 1,10 1,00 0,90 0,80 0,70 0,60 0,50 0 Représentation des résultats variable quantitative continue (5) 1,2 Référence: densité de probabilité (/m) 1 0,8 0,6 Série2 0,4 0,2 (m) 1,90 1,80 1,70 b 1,60 1,50 1,40 a 1,30 1,20 1,10 1,00 0,90 0,80 0,70 0,60 0,50 0 Représentation des résultats variable quantitative continue (6) 1,2 Référence: densité de probabilité Série2 (/m) 1 0,8 0,6 0,4 0,2 (m) 1,90 1,80 1,70 1,60 1,50 1,40 1,30 1,20 1,10 1,00 0,90 0,80 0,70 0,60 0,50 0 Représentation des résultats variable quantitative continue (7) 1,2 Référence: densité de probabilité Série2 (/m) 1 0,8 0,6 0,4 0,2 (m) 1,90 1,80 1,70 1,60 1,50 1,40 1,30 1,20 1,10 1,00 0,90 0,80 0,70 0,60 0,50 0 Représentation des résultats variable quantitative continue (8) 1,2 Référence: densité de probabilité Série2 (/m) 1 0,8 0,6 0,4 0,2 (m) •Réponse : HISTOGRAMME 1,90 1,80 1,70 1,60 1,50 1,40 1,30 1,20 1,10 1,00 0,90 0,80 0,70 0,60 0,50 0 Représentation des résultats variable quantitative continue (9) 1,2 Référence: densité de probabilité Sér i 2 (/m) 1 0,8 0,6 0,4 0,2 (m) •Réponse : HISTOGRAMME 1,90 1,80 1,70 1,60 1,50 1,40 1,30 1,20 1,10 1,00 0,90 0,80 0,70 0,60 0,50 0 Représentation simplifiée des résultats variables quantitatives Localisation des valeurs Médiane observée: valeur telle qu’il y ait autant de valeurs qui lui sont supérieures que de valeurs qui lui sont inférieures 1 n Moyenne observée: m = ∑ x i n i =1 Remarque: m est une réalisation de la n 1 variable aléatoire M n = n ∑ X i appelée i =1 variable aléatoire moyenne arithmétique construite sur un échantillon de taille n de X. Représentation simplifiée des résultats variables quantitatives Dispersion des valeurs: variance observée Écart type observé: 1 n 2 s = (x − m) ∑ i n - 1 i=1 2 s2 noté s Remarque: s2 est une réalisation de la variable aléatoire variance: n 1 2 S2n = (X − M ) ∑ i n n - 1 i=1 Reformulation de la moyenne observée (1) X variable aléatoire discrète finie à k valeurs possibles: val1, val2, …., valk (ex: jeu de dé) Toute valeur de l’échantillon de valeurs, xi , égale valj pour un j bien choisi. Alors: k n 1 n m = ∑ x i = ∑ j val j n i=1 j=1 n Reformulation de la moyenne observée (2) Exemple 1 m= (2+4+6+3+3+1+4+5) 8 x1=val2;….; x3=val6 ;…… n1=1,n2=1,n3=2,n4=2,n5=1,n6=1 m = 18 (1*1+1*2+2*3+2*4+1*5+1*6) Reformulation de la moyenne observée (3) Donc: k n 1 n m = ∑ x i = ∑ j val j n i=1 j=1 n Proche de : k ∑ val j=1 j Pr(X = val j ) Qui est l’espérance mathématique de X, E(X): µ ->synonymes Espérance mathématique Moyenne ‘vraie’ Moyenne théorique Ce résultat vaut pour toute variable aléatoire Reformulation de la variance observée De la même façon: la variance observée 1 n 2 2 s = ( x − m) ∑ i n - 1 i=1 approche k 2 (val − µ) Pr (X = val j ) ∑ j j=1 qui est la variance de X, E (X - µ) 2 : σ 2 -> synonymes variance variance ‘vraie’ variance théorique Ce résultat vaut pour toute variable aléatoire Cas d’une variable de Bernoulli (1) Variable très utilisée en médecine à la frontière qualitative-quantitative codage 0-1 des modalités E (X) = Pr (X=1) =π = probabilité (un individu présente la modalité 1) Interprétation de la moyenne observée n 1 1 x i = (0 + 1 + 0 + 0 + 1 + 1 + ...) = ∑ n i=1 n nombre de fois où X = 1 = proportion observée n m= Cas d’une variable de Bernoulli (2) la proportion observée, notée p, est une moyenne observée la proportion observée p approche E(X) donc approche π π pourra s’appeler proportion ‘vraie’ Cas d’une variable de Bernoulli (3) Rappel : m est une réalisation de Mn Si X est une variable de Bernoulli, Mn sera noté Pn et on parlera de variable aléatoire moyenne arithmétique proportion construite sur un échantillon de taille n Avec ces notations adaptées, p est une réalisation de Pn. Conclusion Ces premiers résultats (m approche E(X); p approche π) engagent à étudier les variables Mn et Pn. Objet de la suite. La variable aléatoire moyenne arithmétique Cours 6 Etude de la variable aléatoire moyenne arithmétique (Mn et Pn) Variable étudiée:X Remarque: M1=P1=X Exemple: la variable P2 ; elle repose sur: une variable de Bernoulli: X. Ici on choisit π=1/2 un échantillon de taille 2: X1,X2 X1 X2 P2 Probabilité 0 0 ½(0+0) = 0 1/4 0 1 ½(0+1) =1/2 1/4 1 0 ½(1+0) =1/2 1/4 1 1 ½(1+1) =1 1/4 [(1-π)2 en général] La variable aléatoire P2 (suite) Répartition si π=1/2 P2 P1 (X elle-même) 0 1 0 1/2 1 La variable aléatoire P2 (suite) Répartition si π=0,4 P2 P1 0 1 0 1/2 1 La variable aléatoire P2 (suite) En particulier: E(P2) = val1*Pr(P2=val1)+val2*Pr(P2=val2)+val3*Pr(P2=val3) = 0 * 1/4 + 1/2*1/2 =1/2=E(X) + 1*1/4 Généralement: =π var(P2)=E[(P2-1/2)2]=(0-1/2)2*1/4+ (1/2-1/2)2*1/2 +(1-1/2)2 *1=1/8 =1/2*1/4=1/2 var(X) Généralement: = 1/2 π(1-π) Propriété de Mn (donc de Pn) (2) Résultat général: E(M n ) = E(X) 1 var(M n ) = var(X ) n ; donc var( n M n ) = var (X) Attendu en fait car: 1 n 1 n 1 n E( ∑ X i ) = ∑ E (X i ) = ∑ E(X) = E(X) n i=1 n i=1 n i=1 1 n 1 n 1 n 1 var( ∑ X i ) = 2 ∑ var(X i ) = 2 ∑ var(X) = var(X ) n i=1 n i=1 n n i=1 Propriété de Mn (donc de Pn) (1) Habillage dans le cas d’une proportion Pn : E(Pn)=π 1 var(Pn ) = π(1 - π) n var(X) Une étude ambitieuse Etude simultanée des variables moyennes arithmétiques, Mn et Qn construites sur 2 variables aléatoires X et Y X: nombres entre 0 et 1 écrits sur des papiers contenus dans une urne Y: taille des adultes dans la population humaine n=1: étude pratique de M1 (X) et Q1 (Y) Constitution d’un échantillon de chaque variable Construction des histogrammes 1, 5 1, 4 1, 3 1, 2 1, 1 1 0, 9 0, 8 0, 7 0, 6 0, 5 0, 4 0, 3 0, 2 0, 1 0 -0 ,1 -0 ,2 -0 ,3 -0 ,4 -0 ,5 Histogramme de M1 (X) papiers 1 1,4 1,2 1 0,8 Série1 0,6 0,4 0,2 0 Histogramme de Q1 (Y) taille M1 1,2 1 0,8 Série1 0,6 0,4 0,2 0 -0,1 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2 2,1 2,2 2,3 2,4 2,5 n=1: histogrammes de M1 (X) et Q1 (Y) taille M1 papiers 1 1,2 1,6 1,4 1 1,2 0,8 1 0,8 Série1 Série1 0,6 0,6 0,4 0,4 0,2 0,2 0 1, 4 1, 5 1, 2 1, 3 1 1, 1 0, 9 0, 7 0, 8 0, 5 0, 6 0, 4 0, 2 0, 3 0 0, 1 -0 ,1 -0 ,2 -0 ,3 -0 ,4 -0 ,5 0 -0,1 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2 2,1 2,2 2,3 2,4 2,5 n=2: histogrammes de M2 et Q2 (*) papiers 2 taille M2 1,6 1,2 1,4 1 1,2 0,8 1 Série1 0,8 Série1 0,6 0,6 0,4 0,4 0,2 0,2 0 * en réalité de 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2 2,1 2,2 2,3 2,4 2,5 1, 5 1, 4 1, 3 1, 2 1 2 M 2 et 1, 1 0, 9 0, 8 0, 7 0, 6 0, 5 0, 4 0, 3 0, 2 0 0, 1 -0 ,1 -0 ,2 -0 ,3 -0,1 0 -0 ,4 -0 ,5 0 2 Q 2 , ramenés à moyennes observées 0,5 et 1,3 n=30: histogrammes de M30 et Q30 (*) papiers '30' taille: M'30' 1,6 1,2 1,4 1 1,2 0,8 1 Série1 0,8 Série1 0,6 0,6 0,4 0,4 0,2 0,2 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2 2,1 2,2 2,3 2,4 2,5 1, 5 1, 4 1, 3 1, 2 1 1, 1 0, 9 0, 8 0, 7 0, 6 0, 5 0, 4 0, 3 0, 2 0 0, 1 -0 ,1 -0 ,2 -0 ,3 -0,1 0 -0 ,4 -0 ,5 0 * en réalité de 30 M 2 et 30 Q 2 , ramenés à moyennes observées 0,5 et 1,3 1, 1, 4 4 1, 5 1, 5 1, 1, 3 3 1, 1, 2 2 1, 1, 1 1 1 1 0 0,,9 9 0 0,,8 8 0 0,,7 7 0 0,,6 6 0 0,,5 5 0 0,,4 4 0 0,,3 3 00,,2 2 00,,1 1 00 --00 , ,11 --00 , ,22 --00 , ,33 -0 ,4 -0 ,5 densité asymptotique papiers '30' 1,6 1,6 1,4 1,4 Histogramme de M30 1,2 1,2 11 0,8 0,8 Série1 Série1 0,6 0,6 0,4 0,4 0,2 0,2 00 Le théorème central limite*** (Laplace,Gauss) Pour toute variable quantitative, la distribution limite (lorsque n croit indéfiniment) de: M n − E(X) var(X) n E(Mn ) var(M n ) est la distribution d’une variable normale centrée réduite (N(0,1)) Le théorème central limite, version pratique (1) Lorsque n est ‘assez grand’, la variable M n − E(X) var(X) n a ‘à peu près’ une distribution d’une variable normale centrée réduite. est ‘à peu près’ distribuée selon une loi normale centrée réduite Le théorème central limite, version pratique (2) Lorsque n est ‘assez grand’ M n − E(X) var(X) n ~ à peu près N(0,1) var(X) ~ M n à peu près N(E(X), ) n Diverses distributions de Mn pour divers n ’assez grands’ divers n distribution de M2q distribution de M3q distribution de Mq E(X) Le théorème central limite, version pratique (3) Qu’est-ce qu’assez grand ? Trois cas. 1. X est une variable normale. Alors le théorème est vrai pour tout n 2. X n’est ni normale ni de Bernoulli. Alors on considère que l’approximation est valide si n>30 3. X est une variable de Bernoulli. Alors l’approximation est valide si nπ>5 et n(1-π)>5 Le théorème central limite, version pratique (4) Forme habillée du théorème dans ce dernier cas: Lorsque nπ>5 et n(1-π)>5, la variable Pn − π ~ à peu près N(0,1) π(1 - π) n Le rôle majeur de N(0,1) (1) vaut bien une convention: la convention uα Soit X distribuée N(0,1) Pour toute valeur α entre 0 et 1, uα est la valeur telle que Pr (X ∉[-u α u α ]) = α Le calcul de uα connaissant α, ou l’inverse, se fait à l’aide d’une table numérique Le rôle majeur de N(0,1) (2) loi normale centrée réduite 0,45 0,4 Aire α/2 Aire α/2 0,35 0,3 0,25 Série1 0,2 0,15 0,1 0,05 -uα 3 2, 8 2, 6 2, 4 uα 2 2, 2 1, 8 1, 6 1, 4 1 1, 2 -1 -0 ,8 -0 ,6 -0 ,4 -2 - 0, ,2 2 9E -1 5 0, 2 0, 4 0, 6 0, 8 -2 -1 ,8 -1 ,6 -1 ,4 -1 ,2 ,4 ,2 -2 -2 ,8 ,6 -2 -2 -3 0 Application du théorème central limite (1) Problème: déterminer [a b] tel que Pr (M n ∈ [a b]) = 1 - α pour α choisi (exemple 0,3) Un tel intervalle s’appelle INTERVALLE DE PARI pour la variable aléatoire Mn de niveau 1-α au risque α Application du théorème central limite (2) Solution: on suppose que les conditions d’application du théorème central limite s’appliquent Distribution de Mn Série1 σ(X) n a E(X) b Application du théorème central limite (3) Distribution de Mn Série1 a b E(X) Application du théorème central limite (4) Distribution de Mn Série1 a b E(X) Application du théorème central limite (5) Les solutions sont multiples: choisir [a b] centré en E(X) Æ solution unique Distribution de Mn E(X)-c Série1 E(X)+c a b E(X) Application du théorème central limite (6) Solution: on suppose que les conditions d’application du théorème central limite s’appliquent M n ∈ [E(X) - c E(X) + c] ⇔ M n − E(X) ∈[-c c] ⇔ M n − E(X) c −c ] ∈[ σ(X) σ(X) σ(X) n n n M n − E(X) −c c P( ∈[ ] ) = 1- α σ(X) σ(X) σ(X) n n n Application du théorème central limite (7) P( ~ N(0,1) M n − E(X) −c c ∈[ ] ) = 1- α σ(X) σ(X) σ(X) n n n [-uα uα ] σ(X) σ(X) IP1-α (M n ) = [ E(X) - u α E(X) + u α ] n n Pour une variable de Bernoulli IP1-α (Pn ) = [ π - u α nπ>5 et n(1-π)>5 π(1 - π) π(1 - π) π + uα ] n n n>30 Terminologie Généralisation Tout intervalle [a b] tel que Pr(X ∈[a b]) = 1 - α se nomme INTERVALLE DE PARI POUR X de niveau 1-α au risque α Site: http://www.jcu.edu/math/isep/Quincunx/Quincunx.html