Stéphane Radoykov CNAM 2010-2011 [email protected] best professor ever STA001 Cours / ED / Annales 1 CM ^ l-t çz^ùf-., O* cu-,ï ,,*, ,.(- u* cy,\ vx * T "/E A/ Crq .(, !' ry1,h-^ .ç Cæv>.t-.- , f-t'r, L .J ) r 'T r Ho /+^ a"nÇ €.rL, , Lku L .LI \Ël t d- æ t r , t rho. t {l ."rÀlfa,rl X-rnr r->fV{o,'t) \ /ùr.r r_ 5lr -- A t u. /J^ cclâ.^^^ ç; -11./\ X-nr s /f; \-) l-(--r .n.*= i ) , /' ,i L Lr-r it &rrt\i W-vn I |I I I |I ful=, X L) -\-; e-!*- ( - M(t ro) ctzia. . c 5u-, o, ' Ho, [1,,,*o 5/v! ù lts/dît , ç-, H" ç: ftn W= I X--o 5 I , LI r-> I tf""- T (n -t ) To- ç'+ $( ( qt{. \-) N (Ora7 'Yrn r Ld'- I iLr-q - Nt*^,f) lJ 1-) N(o/1) ç!g +a^ gf* t(- Y'(^-n) ) {.4=Jr,.^J a tto A,a lzu^. Lt 4 f,1,r..t r-> Âr to,< 4#q \.i "t^- Àr (^r.3c) e!.- F'- H. , [=*" hi,i *'[ i*-*. çr\Ji | J" ;Y"^*4 \i; .ïn: 'X lw I {;l u\..\ +h^ t= X-\.-) I 3 I 'f ÊJo .yu ê t l-- k Ê"- ' 'Yn : . n,l lwi'*,-J r ë-r/".;ti ttûr^ a 6t r:--r_ { ' {tu,A- c l-f,^ir o. : u x -.- 4-> xJ (tra ) (,y,rra,,^r$ I'-l ,t-rn frrfo,t).ri.r.r(.1.cui !r!int1zs,r ryn: nâO ro' ,2, (-,- n J S t+^ vI eL vo f( (*-,) S* r vz \< -t Y'(^-, 1 a- Û\^- >bJ o g--n\az'' - 2 C Lc"t ) 1l '^,-.* V*t6r L--r [r";....,. (n yr^rl ) f{'P=P" i -r-) ,\J I O/ 4 ) L:;n+ f J +, t-^- WLi p: t !*'D l-i" p+p_. F* - - 'uu' cr-{^cr.rr €rn c\-- 2 :t)h"* " p; tI = ( Xr- X"- u -n. (qn ) Corn vl,&{s ï -i"rr^ { A É .-. t I t c,-,-tÇ e ,A Hr, ry!1 or.,r,tb, +a 5*'- +J. : nL ù4L-r^ 1.. \-*v, 4n L() w\ v\/\ -It leO I -- ' l--, aL C-,rx- {'{,-;}tr-'K'>-. : a1 I L 4 -- >,*] '1J^r1 L +*t \lEc. L L' (or'r) eLw-- & ..lt/t _ .nt\ t) " (cra ) r*>1"* r[q-Tî" \1 Ctr I W,l g rH; 1 {"uuL- \-; N \Rr-F;;. , -"1_ J '1 p= ï 'Xn - -^ X, a.l N ta,4 ) .+\L >, wJ t h i "1" av'-Ta-O!'s-,'y ) X,,r-> v[ *n,f^) eJV Yr-,AJl*r,qr) ,:L,r'. n) 3/ i *-,.l,. . l- "t " I,-tr-{*n- *") L vt L€Î'zt h/Vt/') oonn. o(- "i ,L'a.,n tli U.ra.-t f^-,, A. 1-2 N,l lcl 4 ) t X. - I,- \i3-.tr-L' \i ''+ tnu \ 1r. 'hr,- **,_ '-E.T-loi- ' : în-*rt r,.-\\â * t" ,tÙ \ -"n Xn* =[ i-) N (Cra ) t" F ti V) â . h ,"-. fi eI-&\2 tvitrn,qlrt XrvtI..) f",.r,T.) ù g=Ç, 1 . t.,- Xr- (rrn-*r) L1 -tI (mn+"'; . $*r^t' fl- , T,- t. srErï1n l-l *^-*, ^, T(-^ + .,.u- z ) -n_ E LU.'*n- nn^r.: k-ir\ b âEl;a Ltffi 3 ,Q- 2 b'rjl."fi> a" .-L " +s; , + \, r1Z+A+, c,.,-+ ci- ' t )-) xL F(^n- ^, \r- a) N(nnr, v. -i-) v4?.= 1-r l+o I t H,. è t*,* t+ r. '*n + _?vL -2 ZL 4..L (,! {^ (b 4: t3îv1 GL F) (*rr.,.1gn Ç, \i\l \ - F. - F. .4- i-*," n ^. ( p..,- P. cU ) I la-tnl - Frla-F,) ^"^ Z fr1'v 1tV l",r) ^r'- n-P"={^{r!wW I el- Fr rrt -'L- È, /ù / ç'z.J. ( ,,.-.J- ,. 'Ac..^t1 Ua*, ) = ?.. P,* F^- U. f (^^- a, n.-. ) S'L €^^ >.LJ '\J^ + I r' |l,- F -Z ), .'l = t a />è L, à- : ù 6 c ) P. .- 1-2 N ( c' r, \Ft,-fl15' t/' ^ P= LÙ= 4n ln * +1r fin1 r: la ^t w - Fa €, l, ^' vq";. -+ l, *j 4 STA001 16/10/10 Chapitre 1 : Espaces probabilisés Stéphane Radoykov oct. 2010 I) Expérience aléatoire C’est une expérience dont on ne peut pas savoir le résultat à l’avance. On appelle l’ensemble fondamental de tous les résultats possibles. On appelle un résultat possible dans . Ex : lancer de dés : 1, 2,3, 4,5, 6 On appelle évènement aléatoire une proposition qui peut se réaliser ou ne pas se réaliser. A l’issue de l’expérience, le résultat ω permet de savoir si l’évènement aléatoire est réalisé ou non. On identifie un évènement avec l’ensemble des résultats qui le réalisent. Ex : E : « il sort une face paire » : E : 2, 4, 6 o L’évènement est donc l’ensemble des résultats qui réalisent la proposition. II) Opérations sur les évènements On dit que Ω est l’évènement certain. Ex : « il sort 1, 2, 3, 4, 5, ou 6 ». L’évènement impossible est . Il n’est jamais réalisé. « E entraîne F » signifie que E est contenu dans F : E F = E F On appelle E le contraire de E. Si H=EetF, H E F . H est réalisé si et seulement si E et F se réalisent. o Rq : Si E F on dit que et E et F sont incompatibles. On parle aussi d’ensembles disjoints. Si G=EouF, G E F . G est réalisé si et seulement si l’un ou l’autre ou les 2 est réalisé. o Rq : Par convention, E F sera noté E F si on sait que E et F sont incompatibles. III) Espaces probabilisés 1. Définition On a . Soit a une famille d’évènements = famille d’ensembles = « tribu ». On appelle probabilité ou loi de probabilité sur une fonction définie sur a , à valeurs dans [0;1]. a [0,1] A P( A) P() 1 ( A, B) a 2 , P A B P( A) B( B) A B Interprétation avec les masses : P(A) = « masse » de A. La masse de Ω est 1. 2. Propriétés P(A+B)=P(A)+P(B) car A et B sont incompatibles. P A 1 P A o Dm : P P A P A 1 Si A B , alors P( A) P( B) . Cohérence avec la loi expérimentale des Grands Nombres : o Soit une expérience aléatoire répétée n fois. On note nE le nombre de fois ou l’évènement E se réalise. On appelle fréquence expérimentale de E le rapport ( E ) nE n . On observe que lorsque n augmente, ( E ) converge vers p P( E ) . Nombre de succès sur nombre d’essais. Rq : 5 n nE 1 (E) n o Si E et F sont incompatibles, ( E F ) ( E) ( F ) o ( E F ) ( E) ( F ) ( E F ) o () n n 1 o () 0 IV)Exemples de probabilités 1. Probabilité uniforme sur [0,1] Expérience aléatoire : choix d’un nombre au hasard dans l’intervalle [0,1]. [0,1] . Soit A : « obtenir un nombre inférieur à 0,5 ». P(A)=0,5. Probabilité d’obtenir un nombre compris entre a et b : P [a, b] b a . Remarque : P a a a 0 ! L’épaisseur d’un point, c’est 0. Mais tous les points sommés o E peuvent faire un cm. C’est le problème de l’infini. 2. Probabilité dans le cas fini On peut énumérer les résultats. 1 ,..., n =réunion incompatible de tous les évènements élémentaires. On note pi P i . p i 1 . Soit E quelconque. E i1 ,..., ik ... P . Cas particulier où on a une probabilité uniforme sur Ω. Toutes les probabilités p P( E ) P i1 i ik sont égales à 1/n. On a alors P( E ) k . n nombre de cas favorables à E nombre de cas possibles Exemple : soit une famille de 2 enfants, on compte le nombre de garçons. 0,1, 2 . E : obtenir 2 garçons. Ici la formule ne peut pas être appliquée, sinon ce serait 1/3 ! La probabilité n’est pas uniforme sur Ω ! Attention aux cas, parfois ce n’est pas du hasard. Il faut donc définir un ensemble fondamental tel que les résultats soient équiprobables. On distingue alors l’ainé des deux enfants. F , F , F , G , G, F , GG Alors : P(E)=1/4. Pour appliquer la formule ci-dessus il faut P( E ) apprendre à dénombrer correctement. V) Dénombrement Soit A un ensemble à n éléments distincts. A a1 ,..., an 1. Arrangement de p éléments de A Avec répétitions possibles Ce sont les p-uplets (notion de rangement, ordre) d’éléments de A, et certains peuvent être répétés. Ex : a5 , a7 , a3 , a7 , a1... On a p éléments, rangés. Si on inverse le 5 et le 7, c’est un autre arrangement ! Pour chaque rang on a donc n possibilités, de a1 à an . Il y a donc au total n p arrangements possibles. Ex : nombre de possibilités pour un cadenas à 4 chiffres A {0,1,...,9} il y a 104 arrangements. Sans répétitions possibles Ce sont donc les p-uplets d’éléments de A, mais sans qu’un même élément puisse être répété. On doit tirer p éléments. Le premier tirage on a n possibilités. Le 2ème (n-1). Le 3ème (n-2)… Et le dernier ? On en a tiré (p-1), et non p, car si on en avait tiré p on les aurait tous tirés. Donc pour le dernier élément le nombre de possibilités est (n-(p-1)). Au final il y a combien d’arrangements possibles donc ? Anp n (n 1) ... n ( p 1) . On multiplie donc en haut et en bas par (n p)! Comme cela au numérateur on continue avec (n-p), (n-p-1)…jusque 1, ce qui équivaut à n ! et en bas il reste (n p)! On choisit donc p éléments parmi n, le nombre d’arrangements est : A np n! (n p)! Ex : une course à pied compte n=30 participants. Combien y-a-t’il de podiums possibles ? Podium = (1,2,3). Il y en a A330 30 29 28 . 6 2. Permutations de n éléments de A On parle de permutation car on prend tous les éléments de A, et tous dans un certain ordre. Ce sont les arrangements sans répétition de tous les éléments de A. Il y en a A nn n ! Ex : nombre d’arrivées possibles des 30 participants = classement général ! 30! . 3. Combinaisons de p éléments de A Ce ne sont pas des p-uplets, ce sont des parties de A à p éléments, mais il n’y a PLUS D’ORDRE. Dans les arrangements il y a plus de possibilités, car non seulement on en tire p éléments parmi n possibles, mais en plus chaque ordre de ces p éléments compte. Ex : a2 , a5 , a7 ... est une combinaison faite de p éléments, il n’y a pas d’ordre. Si on voulait rajouter de l’ordre, c’est comme précédemment, p possibilités pour le premier, puis p-1, puis p-2… jusque 1. Donc à partir d’une combinaison de p éléments parmi n, on a p ! arrangements. On note alors Cnp le nombre de combinaisons de p éléments parmi n. On a alors toutes les combinaisons possibles. Ainsi, pour passer des combinaisons aux arrangements, pour être sûr d’avoir tous les arrangements, tous et tous une seule fois (pas de doublons), on écrit Cnp p ! Anp . Cnp A np n! (n 0)(n 1)...(n p 1) p ! (n p)! p ! 1.2.... p Ex : C103 10.9.8 1.2.3 Rq : Cnp Cnn p car le dénominateur ne change pas. Ex : choix des 3 premiers coureurs à l’arrivée sans spécifier l’ordre. (LOTO par exemple, idem). Il y en a C330 . 4. Exercice d’application 3 tickets gagnants sont tirés d’une urne de 100 tickets. Quelle est la probabilité de gagner pour une personne qui achète soit un seul ticket, soit 4 tickets. 1) J’achète un seul ticket. a. Première façon Intuitif, simple. 3/100. Ω=100 tickets à acheter. A « je gagne ». P(A)=3/100. Attention pour 4 tickets ce n’est pas 4*3/100 ! b. Deuxième façon 3 Je regarde vraiment le tirage. On tire 3 tickets parmi 100. Ω=ensemble des C100 . Donc P( A) ... . Et au 3 C100 numérateur ? Comment peut-on représenter un tirage favorable à mon gain ? M , x, x . La première case de ce tirage est mon ticket. Combien y-a-t’il de façons de créer ce tirage, SANS ORDRE, et bien 2 parmi les 99 que je 2 n’ai pas achetés, qui ne sont pas mon ticket : C99 2 C99 99.98 1.2 3 Donc P( A) 3 C100 100.99.98 1.2.3 100 c. Troisième façon Je choisis un ordre de tirage. On suppose que les 3 tickets ne sont pas tirés d’un coup. Même si cela ne joue en rien sur le gain. On va alors considérer l’ensemble des arrangements au dénominateur. Et au numérateur ? C’est toujours M , x, x , mais cette fois on multiplie par 3! pour avoir tous les arrangements possibles qui font que je gagne ! 2 C2 3! C99 3! 3 P( A) 99 3 3 A100 C100 3! 100 7 2) J’achète 4 tickets a. 1ère façon Ce que j’achète est aléatoire. J’achète 4 tickets aléatoirement. Le résultat du tirage est quelque par dans le ciel, 4 dans l’avenir. Ω=ensemble des façons d’acheter 4 tickets C100 . Ce sont les achats possibles de 4 tickets. Il est difficile de considérer l’évènement je gagne, car je peux gagner par un, deux, ou trois tickets ! On utilise alors la probabilité que je ne gagne pas avec mes 4 tickets, car P( A) 1 P A . Comment évaluer P A ? Comment puis-je tirer 4 tickets perdants lors de mon achat de tickets ? Il suffit d’en choisir 4 parmi les 97 qui ne sont pas gagnants. C4 P( A) 1 497 Attention on laisse le résultat comme cela on ne calcule pas !!! C100 b. 2ème façon 3 Cette fois Ω=ensemble des C100 tirages de 3 tickets gagnants. Cette fois mes tickets sont déjà achetés, je regarde les différents tirages. C3 P( A) 1 P A 1 396 C100 Les différents tirages = trois éléments. Comment fais-je pour perdre ? Il faut que les 3 éléments tirés soient choisis parmi les 96 tickets que je n’ai pas achetés !!! C'est-à-dire C396 . On trouve la même chose. 8 STA001 09/10/10 Introduction Cours jusqu’au 20 janvier, ED+Cours à chaque fois, jusque 12h30. Anciens supports de cours : http://www.agro-montpellier.fr/cnam-lr/statnet/cours.htm Examen 2h début février. Partiel le dernier samedi de décembre, ne compte pas pour l’examen. Statistique descriptive « Décrire les données » dans le but d’en dégager les caractéristiques essentielles. Pour cela, on utilise des représentations sous forme de tableaux, de graphiques ou d’indicateurs numériques (ex : médiane, mode, variance, écart-type…). Grande diversité de domaines d’application. Statistique inférentielle Estimer ou tester les paramètres d’un modèle au vu d’un échantillon (aléatoire) d’observations. On utilise le calcul de probabilités. Exemple : population des parisiens hommes. Paramètre m = taille moyenne de tous. Difficile d’accès. On tire donc un échantillon aléatoire, de taille n, et on en sort x , qui est la moyenne de taille de l’échantillon tiré. Si notre échantillon est bien aléatoire, on peut estimer que m x . « Inférentiel » = passer du particulier au général. Les paramètres qui vont surtout nous intéresser sont moyenne, variance, proportion. Il en existe bien d’autres. On utilise les probabilités pour la validité de l’estimation. On dit que x provient de la réalisation d’une variable aléatoire = choix d’un échantillon. Statistique descriptive univariée (=à une dimension) Vocabulaire. - Population : ensemble d’individus (ou unités statistiques) sur lesquels on observe des caractères (ou variables). - Variable statistique : - qualitative : ex : couleur des yeux (modalités : bleu, vert, marron) - quantitative : - discrète : que des valeurs entières (ou assimilées) - continue : elle peut prendre toutes les valeurs d’un intervalle (notion d’infini). - On note ( x1 , x2 ,..., xi ,..., xn ) les valeurs prises par la variable statistique (notée x ) pour chacun des n individus de la population. On regroupe les données dans un tableau, pour faire un graphique, et ensuite calculer les indicateurs numériques. Attention à prendre des classes d’amplitudes égales pour pouvoir comparer les densités et faire un histogramme ! (ça va tomber au partiel c’est sûr). Tableaux et graphiques. Variable discrète (ou qualitative): Ex : résultat du 1er tour de l’élection présidentielle de 2002. Variable statistique : parti pour lequel chaque individu a voté. C’est une variable qualitative. Chaque effectif rapporté à l’effectif total est noté fréquence. 5 5 j 1 j 1 Total = n = 29.494.003 votants. Remarque : n n j et f j 1 . On peut aussi bien représenter n j que f j , ce sera pareil, mais c’est plus facile de représenter de 0 à 1, mais aussi on peut comparer deux séries d’observations à des dates différentes. Ext Gauche Gauche plurielle Droite parlem Ext Droite Blancs/Nuls 2.973.293 9.245.292 10.808.147 5.471.739 995.532 Effectif n j 10.1% 31.3% 36.6% 18.6% 3.4% Fréquences des votes lors de l'élection présidentielle de 2002 0,4 0,35 0,3 Fréquence fj Fréquence Diagramme en bâtons : 0,25 0,2 0,15 0,1 0,05 0 Ext Gauche Gauche plurielle Droite parlem Ext Droite Blancs/Nuls Parti 9 Variable continue. Ex : enquête effectuée auprès de 100 personnes d’une entreprise : répartition des utilisateurs professionnels d’ordinateurs (= individu statistique) suivant la durée d’utilisation (=variable statistique). Classes: durée en h par mois Amplitude Effectifs Fréquences Densité аi ni fi fi аi [0 - 30[ [30 - 60[ [60 - 120[ [120 - 180[ 30 30 60 60 42 24 24 10 0,42 0,24 0,24 0,1 0,014 0,008 0,004 0,002 Classes Fréquences cumulées 0 30 60 120 180 0 0,42 0,66 0,9 1 Histogramme: 0,016 0,014 0,012 0,01 fi/ai Histogramme : Les deux dernières classes sont deux fois plus grandes en amplitude. Donc même si les classes 2 et 3 ont même fréquence, la classe 2 est plus dense. On se ramène donc à une unité de 1h en divisant les fréquences par les amplitudes. Et là on peut comparer. On peut remarquer que la surface des rectangles correspond à la fréquence. En abscisse on met la variable statistique. Somme des fréquences = somme des surfaces = 1. . 0,008 0,006 0,004 0,002 0 [0;30[ [30;60[ [60;120[ [120;180[ Durée d'utilisation (h) Courbe des Fréquences cumulées 1,2 1 0,8 Fréquence Courbe des fréquences cumulées : c’est très important pour déterminer graphiquement médiane et écart-type. 42% utilisent moins de 30h, 66% moins de 60h. La fonction représentée est donc : pourcentage d’utilisateurs qui restent moins de x heures devant l’ordinateur. C’est la fonction fréquences cumulées. On détermine la médiane graphiquement en regardant à l’ordonnée 0,5. On dit que c’est l’antécédent de 0,5. Ici environ 40. 0,6 0,4 0,2 0 0 20 40 60 80 100 120 140 160 180 200 Durée d'utilisation Indicateurs numériques. Indicateurs de tendance centrale. - Mode : c’est la valeur de la variable la plus fréquente. C’est le plus grand pic si on a un diagramme en bâtons. - Médiane Me : c’est la valeur de la variable qui partage en deux la population rangée en ordre croissant. 1 n - Moyenne : x xi n i 1 On peut déterminer la médiane graphiquement, ou on peut faire une extrapolation linéaire. On considère alors que sur ce segment, la fonction est une droite. Soit on détermine a et b de ax+b et on calcule pour y=0.5, soit astuce : se placer dans la ligne du tableau correspondant à la fréquence cumulée qui nous intéresse. Ici, 0.5 est entre 0.42 et 0.66. Donc la médiane se situe entre 30 et 40. On considère alors que les proportions des intervalles dans cette ligne du tableau sont constantes. Je m’explique : (Me-30)/(60-30) = (0.5-0.42)/(0.66-0.42). Si 0.5 était le milieu de [0,42;0,66], alors la médiane serait le milieu de [30;60]. On trouve donc 40. Comment déterminer la moyenne à partir de ce tableau ? On n’a pas toutes les valeurs brutes, donc on doit faire une approximation, et considérer le centre des classes à chaque fois. 15, 45, 90, 150. Le centre des classes est noté ci . La formule de la moyenne devient alors x fi ci . Ceci car on considère que toutes les valeurs de la classe i sont égales au centre, donc on multiplie par exemple 15 par 42 individus, /100 au total, et idem à chaque fois. x =15x0.42+45x0.24… 10 La médiane est un indicateur robuste, non influencé par la valeur de l’observation. Ex distribution des salaires, un très gros salaire va beaucoup décaler la moyenne alors que le salaire « moyen » ne va pas réellement changer. La moyenne n’est pas robuste. Indicateurs de dispersion. - Etendue : c’est la différence entre la plus grande et la plus petite des valeurs observées. - Intervalle interquartile : [Q1;Q3]. Quartile 1 : valeur de la variable telle que 25% des individus sont endessous. Q1 et Q3 sont les 1er et 3ème quartiles. De manière analogue à Me (=2ème quartile), Q1 et Q3 partagent la population en quarts. Exemple : ici 0.25 : se situe dans le tableau entre 0 et 30h. (Q1-30)/(300)=(0,25-0)/(0,42-0). Q1 =17,9h et Q3 = 82,5h. L’intervalle interquartile est (Q3-Q1). Quand cet intervalle est large, on dit que la distribution est dispersée. S’il est étroit, on dit qu’elle est concentrée. - Variance, écart-type. On veut définir un écart moyen. 1 o 1ère idée : on regarde l’écart par rapport à la moyenne xi x : ( xi x) . Mais ça vaut zéro ! Si n on avait regardé par rapport à la médiane n’aurait pas été zéro. Tous les écarts positifs sont compensés par les écarts négatifs. Ce n’est pas bon. o 2ème idée : On veut un écart moyen, peu importe à gauche ou à droite. On définit alors une définition très précise, l’écart absolu moyen, très bon indicateur pour la statistique descriptive : 1 xi x Ce n’est pas intéressant en probabilités, car il nous faut la propriété n V(X+Y)=V(X)+V(Y), qu’on n’a pas avec ceci. D’où : o 3ème idée : on va calculer la moyenne des carrés des écarts. Et là avec X et Y indépendants on peut sommer les variances. n 2 2 1 n 1 1 2x Variance = 2 ( xi x)2 ( xi 2 2 xi x x )2 xi 2 (nx ) xi n i 1 n n n i 1 xi donc x n x Or x i n 2 2 1 2 xi 2 x 2 x n 1 2 xi 2 x moyenne des carrés - carré de la moyenne n 2 Comment calculer la variance approchée à partir du tableau de données d’une variable continue ? On prend les centres de classes. On prend la moyenne des carrés des centres de classe. 2 fi ci 2 x où x fi ci 2 Attention, comme pour la moyenne, une grande valeur chamboule tout, et en plus on est avec des carrés. Variance encore moins robuste que moyenne. Pour avoir quelque chose de cohérent au niveau unités, on fait une racine, que l’on appelle écart type : 2 Le Box-Plot = boîte à moustaches C’est une représentation compacte de la distribution d’une variable statistique. On visualise graphiquement l’écart interquartile. On trace un axe, on place Q1 et Q3, et Me entre les deux. [Q1 ;Q3] est l’intervalle interquartile. Q3Q1 est l’écart interquartile. On calcule alors les positions : A Q1 1,5(Q3 Q1 ) et B Q3 1,5(Q3 Q1 ) . Si on considère que la distribution est classique, gaussienne, en cloche, on a 99% de chances que la distribution se situe entre A et B. On ne dessine en réalité que A’ et B’, qui sont les premières valeurs rencontrées dans cet intervalle A-B, aussi bien à droite qu’à gauche. Les valeurs extrêmes en dehors de A et B sont placées par des petites croix sur l’axe. Application : distribution des salaires annuels par sexe dans le secteur privé et semi-public (2003). Comparer les 2 distributions. D3 : valeur telle que 30% des observations avant, et 70% derrière. On parle de déciles. D1 D2 D3 D4 D5 D6 D7 D8 D9 Femmes 11108 12327 13390 14551 15981 17731 19942 23005 28895 Hommes 12208 13720 15099 16568 18290 20434 23454 28325 38245 11 Femmes : Q1=(D2+D3)/2=12858,5. Q3=(D7+D8)/2=21473,5. Ecart :8615€. Me :15981. A=-64. Aberrant, on met au salaire minimum, soit le SMIC en 2003. B=34396. Ici B’=B. On n’a pas la plus haute valeur de la distribution, et il y en a sûrement une dans ces eaux-là. Hommes : Q1=14410 ; Q3=25890, écart=11480. A=-2810, B=43110. En comparant les deux box plots, les hommes vont plus haut, leur médiane est plus élevée. C’est bien pour comparer. Diagramme Tige-Feuilles On étudie le règne des rois de France depuis Hugues Capet. Population : rois. Variable statistique = durée de règne. C’est une variable continue. On pourrait compter en heures, minutes… On va créer un diagramme où chaque case aura même hauteur et largeur. 1ère colonne = chiffre des dizaines. Ensuite à droite de la ligne, chaque chiffre correspond au chiffre des unités. On classe ainsi en même temps par ordre croissant. La première ligne correspond donc à tous ceux qui ont régné moins de 10 ans. Ce diagramme permet de visualiser à la fois l’allure de la répartition (comme un diagramme en bâtons sur le côté) et les valeurs numériques des observations (ordonnées). 0 1 2 3 4 5 6 7 1 0 1 2 2 9 2 2 2 3 3 3 4 2 5 3 6 4 9 9 4 6 9 5 5 5 6 7 8 9 9 9 8 2 On peut mettre ce que l’on veut comme catégorie dans la première colonne, par exemple des temps de règne de 5 ans en 5 ans, mais il est impératif que les amplitudes soient égales !!! Aussi, penser à bien aligner les items, sinon c’est trompeur. En anglais on appelle ce diagramme Stem and Leaf. Résultat : 35 rois. Le 18ème roi, c’est dans l’ordre, donne la médiane soit 19 ans de règne. C’est stylé avec l’ordre. Fin de STA001.01 12 STA001 23/10/10 Chapitre 2 : Probabilités conditionnelles Stéphane Radoykov nov. 2010 I. Définition d’une probabilité conditionnelle. Soit un espace probabilisé associé à une expérience aléatoire. On veut examiner comment une information permet de modifier la loi de probabilité P. Pour nous, cette information est un évènement A qui est réalisé. On s’intéresse alors à un évènement B quelconque. Ex :tirage d’une carte dans un jeu de 32 cartes. 2 évènements : A : la carte est rouge, B :la carte est un 8 coeurs 8 coeurs cœur. P( B) 1/ 2 . On note par 1/ 4 . On note B sachant A réalisé : P( B / A) 32 cartes 16 rouges ailleurs que B entraine A. Définition générale ? P( B / A) P A B P( A) Remarques : Il faut que P(A) soit différente de 0 ! C’est logique, on en peut rechercher sachant A si A est impossible. Interprétation avec les masses. A réalisé, donc on se place à gauche. Maintenant quelle est la nouvelle probabilité de réaliser B ? Je suis à gauche, donc je prends bien A B par rapport à la masse de A. P( X / A) est une nouvelle loi de probabilité sur Ω. Tous les évènements sont touchés, influencés par A. On dit que c’est une loi sur A. La masse à droite devient nulle. o Ex : P B C A P( B / A) P(C / A) P( B C / A) . Axiome des probabilités composées = formule de Bayes. P A B P( A) P( B / A) P( B) P( A / B) On peut généraliser à n évènements : P( A1 A2 ... An ) P( A1 ) P( A2 / A1 ) P( A3 / A1 A2 ) ... P( An / A1 A2 ... An1 ) Exemple : on tire successivement 3 élèves sans remise dans une classe de 16 élèves, 12 garçons et 4 filles. Quelle est la probabilité d’obtenir 3 garçons ? A1 :1er tirage donne garçon. A2 : 2ème donne garçon. A3 : 3ème donne garçon. 12 11 10 P( A1 A2 A3 ) P( A1 ) P( A2 / A1 ) P( A3 / A1 A2 ) . 16 15 14 12.11.10 3 C 1.2.3 Autre façon : Ω=ensemble des tirages de 3 personnes parmi 16. Donc : P 12 3 C16 16.15.14 1.2.3 Autre façon : on prend l’ensemble des arrangements cette fois, donc on doit obtenir un triplet GGG. Mais les A3 différents tirages doivent être indépendants ! P 12 . 3 A16 Question supplémentaire : que vaut A2 ? On ne sait pas ce qui s’est passé au premier tirage. Première idée : quoiqu’il arrive au premier tirage, il reste 15 élèves, mais ce n’est pas sur 15 ! C’est intuitif : 12/16. Le tirage des 3 personnes, et bien à chaque fois la probabilité est de 12/16, pour A1, A2, et A3 ! Soit Ω l’ensemble des 3 3 tirages, A16 . Ne jamais oublier : A2 ( A2 A1 ) ( A2 A1 ) Donc : 13 P( A2 ) P( A1 ) P( A2 / A1 ) P( A1 ) P( A2 / A1 ) 12 11 4 12 12 11 4 12 16 15 16 15 16 15 16 Encore une autre façon de faire, avec un arbre, au premier niveau A1 et son contraire, puis à chaque branche A2 et son contraire, etc… On obtient ainsi A2 grâce à la dernière formule encadrée. II. Indépendance. B est dit indépendant de A si la connaissance de A (=A est réalisé) ne modifie pas la probabilité de réalisation de B, c'est-à-dire P( B / A) P( B) . Et l’inverse est vrai aussi. A n’influe pas sur B. Dans ce cas, on a P( A B) P( A) P( B) . Ex : tirage d’une carte dans un jeu de 32 cartes. A= tirer une carte rouge. B=tirer un as. o P(B)=4/32=1/8. P(B/A)=2as/16rouges=1/8. o Donc la probabilité de tomber sur un as est la même que la carte soit rouge ou non. Tirer rouge n’a pas influencé tirer as. On peut donc dire que A et B sont indépendants si la probabilité de A B se calcule par le produit des probabilités P(A) par P(B). Remarque : souvent, on sait à l’avance que deux évènements sont indépendants car ils sont liés à deux expériences aléatoires qui n’ont rien à voir l’une avec l’autre, par exemple le premier dé amène une face paire et le 2ème dé amène un 5. Aucune influence du premier dé sur le deuxième. Parfois en revanche, seul le calcul permet de savoir si deux évènements sont indépendants. Remarque : ne pas confondre indépendance et incompatibilité. Des évènements incompatibles sont liés à des ensembles disjoints. Cela signifie que la probabilité d’ A B est nulle. Par exemple A : il lit l’humanité, B : il vote à droite. Et indépendants ? NON, au contraire ! ;). On pourrait même dire que ces 2 évènements incompatibles sont très dépendants. III. Le problème de Bayes. On a une partition ( A1 ,..., An ) . Ω est la réunion incompatible des Ai . Le mot partition signifie que l’union de tous ces évènements forme Ω. Et que tous ces évènements sont incompatibles. B est un évènement quelconque, susceptible d’arriver sous chacune des situations A1 à An. Schéma : Problème : on observe un évènement B susceptible de se réaliser sous chacune des observations A1, A2, …, An. On connait les P(Ai), et les P(B/Ai). Ayant observé B, on souhaite calculer P(Aj/B), c'est-à-dire la probabilité a posteriori, après avoir observé B. P( Aj B) P( Aj ) P( B / A j ) . Le numérateur est connu. Calcul de P(B) ? P( Aj / B) P( B) P( B) P( B) P B A1 P B A2 ... P B An P( A1 ) P( B / A1 )....... Formule générale : P( Aj / B) P( Aj ) P( B / Aj ) n P( A ) P( B / A ) i 1 i i Exemple : soit une population de 48% hommes et 52% femmes. La probabilité qu’un homme soit daltonien est de 5%. La probabilité qu’une femme soit daltonienne est de 0,25%. Un individu est choisi au hasard, on constate qu’il est daltonien. Quelle est la probabilité qu’il soit un homme ? On note H : l’individu est un homme, F si c’est une femme, et D si l’individu est daltonien. 14 Je connais : P(H)=0,48 – P(F)=0,52 – P(D/H)=0,05 – P(D/F)=0,0025. On observe l’évènement D, je veux revenir à la probabilité d’avoir un homme. Donc je cherche P(H/D). P ( H D) P ( H ) P ( D / H ) . Si on reconnait un problème de Bayes on applique la formule encadrée, P ( D) P ( D) mais en général on refait les choses de cette manière. P ( D) P ( D H ) P ( D F ) P ( H ) P ( D / H ) P ( F ) P ( D / F ) P( D) 0, 48.0, 05 0,52.0, 0025 0, 0253 0, 48.0, 05 Donc : P( H / D) 0,948 0, 00253 P ( H / D) P( D / H ) Remarque : P( H / D) P( H ) P ( D) On part de la probabilité d’être un homme, et on multiplie par un quotient qui est le rapport entre la probabilité d’être daltonien quand on est homme et la probabilité d’être daltonien tout court. . Fin du cours 3 du 23/10/10. 15 STA001 Chapitre 3 : Variables aléatoires Cours du 30/10/10 - Stéphane Radoykov nov. 2010 I. Notion de variable aléatoire. Variable aléatoire : grandeur qui varie suivant les résultats d’une expérience. C’est une application X, de Ω dans E. On appelle E l’ensemble des valeurs possibles de X. Si E est un ensemble fini ou infini dénombrable (infini des entiers), on dit que X est une variable discrète. Par exemple, nombre de frères et sœurs d’un individu. Si E est un intervalle, ou ℝ tout entier, alors X est dite continue. Par exemple, taille ou poids d’un individu. Exemple, on lance deux dés, et on appelle X la somme de ces deux dés. (1,1)(1, 2)...(6, 6) 36 cas 3 P( X 4) (1,3)(2, 2)(3,1) 36 E 2,3,...,12 II. Variable aléatoire discrète. On a X. E peut être énuméré E x1 , x2 ,..., xn . On note Pi P( X xi ) . On appelle loi de probabilité de X ou loi de X la donnée du tableau suivant : X x1 x2 … xn Pi P1 P2 … Pn Pi [0;1] On visualise la loi de X par un diagramme en bâtons, en abscisse la valeur de X, et Pi 1 P( E ) P xi en ordonnée sa probabilité respective. On peut toujours parler de mode. III. Variable aléatoire continue. On a X. E est un intervalle, ou ℝ tout entier. On caractérise la loi de X par une fonction appelée densité qui permet de visualiser toute probabilité associée à X de la façon suivante : le calcul de la probabilité correspond à un calcul de surface. Cette fonction densité f est quelconque, et la surface sous la courbe entre 2 abscisses a et b correspond à la probabilité que la variable X prenne une valeur entre a et b. Remarques : la fonction densité est une fonction positive et de surface totale = 1, car P( X ) 1 . De plus la probabilité en un point donné est égale à zéro ! C’est la surface d’un bâton. Ceci nous rappelle les lois continues en statistique descriptive, ou la probabilité pour une valeur précise de l’intervalle est nulle. Toute valeur dans une loi continue a une probabilité nulle. Si on regarde en deux abscisses c et d, avec la valeur de la densité autour de c plus grande, on dit que plus de chances dans un intervalle infinitésimal autour de c que autour de d. c lui-même n’est pas plus probable que d. P( X [c; c ] f (c) P( X [d ; d ] f (d ) Enfin, lorsque l’on a un échantillon avec beaucoup de valeurs statistiques, des milliers, on a un histogramme de b plus en plus fin, et la fonction qui épouse l’histogramme est la densité. Dans ce cas P( X [a; b]) f ( x)dx a IV. Espérance, variance, écart-type. 1) Espérance mathématique : On cherche à définir le centre de la loi de X, un peu comme une moyenne. a. Dans le cas discret, on prend la moyenne pondérée des valeurs possibles E ( X ) pi xi . b. Dans le cas continu, on fait la somme des x pondérée de la masse f(x)dx E ( X ) x f ( x)dx 2) Variance : On cherche ici un indicateur de dispersion. On définit la variance de X comme la moyenne des carrés des écarts par rapport à la moyenne de X. C’est aussi la moyenne des carrés de X – le carré de la moyenne de X. La variance est difficilement interprétable, mais est utilisée pour la comparaison avec d’autres distributions. 2 2 V ( X ) E X E ( X ) E X 2 E ( X ) 16 3) Ecart-type : ( X ) V ( X ) . Σ caractérise l’écart moyen par rapport à la moyenne. C’est l’écart le plus fréquent en quelque sorte. 4) Médiane : On définit la médiane comme la valeur de X telle que l’on a 50% de masse de chaque côté. P( X Me) P( X Me) 5) Remarques : a. Dans le cas discret ; on note l’espérance de X2 : E X 2 pi xi2 x b. Dans le cas continu : E X 2 2 f ( x)dx 6) Propriétés : a. E (aX b) aE ( X ) b o E (aX b) pi (axi b) a pi xi b pi aE ( X ) b o E (aX b) (aX b) f ( x)dx aE ( X ) b o Attention la densité de x n’est pas la même que celle de aX+b ! b. V (aX b) a 2V ( X ) 2 2 o V (aX b) E aX b E aX b E a 2 X E ( X ) a 2V ( X ) o On voit bien sur le diagramme, en ajoutant +b, on décale toute les observations, mais la dispersion ne change pas ! c. (aX b) a ( X ) d. E ( X1 X 2 ) E ( X1 ) E ( X 2 ) e. V ( X1 X 2 ) V ( X1 ) V ( X 2 ) à condition que les 2 évènements soient bien indépendants. 2 variables aléatoires sont indépendantes si elles sont non corrélées, si la connaissance de l’une ne modifie en rien l’autre. 7) Inégalité de Bienaymé-Tchebychev : Quelle que soit la loi de X, P X E ( X ) k ( x) 1 k2 Cas particulier pour k=2 : La probabilité que l’écart par rapport à l’espérance dépasse de 2 fois l’écart-type, est inférieure à ¼=25%. Cela veut dire que quelle que soit la loi de X, on ne peut pas avoir plus de 25% au-delà de 2 écarts-types. 17 STA001 Chapitre 4 : Lois usuelles Cours du 30/10/10 et du 06/11/10 - Stéphane Radoykov déc. 2010 I. Lois discrètes. 1. Loi de Bernouilli. Soit une expérience aléatoire qui ne peut donner que deux résultats, succès ou échec. On parle parfois d’alternative plutôt qu’expérience dans ce cas-là. On peut alors noter la variable aléatoire X, qui vaut 1 avec une probabilité p si le succès est réalisé, et qui vaut 0 sinon, avec une probabilité q=1-p. E ( X ) p 1 q 0 p V ( X ) p 12 q 02 p 2 p(1 p) pq On note alors X B(1, p) , ce qui veut dire que X suit une loi de Bernouilli de paramètre 1 et de probabilité p. 2. Loi Binomiale. (généralisation) Soit une suite de n alternatives indépendantes. Chaque alternative amène le succès avec une probabilité p, et donc l’échec avec une probabilité q. On s’intéresse à X, nombre de succès obtenus. X est à valeurs discrètes, dans 0,1,..., n . On va chercher P( X k ) . On imagine l’ensemble des alternatives comme ayant un ordre, SESEEESE… au final on veut k succès, n-k échecs. A chaque fois les probabilités se multiplient, et au final l’ordre des échecs et succès ne compte pas. On peut permuter. P( X k ) p k q nk . De plus il existe C kn configurations de k succès pour n essais, ayant tous même probabilité. On a des combinaisons de cases, qui donnent des configurations. On écrit finalement : P( X k ) Ckn p k q nk C'est-à-dire obtenir k succès dans un ordre quelconque. Il faut penser à regarder toutes les configurations possibles de k succès quand on a n alternatives = k parmi n. On dit que X suit une binomiale de paramètres n et p. X B(n, p) , n étant le nombre d’essais et p la probabilité à chaque fois. C’est le même symbole B pour une loi de Bernouilli et une binomiale. n n P( X k ) C k 0 k 0 k n p k q nk p q 1 On retrouve le binôme de Newton. n Pour l’espérance et la variance on ne va pas calculer comme des brutes ! E ( X ) np V ( X ) npq Démonstration. On décompose X en somme de variables de Bernouilli, avec X i 1 ou 0 en fonction de si la i-ème n alternative amène un succès ou un échec. Donc X X i . On dit que X compte le nombre de succès. i 1 E ( X ) E X i E X i p p ... p np i 1 i 1 n n n n V ( X ) V X i V X i npq car V ( X i ) pq, i i 1 i 1 Assez naturel, car les différentes Xi sont reliées à des alternatives indépendantes. Exemple : On tire n=8 individus avec remise (=indépendance !) dans une population. On note p la probabilité d’avoir 40 ans, de 25%. On s’intéresse à X= nombre d’individus qui dépassent 40 ans dans mes 8 tirages. X 0,...,8 . On reconnaît le schéma binomial : à chaque tirage est associée une alternative qui amène le succès « dépasser 40 ans » avec la probabilité p=0,25. Dans ce schéma, X compte le nombre de succès. Donc X B(8;0, 25) . P( X 3) C83 0, 253 0,755 . E( X ) np 8 0, 25 2 . Donc en moyenne 2 individus parmi 8 dépassent 40 ans. Le plus dur, c’est de reconnaître le schéma binomial ! X B(n, p) Si Y B(m, p) alors (X Y ) B(n m, p) X et Y indépendantes Deux évènements différents, indépendants, mais qui ont la même probabilité p ! 18 19 3. Loi de Poisson = loi des évènements rares. On dit que X suit une loi de Poisson de paramètre λ : X P( ) . Si X est à valeurs dans ℕ, alors on a la probabilité suivante : P( X k ) e k k! Si on veut représenter le diagramme en bâtons de la loi de Poisson P(3) on aura des bâtons avec un maximum en 3, et ça diminue de chaque côté, ça décroit jusque 0. La somme des bâtons vaut 1. On montre que : E( X ) V (X ) La loi de Poisson est dite loi des « évènements rares ». On la retrouve dans beaucoup de domaines. Th: Si n est grand (n 50) et p est faible ( p 10%), alors B(n, p) P(np) Ckn p k q n k e k k! n p 0 np Exemple : soit N le nombre de personnes se présentant aux urgences de paris 6 ce soir entre 22h et 23h. n=2 millions de parisiens. Succès : « le parisien se présente aux urgences ». et p=P(succès)=1/500000 (arbitraire). On reconnaît le schéma binomial, à chaque parisien est associée une alternative amenant le succès avec la probabilité p. Dans ce schéma N compte le nombre de succès. Donc N B(2.106 ,1 500000) . Cette loi binomiale s’approxime de manière quasi-parfaite par une loi de Poisson : P(np 4) . On a donc automatiquement le nombre moyen attendu ce soir-là :4. Remarque : quand np dépasse 18, la gaussienne est plus adaptée (vu plus tard). X P ( ) Th: Si Y P( ) alors X Y P X et Y sont indépendantes Par exemple, X représente les hommes, et Y les femmes, et X+Y toute la population qui ira aux urgences. Exemple : un voyageur emprunte le TGV une fois par semaine. Il évalue à 1/20 la probabilité de subir un retard durant son voyage. Sur une période de 50 semaines, quelle est la loi de X = nombre de retard subis ? On reconnaît le schéma binomial, à chaque semaine est associée une alternative : succès « subir un retard » avec une probabilité p=1/20. X compte le nombre de succès. n=50, p<10%, on peut approximer cette loi binomiale par une loi P(np=2,5). 20 21 22 23 II. Lois continues. 1. Loi Gaussienne = loi Normale = loi de Laplace/Gauss. 1 On dit que X N (m, ) si la densité de X s’écrit : f ( x) e 2 x m 2 2 . C’est une courbe en cloche. Loi normale réduite = N(0,1) En théorie c’est sur tout ℝ. Pour une loi normale quelconque, il y a 95% de chances qu’elle prenne des valeurs entre m 2 et m 2 soit 2 écarts-type autour de l’espérance. De même, il y a 99,7% de chances de se trouver dans 3 écarts-type autour de m. Plus tard on verra le test du Khi2 pour voir si c’est bien une gaussienne. E( X ) m V (X ) De plus, peut être plus ou moins grand, et donc la cloche soit très concentrée autour de m, soir élargie. Comment calculer des probabilités avec la gaussienne ? Il nous faut la courbe de densité. Et la surface entre 2 abscisses a et b donne la probabilité : S P X a; b . Problème : il n’y a pas de primitive pour cette fonction, on va donc utiliser des tables. X N (m, ) Th: Si alors U N (0,1) X m U Le caractère gaussien est maintenu : c’est une loi gaussienne centrée-réduite. C’est ce qu’on utlisera. m m m 2 1 1 1 1 1 E (U ) E X m E ( X ) 0 V (U ) V X m V X 2 V ( X ) 2 1 Utilisation : bm am X m bm am P a X b P U P Le calcul peut ensuite être effectué grâce aux tables de la loi N(0,1). Remarque : parfois on admet qu’au lieu de U on remplace directement dans l’expression par N(0,1) ; c'est-à-dire on remplace la variable aléatoire par son symbole. Th: Si X N (m, ) alors Y aX b N am b, a X 1 N (m1 , 1 ) Th: Si X 2 N (m2 , 2 ) alors X 1 X 2 N m1 m2 ; 12 22 X et X sont indépendantes 2 1 Ce sont les variances qui s’ajoutent ! 24 Table 1 : on donne u ; on obtient la surface = probabilité d’être x u 25 Table 2 : inverse de la table 1. On entre la surface, soit la probabilité, et elle nous donne u. ATTENTION. SI P<0.5 il faut écrire u négatif !!! 26 Lecture de table : Pour x=0 de chaque côté il y a 50% de probabilité. Table 1 : on donne u et la table donne p. Exemple : calculer P N (0,1) 1,37 . Remarque : pour les lois continues, pas d’importance entre < et . Pour la binomiale ce serait différent ! Ici, on regarde dans le colonne 1,3, et dans la ligne 0,07. On obtient 0,9147. Donc P N (0,1) 1,37 0,9147 . Table 2 : cette fois on entre p, et la table donne u. Exemple : déterminer u tq P N (0,1) u 0, 427 . On lit alors 0,1840. MAIS !!!!! P<50% ! Donc u 0,1840 . NA PAS SE TROMPER : En-dessous de 50%, on lit la colonne de gauche et la ligne du haut. Au-delà de 50% on lit la colonne de droite et la ligne du bas. Exemple : X N (1,75;0,10) qui est la loi de la taille des parisiens. On cherche la probabilité qu’un parisien mesure entre 1m80 et 1m85. Il faut centrer et réduire la loi. P P 1,80 X 1,85 1,80 1, 75 X 1, 75 1,85 1, 75 P P 0,10 0,10 0,10 P 0,5 N (0,1) 1 P P N (0,1) 1 P N (0,1) 0,5 P 0,8413 0, 6915 0,1498 15% 27 2. Loi du Khi-Deux. 2 Soient U1 ,U 2 ,...,U n n variables aléatoires gaussiennes centrées réduites et indépendantes. On définit alors : n On dit que U i2 suit une loi du Khi-Deux à n degrés de liberté. On la note χ2(n). i 1 Aspect de la loi : Espérance : n Variance : 2n X 1 2 ( n) Th: Si X 2 2 ( p) alors X 1 X 2 2 (n p) X et X sont idépendantes 2 1 28 29 30 3. Loi de Student. U N (0,1) U Soit X 2 (n) et T . On dit que T T (n) . T suit une loi de Student à n degré de liberté. X U et X indépendantes N Ci-dessus, X est dit normalisé. La densité de la loi de Student est une courbe en cloche, centrée en 0 mais plus dispersée que la loi normale. Lorsque n augmente, T(n) se rapproche de la courbe normale. Remarque : ci-dessous k correspond à n. Pour n 30, T (n) N (0,1) 31 32 4. Loi de Fisher-Snédécor. Cette loi est utilisée pour comparer 2 variances sur 2 populations différentes. X X 2 ( n) Si Y 2 ( p) alors F n ; F F (n, p) Y X et Y indépendantes p Le rapport de deux Khi-Deux normalisés par leur degré de liberté suit une loi de Fisher à 2 degrés de liberté. Densité de cette loi : Espérance : p p2 33 34 35 Début de la partie Statistiques à proprement parler. STA001 Chapitre 5 : L’échantillonnage Cours du 13/11/10 - Stéphane Radoykov déc. 2010 Notion d’inférence statistique. a) Introduction. Soit une population d’individus bien définie. On souhaite connaître des paramètres de cette population. Ex : taille des parisiens, de tous les parisiens. On appelle m la taille moyenne des parisiens, et 2 la variance de la taille des parisiens. Remarque : on effectue un tirage d’un individu dans la population. On note X la variable aléatoire associée. On pourrait connaître théoriquement la loi de X par un histogramme construit à partir de la population entière. L’ensemble des bâtonnets mis côte à côte donne la densité de la loi de X. Cette loi est appelée loi de la population. E( X ) m V ( X ) 2 On tire un échantillon représentatif pour estimer m, 2 , ou tout autre paramètre. A partir de cet échantillon, on va essayer de tirer des conclusions sur les paramètres. Pour ce faire on fait de l’estimation, des tests statistiques. I. b) Echantillon. On obtient un échantillon représentatif en effectuant des tirages avec remise dans la population. X1 sera associée au premier tirage, Xn au n-ème tirage. Les Xi sont toutes de même loi qui est la loi de la population, et sont indépendantes, car les tirages se font avec remise. Dans le cas où la population est mal définie, par exemple si X est la population de journées de l’année où des malades arrivent à la Salpetrière un samedi entre 22h et 23h. On obtient un échantillon de la loi de X en répétant de manière indépendante n fois l’expérience aléatoire qui amène X. Définition : Un échantillon de la loi de X est X1 , X 2 ,..., X n où les Xi sont IID = « independant and identically distributed ». Ils sont indépendants et de même loi que X. On notera x1 , x2 ,..., xn la réalisation de l’échantillon aléatoire X1 , X 2 ,..., X n . En termes simples, petit x signifie l’échantillon qu’on a tiré, X signifie les échantillons avant le tirage. c) Inférence sur m et 2 Les paramètres m et 2 sont pour toute la population, x et s 2 pour les observations de l’échantillon. m N : taille de la population. 2 1 N N x m i 1 i 2 1 N x . i . x est la moyenne de l’échantillon, et il doit approcher m. 2 1 n 1 n 2 x s xi x i n i 1 n 1 i 1 2 s est la variance des observations de l’échantillon, et elle doit approcher 2 . Elle l’approchera d’autant mieux que l’échantillon est grand. x et s 2 sont en fait des réalisations des variables aléatoires : 2 1 1 . On va maintenant étudier les variables aléatoires X et S 2 . X X i et S 2 X X i n n 1 x II. Fluctuations de la moyenne d’échantillon. Soit X une variable aléatoire. On dispose d’un échantillon de la loi de X : X1, X2…, Xn = taille des parisiens avant de se mesurer, x1, x2 c’est une fois qu’ils sont mesurés. On s’intéresse à la moyenne de l’échantillon 1 n aléatoire X X i . n i 1 Quelle que soit la loi de X, V X n E X m 2 36 Loi des grands nombres : lorsque la taille de l’échantillon augmente, la moyenne de l’échantillon ne peut que converger vers la moyenne de la population. lim X m n Le Théorème Central Limite : Lorsque n est grand, n 30 , la loi de X peut être approchée : X N m, n Interprétation : on a la loi de X, aléatoire, avec densité quelconque, et une espérance m. Je tire un échantillon donné, sous forme de cloche, on observe une fluctuation de la moyenne de l’échantillon autour de l’espérance. La cloche est centrée sur m. La loi de X est gaussienne quelle que soit la loi de X (si n est grand). Quand n augmente, l’écart-type converge vers 0, la cloche devient pointue. Si X suit déjà une loi gaussienne, alors X N m, quelle que soit la taille de l’échantillon n. n Dans le cas où l’échantillon est tiré sans remise, on a : N m V X n 1 n E X m 2 La variance est multipliée par un coefficient d’exhaustivité. Fluctuations de la variance d’échantillon. 2 1 n On s’intéresse à S 2 Xi X . n 1 i 1 III. E S2 2 La variance de l’échantillon varie autour de la variance de la population. On rajoute toujours (n-1) à la variance de l’échantillon, pour être bien centré. Cela n’a aucune importance si n est grand. Si X N (m, ) , c'est-à-dire si on est dans le cas d’une population gaussienne, alors X est gaussienne aussi, et : n 1 S 2 2 2 n 1 X m Si X N (m, ) , X N m, , que l’on peut écrire N 0,1 . Mais n’est souvent pas connu, on a n n plutôt accès à s, donc on a également : X m T n 1 S n IV. Fluctuations d’une proportion. On s’intéresse à la proportion d’individus dans la population qui ont une certaine caractéristique, par exemple dépasser 40 ans ou avoir les yeux verts. On a toujours un échantillon de n personnes dans lequel on aura une certaine proportion F. On note F la proportion aléatoire calculée sur l’échantillon des individus qui ont la caractéristique. Ok on se rapproche, mais il nous faut une loi ! 37 Si n est suffisamment grand, alors on a la loi approchée : pq F N p, n Démonstration : on note Xi 1 ou 0 en si l’individu i a la caractéristique ou non. On définit alors F comme : n F X i 1 n i . C’est une fréquence. Au numérateur : nombre de fois où un individu est positif a la caractéristique = nombre d’individus qui l’ont. Par application du TCL : F N m, . n m E X i 1 p 0q p 2 E X i2 E X i p p 2 pq 2 pq Exercice exemple : on considère que la probabilité de voter à gauche est de 50%. Quelle est la probabilité qu’il y ait plus de 60% de votants à gauche sur un échantillon de 100 électeurs ? 0,5 0,5 Soit F : proportion d’électeurs de gauche dans l’échantillon. F p 0,5; 0, 05 . Avec un 100 échantillon de 100, on fluctue autour de 0,5, OK, avec un écart-type de 0,05. 95% de chances de se trouver entre 0,4 et 0,6 (2 écarts-type !). Ici on cherche la probabilité de dépasser 0,6. F 0,5 0, 6 0, 6 P( F 0, 6) P 2 P N (0,1) 2 0, 025 . Car 5% au-delà des 2 écarts-type, donc 2,5% 0, 05 0, 05 de chaque côté. V. Retour sur les théorèmes d’approximation. Si p est faible et n grand on approxime la B par une P. Si np>18 on passe à la loi normale. Et à partir de la Bernouilli, on peut également arriver à la normale si p n’est pas aux extrémités, c'est-à-dire entre 0,1 et 0,9, et n est toujours grand. Attention, quand on passe du discret à du continu il faut appliquer le correctif de continuité ! Remarque sur l’approximation d’une loi discrète par une loi continue : Si on souhaite calculer par exemple P(Sn 170) , on ne peut pas le faire strictement par P N (160;12,62) 170 , car cela donnerait 0. Et c’est vrai pour toute valeur exacte. On prend donc 0,5 au-dessus et 0,5 en-dessous, cela donne un rectangle. Srectangle P( Sn 170) 1 P( Sn 170) 170,5 Srectangle f ( x)dx P N (160;12, 62) 169,5;170,5 169,5 170,5 160 0,832 12, 62 169,5 160 0, 753 12, 62 Srectangle P N (0,1) 0,832 P N (0,1) 0, 753 0, 7967 0, 7734 0, 0233 PENSER A CE CORRECTIF DE CONTINUITE LORSQUE L’ON PASSE DE DISCRET A CONTINU. 38 L’approximation de la loi B(n,p) par la loi N np, npq est due à l’application du TCL. Rappel : Si X1 ,..., X n IID (indépendantes et de même loi), alors X N m, . n Il existe une deuxième forme qui concerne les sommes plutôt que les moyennes. X nX N nm, n i 1 i n . Xi vaut 1 si la i-ème alternative amène le succès, et 0 sinon. La somme des Xi de 1 à n suit B(n,p). n X i 1 i B n, p Par le TCL 2ème forme : n X i N nm, n i 1 où m E X i 1 p 0q p V X i pq n donc X i 1 i N np, npq . VI. Synthèse sur les échantillons gaussiens. On se place dans le cas d’une population gaussienne. X N m, . Soit X1 ,... X n où les X i N m, et les Xi sont indépendantes. Théorème 1 : est connu. X N m, n X m N 0,1 n Théorème 2 : est inconnu Dans ce cas on va utiliser S et non , et S est un estimateur de . X m T n 1 S n où 1 S n 1 X n i 1 i X 2 Théorème 3 : n 1 S 2 2 2 n 1 Théorème 4 : La moyenne X et la variance empirique S 2 sont indépendantes. C’est une caractéristique du cas gaussien. Il faut connaître ces résultats !! 39 Suite de la partie Statistiques à proprement parler. C’est le cœur de l’examen STA001 Chapitre 6 L’estimation Stéphane Radoykov déc. 2010 I. Notions d’estimation. Soit une population. On s’intéresse à une variable X telle que la loi de X est la loi de la population. X est appelée variable statistique si toute la population est connue, c'est-à-dire si on peut faire un histogramme, sinon si on estime on l’appelle variable aléatoire. On veut estimer des paramètres liés à cette loi, moyenne, variance, médiane, quartile… On note ce paramètre. On dispose d’informations sur la population et donc sur le paramètre estimé grâce à un échantillon X1 ,... X n . Définition : Un estimateur est une fonction de l’échantillon aléatoire X1 ,... X n qui doit « approcher » . C’est une variable aléatoire. On le note Tn h X1 ,... X n . C’est une fonction des X i . Exemple : si est E(X) c'est-à-dire la moyenne de la population, X est une variable aléatoire, qui doit approcher , c’est un estimateur de . Quelles sont les propriétés requises pour avoir un bon estimateur ? Convergent Sans biais Variance faible Convergent lim Tn . Ex : taille des individus : par la loi des grands nombres, on sait que plus l’échantillon grandit, n plus X tend vers m, l’écart-type diminue. Sans biais Tn est un estimateur dit « sans biais » si E Tn , c'est-à-dire si bien centré en . Exemple : variance de la population. Estimateur sans biais = S 2 =variance de l’échantillon, car l’espérance de la variance de l’échantillon est la variance de la population. S ne peut jamais être sans biais. Variance faible On mesure la précision d’un estimateur par sa variance. Plus elle est faible, plus précis est l’estimateur. La cloche devient pointue au lieu d’aplatie. Remarque : Tn h X1 ,... X n est un estimateur. La valeur prise par cet estimateur sur l’échantillon observé est l’estimation ˆ h x , x ,..., x . 1 2 n II. Estimation ponctuelle de la moyenne et de la variance d’une population. Population : X, m, 2 Echantillon : n, X , S 2 2 1 n 1 n 2 X Xi S X i X . Sur l’échantillon observé, on parle de x et non de X. n i 1 n 1 i 1 40 Taille Moyenne Variance Population N 1 N m Xi N i 1 1 N 2 2 X i m N i 1 Echantillon observé n 1 n X xi n i 1 2 1 n s2 xi x n 1 i 1 Proposition 1 : La moyenne X d’un échantillon aléatoire de taille n est un estimateur convergent, sans biais de m. Sa précision est donnée par sa variance (quelle que soit la loi) : V X 2 n . Proposition 2 : La variance S 2 d’un échantillon aléatoire de taille n est un estimateur convergent et sans biais de 2 . Dans le cas d’un échantillon gaussien, on montre que : V S 2 2 4 . n III. Estimation par intervalle d’une moyenne. But : donner une fourchette sur m et non plus une estimation ponctuelle de m. Pour y parvenir, on a besoin de la loi de l’estimateur (ici X ). On distingue 4 cas. EXAMEN : il faut savoir reconnaitre dans quel cas on se trouve. 1) Cas d’une population gaussienne a) connu , donc X m N 0,1 . X N m, . X est un estimateur de m. X N m, n n Il y a 95% de chances que X m 2 X m 2 n soit majorée par 2 n n . Il y a 95% de chances que la moyenne de l’échantillon . Ce qui donne 2 inégalités que l’on va ensuite ramener sur m. 2 X n X m 2 n 2 2 m X n n 2 2 ;X Il y a 95% de chances que l’intervalle aléatoire X contienne m. n n 2 2 ;x L’intervalle de confiance à 95% sur m est la réalisation de cet intervalle aléatoire : x n n 2 Parfois, on utilise la notation suivante : m x n b) inconnu X m T n 1 . S n 41 C’est la loi de Student, en cloche, on a t et –t. Ici le degré de confiance correspond au t tel que p, le plus souvent c’est p=95%. Le degré de confiance est souvent appelé 1 . t est lu dans la table de la loi de Student à n-1 degré de liberté. Il y a donc une probabilité égale à 1 que : t X X m t t S X mt S S n n n tS tS m X n n ts ts D’où l’intervalle de confiance : x ;x . Le paramètre t intervient, ce n’est pas -2 +2. Le petit x est là n n car c’est la réalisation de X qui est un intervalle aléatoire. c) Exemple On s’intéresse à la variable aléatoire X : « distance en km que peut parcourir un pneu d’une certaine marque avant usure ». On suppose que X N m, . Estimer m par intervalle, à 95% (même si pas précisé c’est toujours le cas à l’examen), à partir d’un échantillon de 16 pneus pour lequel on a observé x 22000km . s 1 16 xi x 16 1 i 1 2 2000km Quel est l’intervalle de confiance ? Il nous faut la loi de l’estimateur. X m X N m, N 0,1 . Mais n et sont inconnus, on introduit donc s qui est aléatoire. n n X m On utilise : T n 1 15 . On veut avoir 95%, donc de chaque côté de la cloche il y a 5%, aux S n extrémités sont –t et t. De chaque côté les petits bouts sont p/2, et nous on va entrer p dans la table, soit 5%, et on va obtenir t. En fait p= somme des 2 aires qu’on ne veut pas. On obtient t=2,131. X m 2,131 2,131 2,131 S X m 2,131 S S n n n X 2,131 S 2,131 S m X n n 2,131 s 2,131 s D’où l’intervalle de confiance sur m : x ;x . C’est la réalisation de l’intervalle aléatoire. n n m x 2,131 s 2000 22000 2,131 22000 1065,55km n 16 2) Cas d’une population quelconque Ici X suit une loi quelconque dans la population. On dispose d’un échantillon de la loi de X X1 ,... X n . X est un estimateur de m. Pour faire l’intervalle de confiance il nous faut la loi de X ! Pour avoir la loi de X , il faut faire l’hypothèse que l’échantillon est suffisamment grand (dépasse 30). n 30 . Le TCL peut alors s’appliquer : X N m, n 42 a) connu X m N 0,1 . On est alors dans le même cas que en 1)a). L’intervalle de confiance est alors : n ;xu x u n n Le u en question est le u obtenu dans la table, selon le pourcentage recherché. b) inconnu X m N 0,1 . Ici n est grand, on peut donc supposer S . S n’introduit pas une grande variabilité. S n On appelle degré de confiance 1 95% . est donc le risque, la probabilité de ne pas se trouver dans ce que l’on veut. Il y a une probabilité 1 que : u X m S S . D’où l’intervalle de confiance de niveau 1 pour n : u X u m X u S n n n s s ;xu x u n n Il y a 3 des 4 cas qui tombent sur la même forme, celle-ci-dessus. Il reste un cas, qui nécessite la loi de Student. Inutile de dire que c’est ce qui tombe à l’examen. C’est en fait la réalité, car n’est jamais connu. Et dans ce cas, soit on a un petit échantillon et on utilise la loi normale, soit c’est un grand échantillon et on va utiliser la Student. IV. Estimation par intervalle d’une variance. Hypothèse : on est dans le cas d’une population gaussienne. X N m, . S2 1 n Xi X n 1 i 1 2 . S 2 est un estimateur de 2 . Rappel : n 1 S 2 2 2 n 1 La loi du Khi-Deux : on a une courbe qui part de 0, fait une cloche, et ensuite tend vers 0. On a deux bornes a et b autour de la cloche, c’est entre ces deux bornes qu’on trouve 1 . a et b sont lus dans une table. Il y a une probabilité égale à 1 que : n 1 S 2 n 1 S 2 n 1 S 2 2 a b 2 b a n 1 S 2 n 1 S 2 2 L’intervalle aléatoire ; a une probabilité égale à 1 de contenir . b a L’intervalle de confiance de niveau 1 sur 2 est la réalisation de cet intervalle aléatoire : n 1 s 2 n 1 s 2 ; b a Exemple : estimer par intervalle dans l’exemple des pneus. 15S 2 2 15 . Dans la cloche on a 95%, et de chaque côté 2,5%. Les tables donnent un nombre a donné après 2 avoir entré la probabilité que l’on souhaite, l’aire couvrant tout ce qui se trouve entre 0 et a. Tout ce qui est a. Comme dans la table de la loi normale. 43 Les deux valeurs de probabilité à entrer dans la table sont 0,025 et 0,975, qui donnent a=6,262 et b=27,488. Il y a une probabilité égale à 95% que : 15S 2 6, 262 2 27, 488 2 15S 15S 2 2 27, 488 6, 262 D’où l’intervalle de confiance pour 2 : 15S 2 15S 2 ; 27, 488 6, 262 Remarque : pour le Khi-Deux, on peut se placer comme on veut dans la courbe pour placer la probabilité qui nous intéresse. Les 95%, on peut les mettre tout à gauche, tout à droite, ou sur la cloche, et laisser 2 morceaux de chaque côté. On avait s=2000. Donc : Pour 2 : 2,183.106 ;9,582.106 Pour : 1477;3090 V. Estimation par intervalle d’une proportion. Soit p la proportion des individus dans la population ayant une certaine caractéristique. On va prendre un échantillon de n éléments, avec une proportion aléatoire dedans égale à F. a) Estimation de p. F : proportion des individus ayant une certaine caractéristique, dans l’échantillon. F est une variable aléatoire. C’est un estimateur sans biais de p puisque F est centrée sur p, E(F)=p. b) Estimation par intervalle de p. pq Hypothèse (qui est toujours faite) : Si n est grand, n 30 , alors F N p, n Fp N 0,1 p 1 p n Comme n est grand, on suppose que cela ne change rien d’écrire : Fp N 0,1 . F 1 F n Comme d’habitude, la loi normale centrée réduite, le 1 se trouve au niveau de la cloche. Il y a une probabilité égale à 1 que : u Fp F 1 F n Nous on veut p ! u u F 1 F F u n F p u F 1 F n p F u F 1 F n F 1 F n 44 D’où l’intervalle de confiance de niveau 1 sur p : (f minuscule car c’est la réalisation) f u On note cela également : p f u f 1 f n ;f f 1 f n f 1 f n A.N. : Donner une fourchette sur la cote de popularité du premier ministre notée p. Sur un échantillon de taille 1000, on a observé 51% de personnes favorables au premier ministre. pˆ f 0,51 . Avec 1 95% , on obtient u=2. p 0,51 2 0,511 0,51 1000 0,51 0, 03 . Remarque : on peut chercher quelle est la taille n nécessaire pour connaître p à 1% près. On veut alors : 0,51 0, 49 0,51 0, 49 2 0, 01 4 n 9600 . n 0, 012 Attention, ceci est pour un F donné, c'est-à-dire pour un échantillon donné ! 45 STA001 Cours 8 Stéphane Radoykov, jan. 2011 Chapitre 7 : Les tests statistiques On va émettre des hypothèses sur des paramètres, et ensuite on va décider laquelle est la meilleure. I) Introduction : un exemple La durée de vie d’une ampoule fabriquée par un procédé traditionnel est une variable aléatoire gaussienne N(1000,100). Un ingénieur pense avoir amélioré le procédé de 50h. Il vient voir le directeur de fabrication avec un échantillon de 16 ampoules fabriquées par le nouveau procédé, dont la moyenne est de 1075h. Comment réfléchit le directeur de fabrication ? Dû au hasard ? Impossible ? Soit X la durée de vie d’une ampoule fabriquée par le nouveau procédé. X N m,100 . m n’est pas connu, et on a la même variabilité. H 0 : m 1000 H1 : m 1050 X N m; 100 / 16 25 . Si H0 est vraie, alors X N 1000, 25 . n Le directeur de fabrication calcule : sous l’ancien procédé, quelle est la proba d’obtenir 1075. X 1000 1075 1000 PH0 X 1075 P P N 0,1 3 1/1000 25 25 Il y a donc 1 chance sur 1000 d’obtenir 1075 avec l’ancien procédé, c’est donc que surement le procédé est mieux. Le directeur accepte H1, il rejette H0. 2ème étape : A partir de quelle valeur, la moyenne d’échantillon permet-elle de remettre en cause H0 ? On cherche la valeur K, sous H0, telle que : PH 0 X K 0, 05 X 1000 K 1000 P 0, 05 25 25 K 1000 1, 6449 (table 2 on entre 95%, bien lire en bas et à droite) 25 K=1041 On dispose donc de la règle de décision suivante : Si la moyenne observée est > 1041h, on rejette H0, sinon on la garde. On définit alors la région critique du teste W : W X 1041 II) Formalisation d’un test On suppose ici que X suit une loi normale m sigma, et on veut tester m=m0 contre m>m0. La région critique de ce test sera de la forme W X K . Décision Vérité H0 est vraie H0 est fausse GOOD H0 est acceptée Erreur de 2ème espèce ère GOOD H0 est rejetée Erreur de 1 espèce Erreur de première espèce : rejeter H0 et choisir H1, à tort. Le risque de première espèce est noté PH0 w Erreur de deuxième espèce : garder H0 à tort. Le risque de deuxième espèce est noté PH1 w Malheureusement, α et β varient en sens contraire. Si on décide de diminuer α, on décale la région critique vers la droite, on rejette moins H0, mais alors automatiquement β augmente. (cf schéma ci-dessous). 46 Optique de Neyman : On va alors fixer α, pour ne pas être trop téméraire. On limite souvent α à 5%. Ceci permet de déterminer K. On estime donc que on peut laisser augmenter β, on estime que laisser une occasion de s’améliorer est moins grave. Démarche générale d’un test : Choix de H0 et H1 Détermination de la variable de décision Détermination de la région critique Calcul de la valeur prise par la variable de décision sur l’échantillon Conclusion : rejet ou acceptation de H0 III) Tests usuels 1) Test d’une moyenne de population = espérance. H 0 : m m0 avec α fixé. H1 : m m0 a) Petits échantillons. On fait l’hypothèse que X N m, , c'est-à-dire que la population est gaussienne. On obtient u dans les tables selon là ou l’on rejette. Cf. ED. σ connu σ inconnu Variable de décision : X m0 n Sous H0, X m0 N 0,1 n X m0 Forme de W : W u . n Variable de décision : X m0 S n X m0 T n 1 S n X m0 Forme de W : W t S n Sous H0, 47 Exemple : Vous pensez que votre boulanger vous gruge. On prend un échantillon de n=16 pains. Poids moyen de x 499 g et écart-type s 2 g . H 0 : m 500 g H1 : m 500 g Soit X le poids d’un pain fabriqué par le boulanger. m=E(X) est le poids moyen d’un pain, et 2 la variance de X. On dispose d’un échantillon de 16 pains : X1 ,..., X16 . a) Variable de décision, car σ n’est pas connu : X 500 S n X 500 T n 1 15 S n c) Forme de W : ici on rejette à gauche, car c’est l’hypothèse sur H1. On veut 5% tout à gauche, on va donc entrer 10% dans la table de Student à 15 ddl. Ce qui donne t 1,753 . b) Sous H0, X 500 W 1, 753 S n d) Sur notre échantillon, on a observé x 499 g et s 2 g . D’où la variable de décision prend la valeur : 499 500 2 1, 753 2 16 On rejette H0. Si l’écart était faible on ne tomberait pas dans les valeurs interdites. Le boulanger ment. b) Grands échantillons. Donc X est gaussienne. Par le TCL on a également la normalité de X . σ connu : Idem à ce que l’on a déjà vu : X m0 Variable de décision : σ inconnu : Variable de décision : n Sous H0, X m0 N 0,1 n X m0 Forme de W : W u . n X m0 S n X m0 N 0,1 S n X m0 Forme de W : W u S n Sous H0, 48 2) Test d’une variance d’une population gaussienne. 2 2 H0 : 0 2 2 H1 : 0 Variable de décision : S 2 n 1 S 2 2 n 1 Sous H0, 2 0 n 1 S 2 Forme de W : W K On rejette à droite, on y met les 5%, puis on regarde dans la table. 2 0 Remarque : Cas d’un test bilatéral : H 0 : 2 02 2 2 H1 : 0 n 1 S 2 W K1 ou K 2 Cette fois on a deux bornes de rejet, avec à chaque fois de chaque côté. 2 2 0 Exemple : On veut vérifier la précision d’une machine qui fabrique des boulons de diamètre m. Le fabricant annonce un 2 1 n écart-type 0,1mm . Sur un échantillon n=25 boulons, on a constaté s 2 xi x 0, 016 . n 1 i 1 On va tester si le fabricant dit vrai. 2 2 H 0 : 0, 01 0, 010 2 H1 : 0, 010 Variable de décision : S 2 24S 2 Sous H0, 2 24 0, 010 On veut 5% tout à droite pour rejeter H0, donc cela fait 95% à gauche de la borne à trouver, on va donc entrer 0,95 dans la table du Khi-Deux, qui nous donne K 36, 415 . Donc : 24S 2 W 36, 415 S 2 0, 015 0, 010 Sur notre échantillon, on a obtenu 0,016, cela suffit pour rejeter, même si nous sommes juste derrière le seuil. 49 3) Test d’une proportion. Dans la population, on a une proportion p de personnes qui ont une certaine caractéristique. Dans notre échantillon aléatoire c’est F, et dans l’échantillon observé f. H 0 : p p0 H1 : p p0 Fp pq On a, et c’est toujours vrai, F N p, N 0,1 donc n F 1 F n F p0 Variable de décision : F 1 F F p0 Forme de W : W u n F 1 F F p0 n Sous H0, N 0,1 F 1 F n Exercice d’application : Sur 4000 naissances, on relève 2065 garçons. Tester l’hypothèse selon laquelle la probabilité d’être un garçon à la naissance est de ½. Soit p la probabilité d’être un garçon à la naissance. On va supposer qu’il y a plus de chances d’être un garçon, car 2065/4000=51,625%. H 0 : p 0,5 H1 : p 0,5 Variable de décision : F 0,5 F 1 F n . Sous H0, F 0,5 F 1 F n N 0,1 . Forme de W : F p0 On va rejeter tout à droite, avec 5% : W 1, 6449 F 1 F n Sur notre échantillon la variable de décision prend la valeur : 0,51625 0,5 0,51625 1 0,51625 4000 2, 06 1, 6449 . On rejette H0. p-value ? C’est la probabilité d’obtenir ce 2,06 sous H0, donc si on considère que p=0,5. 2,06 2 , soit 2 écarttypes, donc on se trouve à la jonction 95% du centre – 2,5% sur le côté. Donc la p-value p 0,025 . Si on faisait un test bilatéral, soit H1 : p 0,5 , ce qui change est la région critique. Cette fois les 5% sont partagés à gauche et à droite, et on obtient comme 2 bornes d’acceptation -1,96 et +1,96. Et avec 2,06 on rejette, de peu. Remarque : on voit bien qu’avec des tests bilatéraux on a tendance à moins rejeter H0, c’est pour cela que c’est préférable d’avoir une idée sur la question, des idées a priori, cela permet de rejeter plus. 50 IV)Comparaison de 2 populations 1) Introduction On a 2 populations et 2 échantillons, avec les variables X1 X2, les espérances m1 m2, et les variances. On cherche à les comparer, donc cela équivaut à chercher la loi de X1 X 2 . Si les échantillons sont petits, on suppose la normalité de X1 et de X2, ou bien si les échantillons sont grands, par le TCL, de toute façon on a : 2 2 et X N m , 2 Donc : X X N m m , 1 2 X 1 N m1 , 1 1 2 2 2 2 1 n n n1 n2 Rappel : Si X et Y dont indépendantes : V X Y V X Y V X V Y Grands échantillons : X 1 X 2 m1 m2 S12 S22 n1 n2 N 0,1 Petits échantillons : hypothèse supplémentaire : 1 2 , estimées par S A X 1 X 2 m1 m2 1 1 A n1 n2 n1 1 S12 n2 1 S22 n1 n2 2 T n1 n2 2 2) Test de comparaison de 2 moyennes H 0 : m1 m2 On a 2 échantillons, α est fixé, et on va tester : H1 : m1 m2 a) Grands échantillons σ1 et σ2 connus Variable de décision : X1 X 2 X1 X 2 W u 12 22 2 2 1 2 n1 n2 n n2 1 Sous H0, sa loi est N(0,1). Forme de W : on rejette des deux côtés, α/2. σ1 et σ2 inconnus X1 X 2 W u 2 2 S1 S2 n n 1 2 b) Petits échantillons X 1 N m1 , 1 et X 2 N m2 , 2 Hypothèses : 1 2 ESSENTIEL et je peux le vérifier en testant les variances n1 1 S12 n2 1 S22 X1 X 2 T n1 n2 2 avec A Variable de décision et sa loi sous H0: n1 n2 2 1 1 A n1 n2 Forme de W : on rejette des deux côtés, on a donc α/2 de chaque côté. On entre donc α dans la table Student. X1 X 2 W t A 1 1 n1 n2 51 3) Test de comparaison de 2 variances Hypothèses : X1 N m1 , 1 et X 2 N m2 , 2 H 0 : 12 22 2 2 H1 : 1 2 Variable de décision : Sous H0, S12 S 22 Forme de W : test bilatéral, on va rejeter des deux côtés, donc α/2 de chaque côté. S12 W 2 K1 ou K 2 S2 S12 F n1 1; n2 1 S22 4) Test de comparaison de 2 proportions Hypothèse nécessaire : grands échantillons. H 0 : p1 p2 H1 : p1 p2 p 1 p1 p 1 p2 et F2 N p2 ; 2 F1 N p1 ; 1 n n 1 2 p 1 p1 p2 1 p2 (toujours somme des variances) F1 F2 N p1 p2 ; 1 n n 1 2 Variable de décision : F1 F2 1 1 pˆ 1 pˆ n1 n2 n1 F1 n2 F2 n1 n2 Sous H0, sa loi est N(0,1) Forme de W : on rejette de chaque côté, avec α/2 de chaque côté. F1 F2 W u pˆ 1 pˆ 1 1 n n 1 2 Avec pˆ Fin du cours sur les tests statistiques. 52 STA001 Cours 9 Stéphane Radoykov, jan. 2011 Chapitre 9 : Les tests d’ajustement I) Le test du Khi-deux Soit une variable aléatoire X partitionnée en k classes E1 ,..., Ek . On veut savoir si notre variable aléatoire suit bien la loi que l’on suppose. La loi à laquelle on pense est appelée P0 . Binomiale, Poisson… H 0 : X P0 H1 : X ne suit pas la loi P0 On dispose d’un échantillon de X X1 ,..., X n . Avec pi P0 X Ei = probabilité avec la loi que l’on suppose. Classes E1 … Ei … Ek Distribution observée Effectifs théoriques N1 np1 … … Ni npi … … Nk npk n n Donc np1 représente l’effectif théorique, c’est n multiplié par la probabilité de se trouver dans E1. La somme des probabilités vaut 1. Pour pouvoir dire que mon phénomène est bien décrit par ma loi, je dois montrer que els deux distributions sont proches. On s’intéresse donc à la différence entre les deux, au carré pour éviter les choses négatives, et on divise par les effectifs théoriques pour que cela suive bien une loi du Khi-Deux. On note D la distance du Khi-Deux entre les deux distribution : k Ni npi i 1 npi D 2 Sous H0, D 2 k 1 l k est le nombre de classes, -1 est admis, et l est le nombre de paramètres à estimer pour spécifier notre loi supposée. Par exemple, pour une gaussienne l 2 , pour une poisson l 1 . En pratique, on impose npi 3 On ne veut pas d’effectifs théoriques trop petits, car ils jouent sur D. Il suffit d’une valeur aberrante, toute petite, qui fausse le résultat. Dans la réalité même 1 est pas mal, mais 3 c’est plus tranquille, pour l’EXAM 3. Si une telle chose arrive, il faut regrouper des classes, on fait une grande classe comprenant les 2 concernées. Forme de la région critique : dans la loi du Khi-Deux, on va rejeter tout à droite en se basant sur α. W D K Exemple : Le tableau suivant donne la répartition des 10 000 premiers chiffres de la partie décimale du nombre π. On veut comparer le nombre de 0, de 1, de 2… par rapport au hasard. Penser à bien tout partitionner. Classe Effectifs observés Effectifs théoriques 0 968 1000 1 1026 1000 2 1021 1000 3 974 1000 4 1012 1000 5 1046 1000 6 1021 1000 7 970 1000 8 948 1000 9 1014 1000 Total 10 000 10 000 53 Peut-on considérer que les chiffres de la partie décimale se répartissent uniformément ? Soit X un chiffre tiré au hasard dans la partie décimale de π. H 0 : X loi uniforme sur 0,1,...,9 H1 : X ne suit pas cette loi uniforme 1 10000 pi P loi uniforme i npi 1000 10 10 2 9 ni npi Variable de décision : D npi i 0 Sous H0, D 2 10 1 0 Forme de la région critique ? On lit à p=0,95 tout à droite de la table, on trouve t=16,919. W D 16,919 Sur notre échantillon, D prend la valeur : 968 1000 D 1000 2 1026 1000 1000 2 1014 1000 ... 1000 2 9,37 On garde H0. On dit que c’est comparable. 2ème exemple : Sur une période de 40 semaines, on a relevé chaque semaine le nombre d’accidents du travail survenus dans un groupe du BTP. Les résultats sont les suivants : Nombre accidents 0 1 2 3 Nombre de semaines 25 11 3 1 Tester l’adéquation à la loi de Poisson. Soit X le nombre d’accidents pour une semaine donnée. H0 : X P H1 : X ne suit pas une loi de poisson Je commence par faire ma partition. Je note 3 et plus, pour être sur de bien tout avoir : Classes Effectifs observés Effectifs théoriques 0 25 24,3 1 11 12,1 2 3 3,0 3 et plus 1 0,6 40 40 Je ne connais pas ! On doit donc utiliser l’échantillon pour estimer celui-ci ! Estimation de : il est estimé par la moyenne de l’échanillon E X . X 25 0 111 3 2 3 1 1 40 2 Rappel : P P k e P0 0, 6065 k k! P1 P P 0,5 1 P P 0,5 1 P P 0,5 0 0,9098 0, 6065 0,3033 P2 0,9856 0,9098 2 1 0, 0758 P3 P P 0,5 3 1 P P 0,5 2 1 0,9856 0, 0144 On calcule maintenant les npi 40 p0 24,3 40 p1 12,1 40 p2 3,0 40 p3 0,6 ATTENTION : le 0,6 pose problème, on va donc remplacer les deux dernières classes par « deux et plus », d’effectif observé 4 et théorique 3,6. 54 3 Ni npi i 0 npi Variable de décision : D 2 . Sous H0, D 2 3 1 1 1 . ATTENTION, c’est 3 maintenant. On lit à 0,95 : 3,841. Donc W S 3,841 . Ici D prend la valeur : D 25 24,3 2 11 12,1 2 4 3,6 2 0,164 24,3 12,1 3,6 C’est trop beau… Incroyablement faible. On garde H0. Pourquoi avait-on pensé à la loi de Poisson ? C’est la loi des évènements rares. Grand nombre d’ouvriers, pas très probable pour UN ouvrier d’avoir un accident. On n’a pas imposé de paramètre pour la loi de poisson, car si on ne fait pas dans le cas général de Poisson, la distribution pourrait simplement, dans H1, suivre une autre loi de Poisson, de paramètre différent. EXAMEN !! Laisser libre le paramètre ! A nous de chercher le meilleur paramètre ensuite. II) Le test de Kolmogorov-Smirnov Soit F la fonction de répartition de la loi de X. F0 est une courbe, entre 0 et 1, et Fn approche cette courbe par escaliers, avec des niveaux x1, x2 de l’échantillon tiré… On va chercher la plus grande différence entre F0 courbe vrai et Fn courbe théorique. X1 est la plus petite valeur de l’échantillon. Fn est une fonction de répartition empirique. Dn= le plus grand saut d’escalier. H 0 : F F0 . Variable de décision : Dn Sup Fn ( x) F0 ( x) . H1 : F F0 Sous H0, Dn suit une loi approchée caractérisée par : P Forme de W : Dn K ' . nDn y K y 1 e2 k k 2 2 y Remarque : si n>100, pour un risque alpha de 5%, W Dn 1,358 n . Je pense que ce test est à oublier pour l’examen direct. Jamais tombé. Fin du cours 9 sur les tests d’ajustement. 55 STA001 Cours 10 Stéphane Radoykov, avr. 2011 Chapitre 10 : Liaison entre deux variables I) Notion de corrélation 1) Introduction On observe simultanément 2 variables X et Y (quantitatives) sur un échantillon de n individus, par exemple X : taille, et Y poids. On a d’abord un tableau de données : Individus X Y 1 X1 Y1 … … … N Xn Yn Représentation graphique, on représente y en fonction de x. On appelle le couple x, y le centre de gravité. 2) Mesure de la liaison linéaire. Définition de la covariance : 1 n xi x yi y n i 1 La covariance est positive si le nuage de points est tel que y augmente avec x. La covariance est négative si le nuage de points est tel que y diminue avec x. La covariance est nulle lorsqu’on le nuage de points est une grosse tache ronde et on ne distingue rien. cov x, y 1 Remarque : on peut montrer que cov x, y xi yi x y . 2 i Définition du coefficient de corrélation linéaire r : x x y y cov x, y 1 r n x y i 1 i i x y n 1 r 1 n n 2 2 1 1 xi x et y2 yi y . n i 1 n i 1 Un r proche de 1 signifie une bonne corrélation linéaire, et positive. Avec x2 II) Ajustement linéaire 1) Droite des moindres carrés. On représente toujours y en fonction de x. On cherche à « ajuster » au mieux une droite d’équation y=a+bx. n Algébriquement, on va chercher a et b qui minimise : y yˆ i 1 i i 2 avec yˆ i la courbe théorique, obtenue par yˆi a bxi . On obtient : n x x yi y cov x, y i 1 i b n 2 x2 xi x i 1 a y bx La droite d’ajustement passe forcément par le centre de gravité, d’où la dernière relation. Remarque : b peut aussi s’écrire : b r y (on multiplie en haut et en bas par y ). x 56 Si la relation linéaire était parfaite, y=a+bx, V(Y)=V(a+bx)=b2V(x). D’où b 2 V Y et b= la racine. V X 2) Qualité de l’ajustement. On note : yi yˆi ui . Le premier terme est la valeur prévue, et ui est le résidu. On montre la formule suivante qui donne la décomposition de la variance de y : 2 2 1 n 1 n 1 n y2 yi y yˆi y ui 2 n i 1 n i 1 n i 1 Le premier terme est la variance expliquée et l’autre est la variance résiduelle. 1 n yˆi y n i 1 2 On peut prouver également que : r n 1 yi y n i 1 2 2 variance expliquée variance totale Remarque : Si r 1 , alors quel que soit i, yˆi yi , et donc tous les points du nuage sont alignés. Exemple : Prix des appartements à Malakoff en fonction de la surface : Surface x 12 16 23 25 43 45 87 180 Prix en 1000€ 70 96 200 170 310 255 740 1208 Première chose, graphique prix en fonction de la surface. Petit nuage de points car petit échantillon. Je cherche a et b tels que y=a+bx. Calculette, on fait les deux écarts-types, et r, ce qui donne b=6,92550, a=8,01325. Excel peut le donner, avec l’utilitaire d’analyse, et faire régression linéaire. Y=8,01325+6,92550x. Attention à multiplier par 1000 si on parle en € et pas en milliers d’€. D’où le prix au mètre carré : 6925,50€. Les points éloignés du centre de gravité one une forte influence sur la pente, car celle-ci dépend (et ce au carré) de l’écart par rapport au point de gravité sur x. Dernier exercice :!!! On a relevé dans 6 places différentes le prix P d’un produit (en euros) et la quantité demandée Q de ce produit. On a obtenu le tableau suivant : P 12 13 15 16 18 20 Q 128 93 82 60 25 12 1) Représenter le nuage de points. C’est une droite décroissante. Ça me soule vraiment de la faire voilà. Désolé. 2) Calculer le coefficient de corrélation linéaire. Rappeler son interprétation. Calculer l’écart-type de P et de Q. r mesure la relation entre Q et P. x x y y n i i 2 2 1 n 1 n 1 x xi x et y yi y r 0,9799 0,98 n i 1 n i 1 x y n 1 C’est un très bon ajustement, donc proche de 1. Mais c’est une corrélation négative. p 3,01 q 43,5 i 1 3) Exprimer l’équation de la droite d’ajustement de Q en P par la méthode des moindres carrés. La représenter graphiquement. br q 14,15 p a y bx P 15,67 Q 66,67 a 66, 67 14,15 15, 67 288, 42 Q 288, 42 14,15R 4) Lorsque le prix est de 10€, quelle quantité Q peut-on prévoir ? On utilise la formule : 147 unités. Fin du cours 9 sur les tests d’ajustement. 57 STA001 16/10/10 ED1 Premier TD de STA001 sur la statistique descriptive. Exercice 1 : Dans un centre de calcul universitaire on a observé le nombre journalier d’arrêts de l’ordinateur sur une période de 70 jours. Les données recueillies sont les suivantes : 0 0 2 0 0 0 3 3 0 0 0 0 1 4 1 8 5 0 0 4 3 0 6 2 3 0 0 4 0 3 1 1 0 1 0 1 1 0 1 0 2 0 2 2 0 0 0 1 2 1 2 0 2 0 0 2 0 1 6 4 3 3 1 2 4 0 0 1 2 2. En faire une étude descriptive. En premier lieu, identifier la variable statistique et son type (discrète, continue). Ici variable : nombre d’arrêts de l’ordinateur par jour, c’est une variable discrète, entiers, jusque 8 maximum ; sur 70 jours, 70 observations. Individu statistique = le jour, la journée. Travail à faire : tableau (regrouper les valeurs), diagramme en bâtons, et calculer les indicateurs numériques. Tableau : classes ci 0 1 2 3 4 5 6 7 8 effectifs ni 29 13 12 7 5 1 2 0 1 fréquences 0,414 0,186 0,171 0,100 0,071 0,014 0,029 0,000 0,014 Diagramme en bâtons : Calcul des indicateurs numériques : Indicateurs de tendance centrale Mode : classe modale : 0 Moyenne : x fi ci (0, 49 0) (0,19 1) ... (0, 014 8) 1, 47 Indicateurs de dispersion Etendue : 8-0=8 Quartiles : Q1 :18ème valeur=0 Q3 : 18ème à partir de la fin = 2 Ecart interquartile : Q3-Q1=2-0=2 Variance : 2 Médiane : Il faut énumérer dans l’ordre, ici 70 valeurs, 2 fi ci 2 x ème ème donc moyenne de la 35 et de la 36 . Me=1 2 (0, 41 02 ) (0,19 12 ) ... 1, 47 2 2 3, 05 Ecart-Type : 3,07 1,75 Exercice 2 : La répartition des débits moyens du Rhin, observés à la station de jaugeage au cours de 153 mois, est donnée. Tracer l’histogramme de cette répartition, quelle est la classe modale ? Construire la courbe des fréquences cumulées. Déterminer la médiane, graphiquement ou par interpolation linéaire. Déterminer moyenne, écart interquartile, variance, écart-type. 58 Débit m3/s 200-400 400-500 500-600 600-700 700-800 800-900 900-1000 1000-1200 1200-1400 ai 200 100 100 100 100 100 100 200 200 ci 300 450 550 650 750 850 950 1100 1300 ni 14 27 30 28 17 14 10 7 6 153 fi 0,0915 0,1765 0,1961 0,1830 0,1111 0,0915 0,0654 0,0458 0,0392 fi/ai 4,6E-04 1,8E-03 2,0E-03 1,8E-03 1,1E-03 9,2E-04 6,5E-04 2,3E-04 2,0E-04 Débit Fréquences cumulées Fi 200 0 400 0,0915 500 0,268 600 0,4641 700 0,6471 800 0,7582 900 0,8497 1000 0,9151 1200 0,9609 1400 1 Histogramme : Représentation des densités de chaque classe. Rappel : somme de toutes les surfaces = 1. Classe modale : pic de l’histogramme = [500 ;600[ = le maximum en densité. Courbe des fréquences cumulées. Cette fonction F(x) donne le pourcentage de débits inférieurs à un certain débit x donné. Médiane : soit il faut un graphique précis, ici on voit que c’est entre 600 et 700, environ 650. Soit on fait une interpolation linéaire, on considère donc que l’on a des droites entre des points consécutifs. On regarde le tableau, 0,5 se situe entre 0,46 et 0,64. Le débit médian est donc entre 600 et 700. Me 600 (0,5 0, 4641) donc Me=619,6 m3/s 700 600 (0, 6471 0, 4641) De la même manière avec le tableau on trouve Q1. Penser à regarder aussi, le graphique, le tableau, on voit bien que c’est très proche de 500. Q1 400 0, 25 0, 0915 Donc Q1=489,8 m3/s. Idem, Q3=792,6 m3/s. 500 400 0, 2680 0, 0915 Q3-Q1=302,8 m3/s Rappel la médiane est robuste, la moyenne non ! Cf. peines de prison 59 Moyenne : x fi ci (0,0915 300) ... 658, 25 m3 /s On remarque une asymétrie à droite, on dit que la moyenne est tirée à droite par rapport à la médiane. Variance : 2 f c x 2 i i 2 (0, 0915 3002 ) ... (658, 25)2 56.612,9 pas interprétable 56612,9 237,9 m3 /s écart type, dans les deux sens par rapport à la moyenne. Exercice 3 : On a observé l’âge des 25 électeurs d’une petite commune. Les données sont les suivantes : 51 18 75 54 65 68 43 58 69 61 84 33 57 71 52 39 79 64 49 67 89 55 76 47 63. Etablir le tableau des fréquences cumulées en répartissant les données dans les classes 18/35, 35/50, 50/60, 60/75, 75/90. Tracer l’histogramme de cette répartition. Déterminer la classe modale. Calculer les indicateurs numériques suivants à partir de la répartition en classes : médiane, moyenne, 1er et 3ème quartile, variance, écart-type. Les comparer aux vraies valeurs (calculées sur les données brutes). Tracer le Box-Plot. Tableau : Classes 18;35 35;50 50;60 60;75 75;90 ai 17 15 10 15 15 ci 26,5 42,5 55 67,5 82,5 ni 2 4 6 8 5 25 fi 0,08 0,16 0,24 0,32 0,2 fi/ai 0,0047 0,0107 0,024 0,0213 0,0133 Age Fréquences cumulées 18 0 35 0,08 50 0,24 60 0,48 75 0,8 90 1 Histogramme : représente les densités de chaque classe. Classe modale : [50;60[, à la fois en fréquence et en densité. L’âge est une variable continue, c’est pour cela classes. Courbe des fréquences cumulées : 60 Indicateurs numériques calculés à partir du tableau : Moyenne : x fi ci 60, 22 ans La médiane se situe entre 60 et 75, très proche de 60. 0,5 0, 48 Me 60 75 60 60,93 ans 0,80 0, 48 Q1 est entre 50 et 60 proche de 50. 0, 25 0, 24 Q1 50 60 50 50, 42 ans 0, 48 0, 24 Rappel : on regarde le tableau fréquences cumulées ! 0, 75 0, 48 Q3 60 75 60 72, 66 ans 0,80 0, 48 2 fi ci 2 x 263,98 Indicateurs numériques à partir des données brutes : 1 25 x xi 59, 48 ans 25 i 1 2 1 25 2 2 xi x 254, 01 25 i 1 254, 01 15,94 Pas de grande différence Si on avait une valeur aberrante, la variance « vraie » serait touchée plus fortement. Pour le reste, il faut les données dans l’ordre croissant ! On va faire un diagramme tige feuille (pour les vrais quartiles et la médiane). 2 269,98 16, 25 ATTENTION IL FAUT DES CLASSES D’AMPLITUDES EGALES !!! On va prendre les dizaines des âges. 1 2 3 4 5 6 7 8 9 8 3 3 1 1 1 4 - 9 7 2 3 5 9 25 valeurs, donc on regarde 13ème valeur pour la médiane, 12 de chaque côté. Me=61ans. (60,93 pas de différence) 25%=6,25, entre la 6ème et la 7ème : 50 ans = Q1. Pareil pour Q3=70ans. Q3-Q1 = 20 A=Q1-1,5x20=50-30=20 donc A’=18 B=70+30=100 donc B’=89 ans. 9 4 5 7 8 4 5 7 8 9 6 9 Box-Plot : On place Q1 A3 et Me, A’ et B’, et les valeurs aberrantes, sur un axe allant de 10 à 100 ans, horizontal. NOM Age q1 min moust. inf. med moy moust. sup. max q3 nb atyp. inf. nb atyp. sup. effectif 51 18 33 61 59,48 89 89 69 1 0 25 Fin du ED n°1 de STA001. 61 STA001 23/10/10 ED2 Exercices sur les probabilités / dénombrement Abbréviation : DLNDM : déterminer le nombre de manières Stéphane Radoykov, nov. 2010 Exercice : DLNDM d’attribuer un jour de fermeture hebdomadaire à chacune des 4 boulangeries d’un quartier. Comment écrire le résultat ? Sous forme de quadruplet. ( . ; . ; . ; . ). Un espace pour chaque boulangerie, et à chaque fois on met le jour de fermeture. A chaque espace on a 7 possibilités, et je peux reprendre le même pour deux boulangeries. Il y a donc 7 4 façons différentes d’attribuer un jour de fermeture. C’est un arrangement à 4 éléments avec répétition des 7 jours de la semaine. DLNDM de le faire si l’on ne veut pas que plusieurs boulangeries ferment le même jour. Cette fois on ne veut pas de répétition. Arrangement de 4 jours sans répétition. Il y en a A74 7 6 5 4 . DLNDM de le faire si l’on veut que chaque jour il y ait au moins une boulangerie ouverte. Il faut utiliser le contraire. On ne veut pas que dans un jour toutes soient fermées. On va donc enlever les arrangements où elles sont toutes fermées le même jour, soit LLLL, MMMM, MMMM… Dès qu’on voit « au moins », penser à l’évènement contraire ! On prend tous les arrangements sauf le contraire : 74 7 . Le travail le plus dur est de poser le problème. Ici c’est décider de prendre des quadruplets. Exercice : Combien de mots de passe de 8 symboles peut-on faire avec 66 caractères ? Mdp = 8-uplet (. / . / . / . / . / . / . / .) , et on peut mettre 66 caractères à chaque fois, donc : 668 . Exercice : Dans un pays les voitures ont des plaques avec 2 lettres puis 3 chiffres. Combien de plaques sont possibles ? (26,26,10,10,10). Il y a 262 103 plaques. Exercice : On dispose de 32 livres sur un rayon. 23 de mathématiques, et 9 de physique. On veut que tous les livres traitant du même sujet restent groupés. Combien de possibilités de le faire ? Il y a 23! façons de permuter le bloc maths, et 9! façons de permuter celui de physique. Chaque bloc de physique peut être associé à chaque bloc de maths. Mais il y a deux façons de ranger les blocs, MP ou PM. Donc au final : 2 23! 9!possibilités. Exercice : 4 américains, 3 suisses, 5 anglais doivent s’asseoir sur un même banc. Les gens de même nationalité doivent rester ensemble. Combien de dispositions possibles ? Il y a 3 blocs. ATTENTION ! Il y a donc 3! façons d’arranger les 3 blocs que l’on a ! Ensuite on a 4! blocs US, 3! de suisses, 5! d’anglais. Donc au final 3! 4! 3! 5! Exercice : Soit un jeu de 32 cartes. On tire 5 cartes sans remise. Quelle est la probabilité d’obtenir : un carré ? 32 cartes, 4 couleurs, donc 8 hauteurs, donc 8 carrés possibles. Quel est notre ensemble fondamental ? On se fiche de l’ordre dans ce qui est demandé. (rajouter de l’ordre rajoute une étape donc des possibilités). Ω est un choix de 5 cartes parmi 32. C’est une combinaison : ensemble fondamental des C532 combinaisons de 5 cartes. C’est une probabilité uniforme, donc on peut utiliser cas favorables / cas possibles. Que veut-on obtenir ? A, A, A, A, x . Ok il y a 8 carrés possibles. Mais il faut penser à la dernière carte. Combien de choix y a-t-il pour celle-ci ? Il y a 28 8 28 choix possibles une fois le carré défini, soit C128 . Au total on a donc P 5 . C32 2 rois et 2 dames ? Cette fois on veut R, R, Q, Q, x . Exactement 2 rois et 2 dames. Pour les deux rois c’est C 24 , pour les dames c’est C24C24 24 . Attention à ne pas C , et pour la dernière carte il faut choisir parmi 32 4 4 24 C . Donc P C532 2 4 1 24 distinguer les deux rois ! Sinon on crée de l’ordre ! On crée des positions en faisant une paire avec C14 C13 ! Si on voulait le faire avec de l’ordre, on peut prendre le choix de toutes les combinaisons, c'est-à-dire ce qu’on avait trouvé, et on multiplie le tout par 5!pour permuter toutes les cartes. Et au final on divise par A 532 . 62 Au moins 2 rois ? 1 raisonnement : R, R, x, x, x . On a d’abord C 42 , 2 rois parmi les 4 dispos, là for sure. Ensuite pour les 3 er 3 C24 C30 . C532 C’est FAUX ! On a fait des comptes multiples ! Un roi repris à droite peut retomber dans les 2 premiers. On a même des triples comptes. OK cela joue peu au final sur la probabilité, mais au sens strict c’est faux ! Il faut distinguer 2R, 3R, et 4R ! On a C au moins 2 rois, on décompose en C1 2 rois exactement, C2 3 rois exactement, et C3 4 rois exactement. Donc C=C1+C2+C3 car l’intersection C2 C3 est l’ensemble vide. Les probabilités C2 C3 C3 C2 C4 C1 s’additionnent. P(C ) 4 5 28 4 5 28 4 5 28 . Précision : C328 veut dire 3 cartes, mais pas des rois. C32 C32 C32 restantes on a C330 possibilités, car on s’autorise à reprendre les autres rois si on veut. Ceci donnerait Rappel : Cnp Cnn p donc C34 C14 . Et C44 1 un seul carré . C5 C1 C4 2ème cas : P(C ) 1 P C 1 P P 0 roi P 1 roi 1 528 4 5 28 On doit choisir 5 cartes parmi 28 C32 C32 non rois. Exercice : Le LOTO : on doit cocher 6 numéros parmi 49 (de 1 à 49). Le résultat du tirage est sous la forme de 6 numéros gagnants ( 1 , 2 ,..., 6 ) et de un numéro complémentaire . Un joueur remplit une grille. Calculer les probabilités suivantes : a) Il a coché les 6 numéros gagnants. Pour commencer il faut définir Ω ! Qu’est-ce qui est aléatoire ? Le tirage ? Ou ce que l’on coche nous. Ici on va considérer que l’aléatoire c’est nous. Et on considère que le tirage est quelque part dans le ciel, prédéfini. Donc Ω représente le nombre total de grilles possibles, soit C649 . Et tous les cas sont équiprobables. 1 P( A) 6 . Une seule grille peut contenir les 6 numéros gagnants. C49 2ème cas : on peut considérer que le tirage c’est C649 C143 . On tire un complémentaire en plus. Dans ce cas le nombre de cas favorables change, c’est 1 43 , car un résultat comprend le complémentaire, donc on peut avoir 43 1 43 combinaisons au final. Cela donne 6 .On retrouve. C49 C143 b) Il a coché 5 des 6 numéros gagnants, et le complémentaire. C56 1 6 5 , , , , , Pour les α on a , et pour le β 1 possibilités. Donc P 6 . C 6 6 C49 C49 c) Il a coché 5 des 6 NG C5 C1 P(C ) 6 6 42 . Les 5 premiers doivent être parmi les α, mais le dernier ne doit pas être β, doc 49-6-1=42. C49 d) 4 des 6 NG C4 C2 P( D) 6 6 43 Donc 4 α et deux autres non β. En effet, dans les règles de ce loto on considère que le β ne jour C49 que si a déjà eu 5 α. Il ne fait rien gagner lorsque l’on a moins de α. Donc même si β sort on s’en fiche. Donc parmi 43. e) 3 des 6 NG C36 C343 P( E ) . C649 f) Il gagne quelque chose (= un des évènements précédents est réalisé). P( F ) P( A) P( B) P(C) P( D) P( E) On met des signes + car les évènements sont incompatibles. On ne peut pas avoir 4 ET 6 numéros gagnants. Une autre manière aurait été de considérer que tout est aléatoire, notre choix ET le tirage des 6 numéros. Donc cela complique le problème. Toutes nos grilles, tous les tirages, tous les β. Pour au final trouver la même chose ! 63 TOUJOURS COMMENCER PAR BIEN DEFINIR C’EST ESSENTIEL. ET BIEN VERIFIER QUE LES DIFFERENTS EVENEMENTS SONT EQUIPROBABLES. Exercice : Combien un joueur donné au bridge peut-il recevoir de mains différentes (ensembles de 13 cartes) ? Bridge. 52 cartes. Une main est un ensemble de 13 cartes. Il y a aussi en tout 13 hauteurs. Ω est l’ensemble des C13 52 « mains » de 13 cartes choisies parmi 52. Chaque main est équiprobable. Quelle est la probabilité qu’il obtienne : a) Un as exactement C1 C12 P( A) 4 13 48 On doit obtenir un as, puis 12 cartes qui ne sont pas des as. C52 b) Au moins un as On peut considérer 1 as exactement, ou 2 exactement, ou 3 exactement, ou simplement faire 1-(zéro exactement). C13 48 C’est-à-dire 13 cartes à choisir parmi les 52-4as=48 cartes. P( B) 1 P(0 as) 1 13 C52 c) Un as et un roi exactement C1 C14 C11 44 Un roi, un as, exactement, et le reste. P(C ) 4 13 C52 d) Au moins un as et au moins un roi Soit A au moins un as, et B au moins un roi. RAPPEL, TOUJOURS VRAI : A B A B et A B A B . P( D) P A B 1 P A B 1 P A B 1 P 0as 0roi Attention ces deux évènements 0 as et 0roi ne sont pas incompatibles! C13 C13 C13 48 48 44 P( D) 1 P A P B P A B 1 13 13 13 C52 C52 C52 On prend 13 parmi les non as, 13 parmi les non rois, et enfin on enlève tous les rois et tous les as ! e) Une carte de chaque valeur 413 P( E ) 13 . On veut une carte de chaque valeur. Il suffit de les classer par l’esprit. De As jusque Roi, on en a 13, C52 car il n’y a pas de « 11 ». Donc une fois qu’ils sont dans l’ordre, le seul choix à faire est la couleur ! On a 4 possibilités de couleur à chaque fois, pour chaque valeur. Donc 413 . Fin de l’ED n°2 de STA001. 64 STA001 30/10/10 ED3 Stéphane Radoykov, nov. 2010 Exercice : Des cours d’informatique (I), de statistiques (S) et de mathématiques (M) sont proposés en option aux 400 étudiants d’une filière universitaire. On observe : effectif du cours I : 160, S : 100 ; M : 100. 30 étudiants sont inscrits à la fois aux 3 cours. 100 étudiants se sont inscrits en informatique uniquement. 50 étudiants en S uniquement, et 130 n’ont pris aucune inscription. 1. On interroge un étudiant au hasard. Calculer la probabilité qu’il soit inscrit : a. Dans au moins un cours. On tire un individu dans la population des 400 étudiants. Il faut bien représenter Ω. Un bon schéma : I : l’individu tiré au hasard suit le cours d’informatique. S : il suit le cours de statistiques M : il suit le cours de mathématiques n I =160 ; nS =100 ; n M =100 ; n ISM =30 ; n Iseul =100 ; nSseul =50 Rappel, loi de Morgan : A B A B A B A B D’où on tire 130 I S M I S M . Ce qui n’est pas connu = αβγδ. 100 30 160 30 90 70 20 (relations 3 et 4) 30 50 100 20 30 10 30 100 70 20 0 30 100 50 130 400 90 70 60 400 130 270 400 400 b. En mathématiques uniquement. Au moins un cours : P( I S M ) Les mathématiques uniquement = maths et pas les autres : P( M I S ) 60 400 c. En informatique ou en statistique. Soit informatique, soit statistique, et on ne sait pas s’il est inscrit en mathématiques ou pas. 160 50 210 P( I S ) 400 400 65 d. Dans un cours uniquement. On retranscrit cela par: P( I S M ) P(S M I ) P(M I S ) 100 50 60 210 . Les 3 entre 400 400 parenthèses sont bien incompatibles. 2. On choisit maintenant au hasard un étudiant du cours d’informatique. On dit que I est réalisé. Calculer la probabilité : a. Qu’il soit également inscrit au cours de statistique. P( I S ) 50 P( S / I ) P( I ) 160 b. Qu’il soit également inscrit au cours de mathématiques. 10 30 P( M / I ) 40 /160 160 c. Peut-on dire que les évènements I et S sont indépendants ? I et M ? 100 On ne peut pas le dire de manière intuitive. Il faut le calcul. On a déjà P(S/I)=50/160. P( S ) 40 /160 . 400 Donc les évènements ne sont pas indépendants. Si on sait I, et bien la probabilité d’avoir S aussi augmente un petit peu. Je ne peux pas le savoir à l’avance, c’est le calcul qui le montre. 100 40 P( M ) P( M / I ) . Là on peut dire que I et M sont indépendants. Il y a 25% de M dans toute la 400 160 population, et il y a aussi 25% de M dans I. I n’influence pas M et M n’influence pas I. L’indépendance est une relation symétrique. Exercice : On dispose d’une table de survie relative à un groupe de 1000 personnes nées la même année et suivies à partir de leurs naissances : Ages 0 10 20 30 40 50 60 70 80 90 100 Vivants 1000 850 800 750 720 680 560 380 150 20 0 Ceci est une table de mortalité. On suit les survivants. Cette courbe au départ ne décroit pas trop, et ensuite plus. A partir du tableau, calculer : a) La probabilité, pour une personne A de décéder après l’âge de 70 ans. 380/1000. On a pris ceux encore vivants à 70 ans. b) La probabilité de décéder avant l’âge de 40 ans. 1000 720 280 . Décéder avant 40 = 1- décéder après 40. 1000 1000 c) La probabilité de décéder entre 30 et 60 ans. 750 560 190 . Tout cela seulement avec les effectifs. 1000 1000 d) La probabilité de décéder avant 30 ans ou après 60 ans. 810 1 – la précédente ! REFLECHIR 1000 e) La probabilité, pour une personne ayant atteint l’âge de 20 ans, d’atteindre l’âge de 60 ans. 560 car 800 vivants à 20 ans, et on cherche les vivants à 60. 800 f) La probabilité, pour une personne ayant atteint l’âge de 30 ans, de décéder avant l’âge de 80 ans. 750 150 600 soit 600 morts avant 80ans en étant vivant à 30. 750 750 g) La probabilité, pour 2 personnes A et B de décéder toutes deux avant d’atteindre 70 ans. 1000 380 1000 380 0,3844 car indépendance entre décès de A et décès de B. 1000 1000 A B h) La probabilité pour qu’une au moins de ces 2 personnes atteigne l’âge de 70 ans. 1ère possibilité, la plus simple : les deux individus ne doivent pas mourir avant 70 ans. P( A B) 1 P( A B) 1 P( A B) On fait donc 1 – la précédente=0,6156. 2ème possibilité, on considère A seul, puis B seul, puis les 2 (3 évènements incompatibles). 66 Donc : A B B A A B . Mais l’évènement contraire, c’est plus simple. i) La probabilité que A, qui a 70 ans, et B, qui a 80 ans, soient tous deux décédés dans 10 ans. 380 150 150 20 230 130 0,524 380 150 380 150 Exercice : Au cours d’un apprentissage, un sujet essaie de réaliser une certaine tâche trois fois de suite. 1) On considère dans un premier temps qu’à chaque tentative la probabilité d’un échec est de 0,4. Calculer les chances qu’a ce sujet d’échouer exactement une fois. Dès qu’on a plusieurs actions aléatoires successives, il faut utiliser la notion d’arbre. On appelle S un succès, et E un échec. A chaque étape la probabilité d’un échec est de 0,4. Si on veut échouer exactement une fois, c’est échouer soit au 1er, soit au 2ème, soit au 3ème, sachant que ces évènements sont bien incompatibles. P 0, 4 0,6 0,6 0,6 0, 4 0,6 0,6 0,6 0, 4 3 0, 4 0,62 0, 432 . 2) Reprendre la question précédente en supposant que le sujet tire la leçon des essais précédents de la façon suivante : la probabilité d’un échec est toujours de 0,4 au premier essai, mais au deuxième (troisième) essai, elle est de 0,3 si le premier (deuxième) a été un échec et de 0,2 si le premier (deuxième) a été un succès. Cette fois il y a un apprentissage. Il n’y a donc plus indépendance entre les tirages. P (0, 4 0,7 0,8) (0,6 0, 2 0,7) (0,6 0,8 0, 2) 0, 404 . Exercice : La population de Chypre se compose de Grecs à 75% et de Turcs à 25%. On sait que 20% des Grecs et 10% des Turcs parlent Anglais. Un visiteur rencontre quelqu’un qui parle Anglais. Quelle est la probabilité que ce soit un Grec ? 67 G : l’individu est grec, T :il est turc, A :il parle anglais. On cherche P(G/A). On connait : P(G)=0,75 ; P(T)=0,25 ; P(A/G)=0,2 ; P(A/T)=0,1. Il nous manque P(A), qui est la probabilité de parler anglais dans la population générale. P( A) P( A G) P( A T ) P(G) P( A / G) P(T ) P( A / T ) P(G A) P(G) P( A / G) P(G / A) P( A) 0, 75 0, 20 0, 25 0,10 0,175 P( A) P( A) 17,5% d’anglophones. C’est la moyenne pondérée entre 0,20 et 0,10. On peut le voir aisément avec un arbre également (pour P(A)). 0, 75 0, 2 P(G / A) 0,857 0,175 Si on parle anglais, on a 85,7% de chances d’être grec. Exercice : Un étang est peuplé de 1000 poissons de 3 espèces différentes qui se répartissent comme suit :la moitié sont des carpes, 49% sont des tanches, 1% sont des brochets. D’autre part, si un poisson pêché est petit, il doit être rejeté dans l’étang ; sinon, on le garde. Parmi les carpes, il y a 20% de petits, tandis que dans les 2 autres espèces, il y en a 30%. Un pêcheur lance sa ligne ! 1) Quelle est la probabilité de rejeter le premier poisson pêché ? B : pêcher brochet, T tanche, C carpe. A : le poisson est petit. P(B)=0,01 P(C)=0,5 P(T)=0,49 P(A/B)=0,3 P(A/C)=0,2 P(A/T)=0,3 Je pêche un poisson, et je veux la probabilité qu’il soit petit. On trouve P(A) par un arbre ou par le calcul : P( A) P( A B) P( A C ) P( A T ) P( B) P( A / B) P(C ) P( A / C ) P(T ) P( A / T ) P( A) 0, 01 0,3 0,5 0, 2 0, 49 0,3 0, 25 2) Sachant que le premier poisson pêché a été rejeté, quelle est la probabilité que ce soit une carpe ? P(C A) P(C ) P( A / C ) 0,5 0, 2 P(C / A) 0, 4 P( A) P( A) 0, 25 3) Quelle est la probabilité, sur les trois premières prises, de pêcher et de garder un brochet, une carpe, une tanche dans cet ordre ? Pour éviter les ennuis, on va mettre les effectifs sur le schéma en patate. On dit pêcher et garder, cela signifie qu’à chaque étape supplémentaire il reste un poisson de moins. 7 400 343 P 1000 999 998 4) On suppose dans cette question que l’on ne rejette plus aucun poisson dans l’étang. Quelle est la probabilité qu’après les cent premières prises, il ne reste plus de brochets dans l’étang ? Ω : toutes les possibilités de tirer 100 poissons. On veut donc tirer 10 brochets parmi ces 100 poissons (il y a 10 brochets au total), mais en fait ce sont des possibilités de 90 autres poissons, non brochets, parmi les 990 non brochets !!!!! 90 C10 C90 10 C990 990 P 100 C100 C 1000 1000 Suite du 06/11/2010 68 Exercice : On cherche un parapluie qui se trouve dans un immeuble de 7 étages avec une probabilité p. On a exploré en vain les 6 premiers niveaux. Quelle est la probabilité que le parapluie se trouve au dernier étage ? p=probabilité qu’il soit dans l’immeuble tout court. Donc 1-p qu’il n’y soit pas du tout. Et dans p, il y a les 7 étages possibles. On appelle Ai : le parapluie se trouve à l’étage i. p P( A1 ) P( A2 ) ... P( A7 ) . On considère que les étages sont équiprobables. Donc P( Ai ) 1/ 7 . P( A ) Car A A A ... A . P A A ... A P A A ... A P A7 A1 A2 ... A6 P A7 A1 A2 ... A6 7 7 1 2 6 1 2 1 2 6 6 6p p On remarque que c’est égal à 1 p , qui représente la probabilité hors de P A A ... A 1 7 7 P A1 A2 ... A6 1 P A1 A2 ... A6 1 P A1 A2 ... A6 Car les évènements sont incompatibles. 1 2 6 l’immeuble + probabilité dans le 7ème étage = somme de au 7ème étage et pas là. p/7 Donc P A7 / A1 A2 ... A6 6p 1 7 Exercice : Quelle est la probabilité pour que, parmi les n personnes présentes dans une assemblée, il y en ait au moins 2 qui aient le même anniversaire ? On va considérer l’évènement contraire 1 – toutes les personnes ont des anniversaires. Le résultat ici est un nn uplet, A365 . ( , , , , n). Un espace pour chaque personne. Ensuite, je repère chaque date par un chiffre de 1 à 365. Donc à chaque espace il y a 365 possibilités de date. Arrangement de n journées avec répétition mais sans remise. 365 364 ... 365 n 1 C’est assez étonnant, pour n=20 p=41%, pour n=40 p=89% ! P 1 365n Autre manière de voire les choses, le premier naît comme il veut, le suivant choisit un jour différent du premier, le troisième un différent des deux premiers en sachant que les deux premiers sont nés des jours différents. Ceci est exprimé par Bayes : P( A1 A2 ... An) P( A1 ) P( A2 / A1 ) ... P( An / A1 A2 ... An1 ) . Attention, si n>365 la probabilité vaut 1. Par exemple, 366 annule la fraction. Exercice : Un laboratoire a mis au point un alcootest. Les résultats sont les suivants : 2% des personnes contrôlées sont réellement ivres. 98% des fois, le test est négatif alors que la personne n’était pas ivre. 95% des fois, le test est positif alors que la personne est ivre. Quelle est la probabilité qu’une personne soit réellement ivre alors que l’alcootest est positif ? P( I ) 0, 02 On reconnaît un schéma de Bayes, avec la population I ou non, et le test T+ à l'intérieur P(T / I ) 0,98 P(T / I ) 1 0,98 0, 02 On cherche P( I / T ) P(T / I ) 0,95 P I T P( I ) P(T / I ) P( I / T ) P(T ) P(T ) P(T ) P(T I ) P(T I ) P( I ) P(T / I ) P( I ) P(T / I ) 0, 02 0,95 0,98 0, 02 0, 0386 0, 02 0,95 0, 492 0, 0386 Remarque, je reconnais 0.95/(0.95+0.98) qui est Sn/(Sn+Sp) de la sémio, le problème ici est la non spécificité, c'est-à-dire le 0,98. C’est cela qui biaise. Il faudrait peut-être revoir la sémio quantitative… P( I / T ) Fin de l’ED n°3 de STA001. 69 STA001 ED4 Stéphane Radoykov, déc. 2010 Exercices sur les lois discrètes. Exercice : A) Une machine remplit des paquets dont le poids prévu est 250g. Soit X la variable aléatoire ayant pour valeurs les poids possibles d’un paquet à la sortie de la machine. Dans cette partie on suppose que X est la variable aléatoire discrète de loi de probabilité. xi 220 230 240 250 260 270 280 pi 0,07 0,11 0,19 0,26 0,18 0,13 0,06 1) Représenter le diagramme en bâtons et la fonction de répartition de X. Variable aléatoire discrète. 7 valeurs. Diagramme en bâtons : Fonction de répartition = fréquences cumulées. La fonction de répartition de la loi de X est telle que : F ( x) P( X x) . Mais on ne lisse pas les paliers, on laisse en escaliers. Entre 220 et 230 ça vaut 0,07, entre 230 240 0,18, etc… P( X 230) P( X 220) P( X 230) 0,07 0,11 0,18 . 2) Calculer, à 0,001 près par défaut, l’espérance mathématique de X et l’écart-type de X. E ( X ) pi xi 0, 07.220 0,11.230 ... 0, 06.280 250 g E ( X 2 ) pi xi2 62750 V ( X ) E ( X 2 ) E ( X ) 62750 2502 250 2 ( X ) 250 15,8 B) On prélève successivement n paquets et on admet que, bien qu’étant exhaustifs, les tirages ne modifient pas la composition de la population. 1) On choisit n=10. Calculer la probabilité p’ qu’au moins un paquet pèse 220g et p’’ qu’au plus un paquet pèse 220g. Exhaustifs : sans répétition. La population est très très grande, donc ne pas remettre ne change rien à la population. On note N le nombre de paquets pesant 220g. On reconnaît le schéma binomial. A chaque paquet tiré est associée une alternative qui amène le succès « le paquet pèse 220g » avec une probabilité p=0,07. Et N compte le nombre de succès sur les n tirages effectués (considérés indépendants). N B(n 10, p 0, 07) P( N k ) C10k 0, 07 k 0,9310k p ' P( N 1) 1 P( N 0) 1 0,9310 1 p '' P( N 1) P( N 0) P( N 1) 0,9310 C10 0, 07 0,939 2) Déterminer la valeur n0 de n pour que la probabilité d’obtenir au moins un paquet de 220g soit supérieure à 0,95. On cherche n minimal tel que p ' 0,95 . 1 0,93n 0,95 0,93n 0, 05 n log 0,93 log 0, 05 log 0,05 n =41.28 car log 0,93 0 n0 42 log 0,93 ATTENTION : ici log=ln. En statistique on écrit log pour logarithme népérien car ln veut dire vraisemblance. 70 C) Afin de limiter la mise en vente de paquets dont le poids est inférieur à 250g, la production est contrôlée à la sortie de la remplisseuse. On admet que la probabilité que le paquet soit signalé non conforme par le contrôle est : 1 si son poids est 220g 0,9 si son poids est 230g 0,8 si son poids est 240g 1) Calculer la probabilité qu’un paquet venant d’être rempli soit déclaré non conforme par le contrôle. Implicitement : si 250 ou plus : pas de déclaration non conforme. C : « le paquet est signalé conforme ». P C 0,07 1 0,11 0,9 0,19 0,8 0,321 2) Le coût du paquet à la sortie de la remplisseuse est évalué à 5 centimes le gramme. Les paquets déclarés non conformes par le contrôle sont complétés afin que leur poids soit effectivement rendu supérieur ou égal à 250g. On considère que le coût d’un paquet complété est égal au coût résultant de son poids initial majoré d’une somme forfaitaire de 5 euros. Soit la variable aléatoire Y ayant pour valeurs les coûts possibles d’un paquet à la mise en vente. Calculer l’espérance mathématique de Y. On va calculer le prix pour tous les cas possibles de l’arbre ci-dessus. 0, 05 220 5 16 0, 05 250 12,50 0, 05 230 5 16,5 0, 05 260 13 E (Y ) pi xi 0,07.1.16 0,11.0,9.16,5 ... 0,06.1.14 14,105 0, 05 230 11,5 0, 05 270 13,50 0, 05 240 5 17 0, 05 280 14 0, 05 240 12 Exercice : (suite du 13/11/10) Le propriétaire d’un petit motel de 10 chambres possède 3 postes de TV. Dans le passé il a appris que seulement 20% des clients demandaient la TV. En ne tenant compte que des nuits où les 10 chambres sont toutes occupées, calculer : 1) Proportion des nuits où les 3 postes ne satisferont pas la demande Quel est l’évènement ? Tout est lié au nombre de postes demandés. Soit N le nombre de postes demandés une nuit où les 10 chambres sont occupées. Loi de N ? N est à valeurs dans 0,1,...,10 . Chaque chambre demande ou pas la TV. On reconnait le schéma binomial. (EXAMEN CA TOMBE). A chaque chambre est associée une alternative qui amène le succès = demander un poste de TV avec la probabilité p=0,2. Les alternatives sont indépendantes. Dans ce schéma N compte le nombre de succès. Donc N B(n 10, p 0, 2) . On cherche : P P( N 3) 1 P( N 3) 1 P( N 0) P( N 1) P( N 2) P( N 3) Soit on utilise la formule Cnk p k q nk soit on utilise la table 1, n petit et p petit. On se met à n=10, et k=0,1,2,3, et p=0,2. Donc P 1 0,1074 0, 2684 0,3020 0, 2013 0,121 . 2) Nombre moyen de postes demandés E( N ) np 2 Le np est intuitif. 71 3) Nombre moyen de postes réellement loués Y= nombre de postes réellement loués. Si je connais la loi de Y, on fait l’espérance et c’est bon. Partition de tous les cas possibles ? Si N=0, Y=0 Si N=1, Y=1 Si N=2, Y=2 Si N=3, Y=3 Si N>3, Y=3 toujours. P(Y=0)=P(N=0)=0,1074 P(Y=1)=0,2684 P(Y=2)=0,3020 P(Y=3)=P(N=3)+P(N>3)=0,3222. La somme doit faire 1 ! Y 0 1 2 3 P 0,1074 0,2684 0,3020 0,3222 E(Y ) 0 0,1074 ... 3 0,3222 1,838 L’espérance de Y est plus faible que celle de N. C’est cohérent. En effet, on a toujours Y N , parfois c’est égal, mais c’est TOUJOURS inférieur ou égal. 4) Le rendement moyen de la location, en supposant que le propriétaire touche 10€ par poste. Soit R le rendement de la location de TV pour une nuit donnée. Il nous faut l’espérance de R. Loi de R ? Pas la peine. R=10Y. E( R) E(10Y ) 10E(Y ) 18,38€ . Exercice : Soit X le nombre d’as que reçoit un joueur lors d’une distribution de cartes au bridge. Déterminer la loi de X et son espérance. Bridge : 52 cartes. Chaque joueur reçoit 13 cartes. Soit X : nombre d’As reçus. X 0,1, 2,3, 4 . Une patate, divisée en 2, les 4 as, et les 48 autres. Au milieu petite patate : les n=13 cartes du joueur, avec X l’intersection de la petite patate avec la partie 4 as. Comment fait-on ? On va avoir k as qui vont faire partie du jeu, et 13-k autres cartes. k Ck4 C13 48 P( X k ) C13 52 Petit aparté de cours : La loi hypergéométrique Soit une population de taille N, partitionnée en 2 groupes. Le premier groupe est en proportion p, et le 2ème en proportion q=1-p. On effectue n tirages sans remise dans cette population. On s’intéresse à X :nombre d’individus du 1er groupe obtenus. P( X k ) CkNp CnNq k CnN C’est la loi hypergéométrique ℋ(N,n,p). C’est une loi proche de la binomiale, mais comme c’est sans remise, les alternatives ne sont pas vraiment indépendantes. Rappel : la probabilité à chaque tirage est de p, au 1er, au 2ème, au 3ème… mais Sachant le premier ou le deuxième, elle n’est plus de p, elle est modifiée. Si on appelle succès « obtenir un individu du premier groupe », X compte le nombre de succès mais les alternatives ne sont pas indépendantes car les tirages sont effectués sans remise. 72 n 10% , c'est-à-dire si on ne prélève pas plus de 10% de la population totale, on considère N qu’il y a quasiment indépendance entre les tirages, et que H ( N , n, p) B(n, p) . On montre que : E ( X ) np On montre que : Si N n npq N 1 L’espérance est comme la binomiale. Pour la variance on a ajouté le coefficient d’exhaustivité. H est un peu moins dispersée que la binomiale. V (X ) Donc ici : E ( X ) 13 4 1. 52 Exercice : A) Dans une boîte qui contient 100 vis, on en a tiré 3 au hasard (simultanément). Les 3 sont mauvaises. En supposant qu’une vis sur 10 dans la boîte est mauvaise, quelle était la probabilité de l’évènement qui s’est réalisé ? Quelle conclusion a-t’on envie de tirer de l’expérience ? On cherche la probabilité que les 3 vis tirées soient mauvaises, soit 0 bonnes et 3 mauvaises. 10.9.8 1 C103 C900 10 9 8 1.2.3 P 0, 0007 . C’est moins qu’une chance sur mille. C’est très peu 3 100.99.98 100 99 98 C100 1.2.3 probable. Trop même. Je vais donc remettre en cause l’hypothèse que 10% sont mauvaises. Trop improbable pour considérer la proposition comme vraie. En général le seuil d’acceptation est de 5%. Il faudrait donc estimer la nombre de vis défectueuses pour obtenir une probabilité plus plausible. 10,11,15…mauvaises vis. Conclusion : l’hypothèse est fausse. Et on s’arrête ici. B) Dans la même boîte, on tire 5 vis avec remise. On note X le nombre de mauvaises vis. Quelle est sa loi, son espérance, et sa variance ? Même boîte. 5 vis avec remise. Donc tirages indépendants. X : nombre de mauvaises vis. On reconnait le schéma binomial. A chaque tirage mauvaise ou non. N B(n 5, p 0,10) . E ( N ) np 0,5 V ( N ) npq 0, 45 Exercice : La densité moyenne des microbes nocifs dans 1 m3 d’air est égale à 100. On prend un échantillon de 2 dm3 d’air. Trouver la probabilité pour que dans ce volume il y ait : Au moins un microbe 2 microbes exactement Soit N le nombre de microbes dans 2 dm3 d’air. On cherche la loi de N. On a 100 microbes par m3, donc 1 microbe pour 104 cm3. Donc la probabilité qu’un microbe tombe dans un de ces centimètres cube donné est 1 104 . 2dm3 2000cm3 . On reconnaît le schéma binomial. A chaque centimètre cube est associée une alternative qui amène le succès « contenir un microbe » avec la probabilité p=1/10000 ; et N compte le nombre de succès dans ce schéma-là. N B(n 2000, p 104 ) . n est très grand, et p faible. On approxime B(2000,104 ) P(np 0, 2) . Autre manière d’approcher la binomiale : on se place dans 1m3, et là on a 100 microbes, donc n=100 et p=2/1000. On se retrouve avec la même Poisson. Calcul des probabilités demandées : 73 0, 20 1 e0,2 1 0,8187 0,1813 0! On peut aussi regarder la table de la loi de Poisson. Ce sont des probabilités cumulées comme la loi normale. Dans la première ligne on a le paramètre m=np. Dans la colonne on a le c, qui correspond à notre k. La probabilité que l’on lit donc est : P P(0, 2) 0 0,8187 P P(0, 2) 1 0,9825 P( N 1) 1 P( N 0) 1 e0,2 P N 2 P( N 2) P( N 1) 0,9988 0,9825 0, 0163 P( N 2) e 0,2 0, 22 2! Rappel : P P( ) k e k k! Reprendre ces 2 questions avec un échantillon de 4 dm3. On peut utiliser le même raisonnement, et obtenir la poisson P(0,4). Sinon, on peut utiliser : N : nombre de microbes dans 4 dm3 N1 : nombre de microbes dans les 2 premiers dm3 N2 : nombre de microbes dans les 2 derniers dm3 N1 P(0, 2) N P(0, 2 0, 2) N N1 N 2 N 2 P(0, 2) N1 et N2 suivent la même loi, mais ne sont pas forcément égales ! A un tirage donné on peut avoir N1=0 et N2=1. On a la somme de deux Poisson indépendantes, on les additionne. Les paramètres s’additionnent (ce sont les espérances des lois rappel). P( N 1) 1 0, 6703 0,3297 P( N 2) 0,9920 0,9384 0, 0536 Exercice : Dans un livre de 250 pages il y a 500 fautes d’impression. Dans une page donnée, calculer la probabilité qu’il y ait : 1 faute 3 fautes ou plus Soit N le nombre de fautes dans une page donnée. N est à valeurs dans 0,1,...,500 . Il y a 500 fautes, qui choisissent ou non de se retrouver dans ma page. On reconnait le schéma binomial. A chacune des 500 fautes est associée une alternative qui amène le succès « la faute arrive dans la page » avec la probabilité p=1/250. Il y a en effet 1/250 chances de tomber sur ma page. N compte le nombre de succès des 500 alternatives indépendantes. N B(500,1/ 250) n est grand >50, et p faible <10%. Donc on approxime par la Poisson P(2). E( N ) np 2 . En moyenne on trouve 2 fautes par page. Rappel : P P( ) k e k k! 1 2 2e 2 1! Ou bien par lecture de table : P( N 1) P( P(2) 1) P( P(2) 0) 0, 4060 0,1353 0, 2707 De la même façon : P( N 3) 1 P( N 3) 1 P( N 2) 1 0,6767 0,3233 P( N 1) e 2 Conclusion de ces exercices : on utilise binomiale et poisson pour des lois discrètes. 74 Exercices sur les lois continues. Exercice : Un point M est choisi au hasard sur un disque de centre O et de rayon 1. On appelle X=OM. 1) Calculer la fonction de répartition de X. X [0;1] - en dérivant la fonction de répartition on obtient la densité. Fonction de répartition : F ( x) P( X x) M dans le disque de rayon x Après 1, c’est l’évènement certain, avant 0 c’est aire disque de rayon x x 2 F ( x) 2 x 2 pour x [0;1] aire totale 1 l’évènement impossible. 2) En déduire sa densité de probabilité, notée f. On montre que la densité de f s’écrit : 2 x sur [0;1] f ( x) F '( x) 0 sinon 3) Calculer P(0 X 0,5) et représenter cette probabilité par une aire hachurée sous le graphe de f. La densité, c’est très intuitif. Elle représente la masse associée aux x. Pour x=0,5, f(x)=1. La surface du triangle obtenu représente P(0 X 0,5) . P(0 X 0,5) F (0,5) 0, 25 surface de la densité entre 0 et 0,5 4) Déterminer la médiane de X. La médiane vérifie : P( X Me) P( X Me) 0,5 F (Me) Me2 0,5 Me 0,5 0,7 Exercice : Soit Z une variable gaussienne centrée réduite. Calculer : On a donc Z N (0,1) . Densité : courbe en cloche. P(Z 1,67) 0,9525 P(Z 1, 4) 1 P(Z 1, 4) 1 P(Z 1, 4) 0 0,9192 0,808 . On peut passer du strictement au inférieur ou égal car c’est une loi continue, et donc la probabilité précise P(Z=1,4) est nulle. P(1, 2 Z 1,9) P(Z 1,9) P(Z 1, 2) 0,9713 0,8849 0,0864 P(2,05 Z 0,87) P(0,87 Z 2,05) 0,9798 0,8078 0,172 P(0,5 Z 1,3) P(Z 1,3) P(Z 0,5) 0,9032 1 P(Z 0,5) 0,5947 P(1,96 Z 1,96) 2 P(Z 1,96) P(Z 0) 2 0,9750 0,5 0,95 . (symétrie) Donc en fait pour 95% ce n’est pas 2 écarts-type, mais 1,96 exactement. Chercher t tel que : P(Z t ) 0,9 . Il faut réfléchir ! Où est t pour que la probabilité soit de 90%, et attention le Z est supérieur au t, donc les 90% sont à droite, donc t est négatif. On doit regarder la 2ème table de la loi normale. Mais pas à 0,9, à 0,1, car la table donne à partir de ce qui est négatif. On entre donc p=0,1, qui donne t=1,2816. ATTENTION AU SIGNE MOINS. t=-1,2816. P(t Z 0) 0, 42 . De la même façon, t est entre l’infini négatif et 0. Quel p entrer dans la table ? 0,50,42=0,08. Moitié gauche : 0,5, et on enlève ce qui nous a été donné. La table donne t=1,4051. ATTENTION AU SIGNE MOINS. t=-1,4051. P(t Z t ) 0,97 . On a 97% centrés sur 0. De chaque côté il reste 0,015 soit 1,5%. Dans ce schéma, t va être positif. On va prendre comme probabilité pour la table tout ce qui est à gauche de t : 0,015+0,97=0,985. Ceci nous donne t=2,170. Exemple : Chercher t tel que P(Z t ) 0,973 . Penser à lire en bas et à droite car p>0,5. On obtient t=1,9268. Exercice : La durée de vie exprimée en heures d’une ampoule électrique est une variable aléatoire X régie par la loi normale d’espérance m=2000 et d’écart-type =300. 75 X : durée de vie d’une ampoule. X N (2000,300) . Remarque : 95% des ampoules durent entre 1400 et 2600h. 1) Calculer la probabilité que la durée de vie d’une ampoule soit supérieure à 2240 heures. X 2000 2240 2000 P P( X 2240) P P N (0,1) 0,8 1 0, 7881 0, 2119 300 300 2) Calculer la probabilité que la durée de vie d’une ampoule soit supérieure à 1700 heures sachant qu’elle est inférieure à 2240 heures. P X 1700 X 2240 P 1700 X 2240 P X 1700 X 2240 P X 2240 P X 2240 P X 2240 1 0, 2119 0, 7881 question 1 1700 2000 X 2000 2240 2000 P 1700 X 2240 P 300 300 300 P 1 N (0,1) 0,8 0, 7881 1 0,8413 0, 6294 0, 6294 0, 7986 0, 7881 3) Le fabricant détermine une norme N telle que la durée de vie d’au plus 3% des ampoules produites soit inférieure à N. Donner la valeur de N. On cherche N tel que : X 2000 N 2000 P( X N ) 0, 03 P t 0, 03 . La 2ème table nous donne t=1,8808. 300 300 ATTENTION AU SIGNE MOINS !!! t=-1,8808. N 2000 1,8808 300 N 2000 300 (1,8808) 1436 Il n’y a que 3% des ampoules qui ont une durée de vie inférieure à 1436h. 4) Un client achète 2 ampoules et remplace immédiatement la première lorsque celle-ci casse. Quelle est la loi de la durée totale d’éclairage ? Calculer la probabilité qu’elle soit supérieure à 4000 heures. X1 : durée de vie de la 1ère ampoule. X 1 N (2000,300) X2 : durée de vie de la 2ème ampoule. X 2 N (2000,300) X1+X2 : durée totale d’éclairage. Rappel : X 1 N (m1 , 1 ) Th: Si X 2 N (m2 , 2 ) alors X 1 X 2 N m1 m2 ; 12 22 X et X sont indépendantes 2 1 P X 1700 X 2240 Les espérances et les variances s’ajoutent. Ici ( X 1 X 2) N 4000,100 18 X N (m, ) Remarque : et si on comparait ceci avec la variable 2X1 ? Rappel : aX b N am b; a Ici 2 X 1 N (4000,600) . Ce n’est pas la même chose !! Le 2X1 est plus dispersé que X1+X2. P X 1 X 2 4000 0,5 . La loi normale est parfaitement symétrique et ici elle est centrée sur 4000. 76 Exercice : Une compagnie d’assurance décide de lancer un nouveau type de contrat réservé à des assurés ayant tous la même probabilité p=0,004 de disparaître en moins de 2 ans après la signature du contrat. Trois ans après le lancement, elle choisit au hasard n polices parmi celles qui ont été signées la première année. On appelle Sn le nombre de polices pour lesquelles l’assuré a effectivement disparu en moins de 2 ans parmi les n étudiés. 1) Quelle est la loi de Sn? Sn est le nombre de polices pour lesquelles l’assuré a disparu. On a n polices, et p=0,004. On reconnait le schéma binomial. A chaque police est associée une alternative qui amène le succès « disparaitre dans les 2 ans » avec la probabilité p. Les alternatives sont indépendantes. Sn compte le nombre de succès. Donc Sn B(n, p 0,004) . Pour les calculs il vaut mieux approximer par d’autres lois, sinon on se pend. 2) Si n=500, calculer P(Sn 2) . Rappel sur les approximations : Ici n=500, p=0,004. On approxime donc par P(2). P(Sn 2) 1 P(Sn 2) 1 P(Sn 1) 1 0, 4060 0,5940 3) Si n=40000, calculer P(Sn 120) . n est vraiment immense. On passe donc à la gaussienne. npq 40000 0,004 (1 0,004) 159, 4 159, 4 12,62 Sn N (160;12, 62) Sn 160 120 160 P( Sn 120) P P N (0,1) 3,17 P N (0,1) 3,17 par symétrie 12, 62 12, 62 On regarde la 1ère table avec u=3,2. Donc P=0,99931. Remarque sur l’approximation d’une loi discrète par une loi continue : Si on souhaite calculer par exemple P(Sn 170) , on ne peut pas le faire strictement par P N (160;12,62) 170 , car cela donnerait 0. Et c’est vrai pour toute valeur exacte. On prend donc 0,5 au-dessus et 0,5 en-dessous, cela donne un rectangle. Srectangle P( Sn 170) 1 P( Sn 170) 170,5 Srectangle f ( x)dx P N (160;12, 62) 169,5;170,5 169,5 170,5 160 0,832 12, 62 169,5 160 0, 753 12, 62 Srectangle P N (0,1) 0,832 P N (0,1) 0, 753 0, 7967 0, 7734 0, 0233 PENSER A CE CORRECTIF DE CONTINUITE LORSQUE L’ON PASSE DE DISCRET A CONTINU. Fin de l’ED4 de STA001. 77 STA001 ED5 Stéphane Radoykov, déc. 2010 EXERCICES DE STATISTIQUE INFERENTIELLE Exercices sur l’échantillonnage. Exercice : Les poids des colis reçus dans un grand magasin ont une espérance m=150kg et un écart-type =25kg. 1) Quelle est la probabilité pour que la moyenne des poids dans un lot de 100 colis reçus au hasard dépasse 155kg ? On note Xi le poids du i-ème paquet. Un lot de 100 colis est donc : X1 , X 2 ,..., X100 . X 1 100 X i . On cherche la loi de X . On est dans le cas n grand, donc quelle que soit X, on aura une 100 i 1 gaussienne => TCL. m=E(Xi)=150 2 V X i 25 . 2 25 Par le TCL, on sait que X N m 150; 2,5 . Cette formule est à connaître ! On a toujours m, et on n 10 a . Cela signifie que lorsqu’on parle de la loi de la moyenne de l’échantillon, l’écart-type diminue n rapidement, et ce d’autant plus que la taille de l’échantillon augmente. X 150 155 150 P P X 155 P P N 0,1 2 1 P N 0,1 2 1 0,9772 0, 0228 2, 28% . 2,5 2,5 Pour les lois continues supérieur strictement ou pas ne change rien pour les calculs. 2) Reprendre la question précédente avec un lot de 20 colis (en supposant la normalité des poids des colis). Ici n=20colis, ce qui est un n faible. Il nous faudrait une loi bien symétrique, et surtout il nous faudrait la loi des colis. On suppose que le poids X des colis suit une gaussienne. X i N m, . X 25 X N m 150; n 20 1 20 Xi 20 i 1 X 150 155 150 P P X 155 P P N 0,1 0,894 1 0,8133 0,1867 25 25 20 20 3) Quelle est la probabilité pour que 50 colis reçus au hasard et chargés sur un monte-charge dépassent la limite de sécurité du monte-charge qui est de 8200kg ? On a un échantillon de 50 colis, représenté par : X1 ,... X 50 . La charge totale des colis est : 50 X i 1 i . On peut se permettre d’appliquer le TCL (2ème forme), car n 30 . n X i nX N nm; n . Donc ici : X i N 50 150 7500; 50 25 176,8 i 1 50 i 1 X i 7500 8200 7500 P X i 8200 P P N 0,1 3,96 4 1 0,999968 0, 000032 176,8 176,8 On peut mettre 0 là tranquille, pas de risque. En fait loi centrée réduite, on ne va jamais au-delà de -4 et 4, car les chances sont plus petites que 3 pour 100 000 ! 78 Exercice : Trouver la probabilité pour que dans 120 jets d’une pièce de monnaie bien équilibrée le nombre de faces soit compris entre 48 et 72. Soit N le nombre de faces obtenues. N B n 120, p 0,5 N np 60; npq 120.0,52 5, 48 48 60 N 60 72 60 P P 48 N 72 P P 2,19 N 0,1 2,19 5, 48 5, 48 5, 48 P 2 P 0 N 0,1 2,19 2 0,9857 0,5 0,9714 Exercice : Lors d’élections, les résultats ont montré qu’un des candidats a obtenu 46% des voix. Déterminer la probabilité pour que le vote de 200 personnes choisies au hasard parmi le corps électoral donne une majorité de voix en faveur de ce candidat. p est le pourcentage de votants pour le candidat dans la population totale. p=0,46. F est la proportion de votes sur l’échantillon en faveur du candidat. n=200. La loi d’une proportion est à savoir ! Par cœur ! pq 0, 46 0,54 F N p 0, 46; 0, 0352 n 200 F 0, 46 0,5 0, 46 P F 0,5 P P N 0,1 1,14 1 0,8729 0,1271 0, 0352 0, 0352 Fin de l’ED5 de STA001. 79 STA001 ED6 Stéphane Radoykov, déc. 2010 EXERCICES DE STATISTIQUE INFERENTIELLE Exercices sur l’estimation. Exercice : Une machine débitant des feuilles métalliques produit un grand nombre de plaques carrées dont la dimension doit être déterminée avec un seuil de tolérance donné. Pour mesurer le produit final une règle légèrement déformée est utilisée : l’erreur de mesure est normalement distribuée avec une moyenne égale à 0 et un écart-type de 0,1. Pour améliorer la précision et se protéger contre des maladresses, deux mesures indépendantes de la longueur d’une plaque sont effectuées avec cette règle, disons X 1 et X2. Pour déterminer l’aire d’une plaque, le responsable du contrôle de la qualité est place devant un dilemme : X 2 X 22 1) Doit-il d’abord élever au carré, puis déterminer la moyenne 1 ? 2 2 X X2 2) Doit-il d’abord calculer la moyenne, puis élever au carré 1 ? 2 a. Ces 2 méthodes diffèrent-elles ? Laquelle comporte le biais le plus petit ? m est ici la vraie mesure, connue seule de Dieu. En notant l’erreur U, on peut écrire X1 m U1 . Ceci étant la résultante de nombreux facteurs, on peut qualifier la distribution de gaussienne, donc : U1 N 0, 0,1 . Donc X1 N m, 0,1 . Idem pour X2. L’aire de la plaque est un produit de deux longueurs, donc le paramètre que l’on veut estimer n’est pas m, mais m 2 . On pose : X12 X 22 X X2 T2 1 2 2 Ces deux variables sont différentes. On cherche quel estimateur des deux comporte le biais le plus petit. On va donc calculer leur espérance : 1 E T1 E X12 E X 22 . X1 et X2 suivent la même loi, ils ont la même espérance. 2 2 T1 Rappel : V X E X 2 E X 2 E X12 V X1 E X1 0,12 m2 . De même pour E X 22 0,12 m2 . 2 Donc E T1 0,12 m2 . On a un biais systématique de 0,12 . Remarque : T1 0,12 constitue un estimateur sans biais de m 2 , car 0,12 ne dépend pas de m. On pourrait choisir un nouvel estimateur. X X 2 X1 X 2 E T2 V 1 E 2 2 2 X X2 1 E 1 E X 1 E X 2 m 2 2 1 1 X X2 1 2 V 1 V X 1 V X 2 2 0,1 2 4 200 4 1 Donc : E T2 m2 200 T2 est préférable du point de vue du biais. 80 b. Quel est le biais de X1X2, autre estimateur possible de la surface ? Soit T3 X1 X 2 . On montre que E X1 X 2 E X1 E X 2 m2 , car les 2 mesures sont indépendantes. T3 est naturellement sans biais. Remarque : attention le biais ne suffit pas pour comparer ! Il faut comparer la variance ! Une cloche pointue avec biais est mieux qu’une cloche aplatie mais sans biais ! Formule de la précision d’un estimateur : 2 E T V T E T biais 2 Exercices sur les intervalles de confiance. Exercice : On mesure la force de compression d’un ciment en moulant de petits cylindres et en mesurant la pression X (exprimée en kg par cm2) à partir de laquelle ils se cassent. On note m l’espérance de X et l’on suppose dans un premier temps que son écart-type est connu et égal à 0,69. Sur un échantillon de n=80 cylindres, on a observé une moyenne des pressions égale à 20,12 kg/cm2. 1) Quel est l’estimateur sans biais de m ? Soit X : pression à partir de laquelle un cylindre de ciment casse. E(X)=m= pression moyenne à partir de laquelle un cylindre casse. V(X)=variance qui mesure la variabilité de X. σ=0,69, n=80 (X1, …X80) Estimateur : c’est sur l’échantillon. On va choisir X , en tant que variable aléatoire, centrée sur m. 1 80 X X i . X est un estimateur sans biais de m puisque E X m . 80 i 1 ˆ x 20,12 . La Sur notre échantillon, X prend la valeur x 20,12 kg / cm2 . L’estimation de m, notée m̂ , est m réalisation d’une variable aléatoire, ben c’est une valeur de cette variable. 2) Quelle est sa loi approchée ? Par le TCL (n grand), on a X N m, et plus n est grand, plus la loi se concentre autour de m. n 3) Déterminer un intervalle de confiance à 95%, puis à 99% pour m. X m - 95% : On connaît la loi de X . N 0,1 . 95% correspond à -2/+2. n Il y a donc 95% de chances que 2 - X m 2 2 2 X m n n X 2 2 m X n n n L’intervalle de confiance correspond à la réalisation de cet intervalle aléatoire, donc sur notre échantillon. D’où l’intervalle de confiance à 95% sur m : 2 2 2 0, 69 2 0, 69 ;x ; 20,12 19,97; 20, 27 x 20,12 n n 80 80 Cet intervalle est calculé compte tenu de notre échantillon. Pour un autre échantillon, ce sera un petit peu différent ! On écrit aussi m 20,12 0,15 99% : là on prend moins de risque. Donc forcément la fourchette va augmenter. On va regarder la table 2. On a 99%, soit 1%, à répartir de chaque côté de la cloche, donc en entre dans la table 0,005, mais attention on a p<0,5, donc u est négatif ! On obtient pour u -2,5758. Il y a donc 99% de chances que : X m 2,5758 2,5758 2,5758 2,5758 idem X m X n n n 81 D’où l’intervalle de confiance à 99% sur m : ; x 2,5758 x 2,5758 n n Soit sur notre échantillon : m 20,12 0, 20 . C’est un plus grand intervalle mais on a plus de confiance. 4) Si l’on suppose maintenant que est aussi inconnu et que l’écart-type des observations de l’échantillon est égal à 0,72cm, déterminer les nouvelles limites de confiance à 95% et 99% de m. Maintenant est inconnu. Un estimateur de 2 est donc la variance aléatoire : 2 1 n S2 Xi X n 1 i 1 2 1 n S Xi X n 1 i 1 S estime . On a toujours la même loi centrée réduite. De plus, car on a toujours un échantillon grand, on peut X m écrire N 0,1 . Ce n’est pas vrai pour de petits échantillons. Donc en fait rien ne change. S n X m 2S 2S 2S 2S Il y a 95% de chances que : 2 2 X m X m X S n n n n n s 2 0, 72 D’où : m x 2 20,12 20,12 0,16 n 80 Pour 99%, idem : m x 2,5758 s 20,12 0, 21 . n Exercice : Reprendre l’exercice précédent dans le cas où l’on ne dispose que d’un échantillon de 10 cylindres qui donne les pressions suivantes : 19,6 – 19,9 – 20,4 – 19,8 – 20,5 – 21,0 – 18,5 – 19,7 – 18,4 – 19,4. 1 10 Cette fois c’est un petit échantillon : X1 ,..., X10 . X X i . Cette loi est trop proche de la loi de X. On n’a 10 i 1 pas de gaussienne, l’échantillon est trop petit. Le TCL ne s’applique pas (n<30). Il va donc falloir faire une hypothèse sur X. On fait toujours l’hypothèse de normalité. Ceci peut être testé par la loi du Khi-Deux. Donc la loi des Xi est supposée gaussienne. On a alors X qui suit aussi une loi normale, par linéarité (somme de Xi et X m divisé par 10), d’espérance m et d’écart-type . D’où N 0,1 . n n 1er cas : σ connu. On va obtenir la même forme d’intervalle de confiance que dans l’exercice précédent. 2 A 95% : m x La calculatrice donne la moyenne et l’écart-type des 10 nombres, respectivement m=19,72 n et s=0,823. Donc m 19,72 0, 43 A 99% : m x 2,5758 n 19, 72 0,56 . 2ème : σ inconnu. Si l’échantillon est grand, c’est bon, X m N 0,1 . S n 82 X m T n 1 9 S n σ inconnu et petit échantillon = Student = EXAM !! La loi de Student est une cloche aussi, on veut 95% dans la cloche. Les deux petits bouts de chaque côté sont p/2. Donc le p qu’on entre dans la table est la somme des deux petites surfaces, et la table nous sort le t. On entre donc 0,05 dans la table, et on obtient t=2,262. Il y a donc 95% de chances que : X m S S 2, 262 2, 262 X 2, 262 m X 2, 262 S n n n D’où l’intervalle de confiance à 95% sur m : s s 0,823 ; x 2, 262 m 19, 72 2, 262 19, 72 0,59 19,13; 20,31 x 2, 262 n n 10 Mais si on est avec un petit échantillon, c’est un cas particulier : Et à 99% ? On entre p=0,01 dans la table Student, et on obtient t=3,250. On obtient donc l’intervalle de s confiance à 99% : m x 3, 250 19, 72 0,85 n 5) Question supplémentaire : Déterminer un intervalle de confiance à 95% de 2 . 2 1 S2 X i X est un estimateur sans biais de 2 . Il nous faut maintenant la loi de celui-ci. n 1 On fait l’hypothèse, comme toujours, et c’est CRUCIAL, de la normalité sur X, soit X i N m, . On a alors : n 1 S 2 2 2 n 1 On a 95% autour de la cloche, donc 2,5% de chaque côté. Dans la table on rentre inférieur ou égal, comme dans la loi normale, donc on va entrer 2,5 pour la limite inférieure et 2,5+95 soit 97,5% pour la limite supérieure. On obtient alors deux t : 2,700 et 19,023. Il y a donc 95% de chances que : 10 1 S 2 19, 023 9S 2 9S 2 2 (si on voulait σ, on mettrait des racines partout ici) 2, 700 2 19, 023 2, 700 D’où l’intervalle de confiance à 95% sur 2 : 9s 2 9s 2 9 0,8232 9 0,8232 ; ; 0,32; 2, 26 2, 700 19, 023 2, 700 19, 023 Exercice : En mesurant un temps de réaction, un psychologue estime que l’écart-type est de 0,05s. Quelle doit être la taille de son échantillon de mesures pour que l’erreur de son estimation n’excède pas 0,01s à 95% ? Soit X le temps de réaction de l’individu. E(X)=m= temps moyen de réaction dans la population. V(X)=σ2=variance de X. Même si ce n’est pas très clair, le psychologue souhaite estimer m. Il calcule donc l’intervalle de confiance à 95% sur m : m x 2 expérimental : ˆ 0,05 . Ce qu’on cherche, c’est n tel que : 2 2ˆ 2ˆ 0,01 n n 4 5.102 10 4 100 . 0,01 n Remarque : avec 1,96 plutôt que 2 pour 95%, on obtient n=97. n . Ce qu’on a, c’est l’écart-type Exercice : Dans une grande ville, une enquête a montré que 45 familles vivaient en-dessous du seuil de pauvreté sur un échantillon de n=500 familles. Déterminer l’intervalle de confiance à 95%, puis à 98%, pour la proportion, notée p, de familles vivant en-dessous du seuil de pauvreté. 83 p : proportion dans la population de familles vivant en-dessous du seuil de pauvreté. F : proportion aléatoire (calculé sur un échantillon de taille 500) de familles vivant en-dessous du seuil de pauvreté. Sur notre échantillon, F a pris la valeur pˆ f 45 / 500 0,09 . Pour obtenir un intervalle de confiance sur p, il nous faut la loi de F. p 1 p F N p; n Fp N 0,1 p 1 p n Mais il faut enlever p du dénominateur. Fp F 1 F n N 0,1 Il y a alors 95% de chances que : 2 F 2 Fp F 1 F n F 1 F 2 F 1 F 2 p F 2 n F p 2 F 1 F n F 1 F n n D’où l’intervalle de confiance à 95% sur p : f 1 f f 1 f f 2 ; f 2 n n p f 2 f 1 f n 0, 09 2 0, 09 1 0, 09 500 0, 09 0, 025 9% 2,5% A 98% : il y a donc 1% de chaque côté, on entre 1% dans la table et on en sort u=-2,3263. D’où : p f 2,3263 f 1 f n 9% 3% . Fin de l’ED6 de STA001. 84 STA001 ED Stéphane Radoykov, fév. 2011 Les tests statistiques 11/12/10 Exercice : Un procédé de fabrication courant a produit des millions de tubes TV, dont la durée de vie moyenne m’est 1200h et l’écart-type σ est 300h. Un nouveau procédé, estimé meilleur, fournit un échantillon de 100 tubes avec une moyenne de 1265h. 1) Bien que cet échantillon fasse apparaître le nouveau procédé comme meilleur, s’agit-il simplement d’un coup de chance de l’échantillonnage ? Est-il possible que le nouveau procédé ne soit pas meilleur que l’ancien ? X : durée de vie d’un nouveau tube de télévision. m=E(X) : durée de vie moyenne d’un nouveau tube TV. 2 =V(X), considérée identique à celle de l’ancien procédé. H 0 : m 1200 m ' il n'y a pas eu d'amélioration avec le nouveau procédé H1 : m 1200 Est-il possible d’obtenir 1265 avec l’ancien procédé ? Il faut calculer PH0 X 1265 . On avait 100 tubes. On va utiliser le T.C.L : 1 100 30 Sous H0, X N 1200,30 X X i . X est gaussienne : X N m, 100 i 1 n 1265 1200 PH0 X 1265 P N 0,1 2,17 1 0,9850 0, 015 . Assez faible. Pas complètement 30 impossible, mais on rejette H0, surtout si le nouveau procédé n’est pas cher. 1) Construire la région critique du test suivant (avec un seuil α de 5%): H 0 : m 1200 H1 : m 1200 α=risque de première espèce=5%. On peut déterminer le seuil K à partir duquel on rejettera H0, on va rejeter à droite, donc on cherche : K 1200 PH 0 X K 5% 0, 05 P N 0,1 1 0,95 30 K 1200 Et ceci est vrai avant même que l’innovation soit là ! 1, 6449 donc K 1249 30 Région critique = région de rejet de H 0 W X 1249 X 1200 1, 6449 , surtout pour la Student quand on ne connaît pas σ. Signification : On écrit plutôt : W 30 l’écart entre m et X barre est significatif s’il dépasse 1,6 fois l’écart-type de X barre. Remarque : sous H0, on n’a pas besoin de l’espérance m’ de la population. Question subsidiaire : Calculer les risque de 2ème espèce β associé à W pour une valeur de m>1200 avec m=1250. ATTENTION AUX ERREURS. α c’est rejeter H0 alors qu’elle était vraie, et β c’est ne pas la rejeter alors qu’il faudrait, cad que H1 est vraie. On se place donc dans m=1250. PH1 W P X 1249 P N 0,1 0,033 P( N 0,033) 1 P N 0,033 1 0,5120 0, 4880 . Assez élevé. On voit bien que le directeur fait attention au α, il ne veut pas virer H0 sans raison. 85 Exercice : L’expérience a montré que la charge de rupture moyenne d’une certaine marque de fil était de 9,72kg avec un écart-type de 1,40kg. Un échantillon plus récent de 36 fils a donné une charge de rupture moyenne de 8,93kg. Peut-on conclure au seuil de signification de 0,05 puis de 0,01 que le fil est devenu moins résistant ? Hasard ? Ou réel problème de fabrication. 1ère chose : grand échantillon ?? X : charge de rupture pour un fil récent. m=E(X)=charge de rupture moyenne pour un fil récent. V X écart-type de X. ATTENTION : ce n’est pas dit, mais on considère que σ n’a pas changé pour les fils fabriqués récemment. 1, 4 Notre échantillon : 36>30. On obtient donc X par le TCL : X N m, 0, 233 6 n H 0 : m 9, 72kg Puis comme d’habitude on fait variable, loi sous H0, forme de W. H1 : m 9, 72kg Variable de décision : X 9, 72 n . Loi sous H0 : X 9, 72 N 0,1 n Forme de la région critique : rejeter H0, cela veut dire accepter que la charge de rupture a diminué. On va donc rejeter pour des X 9,72 . On veut 5% , on obtient u 1,6449 . X 9, 72 W : 1, 6449 n 8,93 9, 72 3,39 . Enorme ! 1, 4 6 n Il y a vraiment peu de chances que H0 soit vraie, on la rejette. La fabrication récente des fils s’est dégradée. Sur notre échantillon, notre variable de décision prend la valeur : X 9, 72 SI 1% : On obtient alors -2,3263 pour la région critique. On rejette toujours H0 ! Le degré de signification ou p-value de ce qu’on obtient est la probabilité d’obtenir ce -3,39. X 9, 72 PH0 3,39 P N 0,1 3,39 1 P N 0,1 3,39 0, 00034 . P-value=3,4 pour 10 000. Parfois, n on se sert de la p-value pour décider, si elle est supérieure à 5% on garde H0, mais si inférieure à 5% on rejette. REMARQUE POUR L’EXAM La calculatrice doit pouvoir calculer l’écart-type de plusieurs valeurs, attention pour les échantillons la formule a un 1/n-1 devant, et non 1/n comme pour sigma. Au partiel, statistique descriptive, on utilise sigma, mais pour l’examen final, c’est s, avec n-1. Pour l’examen, si vous demandez à votre calculatrice de calculer l’écart-type entre 0, 1 et 2, il doit vous donner 1. Exercice : 1) Reprendre l’exercice précédent en supposant que l’on ne dispose que d’un petit échantillon de 5 fils qui donne les résultats suivants : 9,71 / 8,92 / 9,49 / 8,70 / 9,73. On précisera l’hypothèse nécessaire à la réalisation de l’exercice. Hypothèse essentielle car petit échantillon : X gaussienne . On suppose donc, car n<30, X N m, 1, 4 0, 63 . La variable de décision est la même, la loi sous h0 également, et la On a alors : X N m; n 5 forme de la région critique aussi. Sur notre échantillon, x 9,11 (5 valeurs). 9,11 9, 72 0, 61 0,97 . Pas question de rejeter H0 ! Tout à fait en accord avec H0. 0, 63 0, 63 86 2) Reprendre la question précédente dans le cas où l’écart-type de la charge de rupture est inconnu. Ici σ est inconnu. On suppose toujours que X est gaussienne sinon on ne peut rien faire. X N m, X m N 0,1 n X m T n 1 4 . Les hypothèses sont les mêmes. S n X 9, 72 X 9, 72 Loi sous H0 : T 4 S n S n Forme de la région critique W ? on rejette toujours à gauche, et on veut y mettre 5%. Pour obtenir t il faut entrer dans la table Student comme s’il y avait des 2 côtés ces 5%, soit p=0,1=10%. On obtient t 2,132 . Variable de décision : X 9, 72 W 2,132 S n Ici on observe : x 9,11 et s 0,577 . D’où : x 9, 72 9,11 9, 72 2,36 2,132 . On rejette s n 0,577 5 H0. MAIS, au risque de 1%, en entrant 2% dans la table Student on obtient t 3,747 donc la région critique change avec cette valeur, et avec -2,36 on garde H0. Question supplémentaire : Peut-on considérer que l’écart-type a diminué ? Ca s’est dégradé sur m, donc probablement sur 𝛔 aussi, mais je vais le tester. 2 2 H 0 : 1, 4 2 2 H1 : 1, 4 n 1 S 2 Variable de décision : 1, 42 n 1 S 2 2 n 1 4 1, 42 Forme de W (on rejette si S2 est faible), on se place dans le khi-deux, on veut 5% tout à gauche. On obtient 0,711. n 1 S 2 W 0, 711 2 1, 4 Loi sous H0 : 4 0,577 2 Ici notre variable de décision prend la valeur : 0, 68 . On rejette H0. Et d’ailleurs S est tombé vraiment 1, 42 bas puisqu’on élimine H0 avec un échantillon de seulement 5. 18/12/10 Exercice : Dans une expérience de perception extra-sensorielle on demande à un sujet isolé dans une pièce de dire la couleur (rouge ou bleue) d’une carte choisie parmi une pile de 50 cartes bien battues par un expérimentateur placé dans une autre pièce. Le sujet ne connaît pas le nombre de cartes bleues ou rouges de la pile. En supposant que le sujet identifie correctement 32 cartes, déterminer si les résultats sont significatifs au seuil de 5% puis de 1%. 32/50=64%. Est-ce que ces 64% sot vraiment > aux 50% du hasard ? Il faut se demander sur quoi se fait le test : m, sigma, ou p ?? Sur p : probabilité que le sujet découvre la couleur de la carte. 1 H 0 : p 2 H : p 1 1 2 Variable de décision : F : proportion de bonnes réponses sur un échantillon de taille 50. F est une proportion aléatoire. Sur l’échantillon particulier = 0,64, mais cette valeur n’est utilisée qu’à la fin ! 87 pq F B mais comme n est grand, F suit une gaussienne : F N p; . Démonstration : n N F avec N B n, p N np, npq n np npq pq F N p; n n n Fp N 0,1 p 1 p n important. ne change pas beaucoup de passer à F. ce sont 2 utilisations possibles Fp N 0,1 F 1 F n Loi sous H0 (p=0,5) : F 0,5 N 0,1 F 1 F n Forme de W : on rejette tout à droite, avec α=5%. P=0,95 donne u=1,6449. F 0,5 W 1, 6449 F 1 F n Sur notre échantillon, la variable de décision prend la valeur suivante : 0, 64 0,5 0, 64 1 0, 64 50 2, 06 . On accepte H1. Au seuil de 1%, P=99% donne u=2,3263. F 0,5 W 2,3263 F 1 F n Au risque de 1% on ne peut pas rejeter H0. Exercice : Le poids moyen de 50 étudiants qui ont montré un intérêt particulier pour l’athlétisme était de 68,2 kg avec un écart-type de 2,5kg, tandis que 100 autres qui n’éprouvaient aucun intérêt pour l’athlétisme avaient un poids moyen de 67,5kg avec un écart-type de 2,8kg. 1) Tester l’hypothèse que les étudiants qui participent aux épreuves d’athlé sont plus gros que les autres. Faisant de l’athlétisme Ne faisant pas d’athlétisme X1 : poids d’un individu X2 : poids d’un individu m1 : poids moyen m2 poids moyen V(X1) V(X1) Sur nos 2 échantillons : n1=50 n2=100 x1 68, 2 x2 67,5 s1=2,5 s2=2,8 On va faire le test sur m et non sur X qui est aléatoire ! H 0 : m1 m2 H1 : m1 m2 88 Variable de décision : (écarts-type non connus, et grands échantillons) Sous H0 : X1 X 2 N 0,1 . Forme de W ? On S12 S22 n1 n2 rejette si on se trouve tout à droite. On obtient u=1,6449. X1 X 2 S12 S22 n1 n2 X1 X 2 W 1, 6449 2 2 S1 S2 n 1 n2 Remarque : chez nous le numérateur vaut 0,7. Sur un petit échantillon, cet écart n’est pas très significatif, mais sur un grand échantillon si, le moindre dixième compte ! Sur notre échantillon, la variable de décision prend la valeur : 68, 2 67,5 1,32 . L’écart entre les deux groupes n’est pas suffisant pour rejeter H0. On garde H0. 2,52 2,82 50 100 Et si l’échantillon était plus grand ? S’il était 4 fois plus gros, au final on aurait *2, soit 1,32x2, on aurait rejeté. 2) De combien devrait être augmentée la taille des échantillons de chacun des deux groupes pour que la différence observée de 0,7kg sur les poids moyens soit significative au seuil de 5%, puis de 1% ? On cherche k tel que : x1 x2 2 1, 6449 k 1,55 . Donc si les échantillons étaient de 55% 1,32 1, 6449 k 1,32 1, 6449 s12 s22 kn1 kn2 plus grands, le même écart aurait été jugé significatif pour rejeter H0. Soit n1=77-78, et n2=155. 2 2,3263 Au seuil de 1%, on a u=2,3263. Donc k 3,11 . 1,32 Exercice : Dans une coopérative agricole, on désire tester l’effet d’un engrais déterminé sur la production de blé. Pour cela on choisit 24 lots de terrain de même superficie. 8 parcelles sont traitées avec l’engrais et les 16 restantes ne le sont pas (c’est le groupe de référence). Les autres conditions demeurent identiques pour les 2 groupes. La moyenne de blé obtenue sur les lots traités est de 5,1 tonnes avec un écart-type de 0,36 tonne, tandis que la moyenne obtenue sur les lots non traités est de 4,8 tonnes avec un écart-type de 0,4 tonne. Peut-on conclure qu’il n’y a pas d’amélioration significative de la production de blé avec l’engrais au seuil de 1% puis de 5% ? Population 1 : parcelles traitées par engrais. X1 : quantité de blé produite par une parvelle traitée, m1 son espérance, et sigma carré sa variance. Idem pour x2, qté produite, qté moyenne, variance. Echantillon 1 Echantillon 2 n=8 n=16 x 5,1 x 4,8 s=0,36 s=0,4 H 0 : m1 m2 H1 : m1 m2 Variable de décision ? Comme les échantillons sont de faible taille, on se doit de faire deux hypothèses : X 1 N m1 , 1 Hyp.1: X 2 N m2 , 2 Hyp.2 : 1 2 89 Les échantillons sont de petite taille avec σ inconnu : X1 X 2 où S 1 1 S n1 n2 n1 1 S12 n2 1 S22 n1 n2 2 . X1 X 2 T n1 n2 2 . 1 1 S n1 n2 Forme de W ? on exclut tout à droite dans la Student, et on veut α=5%. On entre donc p=2% pour obtenir t=2,508. Et au risque de 5% ? on obtient t=1,717. Sous H0, A 7.0,362 15.0, 42 0,388 8 16 2 x1 x2 5,1 4,8 1, 786 1 1 1 1 A 0,388 n1 n2 8 16 CCL : au risque de 1%, on ne peut pas rejeter H0, et au risque de 5% on rejette H0. Exercice : Deux groupes A et B se composent l’un de 100 personnes, l’autre de 150 personnes qui sont toutes atteintes d’une même maladie. On a administré du sérum au groupe A mais pas au groupe B (que l’on appelle groupe de contrôle), mais les deux groupes sont traités de la même façon. On a remarqué que 75 malades du groupe A et 97 du groupe B on guéri. 1) Tester l’hypothèse que le sérum est une aide efficace dans la guérison de la maladie, en considérant un niveau de 1%, puis de 5%. On va s’intéresser à la proportion de malades guéris dans les deux groupes A et B. C’est le groupe A qui a reçu le sérum. On appelle donc p A le taux de guérison dans la population A = proportion de guéris dans la population A = probabilité qu’un malade traité avec sérum soit guéri. On appelle aussi pB le taux de guérison dans la population B. On appelle FA la proportion (aléatoire) de guéris calculée sur un échantillon aléatoire tiré dans la population A, de taille nA 100 . Idem pour FB avec un échantillon de taille nB 150 tiré dans la population B. On pose alors : H 0 : p A pB H1 : p A p B Variable de décision : n F n F FA FB où pˆ A A B B . nA nB 1 1 pˆ 1 pˆ nA nB FA FB N 0,1 1 1 pˆ 1 pˆ nA nB Forme de W : on rejette tout à droite. Tout d’abord avec 1%, on obtient u=2,3263. FA FB W 2,3263 que l’on applique avec f A 75 /100 et f B 97 /150 pˆ 1 pˆ 1 1 nA nB 0, 75 97 150 75 97 172 1, 73 pˆ 0, 688 . La variable de décision prend la valeur 100 150 250 1 1 0, 688 1 0, 688 100 150 On garde H0 au risque de 1%. Sous H0, 90 FA FB Au risque α de 5% cette fois, W 1, 6449 . On peut rejeter H0 et garder H1. pˆ 1 pˆ 1 1 nA nB 2) Reprendre la question précédente en considérant des groupes de 300 et 450 personnes, sachant qu’il y a eu 225 guéries dans A et 291 dans B. 225 291 On reprend la même chose avec cette fois nA 300 f A nB =450 f B = 300 450 300 225 450 291 300 450 510 0, 688 . La variable de décision prend maintenant la valeur : Ici pˆ 300 450 750 225 291 300 450 2,99 . Au risque α de 1% (et donc a fortiori au risque de 5%), on rejette H0. 1 1 0, 688 1 0, 688 300 450 On dit que la différence du taux de guérison observée sur les 2 échantillons est significativement différente de 0. Tests de comparaison de 2 populations Exercice : On veut comparer la précision de deux marques de détecteurs de mercure. Pour cela, on a effectué 7 mesures de la concentration en mercure avec un détecteur de la marque A et 6 mesures avec un détecteur de la marque B un jour donné durant le temps de midi dans le centre d’une certaine ville. Les données obtenues sont les suivantes : Marque A 0,95 0,82 0,78 0,96 0,71 0,86 0,99 Marque B 0,89 0,91 0,94 0,91 0,90 0,89 Ces données prouvent-elles que le détecteur B mesure la concentration de mercure de manière plus précise que le détecteur A ? Pour faire les choses bien, on va tester les variances avant les moyennes. X A : mesure du mercure avec le détecteur A. X A N mA ; A . A caractérise la précision du détecteur. Idem avec B. Variable de décision et sa loi sous H0: A2 H : 1 2 2 2 0 S A2 B H 0 : A B F 6,5 2 2 2 2 S B H : A 2 1 H1 : A B B 1 Forme de W : on rejette tout à droite. La table de Fisher s’utilise TOUJOURS avec 5% à droite, que ce soit en unilatéral à droite à 5% ou en bilatéral avec 5% de chaque côté, mais il doit y avoir 5% à droite. Ici on obtient S2 t=4,95. Donc : W A2 4,95 . Sur nos échantillons : sA2 0,1086 sB2 0,00035 . On voit déjà à vue d’œil ! La SB variable de décision prend la valeur : 31,3. On rejette H0, B est plus précis car écart-type plus faible. 91 Exercice : Une usine élabore une pâte de verre dont la température de ramollissement X est supposée suivre une loi normale. A six mois d’intervalle, deux séries d’observations sont réalisées et les résultats sont les suivants : n1 9 x1 2510 s1 15,9 n2 21 x2 2492 s2 24,5 Les deux productions sont-elles identiques ? X1 : température de ramollissement de la pâte de verre en début de période. m1 : température de ramollissement moyenne de la pâte de verre en début de période. 1 V X1 X1 N m1 , 1 . X2 :idem 6 mois après. Les deux productions sont-elles identiques ? On doit tester les espérances et les variances ! Il faut toujours commencer par , c’est essentiel car petits échantillons. H 0 : 12 22 S12 Variable de décision et sa loi sous H0 : F 9, 20 2 2 S22 H1 : 1 2 Forme de W : test bilatéral, automatiquement on met 5% de chaque côté, je suis obligé de choisir un risque d’erreur de première espèce α de 10% pour pouvoir lire la table. Attention le premier degré de liberté est horizontal. On lit donc K2 direct : 2,45. Et pour K1 tel que P F 8, 20 K1 0,05 il faut user de RUSE. F 8, 20 2 8 8 20 2 2 20 1 1 20 F 20,8 Donc F b, a 2 8 F a, b F 8, 20 8 20 On va donc transformer en : 1 1 1 3,15 dans la table F(20,8). P F 20,8 et là on retrouve supérieur à K avec 5%, et on lit K1 F 8, 20 K1 1 Donc : K1 0,32 3,15 Ici la variable de décision prend la valeur : S2 2 W 12 0,32 ou 2, 45 . s12 15,9 S2 0, 42 . Nous sommes à la limite s22 24,5 inférieure, mais nous gardons H0. σ n’a pas changé en 6 mois. On passe alors au deuxième test : H 0 : m1 m2 Nous avons des petits échantillons, donc test de Student d’égalité des moyennes. H1 : m1 m2 X 1 N m1 , 1 et X 2 N m2 , 2 Hypothèses : 1 2 ESSENTIEL et je peux le vérifier en testant les variances n1 1 S12 n2 1 S22 X1 X 2 Variable de décision et sa loi sous H0 : T n1 n2 2 28 avec A n1 n2 2 1 1 A n1 n2 Forme de W : test bilatéral, on rejette des deux côtés ; donc 2,5% de chaque côté, on entre p=5% dans la table et on obtient t=2,048. 8.15,92 20.24,52 x1 x2 X1 X 2 22,38 et 2, 02 W 2, 48 . Ici x1 2510 et x2 2492 , a 28 1 1 A 1 1 a n n2 n n 1 1 2 Donc on garde H0, même si c’est de justesse. Mais on va néanmoins se poser des questions à l’avenir sur la production. La différence est presque significative. 92 Exercice : A) Pour comparer l’âge des femmes à leurs premiers mariages dans 2 groupes ethniques A et B, un échantillon de 100 femmes est tiré dans chacun des groupes. Les résultats suivants sont observés : A B Moyenne 18,5 20,7 Ecart-type 5,8 6,3 Existe-t-il une différence significative entre les 2 groupes A et B au regard de l’âge moyen à la date du premier mariage ? On appelle X A l’âge d’une femme du groupe A à son mariage, mA âge moyen, et A2 V ( X A ) . Idem pour B. nA 100 xA 18,5 sA 5,8 nB 100 xB 20,7 sB 6,3 . H 0 : mA mB H1 : mA mB Variable de décision : XA XB Sous H0, S A2 S B2 nA nB Forme de W : on rejette des deux côtés, avec 2,5% de chaque côté. XA XB W 1,96 2 2 S A SB n nB A XA XB S A2 S B2 nA nB N 0,1 Sur notre échantillon, la variable de décision prend la valeur : x A xB 18,5 20, 7 2,57 . On rejette donc 2 2 s A sB 5,82 6,32 100 100 nA nB H0, on conclut donc que la différence observée entre les 2 échantillons est significative. B) La 2ème question était posée : « avez-vous été mariée avant l’âge de 19 ans ? ». Peut-on considérer que ces 2 groupes sont identiques au regard de cette question ? : A B Oui 62 29 Non 38 71 Cette fois on s’intéresse à p A : proportion de femmes dans la population A mariées avant l’âge de 19 ans. Et idem pour B. FA est la proportion (aléatoire) tirée sur un échantillon de taille nA de femmes mariées avant 19 ans. H 0 : p A pB Ici on fait un test bilatéral car on suppose que l’on en connaît rien de la population. Car si on sait H1 : p A p B quelque chose on va privilégier un test unilatéral. Forme de W : on veut 5% en bilatéral, donc 2,5% de FA FB Variable de décision : chaque côté, ce qui donne 1 1 pˆ 1 pˆ nA nB FA FB nA FA nB FB W 1,96 où pˆ nA nB pˆ 1 pˆ 1 1 nA nB FA FB Loi sous H0 : N 0,1 1 1 pˆ 1 pˆ nA nB 62 29 91 0, 455 . La variable de décision prend alors la valeur : 100 100 200 0, 62 0, 29 4, 69 . On rejette H0, avec force même. La p-value serait de l’ordre de 106 ! 0, 455 1 0, 455 2 100 Ici, on a pˆ Fin du TD Sur les Tests 93 STA001 ED8 Stéphane Radoykov, avr. 2011 Le test du Khi-Deux Exercice : Dans une maternité on a observé pendant un an 1500 naissances qui se répartissent comme suit : Mois J F M A M J J A S O N D Nombre naissances 140 135 130 120 110 120 105 110 125 130 135 140 Peut-on accepter, au seuil de 5%, l’hypothèse selon laquelle les naissances se répartissent uniformément le long des mois de l’année ? Soit X le mois de naissance d’un individu. X est une variable qualitative à valeurs dans Janvier, Février… H 0 : X suit une loi uniforme H1 : X ne suit pas une loi uniforme Variable de décision : Classes Effectifs observés Ni J 140 F 135 M 130 A 120 M 110 J 120 J 105 A 110 S 125 O 130 N 135 D 140 1500 Effectifs théoriques npi 125 125 125 125 125 125 125 125 125 125 125 125 1500 Pi=1/12 si la loi est bien uniforme, donc quel que soit i, on a 2 12 n npi . npi=1500/12=125. On note D i npi i 1 Sous H0, D 2 12 1 0 , car aucun paramètre n’est à estimer pour spécifier la loi uniforme. Forme de W ; on rejette tout à droite, avec alpha=5% dans la table du khi-deux à 11 ddl, on trouve 19,675. W D 19,675 Ici, sur notre échantillon, D prend la valeur : 2 2 2 140 125 135 125 ... 140 125 12,8 . On garde H0. 125 125 125 Exercice : On veut étudier la variable X : nombre de frères ou sœurs d’un individu. Pour cela, on tire un échantillon de 100 individus qui permet d’obtenir la répartition suivante : Nombre de f ou s :xi 0 1 2 3 4 5 6 Nombre d’individus correspondants : ni 13 27 27 19 9 4 1 1) Estimer le nombre m défini comme l’espérance mathématique de X. X : nombre de frères et sœurs, et on a un échantillon de taille n=100. Soit E(X) le nombre moyen de frères et sœurs. E(X) est estimée par la moyenne de l’échantillon : 13 0 ... 1 6 200 x 2 100 100 2) Avec un seuil de signification de 5%, le test du khi-deux permet-il d’admettre que la loi de X est une loi de Poisson ? 3) H0 : X P H1 : X ne suit pas une loi de Poisson 94 Classes 0 1 2 3 4 Effectifs observés Ni 13 27 27 19 9 Effectifs théoriques npi 13,53 27,07 27,07 18,04 9,02 5 4 3,61 6 et plus 1 1,66 Les pi sont calculés avec la loi de poisson de paramètre 2 – P(2). P0 P P 2 0 0,1353 P1 P P 2 1 P P 2 1 P P 2 0 0, 4060 0,1353 0, 2707 P2 P P(2) 2 P P 2 2 P P 2 1 0, 6767 0, 4060 0, 2707 P3 0,1804 P4 0, 0902 P5 0, 0361 P6 P P 2 6 1 p 6 1 p 5 1 0,9834 0, 0166 On va regrouper les deux dernières classes car elles ne disposent pas des effectifs théoriques minimaux. Donc on crée en fait une classe 5 et plus. Donc on va de 0 à 5 ci-dessous. 5 ni npi i 0 npi Variable de décision : D 2 . Sous H0, D 2 6 1 1 . 6 classes, -1, -1 paramètre (m) à estimer pour spécifier la loi de Poisson P(m). Forme de W : on rejette à droite, avec alpha 5% et 4 ddl, soit 9,488. W D 9, 488 . Ici D prend la valeur : 2 2 13 13,53 5 5, 27 D ... 0,37 . 13,53 5, 27 On garde H0. Fin du ED8 sur le Khi-Deux. 95 STA001 18/12/2010 Stéphane Radoykov, fév. 2011 CORRIGE DU PARTIEL DE STATISTIQUES DECEMBRE 2009 Exercice 1: D’après la Revue du Praticien, une étude sur la durée de consultation, mesurée en minutes, d’un patient par son médecin a fait apparaître la répartition suivante (obtenue à partir de 3479 consultations) : Tableau récapitulatif des durées de consultation : Intervalle de durées Nombre de consultations [1,16[ 2018 [16,20[ 870 [20,25[ 348 [25,60[ 243 1) Quelle est la nature de la variable considérée ? C’est une variable quantitative continue. 2) Tracer l’histogramme correspondant à cette répartition. Attention à bien représenter la densité et non la fréquence simplement, car les classes ne sont pas d’amplitudes égales. Classe [1,16[ [16,20[ [20,25[ [25,60[ ai 15 4 5 35 ni fi=ni/N fi/ai 2018 0,58 0,039 870 0,25 0,063 348 0,1 0,02 243 0,07 0,002 1 16 20 25 Fi 0 0,58 0,83 0,93 3479 60 1 1 Normalement la largeur des bâtons devrait être l’amplitude des classes (sur le papier). 3) Calculer la moyenne, la variance, l’écart-type, la médiane et les quartiles de cette répartition. x fi ci 0,58 8,5 ... 0, 07 42,5 14, 65 0,5 0 Me 1 16 1 13,9 2 0,58 0 début de la classe 2 2 2 2 amplitude de la classe fi ci x 0,58 8,5 ... 14, 65 85,1 85,1 9, 2 Médiane : entre 1 et 16. (regarder le tableau de droite). position relative dans la classe 0, 25 0 Q1 1 16 1 7,5 0,58 0 0, 75 0,58 Q3 16 20 16 18, 7 0,83 0,58 4) Tracer le box-plot (ou boîte à moustaches). 1,5 Q3 Q1 11, 2 1,5 16,8 . 1 est la première valeur observée, on coupe donc là sinon on aurait des négatifs. A droite on prend comme point Q3 16,8 35,5 . [Remarque : pour les probabilités, arrondir à 3 chiffres, comme 0,105] 96 Exercice 2: La scène se passe en haut d’une falaise au bord de la mer. Pour trouver une plage et aller se baigner, les touristes ne peuvent choisir qu’entre deux plages, l’une à l’Est et l’autre à l’Ouest. 1) Un touriste se retrouve deux jours consécutifs en haut de la falaise. Le premier jour, il choisit au hasard l’une des deux directions. Le second jour, on admet que la probabilité qu’il choisisse une direction opposée à celle prise la veille vaut 0,8. Calculer la probabilité des évènements suivants : A. Les deux jours, le touriste se dirige vers l’Est B. Le deuxième jour, le touriste se dirige vers l’Ouest C. Les deux jours, le touriste se rend sur la même plage Calculer également la probabilité que le touriste se soit dirigé vers l’Est le premier jour sachant qu’il s’est dirigé vers l’Ouest le deuxième jour. P A P E1 E2 P E1 P E2 E1 0,5 0, 2 0,10 P B P O2 P E1 O2 P O1 O2 0,5 0,8 0,5 0, 2 0,5 P C P E1 E2 P O1 O2 0,5 0, 2 0,5 0, 2 0, 20 P E1 O2 P E1 O2 P O2 0,5 0,8 0,8 0,5 2) On suppose maintenant que n touristes, n 3 , se retrouvent un jour en haut de la falaise. Ces n touristes veulent tous se baigner et chacun d’eux choisit au hasard et indépendamment des autres l’une ou l’autre des deux directions. A. Déterminer la probabilité que k touristes ( 0 k n ) partent en direction de l’Est. Soit N le nombre de touristes partant à l’Est. On reconnaît le schéma binomial. A chaque touriste est associée une alternative amenant le succès « le touriste va à l’Est » avec la probabilité p=0,5. Dans ce schéma, N compte le nombre de succès. N B n, p 0,5 P N k C p 1 p k n k nk k nk C 0,5 k n Cnk n 2 B. On suppose ici que les deux plages considérées sont désertes au départ. On dit qu’un touriste est « heureux » s’il se retrouve seul sur une plage. Déterminer qu’il y ait un touriste heureux parmi ces n touristes. On est dans le cas où k 1 ou k n 1 , soit tous à l’Est sauf 1, ou tous à l’Ouest sauf 1. Ce sont deux évènements incompatibles. C1 C n 1 P N 1 N n 1 nn nn Rappel: Cnp Cnn p 2 2 2n n n n 1 Donc Cnn 1 Cn Cn1 n et P n n 1 2 2 C. A.N. avec n=10. 10 P 9 2% 2 Fin du corrigé du partiel 2009 97 STA001 08/01/2011 Stéphane Radoykov, fév. 2011 CORRIGE DU PARTIEL DE STATISTIQUES DECEMBRE 2010 Exercice 1: L’OCDE a observé la variable statistique X : « nombre annuel moyen de consultations de médecins par habitant » pour les 16 pays suivants : Japon Rép. Tchèque Espagne Belgique Danemark Allemagne Italie Autriche 13,7 12,9 8,1 7,5 7,5 7,0 7,0 6,7 France 6,4 Pays-Bas 5,6 Royaume-Uni 5,1 Finlande 4,3 Etats-Unis 4,0 Portugal 3,9 Turquie 3,1 Suède 2,8 1) Quelle est la nature de la variable statistique X ? X est une variable quantitative continue. 2) Tracer le diagramme tige-feuilles représentant cette variable X 1 2 3 4 5 6 7 8 9 10 11 12 13 8 1 0 1 4 0 1 9 3 6 7 0 5 5 9 7 3) On regroupe les données en 4 classes [2,4[ [4,6[ [6,8[ [8,14[ Classes [2,4[ [4,6[ [6,8[ [8,14[ ai 2 2 2 6 ci 3 5 7 11 ni fi fi/ai 3 0,1875 0,094 4 0,25 0,125 6 0,375 0,188 3 0,1875 0,031 F 2 0 4 0,1875 6 0,4375 8 0,8125 14 1 4) Calculer la moyenne, la variance, l’écart-type, la médiane et les quartiles de cette répartition. x 6, 60 Me 6,55 (moyenne entre 6,4 et 6,7) 2 8,98 Q1 4,15 8,98 2,996 Q3 7,5 98 5) Tracer le box-plot. Q3 Q1 3,35 1,5 Q3 Q1 5, 0 A gauche on prend comme première valeur 2,8, première valeur rencontrée, et à droite on s’arrête à 7,5+5=12,5. Il y a donc 2 valeurs aberrantes notées avec une petite croix chacune. Exercice 2 : Une société de sondage par téléphone enquête sur la qualité d’un produit auprès d’une population de clients. Lors du premier appel, la probabilité que le client soit absent est 0,3. Sachant que le client est présent, la probabilité qu’il réponde au questionnaire est 0,25. On note A1 l’évènement « le client est absent lors du premier appel » et B1 l’évènement « le client répond au questionnaire lors du premier appel ». 1) Calculer la probabilité de B1. 2) Lorsqu’un client est absent lors du premier appel, on lui téléphone une seconde fois, à une heure différente, et alors, la probabilité qu’il soit absent est 0,2. Et, sachant qu’il est présent lors du second appel, la probabilité qu’il réponde au questionnaire est encore 0,25. Si le client est absent lors du second appel, on ne tente plus de le contacter. On note A2 l’évènement « le client est absent lors du second appel », B2 l’évènement « le client répons au questionnaire lors du second appel » et B l’évènement « le client répond au questionnaire ». a. Calculer la probabilité que le client soit absent lors des deux appels. b. Calculer la probabilité de B2, puis celle de B. 3) Sachant qu’un client a répondu au questionnaire, quelle est la probabilité que la réponse ait été donnée lors du premier appel ? 4) On suppose qu’une centaine de clients ont été tirés au hasard avec remise. Quelle est la loi de la variable aléatoire N égale au nombre de clients absents lors des deux appels téléphoniques ? Quelle est sa loi approchée ? Calculer la probabilité qu’il y ait au total strictement plus de 10 clients absents lors des deux appels. 1) P B1 0,7 0, 25 0,175 2) a) P A1 A2 0,3 0, 2 0,06 P B2 0,3 0,8 0, 25 0, 06 b) B B1 B2 P B P B1 P B2 0,175 0, 06 0, 235 3) P P B1 B P B1 B P B P B1 P( B) 0, 745 Car B1 B 4) On reconnaît le schéma binomial. A chaque client est associée une alternative (indépendante des autres) qui amène le succès ( A1 A2 ) avec la probabilité p=0,06. Et N compte le nombre de succès. N B n 100, p 0,06 P np 6 car n 50 et p 10% . P N 10 1 P N 10 1 0,9574 0,0426 Fin du corrigé du partiel 2010 99 STA001 Stéphane Radoykov, jan. 2011 CORRIGE DE L’EXAMEN DE FEVRIER 2010 Exercice 1: PARTIE A D’après la Revue du Praticien, une consultation d’un médecin généraliste en France a une durée moyenne de 16 minutes avec un écart-type de 7 minutes. On souhaite étudier la durée de consultation d’un médecin particulier, appelé médecin A. On note m la durée moyenne d’une consultation pour ce médecin A et son écart-type. On examine un échantillon de 25 consultations du médecin A pour lequel on a observé une moyenne de 14 minutes avec un écart-type de 10 minutes. Dans toutes les questions suivantes on précisera les hypothèses nécessaires. 1) Donner un intervalle de confiance à 95% pour m. Soit X la durée d’une consultation chez A. m=E(X)=durée moyenne d’une consultation chez A. 2 V ( X ) On a observé un échantillon de n=25 consultations chez ce médecin, x 14 s 10 . X est un estimateur sans biais de m. L’échantillon étant petit, on doit faire l’hypothèse que X suit une loi normale X N m, . Dans ce cas, on a : X m T (n 1) S n On s’intéresse à T(24). 95% au centre de la cloche, donc p/2 de chaque coté, on entre dans la table 5%, et on obtient t=2,064. Il y a 95% de chances que : X m 2, 064 2, 064 S n 2, 064 S X m 2, 064 S n n X 2, 064 S m X 2, 064 S n n m x 2, 064 s 10 14 2, 064 14 4,128 n 25 2) Tester H0 : m=16 contre H1 : m<16, au seuil de 5%. Donner la définition et la signification de la pvalue, sans la calculer. H 0 : m 16 H1 : m 16 Variable de décision (sous H0) : X 16 S n X 16 T (24) S n Forme de W : on va rejeter si valeurs très petites de m, donc tout à gauche de la courbe. Et c’est là qu’on aura les 5%. On entre donc p=10% puisque la table prend avec p/2 p/2 de chaque coté. On obtient t=-1,711. On obtient X 16 1, 711 . alors la région critique : W S n Sous H0 : 100 14 16 1 . On ne rejette pas H0, on garde H0. 10 25 Remarque : chez ce médecin, s=10 +++, donc c’est pas du tout aberrant d’obtenir 14 sur l’échantillon même si m=16. Autre remarque : on suppose sigma inconnu, on n’étudie que le médecin A seul. A.N. :ici la variable de décision prend la valeur : P-value ? C’est la probabilité, alors que H0 est vraie, d’observer une valeur aussi éloignée de 0 que l’est la valeur de notre variable de décision calculée. X 16 p value PH0 1 P T 24 1 0,15 . (la table pour t=1 nous donne 0,30, et nous on ne veut S n qu’à gauche, donc on prend p/2). Sous H0, on a 15% de chances de se retrouver <-1, pas impossible. En pratique, si p-value<5% on rejette H0, si >5%, on garde H0, ce n’est pas impossible. 3) Tester H0 : 2 49 contre H1 : 2 49 , au seuil de 5%. 2 H 0 : 49 On met supérieur parce que l’on a observé 10. Ce serait exactement la même chose de raisonner sur 2 H1 : 49 les écart-types, mais la loi sur les variances est plus adaptés, plus belle. Il nous faut absolument une hypothèse : la normalité. n 1 S 2 Variable de décision : 49 2 n 1 S 2 24 Sous H0 : 49 Forme de W : on va rejeter complètement à droite dans le Khi-Deux, avec un proba de 5%. La table nous donne pour 5% : 36,415. Donc : 2 24 S W 36, 415 . 49 24s 2 Ici la variable de décision prend la valeur : 48,98 . On rejette H0. On considère donc que pour ce médecin 49 A, 0,7 . La p-value ici est entre 1 et 5 pour mille (cf table ce qui se rapproche de 48,98). 4) Dans cette question on souhaite comparer le médecin A avec un autre médecin B, installé dans la même rue. Pour ce médecin B, on dispose d’un échantillon de 20 consultations pour lequel on a calculé une moyenne de 18 minutes et un écart-type de 8 minutes. Peut-on considérer qu’il y a une différence significative entre ces deux médecins au regard de la durée de consultation ? On fixera un seuil de 10% pour le test d’égalité des variances et de 5% pour le test d’égalité des moyennes. Médecin A : n 25 x=14 =10 . Médecin B : n 18 x=18 =8 . « Au regard de la durée de consultation » indique qu’il faut comparer aussi bien espérance que variance. Sinon serait précisé. Faire schéma 2 patates, avec X, m, sigma, n, x, s. Commencer par l’égalité des variances ! En effet, pour tester les espérances on a besoin de l’hypothèse de normalité mais aussi de l’hypothèse d’égalité des variances ! Test d’égalité des variances : A2 H0 : 2 1 B A2 Variable de décision : 2 B2 H : A 1 1 B2 101 Sous H0 : A2 F nA 1; nB 1 soit pour ddl 24 et 19. B2 Ici c’est un test bilatéral, on va rejeter si on est des deux côtés de la cloche. On veut 10% au final, donc 5% de chaque côté. La loi de Fisher donne l’abscisse à 5% de la probabilité de dépasser a. Pour la borne de gauche pas de problème, classique, 2,11. Pour celle de gauche c’est plus dur (cloche avec 5% de chaque côté). a est tq : (on va faire une astuce) 1 1 P F 24,19 a 5% P a F 24,19 F 19,24 On se retrouve à chercher une probabilité d’être > à 1/a, donc on cherche 1/a dans la table, =2,04. Donc a =1/2,04. Fin de la correction de l’examen an passé. 2 1 Forme de W : W A2 0,5 ou 2,11 B 2, 04 Ici A2 102 1,56 . Donc on garde H0. Heureusement, on peut continuer sur la moyenne. B2 82 Test d’égalité des espérances. Hypothèses : normalité sur A et sur B, et égalité des variances (just did it). H 0 : mA mB H1 : mA mB XA XB Variable de décision : 1 1 S nA nB Sous H0 : où S nA 1 S A2 nB 1 S B2 nA nB 2 XA XB T nA nB 2 ddl=25+20-2=43. On n’a pas cette table, prendre 40, ou la normale 1 1 S nA nB (approximation par gaussienne). Dans ce cas on prend -2 +2 (5%). Si on regarde T(40) on obtient 2,021. XA XB Forme de W : W 2 . Il a insisté sur cette partie pour l’examen ! S 1 1 n n A B Ici : s 24.102 19.82 9,17 . De plus, 43 x A xB 14 18 1, 45 . On garde donc H0. 1 1 1 1 s 9,17 nA nB 25 20 PARTIE B On s’intéresse maintenant au paramètre p égal à la proportion des consultations qui dépassent 25 minutes pour un médecin C. Sur un échantillon de 100 consultations effectuées par ce médecin C il y en a 10 qui dépassent 25 minutes. p= consults qui dépassent 25min/toutes les consults. 1) Déterminer un intervalle de confiance à 95% de p. Fp N 0,1 F 1 F n 102 Il y a 95% de chances que : 2 Fp 2 p f 2 f 1 f n F 1 F n A.N. : ici f=10/100. Donc p 0,10 0, 06 . 2) Tester l’hypothèse p=0,07 contre p>0,07, au seuil de 5%. H 0 : p 0, 07 Test : H1 : p 0, 07 F 0, 07 F 0, 07 Variable de décision : ou parfois F 1 F p 1 p n n F 0, 07 Sous H0 : N 0,1 F 1 F n On rejette où ? Tout à droite, lorsque p est très supérieur à 0,07. Donc on met nos 5% tout à droite. Ceci nous donne un u=1,6449. Donc : F 0, 07 W 1, 6449 F 1 F n Sur notre échantillon, la variable de décision prend la valeur (f=0,10) : 0,10 0, 07 1 . On garde donc H0. 0,10 0,90 100 3) Pour un autre médecin D on a examiné 200 consultations et constaté que 30 dépassaient 25 minutes. Peut-on considérer que le pourcentage des consultations qui dépassent 25 minutes pour le médecin D est significativement supérieur à celui du médecin C (au seuil de 5%) ? H 0 : pC pD Test : H1 : pC pD Variable de décision : FC FD pˆ 1 pˆ 1 1 nC nD pˆ nC FC nD FD = valeur supposée commune nC nD FC FD N 0,1 1 1 pˆ 1 pˆ nC nD On rejette où ? Tout à gauche. Attention car on teste C < D. Ne pas se tromper le jour de l’examen. Donc nos 5% de rejet tout à gauche. Ce qui donne u=-1,6449. D’où la zone de rejet W : FC FD W 1, 6449 pˆ 1 pˆ 1 1 n n C D Sous H0 : 103 A.N. : 100 10 /100 200 30 / 200 10 30 4 pˆ 100 200 100 200 30 La variable de décision prend la valeur : -1,2. On garde donc H0. Exercice 2 : La répartition des 4 groupes sanguins (O, A, B, AB) dans la population française est donnée par le tableau suivant (cf. Wikipedia) : O A B AB 43% 45% 9% 3% On a examiné un échantillon de taille 200 tirés dans la population basque. Ces 200 basques se répartissent : A A B AB 112 80 6 2 Peut-on considérer que la répartition des groupes sanguins dans la population basque est identique à celle de la population française dans son ensemble (avec un seuil de 5%) ? On calcule les pourcentages parmi les 200 basques : 0,56 / 0,4 / 0,03 / 0,01. On va faire le test du Khi-Deux. Soit X le groupe sanguin d’un basque. H 0 : X suit la loi de la population française, donc le même pourcentage des groupes sanguins H1 : X ne suit pas cette distribution On va construire un tableau effectifs observés / théoriques. Classes Effectifs observés ni Effectifs théoriques n.pi O 112 200x0,43=86 A 80 200x0,45=90 B 6 200x0,09=18 AB 2 200x0,03=6 200 4 N n i 1 n pi Variable de décision : D i 2 pi Sous H0 : D 4 1 0 3 . Le 0 correspond au nombre de paramètres pour spécifier la loi théorique. Forme de W : on élimine si tout à droite, au risque de 5% on trouve 7,815. W D 7,815 2 112 86 Ici D prend la valeur 2 ... 19, 64 86 On rejette donc H0. La distribution basque est différente de la distribution française. Fin du corrigé de l’exam 2010. 104 TECHNIQUES DE LA STATISTIQUE UE : STA 001 EXAMEN (prèmière session) Samedi 19 février 2011 Tous documents et calculatrices autorisés EXERCICE 1 On suppose que le poids d'un nouveau-né est une variable aléatoire de loi gaussienne d'espérance m et d'écart-type o. On observe un échantillon de B nouveau-nés et on note les poids suivants : 3,40 3,62 3,38 3,4r 2,96 3,80 2,60 L'..,,..* û ii. '... -./ '*'o'"'''+r 3,7r '" ,.. .; Donner une estimation sans biais de m et de o2. Donner un intervalle de confiance à95% pour 3. Au seuil de îYo, tester Ho : Tn - 3, 6 m et, pour o2. contrc H1 : m .--3, 6 . Qu'appelle-t-on erreur de première espèce et erreur de deuxième espèce pour *ce test ? | 4. On s'intéresse maintenant au poids d'un nouveau-né dans la situation particulière où la grossesse a été difficile. Sur un échantillon de 10 nouveau-nés (associés à une grossesse difficile) on a calculé un poids moyen de 3,0 kg et un écart-type de 0,3 kg. - au seuil de 10T0, peut-on considérer que les deux écart-types observés sur les deux échantillons sont significativement différents? - au seuil de 5To,le poids moyen d'un nouveau-né dans le cas d'une ilifficite peut-il être considéré comme plus faible ? grossesse 105 .EXERCICE 2 On s'intéresse au paramètre p égal à la proportion de personnes touchées par la grippe à Paris. Sur un échantillon de 200 parisiens on observe que 12 ont été touchés par la grippe. a t *ç , Déterminer un intervalle de confiance à gS% pour p. r-{;'- ,{, t'Oster Hs i p:0,04 contre Ht: p } 0,04 au seuil de 5%. 3-. Un échantillon de 150 personnes est tiré dans la région de Lyon. On donsttte que 4 personnes ont été touchées par la grippe . Peut-on considérer que le pourcentage de personnes touchées par la grippe est identique à Paris et à Lyon (on prendra un seuil de 5%)7 EXERCICE 3 Le tableau suivant donne la répartition du nombre annuel d'ouragans ayant touché les USA entre 1850 et 2008 (soit 1bg années): Nombre d'ouragans par an Nombre d'années 0 1 2 3 4 5 6 7 30 4B 37 29 8 3 3 1 Au seuil de 57o,le test du Khi-deux permet-il d'admettre que la loi du nombre annuel d'ouragans est une loi de Poisson de paramètre 2 ? ;EXERCICE 4 taduire en termes de probabilités la phrase suivante, entendue à la rad"io en 2008 : " il y a proportionnellement plus de centenaires aux yeux bleus" ; on notera B l'événement "avoir les yeux bleus" et C l'événement "être centenaire". Cela signifie-t-il qu'automatiquement, quand on a les yeux bleus on a plus de chance d'être centenaire ? 106