Statistique Étude d’un caractère Présentation des résultats Calcul des indicateurs Interprétation Étude simultanée de deux caractères Tableau de contingence Conditionnement Ajustement 1 Étude d’un caractère 1. Tri des données Utilisation des outils Diagramme en tiges et feuilles 2 Soit une série de 45 valeurs de taux d’hémoglobine (en g.L1) 105, 120, 125, 126, 126, 130, 132, 133, 134, 135, 138, 138, 141, 144, 146, 148, 148, 148, 149, 150, 150, 150, 151, 151, 153, 153, 154, 154, 155, 156, 156, 158, 160, 160, ….., 179 Médiane Tige Feuilles 10 5 1 11 1 12 0 5 6 6 5 13 0 2 3 4 5 8 8 12 14 1 4 6 8 8 8 9 19 15 0 0 0 1 1 3 3 4 4 16 0 0 3 4 4 5 6 8 8 17 0 2 2 9 5 6 6 8 32 41 45 Quartiles : 1er quartile : la plus petite valeur observée telle que, au moins 25% des données lui soient inférieures ou égales. Site Euler : Lexique et Fiches n° 470 3 2. Caractérisation d’une série statistique Indicateur de centralité Indicateur de dispersion Médiane Quantiles, intervalle interquartile….. Moyenne Écart type 4 Tige 10 Feuilles 5 1 11 1 12 0 5 6 6 5 13 0 2 3 4 5 8 8 12 14 1 4 6 8 8 8 9 19 15 0 0 0 1 1 3 3 4 4 16 0 0 3 4 4 5 6 8 8 17 0 2 2 9 5 6 6 8 32 41 45 Diagramme en boîte Fiches Euler : 470 – 1460 – 1461 min D1 Q1 me Q3 D9 max 5 Comparaison de 2 séries 6 Séries statistiques à deux variables 1. Deux variables qualitatives : étude fréquentielle Groupe sanguin et facteur Rhésus (10 000 naissances dans des maternités de France) effectifs O A B AB Total R 3 566 3 968 753 385 8672 R– 576 578 110 64 1328 Total 4142 4546 863 449 10 000 Fréquences par rapport à la population totale fréquences O A B AB Total R 0,3566 0,3968 0,0753 0,0385 0,8672 R– 0,0576 0,0578 0,0110 0,0064 0,1328 Total 0,4142 0,4546 0,0863 0,0449 1 Fréquences marginales : f (O) = 0,4142 f (R+) = 0,8672 Fréquences partielles ou conjointes : f (O R ) = 0,3566 7 Fréquences conditionnelles Fréquences par rapport à une sous - population fréquences O A B AB Total R 0,3566 0,3968 0,0753 0,0385 0,8672 R– 0,0576 0,0578 0,011 0,0064 0,1328 Total 0,4142 0,4546 0,0863 0,0449 1 Fréquence de R+ sachant O : Conséquence : Fréquence de O sachant R+: 0,3566 fO R f O 0,4142 f O R f O R f O f O R f O R f O R f O R f R 0,3566 0,8672 fR O f R 8 Arbre de répartition des fréquences O f O R R+ f (OR+) =f O(R+)f (O) R- f (O) A R+ RB R+ RR+ AB R9 2. Deux variables quantitatives Nuage de points, point moyen Ajustement Sur chaque individu d’une population de n individus, on mesure deux variables, x et y. Les valeurs prises par x et y pour un individu donné sont notées xi et yi. On cherche s’il existe une relation simple entre x et y. Exemple 10 Probabilités Introduction : simulation d’épreuves aléatoires et fluctuation d’échantillonnage Existence d’un modèle théorique, loi de probabilité Conditionnement et indépendance 11 Nombre 1. Existence d’un modèle théorique de Filles F ............................ 4 F familles de 4 enfants : F nombre de filles G ............................ 3 F ............................ 3 G F G ............................ 2 F ............................ 3 F Simulation G ............................ 2 G F ............................ 2 G G ............................ 1 F ............................ 3 F F probabilités 0 16 0,0625 G ............................ 1 F ............................ 2 F G 1 F ............................ 2 G G Valeurs possibles G ............................ 2 4 0,25 F ............................ 1 G 1 1 G ............................ 1 G ............................ 0 2 3 8 0,375 3 1 4 0,25 4 1 16 0,0625 12 2. Probabilités conditionnelles Groupes sanguins et facteur rhésus O A B AB Total R 3566 3968 753 384 8672 R– 576 578 110 64 1328 Total 4142 4546 863 449 10 000 Choix d’une personne au hasard dans la population P(O R) = 0,3566 P O R 0,3566 + Probabilité de R sachant O : PO R PO 0,4142 P(O) = 0,4142 P(R) = 0,8672 Conséquence : POR PO R P O Propriété : La probabilité sachant O est une nouvelle probabilité sur le même univers. Fiches Euler : 326 - 436 13 3. Indépendance Fréquences conjointes et fréquences marginales fréquences O A B AB Total R 0,3566 0,3968 0,0753 0,0385 0,8672 R– 0,0576 0,0578 0,011 0,0064 0,1328 Total 0,4142 0,4546 0,0863 0,0449 1 Fréquences conditionnelles, selon le groupe sanguin Fréquences conditionnelles, selon le facteur rhésus O A B AB Total fRH+(...) 0,411 0,458 0,087 0,044 1 fRH–(...) 0,434 0,435 0,083 0,048 1 f RH+ (O) f (O) fO(...) fA(...) fB(...) fAB(...) RH+ 0,861 0,873 0,873 0,857 RH– 0,139 0,127 0,127 0,143 Total 1 1 1 1 f O (RH+) f (RH+) 14 Définition de l’indépendance Deux événements A et B, tels que P(A) 0 et P(B) 0 sont indépendants si et seulement si PB(A) = P(A). La réalisation de B ne modifie pas la valeur de la probabilité de A. Soit deux événements A et B, tels que P(A) 0 et P(B) 0. PB A PA PA B PB PA PA B PA PB PB PB A PA PA B PA PB PA B PA PB A PA PA B PB Deux événements A et B, tels que P(A) 0 et P(B) 0 sont indépendants si et seulement si P (AB) = P(A)P(B). Fiche Euler : 446 15 Nombre de filles dans une famille de 4 enfants A : « l’ainé est une fille » B : « la famille compte exactement deux filles » PA 1 PB 3 2 PA B PB 3 PA B 8 8 Les événements A et B sont indépendants. C : « la famille compte au moins deux filles » PC 11 16 7 PA C 8 PA C PC Les événements A et C ne sont pas indépendants 16 Arbre de probabilité Deux tirages successifs dans une urne contenant 3 boules blanches et deux boules noires. 1er cas : Tirages sans remise 1 2 3 B2 P B1 B 2 B1 1 5 2 N2 2 5 4 B2 1 3 1 0,3 5 2 P B 2 P B1 B 2 P N1 B 2 P B 2 0,6 3 P B1 B 2 P B1 PB B 2 3 5 N1 1 4 N2 17 Deux tirages successifs dans une urne contenant 3 boules blanches et deux boules noires. 2ème cas : Tirages avec remise 3 5 3 B2 B1 2 5 5 N2 1 PB B 2 3 2 5 P B 2 P B1 B 2 P N1 B 2 0,6 5 5 5 0,6 B2 N1 2 3 Tirages indépendants N2 18 Application : Test de dépistage On dispose d’un test de dépistage pour une maladie qui peut affecter les individus d’une certaine population. Événements : M : « être malade » T + : « présenter un test positif » T – : « présenter un test négatif » Malades Non Malades Test Positif Vrais Positifs Faux Positifs Test Négatif Faux Négatifs Vrais Négatifs Total Total 19 Étalonnage : données statistiques et définition d’un modèle Prévalence : p = P(M) Spécificité : PM T Sensibilité : PM T Utilisation du test et calcul de probabilités Comment interpréter le résultat d’un test qui aurait été pratiqué sur un individu appartenant à la population considérée ? Quelle est la probabilité, sachant que le test est positif, d’être malade ? Valeur Prédictive Positive : PT M Quelle est la probabilité, sachant que le test est négatif, de n’être pas malade ? Valeur Prédictive négative : PT M 20 P T Sensibilité : S PM T e Spécificité : S p M Prévalence : p = P(M) S T e Valeur Prédictive Positive : PT M P M T VPP P M T P T VPP e 1S e p T T p S e Sp p Sp VPN S Sp p Sp e Sp p Sp Un exemple T p p Se M S VPP p S 1 p 1 S e 1S 1 p p S M p Valeur Prédictive Négative : PT M p VPP(p) est croissante p VPN(p) est décroissante21 Dépendance ou causalité L’indépendance : une propriété numérique du modèle probabiliste choisi. Lancer d’un dé à 6 faces. Les faces 1 et 2 sont blanches, les faces 3, 4, 5 et 6 sont rouges A: « numéro pair » et B : « face blanche » 1er cas : modèle équiprobable 1 P(A) = , 2 P(B) = 1 , 3 P(AB) = 1 6 2ième cas P(AB) = P(A)P(B) A et B sont indépendants p1 = p2 = p3 = p4 = p5 = 0,165 et p6 = 0,175 P(AB) P(A)P(B) P(A) = 0,33 + 0,175 = 0,505 A et B ne sont pas indépendants P(B) = 0,33 , P(AB) = 0,165 P(A)P(B) = 0,16665 22