24/10/2016 Existe-t-il des calculs théoriques de distributions ? Distributions théoriques Partons d’une situation simple: un événement pour lequel seules deux issues sont possibles. – Exemples: Cours VETE0432-1 Mathématique et Biostatistique – Année académique 2016-2017 Une variable aléatoire X, représentant un tel événement, ne peut prendre que deux valeurs, 0 ou 1. On parle de variable de Bernoulli. 1 Quelle est la distribution d’une variable de Bernoulli ? Mathématique et Biostatistique – Année académique 2016-2017 2 Et si on répète l’expérience aléatoire ? La distribution d’une variable aléatoire de Bernoulli X peut s’écrire: Si on fait n fois l’expérience aléatoire, une question est: combien de fois l’événement aléatoire a-t-il eu lieu ? Pr( X ) = θ X (1 − θ ) 1− X – Exemple: si je prélève n=5 individus, combien d’individus malades vais-je avoir ? – Où θ est un paramètre, représentant la probabilité que X = 1 – Exemple: si la prévalence d’une maladie est 0.2, X représente l’expérience aléatoire consistant à prélever un individu dans la population. L’événement aléatoire « choix d’un individu sain (malade) » correspond à X = 0 (1). Mathématique et Biostatistique – Année académique 2016-2017 mâle (0) ou femelle (1), mort (0) ou vivant (1), malade (0) ou sain (1). Théoriquement, je peux avoir entre 0 et n fois l’événement qui m’intéresse, chaque valeur possible ayant une certaine probabilité (à déterminer). On représente ce nombre de réalisations par une variable aléatoire, notée r. 3 Mathématique et Biostatistique – Année académique 2016-2017 4 1 24/10/2016 Comment calculer la distribution de r ? Quels sont tous les cas possibles dans l’expérience ? Sain Repartons de l’exemple des n = 5 individus prélevés dans une population où la prévalence d’une maladie est p = 0.2 On peut représenter tous les cas de figure pouvant se présenter lors d’une expérience de ce type (soit, prélever 5 individus dans une population binaire) Mathématique et Biostatistique – Année académique 2016-2017 Mathématique et Biostatistique – Année académique 2016-2017 5 Comment calculer la probabilité d’avoir 0 malade ? Sain Malade 6 Comment calculer la probabilité d’avoir 1 malade ? Sain Malade Malade Pr(r = 0) = (1 − p ) = 0.85 = 0.328 n On a fait les hypothèses que: – Les tirages successifs sont indépendants – La prévalence reste constante de tirage en tirage (on parle de tirage avec remise). Mathématique et Biostatistique – Année académique 2016-2017 Pr(r = 1) = 5 * p * (1 − p ) n −1 7 = 5 * 0.2 * 0.84 = 0.410 Mathématique et Biostatistique – Année académique 2016-2017 8 2 24/10/2016 Comment calculer la probabilité d’avoir 2 malades ? Sain Comment calculer la probabilité d’avoir r malades ? Malade Dans chaque situation, il y aura r malades et (n - r) sains. La probabilité de chaque situation est donc: p r * (1 − p ) n−r Pr(r = 2) = 10 * p r * (1 − p ) n−r Combien de situations (mutuellement exclusives) y a-t-il ? n! Cnr = r!( n − r )! 3 = 10 * 0Mathématique .2 2 * 0et.8Biostatistique = 0.–205 Année académique 2016-2017 Mathématique et Biostatistique – Année académique 2016-2017 9 Comment calculer la probabilité d’avoir r malades ? 10 Peut-on avoir des exemples d’utilisation de la loi binomiale ? En sommant (probabilités totales), on obtient la probabilité globale d’avoir r malades: Exemple I : représenter graphiquement la loi binomiale pour p = 0.3 et n = 50. Pr(r | p, n) = Cnr p r * (1 − p ) n−r Distribution binomiale Probabilité 0,15 Cette distribution de r comporte donc deux paramètres n et p. Elle s’appelle « distribution binomiale » 0,1 0,05 48 45 42 39 36 33 30 27 24 21 18 15 9 12 6 3 0 0 r Mathématique et Biostatistique – Année académique 2016-2017 11 Mathématique et Biostatistique – Année académique 2016-2017 12 3 24/10/2016 Peut-on avoir des exemples d’utilisation de la loi binomiale ? Peut-on avoir des exemples d’utilisation de la loi binomiale ? Exemple III : si une affection est présente dans une population avec une fréquence de 0.02, combien d ’animaux dois-je examiner pour être sûr à 99% de détecter l ’affection ? Exemple II : si la probabilité d ’une affection est de 0.2, quelle est la probabilité d ’avoir (exactement) 2 atteints parmi 10 animaux ? 2 B ( 2 ) = C 10 0 .2 2 0 .8 8 = B(0 | 0.02, n) = 0.98n = 0.01 10 ! 0 . 2 2 0 . 8 8 = 0 . 302 2 !8 ! n = log(0.01) / log(0.98) = 228 Mathématique et Biostatistique – Année académique 2016-2017 Comment calculer la moyenne et la variance d’une binomiale ? r=n r =0 La distribution binomiale se généralise à des situations avec k issues => distributions polynomiales Pr(r1 , r2 ,⋯ , rk | p1 , p2 , ⋯ , pk , n) = k r =n σ 2 = ∑ (r − np) 2 B( r ) = npq r =0 Mathématique et Biostatistique – Année académique 2016-2017 14 Que faire si j’ai plus de deux issues dans mon expérience ? Ce sont les espérances mathématiques de r et de (r - µr)², respectivement. On peut les calculer puisque toutes les valeurs de r et les probabilités associées sont connues. µ = ∑ r * B(r ) = np Mathématique et Biostatistique – Année académique 2016-2017 13 n = ∑ rk i =1 15 n! p1r1 ⋯ pkrk r1!⋯ rk ! k 1 = ∑ pk i =1 Mathématique et Biostatistique – Année académique 2016-2017 16 4 24/10/2016 Un exemple ? Un exemple ? Exemple: des animaux peuvent être indemnes (-), atteints légèrement (+) ou gravement (++) d’une pathologie. Calculer la probabilité d’avoir 3 atteints légers et un atteint grave dans un échantillon de taille 10, sachant que P(-) = 0.8, P(+) = 0.15, P(++) = 0.05 Solution: Graphique: P(n+,n++ | p+, p++) Distribution trinomiale P(x,y | p,q) 0,25 0,2 0,2-0,25 0,15 0,15-0,2 0,1-0,15 0,1 9 0,05 6 0 0 Pr(3,1,6 | 0.15,0.05,0.8,10) = 3 4 5 6 7 8 9 0 10 Mathématique et Biostatistique – Année académique 2016-2017 18 Quelles sont les propriétés principales de cette loi ? Exemple: lors de comptages bactériens, le nombre de bactéries qui peut apparaître par unité de volume dépend de la concentration initiale et de la dilution. A priori, n est inconnu, mais supposé potentiellement très grand. Stricto sensu, il s’agit d’un événement binomial, et µ = np Si n est très grand, mais que µ n’est pas trop grand (ce qui implique que p est petit), on peut faciliter le calcul en utilisant la loi de Poisson Mathématique et Biostatistique – Année académique 2016-2017 2 17 Que faire quand n n’est pas limité ? 0-0,05 3 1 10! 0.153 * 0.05 * 0.86 = 0.037 3!1!6! Mathématique et Biostatistique – Année académique 2016-2017 0,05-0,1 Il s’agit d’une loi avec un seul paramètre (m). La variable aléatoire k peut prendre n’importe quelle valeur entière positive ou nulle. −m k P ( k m) = µ = E (k ) = m 19 e m k! σ 2 = E (k − µ ) 2 = µ Mathématique et Biostatistique – Année académique 2016-2017 20 5 24/10/2016 Un exemple ? Un autre exemple ? Exemple: la rage a une fréquence de 0.001 en Belgique. Quelle est la probabilité d’avoir plus de 2 atteints dans une région comptant 5000 chiens ? Solution: Exemple: après ensemencement de 20 tubes avec 0.1 ml d’une solution, 3 sont restés stériles. Quelle est la concentration moyenne de ce liquide en bactéries ? Solution: – p est très petit, et n très grand => loi de Poisson – µ = np = 5 – Pr = 1 – P(0 | 5) – P(1 | 5) – P(2 | 5) = 1 – exp(-5) * (50 / 0! + 51 / 1! + 52 / 2!) = 1 - 0.124652 = 0.875348 – µ est inconnue – Pr (0 | µ) = 3 / 20 = 0.15 = exp(-µ) – µ = -ln (0.15) = 1.897 (bactéries par 0.1 ml) Calcul binomial ? pbinom(2,5000,0.001,lower.tail=F) = 0.8754 Mathématique et Biostatistique – Année académique 2016-2017 22 Que faire si la probabilité entre tirages successifs varie ? Un autre exemple ? Exercice: le nombre de cas de BSE en Belgique, au moment de la crise, était de 1 toutes les 5 semaines. Quelle est la probabilité d’avoir 2 cas en 3 semaines ? Solution: On parle toujours d’événements binaires (malade ou pas, mâle ou femelle, vivant ou mort, …), répétés n fois, mais sans remise (ce qui revient à dire que p varie de tirage en tirage) Exemple: quelle est la probabilité de tirer deux individus malades en tirant deux individus au hasard dans une exploitation de 10 individus dont 2 sont malades ? – µ(#cas / sem) = 0.2 => µ(# cas / 3 sem) = 0.6 – Pr (2 | µ) = exp(-µ) * µ² / 2! ≈ 0.099 Mathématique et Biostatistique – Année académique 2016-2017 Mathématique et Biostatistique – Année académique 2016-2017 21 23 Mathématique et Biostatistique – Année académique 2016-2017 24 6 24/10/2016 Que faire si la probabilité entre tirages successifs varie ? Et pour une situation plus compliquée ? Exemple: Un lot de 30 poissons en contient 5 qui sont contaminés. Quelle est la probabilité de prélever 2 de ces 5 poissons contaminés en prélevant 10 poissons du lot ? Idée: compter le nombre de choix possibles de 10 poissons parmi 30 (nombre de cas possibles N). Ensuite, compter le nombre cas n parmi ceux-là qui répondent à la question. La probabilité cherchée est le rapport n/N Exemple: P( E1 = ) = 0.2 P( E1 = P( E2 = | E1 = ) = 0.111 et E2 = ) = 0.2 * 0.111 = 0.0222 Mathématique et Biostatistique – Année académique 2016-2017 Mathématique et Biostatistique – Année académique 2016-2017 25 Distribution hypergéométrique: exemple Distribution hypergéométrique: exemple Exemple (solution I) : Une solution (parmi les C102 possibles) consiste à prendre d’abord 2 poissons contaminés puis ensuite 8 sains. La probabilité correspondante est: p= Exemple : 5 4 25 24 18 5! 25! 20! * * * *⋯ * = * * 30 29 28 27 21 3! 17! 30! Lot: 25 5 Prélevé: 8 2 10 N = C30 Comme chaque solution est équiprobable: 10! 5! 25! 20! 5! 25! 20!*10! P=C *p= = * * * * * 2!*8! 3! 17! 30! Mathématique 3!*2! 17 !*8! 30! et Biostatistique – 2 10 Année académique 2016-2017 26 27 Pr = C 52 C C 10 30 8 25 Contaminé Sain 8 n = C52C25 = 10815750 30045015 = 0 . 36 Mathématique et Biostatistique – Année académique 2016-2017 28 7 24/10/2016 Distribution hypergéométrique: un autre exemple Quelle est la forme de la distribution hypergéométrique ? H(a; A; c; C) = Exemple : Un lot de 30 poissons en contient 10% qui sont contaminés. Quelle est la probabilité de détecter la pathologie en prélevant 10 poissons ? Solution : Avec remise (!?) C aA C bB C cC a+b=c A+B=C Pr = 1 − B ( 0 ) = 1 − 0 . 9 10 = 0 . 651 Sans remise Seulement 4 paramètres sont nécessaires (les deux autres s’en déduisent) Mathématique et Biostatistique – Année académique 2016-2017 Pr = 1 − H ( 0 ; 3 ;10 ; 30 ) = 0 . 719 Mathématique et Biostatistique – Année académique 2016-2017 29 Comment fait-on avec une variable continue ? Comment fait-on avec une variable continue ? f (X) Problème : Il n’est pas possible d’attribuer une probabilité à chaque valeur de la variable aléatoire X (il y en a une infinité !). Solution : on définit une fonction f(X) appelée « densité de probabilité ». La probabilité d’être entre X1 et X2 se calcule par la surface sous la courbe entre ces deux valeurs b ∫ a P a Q P 31 f(X)dX =P(a≤ X ≤b) Q b ∫ Mathématique et Biostatistique – Année académique 2016-2017 30 X f(X)dX =1 Mathématique et Biostatistique – Année académique 2016-2017 32 8 24/10/2016 Peut on avoir un exemple d’une telle distribution ? Quelle est la forme de cette distribution ? La distribution la plus utilisée est la distribution normale Distributions normales 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 ◦ voir une justification plus loin (TLC) f (X) = ( X −µ ) 2 f(X) − e 2σ 2 σ 2π Moyenne = µ Variance = σ -4 -2 σ= 1 σ> 1 σ< 1 0 2 4 X 2 Mathématique et Biostatistique – Année académique 2016-2017 Mathématique et Biostatistique – Année académique 2016-2017 33 Comment calculer une probabilité avec cette f(X) ? Comment calculer une probabilité avec cette f(X) ? Il faut calculer une intégrale… Le premier« truc » consiste à effectuer un changement de variable: z= X −µ σ La densité de probabilité devient alors une densité appelée « densité réduite »: Heureusement, il y a des « trucs » ! Distribution réduite + tables Logiciels f ( z) = Mathématique et Biostatistique – Année académique 2016-2017 34 35 e −z2 2 2π Moyenne = 0 Variance = 1 Mathématique et Biostatistique – Année académique 2016-2017 36 9 24/10/2016 En quoi est-ce plus simple ? A quoi ressemble la table ? Toutes les distributions normales se ramènent à cette distribution réduite Les probabilités liées à la densité réduite sont tabulées: les intégrales ont été précalculées ! Mathématique et Biostatistique – Année académique 2016-2017 ∫ 0 f ( z )dz = P (0 ≤ z ≤ A) z 0.00 0.01 0.02 0.03 0.00 0.0000 0.0040 0.0080 0.0120 0.10 0.0398 0.0438 0.0478 0.0517 0.20 0.0793 0.0832 0.0871 0.0910 0.30 0.1179 0.1217 0.1255 0.1293 … Mathématique et Biostatistique – 38 Année académique 2016-2017 37 Des exemples ? Comment utiliser la table ? Exemple 1: Sachant qu ’en moyenne, une espèce pèse 4 kgs (à un âge donné), avec une déviation standard de 0.3kg, quelle est la probabilité: - qu ’un individu pèse entre 4 et 4.3 kgs ? P( X1 < X < X2 ) = ? Z1 = ( X1 - µ ) / σ A Z2 = ( X2 - µ ) / σ 0.3413 P( Z1 < Z < Z2 ) = P - qu ’un individu pèse plus de 4.5 kgs ? 0.0475 Mathématique et Biostatistique – Année académique 2016-2017 39 Mathématique et Biostatistique – Année académique 2016-2017 40 10 24/10/2016 Comment calculer une probabilité avec cette f(X) ? Des exemples (suite) Le deuxième « truc » consiste à utiliser un logiciel: Exemple: P(4.1 < X < 4.3) Excel =LOI.NORMALE(4.3;4.0;0.3;VRAI) – LOI.NORMALE(4.1;4.0;0.3:VRAI) R pnorm(4.3,mean=4,sd=0.3) – pnorm(4.1,mean=4,sd=0.3) Exemple 1 (suite): - qu ’un individu pèse moins de 3.8 kgs ? 0.2514 - qu ’un individu pèse entre 3.8 et 4.1 kgs ? 0.3780 - qu ’un individu pèse entre 4.1 et 4.3 kgs ? 0.2120 Mathématique et Biostatistique – Année académique 2016-2017 41 Quelques valeurs classiques de z 42 Quelques valeurs classiques de z Quelle valeur de z dépasse-t-on dans 95% des cas ? qnorm(0.05) => -1.644854 Mathématique et Biostatistique – Année académique 2016-2017 Mathématique et Biostatistique – Année académique 2016-2017 Quelle valeur de z dépasse-t-on dans 97.5% des cas ? qnorm(0.025) => -1.959964 43 Mathématique et Biostatistique – Année académique 2016-2017 44 11 24/10/2016 Y a-t-il d’autres utilisations de la distribution normale ? Distribution normale: autres utilisations Considérons (par exemple) la distribution binomiale (cumulée) suivante: n=100, p=0.4. A toutes fins utiles, les deux distributions B(n,p) et N(µ=n*p, σ2=npq) coïncident. On passe de l ’une à l ’autre par le changement de variable: z= r − np npq En général, si n augmente, et p est « proche » de 0.5, une binomiale peut être approchée par une distribution normale. Mathématique et Biostatistique – Année académique 2016-2017 45 Un exemple d’utilisation de l’approximation normale ? 46 Approximation normale: exemple Exemple 1: sachant qu ’en moyenne, une espèce de chiens pèse 4 kgs (à un âge donné), avec une déviation standard de 0.3kg, combien de chiens dois-je prélever pour être sûr à 95% d ’avoir au moins 20 chiens de plus de 4.5 kgs ? Mathématique et Biostatistique – Année académique 2016-2017 Mathématique et Biostatistique – Année académique 2016-2017 Solution 1: si on suppose le poids réparti normalement, la probabilité de peser plus de 4.5 kgs pour un chien prélevé au hasard est : P( Poids > 4.5 Kg) = P( z > (4.5 - 4) / 0.3) = P( z > 5/3) ≈ 0.0475. ou 1-pnorm(4.5,mean=4.0,sd=0.3) 47 Mathématique et Biostatistique – Année académique 2016-2017 48 12 24/10/2016 Approximation normale: exemple (suite) Approximation normale: exemple (suite) Solution 1A: Approche binomiale Solution 1A: Approche binomiale. Choisir n tel que B(0) + B(1) + … + B(19) <= 0.05 Équation non linéaire en n… On peut résoudre le problème avec un logiciel. Exemple: avec excel =LOI.BINOMIALE(19;n;0.0475;VRAI) On fait varier n jusqu’à remplir la condition Exemple: avec R n=20 while (pbinom(9,n,0.0475)>0.05) { n<-n+1 } Mathématique et Biostatistique – Année académique 2016-2017 p n r 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 49 Approximation normale: exemple (suite) 0,0475 583 Binomiale 4,7674E-13 1,3861E-11 2,0114E-10 1,9426E-09 1,4047E-08 8,1119E-08 3,897E-07 1,6019E-06 5,7517E-06 1,8325E-05 5,2455E-05 0,00013626 0,00032391 0,00070949 0,00144052 0,00272502 0,00482421 0,00802397 0,01258235 0,01865887 Somme Proba = 0.0475 N = 583 Somme < 5% Mathématique et Biostatistique – Année académique 2016-2017 0,04950324 50 Distribution normale: autre utilisation Solution 1B: Approche normale Divisant le numérateur et le dénominateur par n dans le changement de variable donné plus haut, on obtient: Choisir n tel que: -1.64 < z z = (20 - n*p) / (n*p*q)1/2 => (n*p*q) z2 = (20 -n*p)2 => n = 601 L ’approximation n ’est pas très bonne (p << 0.5) dans ce problème. z= r −π n π (1 − π ) n Distribution d ’une proportion (r/n estime π, et la racine est la déviation standard) Mathématique et Biostatistique – Année académique 2016-2017 51 Mathématique et Biostatistique – Année académique 2016-2017 52 13 24/10/2016 Distribution d’une proportion: exemple Distribution d’une proportion: exemple Exemple 2: dans un échantillon de 100 poissons, 68 sont des mâles. Peut on conclure à une distorsion de la proportion des sexes ? Solution 2: on répond à cette question en calculant la probabilité d ’avoir 68% des mâles si la vraie proportion (π) est 50%. Mathématique et Biostatistique – Année académique 2016-2017 53 Solution 2 (suite): le calcul est le suivant: z= r −π 0.68 − 0.5 n = = 3.6 π (1 − π ) 0.5 * 0.5 n 100 La probabilité d ’avoir une telle valeur de z (ou une plus grande encore) est 1.6E-4, et donc très peu probable. On en déduit que π=0.5 n ’est probablement pas la valeur correcte. Mathématique et Biostatistique – Année académique 2016-2017 54 En résumé: Il est possible de déduire (ou tout du moins de prendre pour hypothèse) la distribution correspondant à de nombreuses variables aléatoires. L’utilisation de ces distributions permet de calculer les probabilités correspondant à une situation observée sous une hypothèse donnée. Si la probabilité est faible, on peut mettre en doute la validité de l’hypothèse sur laquelle le calcul repose (avec un certain risque, voir plus loin) Mathématique et Biostatistique – Année académique 2016-2017 55 14