Probabilités et Biostatistique 2 – Variables aléatoires P incipales lois de probabilité Principales p obabilité PAES Faculté de Médecine P. et M. Curie V Morice V. M i Variable aléatoire Une variable aléatoire désigne la grandeur mesurée lors d'une d une expérience aléatoire Exemples : âge, couleur des yeux Résultats possibles de l'expérience ⇒ valeurs possibles ibl de d la l variable bl aléatoire lé Types de variables aléatoires Si résultats numériques (variable quantitative) V.a. continue : les valeurs couvrent Թ ou un intervalle V.a. discrète : les valeurs sont discontinues (Գ) Sinon (variable qualitative) V.a. ordinale : les valeurs sont ordonnées V.a. nominale ou catégorielle : valeurs sans ordre V. Morice - Biostatistique PAES 2 Fonction de répartition Soit X une v.a. quantitative On cherche une fonction définissant la probabilité de tout intervalle [a p [ ; b]] Soit l’événement [X ≤ x] où x est un nombre Pr ([X ≤ x]) dépend de la valeur x FX(x) ( ) = F( F(x)) = Pr P ([X ≤ x]) ]) = fonction de répartition de X V. Morice - Biostatistique PAES 3 Fonction de répartition : premières propriétés FX(-∞) = 0 FX(+∞) ( )=1 a<b⇒ P ([X ≤ b]) = Pr Pr P ([X ≤ a]) ]) + Pr P ([a ([ < X ≤ b]) car [X ≤ a] et [a < X ≤ b] = événements exclusifs FX(b) = FX(a) + Pr ([a < X ≤ b]) FX est monotone croissante On trace la courbe en cumulant les probabilités rencontrées l lorsque x augmente t Pr ([a < X ≤ b]) = FX(b) - FX(a) V. Morice - Biostatistique PAES 4 Fonction de répartition : exemple d’une v.a. discrète Jet d’une pièce : E = {p, f} ; Pr (p) = Pr (f) = ½ V.a. X : X(f) = 0 ; X(p) = 1 Fonction de répartition V. Morice - Biostatistique PAES 5 Fonction de répartition : exemple d’une v.a. continue Appel téléphonique dans l’intervalle [0,T] t =instant d d’appel appel : Pr (t1 ≤ t ≤ t2)=(t2 t2)=(t2-t1)/T t1)/T (t1 et t2 ∈ [0,T]) [0 T]) Fonction de répartition Si x<0, l’appel n’a pas eu lieu avant x : F(x) ( )=0 Si x >T, l’appel a eu lieu avant x : F(x) = 1 Sinon F(x)=Pr (0≤ t≤ x)= x/T V. Morice - Biostatistique PAES 6 Fonction de répartition : autres propriétés On sait Pr ([x - < X ≤ x]) = FX(x) - FX(x -) Si x - → x, Pr ([x ([ - < X ≤ x]) ]) → Pr ([X = x]) ]) Si X est une v.a. continue FX est continue (si x - → x, FX(x ( -) → FX(x)) ( )) Pour tout x, Pr ([X = x]) = 0 Pr ([ ([a ≤ X ≤ b]) ]) = Pr ([ ([a < X < b]) ]) Si X est une v.a. discrète FX est discontinue En chaque point x de discontinuité, la hauteur du saut (FX(x) - FX(x -) lorsque x - → x) est la probabilité de x V. Morice - Biostatistique PAES 7 v.a. discrète : distribution des probabilités V. Morice - Biostatistique PAES 8 v.a. continue : densité de probabilité Densité de probabilité fX ( x ) = f( x ) = dF X ( x ) dx Fonction F ti d de répartition é titi FX (x) = ∫−x∞fX (t)dt Pr ([ ([a ≤ X ≤ b]) ]) = FX(b) – FX(a) = ∫abfX (x)dx f(x)≥0 f( )≥0 (F croissante) f(x)dx=Pr ([x≤X≤x+dx]) f(x)dx≈ ( ) Pr ([X=x]) ]) ∫-∞f(x)dx = 1 V. Morice - Biostatistique PAES ∞ 9 Pour définir une v.a. … v.a. discrète ou qualitative Définition de la Tableau des pi=Pr (X=xi) loi de proba Propriétés pi ≥ 0 n ∑i=1 pi = 1 Uniquement si quantitative : F(x) = ∑xi≤x pi v.a. continue Densité de proba f(x) b Pr ([a ≤ X ≤b]) = ∫ f( x)d x=F(b) -F(a) a f(x) ≥ 0 ∞ ∫−∞f(x)dx = 1 F(x) = ∫−x∞f(tt)d )dt f(x)dx = Pr (x≤X≤x+dx) f( )d ≈ Pr (X=x) f(x)dx (X ) V. Morice - Biostatistique PAES 10 Espérance mathématique [variable quantitative] Moyenne au niveau de la population Notation E(X) = μX = μ Calcul : somme de toutes les valeurs pondérées par leur probabilité V.a. discrète : E(X) = ∑in=1xi pi V a continue : E(X) = V.a. ∫−∞ xf(x)dx ∞ V. Morice - Biostatistique PAES 11 Espérance mathématique : propriétés Soient des v.a. X et Y et des constantes a, b, c E(c) = c E(X+c) = E(X)+c Démonstration du cas discret : Y=X+cc a pour valeurs yi=xxi+cc E(X+c) = E(Y) = ∑yiPr (Y=yi) = ∑(xi+c)Pr (Y=yi) Or Pr (Y=yi) = Pr (X+c=xi+c) = Pr (X = xi) = pi Donc E((X+c)) = ∑(x ( i+c)p )pi = ∑xipi + c∑ppi = E((X))+c Plus généralement si Y=g(X), on a ∑yiPr (Y=yi) = ∑g(xi)pi Si c = -E(X) ⇒ E(X -E(X)) = E(X) - E(X) = 0 Une v.a. va d d’espérance espérance nulle est dite centrée E(aX) = aE(X) E(X +Y) = E(X) + E(Y) V. Morice - Biostatistique PAES 12 Variance (et écart-type) [variable quantitative] Variance = mesure de la variabilité autour de l’espérance Notation var(X) = σ2X = σ2 Définition var(X) = E[(X -E(X))2] Calcul On ne peut utiliser E[X -E(X)] qui est nul V.a. discrète var(X) = ∑in=1(xi-E(X))2 pi V.a. continue var(X) = ∫-∞∞(x-E(X)) f(x)dx 2 A t défi Autre définition iti var((X) = E(X 2) -E( E(X)2 Calcul Car E[(X -E(X))2] = E[X 2-2X E(X)+E(X)2] = E(X 2)-2E(X)E(X)+E(X)2 = E(X 2) -E(X)2 2 V discrète V.a. di èt var((X) = ∑in=1xi pi-E(X)2 V.a. continue var(X) = ∫-∞∞ x2f(x)dx-E(X)2 Ecart-type Ecart type = σX = σ = var(X) V. Morice - Biostatistique PAES 13 Variance : propriétés Var(X) ≥ 0 (somme de carrés) Variance nulle pour une constante. constante Variance faible pour une variable peu dispersée Si X possède une unité Si c est une constante E(X) ett σ ontt lla même ê unité ité Var(X) a cette unité au carré Var(c) = 0 Var(X +c) c) = var(X) Var(c X) = c2var(X) Var(X +Y) = ? V. Morice - Biostatistique PAES 14 Loi de 2 variables discrètes ou qualitatives X et Y, deux v.a. discrètes ou qualitatives mesurables sur les mêmes individus EX = {x1, x2, …, xn} ; Ey = {y1, y2, …, ym} Exemple : X =sexe (x1=H ; x2=F) Y =CSP (y1=agriculteur ; y2=ouvrier ; … ; ym=retraité) Pour parler simultanément de X et Y, il faut considérer l’espace produit : EX ×Ey = {(x1,y1), (x1,y2), …, (x1,ym), …, (xn,ym)} On doit se donner les probabilités de chaque couple : Pr ([X = xi] ∩ [Y = yj]) = pxi,yj V. Morice - Biostatistique PAES 15 Loi de 2 variables discrètes : tableau des probabilités X \ Y y1 y2 … ym ∑y x1 px1,1 y1 px1,1 y2 … px1,1 ym px 1 x2 px2,y1 px2,y2 … px2,ym px 2 … … … … … … xn pxn,y1 pxn,y2 … pxn,ym pxn ∑x py 1 py 2 … pym 1 p xi,yj = Pr ([X = xi] ∩ [Y = yj]) pxii = ∑pxi,yj i j ; pyjj = ∑pxi,yj i j px et py sont souvent appelées lois marginales Ce sont les lois des variables X et Y indépendamment l’une de l’autre V. Morice - Biostatistique PAES 16 Covariance et corrélation [variables quantitatives] Var(X+Y) = E[((X+Y)-(μX+μY))2] = E[((X -μX)+(Y -μY))2] = E[(X -μX)2 +(Y -μY)2 +2(X -μX)(Y -μY)] = σX2+ σY2 +2cov(X,Y) Première définition : cov(X,Y) = E[(X -μX)(Y -μY)] Seconde définition : cov(X,Y) = E(XY)-μX μY = E(XY)-E(X)E(Y) car E[(X -μX)(Y -μY)] = E(XY-μXY-XμY+μX μY ) = E(XY)-μX μY-μX μY+μX μY Calculs pour deux variables discrètes : cov(X,Y) = ∑i,j(xi-μX)(yj-μY) pxi,yj cov(X,Y) = ∑i,jxiyj pxi,yj - μX μY La covariance est une mesure de l’intensité de la liaison linéaire entre deux variables cov(X,Y) Corrélation ρ XY = σ Xσ Y La corrélation est toujours entre -1 1 et 1 V. Morice - Biostatistique PAES 17 Indépendance de deux variables aléatoires X et Y quantitatives sont indépendantes si et seulement si les événements [X ≤ x] et [Y ≤ y] sont indépendants pour tout x et tout y ⇔ Pr ([X ≤ x]∩[ ] [Y ≤ y]) = Pr ([X ≤ x]) ])Pr ([Y ≤ y]) ⇔ FXY(x,y) = FX(x)FY(y) où FX et FY sont les fonctions de répartition de X et de Y, et FXY est la fonction de répartition du couple X, Y (définition) Si X et Y sont des v.a. discrètes ou qualitatives, l’indépendance peut s’écrire (pour tout xi et tout yj) P ([X = xi]∩[ Pr ] [Y = yj]) = Pr P ([X = xi])Pr P ([Y = yj]) ⇔ pxi,yj = pxi pyj V. Morice - Biostatistique PAES 18 Conséquences de l’indépendance l indépendance de 2 variables quantitatives Si X et Y sont indépendantes, indépendantes alors : cov(X, Y) = 0 et ρXY = 0 var(X + Y) = var(X ) + var(Y) E(XY) = E(X)E(Y) car cov(X, Y) = E(XY) - E(X)E(Y) La réciproque est fausse V. Morice - Biostatistique PAES 19 Loi normale N(μ ; σ2) Loi continue la plus importante 1 − 1 ( x − μ )2 Densité é : f(x) = e 2 σ2 σ 2π E(X) = μ var((X) = σ2 (donc (d σ > 0) Si X et Y sont N et indépendantes, alors aX+bY est N C particulier Cas ti li N(0 (0 ; 1) Loi centrée (μ = 0) et réduite (σ = 1) 1 − x2 f(x) = e 2 2π V. Morice - Biostatistique PAES 20 Allure de la loi N(0 ; 1) Courbe de la densité Surface sous la courbe = 1 Loi symétrique Axe de symétrie = espérance Maximum sur l’axe de symétrie Ecart-type = distance entre axe de symétrie et point d inflexion d’inflexion V. Morice - Biostatistique PAES 21 Loi N(0 ; 1) et probabilités Probabilité d’un intervalle = surface sous la courbe Pr (0,5 ≤ X ≤ 2) = 0,312 = surface grisée Calcul = intégration de f(x) ⇒ ??? Des tables numériques donnent les résultats Pr (-2 ≤ X ≤ 2) ≈ 0,95 V. Morice - Biostatistique PAES 22 Loi N(μ ; σ2) : influence de μ V. Morice - Biostatistique PAES σ = 1 pour les 3 courbes L’allure de la courbe se conserve si on change de moyenne Il s’agit d’un simple décalage 23 Loi N(μ ; σ2) : influence de σ V. Morice - Biostatistique PAES μ = 0 pour les 3 courbes La courbe s’aplatit si σա Elle se resserre si σբ Le maximum ss’ajuste ajuste pour que la surface = 1 Le maximum peut dépasser 1 24 Loi N(μ ; σ2) et probabilités Soit X→ N(μ ; σ2). On cherche Pr (a ≤ X ≤ b) Seule S l N(0 ; 1) estt tabulée t b lé X −μ Mais Y = → N(0 ; 1) σ O va centrer On t ett réduire éd i pour obtenir bt i la l probabilité b bilité a -μ X -μ b -μ ≤ ≤ Pr(a ≤ X ≤ b) = Pr( ) σ σ σ Posons c = a - μ et d = b - μ σ σ Alors Pr (a ≤ X ≤ b) = Pr (c ≤ Y ≤ d) La probabilité sur Y se lit dans la table de la loi normale centrée réduite V. Morice - Biostatistique PAES 25 Loi du « chi-deux » Famille de lois dérivées de Si X1 → 2 χ (n) N(0 ; 1) N(0 ; 1), alors X = X12 → χ2(1) Si X1, X2, …, Xn → N(0 ; 1) et sont indépendantes, alors X = X12 + X22 + … + Xn2 → χ2(n) n est le nombre de degrés g de liberté ((ddl)) X≥0 E(X) = n, var(X) = 2n La probabilité d’un intervalle est donnée par une table (qui dépend du ddl) V. Morice - Biostatistique PAES 26 Allure de la loi du 2 χ Exemples avec un ddl n = 1, 2, et 8 Courbes = densités de probabilité Si n > 2, la courbe présente un maximum en n – 2 Si n augmente, la courbe se rapproche d’une loi normale V. Morice - Biostatistique PAES 27 Loi de Bernoulli Base des lois discrètes ou qualitatives Expérience é à deux résultats é possibles succès è et échec é Variable de Bernoulli : X(échec) = 0, X(succès) = 1 Pr (succès) è = Pr ([X = 1]) = Π Pr (échec) = Pr ([X = 0]) = 1 – Π E(X) = Π × 1 + (1 - Π) × 0 = Π var(X) = E(X 2) – E(X)2 E(X 2) = Π × 12 + (1 - Π) × 02 = Π var(X) = Π - Π 2 = Π(1 - Π) V. Morice - Biostatistique PAES 28 Loi binomiale B(n, Π) Construite sur n expériences de Bernoulli indépendantes (Π ne change pas entre les épreuves) La variable X est le nombre de succès p parmi les n expériences (valeur entre 0 et n) La p probabilité d’avoir exactement k succès est n! Πk(1−Π)n−k Pr(X =k) = kn Πk(1−Π)n−k = k!(n−k)! () ( kn) est le nombre de manières d’obtenir k succès parmi n Πk(1-Π)n-k est la probabilité d’en obtenir une E((X) = nΠ ; var((X) = nΠ(1( Π)) V. Morice - Biostatistique PAES 29 Loi de Poisson Loi concernant la réalisation d’événements Faiblement probables (loi des événements rares) Indépendants Exemples : accidents, files d’attente, ruptures de stock La variable X est le nombre de réalisations de l’événement La loi dépend d’un paramètre λ (λ > 0) La probabilité d d’avoir avoir k réalisations de l’événement l événement rare est k λ λ Pr(X =k) = e k! LLe nombre b kd de réalisations é li ti varie i entre t 0 ett ∞ (≠ loi l i binomiale) bi i l ) −λ E(X) = λ ; var(X) = λ ; Pr(X=0) = e Si X1→Poisson(λ1), ) X2→Poisson(λ2), ) X1 et X2 indépendantes, indépendantes alors X=X1+X2 → Poisson(λ1 +λ2) V. Morice - Biostatistique PAES 30 Approximations d d’une une loi binomiale B(n, Π) X → B(n, Π) Approximation par une loi normale Conditions : nΠ ≥ 5 et n(1-Π) ≥ 5 Variable pour ll’approximation approximation Y → N(nΠ ; nΠ(1 (1- Π)) On a Pr ([X=k]) ≈ Pr ([k - 0,5 ≤ Y ≤ k + 0,5]) Les probabilités Pr([Y <0]) et Pr ([Y > n]) sont faibles, mais non nulles ll Approximation par une loi de Poisson Conditions : Π < 0,1 et n ≥ 50 Variable pour l’approximation Y → Poisson(λ = nΠ) On a Pr ([X=k]) ≈ Pr ([Y=k]) L probabilité La b bilité Pr P ([Y > n]) ]) estt faible, f ibl mais i non nulle ll V. Morice - Biostatistique PAES 31 Approximation d d’une une loi de poisson par une loi normale X → Poisson(λ) Conditions : λ > 25 Variable pour l’approximation Y → N(λ ; λ) On a Pr ([X=k]) ≈ Pr ([k - 0,5 ≤ Y ≤ k + 0,5]) V. Morice - Biostatistique PAES 32 Loi de Poisson et risque sanitaire pas encore observé Après 10.000 prescriptions d'un nouveau médicament pas d médicament, d'effet effet indésirable Que se passera-t-il après 1.000.000 prescriptions ? Π = risque individuel d'effet indésirable, inconnu mais faible Sur n individus, si X est le nombre d'effets indésirables observés, X → B(n, Π) Π faible, n grand : X → Poisson(λ = nΠ) Pr(X=0) ( ) = e-λ = e-nΠ V. Morice - Biostatistique PAES 33 Loi de Poisson et risque sanitaire pas encore observé (2) Que peut-on dire de Π qui soit compatible avec la non observation d'effet indésirable sur n individus ? Règle : il n'est pas raisonnable d'imaginer ne pas observer d'effet indésirable si la probabilité de cette non observation est inférieure à 5% Si X=0 X 0 sur n individus, i di id Pr(X=0)= P (X 0) e-nΠ≥0,05 0 05 ⇒ nΠ ≤ 3 ⇒ Π ≤ 3/n La non observation d'effet indésirable sur n individus est compatible avec un risque individuel Π ≤ 3/n Si n=10000 prescriptions sans effet indésirable, et Π=3/n=3×10-4 Avec 1.000.000 1 000 000 de prescriptions on ss'attend attend à 300 effets indésirables Ce qui est énorme V. Morice - Biostatistique PAES 34