Fiche de Probabilités Contents I Espace probabilisé 3 1 Définition de la probabilité 3 2 Indépendance 3 3 Probabilité conditionelle 4 II 4 Variables 1 Différents types de variables 4 2 Variable aléatoire vectorielle 5 III 6 Espérance mathématique 1 Définition 6 2 Calcul 6 3 Propriétés 6 4 Théorème 6 5 Maximum, Médiane, Mode, Minimum 6 IV 7 Variance 1 Définition 7 2 Calcul 7 3 Covariance 7 4 Propriétés 7 5 Ecart type 7 6 Coefficient de variation mesure 7 7 Théorème 7 V 7 Généralisation 1 Dans R 2 Dans 7 Rn 7 1 Pougne Pandore VI Probabilités Loi normale 8 1 Caractéristiques 8 2 Généralisation 8 VII 8 Lois conditionnelles et espérance conditionnelle 1 Définition 8 2 Propriété 9 VIII 9 Les différentes convergences 1 Convergence en moyenne d’ordre alpha 9 2 Convergence en probabilité 9 3 Convergence presque sure 9 4 Convergence en loi 10 5 Relations entre les convergences 10 6 Théorème central limite 10 IX 10 X Les différentes loi à connaître Simulation de variables aléatoires 11 1 Generateur de nombres pseudo-aléatoires 11 2 Générer des réalisations d’un v.a. uniforme sur [0,1] 11 3 Méthode de la fonction de répartition inverse 11 4 Générer des lois gaussiennes multivariées 12 5 Méthode du rejet 12 6 Générer des réalisations d’un mélange de lois 12 XI Régression 12 1 Régression linéaire 12 2 Régression non linéaire 13 page 2 Probabilités Pougne Pandore Part I Espace probabilisé 1 Définition de la probabilité Définition d’une tribu Soit Ω un ensemble, P(Ω) l’esemble de ses sous-ensembles. A ∈ P(Ω) est une tribu si: 1. Ω ∈ A 2. si A ∈ A alors Ā ∈ A 3. si la suite An ∈ AN alors +∞ [ An ∈ A n=1 On appel B(R) = {] − ∞, a[, a ∈ R} la tribu borélienne. Définition d’une probabilité P est une probabilité sur (Ω, A) si: 1. ∀A ∈ A, P (A) ∈ [0, 1] 2. P (Ω) = 1 3. si la suite An vérifie ∀i 6= j, Ai ∩ Aj = ∅ Alors P +∞ [ ! An n=1 Définition d’un espace probabilisé = +∞ X P (An ) n=1 (Ω, A, P ) est un espace probabilisé Propriétés élémentaires des probabilités Soient A, B ∈ A et An ∈ AN 1. P (Ā) = 1 − P (A) 2. P (A ∪ B) = P (A) + P (B) − P (A ∩ B) 3. A ⊂ B ⇒ P (A) ≤ P (B) +∞ [ 4. P ! An ≤ n=1 P (An ) n=1 5. P +∞ X lim An = lim P (An ) n→+∞ n→+∞ 6. A et B disjoints ⇒ P (A ∩ B) = 0 2 Indépendance Définition d’événements indépendants Soit (A1 , A2 , ..., An ) ∈ An Ces évènements sont indépendants si : ∀k ∈ N∀i1 , ..., ik ∈ {1, ..., n} distincts deux à deux, P k \ Aij = j=1 Propriété Soit Cn famille de A, formant une partition Ω Alors ∀A ∈ A, P (A) = k Y +∞ X n=1 page 3 P (Aij ) j=1 P (A ∩ Cn ) Probabilités Pougne Pandore 3 Probabilité conditionelle Définition d’une probabilité conditionnelle B: On définit la probabilité conditionelle par rapport à l’évènement ∀A ∈ A, P (A|B) = P (A ∩ B) = PB (A) P (B) Propriétés Formule des probabilités totales Soit Cn famille de A où aucun des termes n’a une probabilité nulle, ∀A ∈ A, P (A) = +∞ X P (A|Cn )P (Cn ) n=1 Formule de Bayes Si P (A) 6= 0, P (Ci |A) = P (A|Ci )P (Ci ) +∞ X P (A|Cn )P (Cn ) n=1 Part II Variables Définition d’une variable aléatoire X variable aléatoire est une application mesurable d’un ensemble probabilisé (Ω, A, P ) dans (Ω0 , A0 ) PX la loi de probabilité de X, est définie pour tout borélien B par : PX (B) = P ({ω|X(ω) ∈ B}) = P (X −1 (B)) Une variable aléatoire peut être réelle, complexe, vectorielle, multidimensionnelle ou multivariée, ou encore une suite de variables aléatoires 1 Différents types de variables Variable continue Définition d’une fonction de répartition Une fonction de répartition d’une variable aléatoire X est la fonction : R → [0, 1] FX :{ x 7→ P (X < x) Propriétés élémentaires : 1. FX est croissante au sens large 2. FX est continue à gauche 3. 4. lim FX (x) = 0 x→−∞ lim FX (x) = 1 x→+∞ 5. P (a ≤ X < b) = FX (b) − FX (a) Ou on trouve aussi : FX : x 7→ P (X ≤ x) ce qui modifie la dernière propriété en P (a < X ≤ b) = FX (b) − FX (a) page 4 Probabilités Pougne Pandore Définition de la densité de probabilité est appelée densité de probabilité de X. Si FX est continue et C 1 par morceau sur R, la fonction fX = FX0 Propriétés 1. fX est positive ou nulle Z 2. lim F (x) = x→+∞ fX (t)dt = 1, plus généralement R Ω fX (t)dt =1 R 3. ∀A ∈ A0 , PX (A) = R A fX (t)dt Discrète Loi PX : P (X = xi ) = pi Fonction de répartition FX (x) = P pi δ(x − xi ) mixte On décompose en deux parties, une continue et une discrète 2 Variable aléatoire vectorielle Définitions : Loi jointe: loi de la variable X = (X1 , ..., Xn ) Loi marginale: loi des composantes Xi La connaissance de la jointe de X suffit pour caractériser X et connaître les lois marginales mais la réciproque est fausse ! Cas discret Contexte : Soient X 1 et X 2 v.a discrètes prenant respectivement les valeurs {x11 , ..., x1n } et {x21 , ..., x2m } avec des probabilités p1i et p2j La v.a X = (X 1 , X 2 ) prend ses valeurs dans {(x1i , x2j ), 1 ≤ i ≤ n, 1 ≤ j ≤ m} avec des probabilités pi,j : X pi,k = p1i et 1≤k≤m X pk,j = p2j 1≤k≤n Fonctions de répartition : La v.a X = (X1 , ..., Xn ) est entrièrement déterminée par sa f.d.r FX (x) = FX1 ,...,Xn (x1 , ..., xn ) = P (] − ∞, x1[×...×] − ∞, xn [) = P ({X1 < x1 } ∩ ... ∩ {Xn < xn }) Toute v.a marginale X1 est entièrement caractérisée par la f.d.r de X. ∀k 6= i, lim FX (x1 , ..., xn ) = FXi (xi ) xk →+∞ Mêmes propriétés que le cas scalaire. Cas continu Contexte : La v.a X = (X1 , X2 ) est caractérisée par la densité de probabilité fX page 5 Probabilités Pougne Pandore Fonction de répartition La fonction de répartition FX de X qui est alors continue et partiellement dérivable presque 2 X (x1 ,x2 ) partout vérifie : fX (X1, X2) = ∂ F∂x 1 ∂x2 Z x2 Z x1 On a donc : FX (x1 , x2 ) = −∞ −∞ fX (t, u)dtdu Les f.d.r marginales respectives de X1 et X2 vérifient : Z x1 Z +∞ FX2 (x1 ) = −∞ −∞ fX (t, x2 )dx2 dt, et de même pour FX2 Densité marginale Z +∞ fx1 = −∞ fX (x1 , x2 )dx2 Indépendance des variables Les v.a X et Y définies de (Ω, A, P ) dans (Ω0 , A0 ) sont indépendantes si ∀A, B ∈ A02 , P ({X ∈ A} ∩ {Y ∈ B}) = P (X ∈ A)P (Y ∈ B) Changement de variable Soit (X, Y ) → (U, V ) fU,V (u, v) = fX,Y (x(u, v), y(u, v))J(u, v) ∂x(u,v) ∂u avec J jacobien valeur absolue du déterminant : ∂y(u,v) ∂u ∂x(u,v) ∂v ∂y(u,v) ∂v Conseil pour les changements de variable non bijectifs : faire un dessin ! Part III Espérance mathématique 1 Définition Valeur numérique mesurant le degré d’équité d’un jeu de hasard, c’est-à-dire moyenne. Attention : elle n’existe pas toujours. 2 Calcul v.a discrète E[X] = X ω∈Ω Z v.a continue E[X] = an P (X = an ) k∈(1,...n) Z +∞ Z X(ω)dP (ω) = ω∈Ω Attention : vérifier que X est intégrable. 3 X X(ω)P (ω) = xdPX (x) et si X a une densité de probabilité, E[X] = R −∞ xfX (x)dx Propriétés • E[X + Y ] = E[X] + E[Y ] • Linéarité : E[aX + b] = aE[X] + b, a, b ∈ R 4 5 Théorème de transfert R R Pour toute fonction réelle g, positive ou P -mesurable : E[g(X)] = ω∈Ω g(X(ω))dP (ω) = R g(x)dPX (x) Maximum, Médiane, Mode, Minimum mediane Valeur pour laquelle P (X < med) = P (X ≥ med) = 21 ) De même, on peut définir : quartiles, déciles, centiles,... page 6 Pougne Pandore Probabilités mode v.a. discrète : valeur de X dont la probabilité est la plus grande v.a. continue : valeur pour laquelle la densité de probabilité est maximum Part IV Variance 1 Définition C’est la moyenne des écarts à la moyenne. C’est un caractère de dispersion. 2 Calcul − E[X])2 ] = E[(X R V ar(X) = R (x − E[X])2 fX (x)dx 2 2 = E[X ] − E[X] 3 (Définition) (Théorème de transfert) (Pour les calculs. ATTENTION à vérifier que X 2 est intégrable) Covariance Définition : Cov(X, Y ) = E[(X − E[X])(Y − E[Y ])] = E[XY ] − E[X]E[Y ] 4 Propriétés • V ar(aX + b) = a2 V ar(X) • V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y ) • Si X et Y sont indépendants alors E[XY ] = E[X]E[Y ] et Cov(X, Y ) = 0 donc V ar(X + Y ) = V ar(X) + V ar(Y ) 5 Ecart type σX = 6 p V ar(X) Coefficient de variation mesure Il indique la dispersion relative. cv (X) = σ/µ sans unité. 7 Théorème de Bienaymé-Tchebychev 2 Soit X v.a. de moyenne µ et de variance finie σ 2 ∀a ∈ R+ , P (|X − µ| ≥ a) ≤ σa2 c’est-à-dire, P (|X − µ| ≥ aσ) ≤ a12 P (|X − µ| < aσ) ≥ 1 − a12 P (−aσ < X − µ < aσ) ≥ 1 − 1 a2 Part V Généralisation 1 Dans R R R R Soit X de densité fX (x). Grâce au théorème de transfert, on calcule E[X ] = RR n . . . xi fX (x)dx1 ...dxn et R iR 2 la valeur moyenne RM = R E[X] R = E[X1 ]...E[Xn ]. De même, on a V ar[Xi ] = Rn . . . (xi − E[Xi ]) fX (x)dx1 ...dxn et Cov(Xi , Xj ) = Rn . . . (xi − E[Xi ])(xj − E[Xj ])fX (x)dx1 ...dxn 2 Dans Rn page 7 Pougne Pandore Probabilités On définit M = (µ1 , ..., µn ) On note V ar(X) = E[(X − E[X])2 ] si on considère (X − E[X])2 = (X − E[X])(X − E[X])T .On note aussi la matrice de variance-covariance Σ = E[(X − E[X])2 ] = [σij ]1≤i,j≤n est symétrique, semi-définie positive donc inversible. Part VI Loi normale 1 Caractéristiques Graph Densité f (x) = E[X] = µ(= méd = mode) Espérance Variance 2 √ 1 exp[ −(x−µ) 2σ 2 2πσ 2 V ar(X) = σ 2 Variables gaussiennes Si X suit une loi N (µ, σ) et Y = aX + b • Y normale aussi • E[Y ] = aµ + b • V ar(Y ) = a2 σ 2 On peut toujours se ramener à Z de loi centrée (E[Z] = 0) et réduite (V ar(Z) = 1) par le changement de variable 1 z2 x √ X = Z−σ dont on connait les valeurs recueillies dans les tables, de densité f (z) = exp(− ) Z µx 2 2π 2 Généralisation Densité normale multivariée N (M, Σ) fX (x1 , ..., xn ) = 1 1 exp(− (x − M )T Σ−1 (x − M )) 2 (2π) (det(Σ)) n 2 1 2 Vecteur gaussien X ⇔toute combinaison de ses Xi est une v.a. normale. Si X gaussien, A matrice à n colonnes et b vecteur de Rn , alors AX + b est un vecteur gaussien de loi N (AM + b, AΣ · AT ). Si X gaussien • Toutes les v.a. marginales Xi sont gaussiennes. • Si Xi et Xj non corréleés, alors elles sont indépendantes (équivalence) • et si les Xi et Xj son indépendantes 2 à 2 alors les X1 ..Xn sont globalment indépendants. Si tous les Xi sont des v.a. gaussiennes indépendantes, alors X est un vecteur gaussien. ATTENTION, par exemple fX,Y (0, y) n’est pas forcément gaussien. Part VII Lois conditionnelles et espérance conditionnelle 1 Définition page 8 Pougne Pandore Probabilités Cas discret Soient X : Ω → E et Y : Ω → F v.a. discrètes, alors la loi conditionnelle de Y sachant X = x est PY,X (y, x) : ∀y ∈ F, PY /X=x (y) = = P (Y = y/X = x). PX (x) X et Y indépendants ⇔ ∀x, y, P (Y = y/Xx ) = P (Y = y) X L’espérence conditionnelle de Y sachant X = x est : E[Y /X = x] = yPY /X=x (y) (c’est l’espérance par rapport y∈F à la loi conditionnelle). Cas continu Soit (X, Y ) un couple de densité fX,Y (x, y) sur R2 alors la densité conditionnelle de Y sachant fY,X (y, x) X = x est : ∀y ∈ R, fY /X=x (y) = . fX (x) X et Y indépendants ⇔ ∀x, y, fY /X=x (y) = fY (y) Z L’espérence conditionnelle de Y sachant X = x est : E[Y /X = x] = yfY /X=x (y)dy (c’est l’espérance par R rapport à la densité conditionnelle). 2 Propriété • L’espérance conditionelle est linéaire et possède les propriétés classiques de l’espérance. • Si X et Y indépendants, E[Y /X = x] = E[Y ] • Si h fonction mesurable et h(X) intégrable,E[Y h(X)/X] = h(X)E[Y /X], et aussi E[h(X)/X] = h(X) Remarque : E[E[Y /X]] = E[Y ] car E[Y /X = x) est fonction de x Part VIII Les différentes convergences 1 Convergence en moyenne d’ordre alpha Lα Définition Xn −−→ X X si limn→+∞ E[|Xn − X|α ] = 0 Loi faible des grands nombres pour cette convergence Soit (Xn )n∈N une suite de v.a.i.i.d. de variance finie, n 1X Xi → E[X] et limn→+∞ n1 V ar(X) = 0 alors n i=1 2 Convergence en probabilité P Définition Xn − →X (Xn )n∈N converge en probabilité si limn→+∞ P (|Xn − X| ≥ ε) = 0 Loi faible des grands nombres pour cette convergence Soit (Xn )n∈N une suite de v.a.i.i.d. de variance finie, n 1X alors Xi → E[X] et limn→+∞ nε1 2 V ar(X) = 0 n i=1 3 Convergence presque sure p.s. Définition Xn −−→ X (Xn )n∈N converge presque sûrement vers X si P ({ω ∈ Ω, limn→+∞ Xn (ω) = X(ω)}) = 1 page 9 Pougne Pandore Probabilités Loi Forte des grands nombres pour cette convergence Soit (Xn )n∈N X une suite de v.a.i.i.d. d’espérance n 1X 1 finie, alors Xi → E[X] et lim V ar(X) = 0 n→+∞ nε2 n i=1 4 Convergence en loi L Définition Xn − →X (Xn )n∈N converge en loi vers X si en tout point de continuité de FX , FXn (x) converge vers FX (x) 5 Relations entre les convergences Lα Xn −−→ X ⇓ p.s. P L Xn −−→ X ⇒ Xn − → X ⇒ Xn − →X 6 Théorème central limite Soit (Xn )n∈N une suite de v.a.i.i.d. de variance σ 2 finie. n n X 1X Xi On note Sn = Xi et Mn = n i=1 i=1 Sn − E[Sn ] L − → Z de loi N (0, 1) sans aucune hypothèse sur la loi des Xi on a alors p V ar(Sn ) Part IX Les différentes loi à connaître page 10 Probabilités Pougne Pandore Nom Formule Espérance Variance Uniforme [a, b] fX (x) = a+b 2 (b−a)2 12 Binomiale B(n, p) n P (X = k) = ( k )pk (1 − p)n−k np np(1 − p) Poisson λ P (X = k) = λk e−λ k! λ λ Exponentielle (λ) fX (x) = λe−λx 1 λ 1 λ2 Normale N (µ, σ) f (x) = µ σ2 1 b−a 1[a,b] √ 1 2πσ 2 exp h −(x−µ)2 2σ 2 i Graph Part X Simulation de variables aléatoires 1 Generateur de nombres pseudo-aléatoires Nombres pseudo-aléatoires : obtenus par différentes opérations (méthode de la congruence linéaire ou multiplication avec retenue) considérées comme irréversibles 2 Générer des réalisations d’un v.a. uniforme sur [0,1] On décompose N en base 2 :N = X an 2n On va utiliser : U = n>0 X an 2−n ∈ [0, 1] On peut donc simuler des n>0 réalisations d’une loi uniforme sur [0, 1] 3 Méthode de la fonction de répartition inverse page 11 Probabilités Pougne Pandore Simulation des réalisations d’une loi discrète P (X = 1) = P (U ∈ [0, p1 [) P (X = 2) = P (U ∈ [p1 , p1 + p2 [) P (X = 3) = P (U ∈ [p1 + p2 , p1 + p2 + p3 )[ x = 1 si u ∈ [0, p1 [ On fait un tirage u suivant U[0,1] x = 2 si u ∈ [p1 , p1 + p2 [) x = 3 si u ∈ [p1 + p2 , p1 + p2 + p3 )[ c’est-à-dire x = inf{a, Fx (a) > u} = F −1 (u) On a simulé une réalisation de X en "inversant" la fdr. Méthode de la fonction de répartition inverse On a FX (X) = U qui suit une loi uniforme sur [0, 1]. En inversant la fonction, on peut simuler la réalisation de x de X par x = FX−1 (u) 4 Générer des lois gaussiennes multivariées Soient U1 et U2 p deux v.a. indépendantes uniformes sur [0, 1]. p Alors les v.a. X = −2ln(U1 cos(2πU2 ) et Y = −2ln(U2 sin(2πU2 ) sont normales, centrées, réduites et indépendantes. On peut donc simuler un vecteur gaussien centré et réduit, donc simuler tous les vecteurs gaussiens. 5 Méthode du rejet Hypothèses Soient f , g deux densités de probabilités R • On sait simuler des v.a. de densité g • ∃c > 1, f (x) ≤ cg(x) et h :{ R → [0, 1] f (x) x 7→ cg(x) • Yn , n ≥ 1 suite i.i.d. de v.a. de densité g • Un , n ≥ 1 suite i.i.d. de v.a. de dloi U[0,1] Alors : on pose • N = inf {n, Un ≤ h(Yn )} • X = Yn On a X de densité f et E[N ] = c. 6 Générer des réalisations d’un mélange de lois Plus généralement, si gy et hz sont les densités de probabilité respectives de v.a. Y et Z et que p ∈]0, 1[ Pour générer des réalisations d’une v.a. X de densité fX = pgY + (1 − p)hz et si U suit une loi uniforme sur [0, 1] : X = Y 1{U ≤p} + Z1{U >p} Pour simuler une réalisation x de X On simule une réalisation u de U , si u > p on simule une réalisation z de Z et x = z, sinon on simule une réalisation y de Y et x = y Part XI Régression 1 Régression linéaire Erreur quadratique moyenne EQM (a, b) = E[(Y − (aX + b)2 )] (est fonction polynomiale de a et b) page 12 Pougne Pandore Probabilités Systeme d’équations pour minimiser l’erreur dEQM (a, b) db dEQM (a, b) da L’erreur minimum s’écrit donc EQM (a, b) = V ar(Y ) − =0 =0 ⇐⇒ Cov(X, Y ) a= V ar(X) b = E[Y ] − E[X] · Cov(X, Y ) V ar(X) )2 Cov(X,Y V ar(X) Y − E[Y ] Cov(X, Y ) Y − E[Y ] · = σX σY σY L’équation de la droite Y = aX + b s’écrit donc aussi | σ{zY } | {z } v.a. centrées et réduites On pose Y 0 = ρxy · X 0 . La droite passe par (E[X], E[y]). EQMmin (a, b) = V ar(Y )(1 − ρ2xy ) Résultats ρ ∈ [−1, 1], EQM est minimun pour ρxy = −1 ou 1, maximum pour 0. Dans ce cas, l’équation est Y = µy (ne dépend pas de X) et donc Cov(X, Y ) = 0 Remarque: Pour ρ ∈]0, 1[ la relation entre X et Y est stochastique et non deterministe. 2 Régression non linéaire Cette fois, sans présager de la forme de la fonction : EQM (g) = E[(Y − g(X))2 ] = E[(Y − E[Y /X])2 ] + E[(E[Y /X] − g(X))2 ]. On en déduit ming EQM (g) = E[(Y − E[Y /X])2 ]. La meilleure approximation au sens de l’erreur quadratique moyenne est l’espérance conditionnelle. page 13