UNIVERSITÉ DE TOURS UFR SCIENCES ET TECHNIQUES MASTER 1 DE MATHEMATIQUES cours de M. L. Gallardo FORMULAIRE de PROBABILITÉS (1er semestre 2012-2013) Avertissement : Ce formulaire est un résumé du cours dont il suit les étapes. Il contient donc des redites dues aux exigences du tronc commun au Master MME (concerné seulement par la première partie du cours) et aux Master MA et MIMATS. I) Généralités du calcul des probabilités : Soit Ω un ensemble (univers des possibles) Espace probabilisé (Ω, T, P) : T est une tribu sur Ω c’est à dire T ⊂ P(Ω) vérifie +∞ [ 1)Ω ∈ T, 2) (An )n∈N ∗ ∈ T ⇒ An ∈ T, 3) A ∈ T ⇒ Ac ∈ T, n=1 et P : T → [0, 1] (la probabilité) est telle que : [ X ∞ +∞ 1)P(Ω) = 1 , 2)P An = P(An ) pour tous (An ) ∈ T, tels que Ai ∩ Aj = ∅ si i 6= j. n=0 n=0 Limite sup et Limite inf : Si (An )n∈N ∗ ∈ T, on note +∞ +∞ [ +∞ \ \ +∞ [ Am , 2) lim sup An = Am . On a alors : 1) lim inf An = n=1 m=n n=1 c 1) lim inf An ⊂ lim sup An , 2) (lim inf An ) = m=n lim sup Acn , 3) (lim sup An )c = lim inf Acn . Continuité de P : Pour toute suite monotone (An ) ∈ T, on a P(lim An ) = lim P(An ) n→+∞ S T (où lim An = n An si An % et lim An = n An si An &). Probabilité conditionnelle : Si B ∈ T (avec P(B) > 0) est un événement fixé, pour tout A ∈ T, la quantité PB (A) = P(A|B) = P(A ∩ B)/P(B) est la probabilité conditionnelle de A sachant B. L’application PB : T → [0, 1] ainsi définie est la probabilité conditionnelle sachant B. Formule de l’intersection : Si A1 , A2 , . . . , Ak ∈ T et P(A1 ∩ A2 ∩ . . . ∩ Ak−1 ) > 0, P(A1 ∩ A2 ∩ . . . ∩ Ak ) = P(A1 )P(A2 |A1 )P(A3 |A1 ∩ A2 ) . . . P(Ak |A1 ∩ . . . ∩ Ak−1 ). Formule de la probabilité totale : Soit (An ) un système complet d’événements. Alors : X ∀A ∈ T, P(A) = P(A|An )P(An ). n P(A|An )P(An ) Formule de Bayes : P(An |A) = X (A ∈ T) si (An ) est un système complet. P(A|Ak )P(Ak ) k Tribus indépendantes, événements indépendants : Les tribus Ti (1 ≤ i ≤ n) sur Ω sont indépendantes si ∀1 ≤ i ≤ n, Ai ∈ Ti , implique P(A1 ∩ . . . ∩ An ) = P(A1 ) . . . P(An ). En particulier des événements Ak (1 ≤ k ≤ m sont indépendants si les tribus TAk qu’ils engendrent sont indépendantes (où TAk = {∅, Ω, Ak , Ack }). 1 Espace probabilisé produit : Si (Ωi , Ti , Pi ) (1 ≤ i ≤ n) sont des espaces probabilisés, leur espace produit est (Ω, T, P) où Ω = Ω1 × · · · × Ωn , T = T1 ⊗ · · · ⊗ Tn et P = P1 ⊗ · · · ⊗ Pn où T est engendrée par les rectangles A1 × · · · × An , Ai ∈ Ti , et P est telle que P(A1 × · · · × An ) = Q n i=1 Pi (Ai ). II) Variables (resp. vecteurs) aléatoires discrètes (resp. discrets) : Ce sont les applications X : Ω → R (resp. X : Ω → Rd ) telles que (resp. tel que) X(Ω) = {xk ; k ∈ D} est fini où dénombrable (D = {1, . . . , N } ou D = N) et vérifiant la condition de mesurabilité : ∀k ∈ D, [X = xk ] ∈ T. Dans la suite on écrit v.a. pour variable (resp. vecteur) aléatoire. Distribution de probabilité : C’est Pla suite des nombres pk = P(X = xk ) (k ∈ D). Ce sont des nombres 0 ≤ pk ≤ 1 tels que k∈D pk = 1. P Moments : La v.a. X a P un moment d’ordre n (n ∈ N∗ ) si k∈D pk |xk |n < +∞ et le moment d’ordre n est E(X n ) = k∈D pk xnk ( c’est l’espérance si n = 1). Si X a un moment d’ordre n alors X a des moments de tous les ordres k ≤ n. Si E(X 2 ) existe, la variance est V ar(X) = p E((X − E(X))2 ) = E(X 2 ) − (E(X))2 et σX = V ar(X) est l’écart type. Si (X, Y ) est un couple de v.a. ayant un moment d’ordre 2, la v.a. (X − E(X))(Y − E(Y )) a un moment d’ordre 1 qui s’appelle la covariance de X et Y . | ≥ a) ≤ a12 (inégalité de Si X a un moment d’ordre 2, alors pour tout a > 0, P(| X−E(X) σX Bienaymé-Tchebychev). Formule de l’espérance totale : Soit X une v.a. discrète ayant un moment d’ordre 1 et (An ) un système Xcomplet d’événements. Alors : E(X) = E(X|An )P(An ), n P où E(X|An ) = k∈D xk PAn (X = xk ) (PAn est la probabilité conditionnelle sachant An ). Transformée déterministe d’un v.a., formule du transfert : Si X est un vecteur aléatoire discret de Rd et f : x 7→ f (x) une fonction déterministe de Rd dans R, la v.a. f (X) = f ◦ X a une espérance P donnée par la formule E(f (X)) = k∈D pk f (xk ) (à condition , si D = N, que la série soit absolument convergente). Variables aléatoires indépendantes : Les v.a. discrètes X1 , . . . , Xk sont dites (mutuellement) indépendantes si ∀1 ≤ i ≤ k, ∀xi ∈ Xi (Ω) P(X1 = xi , . . . , Xk = xk ) = P(X1 = x1 ) . . . P(Xk = xk ). Si les v.a. Qk discrètes X1 , . . . , Xk sont indépendantes Qk et si elles Qk ont un moment d’ordre 1 alors la v.a. i=1 Xi a un moment d’ordre 1 et E( i=1 Xi ) = i=1 E(Xi ). Si les v.a. discrètes X1 , . . . , Xk sont indépendantes et si elles P P ont un moment d’ordre 2 alors la v.a. S = ki=1 Xi a un moment d’ordre 2 et V ar(S) = ki=1 V ar(Xi ). v.a. binomiale B(n, p) : Toute v.a. X telle que X(Ω) = {0, 1, . . . , n} et pour tout 0 ≤ k ≤ n P(X = k) = Cnk pk (1 − p)n−k , (où n ≥ 1 et p ∈ [0, 1] sont fixés). Si n = 1, on dit que X est une v.a. de Bernoulli. On a E(X) = np et V ar(X) = np(1 − p). v.a. de Poisson de paramètre λ > 0 : Toute v.a. X telle que X(Ω) = N et P(X = k) = e−λ (k ∈ N). On a E(X) = V ar(X) = λ. 2 λk k! v.a. de Pascal de paramètre p ∈]0, 1[ : Toute v.a. telle que X(Ω) = N∗ et P(X = k) = p(1 − p)k−1 (k entier ≥ 1) (on l’appelle aussi v.a. géométrique, ou v.a. instant du premier succès). Loi faible des grands nombres : Si (Xk ) est une suite de variables aléatoires indépendantes de même loi ayant un moment d’ordre 2, alors ∀ > 0, P(| n1 (X1 +· · ·+Xn )−E(X1 )| > ) → 0 si n → +∞. III) Variables aléatoires ayant une densité de probabilité : Soit (Ω, T, P) un espace probabilisé. Vecteur aléatoire (v.a.) (ou variable aléatoire si d = 1) : C’est une application X : Ω, −→Rd telle que pour tout pavé I de Rd , [X ∈ I] = {ω ∈ Ω ; X(ω) ∈ I} ∈ T (condition de mesurabilité). Fonction de répartition d’une v.a. X : C’est la fonction F : R → R telle que : ∀t ∈ R, F (t) = P(X ≤ t). Elle est telle que : 1) 0 ≤ F (t) ≤ 1 ; 2) F est croissante (au sens large), continue à droite en chaque t ∈ R ; 3) lim F (t) = 0 et lim F (t) = 1. t→−∞ t→+∞ Densité d’un v.a. (resp. d’uneRv.a. lorsque d = 1) : Le v.a. X de Rd a une densité f si f : Rd → R+ estR intégrable avec Rd f (x1 , . . . , xd )dx1 . . . dxd = 1 et si ∀I (pavé de Rd ), P(X ∈ I) = B f (x1 , . . . , xd )dx1 . . . dxd . Densité normale N (0, 1) : C’est la fonction f (x) = 2 √1 e−x /2 2π (x ∈ R). Densité normale N (m, σ 2 ) : C’est la fonction f (x) = √1 σ 2π Densité uniforme sur [a, b] : C’est la fonction f (x) = 1 1 (x) b−a [a,b] 2 exp − 12 ( x−m ) (x ∈ R). σ (x ∈ R). Densité exponentielle de paramètre λ > 0 : C’est la fonction f (x) = λe−λx 1R+ (x). Densités marginales : Si (X, Y ) est un couple Rde v.a. ayant une densité f (x, y) sur R2 , les R∞ ∞ densités marginales sont données par fX (x) = −∞ f (x, y)dy et fY (y) = −∞ f (x, y)dx. v.a. indépendantes : Les v.a. X1 , . . . , Xk sont dites (mutuellement) indépendantes si ∀I1 , . . . , Ik (intervalles de R) P(X1 ∈ I1 , . . . , Xk ∈ Ik ) = P(X1 ∈ I1 ) . . . P(Xk ∈ Ik ). CNS d’indépendance : Soit X = (X1 , · · · , Xd ) un vecteur aléatoire de Rd ayant une densité de probabilité f (x1 , · · · , xd ). Les v.a. (Xk ) sont indépendantes si et seulement si λd -p.p. on a f (x1 , · · · , xd ) = fX1 (x1 ) · · · fXd (xd ) (produit des densités marginales). REspérance, variance et moments : Une v.a. XR de densité f a un moment d’ordre 1 si |x|f (x)dx < +∞. On pose alors E(X) = R xf (x)dx et on l’appelle l’espérance maR thématique de X. La v.a. X a un moment d’ordre n(∈ N ∗ ) si X n a un moment d’ordre 1, le moment d’ordre n est alors le nombre E(X n ). De plus les formules donnant l’espérance du produit et la variance de la somme de variables aléatoires indépendantes sont valables pour les v.a. ayant une densité. Théorème (ou Formule) du transfert : Soit X un v.a. de Rd de densité probabilité f et soit d ϕ R : R → R une fonction mesurable. Alors R ϕ(X) = ϕ ◦ X a un moment d’ordre 1 ⇔ |ϕ(x)|f (x)dx < +∞ et on a E(ϕ ◦ X) = Rd ϕ(x)f (x)dx. Rd 3 Théorème de caractérisation d’une densité : Soit X un vecteur aléatoire de Rd et f : Rd → R+ une fonction borélienne positive tels que pour toute fonction borélienne bornée ψ : Rd → R R, on ait E(ψ ◦ X) = Rd ψ(x)f (x)dx, alors f est une densité de probabilité de X. IV) Convergence en loi, théorème limite central, applications Fonction caractéristique : La fonction ϕX (t) = E(eitX ) = E(cos(tX)) + iE(sin(tX) (t ∈ R) est la fonction caractéristique de la v.a. X. Par exemple si X est de loi N (0, 1), ϕX (t) = exp(− 12 t2 ), si X est de loi binomiale B(n, p), ϕX (t) = (1 − p + peit )n et si X est de loi de Poisson de paramètre λ > 0, ϕX (t) = exp(λ(eit − 1)). Propriétés : 1) Si X1 , . . . Xn sont des v.a. indépendantes et Pn des fonctions caractéristiques Qn S = i=1 Xi , on a ϕS (t) = i=1 ϕXi (t). 2) Si la v.a. X a des moments jusqu’à l’ordre n, ϕX (t) est n fois dérivable et ∀k ≤ n, dk ϕX (0) = (i)k E(X k ). Inversement si ϕX (t) est dérivable jusqu’à l’ordre n, X a des moments dtk jusqu’à l’ordre 2m ≤ n où 2m est le plus grand entier pair inférieur ou égal à n. La convergence en loi : La suite de v.a. (Xn ) converge en loi vers la v.a. X si limn→+∞ Fn (t) = F (t) en tout point de continuité t de F , où Fn (resp. F ) est la fonction de répartition de Xn (resp. X). La convergence des fonctions caractéristiques implique la convergence en loi, c’est à dire si pour tout t ∈ R, limn→+∞ ϕXn (t) = ϕX (t), alors Xn converge en loi vers X (théorème de Paul Lévy faible). Théorème limite central : Si Xn (n ≥ 1) sont des v.a. ayant un moment d’ordre P 2, indépendantes et de même loi d’espérance m et de variance σ 2 et si on pose Sn = ni=1 Xi , alors limn→+∞ σ√1 n Sn − nm = N (0, 1) en loi . En particulier q si les Xn (n ≥ 1) sont des v.a. de Bernoulli de même paramètre p ∈]0, 1[, Sn n − p = N (0, 1) en loi. limn→+∞ p(1−p) n V) Théorie générale des v.a., loi forte des grands nombres, divers modes de convergence des suites de v.a. Vecteur aléatoire (v.a.) (ou variable aléatoire si d = 1) : C’est une application mesurable X : (Ω, T, P) −→ (Rd , Bd ) où Bd est la tribu borélienne de Rd , c’est à dire : ∀B ∈ Bd , [X ∈ B] = {ω ∈ Ω ; X(ω) ∈ B} ∈ T (condition de mesurabilité). Loi de probabilité d’un v.a. X de Rd : C’est la mesure de probabilité µX sur Bd définie par : ∀B ∈ Bd , µX (B) = P(X ∈ B) (mesure image de la mesure P par l’application X de Ω dans Rd ). Indépendance et loi de probabilité : Soit X = (X1 , . . . , Xd ) un vecteur aléatoire de loi µX (sur (Rd , Bd )). Les v.a. Xk (1 ≤ k ≤ d) sont indépendantes si et seulement si µX = µX1 ⊗ · · · ⊗ µXd (produit tensoriel des lois marginales). Espace L1 : Une v.a. X estR dans L1 (Ω, T, P) := L1 si la fonction R X : Ω → R est intégrable sur Ω pour la mesure P i.e. Ω |X|dP < +∞. Le nombre E(X) = Ω XdP est alors l’espérance mathématique de X. De même pour p ∈ N∗ on dit que X est dans Lp (ou que X a un moment d’ordre p) si X p est intégrable et le nombre E(X p ) est alors le moment d’ordre p. Enfin L1 est un espace vectoriel et X 7→ E(X) est une forme linéaire sur L1 . 4 Formule générale du transfert : Soit X un v.a. de Rd et µX sa loi de probabilité sur Bd . Soit d ϕ Alors ϕ ◦ X ∈ L1 (Ω, F, P ) ⇔ ϕ ∈ L1 (Rd , Bd , µX ) et on Ra E(ϕ ◦ X) = R : R → R borélienne. R ϕ ◦ XdP = Rd ϕ(x)dµX (x). Ainsi si X est réelle et dans L1 on a : E(X) = R xdµX (x). Ω Espace de Banach L1 : Si dans L1 , on considère comme égales deux v.a qui sont égales Ppresque sûrement, on obtient l’espace L1 . Avec la norme ||X||1 = E(|X|), l’espace (L1 , ||.||1 ) est un espace de Banach. Ainsi une suite (Xn ) de v.a. de L1 converge dans L1 (vers une v.a. X de L1 ) si et seulement si limn,m→+∞ E(|Xn − Xm |) = 0. Inégalité de Markov : Si X ∈ L1 , alors ∀a > 0, on a P(|X| ≥ a) ≤ E(|X|) . a Convergence dans L1 et en probabilité : Si une suite (Xn ) de v.a. de L1 converge dans L1 vers une v.a. X alors (Xn ) converge vers X en probabilité i.e. : ∀δ > 0, lim P (|Xn − X| ≥ δ) = 0. n→+∞ 2 Espace L2 et variance : L2 est un espace vectoriel. La variance d’une v.a. X de L est le √ 2 2 2 nombre V arX = E ((X − E(X)) ) = E(X ) − (E(X)) et l’écart type est σX = V arX. Tous les résultats établis sur l’espérance et la variance dans le cas des v.a. discrètes ou ayant une densité, restent valables dans le cadrep général. p En particulier si X et Y sont dans L2 , la v.a. XY est dans L1 et on a E(|XY |) ≤ E(X 2 ) E(Y 2 ) (inégalité de Cauchy-Schwartz). Il en résulte que L2 est inclus dans L1 . Espace de Hilbert L2 : Si dans L2 , on considère comme égales deux v.a qui sont égales P2 presque sûrement, p on obtient l’espace2 L . Avec le produit scalaire < X, Y >2 = E(XY ) et la norme ||X||2 = E(X 2 ), l’espace (L , ||.||2 ) est un espace de Hilbert. Convergence dans L2 et en probabilité : Si une suite (Xn ) de v.a. de L2 converge dans L2 vers une v.a. X alors (Xn ) converge vers X en probabilité. Convergence p.s. : La suite de v.a. (Xk ) converge P-p.s. (ou p.s.) vers la v.a. X si P({ω ∈ Ω; limk→∞ Xk (ω) = X(ω)}) = 1. Convergence p.s. et en probabilité : Si la suite de v.a. (Xk ) converge p.s. vers la v.a. X alors elle convergence aussi en probabilité (i.e. la convergence p.s. implique la convergence en probabilité). P∞ CS de convergence p.s.P: Si ∀ε > 0, k=1 P (|Xk | > ε) < +∞ alors Xn → 0 p.s. En particu+∞ p p lier si (Xn ) ∈ L et si n=1 E(|Xn | ) < +∞ alors Xn → 0 p.s. Lemme de Borel Cantelli : Si (An ) ∈ T et ∞ X P(An ) < +∞. Alors P(lim sup An ) = 0. n=1 L2 , de même espérance m, Loi forte des grands nombres : Si (Xk ) est une suite de v.a. Pde n 1 de variances bornées et 2 à 2 de covariance nulle alors n k=1 Xk → m p.s. (n → +∞). Ce résultat est en particulier vrai si les v.a. (Xk ) sont indépendantes et de même loi avec moment d’ordre 2. 1 Loi forte des grands nombres de Kolmogorov Pn : Si (Xk ) est une suite de v.a. de L indépen1 dantes et de même loi alors limn→+∞ n k=1 Xk = m p.s. (m = E(X1 )). La convergence en loi et les autres modes de convergence : Si une suite (Xk ) de v.a. converge vers une v.a. X en probabilité, elle converge aussi en loi vers X. 5