Aide Mémoire de Probabilité 1 Probabilités ensemblistes • Ω ensemble des résultats possibles • A tribu : stable par union et stable par complémentaire – si Ω dénombrable alors A = P(Ω) ensemble des parties de Ω – si Ω non dénombrable ⊂ Rk alors A = B(Rk ) tribu de Borel de Rk • P fonction probabilité : P:A A → [0, 1] 7→ P(A) • (Ω, A, P) espace de probabilité • Probabilité uniforme (cas fini) : P : P(Ω) A → [0, 1] 7→ P(A) = Card(A) Card(Ω) • Axiomatique de Kolmogorov : 1. P(Ω) = 1 P 2. P (∪i∈I Ai ) = i∈I P(Ai ) si les Ai sont disjoints deux à deux. en particulier P(A ∪ B) = P(A) + P(B) si A et B sont disjoints ⇒ raisonnement sur les ensembles disjoints (notamment partition) puis passage aux probabilités • Dénombrement : – Nombre d’arrangements de k éléments parmi N ∗ ∗ ∗ ∗ ! = N × (N − 1) × ... × (N − k + 1) AkN = (N )k = (NN−k)! tous différents = sans remise ordre est important ex: tiercé – Nombre de combinaisons de k éléments parmi N AkN ! k ∗ CN = N = k! = k!(NN−k)! k ∗ tous différents = sans remise ∗ ordre n’est pas important ∗ ex: loto – Nombre de permutations de k éléments : n! = Akk 1 • Reconnaître le modèle avec ou sans remise – Modèle avec remise (multi-nominal) ∗ Ω = {suites ordonnées de k boules parmi N avec répétition (avec remise)} = {(x1 , ..., xk ) ∈ {1, ..., N }k } ∗ Card(Ω) = N k ∗ La probabilité à chaque tirage/lancé est toujours la même entre les N possibilités : pi , ∀i ∈ N ∗ ex1: k lancées d’une pièce truquée N = 2 avec p1 = p et p2 = 1 − p ⇒ loi Binomial de paramètres k et p. ∗ ex2 : k lancées de dés de N faces avec p = N1 si équilibré – Modèle sans remise = tous différents ∗ Ω = {suites ordonnées de k boules parmi N sans répétition (tous différents)} = {(x1 , ..., xk ) ∈ {1, ..., N }k | ∀i 6= j, xi 6= xj } ∗ Card(Ω) = AkN ∗ La probabilité change à chaque tirage/lancé étant donné qu’il n’y a pas de remise =⇒ modèle plus complexe. ∗ ex: tirer k cartes sans remise dans un jeu de N cartes; sélectionner k étudiants dans une promo de N ∗ ex: N = 2 : loi hypergéométrique ∗ Si N est très grand : modèle sans remise = modèle avec remise (la non remise ne modifie quasiment pas la probabilité) La définition de Ω est un point critique des problèmes : • Souvent considérer un ordre dans les tirages, les lancées alors qu’il n’en existe pas forcément et ensuite considérer les différents cas (permutations,....). • Souvent ne pas considérer la couleur des boules ou d’autres caractéristiques dans Ω et les considérer toutes distinctes (même si elles ont la même couleur) pour obtenir une loi de probabilité uniforme : P(A) = Card(A) Card(Ω) . Dans un second temps, on dénombre les combinaisons, arrangements ou permutations. 2 Probabilités conditionnelles P(A ∩ B) P(B) ⇒ P(A|B)P(B) = P(B|A)P(A) • P(A|B) = • Probabilités totales : si Bi partition de Ω X P(A) = P(A|Bi )P(Bi ) i∈I = X P(A ∩ Bi ) i∈I • A et B sont indépendants ⇐⇒ P(A ∩ B) = P(A) × P(B) P(B)6=0 ⇐⇒ P(A|B) = P(A) • (Ai )i∈I mutuellement indépendants ⇐⇒ ∀J ⊂ I, P(∩i∈J Ai ) = Q i∈J P(Ai ) • mutuellement indépendants =⇒ deux à deux indépendants (réciproque fausse) 2 3 Variables aléatoires réelles Ajout d’une notion d’ordre (d’une mesure) dans Ω X:Ω → R ω 7→ X(ω) = x (Ω, A, P) avec X =⇒ (R, B(R), PX ) 4 façon différentes et équivalentes de définir une variable aléatoire réelle X : 1. Fonction densité de X • discret : n’admet pas de densité. On définit la loi en donnant la valeur de la probabilité en chaque point : {(xi , P(X = xi ))}i∈I =⇒ diagramme en bâtons. Z f : R → R+ • continu : X fonction intégrable : fX (x)dx = 1 x 7→ fX (x) R • Support de la loi de X : ensemble des valeurs de R sur lesquelles fX est non nulle : DX = Supp(X) = {x ∈ R, fX (x) > 0}. On note 1DX (x) = 1 si x ∈ DX et = 0 sinon, la fonction support. • on note : X ∈ DX presque sûrement (p.s.) ou presque partout (p.p.) si P(X ∈ DX ) = 1. FX : R x 2. Fonction de répartition de X : • discret : FX (x) = X → [0, 1] 7 → FX (x) = PX (] − ∞; x]) = P(X 6 x) P(X = xi ). xi 6x Z x • continu : FX (x) = Z x fX (x)dx = −∞ Z fX (x)1DX (x)dx = −∞ fX (x)dx ]−∞,x]∩DX c’est l’intégrale de fX , elle est croissante. ⇒ P(a 6 X 6 b) = FX (b) − FX (a) ⇒ P(X = a) = 0, ∀a ∈ R ⇒ FX (−∞) = 0 et FX (+∞) = 1 ← − F X :]0, 1[ → R 3. Fonction quantile de X : ← − p 7→ F X (p) = inf{x ∈ R|FX (x) > p} −1 c’est grosso-modo l’inverse de la fonction de répartition, FX quand celle-ci existe. =⇒ la médiane est la valeur de x telle que F (x) = 1/2. 4. Fonction caractéristique de X : ϕX : R → t 7→ C ϕX (t) = E(eitX ) (k) =⇒ ϕX (0) = ik E(X k ) • Espérance de X = moyenne de X; c’est un réel: E(X) ∈ R P – discret : E(X) = i∈I xi P(X = xi ) R – continue: E(X) = R xfX (x)dx – P(A) = E(1A ) =⇒ P(X > t) = E(1]t;+∞[ ) 3 • Linéarité sur les intégrales =⇒ linéarité sur les espérance : – E(aX + b) = aE(X) + b – E(X + Y ) = E(X) + E(Y ) • Changement de variable : Y = g(X) Z – E(Y ) = g(x)fX (x)dx R – Si g convexe alors g(E(X)) 6 E(g(X)) – ∀y ∈ R, FY (y) = P(X ∈ g −1 (] − ∞; y])) – Si g bijective telle que g 0 (x) 6= 0 alors ∀y ∈ R, fY (y) = |(g −1 )0 (y)|fX (g −1 (y)) • Variance de X : moyenne de l’écart à la moyenne au carré; c’est un réel positif : V ar(X) ∈ R+ V ar(X) = E((X − E(X))2 ) = E(X 2 ) − (E(X))2 = −ϕ00X (0) + (ϕ0X (0))2 Si V ar(X) = 0 alors X est un variable aléatoire constante. p • Écart type de X : σX = V ar(X) ⇒ mêmes unité que les valeurs de X. • Moment non centré d’ordre p de X : mp = E(X p ) = (p) ϕX (0) ip ∈R • Moment centré d’ordre p de X : µp = E((X − E(X))p ) ∈ R • Inégalité de Tchebychev : P (|X − E(X)| > a) 6 V ar(X) a2 Lois classiques à connaître et reconnaître : • Lois discrètes : – Loi Uniforme sur {1, ..., n} – Loi de Bernoulli de paramètre p ∈ [0, 1] (1 lancé à pile ou face) – Loi Binomiale de paramètres n ∈ N∗ et p ∈]0, 1[ (n lancés à pile ou face) – Loi Géométrique de paramètre p ∈]0, 1[ – Loi de Poisson de paramètre λ > 0 • Lois continues : – Loi Uniforme sur l’intervalle [a, b] – Loi Exponentielle de paramètre λ > 0 – Loi Normale (loi Gaussienne) de paramètres (µ, σ 2 ) 4 4 Vecteurs aléatoires réelles Simple généralisation des définitions pour d variables aléatoires réelles. Notions nouvelles uniquement à propos de la (in)dépendance entre lois : covariance... X = (X1 , ..., Xd ) : (Ω, A) → (Rd , B(Rd )) loi jointe ω 7→ X(ω) = (X1 (ω), ..., Xd (ω)) Simple généralisation des définitions : • Probabilité d’un événement : PX (A) = P(X1 ,...,Xd ) (A1 × ... × Ad ) = P(X1 ∈ A1 , ..., Xd ∈ Ad ) • Fonction de répartition de X : FX : Rd → [0, 1] t 7→ FX (t) = F(X1 ,...,Xd ) (t1 , ..., td ) = P(X1 6 t1 , ..., Xd 6 td ) • Fonction de densité de X : f X : R d → R+ t 7→ fX (t1 , ..., td ) = Z ∂d FX (t1 , ..., td ) ∂t Z1 ...∂td fX (t1 , ..., td )dt1 ...dtd = avec fX (t)dt=1 Rd DX et DX support de X. Z FX (t1 , ..., td ) PX (A) t1 = Z td ... fX (t1 , ..., td )dt1 ...dtd −∞ Z−∞ Z Z = fX (t)dt = fX (t)1DX dt = A A fX (t)dt A∩DX • Fonction caractéristique de X : φ X : Rd → C t 7→ φX (t1 , ..., td ) = E(eiht,Xi ) • Espérance de X : E(X) = (E(X1 ), ..., E(Xd )) ∈ Rd • i-ème loi marginale de X : projection/intégration de X sur sa i-ème composante : Z – fXi (x) = fX (x1 , ..., xi−1 , x, xi+1 , ...xd )dx1 ...dxi−1 dxi+1 ...dxd Rd−1 Z Dans R2 : fX (x) = f(X,Y ) (x, y)dy R – FXi (ti ) = FX (+∞, ..., ti , ..., +∞) (écriture non formelle) – ϕXi (ti ) = φX (0, ..., 0, ti , 0..., 0) • X et Y sont indépendantes ⇐⇒ ⇐⇒ continue discret ⇐⇒ P(X ∈ A, Y ∈ B) = P(X ∈ A) × P(Y ∈ B), f(X,Y ) (x, y) = fX (x)fY (y), ∀(x, y) ∈ R2 P(X = xi , Y = yi ) = P(X = xi )P(Y = yi ), E(XY ) = E(X)E(Y ) V ar(X + Y ) = V ar(X) + V ar(Y ) X et Y sont des v.a.r. indépendantes =⇒ ∀t ∈ R, ϕX+Y (t) = ϕX (t)ϕY (t) ∀t, s ∈ R, ϕ(X,Y ) (t, s) = ϕX (t)ϕY (s) =⇒ généralisation au vecteur de dimension d. 5 ∀A, B ∀(xi , yj ) • Changement de variable : Y = g(X) Si g bijective de classe C 1 ainsi que sont inverse et |Jg−1 (y)| = 6 0 alors fY (y) = |Jg−1 (y)|fX (g −1 (y))1g(DX ) (y) cas où (U, V ) = g(X, Y ) f(U,V ) (u, v) = |Jg−1 (u, v)|f(X,Y ) (g −1 (u, v))1g(D(X,Y ) ) (u, v) cas de Z = X + Y , fX+Y (z) = R f(X,Y ) (u − v, v)dv • Covariance du couple (X, Y ) : Cov(X, Y ) = E((X − E(X))(Y − E(Y ))) Cov(X, X) = V ar(X) Cov(X, Y ) = Cov(Y, X) Cov(X, Y ) = E(XY ) − E(X)E(Y ) Cov(X, a) = 0, ∀a ∈ R Forme bilinéaire en X, Y : Cov(aX + b, cY + d) = acCov(X, Y ) V ar(X ± Y ) = V ar(X) + V ar(Y ) ± Cov(X, Y ) V ar(aX + bY + c) = a2 V ar(X) + b2 V ar(Y ) + 2abCov(X, Y ) Matrice de covariance de X = (X1 , ..., Xd ) : Cov(X) = (Cov(Xi , Xj ))16i,j6d • Coefficient de corrélation (linéaire) de X et Y (X et Y de carré intégrable): ρXY = p Cov(X, Y ) V ar(X)V ar(Y ) ρXY = 0 : X et Y sont non corrélées |ρXY | 6 1 |ρXY | = 1 ⇐⇒ X et Y sont colinéaires (relation affine entre X et Y ) 5 Lois et espérance conditionnelle 6= Conditionnement par rapport à une variable aléatoire Conditionnement par rapport à un événement (valeur d’une variable aléatoire) • Loi conditionnelle sachant un événement – Loi conditionnelle de Y sachant X = xi (cas discret) : ∀xi , ∀yi , PY |X=xi (yi ) = P(Y = yi |X = xi ) = P(Y = yi , X = xi ) P(X = xi ) Théorème des probabilités totales : X P(X = xi ) = P(X = xi |Y = yi )P(Y = yi ) j – Loi conditionnelle de Y sachant X = x (cas continu) : ∀x, ∀y, fY |X=x (y) = fY (y|X = x) = 6 f(X,Y ) (x, y) fX (x) • Espérance conditionnelle sachant un événement : – Espérance conditionnelle de la v.a. g(X, Y ) sachant X = xi (cas discret) : X E(g(X, Y )|X = xi ) = g(xi , yj )P(Y = yi |X = xi ) j – Espérance conditionnelle de la v.a. g(X, Y ) sachant X = x (cas continu) : Z E(g(X, Y )|X = x) = g(xi , yj )fY |X=x (y)dy R • Espérance conditionnelle de la v.a. Y sachant la v.a. X, E(Y |X) : E(Y |X = x) = g(x) g = E(Y |X) : X → x 7→ =⇒ E(Y |X) = g(X) R g(x) = E(Y |X = x) Attention !! E(Y ) ∈ R mais E(Y |X) est une v.a. qui dépend de la v.a. X (c-à-d la fonction g(X)). • Variance conditionnelle de la v.a. Y sachant la v.a. X, V ar(Y |X) : V ar(Y |X = x) = h(x) =⇒ V ar(Y |X) = h(X) De même V ar(Y ) ∈ R mais V ar(Y |X) est une v.a. fonction de la v.a. X, h(X). • Les lois conditionnelles coïncident avec les lois marginales • Théorème de l’espérance totale : si Y intégrable alors E(Y ) = E(E(Y |X)) • Théorème de la variance totale : si Y de carré intégrable alors V ar(Y ) = E(V ar(Y |X)) + V ar(E(Y |X)) • ∀ fonctions g bornée et h tel que h(Y ) intégrable, on : E(g(X)h(Y )|X) = g(X)E(h(Y )|X) =⇒ E(g(X)|X) = g(X) 7 6 Vecteurs aléatoires gaussiens • X = (X1 , ..., Xd ) vecteur aléatoire gaussien Nd (m, Γ) avec m vecteur espérance (vecteur moyenne) et Γ matrice de covariance des Xi : Γij = Cov(Xi , Xj ) Γ est une matrice symétrique semi-défini positive Γ = (Cov(Xi , Xj ))i,j • Γ diagonale =⇒ les Xi sont non corrélées (Cov(Xi , Xj ) = 0, ∀i 6= j) • X = (X1 , ..., Xd ) ∼ Nd (m, Γ) =⇒ ∀i = 1...d, Xi ∼ N (mi , Γii ) La réciproque est fausse sauf si les Xi sont indépendants X ∼ Nd (m, Γ) • ⇒ Y ∼ Nk (a+P m, P ΓP T ) Y = a + P X avec a ∈ Rk et P ∈ Mk×d (R) • X1 , ..., Xn indépendants ⇒ X1 , ..., Xn non corrélées La réciproque est fausse sauf si X = (X1 , ..., Xn ) est un vecteur gaussien 7 Convergences des variables aléatoires • (Xi )i∈N indépendantes identiquement distribuées (i.i.d.) ⇐⇒ indépendantes et toutes de même loi que X : L(X) = L(Xi ), ∀i • une v.a. est X intégrable ⇐⇒ E(|X|) < +∞ • une v.a. est X de carre intégrable ⇐⇒ E(X 2 ) < +∞ • Convergence presque sûre ou convergence forte : p.s. Xn −−→ X ⇐⇒ P ω ∈ Ω : lim Xn (ω) = X(ω) =1 n→+∞ • Convergence en probabilité : P Xn − → X ⇐⇒ ∀, lim P (|Xn − X| > ) = 0 n→+∞ P De plus : Xn − →X P Yn − →Y ) P → g(X), ∀g continue g(Xn ) − P =⇒ aXn + bYn − → aX + bY, ∀a, b ∈ R P ZXn − → ZX, ∀Z v.a.r. finie p.s. • Convergence dans Lp : Lp Xn −−→ X ⇐⇒ lim E (|Xn − X|p ) = 0 n→+∞ Convergence en moyenne quadratique (c-à-d dans L2 ) : m.q. Xn −−−→ X ⇐⇒ lim E |Xn − X|2 = 0 n→+∞ lim E(Xn ) = m De plus : ) m.q. n→+∞ =⇒ Xn −−−→ m (v.a. constante) lim V ar(Xn ) = 0 n→+∞ 8 • Convergence en loi (la plus faible, la plus utilisée) : L Xn − →X ⇐⇒ lim FXn (t) = FX (t) n→+∞ ⇐⇒ lim E(g(Xn )) = E(g(X)), ∀g bornée, continue n→+∞ ⇐⇒ lim ϕXn (t) = ϕX (t) n→+∞ Convergence des lois mais pas des variables aléatoires : L L . Xn − → X ; Xn − X − →0 Une v.a. discrète/continue ) peut(converger en loi vers un v.a. continue/discrète L L Xn + Yn − →X +a Xn − →X =⇒ De plus : P L Xn Yn − → aX Yn − →a • Dominance des convergences : p.s. Xn −−→ X =⇒ L p L q L1 Xn −−→ X =⇒ Xn −−→ X (q 6 p) =⇒ Xn −−→ X =⇒ P • Loi faible des Grands Nombres (LfGN) n (Xi )i∈N i.i.d.(L(X) = L(Xi )) X intégrable =⇒ Sn 1X P = Xi − → E(X) n n i=1 • Loi Forte des Grands Nombres (LFGN) n (Xi )i∈N i.i.d.(L(X) = L(Xi )) X intégrable =⇒ 1X Sn p.s. Xi −−→ E(X) = n n i=1 • Théorème Central Limite (TCL) Pn Soit Sn = i=1 Xi (Xi )i∈N i.i.d.(L(X) = L(Xi )) X de carré intégrable Sn − nE(X) L =⇒ p − → N (0, 1) nV ar(X) (Xi )i∈N i.i.d.(L(X) = L(Xi )) Sn L √ − → n S ) E(X) = 0 E(X 2 ) < ∞ =⇒ S = N (0, 1) • Astuce : ∀X v.a.r. et ∀x ∈ R, 1{X6x} ∼ B(p) avec p = P(X 6 x) = FX (x), donc E(1{X6x} ) = p et V ar(1{X6x} ) = p(1 − p) 9 L Xn − → X =⇒ Xn − →X