UNIVERSITÉ DE TOURS UFR SCIENCES ET TECHNIQUES

publicité
UNIVERSITÉ DE TOURS
UFR SCIENCES ET TECHNIQUES
MASTER 1 DE MATHEMATIQUES cours de M. L. Gallardo
FORMULAIRE de PROBABILITÉS (1er semestre 2012-2013)
Avertissement : Ce formulaire est un résumé du cours dont il suit les étapes. Il contient
donc des redites dues aux exigences du tronc commun au Master MME (concerné seulement
par la première partie du cours) et aux Master MA et MIMATS.
I) Généralités du calcul des probabilités : Soit Ω un ensemble (univers des possibles)
Espace probabilisé (Ω, T, P) : T est une tribu sur Ω c’est à dire T ⊂ P(Ω) vérifie
+∞
[
1)Ω ∈ T,
2) (An )n∈N ∗ ∈ T ⇒
An ∈ T,
3) A ∈ T ⇒ Ac ∈ T,
n=1
et P : T → [0, 1] (la probabilité) est telle que :
[
X
∞
+∞
1)P(Ω) = 1 , 2)P
An =
P(An ) pour tous (An ) ∈ T, tels que Ai ∩ Aj = ∅ si i 6= j.
n=0
n=0
Limite sup et Limite inf : Si (An )n∈N ∗ ∈ T, on note
+∞
+∞
[ +∞
\
\ +∞
[
Am , 2) lim sup An =
Am . On a alors :
1) lim inf An =
n=1
m=n
n=1
c
1) lim inf An ⊂ lim sup An , 2) (lim inf An ) =
m=n
lim sup Acn ,
3) (lim sup An )c = lim inf Acn .
Continuité de P : Pour toute suite monotone (An ) ∈ T, on a P(lim An ) = lim P(An )
n→+∞
S
T
(où lim An = n An si An % et lim An = n An si An &).
Probabilité conditionnelle : Si B ∈ T (avec P(B) > 0) est un événement fixé, pour tout
A ∈ T, la quantité PB (A) = P(A|B) = P(A ∩ B)/P(B) est la probabilité conditionnelle de A
sachant B. L’application PB : T → [0, 1] ainsi définie est la probabilité conditionnelle sachant
B.
Formule de l’intersection : Si A1 , A2 , . . . , Ak ∈ T et P(A1 ∩ A2 ∩ . . . ∩ Ak−1 ) > 0,
P(A1 ∩ A2 ∩ . . . ∩ Ak ) = P(A1 )P(A2 |A1 )P(A3 |A1 ∩ A2 ) . . . P(Ak |A1 ∩ . . . ∩ Ak−1 ).
Formule de la probabilité
totale : Soit (An ) un système complet d’événements. Alors :
X
∀A ∈ T, P(A) =
P(A|An )P(An ).
n
P(A|An )P(An )
Formule de Bayes : P(An |A) = X
(A ∈ T) si (An ) est un système complet.
P(A|Ak )P(Ak )
k
Tribus indépendantes, événements indépendants : Les tribus Ti (1 ≤ i ≤ n) sur Ω sont indépendantes si ∀1 ≤ i ≤ n, Ai ∈ Ti , implique P(A1 ∩ . . . ∩ An ) = P(A1 ) . . . P(An ). En particulier
des événements Ak (1 ≤ k ≤ m sont indépendants si les tribus TAk qu’ils engendrent sont
indépendantes (où TAk = {∅, Ω, Ak , Ack }).
1
Espace probabilisé produit : Si (Ωi , Ti , Pi ) (1 ≤ i ≤ n) sont des espaces probabilisés, leur
espace produit est (Ω, T, P) où Ω = Ω1 × · · · × Ωn , T = T1 ⊗ · · · ⊗ Tn et P = P1 ⊗ · · · ⊗ Pn où T
est engendrée par les rectangles A1 × · · · × An , Ai ∈ Ti , et P est telle que P(A1 × · · · × An ) =
Q
n
i=1 Pi (Ai ).
II) Variables (resp. vecteurs) aléatoires discrètes (resp. discrets) : Ce sont les applications X : Ω → R (resp. X : Ω → Rd ) telles que (resp. tel que) X(Ω) = {xk ; k ∈ D} est
fini où dénombrable (D = {1, . . . , N } ou D = N) et vérifiant la condition de mesurabilité :
∀k ∈ D, [X = xk ] ∈ T. Dans la suite on écrit v.a. pour variable (resp. vecteur) aléatoire.
Distribution de probabilité : C’est
Pla suite des nombres pk = P(X = xk ) (k ∈ D). Ce sont
des nombres 0 ≤ pk ≤ 1 tels que k∈D pk = 1.
P
Moments : La v.a. X a P
un moment d’ordre n (n ∈ N∗ ) si k∈D pk |xk |n < +∞ et le moment
d’ordre n est E(X n ) = k∈D pk xnk ( c’est l’espérance si n = 1). Si X a un moment d’ordre n
alors X a des moments de tous les ordres k ≤ n.
Si E(X 2 ) existe, la variance est V ar(X) =
p
E((X − E(X))2 ) = E(X 2 ) − (E(X))2 et σX = V ar(X) est l’écart type. Si (X, Y ) est un
couple de v.a. ayant un moment d’ordre 2, la v.a. (X − E(X))(Y − E(Y )) a un moment
d’ordre 1 qui s’appelle la covariance de X et Y .
| ≥ a) ≤ a12 (inégalité de
Si X a un moment d’ordre 2, alors pour tout a > 0, P(| X−E(X)
σX
Bienaymé-Tchebychev).
Formule de l’espérance totale : Soit X une v.a. discrète ayant un moment d’ordre 1 et (An )
un système
Xcomplet d’événements. Alors :
E(X) =
E(X|An )P(An ),
n
P
où E(X|An ) = k∈D xk PAn (X = xk ) (PAn est la probabilité conditionnelle sachant An ).
Transformée déterministe d’un v.a., formule du transfert : Si X est un vecteur aléatoire discret de Rd et f : x 7→ f (x) une fonction déterministe de Rd dans R, la v.a. f (X) = f ◦ X a
une espérance
P donnée par la formule
E(f (X)) = k∈D pk f (xk )
(à condition , si D = N, que la série soit absolument convergente).
Variables aléatoires indépendantes : Les v.a. discrètes X1 , . . . , Xk sont dites (mutuellement)
indépendantes si
∀1 ≤ i ≤ k, ∀xi ∈ Xi (Ω) P(X1 = xi , . . . , Xk = xk ) = P(X1 = x1 ) . . . P(Xk = xk ).
Si les v.a.
Qk discrètes X1 , . . . , Xk sont indépendantes
Qk et si elles
Qk ont un moment d’ordre 1 alors
la v.a. i=1 Xi a un moment d’ordre 1 et E( i=1 Xi ) = i=1 E(Xi ).
Si les v.a. discrètes
X1 , . . . , Xk sont indépendantes et si elles
P
P ont un moment d’ordre 2 alors
la v.a. S = ki=1 Xi a un moment d’ordre 2 et V ar(S) = ki=1 V ar(Xi ).
v.a. binomiale B(n, p) : Toute v.a. X telle que X(Ω) = {0, 1, . . . , n} et pour tout 0 ≤ k ≤ n
P(X = k) = Cnk pk (1 − p)n−k , (où n ≥ 1 et p ∈ [0, 1] sont fixés). Si n = 1, on dit que X est
une v.a. de Bernoulli. On a E(X) = np et V ar(X) = np(1 − p).
v.a. de Poisson de paramètre λ > 0 : Toute v.a. X telle que X(Ω) = N et P(X = k) = e−λ
(k ∈ N). On a E(X) = V ar(X) = λ.
2
λk
k!
v.a. de Pascal de paramètre p ∈]0, 1[ : Toute v.a. telle que X(Ω) = N∗ et P(X = k) =
p(1 − p)k−1 (k entier ≥ 1) (on l’appelle aussi v.a. géométrique, ou v.a. instant du premier
succès).
Loi faible des grands nombres : Si (Xk ) est une suite de variables aléatoires indépendantes
de même loi ayant un moment d’ordre 2, alors ∀ > 0, P(| n1 (X1 +· · ·+Xn )−E(X1 )| > ) → 0
si n → +∞.
III) Variables aléatoires ayant une densité de probabilité : Soit (Ω, T, P) un espace
probabilisé.
Vecteur aléatoire (v.a.) (ou variable aléatoire si d = 1) : C’est une application X : Ω, −→Rd
telle que pour tout pavé I de Rd , [X ∈ I] = {ω ∈ Ω ; X(ω) ∈ I} ∈ T (condition de
mesurabilité).
Fonction de répartition d’une v.a. X : C’est la fonction F : R → R telle que : ∀t ∈ R, F (t) =
P(X ≤ t). Elle est telle que : 1) 0 ≤ F (t) ≤ 1 ; 2) F est croissante (au sens large), continue
à droite en chaque t ∈ R ; 3) lim F (t) = 0 et lim F (t) = 1.
t→−∞
t→+∞
Densité d’un v.a. (resp. d’uneRv.a. lorsque d = 1) : Le v.a. X de Rd a une densité f si f :
Rd → R+ estR intégrable avec Rd f (x1 , . . . , xd )dx1 . . . dxd = 1 et si ∀I (pavé de Rd ),
P(X ∈ I) = B f (x1 , . . . , xd )dx1 . . . dxd .
Densité normale N (0, 1) : C’est la fonction f (x) =
2
√1 e−x /2
2π
(x ∈ R).
Densité normale N (m, σ 2 ) : C’est la fonction f (x) =
√1
σ 2π
Densité uniforme sur [a, b] : C’est la fonction f (x) =
1
1 (x)
b−a [a,b]
2
exp − 12 ( x−m
)
(x ∈ R).
σ
(x ∈ R).
Densité exponentielle de paramètre λ > 0 : C’est la fonction f (x) = λe−λx 1R+ (x).
Densités marginales : Si (X, Y ) est un couple Rde v.a. ayant une densité f (x,
y) sur R2 , les
R∞
∞
densités marginales sont données par fX (x) = −∞ f (x, y)dy et fY (y) = −∞ f (x, y)dx.
v.a. indépendantes : Les v.a. X1 , . . . , Xk sont dites (mutuellement) indépendantes si
∀I1 , . . . , Ik (intervalles de R) P(X1 ∈ I1 , . . . , Xk ∈ Ik ) = P(X1 ∈ I1 ) . . . P(Xk ∈ Ik ).
CNS d’indépendance : Soit X = (X1 , · · · , Xd ) un vecteur aléatoire de Rd ayant une densité
de probabilité f (x1 , · · · , xd ). Les v.a. (Xk ) sont indépendantes si et seulement si λd -p.p. on
a f (x1 , · · · , xd ) = fX1 (x1 ) · · · fXd (xd ) (produit des densités marginales).
REspérance, variance et moments : Une v.a. XR de densité f a un moment d’ordre 1 si
|x|f (x)dx < +∞. On pose alors E(X) = R xf (x)dx et on l’appelle l’espérance maR
thématique de X. La v.a. X a un moment d’ordre n(∈ N ∗ ) si X n a un moment d’ordre 1, le
moment d’ordre n est alors le nombre E(X n ). De plus les formules donnant l’espérance du
produit et la variance de la somme de variables aléatoires indépendantes sont valables pour
les v.a. ayant une densité.
Théorème (ou Formule) du transfert : Soit X un v.a. de Rd de densité probabilité f et soit
d
ϕ
R : R → R une fonction mesurable. Alors
R ϕ(X) = ϕ ◦ X a un moment d’ordre 1 ⇔
|ϕ(x)|f (x)dx < +∞ et on a E(ϕ ◦ X) = Rd ϕ(x)f (x)dx.
Rd
3
Théorème de caractérisation d’une densité : Soit X un vecteur aléatoire de Rd et f : Rd →
R+ une fonction borélienne
positive tels que pour toute fonction borélienne bornée ψ : Rd →
R
R, on ait E(ψ ◦ X) = Rd ψ(x)f (x)dx, alors f est une densité de probabilité de X.
IV) Convergence en loi, théorème limite central, applications
Fonction caractéristique : La fonction ϕX (t) = E(eitX ) = E(cos(tX)) + iE(sin(tX) (t ∈ R)
est la fonction caractéristique de la v.a. X. Par exemple si X est de loi N (0, 1), ϕX (t) =
exp(− 12 t2 ), si X est de loi binomiale B(n, p), ϕX (t) = (1 − p + peit )n et si X est de loi de
Poisson de paramètre λ > 0, ϕX (t) = exp(λ(eit − 1)).
Propriétés
: 1) Si X1 , . . . Xn sont des v.a. indépendantes et
Pn des fonctions caractéristiques
Qn
S = i=1 Xi , on a ϕS (t) = i=1 ϕXi (t).
2) Si la v.a. X a des moments jusqu’à l’ordre n, ϕX (t) est n fois dérivable et ∀k ≤ n,
dk ϕX
(0) = (i)k E(X k ). Inversement si ϕX (t) est dérivable jusqu’à l’ordre n, X a des moments
dtk
jusqu’à l’ordre 2m ≤ n où 2m est le plus grand entier pair inférieur ou égal à n.
La convergence en loi : La suite de v.a. (Xn ) converge en loi vers la v.a. X si limn→+∞ Fn (t) =
F (t) en tout point de continuité t de F , où Fn (resp. F ) est la fonction de répartition de
Xn (resp. X). La convergence des fonctions caractéristiques implique la convergence en loi,
c’est à dire si pour tout t ∈ R, limn→+∞ ϕXn (t) = ϕX (t), alors Xn converge en loi vers X
(théorème de Paul Lévy faible).
Théorème limite central : Si Xn (n ≥ 1) sont des v.a. ayant un moment d’ordre
P 2, indépendantes et de même loi d’espérance m et de variance σ 2 et si on pose Sn = ni=1 Xi , alors
limn→+∞ σ√1 n Sn − nm = N (0, 1) en loi .
En particulier
q si les Xn (n ≥ 1) sont des v.a. de Bernoulli de même paramètre p ∈]0, 1[,
Sn
n
− p = N (0, 1) en loi.
limn→+∞ p(1−p)
n
V) Théorie générale des v.a., loi forte des grands nombres, divers modes de
convergence des suites de v.a.
Vecteur aléatoire (v.a.) (ou variable aléatoire si d = 1) : C’est une application mesurable X :
(Ω, T, P) −→ (Rd , Bd ) où Bd est la tribu borélienne de Rd , c’est à dire :
∀B ∈ Bd , [X ∈ B] = {ω ∈ Ω ; X(ω) ∈ B} ∈ T (condition de mesurabilité).
Loi de probabilité d’un v.a. X de Rd : C’est la mesure de probabilité µX sur Bd définie par :
∀B ∈ Bd , µX (B) = P(X ∈ B) (mesure image de la mesure P par l’application X de Ω dans
Rd ).
Indépendance et loi de probabilité : Soit X = (X1 , . . . , Xd ) un vecteur aléatoire de loi µX
(sur (Rd , Bd )). Les v.a. Xk (1 ≤ k ≤ d) sont indépendantes si et seulement si
µX = µX1 ⊗ · · · ⊗ µXd (produit tensoriel des lois marginales).
Espace L1 : Une v.a. X estR dans L1 (Ω, T, P) := L1 si la fonction
R X : Ω → R est intégrable
sur Ω pour la mesure P i.e. Ω |X|dP < +∞. Le nombre E(X) = Ω XdP est alors l’espérance
mathématique de X. De même pour p ∈ N∗ on dit que X est dans Lp (ou que X a un moment
d’ordre p) si X p est intégrable et le nombre E(X p ) est alors le moment d’ordre p. Enfin L1
est un espace vectoriel et X 7→ E(X) est une forme linéaire sur L1 .
4
Formule générale du transfert : Soit X un v.a. de Rd et µX sa loi de probabilité sur Bd . Soit
d
ϕ
Alors ϕ ◦ X ∈ L1 (Ω, F, P ) ⇔ ϕ ∈ L1 (Rd , Bd , µX ) et on Ra E(ϕ ◦ X) =
R : R → R borélienne.
R
ϕ ◦ XdP = Rd ϕ(x)dµX (x). Ainsi si X est réelle et dans L1 on a : E(X) = R xdµX (x).
Ω
Espace de Banach L1 : Si dans L1 , on considère comme égales deux v.a qui sont égales Ppresque sûrement, on obtient l’espace L1 . Avec la norme ||X||1 = E(|X|), l’espace (L1 , ||.||1 )
est un espace de Banach. Ainsi une suite (Xn ) de v.a. de L1 converge dans L1 (vers une v.a.
X de L1 ) si et seulement si limn,m→+∞ E(|Xn − Xm |) = 0.
Inégalité de Markov : Si X ∈ L1 , alors ∀a > 0, on a P(|X| ≥ a) ≤
E(|X|)
.
a
Convergence dans L1 et en probabilité : Si une suite (Xn ) de v.a. de L1 converge dans L1
vers une v.a. X alors (Xn ) converge vers X en probabilité i.e. :
∀δ > 0, lim P (|Xn − X| ≥ δ) = 0.
n→+∞
2
Espace L2 et variance : L2 est un espace vectoriel. La variance d’une v.a. X de L
est le
√
2
2
2
nombre V arX = E ((X − E(X)) ) = E(X ) − (E(X)) et l’écart type est σX = V arX.
Tous les résultats établis sur l’espérance et la variance dans le cas des v.a. discrètes ou ayant
une densité, restent valables dans le cadrep
général. p
En particulier si X et Y sont dans L2 , la
v.a. XY est dans L1 et on a E(|XY |) ≤ E(X 2 ) E(Y 2 ) (inégalité de Cauchy-Schwartz).
Il en résulte que L2 est inclus dans L1 .
Espace de Hilbert L2 : Si dans L2 , on considère comme égales deux v.a qui sont égales P2
presque sûrement,
p on obtient l’espace2 L . Avec le produit scalaire < X, Y >2 = E(XY ) et la
norme ||X||2 = E(X 2 ), l’espace (L , ||.||2 ) est un espace de Hilbert.
Convergence dans L2 et en probabilité : Si une suite (Xn ) de v.a. de L2 converge dans L2
vers une v.a. X alors (Xn ) converge vers X en probabilité.
Convergence p.s. : La suite de v.a. (Xk ) converge P-p.s. (ou p.s.) vers la v.a. X si
P({ω ∈ Ω; limk→∞ Xk (ω) = X(ω)}) = 1.
Convergence p.s. et en probabilité : Si la suite de v.a. (Xk ) converge p.s. vers la v.a. X alors
elle convergence aussi en probabilité (i.e. la convergence p.s. implique la convergence en
probabilité).
P∞
CS de convergence p.s.P: Si ∀ε > 0,
k=1 P (|Xk | > ε) < +∞ alors Xn → 0 p.s. En particu+∞
p
p
lier si (Xn ) ∈ L et si n=1 E(|Xn | ) < +∞ alors Xn → 0 p.s.
Lemme de Borel Cantelli : Si (An ) ∈ T et
∞
X
P(An ) < +∞. Alors P(lim sup An ) = 0.
n=1
L2 , de même espérance m,
Loi forte des grands nombres : Si (Xk ) est une suite de v.a.
Pde
n
1
de variances bornées et 2 à 2 de covariance nulle alors n k=1 Xk → m p.s. (n → +∞).
Ce résultat est en particulier vrai si les v.a. (Xk ) sont indépendantes et de même loi avec
moment d’ordre 2.
1
Loi forte des grands nombres de Kolmogorov
Pn : Si (Xk ) est une suite de v.a. de L indépen1
dantes et de même loi alors limn→+∞ n k=1 Xk = m p.s. (m = E(X1 )).
La convergence en loi et les autres modes de convergence : Si une suite (Xk ) de v.a. converge
vers une v.a. X en probabilité, elle converge aussi en loi vers X.
5
Téléchargement