Aide Mémoire de Probabilité

publicité
Aide Mémoire de Probabilité
1
Probabilités ensemblistes
• Ω ensemble des résultats possibles
• A tribu : stable par union et stable par complémentaire
– si Ω dénombrable alors A = P(Ω) ensemble des parties de Ω
– si Ω non dénombrable ⊂ Rk alors A = B(Rk ) tribu de Borel de Rk
• P fonction probabilité :
P:A
A
→ [0, 1]
7→ P(A)
• (Ω, A, P) espace de probabilité
• Probabilité uniforme (cas fini) :
P : P(Ω)
A
→ [0, 1]
7→ P(A) =
Card(A)
Card(Ω)
• Axiomatique de Kolmogorov :
1. P(Ω) = 1
P
2. P (∪i∈I Ai ) = i∈I P(Ai ) si les Ai sont disjoints deux à deux.
en particulier P(A ∪ B) = P(A) + P(B) si A et B sont disjoints
⇒ raisonnement sur les ensembles disjoints (notamment partition) puis passage aux probabilités
• Dénombrement :
– Nombre d’arrangements de k éléments parmi N
∗
∗
∗
∗
!
= N × (N − 1) × ... × (N − k + 1)
AkN = (N )k = (NN−k)!
tous différents = sans remise
ordre est important
ex: tiercé
– Nombre de combinaisons de k éléments parmi N
AkN
!
k
∗ CN
= N
= k! = k!(NN−k)!
k
∗ tous différents = sans remise
∗ ordre n’est pas important
∗ ex: loto
– Nombre de permutations de k éléments : n! = Akk
1
• Reconnaître le modèle avec ou sans remise
– Modèle avec remise (multi-nominal)
∗ Ω = {suites ordonnées de k boules parmi N avec répétition (avec
remise)} = {(x1 , ..., xk ) ∈ {1, ..., N }k }
∗ Card(Ω) = N k
∗ La probabilité à chaque tirage/lancé est toujours la même entre les N
possibilités : pi , ∀i ∈ N
∗ ex1: k lancées d’une pièce truquée N = 2 avec p1 = p et p2 = 1 − p
⇒ loi Binomial de paramètres k et p.
∗ ex2 : k lancées de dés de N faces avec p = N1 si équilibré
– Modèle sans remise = tous différents
∗ Ω = {suites ordonnées de k boules parmi N sans répétition (tous
différents)} = {(x1 , ..., xk ) ∈ {1, ..., N }k | ∀i 6= j, xi 6= xj }
∗ Card(Ω) = AkN
∗ La probabilité change à chaque tirage/lancé étant donné qu’il n’y a pas
de remise =⇒ modèle plus complexe.
∗ ex: tirer k cartes sans remise dans un jeu de N cartes; sélectionner k
étudiants dans une promo de N
∗ ex: N = 2 : loi hypergéométrique
∗ Si N est très grand : modèle sans remise = modèle avec remise (la non
remise ne modifie quasiment pas la probabilité)
La définition de Ω est un point critique des problèmes :
• Souvent considérer un ordre dans les tirages, les lancées alors qu’il n’en existe
pas forcément et ensuite considérer les différents cas (permutations,....).
• Souvent ne pas considérer la couleur des boules ou d’autres caractéristiques dans
Ω et les considérer toutes distinctes (même si elles ont la même couleur) pour
obtenir une loi de probabilité uniforme : P(A) = Card(A)
Card(Ω) . Dans un second
temps, on dénombre les combinaisons, arrangements ou permutations.
2
Probabilités conditionnelles
P(A ∩ B)
P(B)
⇒ P(A|B)P(B) = P(B|A)P(A)
• P(A|B) =
• Probabilités totales : si Bi partition de Ω
X
P(A) =
P(A|Bi )P(Bi )
i∈I
=
X
P(A ∩ Bi )
i∈I
• A et B sont indépendants ⇐⇒ P(A ∩ B) = P(A) × P(B)
P(B)6=0
⇐⇒ P(A|B) = P(A)
• (Ai )i∈I mutuellement indépendants ⇐⇒ ∀J ⊂ I, P(∩i∈J Ai ) =
Q
i∈J
P(Ai )
• mutuellement indépendants =⇒ deux à deux indépendants (réciproque fausse)
2
3
Variables aléatoires réelles
Ajout d’une notion d’ordre (d’une mesure) dans Ω
X:Ω → R
ω 7→ X(ω) = x
(Ω, A, P) avec X =⇒ (R, B(R), PX )
4 façon différentes et équivalentes de définir une variable aléatoire réelle X :
1. Fonction densité de X
• discret : n’admet pas de densité.
On définit la loi en donnant la valeur de la probabilité en chaque point :
{(xi , P(X = xi ))}i∈I
=⇒ diagramme en bâtons.
Z
f : R → R+
• continu : X
fonction intégrable :
fX (x)dx = 1
x 7→ fX (x)
R
• Support de la loi de X : ensemble des valeurs de R sur lesquelles fX est
non nulle : DX = Supp(X) = {x ∈ R, fX (x) > 0}.
On note 1DX (x) = 1 si x ∈ DX et = 0 sinon, la fonction support.
• on note : X ∈ DX presque sûrement (p.s.) ou presque partout (p.p.) si
P(X ∈ DX ) = 1.
FX : R
x
2. Fonction de répartition de X :
• discret : FX (x) =
X
→ [0, 1]
7
→
FX (x) = PX (] − ∞; x]) = P(X 6 x)
P(X = xi ).
xi 6x
Z x
• continu : FX (x) =
Z
x
fX (x)dx =
−∞
Z
fX (x)1DX (x)dx =
−∞
fX (x)dx
]−∞,x]∩DX
c’est l’intégrale de fX , elle est croissante.
⇒ P(a 6 X 6 b) = FX (b) − FX (a)
⇒ P(X = a) = 0, ∀a ∈ R
⇒ FX (−∞) = 0 et FX (+∞) = 1
←
−
F X :]0, 1[ → R
3. Fonction quantile de X :
←
−
p 7→ F X (p) = inf{x ∈ R|FX (x) > p}
−1
c’est grosso-modo l’inverse de la fonction de répartition, FX
quand celle-ci existe.
=⇒ la médiane est la valeur de x telle que F (x) = 1/2.
4. Fonction caractéristique de X :
ϕX : R →
t 7→
C
ϕX (t) = E(eitX )
(k)
=⇒ ϕX (0) = ik E(X k )
• Espérance de X = moyenne de X; c’est un réel: E(X) ∈ R
P
– discret : E(X) = i∈I xi P(X = xi )
R
– continue: E(X) = R xfX (x)dx
– P(A) = E(1A ) =⇒ P(X > t) = E(1]t;+∞[ )
3
• Linéarité sur les intégrales =⇒ linéarité sur les espérance :
– E(aX + b) = aE(X) + b
– E(X + Y ) = E(X) + E(Y )
• Changement de variable : Y = g(X)
Z
– E(Y ) =
g(x)fX (x)dx
R
– Si g convexe alors g(E(X)) 6 E(g(X))
– ∀y ∈ R, FY (y) = P(X ∈ g −1 (] − ∞; y]))
– Si g bijective telle que g 0 (x) 6= 0 alors ∀y ∈ R, fY (y) = |(g −1 )0 (y)|fX (g −1 (y))
• Variance de X : moyenne de l’écart à la moyenne au carré; c’est un réel positif :
V ar(X) ∈ R+
V ar(X) = E((X − E(X))2 ) = E(X 2 ) − (E(X))2 = −ϕ00X (0) + (ϕ0X (0))2
Si V ar(X) = 0 alors X est un variable aléatoire constante.
p
• Écart type de X : σX = V ar(X) ⇒ mêmes unité que les valeurs de X.
• Moment non centré d’ordre p de X : mp = E(X p ) =
(p)
ϕX (0)
ip
∈R
• Moment centré d’ordre p de X : µp = E((X − E(X))p ) ∈ R
• Inégalité de Tchebychev : P (|X − E(X)| > a) 6
V ar(X)
a2
Lois classiques à connaître et reconnaître :
• Lois discrètes :
– Loi Uniforme sur {1, ..., n}
– Loi de Bernoulli de paramètre p ∈ [0, 1] (1 lancé à pile ou face)
– Loi Binomiale de paramètres n ∈ N∗ et p ∈]0, 1[ (n lancés à pile ou face)
– Loi Géométrique de paramètre p ∈]0, 1[
– Loi de Poisson de paramètre λ > 0
• Lois continues :
– Loi Uniforme sur l’intervalle [a, b]
– Loi Exponentielle de paramètre λ > 0
– Loi Normale (loi Gaussienne) de paramètres (µ, σ 2 )
4
4
Vecteurs aléatoires réelles
Simple généralisation des définitions pour d variables aléatoires réelles.
Notions nouvelles uniquement à propos de la (in)dépendance entre lois : covariance...
X = (X1 , ..., Xd ) : (Ω, A) → (Rd , B(Rd ))
loi jointe
ω 7→ X(ω) = (X1 (ω), ..., Xd (ω))
Simple généralisation des définitions :
• Probabilité d’un événement :
PX (A) = P(X1 ,...,Xd ) (A1 × ... × Ad ) = P(X1 ∈ A1 , ..., Xd ∈ Ad )
• Fonction de répartition de X :
FX : Rd → [0, 1]
t 7→ FX (t) = F(X1 ,...,Xd ) (t1 , ..., td ) = P(X1 6 t1 , ..., Xd 6 td )
• Fonction de densité de X :
f X : R d → R+
t
7→ fX (t1 , ..., td ) =
Z
∂d
FX (t1 , ..., td )
∂t
Z1 ...∂td
fX (t1 , ..., td )dt1 ...dtd =
avec
fX (t)dt=1
Rd
DX
et DX support de X.
Z
FX (t1 , ..., td )
PX (A)
t1
=
Z
td
...
fX (t1 , ..., td )dt1 ...dtd
−∞
Z−∞
Z
Z
=
fX (t)dt =
fX (t)1DX dt =
A
A
fX (t)dt
A∩DX
• Fonction caractéristique de X :
φ X : Rd → C
t 7→ φX (t1 , ..., td ) = E(eiht,Xi )
• Espérance de X : E(X) = (E(X1 ), ..., E(Xd )) ∈ Rd
• i-ème loi marginale de X : projection/intégration de X sur sa i-ème composante :
Z
– fXi (x) =
fX (x1 , ..., xi−1 , x, xi+1 , ...xd )dx1 ...dxi−1 dxi+1 ...dxd
Rd−1
Z
Dans R2 : fX (x) =
f(X,Y ) (x, y)dy
R
– FXi (ti ) = FX (+∞, ..., ti , ..., +∞) (écriture non formelle)
– ϕXi (ti ) = φX (0, ..., 0, ti , 0..., 0)
• X et Y sont indépendantes
⇐⇒
⇐⇒
continue
discret
⇐⇒
P(X ∈ A, Y ∈ B) = P(X ∈ A) × P(Y ∈ B),
f(X,Y ) (x, y) = fX (x)fY (y), ∀(x, y) ∈ R2
P(X = xi , Y = yi ) = P(X = xi )P(Y = yi ),

E(XY ) = E(X)E(Y )



V ar(X + Y ) = V ar(X) + V ar(Y )
X et Y sont des v.a.r. indépendantes =⇒
∀t ∈ R, ϕX+Y (t) = ϕX (t)ϕY (t)



∀t, s ∈ R, ϕ(X,Y ) (t, s) = ϕX (t)ϕY (s)
=⇒ généralisation au vecteur de dimension d.
5
∀A, B
∀(xi , yj )
• Changement de variable : Y = g(X)
Si g bijective de classe C 1 ainsi que sont inverse et |Jg−1 (y)| =
6 0 alors
fY (y) = |Jg−1 (y)|fX (g −1 (y))1g(DX ) (y)
cas où (U, V ) = g(X, Y )
f(U,V ) (u, v) = |Jg−1 (u, v)|f(X,Y ) (g −1 (u, v))1g(D(X,Y ) ) (u, v)
cas de Z = X + Y , fX+Y (z) =
R
f(X,Y ) (u − v, v)dv
• Covariance du couple (X, Y ) : Cov(X, Y ) = E((X − E(X))(Y − E(Y )))
Cov(X, X) = V ar(X)
Cov(X, Y ) = Cov(Y, X)
Cov(X, Y ) = E(XY ) − E(X)E(Y )
Cov(X, a) = 0, ∀a ∈ R
Forme bilinéaire en X, Y : Cov(aX + b, cY + d) = acCov(X, Y )
V ar(X ± Y ) = V ar(X) + V ar(Y ) ± Cov(X, Y )
V ar(aX + bY + c) = a2 V ar(X) + b2 V ar(Y ) + 2abCov(X, Y )
Matrice de covariance de X = (X1 , ..., Xd ) : Cov(X) = (Cov(Xi , Xj ))16i,j6d
• Coefficient de corrélation (linéaire) de X et Y (X et Y de carré intégrable):
ρXY = p
Cov(X, Y )
V ar(X)V ar(Y )
ρXY = 0 : X et Y sont non corrélées
|ρXY | 6 1
|ρXY | = 1 ⇐⇒ X et Y sont colinéaires (relation affine entre X et Y )
5
Lois et espérance conditionnelle
6=
Conditionnement par
rapport à une variable aléatoire
Conditionnement par rapport à un
événement (valeur d’une variable aléatoire)
• Loi conditionnelle sachant un événement
– Loi conditionnelle de Y sachant X = xi (cas discret) :
∀xi , ∀yi , PY |X=xi (yi ) = P(Y = yi |X = xi ) =
P(Y = yi , X = xi )
P(X = xi )
Théorème des probabilités totales :
X
P(X = xi ) =
P(X = xi |Y = yi )P(Y = yi )
j
– Loi conditionnelle de Y sachant X = x (cas continu) :
∀x, ∀y, fY |X=x (y) = fY (y|X = x) =
6
f(X,Y ) (x, y)
fX (x)
• Espérance conditionnelle sachant un événement :
– Espérance conditionnelle de la v.a. g(X, Y ) sachant X = xi (cas discret) :
X
E(g(X, Y )|X = xi ) =
g(xi , yj )P(Y = yi |X = xi )
j
– Espérance conditionnelle de la v.a. g(X, Y ) sachant X = x (cas continu) :
Z
E(g(X, Y )|X = x) =
g(xi , yj )fY |X=x (y)dy
R
• Espérance conditionnelle de la v.a. Y sachant la v.a. X, E(Y |X) :
E(Y |X = x) = g(x)
g = E(Y |X) : X →
x 7→
=⇒
E(Y |X) = g(X)
R
g(x) = E(Y |X = x)
Attention !! E(Y ) ∈ R mais E(Y |X) est une v.a. qui dépend de la v.a. X (c-à-d
la fonction g(X)).
• Variance conditionnelle de la v.a. Y sachant la v.a. X, V ar(Y |X) :
V ar(Y |X = x) = h(x)
=⇒
V ar(Y |X) = h(X)
De même V ar(Y ) ∈ R mais V ar(Y |X) est une v.a. fonction de la v.a. X,
h(X).
• Les lois conditionnelles coïncident avec les lois marginales
• Théorème de l’espérance totale : si Y intégrable alors
E(Y ) = E(E(Y |X))
• Théorème de la variance totale : si Y de carré intégrable alors
V ar(Y ) = E(V ar(Y |X)) + V ar(E(Y |X))
• ∀ fonctions g bornée et h tel que h(Y ) intégrable, on :
E(g(X)h(Y )|X) = g(X)E(h(Y )|X)
=⇒ E(g(X)|X) = g(X)
7
6
Vecteurs aléatoires gaussiens
• X = (X1 , ..., Xd ) vecteur aléatoire gaussien Nd (m, Γ) avec m vecteur espérance (vecteur moyenne) et Γ matrice de covariance des Xi : Γij = Cov(Xi , Xj )
Γ est une matrice symétrique semi-défini positive Γ = (Cov(Xi , Xj ))i,j
• Γ diagonale =⇒ les Xi sont non corrélées (Cov(Xi , Xj ) = 0, ∀i 6= j)
• X = (X1 , ..., Xd ) ∼ Nd (m, Γ) =⇒ ∀i = 1...d, Xi ∼ N (mi , Γii )
La réciproque est fausse sauf si les Xi sont indépendants
X ∼ Nd (m, Γ)
•
⇒ Y ∼ Nk (a+P m, P ΓP T )
Y = a + P X avec a ∈ Rk et P ∈ Mk×d (R)
• X1 , ..., Xn indépendants ⇒ X1 , ..., Xn non corrélées
La réciproque est fausse sauf si X = (X1 , ..., Xn ) est un vecteur gaussien
7
Convergences des variables aléatoires
• (Xi )i∈N indépendantes identiquement distribuées (i.i.d.)
⇐⇒ indépendantes et toutes de même loi que X : L(X) = L(Xi ), ∀i
• une v.a. est X intégrable ⇐⇒ E(|X|) < +∞
• une v.a. est X de carre intégrable ⇐⇒ E(X 2 ) < +∞
• Convergence presque sûre ou convergence forte :
p.s.
Xn −−→ X ⇐⇒ P
ω ∈ Ω : lim Xn (ω) = X(ω)
=1
n→+∞
• Convergence en probabilité :
P
Xn −
→ X ⇐⇒ ∀, lim P (|Xn − X| > ) = 0
n→+∞
P
De plus :
Xn −
→X
P
Yn −
→Y
)

P

→ g(X), ∀g continue
 g(Xn ) −
P
=⇒
aXn + bYn −
→ aX + bY, ∀a, b ∈ R


P
ZXn −
→ ZX, ∀Z v.a.r. finie p.s.
• Convergence dans Lp :
Lp
Xn −−→ X ⇐⇒ lim E (|Xn − X|p ) = 0
n→+∞
Convergence en moyenne quadratique (c-à-d dans L2 ) :
m.q.
Xn −−−→ X ⇐⇒ lim E |Xn − X|2 = 0
n→+∞
lim E(Xn ) = m
De plus :
)
m.q.
n→+∞
=⇒ Xn −−−→ m (v.a. constante)
lim V ar(Xn ) = 0
n→+∞
8
• Convergence en loi (la plus faible, la plus utilisée) :
L
Xn −
→X
⇐⇒
lim FXn (t) = FX (t)
n→+∞
⇐⇒
lim E(g(Xn )) = E(g(X)), ∀g bornée, continue
n→+∞
⇐⇒
lim ϕXn (t) = ϕX (t)
n→+∞
Convergence des lois mais pas des variables aléatoires :
L
L
.
Xn −
→ X ; Xn − X −
→0
Une v.a. discrète/continue
) peut(converger en loi vers un v.a. continue/discrète
L
L
Xn + Yn −
→X +a
Xn −
→X
=⇒
De plus :
P
L
Xn Yn −
→ aX
Yn −
→a
• Dominance des convergences :
p.s.
Xn −−→ X =⇒
L
p
L
q
L1
Xn −−→ X =⇒ Xn −−→ X (q 6 p) =⇒ Xn −−→ X =⇒
P
• Loi faible des Grands Nombres (LfGN)
n
(Xi )i∈N i.i.d.(L(X) = L(Xi ))
X intégrable
=⇒
Sn
1X
P
=
Xi −
→ E(X)
n
n i=1
• Loi Forte des Grands Nombres (LFGN)
n
(Xi )i∈N i.i.d.(L(X) = L(Xi ))
X intégrable
=⇒
1X
Sn
p.s.
Xi −−→ E(X)
=
n
n i=1
• Théorème Central
Limite (TCL)
Pn
Soit Sn = i=1 Xi
(Xi )i∈N i.i.d.(L(X) = L(Xi ))
X de carré intégrable
Sn − nE(X) L
=⇒ p
−
→ N (0, 1)
nV ar(X)
(Xi )i∈N i.i.d.(L(X) = L(Xi ))
Sn L
√
−
→
n
S
)

 E(X) = 0
E(X 2 ) < ∞
=⇒

S = N (0, 1)
• Astuce :
∀X v.a.r. et ∀x ∈ R, 1{X6x} ∼ B(p) avec p = P(X 6 x) = FX (x),
donc E(1{X6x} ) = p et V ar(1{X6x} ) = p(1 − p)
9
L
Xn −
→ X =⇒ Xn −
→X
Téléchargement