Fiche de Probabilités

publicité
Fiche de Probabilités
Contents
I
Espace probabilisé
3
1 Définition de la probabilité
3
2 Indépendance
3
3 Probabilité conditionelle
4
II
4
Variables
1 Différents types de variables
4
2 Variable aléatoire vectorielle
5
III
6
Espérance mathématique
1 Définition
6
2 Calcul
6
3 Propriétés
6
4 Théorème
6
5 Maximum, Médiane, Mode, Minimum
6
IV
7
Variance
1 Définition
7
2 Calcul
7
3 Covariance
7
4 Propriétés
7
5 Ecart type
7
6 Coefficient de variation mesure
7
7 Théorème
7
V
7
Généralisation
1 Dans R
2 Dans
7
Rn
7
1
Pougne Pandore
VI
Probabilités
Loi normale
8
1 Caractéristiques
8
2 Généralisation
8
VII
8
Lois conditionnelles et espérance conditionnelle
1 Définition
8
2 Propriété
9
VIII
9
Les différentes convergences
1 Convergence en moyenne d’ordre alpha
9
2 Convergence en probabilité
9
3 Convergence presque sure
9
4 Convergence en loi
10
5 Relations entre les convergences
10
6 Théorème central limite
10
IX
10
X
Les différentes loi à connaître
Simulation de variables aléatoires
11
1 Generateur de nombres pseudo-aléatoires
11
2 Générer des réalisations d’un v.a. uniforme sur [0,1]
11
3 Méthode de la fonction de répartition inverse
11
4 Générer des lois gaussiennes multivariées
12
5 Méthode du rejet
12
6 Générer des réalisations d’un mélange de lois
12
XI
Régression
12
1 Régression linéaire
12
2 Régression non linéaire
13
page 2
Probabilités
Pougne Pandore
Part I
Espace probabilisé
1
Définition de la probabilité
Définition d’une tribu Soit Ω un ensemble, P(Ω) l’esemble de ses sous-ensembles. A ∈ P(Ω) est une tribu si:
1. Ω ∈ A
2. si A ∈ A alors Ā ∈ A
3. si la suite An ∈ AN alors
+∞
[
An ∈ A
n=1
On appel B(R) = {] − ∞, a[, a ∈ R} la tribu borélienne.
Définition d’une probabilité P est une probabilité sur (Ω, A) si:
1. ∀A ∈ A, P (A) ∈ [0, 1]
2. P (Ω) = 1
3. si la suite An vérifie ∀i 6= j, Ai ∩ Aj = ∅ Alors P
+∞
[
!
An
n=1
Définition d’un espace probabilisé
=
+∞
X
P (An )
n=1
(Ω, A, P ) est un espace probabilisé
Propriétés élémentaires des probabilités
Soient A, B ∈ A et An ∈ AN
1. P (Ā) = 1 − P (A)
2. P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
3. A ⊂ B ⇒ P (A) ≤ P (B)
+∞
[
4. P
!
An
≤
n=1
P (An )
n=1
5. P
+∞
X
lim An = lim P (An )
n→+∞
n→+∞
6. A et B disjoints ⇒ P (A ∩ B) = 0
2
Indépendance
Définition d’événements indépendants Soit (A1 , A2 , ..., An ) ∈ An Ces évènements sont indépendants si :

∀k ∈ N∀i1 , ..., ik ∈ {1, ..., n} distincts deux à deux, P 
k
\

Aij  =
j=1
Propriété
Soit Cn famille de A, formant une partition Ω Alors ∀A ∈ A, P (A) =
k
Y
+∞
X
n=1
page 3
P (Aij )
j=1
P (A ∩ Cn )
Probabilités
Pougne Pandore
3
Probabilité conditionelle
Définition d’une probabilité conditionnelle
B:
On définit la probabilité conditionelle par rapport à l’évènement
∀A ∈ A, P (A|B) =
P (A ∩ B)
= PB (A)
P (B)
Propriétés
Formule des probabilités totales
Soit Cn famille de A où aucun des termes n’a une probabilité nulle,
∀A ∈ A, P (A) =
+∞
X
P (A|Cn )P (Cn )
n=1
Formule de Bayes
Si P (A) 6= 0, P (Ci |A) =
P (A|Ci )P (Ci )
+∞
X
P (A|Cn )P (Cn )
n=1
Part II
Variables
Définition d’une variable aléatoire X variable aléatoire est une application mesurable d’un ensemble
probabilisé (Ω, A, P ) dans (Ω0 , A0 )
PX la loi de probabilité de X, est définie pour tout borélien B par :
PX (B) = P ({ω|X(ω) ∈ B}) = P (X −1 (B))
Une variable aléatoire peut être réelle, complexe, vectorielle, multidimensionnelle ou multivariée, ou encore une
suite de variables aléatoires
1
Différents types de variables
Variable continue
Définition d’une fonction de répartition Une fonction de répartition d’une variable aléatoire X est
la fonction :
R → [0, 1]
FX :{
x 7→ P (X < x)
Propriétés élémentaires :
1. FX est croissante au sens large
2. FX est continue à gauche
3.
4.
lim FX (x) = 0
x→−∞
lim FX (x) = 1
x→+∞
5. P (a ≤ X < b) = FX (b) − FX (a)
Ou on trouve aussi : FX : x 7→ P (X ≤ x) ce qui modifie la dernière propriété en P (a < X ≤ b) = FX (b) − FX (a)
page 4
Probabilités
Pougne Pandore
Définition de la densité de probabilité
est appelée densité de probabilité de X.
Si FX est continue et C 1 par morceau sur R, la fonction fX = FX0
Propriétés
1. fX est positive ou nulle
Z
2.
lim F (x) =
x→+∞
fX (t)dt = 1, plus généralement
R
Ω fX (t)dt
=1
R
3. ∀A ∈ A0 , PX (A) =
R
A fX (t)dt
Discrète
Loi PX : P (X = xi ) = pi
Fonction de répartition FX (x) =
P
pi δ(x − xi )
mixte
On décompose en deux parties, une continue et une discrète
2
Variable aléatoire vectorielle
Définitions :
Loi jointe: loi de la variable X = (X1 , ..., Xn )
Loi marginale: loi des composantes Xi
La connaissance de la jointe de X suffit pour caractériser X et connaître les lois marginales mais la réciproque est
fausse !
Cas discret
Contexte :
Soient X 1 et X 2 v.a discrètes prenant respectivement les valeurs {x11 , ..., x1n } et {x21 , ..., x2m } avec des probabilités
p1i et p2j
La v.a X = (X 1 , X 2 ) prend ses valeurs dans {(x1i , x2j ), 1 ≤ i ≤ n, 1 ≤ j ≤ m} avec des probabilités pi,j :
X
pi,k = p1i et
1≤k≤m
X
pk,j = p2j
1≤k≤n
Fonctions de répartition :
La v.a X = (X1 , ..., Xn ) est entrièrement déterminée par sa f.d.r
FX (x) = FX1 ,...,Xn (x1 , ..., xn ) = P (] − ∞, x1[×...×] − ∞, xn [) = P ({X1 < x1 } ∩ ... ∩ {Xn < xn })
Toute v.a marginale X1 est entièrement caractérisée par la f.d.r de X.
∀k 6= i, lim FX (x1 , ..., xn ) = FXi (xi )
xk →+∞
Mêmes propriétés que le cas scalaire.
Cas continu
Contexte :
La v.a X = (X1 , X2 ) est caractérisée par la densité de probabilité fX
page 5
Probabilités
Pougne Pandore
Fonction de répartition
La fonction de répartition FX de X qui est alors continue et partiellement dérivable presque
2
X (x1 ,x2 )
partout vérifie : fX (X1, X2) = ∂ F∂x
1 ∂x2
Z x2 Z x1
On a donc : FX (x1 , x2 ) =
−∞ −∞
fX (t, u)dtdu
Les f.d.r marginales respectives de X1 et X2 vérifient :
Z x1 Z +∞
FX2 (x1 ) =
−∞ −∞
fX (t, x2 )dx2 dt, et de même pour FX2
Densité marginale
Z +∞
fx1 =
−∞
fX (x1 , x2 )dx2
Indépendance des variables
Les v.a X et Y définies de (Ω, A, P ) dans (Ω0 , A0 ) sont indépendantes si
∀A, B ∈ A02 , P ({X ∈ A} ∩ {Y ∈ B}) = P (X ∈ A)P (Y ∈ B)
Changement de variable
Soit (X, Y ) → (U, V )
fU,V (u, v) = fX,Y (x(u, v), y(u, v))J(u, v)
∂x(u,v)
∂u
avec J jacobien valeur absolue du déterminant : ∂y(u,v)
∂u
∂x(u,v)
∂v
∂y(u,v)
∂v
Conseil pour les changements de variable non bijectifs : faire un dessin !
Part III
Espérance mathématique
1
Définition
Valeur numérique mesurant le degré d’équité d’un jeu de hasard, c’est-à-dire moyenne.
Attention : elle n’existe pas toujours.
2
Calcul
v.a discrète E[X] =
X
ω∈Ω
Z
v.a continue E[X] =
an P (X = an )
k∈(1,...n)
Z +∞
Z
X(ω)dP (ω) =
ω∈Ω
Attention : vérifier que X est intégrable.
3
X
X(ω)P (ω) =
xdPX (x) et si X a une densité de probabilité, E[X] =
R
−∞
xfX (x)dx
Propriétés
• E[X + Y ] = E[X] + E[Y ]
• Linéarité : E[aX + b] = aE[X] + b, a, b ∈ R
4
5
Théorème
de transfert
R
R
Pour toute fonction réelle g, positive ou P -mesurable : E[g(X)] = ω∈Ω g(X(ω))dP (ω) = R g(x)dPX (x)
Maximum, Médiane, Mode, Minimum
mediane Valeur pour laquelle P (X < med) = P (X ≥ med) = 21 )
De même, on peut définir : quartiles, déciles, centiles,...
page 6
Pougne Pandore
Probabilités
mode v.a. discrète : valeur de X dont la probabilité est la plus grande
v.a. continue : valeur pour laquelle la densité de probabilité est maximum
Part IV
Variance
1
Définition
C’est la moyenne des écarts à la moyenne. C’est un caractère de dispersion.
2
Calcul

− E[X])2 ]
 = E[(X
R
V ar(X) = R (x − E[X])2 fX (x)dx

2
2
= E[X ] − E[X]
3
(Définition)
(Théorème de transfert)
(Pour les calculs. ATTENTION à vérifier que X 2 est intégrable)
Covariance
Définition : Cov(X, Y ) = E[(X − E[X])(Y − E[Y ])] = E[XY ] − E[X]E[Y ]
4
Propriétés
• V ar(aX + b) = a2 V ar(X)
• V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y )
• Si X et Y sont indépendants alors E[XY ] = E[X]E[Y ] et Cov(X, Y ) = 0 donc V ar(X + Y ) = V ar(X) +
V ar(Y )
5
Ecart type
σX =
6
p
V ar(X)
Coefficient de variation mesure
Il indique la dispersion relative. cv (X) = σ/µ sans unité.
7
Théorème
de Bienaymé-Tchebychev
2
Soit X v.a. de moyenne µ et de variance finie σ 2
∀a ∈ R+ ,
P (|X − µ| ≥ a) ≤ σa2
c’est-à-dire, P (|X − µ| ≥ aσ) ≤ a12
P (|X − µ| < aσ) ≥ 1 − a12
P (−aσ < X − µ < aσ) ≥ 1 −
1
a2
Part V
Généralisation
1
Dans R
R
R
R
Soit X de densité fX (x). Grâce au théorème de transfert, on calcule E[X
] = RR n . . . xi fX (x)dx1 ...dxn et
R iR
2
la valeur moyenne RM =
R E[X]
R = E[X1 ]...E[Xn ]. De même, on a V ar[Xi ] = Rn . . . (xi − E[Xi ]) fX (x)dx1 ...dxn
et Cov(Xi , Xj ) = Rn . . . (xi − E[Xi ])(xj − E[Xj ])fX (x)dx1 ...dxn
2
Dans Rn
page 7
Pougne Pandore
Probabilités
On définit M = (µ1 , ..., µn )
On note V ar(X) = E[(X − E[X])2 ] si on considère (X − E[X])2 = (X − E[X])(X − E[X])T .On note aussi
la matrice de variance-covariance Σ = E[(X − E[X])2 ] = [σij ]1≤i,j≤n est symétrique, semi-définie positive donc
inversible.
Part VI
Loi normale
1
Caractéristiques
Graph
Densité
f (x) =
E[X] = µ(= méd = mode)
Espérance
Variance
2
√ 1 exp[ −(x−µ)
2σ 2
2πσ 2
V ar(X) = σ 2
Variables gaussiennes Si X suit une loi N (µ, σ) et Y =
aX + b
• Y normale aussi
• E[Y ] = aµ + b
• V ar(Y ) = a2 σ 2
On peut toujours se ramener à Z de loi centrée (E[Z] = 0) et réduite (V ar(Z) = 1) par le changement de variable
1
z2
x
√
X = Z−σ
dont
on
connait
les
valeurs
recueillies
dans
les
tables,
de
densité
f
(z)
=
exp(−
)
Z
µx
2
2π
2
Généralisation
Densité normale multivariée N (M, Σ) fX (x1 , ..., xn ) =
1
1
exp(− (x − M )T Σ−1 (x − M ))
2
(2π) (det(Σ))
n
2
1
2
Vecteur gaussien X ⇔toute combinaison de ses Xi est une v.a. normale. Si X gaussien, A matrice à n
colonnes et b vecteur de Rn , alors AX + b est un vecteur gaussien de loi N (AM + b, AΣ · AT ).
Si X gaussien
• Toutes les v.a. marginales Xi sont gaussiennes.
• Si Xi et Xj non corréleés, alors elles sont indépendantes (équivalence)
• et si les Xi et Xj son indépendantes 2 à 2 alors les X1 ..Xn sont globalment indépendants.
Si tous les Xi sont des v.a. gaussiennes indépendantes, alors X est un vecteur gaussien.
ATTENTION, par exemple fX,Y (0, y) n’est pas forcément gaussien.
Part VII
Lois conditionnelles et espérance conditionnelle
1
Définition
page 8
Pougne Pandore
Probabilités
Cas discret Soient X : Ω → E et Y : Ω → F v.a. discrètes, alors la loi conditionnelle de Y sachant X = x est
PY,X (y, x)
: ∀y ∈ F, PY /X=x (y) =
= P (Y = y/X = x).
PX (x)
X et Y indépendants ⇔ ∀x, y, P (Y = y/Xx ) = P (Y = y)
X
L’espérence conditionnelle de Y sachant X = x est : E[Y /X = x] =
yPY /X=x (y) (c’est l’espérance par rapport
y∈F
à la loi conditionnelle).
Cas continu Soit (X, Y ) un couple de densité fX,Y (x, y) sur R2 alors la densité conditionnelle de Y sachant
fY,X (y, x)
X = x est : ∀y ∈ R, fY /X=x (y) =
.
fX (x)
X et Y indépendants ⇔ ∀x, y, fY /X=x (y) = fY (y)
Z
L’espérence conditionnelle de Y sachant X = x est : E[Y /X = x] =
yfY /X=x (y)dy (c’est l’espérance par
R
rapport à la densité conditionnelle).
2
Propriété
• L’espérance conditionelle est linéaire et possède les propriétés classiques de l’espérance.
• Si X et Y indépendants, E[Y /X = x] = E[Y ]
• Si h fonction mesurable et h(X) intégrable,E[Y h(X)/X] = h(X)E[Y /X], et aussi E[h(X)/X] = h(X)
Remarque : E[E[Y /X]] = E[Y ] car E[Y /X = x) est fonction de x
Part VIII
Les différentes convergences
1
Convergence en moyenne d’ordre alpha
Lα
Définition Xn −−→ X
X si limn→+∞ E[|Xn − X|α ] = 0
Loi faible des grands nombres pour cette convergence Soit (Xn )n∈N une suite de v.a.i.i.d. de variance finie,
n
1X
Xi → E[X] et limn→+∞ n1 V ar(X) = 0
alors
n i=1
2
Convergence en probabilité
P
Définition Xn −
→X
(Xn )n∈N converge en probabilité si limn→+∞ P (|Xn − X| ≥ ε) = 0
Loi faible des grands nombres pour cette convergence Soit (Xn )n∈N une suite de v.a.i.i.d. de variance finie,
n
1X
alors
Xi → E[X] et limn→+∞ nε1 2 V ar(X) = 0
n i=1
3
Convergence presque sure
p.s.
Définition Xn −−→ X
(Xn )n∈N converge presque sûrement vers X si P ({ω ∈ Ω, limn→+∞ Xn (ω) = X(ω)}) = 1
page 9
Pougne Pandore
Probabilités
Loi Forte des grands nombres pour cette convergence Soit (Xn )n∈N X une suite de v.a.i.i.d. d’espérance
n
1X
1
finie, alors
Xi → E[X] et lim
V ar(X) = 0
n→+∞ nε2
n i=1
4
Convergence en loi
L
Définition Xn −
→X
(Xn )n∈N converge en loi vers X si en tout point de continuité de FX , FXn (x) converge vers FX (x)
5
Relations entre les convergences
Lα
Xn −−→ X
⇓
p.s.
P
L
Xn −−→ X ⇒ Xn −
→ X ⇒ Xn −
→X
6
Théorème central limite
Soit (Xn )n∈N une suite de v.a.i.i.d. de variance σ 2 finie.
n
n
X
1X
Xi
On note Sn =
Xi et Mn =
n i=1
i=1
Sn − E[Sn ] L
−
→ Z de loi N (0, 1) sans aucune hypothèse sur la loi des Xi
on a alors p
V ar(Sn )
Part IX
Les différentes loi à connaître
page 10
Probabilités
Pougne Pandore
Nom
Formule
Espérance
Variance
Uniforme [a, b]
fX (x) =
a+b
2
(b−a)2
12
Binomiale B(n, p)
n
P (X = k) = ( k )pk (1 − p)n−k
np
np(1 − p)
Poisson λ
P (X = k) =
λk e−λ
k!
λ
λ
Exponentielle (λ)
fX (x) = λe−λx
1
λ
1
λ2
Normale N (µ, σ)
f (x) =
µ
σ2
1
b−a 1[a,b]
√ 1
2πσ 2
exp
h
−(x−µ)2
2σ 2
i
Graph
Part X
Simulation de variables aléatoires
1
Generateur de nombres pseudo-aléatoires
Nombres pseudo-aléatoires : obtenus par différentes opérations (méthode de la congruence linéaire ou multiplication avec retenue) considérées comme irréversibles
2
Générer des réalisations d’un v.a. uniforme sur [0,1]
On décompose N en base 2 :N =
X
an 2n On va utiliser : U =
n>0
X
an 2−n ∈ [0, 1] On peut donc simuler des
n>0
réalisations d’une loi uniforme sur [0, 1]
3
Méthode de la fonction de répartition inverse
page 11
Probabilités
Pougne Pandore
Simulation des réalisations d’une loi discrète

 P (X = 1) = P (U ∈ [0, p1 [)

P (X = 2) = P (U ∈ [p1 , p1 + p2 [)
P (X = 3) = P (U ∈ [p1 + p2 , p1 + p2 + p3 )[
x = 1 si u ∈ [0, p1 [
On fait un tirage u suivant U[0,1] x = 2 si u ∈ [p1 , p1 + p2 [)
x = 3 si u ∈ [p1 + p2 , p1 + p2 + p3 )[
c’est-à-dire x = inf{a, Fx (a) > u} = F −1 (u)
On a simulé une réalisation de X en "inversant" la fdr.
Méthode de la fonction de répartition inverse On a
FX (X) = U qui suit une loi uniforme sur [0, 1]. En inversant la fonction, on peut simuler la réalisation de x de X par
x = FX−1 (u)
4
Générer des lois gaussiennes multivariées
Soient U1 et U2 p
deux v.a. indépendantes uniformes
sur [0, 1].
p
Alors les v.a. X = −2ln(U1 cos(2πU2 ) et Y = −2ln(U2 sin(2πU2 )
sont normales, centrées, réduites et indépendantes. On peut donc
simuler un vecteur gaussien centré et réduit, donc simuler tous les
vecteurs gaussiens.
5
Méthode du rejet
Hypothèses Soient f , g deux densités de probabilités R
• On sait simuler des v.a. de densité g
• ∃c > 1, f (x) ≤ cg(x) et h :{
R → [0, 1]
f (x)
x 7→ cg(x)
• Yn , n ≥ 1 suite i.i.d. de v.a. de densité g
• Un , n ≥ 1 suite i.i.d. de v.a. de dloi U[0,1]
Alors :
on pose
• N = inf {n, Un ≤ h(Yn )}
• X = Yn
On a X de densité f et E[N ] = c.
6
Générer des réalisations d’un mélange de lois
Plus généralement, si gy et hz sont les densités de probabilité respectives de v.a. Y et Z et que p ∈]0, 1[ Pour
générer des réalisations d’une v.a. X de densité fX = pgY + (1 − p)hz et si U suit une loi uniforme sur [0, 1] :
X = Y 1{U ≤p} + Z1{U >p}
Pour simuler une réalisation x de X On simule une réalisation u de U , si u > p on simule une réalisation z
de Z et x = z, sinon on simule une réalisation y de Y et x = y
Part XI
Régression
1
Régression linéaire
Erreur quadratique moyenne EQM (a, b) = E[(Y − (aX + b)2 )] (est fonction polynomiale de a et b)
page 12
Pougne Pandore
Probabilités
Systeme d’équations pour minimiser l’erreur

dEQM (a, b)


db

 dEQM (a, b)
da
L’erreur minimum s’écrit donc EQM (a, b) = V ar(Y ) −
=0
=0
⇐⇒

Cov(X, Y )

 a=
V ar(X)

 b = E[Y ] − E[X] · Cov(X, Y )
V ar(X)
)2
Cov(X,Y
V ar(X)
Y − E[Y ]
Cov(X, Y ) Y − E[Y ]
·
=
σX σY
σY
L’équation de la droite Y = aX + b s’écrit donc aussi | σ{zY }
|
{z
}
v.a. centrées et réduites
On pose Y 0 = ρxy · X 0 . La droite passe par (E[X], E[y]).
EQMmin (a, b) = V ar(Y )(1 − ρ2xy )
Résultats ρ ∈ [−1, 1], EQM est minimun pour ρxy = −1 ou 1, maximum pour 0. Dans ce cas, l’équation est
Y = µy (ne dépend pas de X) et donc Cov(X, Y ) = 0
Remarque: Pour ρ ∈]0, 1[ la relation entre X et Y est stochastique et non deterministe.
2
Régression non linéaire
Cette fois, sans présager de la forme de la fonction : EQM (g) = E[(Y − g(X))2 ] = E[(Y − E[Y /X])2 ] +
E[(E[Y /X] − g(X))2 ]. On en déduit ming EQM (g) = E[(Y − E[Y /X])2 ]. La meilleure approximation au sens de
l’erreur quadratique moyenne est l’espérance conditionnelle.
page 13
Téléchargement