Probabilités élémentaires François Bolley

publicité
Université Pierre et Marie Curie
Licence de mathématiques L2
Probabilités élémentaires
François Bolley
Notes de cours de Raphaël Krikorian
Année 2016-2017
2M231
2
Table des matières
1 Rappels de théorie des ensembles
1.1 Opérations sur les ensembles . .
1.2 Applications entre ensembles . .
1.3 Dénombrement . . . . . . . . . .
1.4 Dénombrabilité . . . . . . . . . .
2 Espaces probabilisés
2.1 Espaces probabilisés . . . . . . .
2.2 Tribus . . . . . . . . . . . . . . .
2.3 Probabilités . . . . . . . . . . . .
2.4 Probabilités sur un ensemble fini
2.5 Evénements indépendants . . . .
2.6 Probabilités conditionnelles . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
5
6
7
11
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
13
13
13
14
17
22
23
3 Variables aléatoires réelles
3.1 Variables aléatoires réelles . . . . . . . . . . . . .
3.2 Loi d’une variable aléatoire réelle . . . . . . . . .
3.3 Espérance des v.a : cas dénombrable . . . . . . .
3.4 Espérance des v.a : cas général . . . . . . . . . .
3.5 Espérance des v.a admettant une densité . . . . .
3.6 Variance . . . . . . . . . . . . . . . . . . . . . . .
3.7 Inégalité de Markov et de Bienaymé-Tchebychev
3.8 Vecteurs aléatoires . . . . . . . . . . . . . . . . .
3.9 Variables aléatoires indépendantes . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
25
25
27
32
34
36
40
44
45
48
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4 Théorèmes limites
53
4.1 Lois des grands nombres . . . . . . . . . . . . . . . . . . . . . 54
4.2 Théorème de la limite centrale . . . . . . . . . . . . . . . . . 57
4.3 Diverses notions de convergence . . . . . . . . . . . . . . . . . 61
3
4
TABLE DES MATIÈRES
Chapitre 1
Rappels de théorie des
ensembles
Nous rappelons dans ce chapitre quelques notions élémentaires de théorie
des ensembles.
1.1
Opérations sur les ensembles
Ensemble, ensemble fini/infini, cardinal. Un ensemble est intuitivement une collection d’éléments. Etant donnés un ensemble E et un élément
a on écrit a ∈ E si a est un élément de E. Il existe un unique ensemble ne
contenant aucun élément ; on le note ∅. On dit qu’un ensemble est fini s’il ne
contient qu’un nombre fini d’éléments et infini sinon. Si A est un ensemble
fini on appelle cardinal de A le nombre d’éléments de A et on note ce nombre
entier #A ou card A. Si A est infini, on pose #A = ∞.
Inclusion, complémentaire. Si E et A sont deux ensembles on dit que F
est inclus dans E ou que A est un sous-ensemble de E si tout élément de A est
un élément de E et on écrit A ⊂ E. On peut alors définir le complémentaire
de A dans E qui est l’ensemble des éléments de E qui n’appartiennent pas
à A. On le notera dans ce cours E − A, E \ A ou Ac ; cette dernière notation
cesse d’être ambigüe si l’on suppose E fixé une fois pour toute.
Ensemble des parties d’un ensemble. Si E est un ensemble, l’ensemble
constitué des sous-ensembles ou parties de E se note P(E).
Union, intersection. Si (Ai )i∈I est
S une collection d’ensembles inclus dans
E, la réunion des Ai est l’ensemble i∈I Ai des a ∈ E pour lesquels il
Texiste
i ∈ I tel que a ∈ Ai . De même l’intersection des Ai est l’ensemble i∈I Ai
des a ∈ E pour lesquels a ∈ Ai pour tout i ∈ I. On dit que deux ensembles
sont disjoints si leur intersection est vide. On dit que les ensembles Ai , i ∈ I
5
6
CHAPITRE 1. RAPPELS DE THÉORIE DES ENSEMBLES
constituent une partition de l’ensemble E si i) leur union sur i ∈ I vaut E
ii) ils sont disjoints deux à deux (Ai ∩ Aj = ∅ si i 6= j) ; on dit aussi que E
est union disjointe des Ai , i ∈ I.
On a les formules
[
c
Ai
=
\
\
Aci ,
i∈I
i∈I
et
B∩
[
i∈I
c
Ai
=
i∈I
Ai
=
[
[
Aci .
i∈I
(B ∩ Ai ).
i∈I
Produits d’ensembles. Si A1 , . . . , An sont des ensembles on peut définir
le produit cartésien de ces ensembles comme étant l’ensemble des n-uplets
(a1 , . . . , an ) où a1 ∈ A1 , . . . , an ∈ An . On note cet ensemble A1 × · · · × An .
Quand les Ai sont finis son cardinal est le produit des cardinaux des Ai .
1.2
Applications entre ensembles
Injectivité, surjectivité, bijectivité. Si A et B sont deux ensembles,
une application associe à tout élément a de A un unique élément noté f (a)
de B. On dit que f (a) est l’image de a par f . Un élément de B peut n’être
l’image d’aucun élément de A ou au contraire être l’image de plusieurs
éléments de A. On dit qu’une application est injective si tout élément de
B est l’image d’au plus un élément de A, surjective si tout élément de B
est l’image d’au moins un élément de A et bijective si elle est injective et
surjective.
S’il existe une injection de A dans B on a #A ≤ #B.
S’il existe une surjection de A sur B on a #A ≥ #B.
S’il existe une bijection entre A et B on a #A = #B.
Ensemble des applications de A dans B. On note B A ou F(A, B) l’ensemble des applications de A dans B. Quand A et B sont finis son cardinal
est (#B)#A .
Fonctions indicatrices, codages. Si E est un ensemble fixé, l’ensemble
des parties de E est en bijection avec l’ensemble des applications de E
dans l’ensemble à deux éléments {0, 1}. Cette bijection est la suivante : à
tout ensemble A ⊂ E on associe sa fonction caractéristique ou fonction
indicatrice 1A : E → {0, 1} définie par 1A (e) = 1 si e ∈ A et 1A (e) = 0
sinon. Réciproquement si f est une application de E dans {0, 1} l’ensemble
A des e ∈ E tels que f (e) = 1 est tel que 1A (·) = f (·). En particulier, cela
démontre que quand E est fini le cardinal de P(E) est 2#E :
#P(E) = 2#E .
1.3. DÉNOMBREMENT
7
Cardinal et fonctions caractéristiques. Si A ⊂ E on a
X
#A =
1A (x).
x∈E
Si A1 , . . . , An sont des sous-ensembles de E on a
1A1 ∩···∩An =
n
Y
1A i .
i=1
Pré-image. Si f est une application de E dans F , pour tout B ⊂ F
on définit l’ensemble f −1 (B) comme étant l’ensemble des e ∈ E tels que
f (e) ∈ B. Cette définition a un sens même si f n’est pas inversible. On dit
que f −1 (B) est la pré-image de B par f .
On a toujours
[ [
−1
f
Ai =
f −1 (Ai ),
i∈I
f
i∈I
−1
\
Ai
=
i∈I
\
f
−1
(Ai ),
f
−1
c
−1
(A ) = f (A) .
c
i∈I
Attention le comportement par image directe n’est pas aussi bon.
Exercice 1.2.1 i) Montrer que si A, B sont deux sous-ensembles de E on
a
1 − 1A∪B = (1 − 1A )(1 − 1B ),
et en déduire que
#(A ∪ B) = #A + #B − #(A ∩ B).
ii) En généralisant la formule précédente montrer que
#(A1 ∪ · · · ∪ An ) =
n
X
#(Ai1 ∩ · · · ∩ Aip ).
1≤i1 <...<ip ≤n
p=1
1.3
X
(−1)p−1
Dénombrement
Cardinal d’une union disjointe finie. Si A1 , . . . , An sont des ensembles
finis disjoints deux à deux tels que A1 ∪ · · · ∪ An = E alors E et fini et
#E =
n
X
#Ai .
i=1
Cardinal d’un produit. Si A1 , . . . , An sont des ensembles finis le cardinal
du produit A1 × · · · × An est donné par
#(A1 × · · · × An ) = (#A1 ) · · · (#An ).
8
CHAPITRE 1. RAPPELS DE THÉORIE DES ENSEMBLES
Cardinal de l’ensemble des applications de A dans B. Si A et B
sont des ensembles finis, l’ensemble B A des applications de A dans B est
fini et a pour cardinal
#(B A ) = (#B)#A .
Cardinal de P(E). Si E est un ensemble fini de cardinal n, le nombre de
sous-ensembles de E est égal au nombre d’applications de E vers {0, 1} et
donc à
#P(E) = 2n .
Nombre d’injections entre deux ensembles finis. Nombre d’arrangements. Si A et B sont deux ensembles finis avec #A = p, #B = n,
l’ensemble des applications injectives de A vers B a un cardinal égal à
(
0 si #A > #B
n(n − 1) · · · (n − p + 1) si p ≤ n.
En effet, supposons A = {a1 , . . . , ap } ; si p > n, il ne peut y avoir d’application injective de A vers B, tandis que si p ≤ n, il y a n choix possibles
pour la valeur f (a1 ), n − 1 choix possibles pour la valeur de f (a2 ) (comme
f est injective f (a2 ) ne peut pas prendre la même valeur que f (a1 )), etc.,
n − (p − 1) = n − p + 1 choix possibles pour f (ap ).
C’est aussi le nombre de p-uplets (ordonnés), on dit aussi d’arrangements,
(e1 , . . . , ep ) où ei ∈ E.
Nombre de bijections de A vers A. Nombre de permutations, factorielles. Si A est un ensemble de cardinal n, une application de A vers A
est bijective si et seulement si elle est injective et par conséquent le nombre
de bijection de A vers A (on dit aussi le nombre de permutations de A)
est égal à
n! = n(n − 1) · · · 2 · 1.
Par convention 0! = 1.
Nombre de sous-ensembles de cardinal p d’un ensemble à n éléments.
Nombre de combinaisons. Si E est un ensemble fini de cardinal n, le
nombre de sous-ensembles de E de cardinal exactement p (on parle aussi de
combinaisons) est égal à
n
n(n − 1) · · · (n − p + 1)
n!
= Cnp =
=
.
p
p!
p!(n − p)!
n
n
On pose
= 0 quand k > n ou quand n < 0 et
= 1. Remarquer
0
k
n
n
que
=
.
k
n−k
1.3. DÉNOMBREMENT
9
En effet, un sous-ensemble {a1 , . . . , ap } de E peut être vu comme un puplet d’éléments de E où l’on oublie l’ordre des éléments. Or, étant donnés
p éléments de E on peut former p! (nombre de bijections de {a1 , . . . , ap }
dans lui même) p-uplets. Ainsi, le nombre de sous-ensembles de cardinal p
d’un ensemble à n éléments est égal au nombre d’injections de l’ensemble
{1, . . . , p} dans E (i.e. le nombre de p-uplets de E) divisé par p!.
n
n!
Triangle de Pascal. En utilisant la formule
=
on obtient
k
k!(n − k)!
pour tous entiers 0 ≤ k ≤ n la relation
n
n
n+1
+
=
.
k
k+1
k+1
Exercice. Le vérifier.
Binôme de Newton. Considérons l’expression (a+b)n = (a+b) · · · (a+b)
(où a et b sont des nombres réels ou complexes ou des éléments d’un anneau
commutatif). Quand on développe le produit, on obtient une somme de
produits de a et de b et on voit que le coefficient de ap bn−p est égal au
nombre de façons de choisir p éléments (les a) parmi n. On a donc
n X
n p n−p
(a + b) =
a b
.
p
n
p=0
Exercice. Le vérifier en utilisant le triangle de Pascal.
Obtenir de nouvelles formules sur les coefficients binomiaux. Voici
quelques méthodes utiles pour obtenir de nouvelles formules sur les coefficients binomiaux. On considère le polynôme (1 + X)n . D’après la formule
du binôme
n X
n
n
(1 + X) =
Xk.
(1.1)
k
k=0
En faisant X = 1 dans cette expression on voit que
n
2 =
n X
n
k=0
k
.
De même, si on dérive chacun des membres de la formule (1.1) on obtient
n(1 + X)
n−1
n X
n
=
kX k−1 ,
k
k=0
10
CHAPITRE 1. RAPPELS DE THÉORIE DES ENSEMBLES
et en faisant X = 1
n2n−1 =
n X
n
k.
k
k=0
En dérivant plusieurs fois la formule (1.1) on obtiendrait de la même manière
d’autres expressions impliquant les coefficients binomiaux.
On peut aussi écrire (1+X)n+m = (1+X)n (1+X)m et utiliser la formule
du binôme :
n+m
n n X n + m
X
X
n
m
r
k
X =
X
X l.
(1.2)
r
k
l
r=0
k=0
l=0
Chacun des membres de l’équation précédente est un polynôme de degré
n+m
n + m. Le coefficient du monôme de degré r de ce polynôme est
r
X nm
dans le membre de gauche et
dans le membre de droite. On
k
l
k+l=r
a donc
X
r n
m
n+m
.
=
k
r−k
r
k=0
Exercice 1.3.1 Une urne contient N boules noires et M boules blanches,
toutes numérotées.
i) On effectue n tirages (ordonnés) sans remise. Quel est le nombre total de
tels tirages ? Combien de tirages donnent x (x ≤ n) boules noires ?
ii) ) On effectue n tirages (ordonnés) avec remise. Quel est le nombre total
de tels tirages ? Combien de tirages donnent x (x ≤ n) boules noires ?
Solution.
On note {1, . . . , N } l’ensemble des boules noires et {N + 1, . . . , N + M }
l’ensemble des boules blanches.
i) Un tirage (ordonné) sans remise est équivalent à la donnée d’une injection
de {1, . . . , n} dans {1, . . . , N + M } (ou à une suite ordonnée, un n-uplet
(x1 , . . . , xn ), xi ∈ {1, . . . , N + M }). Il y a donc (N + M ) · · · (N + M − n + 1)
tirages sans remise.
Un tirage (ordonné) où x boules noires sont tirées est équivalent à la donnée
d’un sous-ensemble A de {1, . . . , n} à x élements (si on pense au tirage
comme à une expérience, A est l’ensemble des temps où le résultat de notre
expérience est “boule noire”) et de deux injections, une de A dans l’ensemble
des boules noires, une seconde du complémentaire de A dans {1, . . . , n} dans
l’ensemble des boules blanches : on a donc
n
· N (N − 1) · · · (N − x + 1) · M (M − 1) · · · (M − (n − x) + 1)
x
1.4. DÉNOMBRABILITÉ
11
choix possibles, c’est-à-dire
n
· N (N − 1) · · · (N − x + 1) · M (M − 1) · · · (M − n + x + 1)
x
choix possibles.
Remarquons que la proportion du nombre de tirages sans remise où x boules
noires sortent, dans l’ensemble des tirages sans remise, est
n
x · N (N − 1) · · · (N − x + 1) · M (M − 1) · · · (M − n + x + 1)
(N + M ) · · · (N + M − n + 1)
N
M
n
x · x x! · n−x (n − x)!
=
N +M
n!
n
M
N
=
x n−x
N +M
n
ii) Un tirage avec remise est équivalent à la donnée d’une application (pas
nécessairement injective) de {1, . . . , n} vers {1, . . . , N + M } (ou encore d’un
n-uplet (e1 , . . . , en ) de {1, . . . , N + M }n ) ; il y a donc (N + M )n choix possibles.
Un tirage où x boules noires sont tirées est équivalent à la donnée : d’un sousensemble A de {1, . . . , n} à x élements, d’une application (pas nécessairement
injective) de A dans {1, . . . , N } (ou encore d’un x-uplet de {1, . . . , N }x ) et
d’une application de {1, . . . , n} − A dans {N + 1, . . . , N + M } (ou encore un
(n − x)-uplet de {N + 1, . . . , N + M }). Il y a donc
n
· N x · M n−x
x
choix possibles. Remarquons que la proportion du nombre de tirages avec
remise où x boules noires sortent dans l’ensemble des tirages avec remise est
x n−x
n N M
n x
=
p (1 − p)n−x ,
n
x (N + M )
x
où p = N/(N + M ).
1.4
Dénombrabilité
Définition 1.4.1 Un ensemble est dit dénombrable s’il est en bijection avec
un sous-ensemble de l’ensemble N des entiers naturels.
Un ensemble est dénombrable s’il est fini ou en bijection avec N.
De façon plus concrète, un ensemble est dénombrable si on peut énumérer
ses éléments.
12
CHAPITRE 1. RAPPELS DE THÉORIE DES ENSEMBLES
Proposition 1.4.2 Soit A et B deux ensembles.
a) S’il existe une injection de A dans B et si B est dénombrable alors A est
dénombrable.
b) S’il existe une surjection de A dans B et si A est dénombrable, alors B
est dénombrable.
Théorème 1.4.3 a) Si A1 , . . . , An sont des ensembles dénombrables, le produit A1 × · · · × An est également dénombrable.
b) Si (Ai )i∈I est une famille dénombrable (c’est-à-dire : I est dénombrable)
d’ensembles dénombrables
(c’est-à-dire : pour tout i ∈ I, Ai est dénombrable)
S
alors la réunion i∈I Ai est également dénombrable.
Démonstration. —
a) On peut supposer A1 = . . . = An = N. Notons p1 = 2, p2 = 3, . . . , pn les n
premiers nombres premiers (p est premier s’il est divisible uniquement par 1
et par p). L’application qui à (l1 , . . . , ln ) ∈ Nn associe le nombre pl11 ·pl22 · · · plnn
est une injection de Nn dans N car la décomposition en facteurs premiers
d’un nombre est unique. La proposition 1.4.2 a) permet de conclure.
S
b) L’application de N × N dans i∈I Ai qui au couple (n, m) associe le mième élément de l’ensemble Ain , où in est le n-ième élément de I, est une
surjection. La proposition 1.4.2 b) donne la conclusion.
2
Corollaire 1.4.4 L’ensemble Z des entiers relatifs et l’ensemble Q des nombres
rationnels sont dénombrables.
Démonstration. —
L’ensemble Z est dénombrable car l’application de l’ensemble dénombrable
{1, −1} × N dans Z qui au couple (, n) associe le produit n est une surjection. De même, Q est dénombrable car l’application de l’ensemble dénombrable
Z × (N − {0}) dans Q qui au couple (p, q) associe le rationnel p/q est une
surjection.
2
On peut démontrer que
Théorème 1.4.5 L’ensemble des nombres réels R n’est pas dénombrable.
Corollaire 1.4.6 L’ensemble des nombres irrationnels n’est pas dénombrable.
Démonstration. —
Sinon, R qui est réunion de Q et de l’ensemble des nombres irrationnels serait dénombrable, comme union finie donc dénombrable d’ensembles
dénombrables.
2
Chapitre 2
Espaces probabilisés
2.1
Espaces probabilisés
Un espace probabilisé est la donnée
— d’un espace Ω que l’on appelle l’espace des états. Quand on modélise
une situation concrète Ω est l’ensemble des états possibles du système
que l’on considère. Bien souvent cet espace est inaccessible à l’expérience ;
— d’un sous-ensemble B de P(Ω) qui est l’ensemble des événements.
Dans une situation concrète c’est l’ensemble de tous les résultats
d’expériences que l’on peut effectuer sur le système. En théorie des
probabilités (donc quand on fait des mathématiques) cet ensemble B
sera une tribu (on dit aussi une σ-algèbre), cf. définition 2.2.1 ;
— d’une probabilité P : pour tout événement A ∈ B le réel P(A) est
le degré de vraisemblance de l’événement A ; c’est un nombre réel
compris entre 0 et 1. Mathématiquement, une probabilité est une
application P : B → [0, 1] vérifiant les propriétés décrites dans la
définition 2.3.1.
Dans la suite nous précisons les deux derniers points.
2.2
Tribus
Soit Ω un ensemble fixé (l’espace des états).
Définition 2.2.1 Une tribu, ou σ-algèbre, de Ω est un ensemble de parties
de Ω (donc un sous-ensemble de P(Ω), l’ensemble des parties de Ω) qui
contient l’ensemble vide, est stable par passage au complémentaire et est
stable par union dénombrable :
— ∅∈B
— pour tout A ∈ B on a Ac ∈ B
13
14
CHAPITRE 2. ESPACES PROBABILISÉS
— pour toute famille dénombrable (Ai )i d’éléments de B l’union
[
Ai
i
est également dans B.
L’ensemble Ω est toujours élément de la tribu (c’est le complémentaire
de l’ensemble vide) et une intersection dénombrable d’éléments de la tribu
est encore dans la tribu (car ∩i∈N Ai = (∪i∈N Aci )c ).
Un élément A de B est appelé un événement.
Exemples
1) Si Ω est un ensemble quelconque on peut toujours définir deux tribus :
la tribu triviale qui est B = {∅, Ω}
la tribu totale qui est B = P(Ω).
2) Si Ω = {1, 2, 3} le sous-ensemble de P(Ω), B = {∅, {1}, {2, 3}, Ω} est une
tribu de Ω.
3) Exercice. Si Ω est un ensemble, le sous-ensemble de P(Ω) constitué des
ensembles qui sont dénombrables ou dont le complémentaire est dénombrable
est une tribu.
2.3
2.3.1
Probabilités
Définition
Définition 2.3.1 Si Ω est un ensemble et B est une tribu de Ω, une probabilité P est une application de B dans [0, 1] telle que P(Ω) = 1 et telle que
pour toute famille dénombrable (Ai )i d’événements de B disjoints 2 à 2
on a
[ X
P
Ai =
P(Ai ).
(2.1)
i
i
Dans le cas d’une famille infinie (Ai )i = (Ai )i∈N , l’égalité précédente signifie
PN
la chose suivante : la suite croissante de nombres réels
i=0 P(Ai )
N ∈N
converge, et sa limite est égale à la probabilité P(∪i∈N Ai ).
Remarque. La stabilité par unions et intersections dénombrables dans la
définition d’une tribu permet de construire, à partir d’événements simples,
des événements beaucoup plus intéressants que ceux qu’on obtiendrait en
ne supposant que la stabilité par unions (intersections) finies. En revanche,
si on autorisait la stabilité par unions (intersections) quelconques on ne
pourrait pas construire beaucoup de probabilités. La stabilité par unions
(intersections) dénombrables est donc le bon compromis.
2.3. PROBABILITÉS
2.3.2
15
Exemples généraux
Mesures de Dirac
Sur tout ensemble Ω muni d’une tribu B il est possible de construire
des mesures de la façon suivante : pour tout α ∈ Ω définissons l’application
δα : B → [0, 1] qui à un ensemble A ∈ B associe le réel 1 si α ∈ A et 0 sinon.
Cette application δα est une mesure de probabilité que l’on appelle la mesure
de Dirac au point α. C’est bien une mesure : en effet δα (Ω) = 1 puisque
α ∈ Ω ; par ailleurs si (Ai )i ∈ B est une famille dénombrable d’ensembles de
la tribu disjoints deux à deux on a
[ X
δα (Ai ).
δα
Ai =
i
i
En effet
– soit α appartient à ∪i Ai ; alors il existe un i ≥ 0 pour lequel α ∈ Ai et cet
indice i est unique car les Ai sont disjoints deux à deux. L’égalité précédente
se réduit à 1 = 1 ;
– soit α n’appartient pas à ∪i Ai et de ce fait n’appartient à aucun des Ai :
l’égalité se réduit à 0 = 0.
Sommes pondérées de probabilités
Si P1 , . . . , Pn sont des probabilités sur une tribu B et si λ1 , . . . , λn sont
des réels positifs tels que λ1 + · · · + λn = 1 alors P := λ1 P1 + · · · + λn Pn est
aussi une probabilité.
2.3.3
Premières propriétés
Un ensemble Ω muni d’une tribu B et d’une probabilité P sur B est noté
(Ω, B, P) et appelé espace probabilisé.
Proposition 2.3.2 Soit (Ω, B, P) un espace probabilisé.
a) Si A ∈ B,
P(Ac ) = 1 − P(A).
b) P(∅) = 0
c)(Positivité) Si A, B ∈ B vérifient A ⊂ B alors P(A) ≤ P(B).
d) Si A, B ∈ B alors
P(A ∪ B) = P(A) + P(B) − P(A ∩ B).
Démonstration. —
a) Il suffit décrire Ω comme l’union disjointe finie Ω = A ∪ Ac : comme P est
une probabilité 1 = P(Ω) = P(A) + P(Ac ).
16
CHAPITRE 2. ESPACES PROBABILISÉS
b) suit de la formule précédente et du fait que P(Ω) = 1.
c) On écrit B comme l’union disjointe B = A ∪ (B ∩ Ac ) et P(B) = P(A) +
P(B ∩ Ac ). Comme P(B ∩ Ac ) ≥ 0 on a bien P(B) ≥ P(A).
d) De l’union disjointe A ∪ B = A ∪ (B ∩ Ac ) on déduit P(A ∪ B) = P(A) +
P(B ∩ Ac ). Mais de l’union disjointe B = (B ∩ Ac ) ∪ (B ∩ A) on obtient
P(B) = P(B ∩ Ac ) + P(A ∩ B). De ces deux égalités on déduit d).
2
La preuve des propriétés qui suivent n’est pas difficile mais, à la différence
de la démonstration des propriétés précédentes, ne pourrait se faire sans
autoriser des unions dénombrables :
Proposition 2.3.3 a) Si An , n ∈ N est une famille croissante d’éléments
de B dont l’union est A alors A ∈ B et la suite P(An ) (qui est croissante
bornée) converge vers P(A) :
lim P(An ) = P(A).
n→∞
b) Si An , n ∈ N est une famille décroissante d’éléments de B dont l’intersection est A alors A ∈ B et la suite P(An ) (qui est décroissante positive)
converge vers P(A) :
lim P(An ) = P(A).
n→∞
c) Si An , n ∈ N est une famille dénombrable d’ensembles appartenant à B
on a toujours (même si les An ne sont pas disjoints deux à deux)
P
[
An
n∈N
≤
∞
X
P(An )
n=0
(où le membre de droite de l’inégalité précédente, qui est la limite de la suite
croissante, peut éventuellement être infini).
Démonstration. —
a) Définissons les ensembles Bn , n ≥ 0 de la façon suivante : B0 = A0 , et
pour n ≥ 1, Bn = An ∩ Acn−1 . Les Bn constituent une famille dénombrable
d’ensembles d’éléments de B, disjoints deux à deux, et on peut donc écrire
∞
X
[
P(Bk ) = P
Bk ,
k=0
k∈N
c’est-à-dire
lim
N →∞
N
X
k=0
P(Bk ) = P
[
k∈N
Bk ,
2.4. PROBABILITÉS SUR UN ENSEMBLE FINI
17
ou encore, puisque les Bk sont disjoints deux à deux
lim P
[
N
N →∞
Mais
N
[
Bk
=P
[
k=0
Bk .
k∈N
∞
[
B k = AN ,
Bk = A
k=0
k=0
ce qui établit a).
b) Il suffit de passer au complémentaire et d’utiliser a)
c) Pour ω ∈ ∪i∈N Ai définissons l’entier ν(ω) comme étant le plus petit entier
k ≥ 0 pour lequel ω ∈ Ak . L’ensemble Cn des ω ∈ Ω pour lesquels ν(ω) = n
est l’ensemble
Cn = {ω ∈ Ω, ν(ω) = n} = An ∩ (An−1 ∪ · · · ∪ A0 )c
qui est dans B. Les ensembles Cn sont disjoints deux à deux et leur union
pour n ≥ 0 est ∪n∈N An car pour tout ω dans ∪n∈N An il existe un n tel que
ν(ω) = n c’est-à-dire il existe un n tel que ω ∈ Cn . On a donc
P
[
n≥0
An
=P
[
Cn
n≥0
=
∞
X
P(Cn ),
n=0
et comme P(Cn ) ≤ P(An ) (puisque Cn ⊂ An ) on obtient la conclusion de c).
2
Les deux propriétés précédentes a) et b) sont des propriétés de continuité
(dans un sens à préciser) des probabilités.
2.4
Probabilités sur un ensemble fini
Les espaces probabilisés les plus simples sont ceux où l’espace des états
Ω est fini. On choisit en général comme tribu B l’ensemble P(Ω) de toutes
les parties de Ω (qui est bien une tribu). C’est ce que nous ferons. Il reste
alors à définir la probabilité. Supposons donc que P soit une probabilité sur
B = P(Ω) ; tout ensemble A ∈ B = P(Ω) est fini (car inclus dans Ω qui est
fini) et est par conséquent l’union (finie donc dénombrable) des singletons
{a} où a décrit A :
[
A=
{a}.
a∈A
Comme cette union est disjointe et finie on a
X
P(A) =
P({a}).
a∈A
18
CHAPITRE 2. ESPACES PROBABILISÉS
Supposons que Ω = {ω1 , . . . , ωn } et notons pi = P({ωi }) ; on a donc pi ∈
[0, 1]. D’autre part on a
X
pi .
P(A) =
{i:ωi ∈A}
Si on choisit A = Ω on voit que les pi , qui sont dans [0, 1], vérifient
n
X
pi = 1.
i=1
En conclusion :
Proposition 2.4.1 Dans le cas où Ω = {ω1 , . . . , ωn } est fini, une probabilité
P sur B = P(Ω) est déterminée par ses valeurs sur les singletons de Ω.
Réciproquement si on se donne n nombres réels positifs p1 , . . . , pn dont la
somme vaut 1, alors l’application P : P(Ω) → [0, 1] qui à A ∈ P(Ω) associe
le réel
X
P(A) =
pi ∈ [0, 1]
{i:ωi ∈A}
est une probabilité.
Démonstration. — Nous avons démontré la première partie de la proposition, démontrons la réciproque. Il suffit de vérifier que pour toute famille
(Ak )k∈N , Ak ⊂ Ω deux à deux disjoints, la formule (2.1) est vérifiée. Comme
Ω est fini, il en est de même de B = P(Ω) et il suffit donc de considérer le
cas où la famille (Ak )k∈N est finie et est A0 , . . . , AN , Ak 6= Al si k 6= l. Si
on note Ik l’ensemble des indices i ∈ {1, . . . , n} pour lesquels ωi ∈ Ak , les
ensembles I0 . . . , IN sont deux à deux disjoints
S et leur union I est l’ensemble
des indices i ∈ {1, . . . , n} pour lesquels ωi ∈ N
k=0 Ak . On a donc
P(
N
[
Ak ) =
X
i∈I
k=0
pi =
N X
X
k=0 i∈Ik
pi =
N
X
P(Ak ).
k=0
2
2.4.1
Probabilités uniformes et lien avec la combinatoire
Un cas important est celui où tous les pi , 1 ≤ i ≤ n précédents sont
égaux. Comme leur somme doit valoir 1 ceci signifie que p1 = · · · = pn = n1 .
On dit dans ce cas que la probabilité P est uniforme. On a alors, pour tout
sous-ensemble A de Ω,
P(A) =
X
{i:ωi ∈A}
pi = #{i ∈ {1, . . . , n}, ωi ∈ A}.
1
n
2.4. PROBABILITÉS SUR UN ENSEMBLE FINI
soit
P(A) =
19
#A
·
#Ω
Ainsi, quand on travaille avec une probabilité uniforme sur un ensemble fini,
déterminer la probabilité d’un événement revient à calculer son cardinal :
on voit apparaı̂tre le lien avec la combinatoire.
Lancer de deux dés
On se propose de modéliser le lancer de deux dés, numérotés de 1 à 6.
On appellera pi la probabilité pour chaque dé, quand on le lance, d’obtenir
la face i et on suppose de façon implicite que le lancer de chacun des deux
dés est indépendant de l’autre (dans un sens qui pour l’instant n’est pas
bien défini).
La modélisation du problème se fait de la façon suivante.
— Espace des états : on pose Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6} l’ensemble des couples (i, j) avec 1 ≤ i ≤ 6, 1 ≤ j ≤ 6.
— Espace des événements : on pose B = P(Ω).
— Probabilité : Si on suppose que quand on lance un dé, la probabilité
de sortie de la face i est égale à pi il est naturel de penser que la
probabilité pij de sortie du couple (i, j) (i pour le premier dé et j
pour le second) est égal au produit pi pj de la probabilité d’obtenir
i sur le premier dé par la probabilité d’obtenir
j sur le second. NaP
turellement, les pi vérifient pi ≥ 0 et 6i=1 pi = 1. On décide donc
de définir, ayant à l’esprit la Proposition 2.4.1, la probabilité P sur B
par P({(i, j)}) = pi pj . Pour que
P cela soit possible il faut vérifier que
les pi pj sont positifs, et que (i,j)∈Ω pi pj = 1. En effet
X
6
6
X
X
pi pj = (
pi )(
pj ) = 1 × 1 = 1.
1≤i,j≤6
i=1
j=1
Avec cette modélisation, on peut ainsi déterminer la probabilité pour que
la somme des deux dés après lancer vaille 7. Cet événement, appelons-le A,
s’écrit de façon mathématique
A = {(i, j) ∈ Ω : i + j = 7}
ou de façon explicite
A = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}.
La probabilité de A vaut
P(A) =
X
{1≤i,j≤6:i+j=7}
pi pj .
20
CHAPITRE 2. ESPACES PROBABILISÉS
Si on suppose que pour tout 1 ≤ i ≤ 6, pi = 1/6 (dé non pipé) on obtient P(A) = #A/#Ω = 6/36 = 1/6. De la même façon l’événement B :
“après le lancer des deux dés la face du premier dé est un nombre pair”, est
mathématiquement l’ensemble
B = {(i, j) : i = 2, 4, 6}.
Si on suppose toujours que pour tout 1 ≤ i ≤ 6, pi = 1/6, on obtient
P(B) = #B/#Ω = 18/36 = 1/2.
La conjonction de ces deux événements, “la somme des deux dés vaut 7”
et “le résultat que donne le premier dé est un nombre pair” est mathématiquement
l’ensemble A ∩ B = {(2, 5), (4, 3), (6, 1)}. Sa probabilité (si on suppose que
pour tout 1 ≤ i ≤ 6, pi = 1/6) est égale à #(A ∩ B)/#(Ω) = 3/36 = 1/12.
Exercice 2.4.2 Une urne contient N boules noires et M boules blanches.
a) On effectue n tirages sans remises. Quelle est la probabilité d’obtenir x
boules noires ?
b) Même question si les tirages sont avec remises.
On supposera les tirages équiprobables. On prendra soin de bien définir
l’espace probabilisé sur lequel on travaille.
Exercice 2.4.3 On tire cinq cartes d’un jeu de 32 cartes. Quelle est la
probabilité d’obtenir un full, c’est-à-dire deux cartes de même valeur et trois
autres cartes de même valeur ? On supposera chaque tirage équiprobable.
2.4.2
Jeu de n pile ou face : le modèle (fini) de Bernoulli
On se propose de modéliser un jeu où l’on lance n fois une pièce (pile/face).
De façon équivalente un expérimentateur réalise n expériences dont le résultat
peut être positif (pile, 1) ou négatif (face, 0). Il est naturel de décrire ce jeu
ou cette expérience de la façon suivante : on choisit comme espace des états
l’ensemble Ω de toutes les suites de longueur n constituées de 0 ou de 1.
Une telle suite est donc un n-uplet ω = (ω1 , . . . , ωn ), chaque ωi , 1 ≤ i ≤ n
appartenant à l’ensemble à deux éléments {0, 1}. Ainsi
Ω = {0, 1}n ,
qui a 2n éléments. Nous choisirons comme tribu Bn l’ensemble P(Ω) des
n
parties de Ω (qui a 22 éléments mais cela n’a pas d’importance). Cette
tribu nous permet de décrire des événements. Par exemple l’événement A
“obtenir k Pile lors des n lancers” est décrit par l’ensemble A ∈ Bn
A = {ω = (ω1 , . . . , ωn ),
n
X
i=1
ωi = k}.
2.4. PROBABILITÉS SUR UN ENSEMBLE FINI
21
L’événement B : “on tire au moins un Pile” est décrit par l’ensemble
B = {ω = (ω1 , . . . , ωn ), ∃i ∈ {1, . . . , n}
ωi = 1}.
L’événement “A et B” est décrit par l’intersection A ∩ B, l’événement “non
A” est décrit par Ac , l’événement “A ou B” par A ∪ B etc.
Le choix de la probabilité sur notre ensemble est dicté par le jeu ou
l’expérience que l’on modélise. Ainsi, on ne modélisera pas de la même façon
un jeu où pile et face ont les mêmes chances de sortir qu’un jeu où pile a deux
fois plus de chance de sortir que face. Dans le premier cas, il est naturel 1 de
choisir comme probabilité P la probabilité uniforme
P(A) =
#A
#A
= n .
Ω
2
Noter que la probabilité d’un événement élémentaire “on a tiré la suite
(ω1 , . . . , ωn )” c’est-à-dire la probabilité du singleton {(ω1 , . . . , ωn )} vaut
1/2n (ceci quel que soit ω1 , . . . , ωn ). En revanche, dans le second cas, on
définira la probabilité d’un événement élémentaire {(ω1 , . . . , ωn )} comme
étant (2/3)k (1/3)n−k où k est le nombre de 1 dans la suite ω1 , . . . , ωn .
Modélisons donc un jeu de n lancers indépendants de 1 ou 0, où à chaque
lancer 1 a une probabilité p de sortir et 0 une probabilité 1 − p d’apparaı̂tre.
— Espace des états : on pose Ω = {0, 1}n l’ensemble des n-uplets (ω1 , . . . , ωn )
ωi ∈ {0, 1}, 1 ≤ i ≤ n.
— Espace des événements : on pose Bn = P(Ω).
— Probabilité : Du fait de l’indépendance (notion que l’on appréhende
pour l’instant de façon intuitive) il est naturel de penser que la probabilité pω d’apparition de la suite ω = (ω1 , . . . , ωn ), ωi ∈ {0, 1} est
pr (1 − p)n−r où r est le nombre de fois où 1 sort (et n − r est donc le
nombre de 0). On remarquera que
r=
n
X
ωi .
i=1
P
Tout d’abord pω ≥ 0. Vérifions ensuite que ω∈Ω pω = 1. On a
X
X
pω =
pω1 +···+ωn (1 − p)n−(ω1 +···+ωn )
(ω1 ,...,ωn )∈{0,1}n
ω∈Ω
=
X
X
pω1 +···+ωn−1 +ωn (1 − p)(n−1)−(ω1 +···+ωn−1 )+(1−ωn ))
(ω1 ,...,ωn−1 )∈{0,1}n−1 ωn =0 ou 1
=
X
pω1 +···+ωn−1 (1 − p)(n−1)−(ω1 +···+ωn−1 ) (p + (1 − p))
(ω1 ,...,ωn−1 )∈{0,1}n−1
=
X
pω1 +···+ωn−1 (1 − p)(n−1)−(ω1 +···+ωn−1 )
(ω1 ,...,ωn−1 )∈{0,1}n−1
1. en fait cela sera encore plus naturel quand on aura défini la notion d’indépendance
22
CHAPITRE 2. ESPACES PROBABILISÉS
et donc
X
pω =
X
pω1 +···+ωn−1 (1 − p)(n−1)−(ω1 +···+ωn−1 )
(ω1 ,...,ωn−1 )∈{0,1}n−1
ω∈Ω
X
=
pω1 +···+ωn−2 (1 − p)(n−2)−(ω1 +···+ωn−2 )
(ω1 ,...,ωn−2 )∈{0,1}n−2
= ···
=1
D’après la Proposition 2.4.1 on peut donc définir une probabilité P
sur (Ω, Bn ) par
P({(ω1 , . . . , ωn )}) = pω1 +...+ωn (1 − p)n−(ω1 +···+ωn ) .
On appellera l’espace probabilisé ainsi construit le modèle (fini) de Bernoulli
de paramètre p (0 ≤ p ≤ 1).
Mentionnons une propriété importante du modèle de Bernoulli.
Proposition 2.4.4 Dans le modèle de Bernoulli de paramètre p, l’événement
A = {(ω1 , . . . , ωn ) : ω1 + · · · + ωn = k}
admet pour probabilité
n k
P(A) =
p (1 − p)n−k .
k
Démonstration. —
On a en effet
X
P(A) =
pω1 +···+ωn (1 − p)n−(ω1 +···+ωn )
(ω1 ,...,ωn )∈A
= pk (1 − p)k #A.
Or, le cardinal de A est égal au nombre de façon de choisir
k éléments parmi
n (la place des k coordonnées ωi égales à 1), soit nk .
2
Exercice 2.4.5 Calculer, dans chacun des cas p = 1/2 ou p = 2/3, les
probabilités des événements A et B définis précédemment.
2.5
Evénements indépendants
Définition 2.5.1 Une famille (quelconque, finie ou infinie) d’événements
(Ai )i∈I est dite indépendante (ou encore les événements de la famille (Ai )i∈I
sont dits mutuellement indépendants) si pour toute sous-famille finie Ai1 , . . . , Ain
on a
P(Ai1 ∩ · · · ∩ Ain ) = P(Ai1 ) · · · P(Ain ).
2.6. PROBABILITÉS CONDITIONNELLES
23
Exercice 2.5.2 Démontrer que si A, B sont deux événements indépendants
les quatre familles (A, B), (A, B c ), (Ac , B), (Ac , B c ) sont, chacune, indépendantes.
Solution. Montrons par exemple que (Ac , B) est indépendante :
P(Ac ∩ B) = P((E − A) ∩ B) = P(B − (A ∩ B)) = P(B) − P(A ∩ B)
et comme P(A ∩ B) = P(A)P(B)
P(Ac ∩ B) = P(B)(1 − P(A)) = P(B)P(Ac ).
Exercice 2.5.3 Trouver un exemple de famille (A, B, C) qui n’est pas indépendante
mais est telle que chacune des familles (A, B), (B, C), (C, A) est indépendante.
Le résultat suivant permet de construire des familles d’événements indépendants :
Théorème 2.5.4 Soient (Ai )i∈I une famille d’événements indépendants et I =
I1 ∪ · · · ∪ Ip une partition de I. Notons pour 1 ≤ k ≤ p, Bk la tribu engendrée
par les événements Ai , i ∈ Ik . Si B1 , . . . Bp sont des événements tels que Bk ∈ Bk ,
alors la famille d’événements (Bk )1≤k≤p est indépendante.
Démonstration. — Nous illustrons la preuve dans le cas où p = 2. Démontrons
déjà que pour tout événement Ai , i ∈ I1 et tout événement B2 dans B2 on a
P(Ai ∩ B2 ) = P(Ai )P(B2 ).
(2.2)
Pour cela, notons C2 l’ensemble des événements B2 pour lesquels cette relation est
satisfaite pour tout i ∈ I1 . On constate déjà que C2 est une tribu (exercice).
Ensuite, on observe que d’après l’hypothèse d’indépendance des Ai , i ∈ I, les
événements Aj , j ∈ I2 appartiennent à C2 . Par définition de la tribu engendrée
et sa minimalité, ceci signifie que B2 ⊂ C2 . Par conséquent, la relation (2.2) est
vraie pour tout B2 ∈ B2 .
Démontrons à présent que pour tout événement B1 ∈ B1 et tout événement B2
dans B2 on a
P(B1 ∩ B2 ) = P(B1 )P(B2 ).
(2.3)
Notons C1 l’ensemble des événements B1 pour lesquels cette relation est satisfaite
pour tout B2 ∈ B2 . On constate comme précédemment que C1 est une tribu (exercice) et qu’elle contient tous les Ai , i ∈ I1 . La définition du fait que B1 est la
tribu engendrée par les Ai , i ∈ I1 montre que B1 ⊂ C1 et donc la relation (2.3) est
satisfaite pour tout B1 ∈ B1 et tout B2 ∈ B2 .
2
2.6
Probabilités conditionnelles
Définition 2.6.1 Si A et B sont deux événements de la tribu B et si P(B) >
0 on définit la probabilité de A sachant B comme étant
P(A|B) =
P(A ∩ B)
·
P(B)
24
CHAPITRE 2. ESPACES PROBABILISÉS
En fait tout événement B ∈ B définit une nouvelle probabilité sur (Ω, B) :
Proposition 2.6.2 Si B ∈ B est tel que P(B) > 0, l’application PB : B →
[0, 1] qui à A ∈ B associe PB (A) = P(A|B) est une probabilité.
Exercice. Démontrer cette proposition.
Supposons à présent que nous ayons une partition de Ω en événements
B1 , . . . , Br (c’est-à-dire que les événements B1 , . . . , Br sont disjoints deux à
deux et que leur union est égale à Ω) et que, pour tout i, P(Bi ) > 0. On
peut donc définir r probabilités P(·|Bi ).
Théorème 2.6.3 (Formule des causes) Sous les hypothèses précédentes
P(A) =
r
X
P(A|Bi ) P(Bi ).
i=1
Démonstration. —
L’ensemble A est l’union disjointe des (A ∩ Bi ) donc
P(A) =
r
X
P(A ∩ Bi ) =
r
X
P(A ∩ Bi )
i=1
k=1
P(Bi )
· P(Bi ).
2
Dans la pratique un problème courant est de calculer P(Bi |A) connaissant
les P(A|Bj ).
Théorème 2.6.4 (Formule de Bayes) Sous les hypothèses précédentes :
P(A|Bi )P(Bi )
.
P(Bi |A) = Pr
j=1 P(A|Bj )P(Bj )
Démonstration. — Il suffit d’écrire
P(Bi |A) =
P(Bi ∩ A)
P(A|Bi )P(Bi )
=
P(A)
P(A)
et d’utiliser la formule des causes.
2
Chapitre 3
Variables aléatoires réelles
3.1
3.1.1
Variables aléatoires réelles
Définition et premières propriétés
Dans toute la suite on suppose que (Ω, B, P) est un espace probabilisé.
Définition 3.1.1 Une variable aléatoire réelle (en abrégé v.a.r. ou v.a) est
une application X : Ω → R telle que pour tout intervalle I de R l’ensemble
X −1 (I) des ω ∈ Ω tels que X(ω) ∈ I, appartient à la tribu B.
Proposition 3.1.2 Si X : Ω → R est une application alors les quatre propositions suivantes sont équivalentes :
1. X est une variable aléatoire ;
2. pour tout intervalle I de la forme I =] − ∞, a], X −1 (I) appartient
à B ;
3. pour tout intervalle I de la forme ]a, b], X −1 (I) appartient à B ;
4. pour tout intervalle I de la forme ]a, c[, X −1 (I) appartient à B.
On a également l’équivalence avec les intervalles de la forme ] − ∞, a[,
ou de la forme [a, +∞[, ou ]a, +∞[, etc.
Démonstration. — Que 1 implique 2 est évident.
Démontrons maintenant que 2 implique 3. On constate que tout intervalle ]a, b] peut s’écrire sous la forme ] − ∞, a]c ∩] − ∞, b]. On a donc
c
X −1 (]a, b]) = X −1 (]−∞, a]c )∩X −1 (]−∞, b]) = X −1 (]−∞, a]) ∩X −1 (]−∞, b]).
Or les ensembles du membre de droite appartient à la tribu B, donc aussi
leur intersection X −1 (]a, b]).
Pour montrer que 3 implique 4 on remarque que ]a, c[= ∪n≥1 ]a, c − n1 ]
donc
[
1
X −1 (]a, c[) =
X −1 (]a, c − ])
n
n≥1
25
26
CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLES
où chaque X −1 (]a, c − n1 ]), et donc leur réunion, appartient à B.
La démonstration du fait que 4 implique 1 se démontre de manière analogue. Démontrons par
que pour a ≤ b, X −1 ([a, b]) est dans B. On
T exemple
1
observe que [a, b] = n≥1 ]a − n , b + n1 [ et donc
X −1 ([a, b]) =
\
X −1 (]a −
n≥1
1
1
, b + [)
n
n
2
est dans B. Les autre cas se traitent de façon analogue.
Notation. Dans la suite du cours, quand X est une v.a et A ⊂ R nous
noterons {X ∈ A} ou [X ∈ A] ou (X ∈ A) l’ensemble {ω ∈ Ω : X(ω) ∈ A}.
La proposition qui suit permet de construire des v.a.
Proposition 3.1.3 a) Si Xn , n ≥ 1 est une famille de v.a alors Z =
supn≥1 Xn (resp. Z = inf n≥1 Xn ) est une v.a.
b) Si Xn , n ≥ 1 est une famille de v.a alors Z = lim supn→∞ Xn (resp.
Z = lim inf n→∞ Xn ) est une v.a. En particulier si pour tout ω ∈ Ω, Xn (ω)
converge vers X(ω) alors X est une v.a.
c) Si X1 , . . . , Xn sont des v.a et f : Rn → R est une application continue
alors Z = f (X1 , . . . , Xn ) est une v.a. En particulier X1 + X2 , λX1 , (λ ∈ R),
X1 · X2 sont des v.a.
Démonstration. —
a) Soit ω tel que supn≥1 Xn (ω) > a. Alors par définition du sup, il existe un n pour
lequel Xn (ω) > a et ω est donc dans l’union ∪n≥1 {Xn > a}. Réciproquement si
ω ∈ ∪n≥1 {Xn > a} alors il existe n tel que Xn (ω) > a et a fortiori supn Xn (ω) > a.
Nous avons donc démontré que les deux ensembles {Z > a} et ∪n≥1 {Xn > a} sont
égaux. Mais ce dernier ensemble est une union dénombrable d’éléments de la tribu
B (car chaque Xn est une v.a). Ainsi pour tout a l’événement {supn≥1 Xn (ω) > a}
est dans B et il en est de même de son complémentaire {supn≥1 Xn (ω) ≤ a}. La
proposition 3.1.2 permet de conclure.
b) Par définition lim sup Xn (ω) = inf sup Xk (ω) et lim inf Xn (ω) = sup inf Xk (ω).
n→∞
p∈N k≥p
n→∞
p∈N k≥p
Il suffit donc d’appliquer deux fois a). La dernière assertion résulte du fait que
lim Xn (ω) = X(ω) si et seulement si lim inf Xn (ω) = lim sup Xn (ω) = X(ω).
n→∞
n
n
c) Si I est un intervalle ouvert de R, Z −1 (I) est l’ensemble des ω ∈ Ω tels que
(X1 (ω), . . . , Xn (ω)) ∈ f −1 (I). Comme f est continue, f −1 (I) est un ensemble ouvert de Rn et, par conséquent, est une union dénombrable de pavés ouverts c’està-dire d’ensembles P de la forme ]a1 , b1 [× · · · ×]an , bn [ (nous admettrons ce fait).
Par conséquent l’ensemble des ω ∈ Ω tels que (X1 (ω), . . . , Xn (ω)) ∈ f −1 (I) est une
union dénombrable d’ensembles de la forme
{ω ∈ Ω, (X1 (ω), . . . , Xn (ω) ∈]a1 , b1 [× · · · ×]an , bn [}
3.2. LOI D’UNE VARIABLE ALÉATOIRE RÉELLE
27
c’est-à-dire d’ensembles de la forme
{ω ∈ Ω, X1 (ω) ∈]a1 , b1 [, . . . , Xn (ω) ∈]an , bn [} = X1−1 (]a1 , b1 [) ∩ · · · ∩ Xn−1 (]an , bn [)
2
qui sont dans B.
En particulier
Proposition 3.1.4 a) Si X : Ω → R est une v.a. et f : R → R est une
application continue, alors la fonction Y : Ω → R définie par Y = f ◦ X
(c’est-à-dire Y (ω) = f (X(ω)) pour tout ω ∈ Ω) est encore une v.a. On la
note Y = f (X).
b) Si X, Y sont deux v.a l’application Z = max(X, Y ) est une v.a.
c) Si X et Y sont deux v.a, aX + bY est également une v.a.
Exemple 3.1.5 Si A ∈ B, sa fonction indicatrice 1A : Ω → R (qui prend
la valeur 1 si ω ∈ A et 0 sinon) est une v.a. Réciproquement, si une v.a
X ne prend que les valeurs 0 et 1 alors elle est la fonction indicatrice de
A = X −1 ({1}) ∈ B.
3.1.2
Le cas particulier des v.a à valeurs dans un ensemble
fini ou dénombrable
Il s’agit du cas où l’ensemble X(Ω) des valeurs prises par X est un ensemble fini ou dénombrable de R. Dans ce cas la caractérisation des variables
aléatoires est plus simple :
Proposition 3.1.6 Si X : Ω → R est à valeurs dans un ensemble fini ou
dénombrable E alors X est une variable aléatoire si et seulement si pour
tout e ∈ E, X −1 ({e}) ∈ B.
Démonstration. — Supposons que pour tout e ∈ E, X −1 ({e}) ∈ B et soit
I un intervalle de R. Comme X est à valeurs dans E, on a
[
X −1 (I) =
X −1 ({e})
e∈I∩E
et comme E ∩ I ⊂ E est dénombrable on déduit que X −1 (I) est dans B.
Réciproquement, si X −1 (I) est dans B pour tout intervalle, on a en
prenant I = {e}, e ∈ E que X −1 ({e}) ∈ B.
2
3.2
Loi d’une variable aléatoire réelle
Soit X : Ω → R une v.a. Alors pour tout intervalle I de R l’ensemble
X −1 (I) est un événement (appartient à B). Il est donc possible de parler de
la probabilité P(X ∈ I) de l’événement {X ∈ I}.
28
CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLES
Définition 3.2.1 Soit X une v.a. L’application qui à tout intervalle I de
R associe P(X ∈ I) s’appelle la loi de X.
3.2.1
Loi des variables aléatoires à valeurs dans un ensemble
fini ou dénombrable
Si X : Ω → R prend ses valeurs dans un ensemble E = {e0 , e1 , . . .} qui
est fini ou dénombrable on a pour tout intervalle I ⊂ R
X
P(X ∈ I) = P(X ∈ I ∩ E) =
P(X = e).
e∈I∩E
La loi de X est donc parfaitement déterminée par les réels pX (e) = P(X = e),
e ∈ E et dans la pratique quand on demande de déterminer la loi de X on
demande de calculer les réels pX (e) = P(X = e).
La loi µX de X est la probabilité sur R muni de sa tribu borélienne Bor(R)) définie
par
µX =
X
P(X = e)δe
e∈E
où δe est la mesure de Dirac (pour A ∈ Bor(R), δe (A) = 1 si e ∈ A et 0 sinon). En effet
pour tout ensemble A de Bor({R}), dit borélien, (ou tout intervalle)
X
P(X ∈ A) = P(X ∈ A ∩ E) =
P(X = e),
e∈A∩E
et cette somme n’est rien d’autre que
X
P(X = e)δe (A).
e∈E
Quelques lois classiques de variables aléatoires à valeurs dans un
ensemble fini ou dénombrable
Loi de Bernoulli. C’est la loi d’une v.a X prenant pour valeur 0 ou 1
et telle que P(X = 1) = p, P(X = 0) = 1 − p. On dit que p ∈ [0, 1] est le
paramètre de la loi.
Loi géométrique. On dit qu’une v.a X : Ω → N (à valeurs dans N) suit
une loi géométrique de paramètre a (0 < a < 1) si
P(X = n) = (1 − a)an .
On remarquera que l’on a bien
P∞
n=0 P (X = n) = 1 puisque
X
an =
n≥0
1/(1 − a).
Le temps de première apparition de pile d’un jeu de pile ou face infini ,
pile apparaissant avec la probabilité 1 − a, suit une loi géométrique de paramètre a.
3.2. LOI D’UNE VARIABLE ALÉATOIRE RÉELLE
29
Loi binomiale. On dit qu’une variable aléatoire Z à valeurs dans {0, . . . , n}
suit une loi binomiale de paramètres (n, p) si
n k
P(Z = k) =
p (1 − p)n−k
k
où nk est le coefficient binomial. Par la formule du binôme de Newton on a
∞
X
bien
P (X = k) = (p + 1−p)n = 1.
k=0
Exemple. Jouons n fois au jeu de pile/face où pile sort avec probabilité
p et face avec probabilité 1 − p et notons Z la variable aléatoire : Z est
le nombre de pile qui sortent (après avoir joué n fois). Si on note Xi les
variables aléatoires Xi (ω) = ωi (ω = (ω1 , . . . , ωn )) on a
Z = X1 + · · · + Xn .
C’est bien une variable aléatoire Z : B → N à valeurs dans l’ensemble fini
{0, . . . , n} (B = P(Ω)) et
n k
P(Z = k) =
p (1 − p)n−k .
k
Loi de Poisson. Une variable aléatoire Z : Ω → N suit une loi de Poisson
de paramètre λ > 0 si
λk
P(Z = n) = e−λ .
k!
∞
X
En utilisant le développement en série de eλ on vérifie que
P (X = k) = 1.
k=0
Exercice Soit Xn une v.a suivant une loi binomiale (n, pn ). Montrer que si
limn→∞ npn = λ on a pour tout k ∈ N
lim P(Xn = k) = e−λ
n→∞
λk
.
k!
On dit que Xn converge en loi vers une loi de Poisson de paramètre λ.
3.2.2
Loi de variables aléatoires admettant une densité
Définition 3.2.2 On dit que la variable aléatoire X : Ω → R admet une
densité continue (resp. continue par morceaux, etc.) s’il existe une fonction
positive
R ∞ continue (resp. continue par morceaux, etc.) ρX : R → [0, ∞[ telle
que −∞ ρX (t)dt = 1 et telle que pour tout intervalle I
Z
P(X ∈ I) = ρX (t)dt.
I
30
CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLES
Fonction de répartition
Définition 3.2.3 Si X est une v.a on définit sa fonction de répartition
FX : R → [0, 1] par
FX (x) = P(X ≤ x).
Voici quelques propriétés des fonctions de répartition.
Proposition 3.2.4 Si FX : R → [0, 1] est la fonction de répartition d’une
v.a X
— la fonction FX : R → [0, 1] est croissante : si x1 ≤ x2 alors FX (x1 ) ≤
FX (x2 ).
— on a limx→−∞ FX (x) = 0 et limx→∞ FX (x) = 1.
— FX est continue à droite en tout point.
Exemple. Si X est une v.a prenant seulement deux valeurs 0 ou 1 et P(X =
1) = p, P(X = 0) = 1 − p (X est une v.a. de Bernoulli de paramètre p) alors
sa fonction de répartition FX (t) = P(X ≤ t) vaut 0 si x < 0, 1 − p si
0 ≤ x < 1 et 1 si x ≥ 1.
Fonction de répartition d’une v.a admettant une densité
Si une v.a. X admet une densité ρX alors sa fonction de répartition
Z x
FX (x) = µX (] − ∞, x]) =
ρX (t)dt
−∞
est continue.
Proposition 3.2.5 Une v.a X admet une densité ρ continue par morceaux
si et seulement si sa fonction de répartition FX est continue et dérivable par
morceaux. On a alors FX0 (x) = ρX (x) en tout point où FX est dérivable.
Si on note µX la loi de X (c’est-à-dire µX (A) = P(X ∈ A) pour A ∈ Bor(R)) on a
R
Rx
donc µX (I) = I ρX (t)dt pour tout intervalle I et FX (x) = µX (] − ∞, x]) = −∞ ρX (t)dt.
Il existe donc des variables aléatoires n’admettant pas de densité : par exemple une v.a
X à valeurs dans R ne prenant que deux valeurs 0 ou 1 et telle que P(X = 0) = p avec
p = 1/2 ne peut posséder de densité car sa fonction de répartition FX (x) vaut 0 si x < 0,
1/2 si 0 ≤ x < 1 et 1 si 1 ≤ x : elle est discontinue en 0 et en 1 (mais bien continue à
droite).
Quelques exemples de v.a. admettant une densité
Loi uniforme. La variable aléatoire X : Ω → R suit une loi uniforme sur
l’intervalle [a, b] si sa densité est donnée par
ρX (x) =
1
·1 .
b − a [a,b]
3.2. LOI D’UNE VARIABLE ALÉATOIRE RÉELLE
31
R
On a bien ρX (t) ≥ 0 pour tout t et R ρX (t)dt = 1. Cette loi est caractérisée
par
1
P(X ∈ [c, d]) =
longueur([a, b] ∩ [c, d]).
b−a
En effet,
Z
P(X ∈ [c, d]) =
[c,d]
1
· 1 (x)dx =
b − a [a,b]
=
Z
1
1 (x) · 1[a,b] (x)dx
b − a R [c,d]
Z
1
1
(x)dx.
b − a R [c,d]∩[a,b]
Intuitivement, la loi uniforme sur l’intervalle [a, b] modélise une expérience
dans laquelle la probabilité d’un point de tomber dans un intervalle ]x −
∆x, x + ∆x[⊂ [a, b], de taille 2∆x, ne dépend pas de x et est linéaire en ∆x.
Loi exponentielle de paramètre θ.
exponentielle de paramètre θ si
La v.a X admet une densité ρX
ρX (x) = θe−θx 1[0,∞[ (x).
La fonction de répartition est
Z x
FX (x) =
ρX (t)dt = (1 − e−θx )1[0,∞[ (x),
−∞
et converge bien vers 1 en ∞.
Loi normale N (µ, σ 2 ).
C’est la loi de densité
ρX (x) = √
1
2 /2σ 2
e−(x−µ)
.
2πσ 2
R
Il n’est pas complètement évident que R ρX (x)dx = 1, ce qui est indispensable pour que ρX soit une densité. Ceci résulte, après le changement de
variable u = (x − µ)/σ, de l’égalité
Z ∞
√
2
e−u /2 du = 2π.
−∞
La loi normale N (0, 1), qui est donc de densité
1
2
√ e−x /2 ,
2π
est dite loi normale centrée réduite.
32
3.3
3.3.1
CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLES
Espérance des v.a : cas dénombrable
Définition
Soit X : Ω → R une variable aléatoire ne prenant qu’un nombre fini de
valeurs x1 , . . . xr . On définit l’espérance de X comme étant le nombre réel
E(X) =
r
X
xi · P(X = xi ).
i=1
Si X prend ses valeurs dans un ensemble infini dénombrable, la quantité
E(X) =
∞
X
xi · P(X = xi ),
i=1
qui semble être un bon candidat pour la définition de l’espérance, peut ne pas
exister car la série peut ne pas converger. Pour garantir cette convergence il
suffit de demander que la série précédente soit absolument convergente.
On adoptera donc la définition suivante :
Définition 3.3.1 Si X est une v.a prenant un nombre fini ou dénombrable
de valeurs dans E ⊂ R, telle que
X
|x|P(X = x) < ∞
(3.1)
x∈E
on définit l’espérance de X comme étant le nombre réel
X
E(X) =
x P(X = x).
x∈E
Quand la condition (3.1) est vérifiée on dit que X est dans L1 (Ω, B, P).
Remarque
P
— Quand X est positive, et dans ce cas seulement, si la série x∈E |x|P(X =
x) = ∞ diverge on pose E(X) = ∞.
— La variance représente intuitivement la valeur moyenne prise par la
variable aléatoire X.
3.3.2
Premières propriétés
Théorème 3.3.2 L’espérance des v.a prenant un nombre fini ou dénombrable
de valeurs vérifie les conditions suivantes :
a) si A ∈ B on a E(1A ) = P(A).
b) Si X, Y ∈ L1 (Ω, B, P) sont des v.a positives prenant un nombre fini ou
dénombrable de valeurs telles que X ≤ Y (c’est-à-dire pour tout ω ∈ Ω
X(ω) ≤ Y (ω)) alors E(X) ≤ E(Y ).
3.3. ESPÉRANCE DES V.A : CAS DÉNOMBRABLE
33
c) Si X, Y sont des v.a dans L1 (Ω, B, P) prenant un nombre fini ou dénombrable
de valeurs et a, b ∈ R alors aX+bY ∈ L1 (Ω, B, P) et (linéarité de l’espérance)
E(aX + bY ) = aE(X) + bE(Y ).
d) Si X est une v.a positive prenant un nombre fini ou dénombrable de
valeurs telle que E(X) = 0 alors X est nulle P-presque sûrement c’est-àdire que l’ensemble des ω ∈ Ω pour lesquels X(ω) > 0 a une probabilité
nulle.
Remarque. On dit qu’une propriété Pω qui dépend de ω ∈ Ω est vraie
P-presque sûrement, noté P-ps, si l’ensemble des ω ∈ Ω pour lesquels Pω est
fausse est de P-probabilité nulle, c’est-à-dire si P({ω : Pω fausse}) = 0.
Démonstration. — Démontrons le point b). Notons (xi )i l’ensemble des
valeurs prises par X et (yj )j celles prises par Y . Définissons Ai = X −1 (xi ),
Bj = Y −1 (yj ) qui sont dans la tribu des événements B. Les (Ai )i constituent
une partition de Ω, tout comme les (Bj )j . Par conséquent les (Ai ∩ Bj )i,j
constituent également une partition de Ω. Si Ai ∩ Bj 6= ∅ alors xi ≤ yj car
X(ω) ≤ Y (ω) pour ω ∈ Ai ∩ Bj ; sinon P(Ai ∩ Bj ) = 0. Donc dans tous les
cas P(Ai ∩ Bj )xi ≤ P(Ai ∩ Bj )yj . Ainsi
X
X
X
X
E(X) =
P(Ai )xi =
P(Ai ∩Bj )xi ≤
P(Ai ∩Bj )yj ≤
P(Bj )yj = E(Y ).
i
i,j
i,j
j
Démontrons maintenant le point c). En utilisant la décomposition précédente
on montre que aX + bY ∈ L1 (Ω, B, P) et que
X
E(aX + bY ) =
P(Ai ∩ Bj )(axi + byj )
i,j
=a
X
P(Ai ∩ Bj )xi + b
i,j
=a
X
X
P(Ai ∩ Bj )yj
i,j
P(Ai )xi + b
i
X
P(Bj )yj
i,j
= aE(X) + bE(Y ).
Enfin, pour le point d)
Pnous remarquons (avec les notations précédentes)
que si E(X) = 0 on a i P(Ai )xi = 0 ; mais comme X est positive, chacun
des termes de la somme précédente est positif ou nul et donc pour tout i,
P(Ai )xi = 0. Cela démontre
que pour tout i pour lequel xi > 0 on doit avoir
S
P(Ai ) = 0. Ainsi P( i,xi 6=0 Ai ) = 0. Ceci démontre le point d).
2
3.3.3
Formule de transfert
Il est important dans la pratique de savoir calculer des espérances de v.a
de la forme Y = f (X) où X : Ω → R est une v.a et f : R → R est une
fonction (disons continue).
34
CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLES
Proposition 3.3.3 Si X prend un nombre fini ou dénombrable de valeurs
dans E ⊂ R et si
X
|f (e)|P(X = e) < ∞
e∈E
alors l’espérance de la variable aléatoire Y = f (X) est donnée par
X
E(f (X)) =
f (e)P(X = e).
e∈E
Démonstration. — Supposons que X : Ω → R prenne ses valeurs dans un
ensemble fini E ⊂ R et soit f : E → R. Comme Y = f (X), la v.a Y ne prend
qu’un nombre fini de valeurs e0 qui sont dans E 0 = f (E). Par définition de
l’espérance
X
E(Y ) =
e0 P(Y = e0 ).
e0 ∈E 0
Pour chaque e0 ∈ E 0 , notons Ae0 = f −1 ({e0 } l’ensemble des e ∈ E tels que
f (e) = e0 et constatons que E 0 est l’union disjointe des Ae0 , e0 ∈ E 0 . On a
donc
X
X
X
E(Y ) =
e0 P(Y = e0 ) =
e0 P(f (X) = e0 ) =
e0 P(X ∈ f −1 (e0 ))
e0 ∈E 0
e0 ∈E 0
e0 ∈E 0
=
X
e0 ∈E 0
=
X
e0
X
P(X = e)
e∈f −1 (e0 )
X
f (e)P(X = e)
e0 ∈E 0 e∈f −1 (e0 )
=
X
f (e)P(X = e) = E(X).
e∈E
Cette démonstration s’étend au cas où X prend un nombre infini dénombrable
de valeurs, à condition que l’hypothèse de la proposition soit vérifiée.
2
3.4
Espérance des v.a : cas général
En s’inspirant de la définition de l’espérance exposée dans la section
précédente pour les v.a ne prenant qu’un nombre fini ou dénombrable de
valeurs, il est possible de définir, sous certaines conditions, l’espérance de
v.a dans un cadre plus général.
Théorème 3.4.1 (Espérance : cas positif ) À toute variable aléatoire réelle
positive X il est possible d’associer un élément de [0, ∞] que l’on appelle
l’espérance de X et que l’on note E(X) et qui vérifie les propriétés suivantes :
a) si A ∈ B on a E(1A ) = P(A).
3.4. ESPÉRANCE DES V.A : CAS GÉNÉRAL
35
b) Si X, Y sont des v.a positives telle que X ≤ Y (c’est-à-dire X(ω) ≤ Y (ω)
pour tout ω ∈ Ω) alors E(X) ≤ E(Y ).
c) Si X, Y sont des v.a positives et a, b ∈ R on a (linéarité de l’espérance)
E(aX + bY ) = aE(X) + bE(Y ).
d) Si X est une v.a positive telle que E(X) = 0 alors X est nulle P-presque
sûrement c’est-à-dire que l’ensemble des ω ∈ Ω pour lesquels X(ω) > 0 a
une probabilité nulle.
Remarque
— Notons que E(a) = a si a est une constante.
— Les conditions précédentes imposent que l’espérance coı̈ncide avec
celle que nous avons définie pour les v.a. prenant un nombre fini ou
dénombrable de valeurs.
Définition 3.4.2 On dit qu’une v.a est dans L1 (Ω, B, P) (on note aussi
L1 (Ω, P) ou L1 (P) ou simplement L1 ) si l’espérance de la v.a.r. positive
|X| est finie : E(|X|) < ∞. Dans ce cas on dit que la v.a X est (P-)intégrable.
Si on pose X+ = max(0, X) et X− = − min(0, X), on a X+ ≥ 0, X− ≥ 0
X = X+ − X−
et
|X| = X+ + X− ,
et en particulier
0 ≤ X+ ≤ |X|,
0 ≤ X− ≤ |X|.
Ainsi X ∈ L1 (Ω, B, P) si et seulement si X+ , X− ∈ L1 (Ω, B, P).
Définition 3.4.3 Si X ∈ L1 (Ω, B, P) on pose
E(X) = E(X+ ) − E(X− ).
Théorème 3.4.4 (Espérance : cas L1 ) a) Si A ∈ B on a E(1A ) = P(A).
b) Si X, Y sont des v.a dans L1 (Ω, P) telles que X ≤ Y (c’est-à-dire pour
tout ω ∈ Ω X(ω) ≤ Y (ω)) alors E(X) ≤ E(Y ).
c) Si X, Y sont des v.a dans L1 (Ω, P) et a, b ∈ R alors aX + bY ∈ L1 (Ω, P)
et (linéarité de l’espérance)
E(aX + bY ) = aE(X) + bE(Y ).
d) Si X ∈ L1 (Ω, B) on a toujours |E(X)| ≤ E(|X|) et on a égalité si et
seulement si P-ps X ≥ 0 ou P-ps X ≤ 0.
36
CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLES
3.5
Espérance des v.a admettant une densité
3.5.1
Résultat fondamental
Dans la section précédente nous avons vu comment étendre la notion
d’espérance définie pour des v.a prenant un nombre fini ou dénombrable de
valeurs à des v.a positives ou L1 . Dans cette section nous donnons une formule qui permet d’exprimer l’espérance d’une v.a admettant une densité, en
fonction de la densité. Nous admettrons ainsi le théorème important suivant :
Théorème 3.5.1 Soit X une v.a admettant une densité ρX .
— a) Si X est positive on peut toujours écrire
Z ∞
xρX (x)dx.
E(X) =
−∞
— b) Si X est de signe quelconque, on a X ∈ L1 (Ω, B, P) si et seulement
si
Z
∞
|x|ρX (x)dx < ∞
−∞
et dans ce cas
Z
∞
E(X) =
xρX (x)dx.
−∞
Exemple. Soit X une v.a suivant une loi normale centrée réduite : une telle
loi admet une densité
1
2
ρX (x) = √ e−x /2 .
2π
Comme
1
E(|X|) = √
2π
Z
∞
|x|e−x
2 /2
dx
−∞
est finie, X est dans L1 (Ω, B, P). L’espérance de X est donc définie et vaut
Z ∞
1
2
E(X) =
x √ e−x /2 dx.
2π
−∞
Il s’agit de l’intégrale d’une fonction intégrable, impaire sur un intervalle
symétrique : cette intégrale est donc nulle.
3.5.2
La formule de transfert
Etant donnée une v.a X admettant une densité ρX et une fonction continue (ou continue par morceaux) on se propose de déterminer l’espérance de
la v.a Y := f (X). Nous admettrons le résultat suivant :
3.5. ESPÉRANCE DES V.A ADMETTANT UNE DENSITÉ
37
Théorème 3.5.2 Si X : Ω → R est une v.a admettant une densité ρX et
f : R → R est une fonction continue (ou continue par morceaux)
alors la v.a
R∞
Y = f (X) est P-intégrable si et seulement si l’intégrale −∞ |f (x)|ρX (x)dx
est finie, et dans ce cas l’espérance de Y = f (X) est donnée par
Z
f (x)ρX (x)dx.
E(f (X)) =
R
Exercice 3.5.3 Calculer E(Y ) où Y = X 2 est le carré d’une v.a suivant
une loi normale centrée réduite.
Solution. Par intégration par parties on a
1
E(X ) = √
2π
2
Z
∞
Z ∞
1
2
dx = √
x(xe−x /2 )dx
2π −∞
Z ∞
1
d
2
=√
x (−e−x /2 )dx
2π −∞ dx
Z ∞
1
2
√
=
e−x /2 dx = 1.
2π −∞
2 −x2 /2
x e
−∞
Remarque :
Dans le cas général des v.a de la forme Y = f (X) où X : Ω → R est une v.a et
f : R → R est continue, la forme générale de la formule de transfert fait intervenir la loi
de X :
Z
E(f (X)) =
f (x)dµX (x)
R
dès que l’intégrale converge.
3.5.3
Application au calcul de densité
Le problème qui nous intéresse dans cette section est le suivant : étant
donnée une v.a X dont on connait la densité ρX , déterminer la densité, si
elle existe, de la v.a Y = f (X), où f est une fonction continue de R dans R.
Le résultat qui va nous permettre d’aborder cette question est le théorème
suivant que nous admettrons :
Théorème 3.5.4 Si X est une v.a telle que pour toute fonction continue
bornée φ : R → R on a
Z
∞
E(φ(X)) =
φ(x)ρX (x)dx,
−∞
alors X admet ρX pour densité.
38
CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLES
Méthode de calcul de la densité de Y = f (X)
Supposons que Y admette une densité ρY . On doit alors avoir pour toute
fonction continue bornée φ : R → R
Z ∞
φ(y)ρY (y)dy.
E(φ(Y )) =
−∞
Mais φ(Y ) = φ(f (X)) = φ ◦ f (X) et on a donc
Z ∞
φ ◦ f (x)ρX (x)dx.
E(φ(Y )) = E(φ ◦ f (X)) =
−∞
Supposons que f soit une bijection dérivable de R dans R, envoyant R sur
R. La formule classique de changement de variable montre que (x = f −1 (y),
dx = 1/f 0 (f −1 (y))dy)
Z ∞
Z ∞
1
φ ◦ f (x)ρX (x)dx =
φ(y) 0 −1
ρX (f −1 (y))dy.
|f (f (y))|
−∞
−∞
En conclusion, pour toute fonction φ continue de R → R
Z ∞
Z ∞
1
ρX (f −1 (y))dy
φ(y)ρY (y)dy =
φ(y) 0 −1
|f
(f
(y))|
−∞
−∞
et il est naturel de penser que
ρY (y) =
1
ρX (f −1 (y)).
|f 0 (f −1 (y))|
(3.2)
Justifions le fait que c’est effectivement le cas. Le calcul précédent montre
que pour toute fonction continue bornée φ : R → R on a
Z ∞
1
E(φ(Y )) =
φ(y) 0 −1
ρX (f −1 (y))dy.
|f
(f
(y))|
−∞
Mais d’après le théorème 3.5.4 ceci implique que Y admet une densité et
que celle-ci est donnée par la formule (3.2).
On pourrait démontrer de la même manière :
Théorème 3.5.5 Soient X une v.a de densité ρX prenant ses valeurs dans
un intervalle I (fini ou infini) et f : I → J est une application de classe C 1
pas nécessairement bijective mais telle que tout point y ∈ J ait un nombre
fini d’antécédents. Alors, la v.a Y = f (X) admet une densité ρY dont l’expression est donnée par
ρY (y) =
X
x∈f −1 (y)
ρX (x)
· 1J .
|f 0 (x)|
L’expression précédente peut prendre la valeur ∞ mais la fonction positive
ρY restera d’intégrale 1.
3.5. ESPÉRANCE DES V.A ADMETTANT UNE DENSITÉ
39
Exercice. Supposons que X admette une densité ρX . Déterminer la densité,
si elle existe de Y = X 2 . Application au cas où X suit une loi normale
N (0, 1).
Solution. On a Y = f (X) où f (x) = x2 est une bijection de I− =]−∞, 0[ sur
]0, ∞[ et de I+ =]0, ∞[ sur ]0, ∞[ (f est une fonction continue strictement
décroissante sur I− =] − ∞, 0] et strictement croissante sur I+ = [0, ∞[.)
Pour toute fonction φ : R → R continue et bornée
Z ∞
φ(f (x))ρX (x)dx.
E(φ(Y )) = E(φ ◦ f (X)) =
−∞
Ecrivons
Z ∞
Z
0
2
Z
φ(x )ρX (x)dx +
φ(f (x))ρX (x)dx =
−∞
−∞
∞
φ(x2 )ρX (x)dx
0
et effectuons dans chacune des intégrales du membre de droite le changement
de variable y = x2 :
Z 0
Z ∞
√ dy
φ(x2 )ρX (x)dx =
φ(y)ρX (− y) √ ,
2 y
−∞
0
Z ∞
Z ∞
√ dy
2
φ(x )ρX (x)dx =
φ(y)ρX ( y) √ ,
2 y
0
0
si bien que
∞
1
√
√
E(φ(Y )) =
φ(y) ρX (− y) + ρX ( y) √ dy
2
y
0
Z
1
√
√
=
φ(y) ρX (− y) + ρX y) √ . 1]0,∞[ (y)dy
2 y
R
Z
et comme cette formule est vraie pour toute fonction φ : R → R continue
bornée, on peut conclure que Y admet une densité ρY égale à
1
√
√
ρY (y) = ρX (− y) + ρX ( y) √ . 1]0,∞[ (y).
2 y
(Ne pas oublier le terme 1]0,∞[ (y).)
√
2
Si X suit une loi normale N (0, 1) sa densité est ρX (x) = (1/ 2π)e−x /2
et la densité de Y = X 2 vaut
1 e−y/2
ρY (y) = √
√ 1]0,∞[ (y).
y
2π
Exercice. Si X suit une loi normale centrée réduite, déterminer la loi de
Y = σX + µ.
40
CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLES
Solution. On a Y = f (X) où f (x) = ax + b. C’est une bijection C 1 de R
sur R. La formule du théorème 3.5.5 montre donc que la densité de Y est
√
1
2πσ 2
2 /2σ 2
e−(x−µ)
,
c’est-à-dire est une loi N (0, σ 2 ).
3.6
3.6.1
Variance
Variables aléatoires de carré intégrable
Définition 3.6.1 On dit qu’une v.a X est dans L2 (Ω, B, P) si son carré est
P-intégrable, c’est-à-dire si
E(|X|2 ) < ∞.
L’espace L2 (Ω, B, P) est stable par combinaisons linéaires :
Théorème 3.6.2 L’espace L2 (Ω, B, P) est un R-espace vectoriel, c’est-àdire que si a, b ∈ R et X, Y ∈ L2 (Ω, B, P) on a aussi aX + bY ∈ L2 (Ω, B, P).
En outre, la propriété suivante est toujours vérifiée (inégalité de Minkowski) :
E(|X + Y |2 )1/2 ≤ E(|X|2 )1/2 + E(|Y |2 )1/2 .
Une propriété très utile des espaces L2 est la propriété de Cauchy-Schwarz
(qui permet entre autres choses de démontrer l’inégalité de Minkowski) :
Théorème 3.6.3 (Cauchy-Schwarz) Si X et Y sont des v.a dans L2 (Ω, B, P)
alors le produit XY est dans L1 (Ω, B, P) et on a
|E(XY )| ≤ E(|X|2 )1/2 E(|Y |2 )1/2
avec égalité si et seulement si X et Y sont colinéaires.
3.6.2
Variance
Nous pouvons à présent définir la variance d’une v.a de carré intégrable.
Si X est dans L2 (Ω, B, P) la v.a X −E(X) est également dans L2 (Ω, B, P)
puisque c’est une somme de deux v.a de L2 (Ω, B, P) (une v.a constante est
toujours dans L2 (Ω, B, P)).
Définition 3.6.4 La variance d’une v.a dans L2 (Ω, B, P) est la quantité
VarX := E(|X − E(X)|2 ).
La racine carrée σ de ce nombre s’appelle l’écart type de X.
3.6. VARIANCE
41
La variance est donc la moyenne (l’espérance) des carrés des écarts de
X par rapport à E(X). Elle mesure le caractère plus ou moins diffus, étalé,
de la variable aléatoire X.
Le calcul suivant
E(|X − E(X)|2 ) = E(X 2 − 2XE(X) + E(X)2 )
= E(X 2 ) − 2E(X)2 + E(X)2 = E(X 2 ) − E(X)2
démontre :
Proposition 3.6.5 Si X ∈ L2 (Ω, B, P), on a Var(X) = E(X 2 ) − E(X)2 .
De plus, si σ ∈ R, alors Var(σX) = σ 2 Var(X).
3.6.3
Calcul de variance des v.a à valeurs dans N
Fonctions génératrices
Un outil très utile pour calculer les moments d’ordre p d’une v.a à valeurs
dans N est d’introduire la fonction génératrice de X.
Définition 3.6.6 La fonction génératrice d’une v.a X à valeurs dans N est
la fonction définie par
gX (t) = E(tX ) =
X
tk P(X = k).
k∈N
L’intérêt de gX réside dans la proposition suivante :
Proposition 3.6.7 On a toujours
d
gX (t) = E(X)
t→1,t<1 dt
lim
et de façon plus générale
dp
gX (t) = E(X(X − 1) · · · (X − p + 1)).
t→1,t<1 dtp
lim
Démonstration. —
Si X ne prend qu’un nombre fini de valeurs dans
{0, 1, . . . N }, il suffit de calculer
N
X
N
dp X k
t
P(X
=
k)
=
k(k − 1) · · · (k − p + 1)tk−p P(X = k).
dtp
k=0
k=0
Pour t = 1 on obtient le résultat d’après la formule de transfert.
42
CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLES
Dans le cas général où X prend ses valeurs dans N on peut procéder de
la façon suivante : pour 0 ≤ t < 1,
∞
X
∞
dp X k
t
P(X
=
k)
=
k(k − 1) · · · (k − p + 1)tk−p P(X = k),
dtp
k=0
k=0
car les séries sont uniformément
P convergentes. La série du membre de droite
converge quand t → 1− vers ∞
k=0 k(k − 1) · · · (k − p + 1)P(X = k) d’après
le théorème de convergence monotone et cette quantité égale E(X · · · (X −
p + 1)) d’après le théorème de transfert.
2
En particulier, pour la variance,
Var(X) = E(X 2 ) − E(X)2 = E(X(X − 1)) + E(X) − E(X)2
00
0
0
= gX
(1) + gX
(1) − (gX
(1))2 .
Exemples
Loi géométrique. La v.a. X prend ses valeurs dans N et P (X = k) =
(1 − a)ak (0 ≤ a < 1). Ainsi
gX (t) = (1 − a)
∞
X
tk ak = (1 − a)
k=0
1
1 − ta
dès que que 0 ≤ t < a−1 . De plus
0
gX
(t) = a
1−a
,
(1 − ta)2
et donc
E(X) =
a
,
1−a
00
gX
(t) = 2a2
Var(X) =
1−a
,
(1 − ta)3
a
.
(1 − a)2
Loi binomiale. Si la v.a X suit une loibinomiale (p, n) elle prend ses
valeurs dans {0, 1, . . . , n} et P(X = k) = nk pk (1 − p)n−k . Ainsi
n X
n k k
gX (t) =
t p (1 − p)n−k = (tp + 1 − p)n ,
k
k=0
si bien que
0
gX
(t) = pn(tp + 1 − p)n−1 ,
00
gX
(t) = p2 n(n − 1)(tp + 1 − p)n−2 ,
et donc
E(X) = np,
Var(X) = np(1 − p).
3.6. VARIANCE
43
Loi de Poisson. Si la v.a X suit une loi de Poisson de paramètre λ, elle
k
prend ses valeurs dans N et P(X = k) = e−λ λk! . Ainsi
gX (t) = e−λ
∞
X
tk λk
k=0
1
= e−λ etλ = e(t−1)λ .
k!
Ainsi,
0
gX
(t) = λe(t−1)λ ,
00
gX
(t) = λ2 e(t−1)λ ,
et donc
E(X) = λ,
Var(X) = λ.
Mentionnons enfin une propriété très utile des fonctions génératrices : une
fonction génératrice caractérise de façon unique la loi de la variable aléatoire
qui la définit.
Proposition 3.6.8 Soient X et Y deux v.a à valeurs dans N et supposons
que pour tout 0 ≤ t < 1 (ou même pour tout t ∈]a, b[⊂ [0, 1[) on ait gX (t) =
gY (t). Alors, X et Y ont même loi : pour tout k ∈ N, P(X = k) = P(Y = k).
3.6.4
Cas des v.a admettant une densité
Si X est une v.a admettant une densité ρX , alors d’après la formule de
transfert, X est dans L2 (Ω, B, P) si et seulement si
Z ∞
E(X 2 ) =
x2 ρX (x)dx
−∞
est finie.
Exemples
Loi uniforme. La variable aléatoire X : Ω → R suit une loi uniforme sur
l’intervalle [a, b] si sa densité est donnée par
ρX (x) =
1
· 1 (x).
b − a [a,b]
On a
Z
1
1
E(X) =
x·
· 1[a,b] (x)dx =
b−a
b−a
R
Z
b
xdx =
a
1 x2 b
a+b
[ ]a =
b−a 2
2
ce qui est conforme à l’intuition : en moyenne, un point jeté au hasard sur
l’intervalle (a, b) sera situé au milieu de l’intervalle (a, b).
De plus
Z
Z b
1
1
b3 − a3
a2 + b2 + ab
2
2
E(X ) =
x ·
·1[a,b] (x)dx =
x2 dx =
=
b−a
b−a a
3(b − a)
3
R
44
CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLES
puisque b3 − a3 = (b − a)(b2 + ab + a2 ), et donc la variance de X est
a2 + b2 + ab
Var(X) = E(X ) − E(X) =
−
3
2
Loi exponentielle de paramètre θ.
2
a+b
2
=
(b − a)2
.
12
La v.a X admet une densité
ρX (x) = θe−θx 1[0,∞[ (x).
On a
Z
∞
−θx
xθe
E(X) =
−∞
Z
∞
−θx
xθe
1[0,∞[ (x)dx =
0
1
dx =
θ
Z
0
∞
1
ue−u du = ,
θ
après changement de variable et intégration par parties. Le moment d’ordre
2 s’obtient de façon analogue :
Z
Z ∞
2
1 ∞ 2 −u
u e du = 2
E(X 2 ) =
x2 θe−θx dx = 2
θ
θ
0
0
après changement de variable et deux intégrations par parties. On a donc
Var(X) = E(X 2 ) − E(X)2 =
1
.
θ2
Loi normale N (µ, σ 2 ). On a vu plus haut que si Y suit une loi N (µ, σ 2 )
alors elle est de la forme σX +µ où X suit une loi normale N (0, 1) de densité
1
2
√ e−x /2 .
2π
On sait que pour une telle loi, E(X) = 0 et Var(X) = 1. Par conséquent,
E(Y ) = σE(X) + µ = µ et Var(Y ) = σ 2 Var(X) = σ 2 .
3.7
Inégalité de Markov et de Bienaymé-Tchebychev
L’intérêt de considérer les moments d’une v.a X réside dans les propositions suivantes.
Proposition 3.7.1 Si X est une v.a dans L1 (Ω, P) on a pour tout λ > 0
P(|X| ≥ λ) ≤
Démonstration. —
E(|X|)
.
λ
La v.a |X| peut sécrire
|X| = |X| · 1{|X|≥λ} + |X| · 1{|X|<λ} ,
3.8. VECTEURS ALÉATOIRES
45
et par additivité et positivité de l’espérance on a
E(|X|) ≥ E(|X| · 1{|X|≥λ} ).
Or
|X| · 1{|X|≥λ} ≥ λ · 1{|X|≥λ} ,
et par conséquent
E(|X|) ≥ λE(1{|X|≥λ} ),
c’est-à-dire
E(|X|) ≥ λP({|X| ≥ λ},
2
ce qui est la conclusion de la proposition.
La proposition précédente est une version quantitative du fait que la probabilité que X prenne de grandes valeurs a tendance à être petite.
Si on a des informations sur les moments d’ordre supérieurs l’estimation
précédente est meilleure :
Proposition 3.7.2 Si X est une v.a dans L2 (Ω, B, P) on a pour tout λ > 0
P(|X| ≥ λ) ≤
E(|X|2 )
.
λ2
Démonstration. —
Il suffit de remarquer que {|X| ≥ λ} = {X 2 ≥ λ2 } et d’appliquer la
proposition précédente à la v.a Y = X 2 .
2
Appliquée à la v.a Y = X − E(X), la proposition précédente donne le
théorème de Bienaymé-Tchebychev :
Théorème 3.7.3 Si X est une v.a dans L2 (Ω, B, P) on a pour tout λ > 0
P(|X − E(X)| ≥ λ) ≤
Si on note σ =
Var(|X|)
.
λ2
p
Var(X) l’écart type on a donc
P(|X − E(X)| ≥ λσ) ≤
1
·
λ2
Ceci justifie le nom d’écart type donné à σ.
Le théorème de Bienaymé-Tchebychev permet d’obtenir les probabilités des
déviations importantes de la v.a X par rapport à sa moyenne.
3.8
Vecteurs aléatoires
Un vecteur aléatoire est un n-uplet de variables aléatoires réelles X =
(X1 , . . . , Xn ).
46
CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLES
3.8.1
Loi d’un vecteur aléatoire
Définition 3.8.1 Si X1 , . . . , Xn sont des v.a, on appelle loi du vecteur
aléatoire X = (X1 , . . . , Xn ) la donnée de tous les quantités
P(X1 ∈ I1 , . . . , Xn ∈ In )
pour tous intervalles I1 , . . . , In de R.
Cas des v.a. prenant un nombre fini ou dénombrable de valeurs
Si chacune des v.a. Xi prend ses valeurs dans un ensemble Ei fini ou
dénombrable (i = 1, . . . , n), la loi du vecteur X = (X1 , . . . , Xn ) est déterminée
par les nombres
P(X1 = e1 , . . . , Xn = en ),
où (e1 , . . . , en ) ∈ E1 × · · · × En .
Cas des v.a admettant une densité
Si chacune des v.a. Xi admet une densité, il est possible de démontrer
que le vecteur X = (X1 , . . . , Xn ) admet une densité, c’est-à-dire qu’il existe
une fonction ρ(x1 , . . . , xn ) telle que pour tous intervalles I1 , . . . , In
Z
P(X1 ∈ I1 , . . . , Xn ∈ In ) =
ρ(x1 , . . . , xn )dx1 · · · dxn .
(3.3)
I1 ×···×In
Réciproquement, si le vecteur aléatoire X = (X1 , . . . , Xn ) admet une densité
ρ au sens de (3.3) alors chacune des v.a Xi admet une densité ρi telle que
pour tout intervalle I de R on a
Z
ci · · · dxn
P(Xi ∈ I) =
ρ(x1 , . . . , xi , . . . xn )dx1 · · · dx
(3.4)
R×···×R
où le chapeau signifie que l’on n’intègre pas sur la variable xi ; on intègre
donc dans Rn−1 .
3.8.2
Formules de transfert
Etant donné un vecteur aléatoire X = (X1 , . . . , Xm ) et
f : Rm → Rp
(x1 , . . . , xm ) 7→ (f1 (x1 , . . . , xm ), . . . , fp (x1 , . . . , xm ))
une application continue, on cherche à calculer l’espérance de Y = f (X)
c’est-à-dire que l’on veut calculer le vecteur E(Y ) = (E(Y1 ), . . . , E(Yp )) où
Yj = fj (X1 , . . . , Xm ). Le problème se ramène donc au suivant : étant donné
X = (X1 , . . . , Xm ) un vecteur aléatoire calculer E(φ(X1 , . . . , Xm )) où φ est
une application de Rm dans R. Ce problème se résout de la même façon que
dans le cas m = 1 (variables aléatoires). Nous donnons les résultats sans
démonstration (les preuves sont identiques à celles du cas m = 1).
3.8. VECTEURS ALÉATOIRES
47
Cas de vecteurs aléatoires à valeurs dans un ensemble fini ou
dénombrable. Si X = (X1 , . . . , Xm ) prend ses valeurs dans E1 × · · · × Em
on a
X
E(φ(X1 , . . . , Xm )) =
φ(e1 , . . . , em )P(X1 = e1 , . . . , Xm = em ).
e1 ∈E1 ,...,em ∈Em
Cas de vecteurs aléatoires admettant une densité. Si le vecteur
aléatoire X = (X1 , . . . , Xm ) admet une densité ρX (x1 , . . . , xm ) on a
Z
Z
E(φ(X1 , . . . , Xm )) =
· · · φ(x1 , . . . , xm )ρX (x1 , . . . , xm )dx1 · · · dxm .
R
3.8.3
R
Loi d’une somme de v.a
Théorème 3.8.2 Soient X et Y deux v.a.
— Si les v.a X, Y prennent leurs valeurs dans des ensembles finis ou
dénombrables et si p est la loi du vecteur aléatoire (X, Y ), alors la
loi pX+Y de X + Y vérifie pour tout e
X
pX+Y (e) =
p(e1 , e2 ).
e1 +e2 =e
— Si le vecteur aléatoire (X, Y ) admet pour densité ρ alors la v.a X +Y
admet pour densité ρX+Y :
Z
ρX (x − y, y)dy.
ρX+Y (x) =
R
Démonstration. — Faisons la preuve dans le second cas. i) Introduisons le
vecteur aléatoire Z = (X + Y, Y ) et calculons sa loi. Pour toute fonction
φ : R2 → R continue bornée,
E(φ(Z)) = E(φ(X + Y, Y )) = E(ψ(X, Y )),
où ψ : R2 → R est définie par ψ(x, y) = φ(x + y, y). Comme (X, Y ) admet
une densité ρ on a d’après la formule de transfert
Z
Z
E(ψ(X, Y )) =
ψ(x, y)ρ(x, y)dxdy =
φ(x + y, y)ρ(x, y)dxdy
2
R2
ZR Z
=
φ(x + y, y)ρ(x, y)dx dy.
R
R
Effectuons le changement de variables (y étant fixé) u = x + y, x = u − y
dans l’intégrale du milieu :
Z Z
φ(u, y)ρ(u − y, y)du dy
E(ψ(X, Y )) =
R
R
48
CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLES
et donc
Z
E(φ(Z)) =
φ(u, v)ρ(u − v, v)dudv.
R2
Ceci étant vrai pour toute fonction φ continue bornée on peut dire que
Z = (U, V ) = (X+Y, Y ) admet une densité donnée par ρZ (u, v) = ρ(u−v, v).
ii) La formule (3.4) montre que la densité de X + Y est ρX :
Z
∞
ρ(x − v, v)dv.
ρX (x) =
−∞
2
3.9
3.9.1
Variables aléatoires indépendantes
Définition
La notion d’indépendance de n v.a est la suivante :
Définition 3.9.1 Une suite X1 , . . . , Xn de variables aléatoires est dite indépendante
si pour tous intervalles I1 , . . . , In de R,
P(X1 ∈ I1 , . . . , Xn ∈ In ) = P(X1 ∈ I1 ) · · · P(Xn ∈ In ).
Définition 3.9.2 Une famille (quelconque, finie ou infinie) (Xi )i∈I de v.a
est dite indépendante si toute sous-famille finie (Xi )i∈J , J ⊂ I fini, est
indépendante.
3.9.2
Cas des v.a à valeurs dans un ensemble discret
Si les Xi sont à valeurs dans des ensembles finis ou dénombrables Ei la
définition précédente se simplifie :
Proposition 3.9.3 La famille (X1 , . . . , Xn ) est indépendante si et seulement si pour tout (e1 , . . . , en ) ∈ E1 × · · · × En on a
P(X1 = e1 , . . . , Xn = en ) = P(X1 = e1 ) · · · P(Xn = en ).
Définition 3.9.4 Si on note pXi (e) := P(Xi = e) et p(e1 , . . . , en ) = P(X1 =
e1 , . . . , Xn = en ) on dit que p est la loi du vecteur aléatoire (X1 , . . . , Xn ).
Ainsi, X1 , . . . , Xn sont indépendantes si et seulement si pour tous ei
p(e1 , . . . , en ) = pX1 (e1 ) · · · pXn (en ).
3.9. VARIABLES ALÉATOIRES INDÉPENDANTES
3.9.3
49
Cas des v.a admettant des densités
Proposition 3.9.5 Si les X1 , . . . , Xn sont des v.a indépendantes admettant
des densités ρX1 , . . . , ρXn alors pour tous intervalles I1 , . . . , In de R on a
Z
P(X1 ∈ I1 , . . . , Xn ∈ In ) =
ρ(x1 , . . . , xn )dx1 · · · dxn
I1 ×···×In
où
ρ(x1 , . . . , xn ) = ρX1 (x1 ) · · · ρXn (xn ).
On dit que ρ est la densité du vecteur aléatoire X = (X1 , . . . , Xn ).
Démonstration. —
En effet pour tous intervalles I1 , . . . , In ,
P(X ∈ I1 × · · · × In ) = P(X1 ∈ I1 ) · · · P(Xn ∈ In )
Z
Z
ρXn (xn )dxn
=
ρX1 (x1 )dx1 · · ·
In
I1
Z
=
ρX1 (x1 ) · · · ρXn (xn )dx1 · · · dxn .
I1 ×···×In
2
3.9.4
Loi d’une somme de v.a indépendantes
Nous pouvons à présent calculer la densité d’une somme de v.a indépendantes
en utilisant les résultats des sous-sections précédentes et le théorème 3.8.2
Théorème 3.9.6 Soient X et Y deux v.a indépendantes.
— Si X et Y sont des v.a prenant leurs valeurs dans des ensembles finis
ou dénombrables et admettant respectivement pour loi pX et pY alors
la loi pX+Y de X + Y vérifie pour tout e
X
pX+Y (e) =
pX (e1 )pY (e2 ).
e1 +e2 =e
— Si X et Y sont des v.a admettant respectivement pour densité ρX et
ρY alors la v.a X + Y admet pour densité ρX+Y :
Z
ρX+Y (x) =
ρX (x − y)ρY (y)dy.
R
3.9.5
Espérance des produits de v.a indépendantes
Le théorème fondamental de cette section est le suivant :
Théorème 3.9.7 Si X1 , . . . , Xn est une famille de v.a indépendantes et
dans L1 (Ω, B, P) alors le produit Y = X1 · · · Xn est également une v.a dans
L1 (Ω, B, P) et son espérance est égale au produit des espérances des Xi :
E(X1 · · · Xn ) = E(X1 ) · · · E(Xn ).
50
CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLES
Démonstration. — Donnons une preuve de ce résultat dans le cas où les
Xi sont à valeurs dans un ensemble fini, et dans le cas n = 2.
Supposons donc que X1 , X2 sont à valeurs dans un ensemble fini E.
Notons f : R2 → R l’application définie par f (x1 , x2 ) = x1 · x2 . On a d’après
la formule de transfert
X
f (e1 , e2 )P(X1 = e1 , X2 = e2 )
E(f (X1 , X2 )) =
(e1 ,e2 )∈E×E
X
=
e1 e2 P(X1 = e1 ), P(X2 = e2 )
(e1 ,e2 )∈E×E
=
X
X
e1 P(X1 = e1 )
e2 P(X2 = e2 )
e2 ∈E
(e1 ∈E
= E(X1 )E(X2 ).
2
Remarque. Dans le cas où les v.a Xi admettent des densités (continues)
ρXi on peut donner la preuve suivante. La formule de transfert appliquée à
Y = f (X1 , X2 ) = X1 · X2 donne
Z
E(X1 · X2 ) =
f (x1 , x2 )ρX (x1 , x2 )dx1 dx2 .
R×R
Or on sait que ρX (x1 , x2 ) = ρX1 (x1 )ρX2 (x2 ) si bien que
Z
E(X1 · X2 ) =
x1 x2 ρX1 (x1 )ρX2 (x2 )dx1 dx2
R×R
Z
Z
=
x1 ρX1 (x1 ) x2 ρX2 (x2 ) = E(X1 )E(X2 ).
R
R
Remarque. Attention, la réciproque du résultat précédent est fausse : si
deux v.a X, Y sont telles que E(XY ) = E(X)E(Y ) on ne peut pas conclure
que X, Y sont indépendantes. En revanche :
Théorème 3.9.8 Une famille X1 , . . . , Xn de v.a est indépendante si et
seulement si pour toutes fonctions continues bornées φ1 , . . . , φn de R → R
on a
E(φ1 (X1 ) · · · φn (Xn )) = E(φ1 (X1 )) · · · E(φn (Xn )).
3.9.6
Critères d’indépendance
Dans la pratique il est important de déterminer si une famille de v.a
est indépendante. Un cas courant est le suivant : on suppose donnée une
famille de v.a indépendantes X1 , X2 , . . . et on construit, à partir des Xi , de
nouvelles v.a Y1 , Y2 , . . .. Par exemple, on peut définir Y1 = X1 , Y2 = X1 +X2 ,
3.9. VARIABLES ALÉATOIRES INDÉPENDANTES
51
Yn = X1 + · · · + Xn , etc, mais on pourrait définir les Yi par Y1 = X1 + X2 ,
Y2 = X2 + X3 , Yn = Xn + Xn+1 etc. ou faire des choses plus compliquées.
On se propose alors de savoir si la famille ainsi construite est indépendante.
Le théorème qui suit permet dans certains cas de répondre à cette question.
Théorème 3.9.9 Soient (Xi )i∈N une famille de v.a indépendantes et (Ji )
(i = 1, 2, . . .) des sous-ensembles finis de N qui forment une partition de
N (i.e les Ji sont non vides, N = ∪i≥1 Ji et Ji ∩ Jj = ∅ si i 6= j). Supposons données des applications (continues, continues par morceaux,...) fi de
R#Ji → R et posons Yi = fi (Xi1 , . . . , Xi#Ji ) (où i1 < · · · < i#Ji sont les
éléments de Ji ). Alors, la famille de v.a Y1 , Y2 , . . . est indépendante.
Ainsi, si la famille de v.a X1 , X2 , . . . est indépendante, il en est de même
de X1 + X2 , X3 + X4 , . . . , X2n−1 + X2n , . . .. En revanche, la suite de v.a
X1 + X2 , X2 + X3 , X3 + X4 , . . . ne sera en général pas indépendante.
3.9.7
Variance d’une somme de v.a indépendantes
Si (Xi )i∈N est une famille de v.a, indépendantes ou non, on a toujours
E(X1 + · · · + Xn ) = E(X1 ) + · · · + E(Xn ).
Si en outre on suppose la famille indépendante on peut calculer facilement
la variance de X1 + · · · + Xn .
Théorème 3.9.10 Soit (Xi )i∈N une famille de v.a indépendantes. Alors
Var(X1 + · · · + Xn ) = Var(X1 ) + · · · + Var(Xn ).
Démonstration. — Soit S := X1 + · · · + Xn ; il suffit de calculer Var(S) =
E(S 2 ) − (E(S))2 . On a
X
X
E(S 2 ) = E(
Xi · Xj ) =
E(Xi Xj ).
1≤i,j≤n
1≤i,j≤n
Or quand i 6= j on a d’après l’hypothèse d’indépendance E(Xi Xj ) = E(Xi )E(Xj ).
En décomposant la somme précédente en i = j et i 6= j on a donc
E(S 2 ) =
n
X
X
E(Xi2 ) +
i=1
E(Xi )E(Xj ).
1≤i6=j≤n
D’autre part,
(E(S))2 =
X
E(Xi )E(Xj ).
1≤i,j≤n
On a donc
2
2
Var(S) = E(S ) − (E(S)) =
n
X
i=1
E(Xi2 )
−
n
X
i=1
2
E(Xi ) =
n
X
Var(Xi ).
i=1
2
52
CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLES
Exercice 3.9.11 a) Calculer l’espérance et la variance d’une v.a suivant
une loi de Bernoulli P(X = 1) = p, P(X = 0) = 1 − p.
b) On suppose que les v.a (Xi )i∈N sont indépendantes et suivent chacune
une loi de Bernoulli de paramètre p. Calculer l’espérance et la variance de
X1 + · · · + Xn .
c) Comparer avec l’espérance et la variance d’une loi binomiale (n, p).
Chapitre 4
Théorèmes limites
Soit X1 , . . . , Xn , . . . une famille de v.a indépendantes et introduisons les
v.a Sn = X1 + · · · + Xn . Si par exemple les v.a Xi ont même loi, l’intuition
que nous avons des probabilités nous incite à penser que les moyennes
1
1
Sn = (X1 + · · · + Xn )
n
n
convergent quand n tend vers l’infini vers l’espérance E(X1 ) de X1 (et donc
de chacun des Xi ). En effet, si par exemple les Xi suivent une loi de Bernoulli
(1/2, 1/2) et forment une famille indépendante de v.a - les Xi modélisent
donc un jeu infini de Pile/Face où les tirages sont indépendants - l’expérience
ou l’intuition indique que
1
(X1 + · · · + Xn )
n
converge vers le nombre (ou la v.a constante) 1/2 qui n’est rien d’autre que
l’espérance de X1 . La première difficulté que nous rencontrons est de donner
un sens à la convergence précédente. Rappelons la définition suivante qui
introduit la notion de convergence presque sûre :
Définition 4.0.12 (Convergence presque sûre) Soit (Ω, B, P) un espace
probabilisé. On dit que la suite de v.a Yn converge P-presque sûrement vers
la v.a Y si l’ensemble (il s’agit en fait d’un événement) des ω ∈ Ω pour
lesquels la suite (Yn (ω))n converge vers Y (ω) est de P-probabilité 1.
Le théorème fondamental de ce chapitre et qui est à la base de la théorie
mathématique des probabilités est la loi forte des grands nombres :
Théorème 4.0.13 Soit X1 , . . . , Xn , . . . une famille de v.a indépendante où
les Xi ont même loi et sont dans L1 (Ω, P). Alors, la suite de v.a
1
(X1 + · · · + Xn )
n
converge P-p.s vers la v.a constante E(X1 ).
53
54
CHAPITRE 4. THÉORÈMES LIMITES
La démonstration de ce théorème fondamental dans cette généralité sort du
cadre de ce cours, mais nous allons en donner une preuve sous des hypothèses
plus fortes.
Définition 4.0.14 On dit qu’une suite de v.a (Xn )n∈N est indépendante et
identiquement distribuée (i.i.d.) si elle est indépendante et si les Xn suivent
la même loi.
4.1
4.1.1
Lois des grands nombres
Loi faible des grands nombres dans le cas L2
Supposons les Xi i.i.d. et de carré intégrable. Nous savons déjà d’après
la linéarité de l’espérance que
E(Sn ) = E(X1 ) + · · · + E(Xn )
et d’après l’indépendance
Var(Sn ) = Var(X1 ) + · · · + Var(Xn ).
Ainsi, comme les Xi ont même loi
E(Sn ) = nE(X1 ),
Var(Sn ) = n Var(X1 ).
Le fait que la variance de la somme des n v.a X1 , . . . , Xn se comporte comme
n et non pas comme n2 (c’est ici où intervient l’hypothèse d’indépendance)
est l’observation fondamentale. Appliquons en effet l’inégalité de BienayméTchebychev :
nV ar(X1 )
P(|Sn − nE(X1 )| ≥ λ) ≤
,
λ2
ce qui peut s’écrire
P(|
Sn
λ
nV ar(X1 )
− E(X1 )| ≥ ) ≤
.
n
n
λ2
Posons à présent λ = n où est un réel positif :
P(|
Sn
V ar(X1 )
− E(X1 )| ≥ ) ≤
.
n
n2
Nous voyons donc que pour tout > 0 on a
lim P(|
n→∞
Sn
− E(X1 )| ≥ ) = 0.
n
Introduisons la définition suivante :
4.1. LOIS DES GRANDS NOMBRES
55
Définition 4.1.1 (Convergence en probabilité) On dit que la suite de
v.a (Yn )n converge en probabilité vers la v.a Y si pour tout > 0 on a
lim P(|Yn − Y | > ) = 0.
n→∞
Nous avons donc démontré la loi faible des grands nombres :
Théorème 4.1.2 Si (Xi )i≥1 est une famille de v.a i.i.d. et dans L2 (Ω, P)
alors la suite Sn /n converge en probabilité vers E(X1 ).
4.1.2
Démonstration de la loi forte des grands nombres
On se limite au cas où les v.a sont L4 , c’est-à-dire quand E(|X1 |4 ) < ∞.
i) Remarquons que l’hypothèse E(Xi4 ) < ∞ entraı̂ne que
∀k = 0, 1, 2, 3, 4, E(|Xi |k ) < ∞.
(4.1)
Pour k = 0 c’est évident. On a d’après l’inégalité de Cauchy-Schwarz (cf. 3.6.3)
E(Xi2 · 1) ≤ E(Xi4 )1/2 E(12 )1/2 = E(Xi4 )1/2 < ∞.
On a donc (4.1) pour k = 4 et k = 2. En appliquant de nouveau l’inégalité de
Cauchy-Schwarz on a E(|Xi · 1|) ≤ E(Xi2 )1/2 E(12 )1/2 < ∞ ; ainsi (4.1) est vraie
pour k = 1. Enfin, E(|Xi |3 ) = E(Xi2 |Xi |) ≤ E(Xi4 )1/2 E(Xi2 )1/2 < ∞. On a donc
bien établi (4.1) pour k = 0, 1, 2, 3, 4.
ii) Posons X̄k = Xk − E(Xk ) et S̄n = X̄1 + · · · + X̄k . La famille de v.a (X̄i )i est
indépendante et les X̄i sont de même loi et d’espérance nulle : E(X̄i ) = 0. Vérifions
que
∀k = 0, 1, 2, 3, 4, E(|X̄i |k ) < ∞.
(4.2)
Pour cela, il suffit de constater que E(|X̄|k ) ≤ E (|X| + E(|X|))k et que cette
dernière quantité est une combinaison linéaire de termes de la forme E(|Xi |l )E(|X|)m
pour l + m = k, 0 ≤ l, m ≤ k. On utilise alors (4.1) pour conclure.
Pn
iii) Posons S̄n = i=1 X̄i et remarquons que
n
X
S̄n4 = (
X̄i )4 =
X
i=1
1≤i1 ,i2 ,i3 ,i4 ≤n
X̄i1 X̄i2 X̄i3 X̄i4
et donc
E(S̄n4 ) =
X
E(X̄i1 X̄i2 X̄i3 X̄i4 ).
(4.3)
1≤i1 ,i2 ,i3 ,i4 ≤n
On constate à présent que si les indices ir , r = 1, 2, 3, 4 sont distincts deux à deux
on a d’après l’indépendance des X̄i et le fait que E(X̄i ) = 0
E(X̄i1 X̄i2 X̄i3 X̄i4 ) = E(X̄i1 )E(X̄i2 )E(X̄i3 )E(X̄i4 ) = 0
De la même manière si un indice est différent des trois autres, E(X̄i1 X̄i2 X̄i3 X̄i4 ) =
0 ; en effet si par exemple cet indice est i1 , X̄i1 est indépendant de X̄i2 X̄i3 X̄i4 et
donc
E(X̄i1 X̄i2 X̄i3 X̄i4 ) = E(X̄i1 )E(X̄i2 X̄i3 X̄i4 ) = 0 × E(X̄i2 X̄i3 X̄i4 ) = 0.
56
CHAPITRE 4. THÉORÈMES LIMITES
Ceci montre que les seuls termes qui contribuent à la somme (4.3) sont les indices
tels que #{i1 , i2 , i3 , i4 } est égal à 1 ou 2. Ainsi
E(S̄n4 ) =
4
2
X
X
E(X̄i2 X̄j2 ) +
1≤i<j≤n
E(X̄i4 ).
1≤i≤n
En utilisant le fait qu’il y a n(n − 1)/2 termes dans la première somme du membre
de droite de cette inégalité et que E(X̄i2 X̄j2 ) = E(X̄i2 )E(X̄j2 ) = E(X̄12 )2 (puisque les
v.a X̄i2 et X̄j2 sont indépendantes si i 6= j) on a
E(S̄n4 ) = 3n(n − 1)E(X̄12 )2 + nE(X̄14 ).
Par conséquent,
4 S̄n
3E(X̄12 ) E(X̄14 )
E(S̄n4 )
≤
+
.
=
E
n
n4
n2
n3
iv) La dernière inégalité montre que
4 ∞
X
S̄n
E
< ∞.
n
n=1
Mais on peut démontrer (c’est le théorème de convergence monotone) que
4 4 X
X
∞
∞ S̄n
S̄n
E
=
< ∞.
E
n
n
n=1
n=1
On a donc
4 X
∞ S̄n
< ∞.
E
n
n=1
Or, si l’espérance d’une v.a positive est finie, cette v.a est finie P-presque sûrement.
Par conséquent, P-p.s. la somme
4
∞ X
S̄n
n=1
n
converge et en particulier
S̄n
n
converge P-p.s. vers 0. Par définition de S̄n , ceci est équivalent au fait que
lim
n→∞
Sn
= E(X1 ) P − p.s.
n
4.2. THÉORÈME DE LA LIMITE CENTRALE
4.2
57
Théorème de la limite centrale
Nous donnons une première version de ce théorème :
Théorème 4.2.1 Soit X1 , . . . , Xn , . . . une famille de v.a. i.i.d. dans L2 (Ω, P).
Notons µ = E(X1 ) et σ 2 = V ar(X1 ). Alors, pour tout intervalle I de R
Z
1
Sn − nµ
2
√
√ e−x /2 dx.
∈I =
lim P
n→∞
σ n
2π
I
Une autre façon d’énoncer ce théorème est de dire que
Z
√ 1
n Sn
2
√ e−x /2 dx.
−µ ∈I =
lim P
n→∞
σ
n
2π
I
En d’autres termes, Sn /n−µ converge d’après la loi forte des grands nombres
vers 0, la déviation des moyennes par rapport à l’espérance, “renormalisée”
√
par le facteur n/σ, converge dans un certain sens vers une loi gaussienne
normalisée (espérance nulle, variance égale à 1).
Avant de passer à la preuve de ce théorème, nous devons faire quelques
rappels et introduire quelques notions utiles.
4.2.1
Fonctions de répartition
Se reporter à la section 3.2.2
4.2.2
Convergence en loi
Définition 4.2.2 On dit qu’une suite de v.a (Yn )n∈N converge en loi vers
une v.a Y si pour toute fonction continue bornée f : R → R
lim E(f (Yn )) = E(f (Y )).
n→∞
Un résultat fondamental (et admis) est le suivant :
Théorème 4.2.3 Soient (Yn )n∈N une suite de v.a et Y une v.a. et notons
FYn : R → [0, 1] et FY : R → [0, 1] les fonctions de répartition des v.a
Yn , Y :
FYn (t) = P(Yn ≤ t),
FY (t) = P(Y ≤ t).
La suite (Yn )n∈N converge en loi vers Y si et seulement si en tout point t0
où FY est continue à gauche
lim FYn (t0 ) = FY (t0 ).
n→∞
Un corollaire utile du théorème précédent est le suivant :
58
CHAPITRE 4. THÉORÈMES LIMITES
Corollaire 4.2.4 Si les Yn convergent en loi vers une v.a Y qui admet une
densité ρY alors pour tout intervalle I de R
Z
lim P(Yn ∈ I) = ρY (y)dy
n→∞
I
Démonstration. — En effet, dans ce cas FY est continue en tout point. 2
4.2.3
Fonctions caractéristiques
Définition 4.2.5 Si Y est une v.a, la fonction caractéristique de Y est la
fonction continue φY : R → R définie par
φY (t) = E(eitY ) = E[cos(tY )] + i E[sin(tY )]
où i est le nombre complexe de carré −1.
Remarque. i) Pour t fixé la v.a eitY est bornée par 1 (puisque Y est à
valeurs réelles) et est donc intégrable.
ii) La fonction caractéristique d’une v.a ne dépend que de la loi de cette v.a.
On peut préciser le résultat de continuité précédent (admis) :
Proposition 4.2.6 Si Y est une v.a intégrable, alors la fonction caractéristique
de Y est de classe C 1 (dérivable et de dérivée continue) et
0
itY
φY (t) = E (iY )e
.
Si Y est dans Lp (Ω, P) la fonction caractéristique de Y est de classe C p et
dp
p itY
φY (t) = E (iY ) e
.
dtp
Exercice. Montrer que si Z = aY + b alors φZ (t) = eitb φY (ta).
Calculons à présent les fonctions caractéristiques de certaines lois classiques.
V.a discrètes. Si Y prend un nombre fini de valeurs y1 , . . . , yr et si on
note pr = P(Y = yr ) on a
φY (t) = E(eitY ) =
r
X
k=1
eityk P(Y = yk ) =
r
X
(eit )yk P(Y = yk ).
k=1
Si Y est à valeurs entières on reconnait la fonction génératrice de Y au point
eit . Le calcul des fonctions caractéristiques de v.a discrètes est exactement
le même que celui que nous avons effectué au chapitre précédent.
4.2. THÉORÈME DE LA LIMITE CENTRALE
59
V.a admettant une densité ρY .
Si Y a pour densité ρY alors
Z ∞
eity ρY (y)dy.
φY (t) = E(eitY ) =
−∞
On reconnaı̂t la transformée de Fourier ρ̂Y (t) =
tion ρY .
R∞
−∞ e
ity ρ (y)dy
Y
de la fonc-
Exemple : Fonction caractéristique d’une gaussienne. Rappelons que si Z
est une v.a suivant une loi gaussienne N (µ, σ) on peut l’écrire sous la forme
Z = σY + µ où Y suit une loi gaussienne normalisée N (0, 1) de densité
1
2
ρ(y) = √ e−y /2 .
2π
On a donc (exercice) :
1
φY (t) = √
2π
Z
∞
eity e−y
2 /2
2 /2
dy = e−t
.
−∞
Ainsi, la fonction d’une caractéristique d’une v.a suivant une loi gaussienne
N (µ, σ) est
2 2
φZ (t) = eitµ−σ t /2 .
Liens avec la convergence en loi
Les fonctions caractéristiques jouent un rôle important dans les problèmes
où interviennent des convergences en loi. Les deux théorèmes qui suivent
illustrent ce fait.
Théorème 4.2.7 La loi d’une v.a est déterminée par sa fonction caractéristique :
si Y et Z sont deux v.a telles que pour tout t ∈ R
φY (t) = φZ (t),
alors Y et Z ont même loi : pour tout intervalle I de R
P(Y ∈ I) = P(Z ∈ I).
En particulier, elles ont la même fonction de répartition.
La notion de fonction caractéristique est très utile pour donner un critère
utile de convergence en loi. On a ainsi le théorème important suivant (admis) :
Théorème 4.2.8 La suite de v.a (Yn )n∈N converge en loi vers Y si et seulement si pour tout t ∈ R
lim φYn (t) = φY (t).
n→∞
60
CHAPITRE 4. THÉORÈMES LIMITES
Fonction caractéristique d’une somme de v.a indépendantes
Théorème 4.2.9 Si les v.a X1 , . . . , Xn forment une famille indépendante,
alors pour tout t ∈ R
φX1 +···+Xn (t) = φX1 (t) · · · φXn (t).
Démonstration. —
Par définition
φX1 +···+Xn (t) = E[eitX1 · · · eitXn ].
On applique alors le théorème 3.9.8 aux fonctions continues bornées φi (x) =
cos(tx) et sin(tx).
2
4.2.4
Démonstration du théorème de la limite centrale
Soit donc X1 , . . . , Xn , . . . une famille indépendante de v.a qui sont de
même loi et de carré intégrable. Notons µ = E(X1 ), σ = V ar(X1 ), Sn =
X1 + · · · + Xn , Σn = (X1 − µ) + · · · + (Xn − µ) et
Zn =
Σn
Sn − nE(X1 )
√
= √ .
σ n
σ n
La formule de l’exercice du début de la section 4.2.3 montre que
t
√ .
φZn (t) = φΣn
σ n
Comme Σn est la somme des v.a indépendantes Xi − µ, 1 ≤ i ≤ n et que
ces v.a ont même loi, le théorème précédent assure que
φΣn (t) = φX1 −µ (t)n .
Si on pose φ(t) = φX1 −µ (t) on a donc
φZn (t) = φ
t
√
n
σ n
.
Puisque la v.a X1 − µ est de carré intégrable, la fonction φ est de classe C 2 .
Par ailleurs,
φ(0) = E(1),
φ0 (0) = iE(X1 − µ),
φ00 (0) = −E((X1 − µ)2 ),
c’est-à-dire
φ(0) = 1,
φ0 (0) = 0,
φ00 (0) = −σ 2 .
D’après la formule de Taylor
φ(t) = 1 −
σ2 2
t + o(t2 ),
2
4.3. DIVERSES NOTIONS DE CONVERGENCE
61
et donc pour t fixé
φZn (t) =
2
n
√
t
σ2
√
+ o((t/(σ n))2 ) ,
1−
2 σ n
ou encore
φZn (t) =
t2
1 n
1−
+ o( ) .
2n
n
Pour n suffisamment grand, le nombre complexe 1 − (t2 )/(2n) + o(1/n) est
dans la boule de centre 1 et de rayon 1/2 et on peut écrire
1
t2
+ o( ) ,
φZn (t) = exp n log 1 −
2n
n
où log est la détermination principale du logarithme dans le plan complexe
(qui admet le même développement en série que le logarithme réel). On a
donc
2
t
2
φZn (t) = exp − + o(1)
= e−(t /2) + o(1),
2
et ainsi
2 /2
lim φZn (t) = e−t
n→∞
.
On reconnait dans le membre de droite la fonction caractéristique d’une v.a
gaussienne normalisée et le théorème 4.2.8 montre que Zn converge en loi
vers une loi gausienne normalisée.
4.3
Diverses notions de convergence
Rappelons les diverses notions de convergence que nous avons rencontrées.
Soit (Ω, B, P) un espace probabilisé.
Définition 4.3.1 (Convergence presque sûre) On dit qu’une suite de
v.a (Xn )n∈N converge P-presque sûrement (et on écrit P-p.s.) vers une v.a
X si l’ensemble des ω ∈ Ω pour lesquels limn→∞ Xn (ω) = X(ω), qui est un
événement, est de probabilité 1.
Définition 4.3.2 (Convergence en moyenne) On dit qu’une suite de v.a
(Xn )n∈N converge en moyenne (ou dans L1 ) vers une v.a X si
lim E(|Xn − X|) = 0.
n→∞
Définition 4.3.3 (Convergence en probabilité) On dit qu’une suite de
v.a (Xn )n∈N converge en probabilité vers une v.a X si pour tout > 0 on a
lim P(|Xn − X| > ) = 0.
n→∞
62
CHAPITRE 4. THÉORÈMES LIMITES
Définition 4.3.4 (Convergence en loi) On dit qu’une suite de v.a (Xn )n∈N
converge en loi vers une v.a X si pour toute fonction continue bornée f :
R→R
lim E(f (Xn )) = E(f (X)).
n→∞
Voici quelques liens entre ces diverses notions de convergence.
Proposition 4.3.5 a) La convergence p.s et la convergence en moyenne impliquent la convergence en probabilité ; la convergence en probabilité (et donc
la convergence p.s et la convergence en moyenne) implique la convergence
en loi.
b) S’il existe une constante A telle que |Xn | ≤ A la convergence en probabilité
de Xn est équivalente à sa convergence en moyenne.
c) Si une suite de v.a converge en loi vers une constante, alors elle converge
en probabilité vers cette constante.
Téléchargement