2.1 Définition 1

publicité
Probabilité continue
METHODE STATISTIQUES POUR L’INFORMATIQUE
CHAPITRE 2
LICENCE INFORMATIQUE – UNIVERSITE BORDEAUX 1 –
SEMESTRE 5 – ANNEE SCOLAIRE 2004/2005
1 PROBABILITES CONTINUES
Dans le cas ou l’espace des évènements élémentaires n’est pas dénombrable, les probabilités ne peuvent être
caractérisées ponctuellement. En effet, il se peut que ces probabilités soient nulles et leur connaissance n’apporte
aucune information sur la probabilité des évènements contenant une infinité indénombrable d’évènements
élémentaires. Considérons à titre d’exemple, les problèmes suivants :

aiguille de Buffon : On lance une aiguille de longueur 1 sur un parquet dont les lames sont parallèles de
distance 1. Quelle est la probabilité que l’aiguille chevauche une lame du parquet ?
 Une procédure a généré uniformément trois réels aléatoires dans l’intervalle [0, 1]. Quelle est la
probabilité pour que ces grandeurs soient les mesures des côtés d’un triangle ?
On ne peut pas formuler ces questions en termes de probabilités associées à des valeurs ponctuelles des
paramètres qui déterminent l’évènement. Nous sommes alors ramené à emprunter d’autres outils que la somme
de probabilités (ou d’une série de probabilités).
Dans le cas des espaces continus, le calcul de la probabilité d’un évènement par une somme (employé dans le cas
des espaces discrets) doit être remplacée par une intégrale. On peut avoir aussi un espace qui n’est ni continu ni
discret. Une intégration au sens de Lebesgue peut fournir un encadrement universel uniforme pour tous les
espaces probabilisés.
Dans la suite, nous introduisons un fondement élémentaire du calcul des probabilités, en supprimant les preuves
de certaines constructions, qui peuvent se trouver dans les ouvrages sur le calcul des probabilités et sur la théorie
de la mesure.
2 ESPACE PROBABILISE
2.1 DEFINITION 1
Soit  un ensemble non vide quelconque. Une famille A de sous ensembles de (I.E A  P()) est appelée algèbre ou tribu, si elle contient  et est fermée pour la complémentation et la réunion dénombrable :



  A.
A  A => /A  A.
Si pour tout i N, Ai  A alors UiN Ai  A.
2.1.1 Exemple
Pour  = {a, b, c}, les -algèbres possibles sur  sont :



{, }
{, , {a},{b, c}} et deux autres familles obtenues par permutations.
P() = {, {a}, {b}, {c}, {a, b}, {a, c}, {b, c}, }
2.1.2 Propriétés
On démontre facilement que :



Toute -algèbre est fermée pour une intersection dénombrable.
L’intersection d’une classe -algèbres est encore une -algèbre.
Soit C un sous-ensemble de P(). Il y a une plus petite -algèbre qui contient C.
2.2 DEFINITION 2
La plus petite -algèbre contenant C est appelée -algèbre engendrée par C. Dans le cas ou R (ou R k en
général), on prend pour C la classe des intervalles (ou des pavés) ouverts, fermés droite et/ou gauche.
1
2.2.1 Exemple
Soit  = {a, b, c, d}. Quelle est la -algèbre engendrée par {{a}, {b,c}} ?
2.2.2 Solution
On vérifie facilement que l’ensemble D={, , {a}, {b}, {a,b}, {c,d}, {a,c,d}, {b,c,d}} est la plus petite algèbre contenant l’ensemble donné.
2.3 DEFINITION 3
Un espace probabilisé est un triplet (, A, Pr), ou  est un ensemble non vide, A une -algèbre sur  et Pr une
application de A dans [0, 1] telle que :

Pr()=1.

Pour toute suite Ai, iN, d’éléments de A 2-à-2 disjoints :
Pr( Ai )   Pr( Ai ) . (-additivité).
iN
iN
Pr est appelée une loi (ou mesure ou distribution) de probabilité sur A, et pour tout
probabilité de A.
A
 A, Pr(A) s’appelle
En ce qui concerne les tribus des boréliens, nous admettons le théorème suivant, dont la démonstration déborde
le cadre que nous nous sommes fixé ici.
2.3.1 Théorème
Soit PR une application de l’ensemble des pavés de Rk dans [0, 1] satisfaisant :


Pr(Rk) = 1 ;
Si A est un pavé de Rk qui est laréunion d’une suite Ai, i  N de pavés, 2-à-2 disjoints, de Rk alors :
Pr( A)   Pr( Ai )
iN
Alors, Pr se prolonge de façon unique en une mesure de probabilité sur B k.
2.3.2 Propriétés élémentaires
Soit (, A, Pr) un espace probabilisé. Nous avons :
 Pr() = 0 ;
 Pour tout A  A , Pr(/A) = 1 – Pr(A) ;
 Pour tout A, B  A : Pr(A U B) + Pr(A  B) = Pr(A) + Pr(B) ;
Et donc Pr(A U B)  Pr(A) + Pr(B).
2.3.3 Quelques exemples simples
2.3.3.1
Exemple 1
Une procédure a généré deux réels X et Y uniformément et indépendamment dans l’intervalle [0, 1]. Définir
l’espace probabilisé et calculer la probabilité pour que la distance (euclidienne) du point (X, Y) de l’origine ne
dépasse pas 1.
2.3.3.2
Solution
On prend pour  le carré [0, 1] * [0, 1]. La -algèbre A est engendrée par l’ensemble des pavés (ou ici
rectangles) contenus dans . La mesure de probabilité Pr est le prolongement unique de l’application qui associe
à tout rectangle contenu dans  son aire.
La distance du point (X, Y) de l’origine ne dépasse pas 1 si et seulement si il se trouve à l’intérieur du premier
quadrant délimité par le cercle d’origine (0, 0) et de rayon 1. Or cette région est d’aire /4. D’où, la probabilité
recherchée vaut /4.
2.3.3.3
Exemple 2
Une procédure génère les réels X et Y uniformément et indépendamment dans l’intervalle [a, b] , ou a<b, et en
retourne le maximum. Quelle est la probabilité pour que la valeur retournée soit  z  [a, b] ?
2
2.3.3.4
Solution
Soit Z=max{X, Y}. On a Z z si et seulement si X  z et Y  z, pour tout z  [a, b]. La probabilité de chacun de
ces deux évènements est (z-a)/(b-a). Ils sont de plus indépendants et donc :
déduit :
Pr(c  Z  d ) 
Pr( Z  z ) 
( z  a)²
. On en
(b  a)²
(d  a)² (c  a)²
.

(b  a)² (b  a)²
3 FONCTION DE REPARTITION ET DENSITE
Dans la suite, nous introduisons la fonction de répartition et la densité (lorsqu’elle existe) pour les mesures de
probabilités définies sur (R, B). Soit Pr une mesure de probabilité. Sa fonction de répartition (f.r.) F est définie
par F(t) = Pr( ] -, t] ),  t  R.
3.1 PROPRIETES
Nous admettons les deux propositions suivantes sur les f.r.
3.1.1 Proposition 1
La f.r. F est croissante, à valeur dans [0, 1], continue à droite et telle que lim tF(t) = 0.
3.1.2 Proposition 2
Soit F : R  [0, 1] croissante, continue à droite et telle que limtF(t) = 1 et limt-F(t) = 0. Alors il existe une
mesure de probabilité unique Pr sur (R, B) dont la f.r. est F.
3.2 DENSITE
Soit F la f.r. de la distribution Pr. S’il existe une fonction f telle que :
t
F (t )   f ( x)dx pour tout t  R,

alors cette fonction f s’appelle la densité de Pr. La f.r. étant croissante, si la densité f existe alors son intégrale
de - à t, doit valoir F(t). Donc on peut définir la densité f comme la dérivée de la f.r., si cette dernière en admet
une.
3.2.1 Exemple 1
Soit Pr la distribution uniforme sur [0, 1], donnée par Pr(<a, b>) = l([0, 1]  <a, b>), pour tout intervalle <a, b>
ou l’application l désigne la longueur d’un intervalle. La f.r. est donnée par :
 F(t) = 0 si t < 0
 F(t) = t si 0  t < 1
 F(t) = 1 si t  1
Elle admet la densité :



f(t) = 0 si t < 0
f(t) = 1 si 0  t < 1
f(t) = 0 si t  1
3
3.2.2 Exemple 2
Soient Z la valeur maximale de deux réalisations indépendantes de la loii uniforme dans [0, 1], fournie par
l’exemple précédent. Nous avons ; Pr(Z  t) = Pr( X  t et Y  t) = t²  t  [0, 1]. On en déduit :
 FZ(t) = 0 si t < 0
 FZ(t) = t² si t 0  t < 1
 FZ(t) = 1 si t  1
Cette f.r. admet la densité suivante :



fZ(t) = 0 si t < 0
fZ(t) = 2t si t 0  t < 1
fZ(t) = 0 si t  1
4 VARIABLES ALEATOIRES A VALEURS DANS R
Le concept de variable aléatoire introduite comme une application X de l’espace discret des évènements dans R
se généralise pour un espace probabilisé (, A, Pr) quelconque. Il faut toutefois qu’on puisse définir, pour tout
borélien B  ß, Pr(B). Or, ceci n’est possible que si {X  B} = X-1(B) appartient à A.
4.1 DEFINITION
Soit (, A, Pr) un espace probabilisé quelconque. Une application X de  dans R est une variable aléatoire si,
pour tout B  ß, X-1(B)  A.
4.2 PROPOSITION
Une application X de  dans R est une v.a. sur (, A, Pr) si et seulement si X-1( ] , x]) = {X  x}  A.
4.2.1 Exemple
Soit le réel U uniformément généré dans l’intervalle [0, 2]. On définit l’application X par X(u) = u². Etudier X et
en donner la f.r, s’il s’agit d’une v.a.
4.2.2 Solution
L’espace probabilisé initial est ( [0, 2], ß[0, 2], Pr) ou ß[0,2] est la tribu des boréliens contenus dans [0, 2] et Pr la
mesure de probabilité qui associe à chaque sous-intervalle de [0, 2] la moitié de sa longueur. La f.r de U est
données par :
 FU(t) = 0 si t<0
 FU(t) = t/2 si 0  t < 2
 FU(t) = 1 si t  2
L’application X est bien une v.a., puisque l’image inverse d’un sous intervalle (a, b) de [0, 4] par X est le sous
intervalle (
a , b ) de [0, 2], qui est un borélien.
Pour calculer la f.r de X, nous remarquons d’abord que F X(x) vaut 0 pour x<0 et 1 pour x  4. Ses valeurs non
triviales sont obtenues pour 0  x  4. Soit x  [0, 4] ? Nous avons :
FX (t )  Pr( X  x)  Pr(U  x )  FU ( x )  x / 2
D’où :



FX(x) = 0 si x < 0
FX(x) = x/2 si 0  x < 4
FX(x) = 1 si x  4
4
5 PROBABILITE CONDITIONNELLE
Le concept de conditionnement introduit pour les espaces discrets s’étend sans difficulté aux espaces
quelconques.
5.1 DEFINITIONS
Soit (, A, Pr) un espace probabilisé et soit A  A de probabilité non nulle. On définit une application Pr(./A)
de A dans [0, 1] par
Pr( B / A) 
PR( A  B)
,  B  A.
Pr( A)
Elle est appelée probabilité conditionnelle sachant A. Le nombre Pr(B/A) est appelé probabilité de B sachant A.
On démontre facilement que le triplet (, A, Pr(./A)) est un espace probabilisé. Il est appelé espace probabilisé
conditionnée par A.
On remarque aussi que la probabilité d’une intersection peut s’écrire en termes de probabilité conditionnelle :
Pr(AB) = Pr(A).Pr(B/A). On dit alors que l’on a effectué un conditionnement.
5.2 PROPOSITION
Soit A1, A2, …, An une partition de  dans A, telle que Pr(Ai)  0, i = 1, …, n. Alors, pour tout B  A, on a :
Pr( B)   Pr( Ai ) Pr( B / Ai ).
La définition d’indépendance pour les évènements d’un espace généralisé est tout à fait identique à celle d’un
espace discret.
6 INDEPENDANCE
Soit (, A, Pr) un espace probabilisé. On peut définir un vecteur aléatoire (ou une variable aléatoire à valeurs
dans Rk) comme une application de  dans Rk telle que, pour tout B  ßk, {X  B} = X-1(B) soit dans A.
Si X est une v.a à valeurs dans Rk sur l’espace (, A, Pr), on peut munir (Rk, ßk) de la mesure de probabilité qui
associe à tout B  ßk, Pr({X  B}).
La proposition suivante permet de réduire la vérification de la propriété d’appartenance à A aux images inverses
des pavés.
6.1 PROPOSITION
Une application X de  dans Rk est une v.a si et seulement si pour tout x  Rk, {Xx}  A.
Dans ce cas, on peut définir la fonction de répartition du vecteur X par : F(x) = F(x1, …, xk) = Pr(X(x1, …, xk)).
Si l’on pose X = ( X1, …, Xk), on aura Pr(X1  x1, …, Xk  xk) = F(x1, …, xk).
6.2 DEFINITIONS
6.2.1 Définition 1
Soit X = ( X1, …, Xk) une v.a définie sur (, A, Pr). Les v.a X1, …, Xk sont dites indépendantes, si pour tout B1,
…, Bk  ß : Pr( X 1  B1 ,..., X k  Bk ) 
k
 Pr( X
i
 Bi ) .
1
5
6.2.2 Définition 2
Si F(x1, …, xk) est la f.r, la fonction de répartition marginale Fi(xi), i = 1, …, k est
lim
x j  ,j  i
F ( x1 ,..., xk ) .
6.3 PROPOSITIONS
Nous admettons les deux propositions suivantes
6.3.1 Proposition 1
Les v.a X1, …, Xk sont indépendantes si et seulement si : F ( x1 ,..., x k ) 
k
 F (x )
i
i
1
6.3.2 Proposition 2
Soient X1, …, Xk des v.a indépendantes réelles. Soient 1, …, k des applications réelles. Alors les v.a 1(X1),
…, k(Xk) sont des v.a indépendantes.
Cette proposition est importante. Elle confirme en effet l’idée intuitive que les transformations des v.a
indépendantes préservent l’indépendance des variables.
Dans la suite, nous supposerons que les v.a non discrètes admettent une densité. Cette hyposthèse permet de
simplifier les calculs en termes d’intégrales de Riemann.
7 ESPERANCE DES V.A CONTINUES
La densité d’une v.a X = (X1, …, Xk)  Rk, lorsqu’elle existe, est la fonction f(t1, …, tk) telle que, pour tout x1, …,
xk  R :
xk
x1


F ( x1 ,..., xk )   ... f (t1 ,..., t k )dt1 ...dt k .
Notons tout de suite que l’on doit avoir :



... f (t1 ,..., t k )dt1 ...dt k  1 .


7.1 QUELQUES EXEMPLES
7.1.1 Exemple 1 : loi uniforme
Soit la v.a X uniformément répartie dans [a, b] avec a<b. Elle admet la densité :



f(x) = 0 si x < a
f(x) = 1/(b-a) si a  x < b
f(x) = 0 si x  b
b
Nous avons alors : EX 

b
a
 x² 
x
b²  a ² b  a
dx  



ba
2
 2(b  a )  a 2(b  a )
Il est à noter qu’on peut calculer l’espérance de toute v.a de la forme (X) par une intégration similaire. Par
b
exemple l’espérance de X² vaut : EX ² 

b
a
 x3 
x²
b 3  a 3 b²  a ²  ab
dx  


.

ba
3
 3(b  a)  a 3(b  a)
7.1.2 Exemple 2 : loi normale
La distribution que nous introduire a un rôle central en statistique. Elle est appelée aussi loi gaussienne ou loi de
Laplace-Gauss. Elle intervient en effet dans la modélisation probabiliste d’un nombre de grandeurs physiques
observée un grand nombre de fois.
6
Soit X une v.a réelle. On dit que X suit une loi normale de paramètres m et , si elle admet la densité :
 ( x  m )² 

2 ² 

1
f ( x) 
e
 2
. Il est d’usage de noter une telle distribution par N(m, ). Pour prouver qu’il s’agit
d’une densité, il faut montrer que
y
variable
xm
2



f ( x)dx  1 . Pour ce faire, on introduit d’abord le changement de
puis on applique l’équation :



e  y² dy   qui permet de confirmer l’identité
souhaitée.
7.1.3 Exemple 3 : loi de Cauchy
La distribution de Cauchy est donnée par sa densité : f ( x ) 
On démontre facilement F (t )  Pr( X  t ) 
1
1
, x  R.
 1  x²
1 Arc tan( t )

, t  R.
2

7.1.4 Exemple 2bis : Espérance de la loi normale
Pour la v.a X de paramètres m et , nous avons
y
de variable
EX 
1



xm
 2
EX 
1
 2


xe

( x  m )²
2 ²

dx . En introduisant le changement
, on obtient :
( 2y  m)e  y ² dy 
2




ye  y ² dy 
m
 


e  y ² dy .
La première intégrale vaut 0 et la seconde . D’où, EX=m.
7.1.5 Exemple 3bis : Espérance de la loi de Cauchy
Pour que la loi de Cauchy admette une espérance, il est nécessaire que sa partie positive et sa partie négative en
admette une. Mais nous avons :
7
1

L
0
x
1
ln( 1  x²0L  ln( 1  L²) .
dx 
1  x²
2
2
Cette expression tend vers  lorsque L  . On en déduit que la loi de Cauchy n’admet pas d’espérance.
7.1.6 Exemple 4 : Loi exponentielle
Cette loi a beaucoup d’importance dans l’étude de durée de vie des particules subatomiques en physique
théorique et aussi dans celle des files d’attentes. Elle possède en effet la propriété « sans mémoire » qui la
distingue des autres lois possédant une densité.
On dit la v.a réelle à valeurs positives X suit une loi exponentielle de paramètre  > 0 si elle admet la densité
f(x)=e-x, x  R+.
On démontre facilement que


0
f ( x)dx  1. On en déduit que f est bien une densité. On peut calculer
t
facilement la f.r de X. Nous avons :

F (t )   f ( x)dx   e x
0

t
0
 1  e t .
On a en particulier :
Pr( X  s  t / X  s) 
Pr( X  s  t  X  s) e  ( s t )
 s  e t  Pr( X  t ) .
Pr( X  s)
e
Cette propriété est appelée « sans mémoire ».
On peut montrer que, réciproquement, si une loi admettant une densité est sans mémoire alors elle est
exponentielle. L’espérance de la loi exponentielle se calcule facilement et on a

Ex   xex dx . En
0
effectuant le changement de variable y=x puis une intégration par partie (voir aussi intégrales eulériennes), on
obtient : EX 
1


0
ye  y dy 
1

.
7.2 PROPRIETES DE L’ESPERANCE DES V.A CONTINUES
Dans la suite, nous considérons les v.a admettant une densité. Les propriétés énumérées sont vraies dans le cas
général.
7.2.1 Théorème : linéarité de l’espérance
Soient X et Y deux v.a définies sur le même espace et soient  et  deux réels quelconques. Alors
E(X+Y)=EX+EY.
7.2.2 Théorème : produit
Soient X et Y deux v.a sur le même espace et indépendantes d’espérance finie. Alors la v.a XY admet une
espérance et E(XY)=EX.EY
7.2.3 Définition
Une v.a est dite centrée si son espérance est 0. Si la v.a X admet l’espérance EX, alors la v.a Y=X-EX est
centrée.
8 VARIANCE
8.1 DEFINITIONS
Soit X une v.a admettant une espérance. La variance de X est définie par VX=E(X-EX)², si cette espérance
existe.
8
Si une v.a est de variance 1, on dit quelle est réduite.
8.2 PROPRIETES DE LA VARIANCE
8.2.1 Propositions 1
On a :



VX=EX²-(EX)² ;
V(X) = ² VX ;
V(X+)= VX .
8.2.2 Proposition 2
Si les v.a X et Y sont indépendantes, alors : V(X+Y) = VX + VY.
8.3 QUELQUES EXEMPLES
Nous calculons dans la suite la variance pour les 3 lois dont l’espérance a été calculée. La loi de Cauchy n’admet
pas de variance puisqu’elle n’a pas d’espérance.
8.3.1 Exemple 1 : loi uniforme
Nous avons déjà calculé EX et EX². On obtient donc :
VX  EX ²  ( EX )² 
b²  a ²  ab (b  a)² (b  a)²


.
3
4
12
8.3.2 Exemple 2 : loi normale
Nous avons
EX ² 
Or



1

x²

 2
EX ²  
 


e

( x  m )²
2 ²
dx . Le changement de variable y 
2
( y 2  m)² e  y ² dy 
ye  y ² dy  0 et



e  y ² dy 
figurant dans le calcul de EX² :





2

 ²  y ²e  y ² dy  2m

2
xm
 2



permet d’écrire :
ye  y ² dy 
m²
 

e  y ² dy .

. De plus, par intégration par partie, on trouve la première intégrale

y ²e
 y²
 y²
 e

ey² 

dy   y

dy 
.




2  
2
2

On en déduit donc que EX²=²+m² et donc VX=².
8.3.3 Exemple 3 : Loi exponentielle
Nous avons : EX ²

  x²e x dx .
0
Le changement de variable y=x permet d’écrire : EX ² 
On en déduit : VX 
1 
2
y ²e  y dy 

0
²
²
2
1
1


.
² ² ²
9
9 FONCTION CARACTERISTIQUE
Dans le cas des v.a discrètes, la fonction génératrice permet une caractérisation simple de la loi et constitue un
outil puissant et efficace pour manipuler des opérations complexes telles que la somme des v.a indépendantes,
calcul des moments et étude des comportements asymptotiques e suites des v.a.
Dans le cas des v.a continues, on doit remplacer le concept de la somme par celle de l’intégrale. Il existe
plusieurs techniques pour définir une transformation de même performance applicable à des lois de probabilités
quelconques. L’outil le plus populaire est la fonction caractéristique.
9.1 DEFINITION
La fonction caractéristique (f.c.) d’une v.a X est définie par : (t) = E(eitX)
Etant donnée que | eitX | = 1, la f.c est bien définie.
9.2 PROPRIETES
9.2.1 Proposition 1
Soit (t) la fonction caractéristique de la v.a X, on a :



(0) = 1 ;
’(0) = iEX ;
’’(0)=-EX² .
9.2.2 Proposition 2
Soient X et Y des v.a indépendantes de f.c X(t) et y(t) respectivement. Alors la v.a Z = X + Y admet la f.c :
Z(t)=X(t) + Y(t).
9.2.3 Proposition 3
Si la f.c de la v.a X est (t), alors la v.a Y=aX + b où a, b  N vaut eitb(at)
9.3 QUELQUES EXEMPLES
9.3.1 Exemple 1 : loi uniforme
Reconsidérons la v.a X uniformément répartie dans [a, b]. Sa fonction caractéristique vaut :
 (t )  EeitX 
1 b itx
e itb  e ita
e
dx

b  a a
it (b  a)
9.3.2 Exemple 2 : loi normale
Nous calculons la f.c. de la v.a suivant une loi normale centrée réduite (N(0,1)). On a :
 (t )  Ee itX 
1
2


e
1
 x²
itx
2
e dx

Une méthode simple de calcul est de dériver la fonction (t). L’intégrale à calculer est convergente et, donc, une
dérivation sous le signe intégrale est possible. Nous aurons alors :

1
 x²


i
t
 (t )  
e 2 e itx  
2
2

 


e

1
 x²
itx
2
e dx .
On en déduit donc que  admet l’équation différentielle ’(t) = -t(t).
10
Tenant compte de la condition initiale (0)=1, l’équation admet l’unique solution :
 (t )  e

t²
2
.
9.3.3 Exemple 3 : loi exponentielle
Pour la f.c. de la loi exponentielle de paramètre , nous avons :


0
0
 (t )   e x e itx dx    e x (   it ) dx 

  it
.
Il faut noter que le calcul de la f.c ne se limite pas aux v.a admettant une densité. Calculons à titre d’exemple la
f.c. d’une loi binomiale.
9.3.4 Exemple 4
Soit X une v.a. binomiale de paramètre p et n. On suppose 0  p  1et on pose q=1 – p. Evidemment, on peut
calculer la f.c. directement à partir de l’expression de la loi probabilité :
Pr( X  k ) 
n!
p k q nk .
k!(n  k )!
Mais, sachant que la v.a. binomiale est la somme de n v.a. identiques et indépendantes de Bernouilli de
paramètres p, une méthode plus subtile consiste à calculer la f.c. de la loi de Bernouilli ; la f.c. de la v.a. sera
alors, d’après la proposition sur la f.c. de la somme de v.a. indépendante, la n-ième puissance de la f.c. de
Bernouilli.
Donc :
 (t )  (q  pe it ) n .
9.3.5 Proposition
Dans le cas des v.a. à valeurs dans N, si la f.g est disponible, on peut la transformer en f.c en utilisant la
proposition suivante.
Soit X une v.a. à valeurs dans N. Soit G(z) sa fonction génératrice. Alors sa fonction caractéristique
vaut :  (t )
 G(e it ) .
9.4 CONVERGENCE STOCHASTIQUE
9.4.1 Proposition (inégalité de Bienaymé-Tchebychev)
Soit X une v.a. d’espérance µ et de variance V alors, pour tout e > 0 : Pr( X  µ  e) 
V
e²
Dans la suite, nous étudions très sommairement certaines notions d’approximation pour une suite de v.a. Il existe
plusieurs définitions de convergences pour une suite de v.a. Elles ne sont pas équivalentes et certaines sont plus
fortes que d’autres. Les convergences que nous allons considérer sont parmi les plus simples.
Nous en avons d’ailleurs déjà cité deux exemples portants sur la loi binomiale. Soit X n une suite de v.a.
binomiales de paramètres  et n. Alors :

Si p reste fixé et que n tend vers  alors
Pr(
Xn
 p  e) 
 0 quelque soit e > 0.
n

k
Si n tend vers  et p tend vers 0 tels que np > 0, alors Pr(Xn=k) tend vers e k ! (I.e. une
distribution de Poisson).
Il est évident que ces deux modes de convergence, l’un pour X n/n et l’autre pour Xn, sont distincts. Le premier
confirme que Xn/n s’approche avec une quasi-certitude vers p alors que le second montre que X n suit
asymptotiquement une loi de Poisson.

11
9.4.2 Définitions
Soit Xn, n  N une suite de v.a. et soit Xn une v.a. quelconque.

On dit que la suite Xn converge en probabilité vers v.a. X si pour tout e > 0 :

On dit que la suite Xn converge en loi vers la v.a. X si pour tout a point de continuité de la f.r. de X :
lim Pr  X n  a   Pr( X  a) . Autrement dit, la f.r. Fn(x) de Xn converge vers la f.r. F(x) de X en
lim Pr X n  X  e  0 .
n
n 
tout point de continuité de F(x).
L’inégalité de Bienaymé-Tchebychev (pour les v.a. réelles) permet de généraliser la loi des grands nombres pour
les suites de v.a. indépendantes et identiquement distribuées (qui ne sont pas nécessairement discrètes).
9.4.3 Théorème (loi faible des grands nombres)
Soit Xn une suite de v.a ; indépendantes et identiquement distribuées, admettant chacune l’espérance µ et la
variance V. Alors la suite des v.a. constituées de leurs moyennes arithmétiques, i.e. la suite M n 
1 n
 Xi
n 1
converge en probabilité vers µ.
9.5 THEOREME CENTRAL LIMITE
La loi des grands nombres est très importante. Elle établit en effet un pont entre des prévisions probabilistes et
des confirmations qui frisent la quasi-certitude. Mais pour en arriver là, un grand nombre de répétitions
d’épreuve est nécessaire. Malheureusement, la loi ne nous dit rien sur la vitesse de convergence vers la certitude.
Le théorème central limite a pour objectif de remédier à ce problème en multipliant l’écart entre la valeur
aléatoire (la moyenne) et la valeur certaine approchée (l’espérance) par la racine carrée de n.
9.5.1 Théorème (central limite)
Soit Xn, n=1, 2, 3, …, une suite de v.a. indépendantes et identiquement distribuées, admettant chacune
l’espérance µ et la variance V= ² > 0. Soit Mn la valeur moyenne de la suite : M n 
1 n
 X i . Alors la suite
n 1
n (M n  µ) converge en loi, lorsque n  , vers une v.a. normale centrée et de variance ². Nous avons
donc, pour tout intervalle [a, b] de R :
lim Pr( n ( M n  µ)  [a, b]) 
n 
1
 2
b
e
a

x²
2 ²
dx .
9.5.2 Corollaire (théorème de Moivre-Laplace)
Soit Xn, n=1, 2, 3, ..., une suite de v.a. de Bernouilli de paramètres p et n. On suppose 0 < p < 1. Alors la suite
X n  np
converge en loi, lorsque n   vers une v.a. de loi N(0,
n
p(1  p) ).
9.5.3 Exemple
9.5.3.1
Enoncé
Deux candidats se présentent à une élection. Un institut effectue des sondages auprès des électeurs. Lorsque
l’institut veut diviser l’erreur commise par 10, de combien doit-il augmenter l’effectif des sondés ?
9.5.3.2
Solution
On peut modéliser le nombre d’électeurs sondés favorables par une v.a. de Bernouilli de paramètres p et n. Le
théorème de Moivre-Laplace nous dit que l’erreur commise en effectuant un sondage diminue avec la racine
carrée du nombre des sondés. Diviser l’erreur par 10 oblige à augmenter le nombre de sondés par 100.
12
10 CORRELATION
Nous avons déjà défini l’indépendance des v.a. Il reste alors à définir une mesure de dépendance entre les v.a.
Etant donné deux v.a. X et Y, sont-elles positivement ou négativement liées ? Pour formuler mathématiquement
ces questions, nous introduisons dans la suite les notions de covariance et de coefficient de corrélation. Elles
auront pour but de fournir une mesure quantitative de liaison éventuelle entre les v.a. Ces définitions et les
propriétés sous jacentes sont vraies aussi bien dans le cas des espaces discrets que continus.
Pour étudier les conséquences de ces définitions, nous aurons besoin de l’inégalité suivante :
10.1 PROPOSITION (INEGALITE DE CAUCHY SCHWARZ) :
Soient X et Y deux v.a. admettant chacune une variance. Nous avons :
E ( XY )  EX ²  EY ² .
10.2 DEFINITION
Soient X et Y deux v.a. admettant chacune une variance. La covariance entre x et Y est définie par
cov( X , Y )  E[( X  EX )(Y  EY )] .
Si les variances de X et de Y sont non nulles, on définit le coefficient de corrélation entre X et Y
par
corr ( X , Y ) 
cov( X , Y )
.
VX .VY
L’inégalité de Cauchy Schwarz implique que ce coefficient est situé dans l’intervalle [-1 ; 1].
La covariance et le coefficient de corrélation mesurent en quelque sorte le lien entre les v.a. Si corr(X,Y) est
positif les deux v.a. sont positivement corrélées et, donc, l’augmentation de l’une favorise l’augmentation en
moyenne de l’autre. S’il est négatif, la situation s’inverse.
On démontre aussi facilement la proposition suivante.
10.3 PROPOSITION
Si X et Y sont eux v.a. indépendantes admettant chacune une espérance, alors cov(X,Y)=0.
Si de plus, elles admettent chacune une variance, corr(X,Y)=0.
La réciproque est fausse.
10.3.1 Exemple
Soit X une v.a. prenant une des valeurs –1, 0, 1 avec la même probabilité 1/3. Posons Y=X². Il est évident que X
et Y sont fortement liées et en particulier :
Pr(X=1, Y=0) = 0  Pr(X=1)Pr(Y=0).
Néanmoins, on a cov(X,Y) = corr(X,Y) = 0.
11 OPERATIONS SIMPLES SUR LES VARIABLES
ALEATOIRES
Soit X une v.a. réelle et soit h une application de R dans R mesurable (I.e. pour out borélien B, h -1(B)  ϐ). Alors
Y=h(X) est une nouvelle v.a. On peut calculer sa loi de probabilité. Dans certains cas, il y a des formules simples
qui donnent la f.r. (ou la densité de Y, si celle-ci existe) à partir de celle de X.
13
11.1 CHANGEMENT DE VARIABLE
Soit F la f.r. de la v.a. X. On suppose que l’intervalle I est l’intervalle de variations de F (I.e. F est strictement
croissante sur I et constante en dehors de I). Soit h une application réelle qui est strictement croissante et
continue sur I. Nous avons alors les propositions suivantes.
11.1.1 Proposition
Soit Y=h(X), ou X, h satisfont les conditions ci-dessus. Alors la f.r. G de Y vaut : G(y) = F(h-1(y))
11.1.2 Corollaire
Si U est une v.a. uniforme tirée dans [0, 1] et la f.r F satisfait la condition ci-dessus, alors la v.a. X=F-1(U)
admet la f.r. F.
11.1.3 Une application en simulation
Pour simuler des évènements qui arrivent de façon aléatoire, nous avons besoin de générer des v.a. suivant une
distribution donnée. Il arrive souvent qu’une source de génération uniforme soit disponible. Ce corollaire nous
permet de construire une v.a. X à partir d’une v.a. uniformément tirée ans [0, 1].
Sous certaines hypothèses supplémentaires, on pourra calculer directement la densité de Y=h(X).
11.1.4 Proposition
Reconsidérons les hypothèses de la proposition précédente et supposons que, de plus, X admette une densité f(x)
sur I et que h soit continûment dérivable sur I. Alors Y=h(X) admet la densité :g(y) = [h-1]’(y) . f[ h-1(y) ].
11.1.4.1 Exemple 1
Soit X une v.a. uniforme sur [0, 1]. Trouver la densité de Y=Arcsin(X).
Solution : On vérifie facilement que l’on est dans les conditions de l’application de la proposition précédente
pour I=[0, 1]. On démontre alors que Y admet la densité : g(y)=cos(y), y  [0, /2].
11.1.4.2 Exemple 2
Disposant d’une source de génération uniforme dans l’intervalle [0, 1], comment peut-on générer des v.a.
exponentielles de paramètres >0 ?
Solution : Soit U une v.a. uniforme sur [0, 1]. Le corollaire précédent confirme que X=ln(1-u)/(-) est une v.a. de
f.r. : F(x) = Pr(X  x) = 1-e-x ,  x  0.
11.2 SOMME DES VARIABLES ALEATOIRES INDEPENDANTES
Nous avons vu que la f.c. d’une somme de v.a. indépendantes est le produit des v.a. Cette propriété permet de
transformer le calcul sur la somme en un calcul sur les f.c. A titre d’exemple, nous allons démontrer que la
somme de deux v.a. normales indépendantes est encore une v.a. normale.
11.2.1 Théorème
Soit X une v.a. normale de type N(m1, 1) et Y une autre v.a. normale de type N(m2, 2). Alors la v.a. Z=X+Y est
une v.a. normale de type N(m1+m2,
 1 ²   2 ² ).
Il arrive toutefois que le calcul des f.c. ou l’inversion de la transformation soit difficile et qu’un calcul direct sur
les f.r. (ou sur les densités) soit plus simple. La proposition suivante peut dans certains cas simplifier le calcul de
la distribution de la somme de deux v.a. indépendantes.
11.2.2 Proposition
Soient X et Y deux v.a. indépendantes admettant les densites f X et fY respectivement. Alors la v.a. Z=X+Y admet

la densité :
f Z ( z )   f X ( x) f Y ( z  x)dx .

14
11.2.2.1 Exemple
Trouver la densité de la somme de deux v.a. indépendantes et uniformément tirées dans [0, 1].
11.2.2.2 Solution
Si les v.a. X et Y sont uniformes dans l’intervalle unitaire, elles ont toutes les deux la densité 1 [0, 1]. Etant par
ailleurs indépendantes, la proposition ci dessus s’applique à leur somme Z qui sera donc de densité :

g ( z )   1[0,1] ( x).1[0,1] ( z  x)dx .

L’expression à intégrer vaut 1 si l’on a simultanément 0  x  1 et 0  z – x  1 et 0 sinon. Nous sommes
ramenés à considérer deux cas pour z :


Si 0  z  1, ces deux conditions sont satisfaites  0  x  z, et
z
g ( z )   dx  z .
Si 1  z  2, ces deux conditions sont satisfaites  z – 1  x  1 et
0
1
 dx  2  z .
z 1
12 QUELQUES LOIS UTILES EN STATISTIQUE
Nous présentons dans la suite deux lois qui interviennent couramment en tests statistiques.
12.1 LOI DU KHI-DEUX
12.1.1 Définition
k
La somme des carrés
X
i 1
i
² de k v.a. normales indépendantes, centrées réduites est une v.a. qui suit une loi du
2 à k degrés de liberté. Cette v.a. est désignée par k². Dans le cas où k=1, la v.a. suit une loi du 2 à 1 degré
de liberté et elle est le carré d’une v.a. de type N(0, 1). Elle admet la densité :
f ( x) 
1
2x

x
2
e ,x  0.
12.1.2 Proposition
Nous admettons la proposition suivante sur la loi du 2.
Soit une v.a. k². Alors :

Sa densité est : f ( x) 
1
k
2
k
2 ( )
2

x
2
e x
k
1
2
,x  0.
15
1
 (t )  E (e it ) 
2
k

Sa f.c. est donnée par :

Son espérance vaut k et sa variance 2k.
(1  2it )
k
2
.
12.2 LOI DE STUDENT
12.2.1 Définition
On appelle loi de Student à k degré de liberté la loi du quotient
X
, ou X et Zk sont deux v.a.
Zk / k
indépendantes, la première suivant une loi normale centrée réduite et la seconde une loi du 2 à k degrés de
liberté. Cette loi est notée tk.
12.2.2 Proposition
Nous admettons la proposition suivante à propos de la loi de Student. Pour une loi de Student, nous avons :
k 1
)
k 1
x² 
2
 La densité de la loi tk vaut : f ( x) 
.(1  ) 2 .
k
k
( ) k
2
(

Son espérance est 0 et sa variance vaut : k/(k-2).
16
Téléchargement