LES PROBABILITÉS POUR LES OPTIONS B, C ET D
PRÉPARATION À LAGRÉGATION EXTERNE DE MATHÉMATIQUES DE LUNIVERSITÉ RENNES 11
ANNÉE 2009/2010
1. ESPACE PROBABILISÉ - VARIABLE ALÉATOIRE
1.1 ESPACE PROBABILISÉ
Lors d’un lancer de dé, on peut raisonnablement convenir que les 2 seules issues possibles sont "Pile" ou "Face". L’ensemble
des résultats possibles de l’expérience, ou univers, est alors ={Pile,Face}. Si la pièce est équilibrée, on peut affecter à cet
ensemble une probabilité Ptelle que pour chaque ω, appelé éventualité,P({ω}) = 1/2.
Afin de rendre compte de situations plus complexes, on doit considérer le cas où l’univers associé à l’expérience n’est pas
dénombrable. Pour des raisons techniques, on est alors contraint d’associer à une tribu de parties F, et le couple (,F)
s’appelle espace probabilisable. Définie à partir de l’univers, la tribu Freprésente les issues possibles de l’expérience ; un
élément de Fest donc naturellement appelé événement. Si Pest une probabilité sur (,F), i.e. une mesure de masse 1 sur
(,F), le triplet (,F,P)s’appelle espace probabilisé.
De manière implicite, on se place dans toute la suite sur l’espace probabilisé (,F,P). Les propriétés ci-dessous sont des
conséquences immédiates de la définition d’une probabilité :
P(/0) = 0 ;
P(AB) = P(A) + P(B)P(AB), pour 2 événements A,B[EGALITÉ DE POINCARÉ] ;
P(A) = 1P(Ac)pour un événement A;
P(A)P(B)et P(B\A) = P(B)P(A)pour 2 événements A,Btels que AB;
PnAn)nP(An), pour une suite d’événements (An)n[INÉGALITÉ DE BOOLE].
1.2 VARIABLE ALÉATOIRE ET LOI
Si l’on veut décrire la durée de vie d’une ampoule par exemple, le concept d’espace probabilisé n’est pas adapté. On introduit
alors la notion de variable aléatoire :
Définition. On appelle variable aléatoire à valeurs dans Rdune application mesurable de (,F)dans (Rd,B(Rd)). On utilise
l’abbréviation v.a., ou v.a.r. pour désigner une v.a. à valeurs réelles (d =1).
Pour AB(Rd), on peut ainsi calculer la probabilité de l’événement X1(A), traditionnellement noté {XA}; il s’agit donc
de calculer P({XA}). Cette notation est écourtée en P(XA).
Si Xest une v.a.r. associée à la durée de vie de l’ampoule, cela signifie que pour chaque éventualité ω,X(ω), appelé réalisation
de X, est la durée de vie pour la configuration ωde l’univers. Il faut noter que l’univers a changé de rôle : il ne représente plus
l’ensemble des résultats possibles de l’expérience (qui est ici R+), mais plutôt des conditions expérimentales, qui mènent à telle
ou telle valeur pour la durée de vie de l’ampoule. Dans le cadre de cette expérience, il n’est pas possible de décrire l’application
X. On se tourne alors vers une notion plus faible, celle de loi (de probabilité).
Définition. Soit X une v.a. à valeurs dans Rd. La loi de X, notée PX, est la mesure image de Ppar X. Plus concrètement, PXest
définie par : PX(A) = PX1(A) = P(XA),AB(Rd).
Si X= (X1,··· ,Xd)test une v.a. à valeurs dans Rd, la loi de chaque coordonnée Xis’appelle loi marginale et on appelle quelque-
fois loi jointe la loi de X, afin de lui donner un statut à part. On notera à ce sujet les faits suivants :
La connaissance de la loi jointe permet de retrouver les lois marginales (cf [O, p. 12]), car, par exemple, pour chaque
AB(R),P(X1A) = P(XA1), si A1={xRd:x1A};
La connaissance des lois marginales ne permet pas -sans autre information- de retrouver la loi jointe ;
1. Benoît Cadre - ENS Cachan Bretagne
1
La loi d’une permutation des coordonnées de Xn’est en général pas la loi de X, et ceci même si les lois marginales sont
identiques.
Pour illustrer simultanément les 2 dernières assertions, on peut considérer le contre-exemple suivant. Sur l’espace probabilisé
(,P), où ={a,b,c}et Pest la probabilité uniforme sur i.e. P({ω}) = 1/3 pour tout ω, on note X1et X2les v.a.
telles que X1(a) = 0, X1(b) = 1, X1(c) = 2, X2(a) = 2, X2(b) = 0 et X2(c) = 1. Alors, X1et X2suivent la même loi uniforme sur
{1,2,3}i.e. P(X1=i) = P(X2=i) = 1/3 pour i∈ {1,2,3}, mais la loi de (X1,X2)est différente de celle de (X2,X1).
Les exemples de lois usuelles sont absolument continues par rapport à la mesure de Lebesgue sur Rdou la mesure de comptage
sur Zd, que l’on appelle dans ce contexte des mesures dominantes. Le théorème de Radon-Nikodym [O, p. 6] nous donne
alors une fonction fX(notation adoptée pour toute la suite), appelée densité de la loi de X par rapport à la mesure dominante ν,
telle que fXest ν-p.p. positive et RfXdν=1.
Exemples de lois de v.a.r. [FF1, chap. 7 et 14].
LOI UNIFORME U(D), avec DNfini. C’est la loi sur D, dont la densité par rapport à la mesure de comptage sur Dvaut
1/card(D).
LOI BINOMIALE B(n,p), avec nNet p[0,1]. C’est la loi sur {0,··· ,n}, dont la densité par rapport à la mesure de
comptage sur {0,··· ,n}vaut Ck
npk(1p)nk.Cas particulier : LOI DE BERNOULLI B(p) = B(1,p).
LOI DE POISSON P(λ), avec λ0. C’est la loi sur N, dont la densité par rapport à la mesure de comptage sur Nvaut
exp(λ)λk/k!.Pour une v.a. Xà valeurs dans Ntelle que P(X=k)6=0kN, on a l’équivalence (cf [FF1, p. 76]) :
λ0 avec XP(λ)P(X=n)/P(X=n1) = λ/nn1.
LOI GÉOMÉTRIQUE G(p), avec p[0,1]. C’est la loi sur N, dont la densité par rapport à la mesure de comptage sur N
vaut p(1p)k1.
LOI UNIFORME U([a,b]), avec a<b. C’est la loi sur [a,b], dont la densité par rapport à la mesure de Lebesgue sur [a,b]
vaut 1/(ba).
LOI NORMALE,OU GAUSSIENNE N(m,σ2), avec mRet σ>0. C’est la loi sur R, dont la densité par rapport à la
mesure de Lebesgue sur Rvaut 1/(σ2π)exp(xm)2/(2σ2)).
LOI GAMMA γ(a,λ), avec a,λ>0. C’est la loi sur R+, dont la densité par rapport à la mesure de Lebesgue sur R+vaut
(λ/Γ(a))exp(λx)(λx)a1, avec Γ(a) = R
0exp(x)xa1dx.Cas particulier : LOI EXPONENTIELLE E(λ) = γ(1,λ).
Pour une v.a. Xà valeurs dans R+qui possède une densité par rapport à la mesure de Lebesgue, on a l’équivalence (cf
[FF1, p. 184]) : λ>0 avec Xde loi E(λ)P(X>x+y) = P(X>x)P(X>y)x,y>0.
1.3 THÉORÈME DE TRANSFERT - ESPÉRANCE ET VARIANCE
Revenons au problème de la modélisation de la durée de vie d’une ampoule, représentée par une v.a.r. X. Dans le cadre d’un
modèle, on a fixé une loi de probabilité suivie par X, par exemple une loi E(λ). On note alors XE(λ). Une caractéristique
importante de l’ampoule est sa durée de vie moyenne. Il s’agit d’une moyenne, pondérée par la loi de probabilité suivie par X.
Le théorème de transfert permet de formaliser ce point de vue :
Théorème de transfert [FF1, p.130]. Soit X une v.a. à valeurs dans Rd, et g une fonction borélienne de Rddans R. Alors,
si l’une des expressions RgXdPou RRdgdPXexiste, il en est de même pour l’autre et l’on a :
Z
gX dP=ZRdg dPX.
Pour simplifier, on note g(X) = gXet, sous les conditions d’intégrabilité adéquates :
E(g(X)) = Z
g(X)dP.
En particulier, E(1A(X)) = P(XA)pour tout borélien A. Par ailleurs, on a g(X)L1(P)si, et seulement si gL1(PX). Dans
les 2 cas fondamentaux (discret et à densité), la formule de transfert s’énonce ainsi :
E(g(X)) = ZRdg(x)f(x)dx,si PX(dx) = f(x)dx;
=
kZd
g(k)P(X=k),si PX=
kZd
P(X=k)δk.
2
Ce théorème est aussi l’occasion de définir des quantités fondamentales, les moment,variance,covariance et enfin matrice de
variance :
MOMENT DORDRE pDE LA V.A.R.X. Si XLp(P), son moment d’ordre p est E(Xp). Lespérance, ou moyenne de X
est E(X);
VARIANCE DE LA V.A.R.X. Si XL2(P), la variance de Xest :
var(X) = E(XE(X))2=E(X2)E(X)2.
Elle représente l’écart des valeurs de Xpar rapport à sa moyenne. Noter que E(X)existe car L2(P)L1(P), et que si
aR: var(aX) = a2var(X). Enfin, E(X)est, pour le critère L2(P), la meilleure approximation de Xpar une constante.
COVARIANCE ENTRE LES V.A.R.XET Y. Si X,YL2(P), la covariance entre Xet Yest :
cov(X,Y) = E(XE(X))(YE(Y))=E(XY )E(X)E(Y).
Elle joue un rôle crucial dans la notion d’indépendance (cf. Section 3). On notera en particulier les relations cov(X,X) =
var(X), var(X+Y) = var(X) + var(Y)cov(X,Y)et cov(X+Z,Y) = cov(X,Y) + cov(Z,Y)si Zest une v.a.r. de carré
intégrable.
ESPÉRANCE ET MATRICE DE VARIANCE DUN VECTEUR ALÉATOIRE. Un vecteur aléatoire n’est rien d’autre qu’une v.a.
X= (X1,··· ,Xd)tà valeurs dans Rd. Sous les conditions d’intégrabilité adéquates, son espérance E(X)est le vecteur des
espérances des coordonnées, et sa matrice de variance est définie par V(X) = (cov(Xi,Xj))i,j. Noter que V(X)est une
matrice symétrique positive.
Quelques calculs d’espérances et variances.
Si XB(n,p),E(X) = np et var(X) = np(1p);
Si XP(λ),E(X) = var(X) = λ;
Si XN(m,σ2),E(X) = met var(X) = σ2;
Si Xγ(a,λ),E(X) = a/λet var(X) = a/λ2;
Si XG(p)avec p>0, E(X) = 1/pet var(X) = (1p)/p2.
Si l’espérance et la variance ne caractérisent pas la loi d’une v.a., elles contribuent néanmoins au contrôle des déviations de la
v.a. En effet, si XL1(P)est une v.a.r. , on a
t>0 : P(|X| ≥ t)E(|X|)
t[INÉGALITÉ DE MARKOV].
Si XL2(P), on peut estimer plus précisémment la probabilité de déviation de Xpar rapport à sa moyenne :
t>0 : P(|XE(X)| ≥ t)var(X)
t2[INÉGALITÉ DE BIENAYMÉ-TCHEBITCHEV].
2. CALCUL DE LOIS : FONCTION DE RÉPARTITION, FONCTION CARACTÉRISTIQUE
ET TRANSFORMÉE DE LAPLACE
2.1 LE THÉORÈME DE LA LOI IMAGE
Si Xpossède une densité fsur Rpar rapport à la mesure de Lebesgue, et si ϕ:RRest un difféomorphisme de classe C1, on
a d’après le théorème de transfert, pour tout borélien A:
P(ϕ(X)A) = ZR
1A(ϕ(x))PX(dx) = ZR
1A(ϕ(x)) f(x)dx =ZA
fϕ1(y)
ϕ10(y)
dy.
Ainsi, ϕ(X)possède une densité par rapport à la mesure de Lebesgue qui est fϕ1(y)|(ϕ1)0(y)|. On peut généraliser ce
résultat :
Théorème de la loi image. [FF1, p. 195] Soit X une v.a. à valeurs dans un ouvert U de Rd, et ϕ:UV un difféomor-
phisme de classe C1. Si X possède une densité f , alors Y =ϕ(X)possède une densité, qui vaut :
fϕ1|Jacϕ1|1V.
Le calcul de la loi image se ramène donc dans ce cas à un calcul d’intégrale multiple.
3
Exemples.
Si Xest une v.a.r. de densité fpar rapport à la mesure de Lebesgue, la v.a.r. 1/Xpossède une densité, qui est (1/x2)f(1/x).
En particulier, si Xsuit la loi de Cauchy, i.e. Xest à densité fX(x) = 1/(π(1+x2)) par rapport à la mesure de Lebesgue
sur R, alors 1/XX;
Si mRet σ>0, N(m,σ2) = m+σN(0,1)au sens suivant : Xm+σY, si XN(m,σ2)et YN(0,1).
2.2 LA FONCTION DE RÉPARTITION
Note préliminaire. Nous ne parlerons ici que de fonction de répartition pour une v.a.r., car elle est essentiellement utilisée dans
ce contexte. Néanmoins, on peut, au prix de quelques complications techniques supplémentaires, définir cette notion pour des
v.a. à valeurs dans Rd(cf [FF1, p. 142]).
Définition. On appelle fonction de répartition (f.r.) toute fonction F :R[0,1]croissante, continue à droite, et telle que
limF=0,lim+F=1.
Pour une v.a.r. X, la fonction FXdéfinie par FX(x) = P(Xx)est une f.r., appelée fonction de répartition de X (la notation FXest
adoptée pour toute la suite). Si Xpossède une densité fpar rapport à la mesure de Lebesgue, la dérivée de FXvaut f; autrement
dit, FXcaractérise la loi, représentée ici par f. Ce phénomène se généralise à tous les types de lois, comme le montre le résultat
suivant :
Théorème [FF1, p. 48-49].A toute fonction de répartition correspond une et une seule mesure de probabilité sur (R,B(R)).
En d’autres termes, 2 v.a.r. ont même loi si, et seulement si, elles ont même f.r.
On souhaite calculer la loi de X2, avec XN(0,1). Ce calcul ne peut pas se faire en utilisant le théorème de la loi image. En
revanche, l’usage de la f.r. permet de trouver la loi de X2: la dérivée de la f.r. de X2est la densité de la loi γ(1/2,1/2). Donc
X2γ(1/2,1/2).
Générer une réalisation d’une v.a.r. Supposons que l’on veuille générer une réalisation d’une v.a.r. X. Pour simplifier, on
suppose que FXest strictement croissante (cf [O, p. 29] pour le cas général). On sait générer une réalisation ud’une v.a.r.
UU[0,1](générateur aléatoire). En remarquant que F1
X(U)Xcar FF1
X(U)=FX, on en déduit que F1
X(u)est une réalisation
de X.
2.3 LA FONCTION CARACTÉRISTIQUE
Définition. Soit X une v.a. à valeurs dans Rd. On appelle fonction caractéristique (f.c.) de X, et on note ϕX, la transformé de
Fourier de PX. Autrement dit, pour tout t Rd:
ϕX(t) = ˆ
PX(t) = Eexp(i<t,X>).
Une f.c. est définie et continue partout, et bornée par 1. De plus, si Xest une v.a. à valeurs dans Rd, on a pour tout AMd,ket
bRk,
ϕAX+b(t) = exp(i<b,t>)ϕX(At),tRk.
Théorème d’unicité [FF1, p. 166] ou [O, p. 201].La fonction caractéristique d’une v.a. à valeurs dans Rdcarac-
térise sa loi. En d’autres termes, 2 v.a. à valeurs dans Rdont même loi si, et seulement si, elles ont même f.c.
La loi de Xest symétrique (i.e. X∼ −X) si, et seulement si, ϕXne prend que des valeurs réelles. Enfin, toute combinaison
convexe de f.c. est une f.c.
Il est donc essentiel de calculer les f.c. des lois usuelles. Faisons-le pour XN(0,1). Comme la loi N(0,1)est symétrique,
ϕX(t) = Ecos(tX)=1
2πZR
cos(tx)ex2/2dx.
On montre alors que ϕ0
X(t) = tϕX(t). Comme ϕX(0) = 1, on obtient ϕX(t) = et2/2. En utilisant l’égalité N(m,σ2) = m+
σN(0,1)(cf section 2.1), on en déduit la f.c. de la loi N(m,σ2).
4
Fonctions caractéristiques de lois classiques [FF1, chap. 7 et 14].
LOI BINOMIALE B(n,p), avec nNet p[0,1]. Sa f.c. vaut (1p+peit )n.
LOI DE POISSON P(λ), avec λ>0. Sa f.c. vaut exp(λ(eit 1)).
LOI GÉOMÉTRIQUE G(p), avec p[0,1]. Sa f.c. vaut peit /(1(1p)eit ).
LOI EXPONENTIELLE E(λ), avec λ>0. Sa f.c. vaut λ/(λit).
LOI NORMALE,OU GAUSSIENNE N(m,σ2), avec mRet σ>0. Sa f.c. vaut exp(itm σ2t2/2).
LOI GAMMA γ(a,λ), avec a,λ>0. Sa f.c. vaut (λ/(λit))a.
Passons maintenant en revue d’autres propriétés essentielles de la f.c. Dans ce qui suit, on considère le cas d’une v.a.r. Le cas des
v.a. à valeurs dans Rdse traite de manière similaire, au prix de quelques complications techniques supplémentaires.
Théorème. Soit X une v.a.r.
(1). [O, p. 203]. Si ϕXest Lebesgue-intégrable, alors X possède une densité par rapport à la mesure de Lebesgue, qui
vaut en chaque x : 1
2πZR
ϕX(t)exp(ixt)dt.
(2). [O, p. 208]. Si X Ln(P), alors ϕCnet pour chaque =1,··· ,n : ϕ()
X(0) = iE(X).
(3). [O, p. 208]. Si ϕXest k fois dérivable en 0 (k 2), alors X L2[k/2](P). De plus, pour chaque =1,··· ,2[k/2]:
ϕ()
X(0) = iE(X).
(4). [O, p. 214]. Si X Ln(P)pour tout n, et si limsupnkXkLn(P)/n=1/R<, alors ϕXest développable en série
entière au voisinage de tout réel, le rayon de convergence étant supérieur à R/e. D’après (2), on a donc le développement :
ϕX(t) =
0
(it)
!E(X),tiR
e,R
eh.
Difficile, dans cette section, de ne pas évoquer la notion de vecteur (aléatoire) gaussien. La notion de v.a. gaussienne est essen-
tielle en probabilités (cf section 6.2).
Définition. On dit que X est un vecteur gaussien de Rd, et on note X Nd(m,Σ), si il existe m Rdet ΣMd(R)symétrique
positive tels que la fonction caractéristique ϕXde X s’écrit :
ϕX(u) = expi<u,m>1
2utΣu,uRd.
Remarques [DD1, p. 130-132].
Cette définition inclut notamment le cas où Xsuit une loi de Dirac en m(cas Σ=0) ;
Si XNd(m,Σ), alors E(X) = met V(X)=(cov(Xi,Xj))i,j=1,···,d=Σ. En particulier, un vecteur gaussien admet un
moment d’ordre 2 et, de manière plus générale, des moments de tous ordres ;
Un vecteur gaussien admet une densité par rapport à la mesure de Lebesgue si, et seulement si sa matrice de variance est
inversible.
2.2 LA TRANSFORMÉE DE LAPLACE
Définition. Soit X une v.a. à valeurs dans Rd. On appelle transformée de Laplace de X , et on note LX, la fonction définie par
LX(t) = Eexp(<t,X>),
pour chaque t Rdtel que l’intégrale soit définie.
La transformée de Laplace jouit de propriétés très similaires à la f.c. En particulier, elle caractérise la loi et les moments d’une
v.a. peuvent être déduits de dérivations successives de la transformée de Laplace. Son inconvénient majeur est qu’elle n’est en
général pas définie sur tout Rd, contrairement à la f.c.
Pour une v.a. Xà valeurs dans Rd, on note IX={tRd:LX(t)est définie}.
Proposition [DD1, p. 73].Soit X une v.a. à valeurs dans Rd. Alors, l’ensemble IXest convexe, et la fonction LXest de
classe Cdans l’intérieur de IX. De plus, la fonction lnLXest convexe sur IX; elle est même strictement convexe si X ne suit
pas une loi de Dirac.
5
1 / 16 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !