Cours de probas

publicité
Table des matières
Cours
1. Loi de probabilité; espérance; moments……………………………………..
5
2. Lois discrètes ; lois à densité…………………………………………………
10
3. Indépendance d'événements, de tribus, de variables aléatoires………………
13
4. Caractérisation des lois………………………………………………………
18
5. Suites de variables aléatoires; différentes sortes de convergence……………
28
6. Echantillons d'une loi. Définitions et notations pour la suite………………..
34
7. Estimateurs pour une loi normale……………………………………………
35
8. Loi(s) des grands nombres…………………………………………………… 36
9. Le théorème de la limite centrale……………………………………………
39
10. Jugement sur échantillon; intervalles de confiance et tests d'hypothèses……
43
sur une moyenne.
Annexes
1. Corrélation linéaire…………………………………………………………..
49
2. Produit dénombrable d'espaces probabilisés…………………………………
51
3. Théorème de Borel-Cantelli: loi du tout ou rien……………………………..
53
4. Marches aléatoires……………………………………………………………
55
5. Introduction aux chaînes de Markov finies…………………………………..
59
6. Processus de Poisson…………………………………………………………
65
7. Formule d'inversion pour X réelles et ΦX intégrable………………………… 69
8. Deux lois fortes des grands nombres…………………………………………
71
9. Une amélioration de l'inégalité de Bienaymé-Chebychev…………………… 75
10. Le test du ℵ2 d'ajustement…………………………………………………… 77
11. Méthodes de Monte-Carlo pour le calcul d'intégrales………………………..
81
12. Examen de passage 1-2, 1999 (entropie d'un système aléatoire discret)…….. 91
13. Examen de passage 1-2, 2000 (sommes aléatoires de variables aléatoires)….
95
14. Examen de passage 1-2, 2001 (loi du min, loi du max ; étude asymptotique).. 99
15. Lois classiques : récapitulatif………………………………………………… 103
Bibliographie………………………………………………………… 105
COURS
1) LOI DE PROBABILITE; ESPERANCE; MOMENTS
On appelle espace probabilisé un espace mesuré (Ω,T,p) vérifiant la condition p(Ω) = 1. Ω est l'ensemble des
possibles, ou événements élémentaires, et les éléments de T sont appelés événements.
Exemple: la probabilité uniforme:
Si Ω est fini non (vide) et si T est l'ensemble des parties de Ω, la probabilité uniforme p sur Ω est définie
sur T par:
Card A
p(A) = Card Ω .
Le calcul de la probabilité d'un événement se ramène alors à un problème de dénombrement. Par
exemple:
•
La probabilité pour qu'en jetant 6 dés non truqués, on obtienne 6 résultats deux à deux distincts est
6!
p = 6 # 0,015.
6
•
La probabilité pour que parmi n personnes, au moins deux aient la même date de naissance (en
n
A365
supposant n ≤ 365 et qu'aucune de ces personnes ne soit née un 29 février) est pn =1 - 365n , soit
n-1
k
donc: pn = 1- ∏ (1-365). On obtient par exemple p4 # 0,016 et p64 # 0,997 ; pn dépasse 50% pour n=25.
k=1
•
Si, sur M tickets de loterie, n sont gagnants (avec n ≤M/2), la probabilité pour qu'un acheteur de n
billets en ait au moins un gagnant est p = 1 -
n
CM-n
n
CM
.
Si D est une partie mesurable de mesure finie non nulle de Rd , λ(d) et T la mesure et la tribu de Lebesgue
de D, la probabilité uniforme p sur D est définie sur T par:
p(A) =
λ(d)(A)
.
λ(d)(D)
Par exemple, la probabilité pour qu'un nombre choisi au hasard dans l'intervalle [0,1] soit rationnel est
nulle.
Si B ∈T est un événement de probabilité ≠ 0, on définit sur (Ω,T) la probabilité conditionnelle sachant B , notée
pB , par :
p(A∩B)
pB(A) = p(A/B) =
.
p(B)
•
p(A/B) = p(A) ⇔ p(A∩B) = p(A).p(B)
•
Si A, B ∈ T sont tels que p(A).p(B) ≠ 0, alors : p(A/B).p(B) = p(B/A).p(A) (formule d'inversion).
•
Si (Bk) est un système complet d’événements (i.e. une partition finie ou dénombrable de parties mesurables
mesurables de Ω) de probabilités non nulles, alors :
(ceci traduit l'indépendance de A et B; cf. paragr. 3).
∀A∈T : p(A) = ∑ p(A∩Bk) = ∑ p(A/Bk).p(Bk) (formule des probabilités totales)
k
k
Si p(A) ≠ 0: ∀i : p(Bi/A) =
p(A/Bi).p(Bi)
(formule de Bayes).
∑ p(A/Bk).p(Bk)
k
Exemples:
•
Dans une population, la probabilité pour qu'un individu ait une maladie M donnée est p.
On dispose d'un test T de dépistage, et l'on évalue à 0,95 la probabilité pour qu'une personne ayant respt: n'ayant pas - la maladie ait un test positif - respt. négatif).
Evaluons l'efficacité du test sur la population en donnant la probabilité pour qu'une personne ayant un
test positif ait effectivement la maladie.
Notons T l'événement: "le test est positif" et M : "la personne a la maladie"; il vient:
p(T/M).p(M)
p(M/T) =
= g(p) ,
p(T/M)p(M) + p(T/Mc)p(Mc)
p(M) = p , p(Mc) = 1-p , p(T/M) = 0,95 ,
p(Tc/Mc) = 0,95 et p(T/Mc) = 0,05.
19p
. g croît de 0 à 0,83 avec p.
On trouve g(p) =
18p+5
Pour une population peu atteinte, le test sera très peu concluant
(g(0,005) # 0,087).
avec
Le test est efficace à 50% pour p = 1/4.
•
Un fumeur décide de ne plus fumer; le jour (jour 1) de cette (sage) décision, il ne fume pas.
On considère que, pour j ≥1:
→ la probabilité qu’il fume le jour j+1 sachant qu’il n’a pas fumé le jour j est α ∈ ]0,1[.
→ la probabilité qu’il ne fume pas le jour j+1 sachant qu’il a fumé le jour j est β ∈ ]0,1[.
Cherchons la probabilité un pour qu'il ne fume pas le jour n (événement An): la formule des
probabilités totales fournit, pour n ≥1: un+1 = (1-α-β)un + β , avec u1 = 1. On obtient par la méthode
classique:
β
α
β
+
.(1-α-β) n-1. Notons que lim un =
:
un =
α+β α+β
α+β
n→ +∞
→ Si 1-α > β (s'il lui est plus facile de ne pas fumer un jour s'il n'a pas fumé la veille), un tendra vers
sa limite de façon monotone (en décroissant).
→ Si 1-α < β (s'il lui est plus facile de ne pas fumer un jour s'il a fumé la veille), un tendra vers sa
limite en oscillant.
→ Si α + β = 1, un est constante et égale à cette valeur commune (logique).
Supposons de plus que la décision de fumer ou non le jour j sachant son attitude adoptée les jours
précédents ne dépend que de l'attitude adoptée le jour j-1 (suite sans mémoire; cf annexe: chaînes de
Markov), et calculons la probabilité pour que le fumeur ne fume pas du jour n au jour q inclus (q>n):
q
q-1
q-1
q-1
q-1
hyp
p( ∩ Ak ) = p( Aq / ∩ Ak ).p( ∩ Ak) == p(Aq/Aq-1 ). p( ∩ Ak ) = p1. p( ∩ Ak );
k=n
k=n
k=n
k=n
k=n
q
par récurrence, on obtient:
p( ∩ Ak ) = (1-α)q-n.p(An).
k=n
Il en découle la probabilité pour qu'il ne fume plus à partir du jour n (avec Beppo-Levi):
q
p( ∩ Ak ) = lim p( ∩ Ak ) = 0,
q→ +∞ k=n
k≥n
et celle pour qu'il s'arrête définitivement de fumer un jour:
(!).
p( ∪ ∩ Ak ) = 0
n k≥n
Une variable aléatoire sur Ω (en abrégé v.a.) est une application mesurable de Ω dans K = R, C, Rd ou une de
leurs parties (v.a. réelle; complexe; vecteur aléatoire de dimension d). Une v.a. à valeurs dans un ensemble fini
ou dénombrable est dite discrète.
On décrit une variable aléatoire X : Ω → K par les p({ω∈Ω, X(ω) ∈ A}) = p(X-1(A)) pour A borelien de K ; on
note:
p(X-1(A)) = p(X∈A) = pX(A)
où pX est la mesure image de p par X (c'est une probabilité sur K), aussi appelée loi de X .
Pour une v.a. discrète à valeurs dans un ensemble I (fini ou dénombrable), on note p(X-1({k})) = p(X=k) = pk
pour k ∈I , et ainsi: pX = ∑ pk.δk , où δk désigne la mesure de Dirac en k.
k∈I
Si une v.a. X a pour loi la probabilité uniforme sur un ensemble ∆, on dit que X suit la loi uniforme sur ∆.
On introduit une v.a. X sur un espace probabilisé Ω pour mesurer le résultat d'une expérience aléatoire
(expérience renouvelable, en principe sinon en pratique, et qui, renouvelée dans des conditions "identiques", ne
donne pas à chaque essai le même résultat).
Pour étudier une expérience aléatoire, on modélise la situation en attribuant par exemple à certaines v.a. des lois
connues, ce qui permet ensuite de faire des prévisions théoriques sur les résultats de l'expérience.
Toute modélisation exige un choix; un modèle valide est un modèle qui, confronté avec les données recueillies
lors de l'expérience, fournit des résultats satisfaisants (c'est l'objet de la statistique).
Exemples:
• Le lancer de trois dés non truqués peut se modéliser en considérant que les dés sont discernables et
que le résultat (a1,a2,a3) obtenu suit la loi uniforme sur {1,…,6}3 .
Déterminons les lois des v.a. X = min(a1,a2,a3) et Y = max(a1,a2,a3) en donnant la loi de (X,Y):
1
Pour 1 ≤ i ≤ 6 : p(X=i,Y=i) = p( (a1,a2,a3) = (i,i,i) ) = 3 .
6
Pour 1 ≤ i < j ≤ 6 (sans trop formaliser):
3
3
(X=i, Y=j) = ∪ ( ak = i , autres = j ) ∪ ∪ ( ak = j , autres = i )
k=1
k=1
3
∪ ∪ ( i < ak < j , {autres} = {i,j} ) , et la réunion est disjointe; il suit:
k=1
1
j-i-1 j-i
1
.
p( X=i,Y=j) = 3. 3 + 3. 3 + 3.2. 3 =
6
6
36
6
Ce sont bien sûr les seuls événements de probabilités non nulles.
Nous pouvons donner maintenant les lois de X et Y (à valeurs dans {1,…,6}):
6
6 j-i
1
3i2 - 39i +127
=
.
p(X=i) = ∑ p(X=i,Y=j) = 3 + ∑
6
216
j=i
j=i+136
j
j-1 j-i
1
3j2- 3j +1
p(Y=j) = ∑ p(X=i,Y=j) = 3 + ∑
=
.
6
216
i=1
i=1 36
Remarques:
• La loi d’un couple (X,Y) de v.a. fournit fournit celles de X et Y, et d'une façon générale celle de
ϕ(X,Y) pour toute fonction mesurable ϕ, avec:
p( ϕ(X,Y) ∈ A ) = p(X,Y)( ϕ-1(A) ) =
⌠
⌡dp(X,Y) =
•
⌠
⌡dp(X,Y)(x,y) .
ϕ(x,y)∈A
ϕ (A)
Si X1,…,Xn sont n v.a. indépendantes et équidistribuées, on peut obtenir facilement les lois des
v.a. S = sup(X1,…,Xn) et I = inf(X1,…,Xn) à l’aide de la fonction de répartition commune aux Xi
(voir après).
-1
•
•
Fouad et Taoufiq projettent de se rencontrer entre 0h et 1h, chacun d'eux ayant promis d'attendre
l'autre 10 mn (ni plus, ni moins).
Si l'on considère que (X,Y) = (heure d'arrivée de Fouad, heure d'arrivée de Taoufiq) suit la loi
uniforme p sur [0,1]2, la probabilité qu'ils se rencontrent effectivement est:
λ(2)(A)
p1 = p( |X-Y| ≤ 1/6) = p(X,Y)(A) = (2)
= λ(2)(A) ,
λ ([0,1]2)
où A = {(x,y)∈[0,1]2, |x-y| ≤ 1/6}, soit donc (dessin) :
11
# 0,3.
p1 = 1 - (5/6)2 =
36
La loi de Z = |X-Y| est décrite par: p(Z ≤ a) = 1- (1-a)2 = 2a-a2 sur [0,1] (loi à densité (cf paragr. 2).
Si l'heure d'arrivée x de Fouad est fixée et si Y suit la loi uniforme p sur [0,1], la proba. p devient:
on obtient:
p2 = p( |x-Y| ≤ 1/6) = λ(1)(Ix) , où Ix = [0,1] ∩ [x-1/6,x+1/6] ;
1
1
1
→ si x ∈ [ 0 , ] : Ix = [0 , x+ ];
p2 = x +
;
6
6
6
1 5
1
1
1
→ si x ∈ [ , ] : Ix = [x - , x + ]; p2 =
;
6 6
6
6
3
5
1
7
→ si x ∈ [ , 1 ] : Ix = [x - , 1 ];
p2 = - x .
6
6
6
Dans ces mêmes dernières conditions, la probabilité p3 d’une rencontre sachant que Fouad ne trouve
personne en arrivant dévient, en notant Jx l'événement: [Taoufiq n'est pas là à l'heure x] (ie.: déjà
parti, ou pas encore arrivé):
p(Ix∩Jx )
p3 = p( |x-Y| ≤ 1/6 / Jx ) =
; on obtient cette fois:
p(Jx)
1
1
1
Jx = ]x,1];
Ix∩Jx = ]x,x+ ];
p3 =
;
→ si x ∈ [ 0 , ] :
6
6(1-x)
6
1 5
1
1
1
→ si x ∈ [ , ] :
Jx = [0,x- [∪]x,1]; Ix∩Jx = ]x,x+ ];
p3 = ;
6 6
6
6
5
5
1
6(1-x)
→ si x ∈ [ , 1 ] :
Jx = [0,x- [∪]x,1]; Ix∩Jx = ]x,1];
p3 =
.
6
6
5
On note T la v.a. à valeurs dans N donnant en nombre d'heures la durée de vie d'une ampoule
électrique (arrondie à l'heure inférieure ; on considére que p(T = ∞) = 0).
On suppose que l'ampoule n'a pas de durée de vie limite fixée, i.e. : ∀ n ∈ N , p(T ≥ n) > 0.
Si l'ampoule a tenu bon jusqu'à l'heure n, on note θn la probabilité de la voir griller avant l'heure n+1 :
θn = p(T=n / T ≥n).
La suite (θn) est le taux de panne de l'ampoule. Donnons la loi de T à l'aide des θn :
Pour n entier, il vient: p(T ≥ n) = p(T=n) + p(T ≥ n+1) = p(T=n/T≥n).p(T≥n) + p(T ≥ n+1),
n-1
(1)
d'où pour n ≥1 (réc):
p( T ≥n ) = ∏ (1-θk) (n ≥1)
k=0
n-1
puis, pour n ≥1:
p(T=n) = p(T≥n) - p(T≥n+1) = θn. ∏ (1-θk) , avec p(T=0) = θo.
k=0
Le résultat (1) et l'hypothèse indiquent que la suite (θn) est à valeurs dans [0,1[ ; En outre, on a, par
+∞
+∞
convergence décroissante:
p( ∩ (T≥n) ) = 0 = ∏ (1-θn) ;
n=0
n=0
+∞
Le produit infini est donc divergent, et par suite: ∑ θn = +∞ (série et produit ont même nature).
n=0
+∞
Soit réciproquement une suite (θn) à valeurs dans [0,1[ telle que ∑ θn = +∞. On vérifie alors qu'en
n=0
n-1
posant po = θo et pn = θn. ∏ (1-θk) pour n ≥1, on définit par p(T=n) = pn une v.a. T à valeurs dans N
k=0
+∞
n-1
n
de taux de panne (θn) (vérifier que ∏ (1-θn) = 0 et écrire pn = ∏ (1-θk) - ∏ (1-θk) pour constater
n=0
k=0
k=0
+∞
que ∑ pn =1 ; prouver ensuite : [∀n ≥0 : p(T≥n) > 0] puis [∀n ≥ 0 : p(T=n/T≥n) = θn ] .
n=0
Dans le cas où (θn) est constante ( = θ ∈ [0,1[ ) , la loi de T est donnée par:
p(T=0) = θ ; ∀n ≥1 , p(T=n) = θ(1-θ)n .
Si X : Ω → K est une v.a. et ϕ une application mesurable de K dans
aussi ϕ(X)) soit intégrable sur Ω, on note
C telle que la v.a. complexe ϕoX (notée
E(ϕoX) = ⌠
⌡ϕoX.dp = ⌠
⌡ϕ.dpX .
Ω
K
En particulier, si X est une v.a. complexe intégrable sur Ω, la valeur moyenne de X sur Ω est appelée espérance
de X, et notée E(X), ou X (s'il n'y a pas d'ambiguité):
∀X ∈L1(Ω) : E(X) = X = ⌠
⌡X.dp = ⌠
⌡t.dpX(t).
Ω
C
Si A est une partie mesurable de K : p(X∈A) = E(1AoX).
Deux v.a. X et Y définies sur Ω et presque partout égales (dans le langage des probabilités, on dit plutôt:
"presque sûrement" , en abrégé p.s.), suivent donc la même loi (car pour A mesurable dans K, 1AoX et
1AoY sont pp égales). La réciproque est évidemment fausse.
(par exemple: on lance une pièce de monnaie non truquée et on note X la v.a. qui vaut 1 si le résultat est
1
pile, et 0 sinon: pX = p1-X = (δ0+δ1) et pourtant X et 1-X sont partout distinctes).
2
La connaissance de la seule moyenne d'une v.a. détermine assez peu celle-ci. Pour mesurer l'éparpillement des
masses autour du centre de gravité, on introduit les moments de la v.a. lorsqu'ils existent. On notera, du fait que
p est une mesure finie, les inclusions:
Lq(Ω) ⊂ Lp(Ω) ⊂ … ⊂ L1(Ω) , pour q ≥ p ≥ 1. ( car |X|p ≤ 1 + |X|q pour q ≥ p )
Si X∈Lp(Ω;R) pour un p ∈ [1,+∞[ , on dit que X est d'ordre p; on définit pour k ∈ [1,p] le moment d'ordre k, le
moment absolu d'ordre k, le moment centré d'ordre k et le moment absolu centré d'ordre k de X (ils dépendent
uniquement de la loi de X):
k
k
k
k
k
E(Xk) = ⌠
⌡X .dp = ⌠
⌡t .dpX(t) ; E(|X| ) = ⌠
⌡|X| .dp = ⌠
⌡| t | .dpX(t) ;
Ω
Ω
R
k
R
k
mk = E((X- X ) ) ; Mk = E(|X- X | ).
Le moment (absolu) centré d’ordre 2 : m2 = M2 = E( (X- X )2 ) est noté V(X) et appelé variance de X ; sa racine
carrée positive σ(X) est l’écart-type de X .
La linéarité de E fournit : V(X) = E(X2) – E(X)2 (on a donc l'inégalité E(X)2 ≤ E(X2));
V(λX) = λ2V(X) (λ∈R) ; V(X-a) = V(X) (a∈R).
La variance V(X) est nulle si et seulement si X est presque sûrement égale à sa moyenne. Hormis ce cas
X-E(X)
particulier, la variable σ(X) est centrée réduite , i.e. de moyenne nulle et de variance égale à 1.
L'éparpillement des valeurs d'une v.a. réelle X d'ordre p autour de sa valeur moyenne est mesuré par l'inégalité:
Prop 1. ∀ r > 0 : p( |X- X | ≥ r ) ≤
Pour p = 2 : p( |X- X | ≥ r ) ≤
Mp
.
rp
σ2
où σ est l'écart-type de X (inégalité de Bienaymé-Chebychev).
r2
(pour Y réelle positive intégrable et α > 0, on a : E(Y) =
⌠
⌡Ydp ≥ ⌠
⌡Y.dp ≥ r. ⌠
⌡dp = r.p(Y≥ α), i.e.
Ω
Y≥α
Y≥α
E(Y)
p(Y≥ α) ≤
(inégalité de Markov) ; il suffit alors d’appliquer ceci à Y = |X-E(X)|p et α = rp.
α
---------------------------------------------------------------------------------------------------------------------------------------Annexe: corrélation linéaire.
----------------------------------------------------------------------------------------------------------------------------------------
2) LOIS DISCRETES ; LOIS A DENSITE
a) Lois discrètes :
Soit X une v.a. à valeurs dans I, partie finie ou dénombrable de R, et pk = p(X=k) pour k∈I : pX = ∑ pk.δk.
k∈I
Si ϕ : I → C est une application (automatiquement mesurable ici), on a, lorsque cela a un sens :
∑ ϕ(k).pk .
E(ϕ(X)) = ⌠
⌡ϕ.dpX = k∈I
I
en particulier : E(X) = ∑ k.pk ; E(Xn) = ∑ kn.pk .
k∈I
k∈I
Exemple :
On lance une pièce ayant la probabilité p de tomber sur « pile » ; soit X la variable valant 1 si le résultat
est pile, et 0 sinon: p(X=0) =1-p ; p(X=1) = p; la loi pX est appelée loi de Bernoulli B(p) de paramètre p.
On obtient immédiatement: E(X) = p ; V(X) = p(1-p).
b) Lois à densité dans un intervalle I de R:
Soit f ∈ L+(I) telle que ⌠
⌡f.dλ = 1 (λ désigne la mesure de Lebesgue sur I ). Une v.a. X à valeurs dans I suit la loi
I
à densité f sur I si pX = f.λ. (On dit aussi que X est absolument continue).
Pour A ⊂ I mesurable, on a alors:
p(X∈A) = pX(A) = ⌠
⌡f.dλ
A
(d’où l’interprétation de la probabilité que X soit comprise entre deux réels a et b par une "aire sous la courbe de
f entre x = a et x = b"). Cette formule est caractéristique d'une variable à densité f.
Si X est absolument continue, on a p(X=x) = 0 pour tout x ∈ I.
Pour ϕ mesurable de I dans C , il vient, si cela a un sens :
E(ϕ(X)) = ⌠
⌡ϕ.dpX = ⌠
⌡ϕ.f.dλ
I
I
En particulier : E(X) = ⌠
⌡x.f(x).dx , ….
I
Exemples :
Loi uniforme U(a,b) (a < b):
On choisit « au hasard » un réel x entre a et b ; le résultat est décrit par la variable X. Pour A mesurable
λ(A)
1
1
dans [a,b]: p(X∈A) =
=
.⌡dx : X suit la loi U(a,b) à densité f(x) =
sur [a,b].
b-a
b-a
b-a ⌠
A
b
On obtient E(X) = ⌠b-a.dx =
⌡
x
a+b
(a-b)2
, et V(X) =
.
12
2
a
densité de U(a,b)
1
b-a
a
b
Loi normale (ou de Laplace-Gauss) N(m,σ) (m∈R ; σ > 0):
1
(x-m)2
Loi d'une v.a. X de densité fm,σ(x) =
.expsur
 2σ2 
σ. 2π
R. La courbe de fm,σ est en cloche,
symétrique par rapport à la droite d'équation [x = m], et possède deux points d’inflexion d’abscisses m±σ
(et d'ordonnée commune
1
σ. 2πe
).
C'est la loi utilisée généralement pour décrire la mesure expérimentale X d’une grandeur scalaire de
valeur théorique m; σ est une constante positive dépendant des conditions dans lesquelles s’effectue la
mesure (constante de précision). Beaucoup de variables peuvent être en première estimation considérées
comme normales, i.e. comme suivant une loi N(m,σ).
D'un point de vue concret, on doit à Emile Borel l'énoncé des conditions pratiques d'application de la loi
normale: une variable X est distribuée normalement si:
• Les facteurs de variation de X sont nombreux.
• Les fluctuations de X dues à ces différents facteurs sont indépendantes les unes des autres.
• La fréquence des grandes fluctuations est suffisamment petite.
• Les fluctuations dues aux différents facteurs sont approximativement du même ordre de grandeur.
En résumé, il en sera ainsi chaque fois qu'une grandeur X sera le résultat de causes nombreuses,
indépendantes les unes des autres, et dont les effets propres sur X sont faibles isolément.
La loi γ = N(0,1), de densité f(x) =
1
.exp(-x2/2) sur R, est centrée réduite.
2π
1 x-m
Si X suit une loi à densité .f 
(m∈R,σ> 0), alors un simple
σ  σ 
X-m
suit une loi à
changement de variable permet de voir que
σ
densité f(x).Par suite: si X suit la loi N(m,σ), alors E(X) = m et
V(X)= σ2.
> with(stats) :
> liste:=seq(statevalf[pdf,normald[0,k]],k=1..5):
> plot({liste},-4..4);
c) Lois à densité dans une partie mesurable D de Rd:
(d)
(d)
Soit f ∈ L+(D) telle que ⌠
⌡f.dλ = 1 (λ désigne la mesure de Lebesgue sur D).
D
Un vecteur aléatoire X = (X1,…,Xd): Ω → D est dit de densité f sur D si pX = f.λ(d) .
(d)
Pour ϕ : D → C mesurable, on obtient, si cela a un sens : E(ϕ(X)) = ⌠
⌡ϕ.f.dλ .
D
Pour A mesurable dans D : p(X∈A) = ⌠
⌡f.dλ
(d)
.
A
La propriété suivante est essentielle:
Prop 2.
fXi(t) =
Si X = (X1,…,Xd) est à densité f sur Rd, alors chaque Xi est à densité fi sur R , avec:
(d-1)
⌠
⌡f(x1,..,xi-1,t,xi+1,..,xd).dλ (x1,..,xi-1,xi+1,..,xd).
Rd-1
(avec X1 : on a, pour A mesurable dans R :
p(X1∈A) = p(X∈A×Rd-1) = ⌠
⌠f(x1,…,xd)dλ(d-1)(x2,..,xd)dλ(1)(x1) par Tonelli).

 ⌡d-1

⌡R
A
Exemples :
La loi uniforme sur une partie D mesurable de mesure finie non nulle de R
1
f = (d) .1D sur Rd.
λ (D)
d
est donnée par la densité
Soit un vecteur (X,Y) suivant la loi uniforme sur le disque D(O,1) de R2 , de densité f =
X est à densité fX(x) =
1
.1
:
π |D(O,1)
2
2
⌠
⌡f(x,y).dy = π. 1-x sur [-1,1],; fY est par symétrie donnée par la même formule.
R
1
⌠xydxdy = 0 (pour une raison de symétrie) ;
π ⌡
D(O;1)
il suit cov(X,Y) = 0: X et Y sont non corrélées (cf annexe 1 : corrélation linéaire).
fX = fY étant paire, on a E(X) = E(Y) = 0, puis: E(XY) =
(toutefois, on peut constater que f(X,Y) ≠ fX⊗fY : ceci s'interprétera par la dépendance de X et Y).
La loi normale centrée réduite γ(2) = N(2)(O,1) sur R2:
1
x2+y2
2
.exp2π
 2  sur R .
Si (X,Y) suivent cette loi, on vérifie immédiatement que X et Y suivent la loi γ sur R .
Elle est donnée par la densité f(x,y) =
Densité de N(2)(0,1)
Donnons la loi de X2+Y2: pour r ≥ 0, il vient (avec un passage en polaires):
r
r
1 -u/2
-t²/2
.e .du:
⌠t.e .dt = ⌠
⌡
⌡2
0
0
D(O, r)
2
2
la loi de X +Y est trouvée sur les intervalles [0,r], et donc entièrement déterminée: X2+Y2 suit la loi à
1
densité h2(u) = .e-u/2 sur R+ : c’est la loi exponentielle E(1/2)
2
La loi exponentielle E(λ) (λ > 0) est donnée par la densité f(x) = λ.e-λx sur R+.
1
p(X +Y ≤ r) = p[(X,Y)∈D(O, r)] = .
2π
2
2
2
2
⌠ exp-x +y .dxdy =
⌡  2 
Densité de E(1)
1
.exp(-||x||2/2) (norme
(2π)d/2
euclidienne). Soit V = (X1,…,Xd) suivant cette loi ; on vérifie immédiatement que X1, …,Xd suivent la loi
γ sur R . En utilisant le résultat d’intégration des fonctions sphériques sur Rd :
+∞
πd/2
d-1
f(
||x||
).dx
=
d.V
.
.f(t).dt
,
avec
V
=
,
t
⌠
⌠
d
d
⌡
⌡
Γ(d/2 +1)
d
0
R
on démontre (de la même manière que dans l’exemple précédent) que ||V||2 suit la loi à densité
1
.t(d/2) –1.e-t/2 sur R+ : c’est la loi du ℵ2 à d degrés de liberté.
hd(t) = d/2
2 .Γ(d/2)
Pour d = 2, on retrouve la loi exponentielle E(1/2).
La loi normale centrée réduite N(d)(0,1) sur Rd est donnée par la densité f(x) =
3) INDEPENDANCE D’EVENEMENTS, DE TRIBUS, DE VARIABLES ALEATOIRES
(Ω,T,p) désigne un espace probabilisé. Si I est un ensemble (d'indices), Pf (I) désigne l'ensemble des parties
finies de I.
Une famille (Ai)i∈I d’éléments de T est dite [mutuellement] indépendante si:
∀K ∈ Pf (I) : p( ∩ Ai ) = ∏ p(Ai ).
i∈K
i∈K
Une sous-famille d'une famille indépendante est indépendante.
L’indépendance d’événements implique leur indépendance deux à deux, mais la réciproque est fausse. Par
exemple : on lance deux dés non truqués dont les résultats sont notés a, b (i.e.: (a,b) suit la loi uniforme
sur {1,…,6}2 ); considérons A = {a pair} ; B = {b impair} ; C = {a et b de même parité}: on a:
p(A) = p(B) = p(C) = ½ ; p(A∩B) = p(A∩C) = p(B∩C) = ¼ : A, B et C sont deux à deux indépendants,
mais p(A∩B∩C) = 0 ≠ 1/8 : A, B et C ne sont pas (mutuellement) indépendants.
n
n
D’autre part, la formule p( ∩ Ak ) = ∏ p(Ak) n’entraîne pas (pour n ≥ 3) l’indépendance de la famille
k=1
k=1
(A1,…,An) ; prendre par exemple A tel que p(A) ∈ ]0,1[et considérer A, A et ∅.
On remarquera aussi que si (A,B) est indépendante, alors (A,Bc), (Ac,B) et (Ac,Bc) le sont (par un petit
calcul immédiat).
Enfin, A est indépendant de lui-même si et seulement si p(A) = 0 ou p(A) = 1.
Une famille (Ti)i∈I de parties de T est dite (mutuellement) indépendante si toute famille (Ai)i∈I avec Ai ∈ Ti pour
chaque i est indépendante.
Voici un critère d'indépendance pour une famille de sous-tribus de T:
Prop 3. Si pour chaque i ∈ I, Ti est une sous-tribu de T engendrée par une partie Ci stable par intersection finie,
alors l'indépendance de (Ci)i∈I entraîne celle de (Ti)i∈I .
(pour une démonstration, voir par exemple Buchwalter, le calcul intégral p61; elle utilise le théorème de
Dynkin, p.20 du même livre).
Exemple: si (Ai)i∈I est indépendante, alors ( {∅,Ai,Aic,Ω} )i∈I l'est aussi.
Application: calcul de l'indicateur d'Euler ϕ(n) d'un entier n ≥ 2:
ϕ(n) = Card { k ∈ [[1,n]] , k∧n = 1} = n.p(A), où Ω = {1,…,n} est muni de sa tribu discrète et de la
probabilité p uniforme, et A = {k∈Ω , k∧n = 1}.
Notons p1 < p2 < … < pr les diviseurs premiers de n; il vient :
r
Ac = { k∈Ω , ∃ j∈[[1,r]], k ∈ pj.N } = ∪ Apj où Apj = pj.N ∩ Ω.
j=1
Pour d divisant n (n = λd), l'événement Ad = d.N ∩ Ω des multiples de d dans Ω a pour probabilité:
Card {d, 2d, …, λd} λ 1
= =
p(Ad) =
n d
n
Pour toute partie J de {1,…,r}, on a immédiatement: ∩ Apj = A ∏ pj ,
j∈J
j∈J
1
et donc:
p ∩ Apj = pA ∏ pj  =
= ∏ p(Apj) ,
( j∈J )
 j∈J  ∏ pj j∈J
j∈J
ce qui traduit l'indépendance de la famille (Apj )j= 1,…,r .
c
Par voie de fait, la famille (Apj )j=1,…,ϕ(n) est indépendante; il en découle
r
r
r c
ϕ(n)
1
c
= p(A) = p ∩ Apj = ∏ p(Apj) = ∏ 1 -  .
n
p

j 
j=1  j=1
j=1
Si X : (Ω,T) → (K,∑) est une v.a., la sous-tribu ∑X = X-1(∑) de T est appelée tribu engendrée par X (c’est la plus
petite tribu que l’on peut placer sur Ω pour rendre X mesurable).
Une famille (Xi: Ω → (Ki,∑i))i∈I de v.a. est dite (mutuellement) indépendante si la famille des tribus (∑iXi)i∈I est
indépendante, c'est à dire si:
∀J ∈ Pf ( I ) , ∀(Bi)i∈J ∈ ∏ ∑i : p( ∩ (Xi ∈Bi) ) = ∏ p(Xi ∈Bi).
i∈J
i∈J
i∈J
Une sous-famille d'une famille de v.a. indépendantes est indépendante.
Prop 4. Une famille finie (Xi)1≤i≤n de v.a. est indépendante ssi p
(si (Xi) est indépendante, alors ∀(Ai): p
mesure produit p ⊗ … ⊗ p
X1
Xn
(X1,…,Xn)
(X1,…,Xn)
=p ⊗…⊗p
X1
Xn
.
(A1×…×An) = p (A1). … . p (An) (*): on reconnaît la
X1
Xn
(c'est la seule à vérifier ceci). Réciproquement, si (*) est vérifiée, on
retrouve l'indépendance de (Xi) en prenant, pour J ⊂ {1,…,n}, Aj = Kj lorsque j ∉ J.
Les deux propositions suivantes sont importantes en pratique:
Prop 5. Si (Xi: (Ω,T) → (Ki,∑i))i∈I est indépendante et si (ϕi : Ki → (Li,Λi)i∈I est une famille d'applications
mesurables, alors (ϕi(Xi))i∈I est indépendante.
C'est clair. Par exemple, l’indépendance de deux v.a. réelles X et Y entraîne celle de X2 et Arc tanY, de tX
et tY (t >0) et de eitX et eitY (t réel).
Attention aux idées intuitives sur l'indépendance:
Soient deux v.a. X et Y indépendantes définies sur (Ω,T,p), à valeurs dans {-1,1}, de même loi
1
2
pX = pY = .δ-1 + .δ1 ,
et (U,V) = (X, sgn(X).Y).
3
3
2
2
2
2
Les v.a. U = X et V = Y sont indépendantes, mais U et V ne sont pas indépendantes; en effet:
p(U=1,V=1) = p(X=1,Y=1) = p(X=1).p(Y=1) = 4/9 ,
tandis que
p(U=1).p(V=1)
= p(X= 1).[p(Y=1/X=1)p(X=1)+p(Y= -1/X= -1)p(X= -1)]
= p(X=1).[p(Y=1)p(X=1)+p(Y= -1)p(X= -1)
= 10/27 ≠ 4/9.
Prop 6. Soient (Xi : (Ω,T) → Ki)1≤i≤n et (Yj : (Ω,T) → Lj)1≤j≤m des variables aléatoires ; si la famille
(X1,…,Xn,Y1,…,Ym) est indépendante, alors X = (X1,…,Xn) et Y = (Y1,…,Ym) sont des vecteurs aléatoires
indépendants.
m
n
Conséquence: si f : ∏ Ki → E et g : ∏ Lj → F sont des applications mesurables, alors f(X1,..,Xn) et g(Y1,..,Ym)
j=1
i=1
sont indépendantes.
n
m
i=1
j=1
Démonstration : on vérifie l'égalité que pX,Y et pX⊗pY sont égales sur les pavés de la forme ∏ Ai× ∏ Bj
n
m
(famille stable par intersection finie et génératrice de la tribu (produit) de ∏ Ki× ∏ Lj ):
i=1 j=1
n
m
n
m
i=1
j=1
i=1
j=1
pX,Y ( ∏ Ai× ∏ Bj) = p(X∈ ∏ Ai ,Y∈ ∏ Bj ) = p(X1∈A1,…,Xn∈An,Y1∈B1,…,Ym∈Bm)
m
n
m
n
m
indép n
indép
=== ∏ p(Xi∈Ai). ∏ p(Yj∈Bj) === p(X∈ ∏ Ai).p(Y∈ ∏ Bj) = (pX⊗pY)( ∏ Ai× ∏ Bj),
i=1
j=1
i=1
j=1
i=1
j=1
d’où le résultat. La conséquence provient de la proposition 5.
Exemple : si X,Y, Z, T sont des v.a. réelles indépendantes, alors X2Y et Z+T sont indépendantes…
n
Prop 7. Si (Xi)1≤i≤n est une famille indépendante de v.a. réelles intégrables, alors ∏ Xi est intégrable, et l'on a:
i=1
n
n
E( ∏ Xi ) = ∏ E(Xi) .
i=1
i=1
Démonstration: grâce à la proposition 6 , on se ramène au cas de deux variables X, Y indépendantes:
Si X et Y sont réelles positives, le résultat provient de Tonelli (calcul a priori dans [0,+∞]):
+∞
+∞
+∞
+∞
E(XY) = ⌠
⌡xyd(pX⊗pY) = ⌠
⌡xy.dpX,Y = ⌠
⌡xdpX . ⌠
⌡ydpY = E(X).E(Y) < +∞ .
0
0
0
0
Dans le cas général, le résultat précédent appliqué aux v.a. indépendantes |X] et |Y| fournit l’intégrabilité
de XY et on retrouve la même formule grâce au théorème de Fubini.
Deux variables indépendantes sont donc non corrélées; on verra que la réciproque est fausse.
Deux v.a. réelles intégrables peuvent avoir un produit non intégrable; par exemple, avec Ω = ]0,1] et
p = λ, X: t → t-1/2 est intégrable, mais X2 ne l'est pas.
n
n
Prop 8. Si X1,…,Xn sont des v.a. réelles d'ordre 2 deux à deux indépendantes, alors V( ∑ Xk) = ∑ V(Xk).
k=1
k=1
(c'est même vrai pour des v.a. deux à deux non corrélées).
Exemples:
Loi binomiale B(n,p) (n ≥ 1; 0 < p < 1):
C'est la loi suivie par la somme X de n v.a. de Bernoulli X1,…,Xn de paramètre p indépendantes. X est
donc à valeurs dans {0,…,n}, avec, pour 0 ≤ k ≤ n:
disjointe
∩ [Xj=1] ∩ ∩ [Xj=0] ,
∪
]
j∉A
A⊂{1,..,n} [ j∈A
|A|=k
k
d'où, compte tenu de l'indépendance des Xi : p(X=k) = Cn.pk(1-p)n-k pour 0≤ k ≤ n.
[X=k] =
On obtient E(X) = ∑E(Xi) = np et V(X) = ∑V(Xi) = np(1-p).
p(X=k)
0,30 -
0,20 -
B(n,p)
n=10
p = q = 1/2
p (X = k )
0,40 -
B (n , p )
n= 10
p = 0,1
0,30 -
0,10 -
0,20 -
0,05 -
0,10 -
1 2 3 4 5 6 7 8 9 10
k
1 2 3 4 5 6 7 8 9 10
k
On notera que l''allure du diagramme en bâtons est différente suivant que p et q sont voisins, ou non
proches de 0.
a) On effectue n lancers successifs d’une pièce ayant à chaque lancer la probabilité p de tomber sur
« pile » ; en considérant que les v.a. de Bernoulli donnant le résultat de chaque lancer sont indépendantes,
la v.a. X donnant le nombre de « pile » obtenus suit la loi binomiale B(n,p).
Pour p = ½ (pièce non truquée), la moyenne des « piles » obtenus est E(X) = n/2 (prévisible).
b) On lance une flèche vers une cible circulaire de centre O et de rayon 1; on suppose que le couple (X,Y)
représentant les coordonnées du point d'impact sur le mur où est fixée la cible suit la loi γ(2).
1
Nous avons vu que X2+Y2 suit la loi exponentielle E(1/2), de densité .e-t/2 sur R+; la probabilité p pour
2
1
1
e-t/2dt = 1-e-1/2 # 0,39.
que la flèche touche la cible est donc: p = p(X2+Y2≤1) = .⌡
2⌠
0
Si l'on effectue n lancers dont les résultats seront supposés indépendants, le nombre Zn de flêches qui
atteindront la cible suit la loi B(n,p).
En particulier: p(Zn≥ 1) = 1 - (1-p)n = 1 - e-n/2 . Pour avoir par exemple p(Zn≥1) ≥ 0,9, il faudra donc:
1- e-n/2 ≥ 0,9, ce qui équivaut à n ≥ 2.ln 10 # 4,60 : il faudra au moins 5 lancers pour que la probabilité
qu'au moins une flèche atteigne la cible soit ≥ 0,9.
Loi multinomiale B(n ; p1,…,pr) (n≥1; r ≥1 ; 0 < p1,…,pr < 1):
On considère une urne U contenant des boules de r couleurs différentes c1, …,cr , la probabilité de tirer
r
une boule de couleur ci étant donnée par la proportion pi de boules de cette couleur dans U ( ∑ pi = 1).
i=1
On effectue n tirages successifs avec remise d'une boule dans U, et on note
X = (X1,…,Xr), où Xk est le nombre de boules de couleur ck tirées.
r
X est à valeurs dans D = {k=(k1,…,kr) ∈ Nr, ∑ ki = n}.
i=1
Pour j ∈ {1,…,n}, notons Yj la couleur obtenue au jème tirage, et considérons que (Yj) est indépendante;
on a:
∀j ∈ {1,…,n} , ∀i ∈ {1,…,r} : p(Yj = ci ) = pi
Pour k = (k1,…,kr) ∈ D, il vient, en notant Ak l'ensemble des partitions (L1,…,Lr) de {1,…,n} telles que
|Li| = ki pour i ∈ {1,…,r}:
disjointe
r
∩ ∩ [Yj= ci]
∪
[X=k] =
(L1,…,Lr)∈Ak i=1 j∈Li
k1 k2
kr
n!
et l'indépendance des Yj , il vient:
Avec |Ak| = Cn .Cn-k …Cn-k -…-k =
k1!k2!…kr!
1
1
r-1
p(X=k)
=
kr
k1 k2
n!
. p .p …pr .
k1!k2!…kr! 1 2
On dit que X suit la loi multinomiale B(n;p1,…,pr).
On notera que chaque Xi suit la loi B(n,pi), et que X1+…+Xr = n. Les Xi ne sont bien sûr pas
indépendantes.
k1,…,kr
=
Remarque: pour k1+…+kr = n, le coefficient multinomial Cn
n!
est aussi le nombre de
k1!k2!…kr!
n-uplets (a1,…,an) de {1,…,r}n où i apparaît ki fois pour i ∈ {1,…,r}.
2,2,2,2
= 2520.
Par exemple : le nombre d'anagrammes du mot COUSCOUS est C8
1,…,1
(lorsque r = n et k1= …= kr = 1, on retrouve le nombre de permutations de {1,…,n} : Cn
= n!).
Loi géométrique G(p) (0 < p < 1):
C'est la loi d'une v.a. X à valeurs dans N* , avec: p(X=k) = p(1-p)k-1 pour k ≥1. (déjà rencontrée au
paragr.1; cf taux de panne constant).
+∞
1
1
1-p
A l'aide de f(t) = ∑ tk =
, en calculant f '(1-p) et f "(1-p) on trouvera E(X) = et V(X) = 2 .
1-t
p
p
k=0
p(X=k)
0,25 0,20 -
G(1/4)
0,15 0,10 0,05 1 2 3 4 5 6 7 8 9
k
Exemple : On effectue des lancers successifs d'une pièce ayant à chaque fois la probabilité p de tomber
sur "pile" ; on note X l'ordre du premier "pile" obtenu. On modélise l'expérience en considérant que les
résultats de chaque lancer sont indépendants et que X suit la loi géométrique G(p). Si p = ½, on obtient
E(X) = 2.
Si Z désigne le nombre minimal de pièces à lancer pour obtenir 1 pile et 1 face
(i.e. Z = inf {k≥2, {X1,…,Xk} = {pile,face}}, on a:
∀k ≥2: P(X=k)
et E(X) =
=
=
P(X1 = … = Xk-1 = pile, Xk = face) + P(X1 = … = Xk-1 = face, Xk = pile)
pk-1(1-p) + p(1-p)k-1.
1
est minimale de valeur 1/4 pour p = 1/2 (pièce non truquée).
p(1-p)
Remarque: l'idée qui mène à cette modélisation est la suivante: notant Xk le résultat du kème lancer, on
écrit P(X=k) = P(X1=face,…,Xk-1 = face, Xk = pile) = p(1-p)k-1 avec l'indépendance.
Pour valider le modèle, il est nécessaire de définir la probabilité P que l'on utilise, soit donc l'espace
(Ω,T,P) de départ de P.
Comme nous effectuons en théorie une infinité de lancers, l'ensemble Ω est ici celui des suites (xn)n≥1 à
valeurs dans {pile,face} et (Xn) est la suite des applications coordonnées de Ω dans S.
Il s'agit donc de définir T et P de sorte que les Xn soient mesurables et indépendantes pour P, et que :
∀n, P(Xn = pile) = 1- P(Xn = face) = p.
On pourra lire pour ceci:
Annexe: produit dénombrable d'espaces probabilisés.
----------------------------------------------------------------------------------------------------------------------------Autres annexes:
Théorème de Borel-Cantelli (loi du tout ou rien).
Marches aléatoires.
Introduction aux chaînes de Markov (espace d’états fini).
-----------------------------------------------------------------------------------------------------------------------------
4) CARACTERISATION DES LOIS
a) Fonction génératrice d'une variable à valeurs dans N :
Soit X une v.a. à valeurs dans N; on introduit la fonction génératrice de X : GX(t) = ∑ pk.tk = E(tX) .
k
Que X(Ω) soit fini ou non, l'égalité ∑ pk = 1 indique que GX est définie et continue sur [0,1], et C∞ sur [0,1[ (au
k
moins; GX est même définie et continue au moins sur D(O,1) ⊂ C ).
(k)
GX caractérise la loi de X par les formules pk = p(X=k) =
GX (0)
k!
.
La v.a. X est intégrable si et seulement si GX est de classe C1 sur [0,1] ; le cas échéant, on a E(X) = G’X(1).
+∞
Démonstration: sur [0,1[ , on a G’X (t)= ∑ k.pk.tk-1 ;
k=1
+∞
Si X est intégrable: ∑ k.pk = E(X) < +∞ , donc ∑ k.pk.tk-1 cvn sur [0,1] et G'X a pour limite E(X) en 1;
k
k=1
par le théorème de limite de la dérivée: GX est C1 sur [0,1] et G'X(1) = E(X). Si GX est C1 sur [0,1] , G'X
n
est en particulier bornée par un M > 0 sur [0,1[; il en découle: (∀n): 0 ≤ ∑ k.pk.tk-1 ≤ M ; passons à la
k=1
n
limite quand t tend vers 1: (∀n): 0 ≤ ∑ k.pk ≤ M : ∑ k.pk ayant ses sommes partielles majorées est
k
k=1
convergente.
Par récurrence, on prouve pour n ≥1 l’équivalence :
X est d’ordre n ⇔ GX est de classe Cn sur [0,1] ;
(k)
le cas échéant, on a E(X(X-1)…(X-k+1)) = GX (1) pour k = 1, …, n .
Prop 9.
La fonction génératrice est donc appropriée au calcul des moments de X.
Exemples:
•
Si X suit la loi géométrique G(p) sur N*, on obtient GX(t) =
pt
1
: GX est C∞ sur [0,
[ et donc
1-t+pt
1-p
1-p
sur [0,1]. E(X) = 1/p ; V(X) = p2 .
•
Une v.a. X à valeurs dans N suit la loi de Poisson P(λ) (λ>0) lorsque: p(X=k) = e-λ.
λk
( k≥ 0).
k!
On obtiendra: GX(t) = eλ(t-1) ; E(X) = V(X) = λ.
La loi de Poisson est utilisée dans l'étude de phénomènes rares (appelée aussi loi des petites
probabilités; voir l'annexe sur le processus de Poisson): elle intervient dans les descriptions de
phénomènes résultant de l'effet cumulatif d'un grand nombre d'événements peu probables.
p (X = k )
0,30 -
P (2 )
0,20 -
0,10 -
1 2 3 4 5 6 7
k
A un embranchement routier, les véhicules peuvent prendre l'une des directions A ou B.
On considère que la v.a. X donnant le nombre de véhicules arrivant pendant un intervalle de temps
d'1 heure suit une loi de Poisson P(λ), et que chaque véhicule arrivant à l'embranchement a la
probabilité p de prendre la direction A. On cherche la loi de la v.a. Y donnant le nombre de véhicules
qui prennent la direction A dans un intervalle de temps d'1 heure.
Faisons l'hypothèse que les véhicules arrivant choisissent leur direction de façon indépendante, de
sorte que la loi conditionnelle de Y sachant que X=n est donc la loi B(n,p); il suit, pour k entier:
+∞
+∞ k
λn
(λp)k +∞ (λ(1-p))n-k
(λp)k
. ∑
= e-λp.
p(Y=k)= ∑ p(Y=k / X=n ).p(X=n) = ∑ Cn .pk(1-p) n-k.e-λ. = e-λ.
n!
k! n=k (n-k)!
k!
n=k
n=k
Y suit donc la loi de Poisson P(λp).
Remarque: le choix de la loi de Poisson pour la v.a. X se justifiera pleinement bientôt: considérons
que l'on a relevé une moyenne de λ véhicules se présentant à l'embranchement par heure et que; pour
N véhicules circulant dans la région, notons po la probabilité qu'un véhicule passe effectivement par
l'embranchement; moyennant une condition d'indépendance naturelle, le nombre X des véhicules qui
se présentent suit alors la loi B(N,po), de moyenne Npo ; on obtient ainsi: po = λ/N, et X suit la loi
B(N,λ/N); pour N grand, on approxime cette loi par P(λ) (voir le paragraphe 5).
n
Prop 10. Si X1, …, Xn sont des v.a. à valeurs dans N indépendantes, alors GX1+…+Xn = ∏ GXk .
k=1
Xk
(c’est immédiat, avec l’indépendance des v.a. t ).
Exemples : "~" signifie: "suit la loi".
•
Si X ~ B(n,p): X est la somme de n v.a. de Bernoulli indépendantes: GX(t) = (tp+1-p)n . On retrouve
E(X) = np, E(X2-X) = (n2-n)p2 , V(X) = np(1-p).
•
Si X et Y sont indépendantes:
X ~ B(n,p), Y ~ B(m,p) ⇒ X+Y ~ B(m+n,p)
(car GX+Y(t) = (tp+1-p)n+m).
X ~ P(λ), Y ~ P(µ) ⇒ X+Y ~ P(λ+µ).
(car GX+Y(t) = e(λ+µ)(t-1) ).
b) Fonction de répartition d'une v.a. réelle ou à valeurs dans Rd :
Si X est une v.a. réelle, la fonction FX : x → p(X≤x) = pX(]-∞ ;x]) =
⌠
⌡dpX est appelée fonction de répartition
]-∞,x]
de X ; elle caractérise la loi de X .
On vérifie immédiatement que lim FX = 0 , lim FX = 1 , FX est croissante, continue à droite, et le saut à gauche en
-∞
+∞
un réel x est FX(x) – FX(x-) = p(X=x).
La croissance est claire; il suffit ensuite de remarquer que (qd n → +∞ ): ]-∞,-n] ↓ ∅ ; ]-∞,n] ↑ R ; ∀x :
]-∞, x-1/n] ↑ ]-∞,x[ ; ]-∞,x +1/n] ↓ ]-∞,x].
Certains ouvrages prennent pour définition FX(x) = p(X<x), ce qui donne la continuité à gauche et le saut
à droite.
Si X est une v.a. réelle et positive, la fonction de répartition FX fournit les moments de X (lorsqu’ils existent) par
+∞
∞
n-1
la formule : E(Xn) = ⌠
⌡n.t .(1-FX(t)).dt. On le prouve par le théorème de Tonelli :
0
+∞
n
n
E(Xn) = ⌠
X
.dp
=
⌠
⌡
⌡x .dpX(x) =
Ω
0
+∞
+∞
0
0
x
 n-1
⌠+∞
⌠ n-1 
.dt
dp
(x)
n.t
=
X
⌠

 ⌠
⌡
⌡dpX(x).n.t .dt


⌡ 0
⌡ t
+∞
On retiendra en particulier la formule: E(X) = ⌡
⌠p(X > t).dt pour X positive intégrable.
0
( l’ensemble {t≥0, p(X=t) > 0} est au plus dénombrable : c’est l’ensemble des points de discontinuité
d’une fonction croissante).
Cette formule fournit par comparaison série-intégrale un encadrement souvent utilisé dans des
+∞
applications du lemme de Borel-Cantelli: si X est une v.a. positive, alors E(X)-1 ≤ ∑ p(X≥n) ≤ E(X).
n=1
En particulier, X est intégrable si et seulement si ∑p(X≥n) converge.
Si X est discrète, FX est en escaliers (c’est même une équivalence).
x
Si X est à densité f sur R, alors pour tout réel x : FX(x) = ⌡
⌠f(t)dt (et FX est continue).
-∞
∞
Cette formule caractérise une v.a. à densité f ∈ L+(R) d’intégrale égale à 1; en tout point x où f est continue, FX
est alors dérivable, avec : FX’(x) = f(x).
Exemples :
•
Si X suit la loi N(0,1) : FX(x) =
1
x
.⌠exp(-t²/2).dt
2π ⌡
-∞
vérifit FX(0) = ½ et FX(-x) = 1-FX(x) : la courbe de
FX est symétrique par rapport au point (0,1/2). Des tables de valeurs sont données, qui permettent
d’obtenir p(a ≤ X ≤ b) = FX(b) – FX(a).
Fon cti o n de ré pa rti ti on
d e N(0,1 )
•
Si X suit la loi uniforme sur [a,b] : FX est nulle sur ]-∞,a], égale à 1 sur [b,+∞[ et vaut
x-a
sur [a,b].
b-a
fct° de répartition de U(a,b)
1
a
b
Soit θ une v.a. suivant la loi uniforme sur ]-π/2,π/2[ et X = tg θ; la loi de X est décrite par:
x
Arc tg x + π/2 1 ⌠ du
FX(x) = p(tg θ ≤ x) = p(θ ≤ Arc tg x) =
= .
: X suit sur R la loi à densité
π
π ⌡1+u²
-∞
1 1
f(x) = .
2 , appelée loi de Cauchy de paramètre 1; on remarquera que X n’est pas intégrable.
π 1+x
1 a
La loi de Cauchy C(a) de paramètre a > 0 est donnée par la densité f(x) = . 2 2.
π a +t
Densité
de C(1)
fct° de
répartition de C(1)
•
Soit (X,Y) un couple de v.a. réelles à densité f sur R2 ; X étant absolument continue, l’événement
X=0 est de probabilité nulle, et on peut définir presque partout la v.a. Q = Y/X
Donnons la loi de Q en calculant sa fonction de répartition pour z réel :
⌠f(x,y)dxdy = ⌠
⌡
⌡f(x,y)dxdy + ⌠
⌡f(x,y)dxdy = ⌠
⌡f(x,y)dxdy + ⌠
⌡f(-x,-y)dxdy
FQ(z) = p(Y/X≤z) =
y/x ≤ z
y≤zx
y≥zx
y≤zx
y≤zx
x>0
x<0
x>0
x>0
z
+∞
+∞
zx
z
+∞





⌠
⌠
Fubini ⌠
 ⌠x(f(x,tx)+f(-x,-tx))dxdt






===
[f(x,y)+f(-x,-y)]dy
dx
=
x.[f(x,tx)+f(-x,-tx)]dt
dx
=
⌠
⌠
⌡
⌡
⌡

⌡-∞


0

⌡-∞


0
+∞
Q est à densité fQ(t) =


-∞
+∞
⌠
⌡x(f(x,tx)+f(-x,-tx)).dx = ⌠
⌡|x|.f(x,tx)dx.
0
(2)
Si (X,Y) suit la loi N (0,1), on trouve fQ(t) =
•

⌡ 0
-∞
1
: Q suit la loi de Cauchy C(1).
π(1+t²)
Taux de panne; loi sans mémoire:
Notons T la v.a. donnant l’instant de la première panne d’une machine (T ≥ 0) et supposons T à
densité f continue sur R+. On note F sa fonction de répartition (F(0) = 0 ; f(t) = F’(t)) et on définit le
taux de panne instantané de la machine à l’instant t ≥ 0 :
F(t+h)-F(t)
f(t)
1
=
,
λ(t) = lim . p(t ≤ T ≤ t+h / T ≥t ) = lim
h.(1-F(t))
1-F(t)
h
h→ 0
h→ 0
de sorte que F satisfait à l’équation différentielle F’ = -λ.F + λ ,
et est donc de la forme : t → F(t) = 1 + α.e-Λ(t) , où Λ est une primitive de λ sur R+.
La condition F(0) = 0 fournit α = -eΛ(0), soit donc :
F : t → 1 – e-Λ(t) , où Λ est la primitive de λ qui s’annule en 0.
Pour un modèle de sortie d'usine, on modélise le risque d'une défectuosité de construction possible
par un taux de panne important pour les faibles valeurs de t. Pour une machine en passe d'être usée,
on prend un taux de panne important pour les grandes valeurs de t.
Pour une machine rodée, et avant de voir apparaître des signes d’usure, on peut faire l’hypothèse
naturelle d’un taux de panne constant λ(t) = λ > 0. On obtient alors :
F : t → 1 – e-λt , et f : t → λ.e-λt sur R+ :
T suit donc la loi exponentielle E(λ) ; elle est intégrable de moyenne τ = 1/λ, et la quantité
e-λt.(1-e-λh)
p( T ∈[t,t+h] / T ≥ t ) =
= 1 – e-λh = p( T ∈ [0,h] / T≥0)
e-λt
est indépendante de T .
On retrouve la distribution exponentielle dans la plupart des expériences où la probabilité qu'un
événement se produise dans un laps de temps [T,T+h] sachant qu'il ne s'est pas produit avant est
indépendante de son histoire antérieure (durée de vie d'une particule, temps d'attente à un guichet,…).
Cette condition caractérise la loi exponentielle par le fait qu'elle n'a pas de mémoire.
Si X = (X1,…,Xd) est un vecteur aléatoire à valeurs dans Rd, on définit de même la fonction de répartition de X,
ou fonction de répartition conjointe de X1, …,Xd par :
FX(x) = p(X≤
≤x) = p(X1≤x1,…,Xd ≤ xd) pour tout d-uplet x = (x1,…,xd) de réels.
De même, FX caractérise la loi de X, et une v.a. X à densité f sur Rd se reconnaît par la formule
FX(x1,…,xd)) =
⌠
⌡ f(t1,…,td).dt1…dtd .
∞,xi]
∏]-∞
Prop 11. Soient X1,…,Xn des v.a. réelles. Alors
(X1,…,Xn) est indépendante ⇔ F
=F ⊗…⊗F .
X1,…,Xn
X1
Xn
Si chaque Xi est à densité fi sur R , alors
(X1,…,Xn) est indépendante ⇔ (X1,…,Xn) est à densité f = f1⊗…⊗fn.
Démonstration:
Pour la première équivalence, le sens direct est clair; réciproquement, l'égalité F
X1,…,Xn
= F ⊗…⊗ F
X1
Xn
n
fournit l’égalité des mesures p
et p ⊗ … ⊗ p sur les ∏ ]-∞,xk], d'où (théorème d’unicité)
X1,…,Xn
X1
Xn
k=1
l’égalité de ces mesures, et l’indépendance des v.a. X1, …,Xn.
Dans le cas de v.a. à densité: (X1,…,Xn) est indépendante si et seulement si on a:
t
n k
Tonelli
∀(t1,…,tn): F
(t1,…,tn) = ∏ ⌡
⌠fk(uk)duk ===
⌠f1(u1)…fn(un).du1…dun ,
⌡
X1,…,Xn
k=1
∏]-∞,tk]
-∞
i.e. si et seulement si (X1,…,Xn) est à densité f1⊗…⊗fn.
Exemples:
•
(X1,…,Xd) suit la loi N(d)(0,1) ⇔ [chaque Xi suit la loi N(0,1) et (X1,…,Xd) est indépendante].
•
Si (X,Y) suit la loi uniforme sur D(O,1), X et Y sont non corrélées, mais non indépendantes (cf. le
paragraphe 2: f(X,Y) ≠ fX⊗fY ).
•
(X,Y) suit la loi uniforme sur A2 ⇔ [ X et Y suivent la loi uniforme sur A et sont indépendantes].
Calculons la probabilité pour qu'en pliant une tige de longueur L en deux points choisis au hasard, on
puisse former un triangle:
On note X et Y les abscisses des deux points: X et Y suivent la loi uniforme sur [0,L], et sont
supposées indépendantes, ce qui revient à dire que (X,Y) suit la loi uniforme sur [0,L]2.
Posons U = min(X,Y) et V = max(X,Y). L’événement considéré est:
A = [U ≤ L/2; V ≥ L/2; V-U ≤ L/2].
p(A) est donc l’aire de la partie D du carré correspondant à A, divisée par L2 .
On obtient p(A) = ¼.
•
Loi conditionnelle dans le cas de variables à densité :
Soit (X,Y) un couple de v.a. réelles de densité fX,Y sur R2 ; on se propose de définir la loi de Y
sachant que X a une valeur donnée (loi conditionnelle de Y par rapport à X).
Pour x et y réels, il s'agit donc de donner un sens à la quantité p( Y ≤ y / X = x ) ( la v.a. X étant à
densité, on a p(X=x) = 0).
p( Y ≤ y / X = x ) = lim p(Y≤
≤y / x ≤ X ≤ x+h ), soit donc:
h→
→0
On propose alors naturellement :
x+h y
1
.
h
fX,Y(u,v)dudv
⌠
⌡⌠
⌡
p(Y≤ y / X=x) = lim
h→ 0
p(Y≤y, x ≤ X ≤ x+h)
x -∞
= lim
x+h
p(x≤X≤x+h)
h→ 0
⌠fX(t)dt
⌡
x
=
lim
h→ 0
x+h y
fX,Y(u,v)dvdu
⌠
⌡⌠
⌡
x -∞
x+h
1
. ⌠fX(t)dt
h ⌡
x
y
⌠
⌡fX,Y(x,t)dt
=
-∞
fX(x)
y
=
⌠fX,Y(x,t)dt ,
⌡ fX(x)
-∞
sous réserve que fX(x) soit ≠ 0, ce qui valide dans ce cas le calcul précédent pour h petit).
On définit donc pour x tel que fX(x) ≠ 0 la loi de Y sachant X = x comme la loi à densité
fY/X=x(y) =
fX,Y(x,y)
, appelée densité conditionnelle de Y sachant X = x.
fX(x)
On admettra inversement que si X est à densité et si Y/X=x est à densité pour presque tout x, alors
(X,Y) est à densité fX,Y(x,y) = fX(x).fY/X=x(y).
a) On choisit au hasard un nombre X entre 0 et 1, puis Y entre 0 et X. Donnons la loi de Y:
1
1
dans ]0,1[: fX = 1 et fY/X=x = .1[0,x] , donc fX,Y(x,y) = .1[0,x] ; on déduit la densité de Y:
x
x
1
1/2
1+ln 2
fY(y) = ⌠
⌡fX,Y(x,y)dx = -ln y. E(Y) = 1/4 ; p(Y≤1/2) = ⌠
⌡fY(t)dt = 2 ~ 0,85.
0
0
b) On plie une tige de longueur 1 en X choisi au hasard, puis en Y choisi au hasard dans le plus grand
des deux segments [0,X] et [X,1] ; cherchons la probabilité pour que l’on puisse ainsi former un
triangle.
L’événement est A = [min(X,Y)≤½; max(X,Y)≥ ½ ; max(X,Y)–min (X,Y)≤ ½] ;
D désigne la partie du carré correspondant à A.
1
1
.1
si x ≤ ½ ; on obtient sur ]0,1[2 :
Sur ]0,1[ : fX = 1 ; fY/X=x = .1[0,x] si x ≥ ½ et
x
1-x [x,1]
1
1
fX,Y(x,y) = fX(x).fY/X=x(y) = si [x < ½ et x < y] ;
si [x > ½ et x > y] ; 0 sinon .
x
1-x
1
⌠ 1/2 dx
 ⌠
f
dy = 2ln 2 – 1 ~ 0,39.
(x,y)dxdy
=
2.
Il suit (symétries): p(A) = ⌠
⌡ X,Y
 ⌡  x
D
⌡x-1/2 
1/2
(lorsque X et Y étaient choisis indépendants, on avait obtenu p(A) = 0,25).
Prop 12. Si X, Y sont (réelles) indépendantes à densités f et g, alors X+Y est à densité f * g .
Démo : (X,Y) est à densité f(x)g(y), donc pour tout réel r:
⌠
⌡f(x)g(y)dxdy = ⌠
⌡f(u)g(v-u)dudv (avec le changement de variables (u,v) = (x,x+y) )
FX+Y(r) =
v≤r
x+y≤r
r
Tonelli
===
r
⌠⌡
f(u)g(v-u)dudv = ⌡
⌠(f*g)(v)dv , d'où le résultat.

⌠

⌡ R
-∞
-∞
Cas de n variables: soient X1,…, Xn indépendantes à densités f1 , …, fn , de somme S. On a:
FS(r) =
⌠
⌡f1(x1)…fn(xn)dx1…dxn .
x1+…+xn≤ r
Le changement de variable u1 = x1 ; u2 = x1+x2 ; …; un = x1+ …+xn fournit
r
FS(r) =
 ⌠f1(u1)f2(u2-u1)…fn(un-un-1)du1…dun-1dun
⌠
⌡f1(u1)f2(u2-u1)…fn(un-un-1).du1…dun = ⌠

 ⌡n-1
un≤r

⌡R
-∞
et S est donc à densité x →
⌠
⌡f1(u1)f2(u2-u1)…fn-1(un-1-un-2)fn(x-un-1)du1…dun-1 , notée f1*f2*…*fn et appelée
Rn-1
produit de convolution de f1,…,fn.
Remarque: si X1,…,Xn sont des v.a. indépendantes (non nécessairement à densité) de somme S, pS est la
mesure image de pX1,…,Xn par l’application s : (x1,…,xn) → x1+…+xn ; pour ϕ intégrable par rapport à pS ,
⌠
⌡ϕ.dpS = ⌠
⌡ϕos.d pX1,…,Xn = ⌠
⌡ϕ(x1+…+xn)dpX1(x1)..dpXn(xn) .
D'une manière générale, si µ1,…,µn sont des probabilités sur R , leur produit de convolution est la
on a donc:
mesure µ = µ1*…*µn , image de µ1⊗…⊗µn par s, définie par:
∀ B ∈ B(R): µ(B) =
⌠
⌡1B(x1+…+xn)dµ1(x1)…dµn(xn).
Rn
Il est associatif et commutatif, et δo en est l'élément neutre.
Exemples :
•
Si X ~ E(λ), Y ~ E(µ): X+Y suit la loi à densité f(x) = -λµ.
e-λx-e-µx
(cas λ=µ inclus). Ce n'est pas une
λ-µ
loi exponentielle.
•
1 p-1 -x
.x .e sur R+ (p > 0); soient X et Y deux v.a. réelles
Γ(p)
indépendantes avec X ~ Γ(p) et Y ~ Γ(q) : leur somme S a pour densité : fS(x) = (γp * γq)(x), qui vaut,
après calcul, sur R+ :
Γ(p+q)
e-x
.xp+q-1.β(p,q) =
.β(p,q).γ p+q .
Γ(p).Γ(q)
Γ(p).Γ(q)
Γ(p).Γ(q)
La condition ⌠
⌡d(γp*γq) = 1 fournit alors β(p,q) = Γ(p+q) , puis γp * γq = γp+q.
La loi Γ(1) n’est autre que la loi exponentielle E(1).
•
En annexe: processus de Poisson.
La loi Γ(p) est la loi à densité γp(x) =
c) Fonction caractéristique d'une v.a. réelle ou à valeurs dans Rd :
Soit X une v.a. à valeurs dans Rd. La fonction caractéristique ΦX de X est définie sur Rd par:
ΦX : t → E(ei t.X ) =
i < t,x >
.dpX(x)
⌠
⌡e
d
R
(produit scalaire usuel).
THM : ΦX caractérise la loi de X.
∧
Si X est à densité fX , on a simplement ΦX = fX : l'injectivité de la transformation de Fourier montre que la
fonction caractéristique caractérise la loi de X dans l'ensemble des variables à densité.
Dans le cas général, ΦX est par définition la transformée de Fourier de la mesure pX ., et on peut montrer
que l’on a encore l’injectivité.
Pour X, v.a. à valeurs dans Rd, et f ∈ L1 = L1(Rd), le théorème de Fubini permet tout d’abord d’obtenir la
∧
formule : ⌠
⌠ΦX(t).f(t)dt.
⌡ f (x).dpX(x) = ⌡
Soient maintenant Y une autre v.a. à valeurs dans Rd telle que ΦY = ΦX . La formule précédente prouve
que nous avons l’égalité E(ϕoX) = E(ϕoY) pour tout élément de Φ(L1), où Φ est l’opérateur de Fourier.
Mais, notant Co = { f : Rd → C , f continue et de limite nulle quand ||x|| → +∞}, on sait que Φ(L1) est
dense dans (Co,||.||∞) (cf le cours d’intégration : Φ(L1) contient l’espace de Schwarz S des fonctions C∞ à
décroissance rapide).
Soit ϕ ∈ Co et ε > 0 : il existe ψ ∈ Φ(L1) telle que ||ϕ-ψ||∞ < ε. Il vient alors :
|E(ϕoX)-E(ϕoY)| ≤ |E(ϕoX)-E(ψoX)| + |E(ψoX)-E(ψoY)| + |E(ψoY)-E(ϕ(Y)| ≤ ε + 0 + ε.
Ceci étant vrai pour tout ε > 0, il en résulte : E(ϕoX) = E(ϕoY) pour toute ϕ ∈ Co.
Soit maintenant A un pavé de Rd , et (Ωn)n une suite décroissante d’ouverts bornés de Rd, de limite A. On
sait qu’il existe pour chaque n une fonction θn à valeurs dans [0,1], égale à 1 sur A et nulle hors de Ωn (on
peut même trouver des θn de classe C∞ ; cf le cours d’intégration). La suite (θn) de fonctions de Co
converge alors simplement vers 1A sur Rd , le théorème de convergence dominée permet alors d’écrire :
lim ⌠θn.dpX = lim E(θnoX) = … lim E(θnoY) = …p(Y∈A),
n→ +∞ ⌡
n→ +∞
n→ +∞
d
de sorte que pX et pY sont égales sur les pavés de R . En vertu du théorème d’unicité, elles sont finalement
égales.
On pourra lire en annexe:
Formule d'inversion quand X est réelle et ΦX intégrable.
p(X∈A) = ⌡
⌠1A.dpX =
Les propriétés suivantes sont immédiates:
•
•
ΦX (0) = 1; |ΦX| ≤ 1 ; ΦX est uniformément continue sur Rd.
∀ a ∈ R , ∀ b ∈ Rd : ΦaX+b(t) = eit.b.ΦX(at).
(ceci se généralise au cas où a est un endomorphisme symétrique de Rd).
•
ΦX(-t) = ΦX(t) . Si d = 1 et si pX est symétrique par rapport à l'origine, alors ΦX est réelle et paire.
Si ΦX est paire, alors elle est réelle.
Si d = 1, le théorème de dérivation sous l’intégrale indique que si X est d’ordre n ≥1, alors ΦX est de classe Cn
sur R , avec:
(n)
ΦX (0) = in.E(Xn).
En pratique, un développement limité de ΦX en 0 permet d’obtenir les premiers moments de la loi de X :
(it)²
ΦX(t) = 1 + E(X).it + E(X2).
+ ot→0(t2)
2
Remarque: une réciproque existe: si ΦX est de classe Cn, alors X est d'ordre 2k, avec 2k ≤ n. Pour une
démonstration, voir [Métivier; notions fondamentales de la théorie des probabilités, p 157].
Exemples :
p(X=k) = pk ; ΦX(t) = GX(eit):
Variables discrètes à valeurs dans N :
•
Si X ~ B(p) : ΦX(t) = peit + 1-p ; si X ~ B(n,p): ΦX(t) = (peit + 1-p)n.
λ+λ2 2
Si X ~ P(λ) : ΦX(t) = exp [λ(eit-1)] = 1+λ(it)+
(it) +o0(t2), et on retrouve E(X) = V(X) = λ.
2
•
Variables réelles à densité:
1
sin at
.1
): ΦX(t) =
.
2a [-a,a]
at
t²
Si X ~ N(0,1) : ΦX(t) = e-t²/2 = 1 - + o(t2).: E(X) = 0; E(X2)=V(X)=1.
2
X-m
Si X ~ N(m,σ) : Y =
~ N(0,1) donc : ΦX(t) = ΦσY+m(t) = eimt.ΦY(σt) = eimt.e-σ² t² /2.
σ
it (it)2
λ
Si X ~ E(λ) : ΦX(t) =
= 1 + + 2 + ot→0(t2); E(X) = 1/λ ; E(X2) = 2/λ2 ; V(X) = 1/λ2 .
λ-it
λ
λ
•
Si X ~ U(-a,a) (densité
•
•
•
Prop 13.
Soient X1,…,Xn des v.a. réelles. Alors:
(X1,…,Xn) est indépendante ⇔ Φ
(X1,…,Xn)
= Φ ⊗…⊗Φ .
X1
Xn
Le sens direct est conséquence de l'indépendance des eitXk .
Réciproquement, l'égalité Φ
Fubini:
⌠e
⌡
i.<x,t>
p ⊗…⊗p
X1
.dp
Xn
X1,…,Xn
(X1,…,Xn)
(x) =
⌠e
⌡
(t1,…,tn) = Φ (t1).… Φ (tn ) pour tout (t1,…,tn) fournit, avec
X1
i.<x,t>
Xn
.d(⊗p )(x) pour tout t dans
Xi
Rn , ce qui indique que p(X1,…,Xn) et
ont même transformée de Fourier . Par injectivité, elles sont égales.
Exemple : si X = (X1,…,Xn) suit la loi N(n)(0,1) sur Rn, nous savons que les Xk sont indépendantes et
n
équidistribuées de loi N(0,1) ; il suit : ΦX(t) = ∏ exp( -ti2/2) = e-||t||²/2.
k=1
n
Prop 14. Si X1, …, Xn sont des v.a. à valeurs dans Rd indépendantes, de somme X, alors ΦX = ∏ Φ .
k=1 Xk
(C’est immédiat, avec l’indépendance des v.a. exp(itXk)).
Exemples:
•
Si X ~ N(m1,σ1), Y ~ N(m2,σ2), X et Y indépendantes, alors X+Y suit la loi N(m1+m2, σ12+σ22 ).
•
1 n
σ
Si X1,…,Xn sont indépendantes de même loi N(m,σ), alors Xn = . ∑ Xk suit la loi N(m,
).
n k=1
n
•
Soit X suivant la loi de Cauchy C(1): ΦX(t) =
+∞
eitx
1
.⌠
2dx
π ⌡1+x
-∞
= e-|t| (utiliser par exemple le théorème des
résidus pour t > 0; ΦX est paire, puisque X est réelle et pX symétrique par rapport à l'origine).
X n'est pas indépendante d'elle-même ( p(X≤0) = 1/2), et pourtant Φ2X (t) = e-|2t| = ΦX(t)2 : la
réciproque de la proposition 14 est fausse.
•
La loi N(n)(0,1) est invariante par transformation orthogonale.
En effet: si u ∈O(Rn), il vient, pour t ∈ Rn et X suivant N(n)(0,1):
Φu(X)(t) = E[exp it.u(X)] = E[ exp iu-1(t).X] = ΦX (u-1(t)) = exp (-||u-1(t)||2/2) = exp(-||t||2/2) = ΦX(t),
d'où le résultat).
•
Soient X et Y deux v.a. réelles indépendantes telles que la loi de (X,Y) soit invariante par rotation.
Nous allons montrer que X et Y suivent une loi centrée de Gauss:
Si deux couples de v.a. réelles (X,Y) et (Z,T) suivent la même loi, alors X et Z (respt Y et T) suivent
la même loi.
L'invariance par rotation indiquant que pour tout θ réel, les couples (Xcos θ-Ysin θ,Xsin θ+Ycos θ)
ont une loi commune sur R2, on en déduit, avec θ = 0 et π/2 que X,Y et X.sinθ+Ycosθ suivent une
même loi µ sur R, et ce pour tout θ.
Soit Φ leur fonction caractéristique commune. On obtient:
indep
∀ θ, t ∈ R : Φ(t) = E(eitXsin θ +itY.cos θ) = E(eitXsin θ.eitYcos θ) === E(eitXsin θ).E(eitYcos θ)
= Φ(t.sin θ).Φ(t.cos θ)
(1).
En prenant θ = π, il en découle que Φ est paire, et donc réelle. En outre, Φ ne s'annule pas sur R; en
effet, s'il existe t > 0 tel que Φ(t) = 0, alors en prenant θ = π/4 dans (1), on obtient Φ(t/ 2) = 0, puis
pour tout n ≥1: Φ(2-n/2.t) = 0, ce qui contredirait Φ(0) = 1 par continuité de Φ.
Ainsi, Φ est strictement positive et paire sur R; posons f(x) = ln Φ( x) pour x ≥ 0, de sorte que l'on a
Φ(x) = exp f(x2) sur R , avec f continue; de (1) on tire:
∀θ, t ∈ R : f(t2) = f(t2.sin²θ) + f(t².cos²θ), soit donc:
∀x, y ≥ 0 : f(x+y) = f(x) + f(y), et f est donc linéaire: f(x) = a.x , où a = f(1) ≠ 0.
-σ²
Il en découle Φ(x) = eax² , et la majoration |Φ| ≤ 1 indique que a est strictement négatif; posant a = 2 ,
il résulte de ceci: Φ(x) = e-σ²x²/2 , et donc X et Y suivent la loi N(0,σ).
5) SUITES DE VARIABLES ALEATOIRES : DIFFERENTES SORTES DE CONVERGENCE
a) Convergence presque sûre.
Soient X1, …, Xn, …, X des v.a. réelles définies sur un même espace probabilisé (Ω,T,p).
Déf 1. La suite (Xn) converge presque sûrement (en abrégé: cvps) vers la variable X si:
p( Xn → X ) = p( {ω∈Ω,
lim Xn(ω) = X(ω) } ) = 1.
n→ +∞
L'ensemble dont on prend la probabilité est bien mesurable: c'est ∩ ∪ ∩ {|Xk-X| < 1/m}. On peut donc
m n k≥n
écrire:
p( [Xn → X]c )
= p ( ∪↑ lim {|Xn-X| ≥ 1/m} ) = lim ↑ p ( lim {|Xn-X| ≥ 1/m} )
m
m
On obtient ainsi une caractérisation de la convergence presque sûre:
Prop 1.
(Xn) cvps vers X
⇔
[ ∀ε > 0 : p( lim {|Xn-X| ≥ ε } ) = 0 ].
⇔
[ ∀ε > 0 :
lim p( sup { |Xk-X| ≥ ε} ) = 0 ].
n→ +∞
k≥n
Remarque:
Le lemme de Borel-Cantelli peut donc se révéler un outil efficace pour établir une propriété de
convergence presque sûre: si, pour tout réel ε > 0, la série ∑ p( |Xn-X| ≥ε ) est convergente, alors (Xn)
cvps vers X.
En guise de "réciproque": si (Xn) est indépendante et cvps vers une constante x, alors pour tout ε > 0, la
série ∑ p( |Xn-x| ≥ε ) converge (car les événements {|Xn-x| ≥ ε} sont indépendants).
b) Convergence en probabilité.
Soient toujours X1, …, Xn, …, X des v.a. réelles définies sur un même espace probabilisé (Ω,T,p).
Déf 2. La suite (Xn) converge en probabilité vers X si: ∀ ε > 0 :
Prop 2.
lim p( |Xn-X| ≥ ε ) = 0.
n→ +∞
La convergence dans un Lk (k ≥ 1) entraîne la convergence en probabilité.
La convergence presque sûre entraîne la convergence en probabilité.
Démonstration:
Le premier résultat est une conséquence immédiate de l'inégalité de Markov:
∀ ε > 0: p(|Xn-X| ≥ ε) ≤ ε-k.E(|Xn-X|)k.
La réciproque est fausse en général; par exemple, soit Ω = [0,1] , p = λ et Xn = n1/k.1[0,1/n]: la suite (Xn)
converge en probabilité vers 0 puisque p( |Xn| ≥ ε ) = 1/n pour n > εk, mais (Xn) ne converge pas vers 0
dans Lk, puisque ||Xn||k = 1 pour tout n.
Le second résultat est clair avec la proposition 1.
La réciproque est fause en général: par exemple, soit Ω = [0,1] et p = λ ; pour n ≥ 1 et 1 ≤ i ≤ n , on note
i-1 i
, ] . On vérifie facilement que la suite (X11, X12 , X22 , X13 , X23 , X33 , … )
Xi,n l'indicatrice de [
n n
converge en probabilité vers 0, mais ne converge en aucun point de [0,1].
c) Convergence en loi.
Soient X1, …, Xn, …, X des v.a. réelles (définies éventuellement sur des espaces probabilisés différents).
Def 3. La suite (Xn) converge en loi vers X si en tout point t de continuité de FX (fonction de répartition de X),
on a
lim FXn(t) = FX(t)
n→ +∞
Prop 3. Les propositions suivantes sont équivalentes:
a)
(Xn) cv en loi vers X.
b)
∀ ϕ ∈ Co : lim E(ϕoXn) = E(ϕoX)
(Co = {ϕ ∈ C(R,R), lim ϕ(x) = 0}).
n→ +∞
|x|→ +∞
c)
∀ ϕ ∈ Cb : lim E(ϕoXn) = E(ϕoX).
(Cb = {ϕ ∈ C(R,R), ∃ M > 0, ∀x∈R , |ϕ(x)|≤ M}).
n→ +∞
d)
(ΦXn) converge simplement vers ΦX sur R.
Démonstration:
[a⇒b]: On a par hypothèse
lim FX (t) = FX(t) sur une partie D dense dans R (l'ensemble des points de
n→ +∞ n
discontinuité de FX est dénombrable).
Pour I = ]a,b] avec a,b∈D: lim FXn(b)-FXn(a) = FX(b)-FX(a), soit: lim ⌡
⌠1I.dpXn=⌠
⌡1I.dpX.
n→ +∞
n→ +∞
lim ⌠ϕ.dpXn = ⌠
⌡ϕ.dpX pour ϕ dans l'espace vectoriel des fonctions étagées
n→ +∞⌡
sur les intervalles I précédents (i.e. les fonctions ϕ ne prenant qu'un nombre fini de valeurs: x1,…,xn , avec
∀k: ϕ-1({xk}) est un intervalle I de ce type).
Une fonction f de Co peut être approchée uniformément à une précision ε arbitraire par une telle fonction
étagée ϕ; on conclut avec une inégalité triangulaire.
Par linéarité: on obtient
[b⇒c]: on suppose [b] vérifié. Soit f ∈ Cb , | f | ≤ M, et ε > 0. Pour a > 0, soit ϕa ∈ Co , 0 ≤ ϕa ≤ 1 , valant
1 sur [-a,a]; il vient:
⌠
⌡[foXn-foX]dp
•
•
•
≤
⌠
⌡[(fϕa)oXn-(fϕa)oX]dp + ⌠
⌡(f(1-ϕa))oX.dp + ⌠
⌡(f(1-ϕa))oXn.dp
≤
⌠[(fϕa)oXn-(fϕa)oX]dp + M.⌡
⌠(1-ϕa)oX.dp + ⌠
⌡
⌡(1-ϕa)oXn.dp

=
①
+ M.(
②
+
③
).
② ≤ p( | X | ≥ a ) → 0 : on fixe a tel que ② ≤ ε .
a → +∞
③ = 1 - E(ϕaoXn) → 1 - E(ϕaoX) = ② ≤ ε (car ϕa ∈ Co) : ∃ N, n ≥N ⇒ ③ ≤ 2ε .
n → +∞
① → 0 (car f.ϕa ∈ Co) : ∃ N' ≥ N, n ≥N' ⇒ ① ≤ ε .
n → +∞
Ainsi: n ≥N' ⇒
⌠
⌡[f(Xn)-f(X)]dp ≤ (1+3M).ε , et on a donc le résultat.
[c⇒a]:On suppose [c] vérifié; soit t un point de continuité de FX :
FXn(t) = p(Xn ≤ t ) = E ( ϕoXn ) avec ϕ = 1]-∞,t] bornée, mais non continue.
Définissons pour k ≥1 les fonctions continues et affines par morceaux encadrantes suivantes:
gk valant 1 sur ]-∞; t-1/k], affine sur [t - 1/k , t] , et valant 0 sur [t , +∞[ ;
hk valant 1 sur ]-∞, t ],
affine sur [t , t+1/k] , et valant 0 sur [t+1/k, +∞[ ,
t-1/k
t
t+1/k
de sorte que: ∀k, n ≥1: E(gkoXn) ≤ FXn(t) ≤ E(hkoXn).
Passons à k fixé aux limites inférieure et supérieure sur n (gk et hk sont dans Cb):
E(gkoX) ≤ lim FXn(t) ≤ lim FXn(t) ≤ E(hkoX).
On déduit alors, puisque 1]-∞; t-1/k] ≤ gk et hk ≤ 1]-∞ , t+1/k] :
p( X ≤ t-1/k) ≤ lim FXn(t) ≤ lim FXn(t) ≤ p(X ≤ t+1/k).
En faisant tendre k vers +∞, on obtient alors le résultat attendu.
[c⇒d] est immédiat, puisque pour t réel, x → eitx est continue et bornée (séparer parties réelle et
imaginaire).
[d⇒b]: (théorème de Paul Lévy) : supposons que ( ΦXn ) converge simplement vers ΦX sur R .
∧
Grâce à la formule déjà rencontrée : E( f oX) =
1
⌠
⌡ΦX(t).f(t)dt pour f ∈ L , le théorème de convergence
lim E(ϕoXn) = E(ϕoX) pour les fonctions de Φ(L1).
n→ +∞
Soit ϕ ∈ Co et ε > 0 ; par densité de Φ(L1) dans (Co, ||.||∞), il existe ψ ∈ Φ(L1) telle que ||ϕ-ψ||∞ ≤ ε.
Soit N ∈ N tel que l’on ait : n ≥N ⇒ |E(ψoXn)-E(ψoX)| ≤ ε . Pour n ≥N, il vient alors :
dominée montre que l’on a
|E(ϕoXn)-E(ϕoX)| ≤ |E(ϕoXn)-E(ψoXn)| + |E(ψoXn)-E(ψoX)| + |E(ψoX)-E(ϕoX)| ≤ ε + ε + ε = 3ε,
d’où le résultat attendu.
R, on dit que (µn) converge étroitement vers une
lim ⌡
⌠ϕ.dµn = ⌡
⌠ϕ.dµ.
Remarque : si (µn) est une suite de probabilités sur
probabilité µ sur R si :
∀ϕ ∈ Co :
n→ +∞
La convergence en loi de (Xn) vers X équivaut donc à la convergence étroite de (pXn) vers pX .
Exemple: soit (Xn) telle que chaque Xn suit la loi géométrique G(λ/n) (λ > 0 donné), et (Yn) = (
Xn
).
n
λ.eit
λ
on tire ΦYn(t) = ΦXn(t/n) →
: (Yn) converge en loi vers une v.a. Y
n(1-eit)+λeit
λ-it
n → +∞
suivant la loi exponentielle E(λ).
De ΦXn(t) =
Autres remarques:
•
De [c], on tire facilement la propriété suivante: si (Xn) converge en loi vers X et si f est une fonction
continue de R dans R , alors f(Xn) converge en loi vers f(X).
•
Soient X1,…,Xn,…X,Y1,…,Yn,…,Y définies sur un même espace probabilisé (Ω,B,p), telles que
(Xn) converge en loi vers X et (Yn) converge en loi vers Y. Soit ϕ une fonction de R2 dans R . En
général, ϕ(Xn,Yn) ne converge pas en loi vers ϕ(X,Y).
Par exemple, si Xn = X suit la loi B(1/2): Xn converge en loi vers X et 1-X, mais 2Xn ne converge pas
en loi vers 1. Nous verrons toutefois plus loin un cas où le résultat est vrai.
Prop 4.
La convergence en probabilité entraîne la convergence en loi.
La convergence en loi vers une v.a. constante X = m entraîne la convergence en probabilité vers X.
Démonstration:
Supposons que (Xn) converge en probabilité vers X; soit ϕ ∈ Co , et ε > 0; la continuité uniforme de ϕ sur
R entraîne l'existence de α > 0 tel que |u-v| < α ⇒ |ϕ(u)-ϕ(v)| ≤ ε; il suit, notant M = ||ϕ||∞:
| E(ϕoXn) - E(ϕoX)| ≤
⌠|ϕoXn- ϕoX|.dp +
⌡
⌠|ϕoXn- ϕoX|.dp ≤ ε + 2M.p(|Xn-X| > α); on conclut.
⌡
|Xn-X| < α
|Xn-X| ≥ α
La réciproque est fausse: soit par exemple (Xn) constante: ∀n, Xn = X, où X suit la loi B(1/2); (Xn)
converge en loi vers X, mais aussi vers Y =1-X, puisque pX = p1-X ; cependant, (Xn) ne converge pas en
probabilité vers Y, puisque p(|Xn-Y| = 1) = 1.
Supposons que (Xn) converge en loi vers une v.a. constante X = m:
FX = 1[m,+∞[ est continue en tout point autre que m; soit ε > 0; il vient:
p( |Xn-m| > ε ) = p( Xn > m+ε ) + p( Xn < m-ε)
= 1 - FXn(m+ε) + FXn(m-ε) - p(Xn=m-ε)
≤ 1 - FXn(m+ε) + FXn(m-ε)
et cette dernière quantité a pour limite 1 – FX(m+ε) + FX(m-ε) = 1 – 1 + 0 = 0 quand n tend vers +∞.
Récapitulons:
convergence presque sûre
⇓
convergence en probabilité ⇒ convergence en loi
récip.si la limite est constante
⇑
d
convergence dans L
Dans le cas discret, on a les caractérisations suivantes:
Prop 5.
Si X1,…Xn,… X sont à valeurs dans N , les propositions suivantes sont équivalentes:
a)
(Xn) converge en loi vers X.
b)
∀k: lim p(Xn = k) = p(X = k).
n→ +∞
c)
(GXn) converge simplement (ou uniformément) vers GX sur D(O,1) .
Démonstration:
[a⇒b]: on suppose que (Xn) converge en loi vers X; soit k entier fixé, et ϕ ∈ Co valant 1 en k et 0 aux
autres valeurs entières; alors E(ϕoXn) = p(Xn = k) → p(X = k) = E(ϕoX).
n → +∞
[b⇒c]: on note pk = p(X=k), et pk,n = p(Xn = k). Supposons b); pour |z| ≤ 1, n, N ∈ N , il vient:
N
+∞
+∞
|GX(z) - GXn(z)|
≤ ∑ |pk -pk,n| + ∑ pk + ∑ pk,n = ①+②+③ .
k=0
k=N+1
k=N+1
Soit ε > 0; choisissons N tel que ② ≤ ε, puis q tel que pour n ≥q on ait ① ≤ ε . Cette dernière inégalité
entraîne aussi:
N
∑ (pk -pk,n) ≤ ε, soit donc: |③-②| ≤ε, puis ③ ≤ ε + ② ≤ 2ε.
k=0
Alors pour n ≥q et |z| ≤1, on a: |GX(z) - GXn(z)| ≤ ε + ε + 2ε = 4ε, et on conclut.
[c⇒a]: si (GXn) cvs vers (GX) sur D(O,1) , alors ΦXn(t) = GXn(eit) → GX(eit) = ΦX(t) pour tout réel
n → +∞
t, et (Xn) converge donc en loi vers X.
Remarque: comme on l'a vu dans un exemple précédent, une suite de v.a. discrètes peut converger en loi
vers une v.a. non discrète: quand (Yn) = (Xn/n) , Xn suivant la loi G(λ/n), GYn converge simplement sur
D(O,1) vers 1{1} , qui n'est pas une fonction génératrice.
Exemples:
• Si Xn suit la loi binomiale B(n,λ/n) (λ > 0, espérance commune aux Xk) et si les Xk sont
indépendantes, alors (Xn) converge en loi vers une v.a. suivant la loi de Poisson P(λ). (évident avec
les fonctions génératrices).
Pour p petit, le polygone des fréquences de la loi B(n,p) présente une forte dyssymétrie, que l'on
retrouve pour les petites valeurs de λ dans celui de la loi P(λ). Pour λ ≥15, la distribution de P(λ) est
par contre fortement symétrique (et son polygone des fréquences est très voisin de la courbe en
cloche de la loi gaussienne ; voir après, le théorème central limite).
En pratique, on obtient des résultats acceptables lorsque l'on approxime
B(n,p) par P(np) pour [n ≥50 , p ≤ 0,1 , np ≤ 15] .
> with(stats): n:=50: p:=0.1:
>gr1:=plot([seq([k,statevalf[pf,binomiald[n,p]](k)],k=0..20)],
colour=blue):
> gr2:=plot([seq([k,statevalf[pf,poisson[n*p]](k)],k=0..20)]):
> plots[display]({gr1,gr2});
Supposons par exemple que dans des conditions normales de fonctionnement, la quantité de pièces
défectueuses usinées par une machine est de 1%.
En considérant que la machine est bien réglée, le nombre de pièces défectueuses dans une caisse de
100 pièces, suit la loi B(102,10-2), que l'on approxime par la loi P(1).
La probabilité pour qu'il y ait moins de 2 pièces défectueuses dans la caisse est donc:
p(X < 2) # 2/e # 0,735758 (la valeur exacte est 0,99100 + 0,9999 # 0,735761...)
•
Considérons une urne contenant N boules blanches ou noires, les blanches étant en proportion p et les
noires en proportion q = 1-p (soit donc Np boules blanches et Nq boules noires). On tire
successivement n boules sans remise de l'urne (n ≤ N). La variable X donnant le nombre de boules
blanches obtenues est décrite par la loi:
p(X = k) =
k
n-k
CNp.CNq
n
CN
pour 0 ≤ k ≤ n (avec les conventions usuelles).
C'est la loi hypergéométrique H(N,n,p).
N-n
Quelques calculs fournissent: E(X) = np et V(X) = Npq.
.
N-1
Fixons n et p, et considérons une suite (XN)N≥n de v.a. où XN suit la loi H(N,n,p).
Pour k ∈{0,…,n} et N ≥ n, il vient:
P(XN = k) =
n! . (N-n) ! . (Np)! . (Nq)!
k (Np)! (Nq)! (N-n)!
= Cn.
,
N! . k! . (Np-k)! . (n-k)! . (Nq-n+k)!
N! (Np-k)! (Nq-n+k)!
k
k (Np)k.(Nq)n-k
= Cn . pkqn-k .quand N tend vers +∞:
expression équivalente à Cn.
Nn
(XN) converge donc en loi vers une variable binomiale de paramètres n et p.
Ce résultat est très important dans les applications: si N est grand devant n, il revient à peu près au
même de tirer un échantillon de n boules avec ou sans remise.
Dans le cas de variables à densité, on a la condition suffisante suivante:
Prop 6. Si les Xn sont à densités fn , si (fn) converge presque partout vers f et s'il existe g intégrable telle que l'on
ait: ∀pp t , ∀n : |fn(t)| ≤ g(t), alors (Xn) converge en loi vers une v.a. à densité f.
Démonstration: le théorème de convergence dominée prouve que que f est une densité de probabilité, puis
qu'à x fixé, Φ (x) tend vers ΦX(x), où X est une v.a. de densité f.
Xn
Exemple: Si Y et Z sont deux v.a. réelles indépendantes, Y suivant la loi N(0,1) et Z suivant la loi du
ℵ2(n), alors un calcul simple montre que Un = n.
Y
Z
suit la loi de densité
n+1
Γ(
2
t2 1
.
gn(t) = an.1 +  2 avec an =
n
 n
nπ
n+1
Γ(
)
2)
appelée loi de Student t(n) à n degrés de liberté.
On vérifie avec la formule de Stirling ( Γ(x) ~
+∞
2
t par un M > 0) ; de lim 1 + 
n

n→ +∞
n+1
2
2π.xx-1/2.e-x ) que
1
lim an =
(an est donc majorée
2π
n→ +∞
= e-t²/2 . La suite (gn) converge donc simplement sur
R vers la
densité de N(0,1).
De plus, pour n ≥ 2 et t ≥ 0, la formule du binôme fournit:
6
6
6
1+t²n+1 ≥ (n+1)n(n-1). t 3 = 1- 1 .t ≥ t
n
6
 n
 n² 6 9
et donc: |gn(t)| ≤ M.(1[-1,1](t) +
3
.1
|t|3 R
-[-1,1]
(t)) , fonction intégrable sur R .
Il en résulte que (Un) converge en loi vers une v.a. normale centrée réduite.
densité de
t(2k),
k=1..5
Remarque: Inversement, si Xn est à densité fn , X à densité f , et si les Φn sont intégrables et bornées par
une même fonction H intégrable, alors la formule d'inversion de Fourier montre que si (Xn) converge en
loi vers X, (fn) converge alors simplement vers f presque partout.
Le contre-exemple qui suit incline toutefois à la prudence:
sin 2πnx
sur [0,1]:
2πn
(Xn) converge en loi vers une variable X suivant la loi uniforme sur [0,1], mais (fn) ne converge pas
simplement sur [0,1].
Soit Xn à densité fn(x) = 1-cos 2πnx sur [0,1], de fonction de répartition Fn(x) = x -
-------------------------------------------------------------------------------------------------------------------------------
6) ECHANTILLONS D'UNE LOI. DEFINITIONS ET NOTATIONS POUR LA SUITE
Pour décrire un caractère quantitatif ou qualitatif sur les éléments d'une population S nombreuse, on est amené à
travailler sur des échantillons statistiques représentatifs de cette population; procéder à un échantillonnage de
taille n consiste à choisir indépendamment et avec une loi uniforme n individus de la population.
Une fois le caractère quantifié par un paramètre réel x, on dispose d'un échantillon (x1,…,xn) du paramètre, qui
2
possède une moyenne me et une variance σe :
1 n
me = . ∑ xk
n k=1
2
σe =
1 n
. ∑ (x - me)2
n k=1 k
et on peut se poser la question de savoir si ces valeurs sont des estimations acceptables (voire améliorables) de la
moyenne et de la variance du paramètre étudié sur la population entière. Nous reviendrons sur ceci dans un
prochain paragraphe.
Un échantillon aléatoire (théorique) de taille n d'une loi de probabilité µ sur R sera représenté par un n-uplet
(X1,…,Xn) de v.a. réelles, indépendantes et équidistribuées de loi commune µ et appelé n-échantillon de µ.
Par analogie avec le modèle statistique, on définit deux nouvelles variables aléatoires: la moyenne Xn et la
2
variance sn de l'échantillon:
1 n
Sn
Xn = . ∑ X k =
n
n k=1
1 n
2
sn = . ∑ (Xk - Xn )2 .
n k=1
Si les Xn sont intégrables d'espérance commune m, on écrira que (X1,…,Xn) est un n-échantillon de µ[m].
Si les Xn sont d'ordre 2 et d'écart-type σ , on écrira que (X1,…,Xn) est un n-échantillon de µ[m,σ].
Le cas échéant, on retiendra les résultats suivants:
E( Xn ) = m ; V( Xn ) =
σ²
n-1 2
2
; E(sn ) =
σ.
n
n
1 n
. ∑ (X -m)2 - ( Xn -m)2 ).
n k=1 k
2
( pour le dernier résultat, on pourra remarquer que sn =
Par analogie avec la procédure statistique d''échantillonnage, et dans un sens qui va être précisé, Xn est un
2
estimateur de m, et sn un estimateur de σ2.
On définit deux nouvelles variables d'erreur (lorsque c'est possible):
•
l'erreur sur la moyenne en = Xn - m; E(en) = 0 ; on dit que l'estimateur Xn est non biaisé, ou sans biais.
•
l'erreur sur la variance: en' = sn - σ2 ; E(en') = -
2
σ2
2
: l'estimateur sn est dit biaisé.
n
2
On rencontrera pour cette raison un nouvel estimateur τn =
n 2
2
.s non biaisé de σ2 ( E(τn) = σ2 ).
n-1 n
Enfin, nous serons amenés à énoncer des résultats asymptotiques sur les n-échantillons d'une loi lorsque n tend
vers +∞ . Pour abréger les énoncés qui vont suivre::
Une suite (Xn) de v.a. indépendantes et équidistribuées de loi µ sera appelée N-échantillon de µ
(resp de µ[m], de µ[m,σ] si elles sont intégrables de moyenne m, ou d'ordre 2, de moyenne m et d'écart-type σ) .
----------------------------------------------------------------------------------------------------------------------------------------
7) ESTIMATEURS POUR UNE LOI NORMALE
Rn étant muni de sa structure euclidienne usuelle (le p.s. de x et y est noté x.y , et ||x||2 = x.x), nous avons déjà
démontré les résultats suivants:
•
Si X1,…,Xn sont des v.a. réelles: X = (X1,…,Xn) est un n-échantillon de N(0,1) si et seulement si X suit la
loi N(n)(0,1) sur Rn.
•
Si X est un n-échantillon de N(0,1), alors ||X||2 suit la loi ℵ2(n).
•
Si Y et Z sont deux v.a. réelles indépendantes, Y suivant la loi N(0,1) et Z suivant la loi du ℵ2(n), alors n
Y
.
suit la loi de Student t(n) à n degrés de liberté.
Z
•
La loi N(n)(0,1) est invariante par transformation orthogonale. Autrement dit, si X est un n-échantillon de
N(0,1), ses composantes dans toute base orthonormée de Rn forment encore un n-échantillon de N(0,1).
Le théorème suivant est conséquence immédiate de ces propriétés:
Théorème de Cochran: si Rn est somme directe orthogonale de E1,…,Ep , de dimensions r1,…,rp, et si X est un
n-échantillon de N(0,1), alors:
•
les projections orthogonales XE1 , … , XEp de X sur E1,…,Ep sont indépendantes.
•
XEk suit la loi Nrk(0,1) pour chaque k.
•
||XE1||2 , …. ||XEp||2 sont indépendantes et ||XEk||2 suit la loi ℵ2(rk).
X1-m
Xn-m
,…,
) dans la
σ
σ
n
-1/2
somme directe orthogonale R = D ⊕ H, avec D = R.e, où e = n .(1,…,1): il vient Y = YD + YH, avec:
Soit maintenant X = (X1,…,Xn) un n-échantillon de µ = N(m,σ). Décomposons Y = (
YD = (e.Y)e =
n
.( Xn -m).e
σ
||YH||2 = ||Y||2 - ||YD||2 =
n 1 n
n
. . ∑ (X -m)2 - ( Xn -m)2 = 2 .sn2.
σ2  n k=1 k
σ

On obtient alors en corollaire du théorème de Cochran quatre résultats (dont un que l'on connaissait déjà):
Théorème. Si (X1,…,Xn) est un n-échantillon de N(m,σ), alors:
•
•
Xn et sn2 sont indépendantes; n.
Tn =
sn2
suit la loi ℵ2(n-1).
σ2
n
.( Xn -m) suit la loi N(0,1).
σ
Xn -m
σ
( = .Tn ) suit la loi de Student t(n-1) (et converge en loi vers N(0,1)).
sn
τn
---------------------------------------------------------------------------------------------------------------------------------------•
Un =
n-1.
8) LOI(S) DES GRANDS NOMBRES
On considère dans ce paragraphe et dans le suivant des v.a. réelles Xo, …, Xn, …, X définies sur un même espace
probabilisé (Ω,T,p).
LOI FORTE DES GRANDS NOMBRES:
Si (Xn) est un N-échantillon d'une loi µ[m], alors ( Xn ) converge presque-sûrement vers m.
Ce résultat non évident (et hors programme) est démontré en annexe: deux lois fortes des grands nombres).
2
2
Corollaire: si (Xn) est un N -échantillon d'une loi µ[m,σ], alors sn (et τn ) convergent presque sûrement vers σ2.
1 n
2
(sn = . ∑ (Xk-m)2 - ( Xn -m)2 : on applique la loi forte aux v.a. indépendantes (Xk-m)2 de moyenne
n k=1
commune σ2 ).
Par des procédés élémentaires, prouvons la "loi faible" suivante (au programme):
Loi faible des grands nombres. Si (Xn) est un
N-échantillon d'une loi µ[m], alors ( Xn ) converge en
probabilité vers m.
Preuve: on prouve la convergence en loi, ce qui est équivalent dans le cas d'une limite constante: soit Φ la
fonction caractéristique commune aux Xk; il vient:
Φ(t) = 1 + imt + t.ε(t) avec lim ε(t) = 0.
t→ 0
Alors pour t fixé, on déduit (indépendance):
Φ
Xn
(t) = ΦSn(t/n) = [Φ(t/n)]n = [ 1 +
= exp [imt + on→+∞(1)], d'où:
imt t
t
imt
1
+ .ε( )] n = [ 1 +
+ on→+∞( ) ]n
n n n
n
n
lim Φ
(t) = eimt = Φm(t) ,
X
n
n→ +∞
où m désigne la v.a. constante égale à m, d'où le résultat.
Remarque: si les Xn sont d'ordre 2 et de variance σ, on a même la convergence de (Xn) vers m dans L2,
σ2
sans utiliser les fonctions caractéristiques, puisque E(| Xn - m|2) = V( Xn ) = tend bien vers 0 avec n.
n
L'inégalité de Bienaymé-Chebychev fournit dans ce cas l'inégalité:
∀n ≥1, ∀ ε > 0 : p( | Xn -m| ≥ ε ) ≤
σ2
.
nε2
Par le même raisonnement élémentaire, si (Xn) est une suite de v.a. réelles d'ordre 2, deux à deux non
corrélées de même espérance m et telle que la suite (V(Xn)) soit bornée, alors ( Xn ) converge en
probabilité vers m.
On pourra consulter en annexe: une amélioration de l'inégalité de Bienaymé Chebychev lorsque l'on a à
disposition des majorants A et B des |Xn| (ps) et de σ2.
Applications:
a) Le théorème de Bernstein (application de l'inégalité de Bienaymé-Chebychev, loi faible):
Soit f ∈ C([0,1]); pour x∈[0,1], considérons des v.a. Xn indépendantes de loi commune B(x) (Bernoulli),
chaque Sn suivant donc la loi B(n;x).
Le nème polynôme de Bernstein Bn(f) a alors en x la valeur
n
n
k
k
k
k
Bn(f)(x) = ∑ f( ).Cn.xk.(1-x)n-k = ∑ f( ).p( Xn = ) = E ( f( Xn ) ).
n
n
n
k=0
k=0
Soit ε > 0, α > 0 tel que : |u-v| ≤α ⇒ |f(u)-f(v)| ≤ ε (uniforme continuité de f) et M = || f ||∞. Il vient:
|Bn(f)(x)-f(x)| = | E(f( Xn )) - f(x)| ≤ E( |f( Xn ) - f(x)| )
=
⌠
⌡|f( Xn )-f(x)|.dp +
| Xn -x| ≤ α
⌠
⌡|f( Xn )-f(x)|.dp
| Xn -x| > α
x(1-x)
M
≤ε+
.
nα²
2nα²
cette dernière quantité pouvant être rendue ≤ 2ε pour n assez grand, et ceci indépendemment de x, il en
résulte que (Bn(f)) converge uniformément sur [0,1] vers f.
≤ ε + 2M.p ( | Xn - x| > α ) ≤ ε + 2M.
Le théorème de Bernstein en découle: l'espace des fonctions polynomiales de [a,b] dans K
est dense dans C([a,b],K) pour la norme de la convergence uniforme.
(K=R ou C)
b) Un théorème de Borel (application de la loi forte):
On choisit un nombre au hasard dans [0,1[ , et on note Xn sa nème décimale binaire (dans son unique
développement dyadique pur, i.e. non stationnaire à 1). Montrons que la suite (Xn) ainsi définie est
indépendante:
Pour n ≥ 1 et (x1,..,xn) ∈ {0,1}n :
p(X1=x1 , …, Xn=xn) = λ

[
n xk n xk 1
∑ k, ∑ k+ n
k=12 k=12 2
[ = 21n .
Il en découle:
p(X1= x1) =1/2;
∀k≥ 2: p(Xk = xk) =
1
∑
p(X1 = x1,…,Xk=xk) = 2k-1. k = 1/2 ,
k-1
2
(x1,…,xk-1)∈{0,1}
n
puis: p(X1=x1 , …, Xn=xn) = ∏ p(Xk = xk).
k=1
On en déduit que (Xn) est indépendante et que chaque Xk suit la loi de Bernoulli B(1/2).
La loi forte des grands nombres indique alors que Xn converge presque sûrement vers 1/2.
Autrement dit, dans presque tout nombre de [0,1[, la fréquence d'apparition des 1 tend vers 1/2. On
obtiendra le même résultat pour la fréquence d'apparition des 0.
Le résultat s'étend en base quelconque; par exemple, pour presque tout nombre x ∈ [0,1[, la fréquence
d'apparition dans le développement décimal de x de chacun des chiffres 0,1,…,9 tend vers 1/10.
Un réel x tel que x - E(x) possède cette propriété est dit normal en base 10. Presque tous les réels sont
donc normaux. A l'heure actuelle, on ne sait toujours pas si π est normal.
Simulation avec MAPLE de la loi faible pour un N –échantillon de B(m).
Nous allons :
- fixer une valeur plafond N dans laquelle variera l'entier n;
- effectuer T expériences indépendantes Xi,1,...,Xi,N , i = 1..T , chaque Xi,j simulant B(m);
- calculer pour chacune des expériences i = 1..T et pour chaque n = 1..N la valeur
Si,n = Xi,1+...+Xi,n simulant la v.a. Sn;
- évaluer pour chaque n = 1..N la fréquence fn = Card{ i = 1..T, |Si,n/n – m| ≥ ε }/ T , qui simule la
probabilité p( |Sn/n –m| ≥ε);
- représenter graphiquement f en fonction de n ;
- comparer les résultats obtenus avec:
m(1-m)
;
- la majoration de Bienaymé-Chebichev: p( |Sn/n - m| ≥ ε) ≤
nε²
-β²A²n
- la majoration améliorée (cf annexes) avec A=1, βA=ε , B=m(1-m)et p( |Sn/n - m| ≥ ε) ≤ 2exp
 4B 
> restart:
> T:=40: N:=500: m:=.5: epsilon:=0.05:
> X:=matrix(T,N,(i,j)->rand(0..1)()):
> S:=matrix(T,N,(i,j)->sum(X[i,k],k=1..j)):
> for n from 1 to N do f[n]:=0:
for i from 1 to T do if abs(S[i,n]/n-m)>=epsilon
then f[n]:=f[n]+1/T
fi:
od:
od:
> graphe1:=plot([seq([n,f[n]],n=1..N)],colour=red):
> graphe2:=plot(m*(1-m)/(x*epsilon^2),x=1..N,y=0..1,colour=blue):
> A:=1: beta:=epsilon/A: B:=m*(1-m):
> graphe3:=plot(2*exp(-(beta^2)*(A^2)*x/(4*B)),x=1..N,colour=green):
> plots[display]({graphe1,graphe2,graphe3});
-------------------------------------------------------------------------------------------------------------------------------
9) LE THEOREME DE LA LIMITE CENTRALE
Les notations sont les mêmes qu'au paragraphe 6; les v.a. X1,…,Xn,…,X peuvent être définies sur des espaces
probabilisés différents.
THEOREME CENTRAL LIMITE (TCL). Si (Xn) est un N-échantillon d'une loi µ[m,σ], alors:
Tn =
n
Sn - nm
=
.( Xn -m) converge en loi vers une v.a. normale centrée réduite (en abrégé:VNCR).
σ
σ. n
Corollaire: dans les mêmes conditions:
Un =
n-1
.( Xn -m) converge en loi vers une VNCR.
sn
Démonstration du théorème: soit Φ la fonction caractéristique commune aux variables centrées Xn-m :
σ²x²
E(Xn-m) = 0 et E((Xn-m)2) = σ2 , donc Φ(x) = 1 + x2.ε(x) avec lim ε(x) =0.
2
x→0
n Xk-m
Sn - nm
Tn =
= ∑
et ces variables sont indépendantes, donc pour t réel fixé:
σ. n
k=1 σ n
n
t n 
t²
t²
t
t²
1 n
t²
ΦTn(t) =Φ(
) = 1+
.ε (
)  =  1 - + on→∞( )  = exp ( - + on→∞(1) ),
2n
2n
n
2


nσ²
σ n 
 σ n  
-t²/2
donc lim ΦTn(t) = e , fonction caractéristique d'une VNCR, d'où le résultat.
n→ +∞
Extension: on peut énoncer un résultat avec des variables non équidistribuées (la démonstration n'est pas
n
σk2
plus compliquée): en posant E(Xn) =mn, V(Xn) = σn2 , sn2 = ∑ σk2 et en supposant: ∀k: lim
2 = 0,
k=1
n→ +∞ sn
(X1-m1) + … + (Xn-mn)
converge en loi vers une VNCR.
on déduira que la v.a.
sn
Démonstration du corollaire:
Etablissons tout d'abord un lemme:
Lemme: soient Y1,…,Yn,…,Z1,…,Zn,…,Z des v.a. réelles définies sur un même espace
probabilisé. Si (Yn) converge en loi vers une constante a et si (Zn) converge en loi vers Z, alors
(Yn , Zn) converge en loi vers (a,Z), et en conséquence: pour toute fonction continue ψ de R2 dans
R , ψ(Yn,Zn) converge en loi vers ψ(a,Z).
Preuve du lemme: on étend facilement les définitions et résultats pour la convergence en loi au cas
de vecteurs aléatoires à valeurs dans R2. En particulier, nous vérifions la convergence annoncée à
l'aide des fonctions caractéristiques: pour (u,v) ∈ R2, il vient:
(u,v) - Φ
(u,v) | ≤ | Φ
(u,v) - Φ
(u,v) | + | Φ
(u,v) - Φ
(u,v) |
|Φ
(Yn,Zn)
(a,Z)
(Yn,Zn)
= | E(e
≤ E( |e
(a,Zn)
i(uYn+vZn)
iuYn
-e
i(ua+vZn)
(a,Zn)
(a,Z)
| + | eiua( Φ (v) - Φ (v) ) |
Zn
Z
iua
- e | ) + |Φ (v) - Φ (v)|.
iuy
Zn
iua
Z
Soient ε > 0, η > 0 tel que [ |y-a| < η ⇒ |e - e | < ε ], et N ∈N tel que n ≥N entraîne
p( |Yn-a|≥η) < ε (convergence en probabilité de (Yn) vers a) et |Φ (v) - Φ (v)| < ε (convergence
Zn
en loi de (Zn) vers Z).
Pour n ≥N, on obtient: | Φ
(u,v) - Φ
(Yn,Zn)
Z
(u,v) | ≤ ε + 2.p( |Yn-a| ≥ η) + ε ≤ 4ε.
(a,Z)
Le théorème de Levy prouve le résultat.
σ
(cvps vers 1, Zn = Tn et ψ(y,z) = yz.
τn
Rappel: si µ[m,σ] = N(m,σ), on se reportera aux résultats plus précis du paragraphe 6.
Il suffit alors d'appliquer ce qui précède à Yn =
Applications :
a) Approximation d'une loi binomiale par une loi normale.
Soit (Xn) un N -échantillon de la loi de Bernoulli B(p) (et q = 1-p).
Sn-np
converge en loi vers une VNCR.
La v.a. Sn suit la loi B(n,p), et le TCL indique que
npq
En d'autres termes: pour n assez grand, une v.a. Sn suivant la loi B(n,p) suit approximativement la loi
N(np, npq ).
Pour p et q non voisins de zéro et n ≥15, le polygone des fréquences de la loi B(n,p) est fortement
symétrique et son enveloppe évoque une courbe gaussienne.
On obtient en pratique des résultats acceptables lorsque
l'on approxime
B(n,p) par N(np, npq) pour [n ≥ 15, p et q non voisins de 0]
with(stats):
> n:= 20:p:=0.4:
>gr1:=plot(statevalf[pdf,normald[n*p,sqrt(n*p*(1-p))]],
0..20,colour=blue):
> gr2:=plot([seq([k,statevalf[pf,binomiald[n,p]](k)],k=0..20)]):
> plots[display]({gr1,gr2});
(si p ou q est voisin de 0, on se reportera à l'approximation par une loi de Poisson vue au paragraphe 5).
•
Les résultats d'une élection ont donné 45% des voix en faveur d'un candidat.
Déterminons rétrospectivement la probabilité qu'un échantillon aléatoire de 200 personnes ait donné
la majorité à ce candidat:
le nombre S200 de votes favorables de l'échantillon suit la loi B(200;0,45) que l'on approxime par
N(200.0,45; 200.0,45.0,55) # N(90; 7,03); il suit:
S200 - 90
> 1,42 ) # 0,08.
p( S200 > 100 ) = p (
7,03
(pour n = 1000, on obtient une probabilité de 0,0007).
b) Approximation d'une loi de Poisson par une loi normale:
Soit (Xn) un
N-échantillon de la loi de Poisson P(α) (α> 0); (m = σ² = α); alors
Sn-nα
converge en loi
nα
vers une v.n.c.r. Sn suit la loi P(nα).
On considérera que, pour λ grand, une v.a. Sn suivant la loi P(λ) suit approximativement la loi N(λ, λ).
On obtient en pratique des résultats acceptables lorsque l'on
approxime P(λ
λ) # N(λ
λ, λ ) pour λ > 15 .
(cf. remarque déjà faite sur le polygone des fréquences de P(λ)).
> with(stats):
> lambda:=15:
>gr1:=plot(statevalf[pdf,normald[lambda,sqrt(lambda)]],
0..30,colour=blue):
> gr2:=plot([seq([k,statevalf[pf,poisson[lambda]](k)],k=0..30)]):
> plots[display]({gr1,gr2})
•
0
n nk
Sn-n
1
en
Avec α = 1, l'égalité lim p(
≤0)=
.⌡
⌠e-x²/2dx fournit : ∑ k! ~ 2 .
n
2π
n→ +∞
k=0 n→∞
-∞
c) Théorème central limite avec une loi uniforme:
Si (Xn) est un
N-échantillon de la loi uniforme sur [-a,a] (a > 0 donné : m = 0 , σ =
a
3.Sn
), alors
3
a. n
converge en loi vers une VNCR.
•
On décide dans un programme de calcul de travailler avec N chiffres significatifs après la virgule
(tous les résultats sont donc arrondis, et on travaille à chaque opération à 0,5.10-N près).
Supposons que l'on effectue 106 opérations, les erreurs commises étant indépendantes et suivant la loi
uniforme sur [-0,5.10-N; 0,5.10-N]. On considère en outre que les erreurs s'additionnent et sont
indépendantes.
Appliquons ce qui précède (en considérant que 106 est assez grand) lorsque Xn désigne l'erreur faite à
la nème opération: la proba. pour que le résultat final soit connu à 0,5.10-N+3 près est:
p( |S
| ≤ 0,5.10
106
-N+3
2 3.|S106|
)=p(
≤
10-N+3
3) #
1
.
2π
3
-t²/2
⌠
⌡e dt # 0,92.
- 3
Sur un million d'opérations, on considérera donc que l'on a perdu au plus trois chiffres significatifs
avec une probabilité de 92%.
Remarque: ne pas confondre chiffres significatifs et décimales exactes: une valeur xo à N chiffres
significatifs d'un réel x peut avoir jusqu'à 2 décimales incorrectes (par exemple, 0,390 est une valeur
à trois chiffres significatifs de 0,3897, puisque |0,3897-0,390| = 0,3.10-3 < 0,5.10-3.
d) Une preuve probabiliste de la formule de Stirling:
Soit (Xn) un N-échantillon de la loi exponentielle E(1) (densité e-x sur R+; m = σ² = 1).
n
Nous avons vu que pour n ≥1, Sn = ∑ Xk suit la loi de Erlang de paramètres 1, n (cf processus de
k=1
xn-1.e-x
Sur R+.
Poisson), de densité
(n-1)!
Sn-n
Le T.C.L. indique que (Yn) = 
converge en loi vers une VNCR Y. Un calcul simple fournit d'autre
 n
part:
+∞
1
2nn. n.e-n
n-1 -x
E( |Yn| ) =
.⌠
.e
.dx
=
(1).
|x-n|.x
n!
(n-1)!. n ⌡
0
+∞
Mais E( |Yn| ) = ⌡
⌠p( |Yn| > t ).dt (cf paragraphe 4b) , et :
!
!
0
La convergence en loi de (Yn) vers Y entraîne: ∀t ≥0:
lim p( |Yn| > t) = p( |Y| > t);
n→ +∞
V(Yn) 1
L'inégalité de Bienaymé-Chebychev fournit: ∀n, ∀t ≥ 1: p( |Yn| > t) ≤ 2 = 2 , et la suite
t
t
1
( t → p(|Yn| > t) est donc majorée par 1[0,1] + 2.1[1,+∞[ , fonction intégrable sur R+.
t
Le théorème de convergence dominée fournit:
+∞
1
lim E( |Yn| ) = ⌡
.⌡
⌠p( |Y| > t).dt = E( |Y| ) =
⌠|x|.e-x²/2.dx =
2π
n→ +∞
R
0
En reportant dans (1), on obtient la formule de Stirling.
2
.
π
e) Prix d'une action en bourse:
On modélise la valeur d'une action en bourse en considérant qu'elle passe de l'instant n-1 à l'instant n en
augmentant dans une proportion r > 0 (taux d'actualisation) et en variant de façon positive ou négative
dans une proportion ν (volatilité); on pose donc: Vo > 0 , et pour n ≥1:
Vn = (1 + r + εn.ν).Vn-1 ,
1
où la suite (εn) est supposée indépendante et équidistribuée de loi .(δ-1+δ1).
2
On suppose de plus que la volatilité n'est pas trop importante devant le taux d'actualisation:
0 < ν < 1+r.
Ainsi, Vn est strictement positif pour tout n, et l'on a:
n
ln Vn = ln Vo + ∑ ln(1+ r + ν.εk) = ln Vo + Sn (notations du TCL).
k=1
1
Les v.a. ln(1+r+νεn) sont indépendantes de loi commune .( δln(1+r-ν) + δln(1+r+ν) ), de moyenne
2
1
m = .ln [(1+r)2-ν2].
2
1
La loi forte des grands nombres indique donc que .ln Vn converge presque sûrement vers m, d'où:
n
Si r < ν²+1 - 1 : m < 0 et (Vn) converge presque sûrement vers 0.
Si r > ν²+1 - 1 : m > 0 et (Vn) converge presque sûrement vers +∞.
La variance commune aux variables centrées ln(1+r+νεn) est
1
1
1
1+r+ν
σ2 = .( ln²(1+r+ν) + ln²(1+r-ν) ) - .ln²((1+r)²-ν²) = .ln² 1+r-ν .
2
4
4
Le TCL indique alors que
(e-nm.Vn)
1/ n
ln Vn - nm
converge
σ n
Vn
=
en loi vers une VNCR Y, et donc que
1/ n
[(1+r)2-σ²]
1/2 n
converge en loi vers eσY , dont la densité f sur R+ s'obtient facilement: f(x) =
1
xσ 2π
.exp  -
ln²x
 2σ² 
(loi log-normale centrée).
-------------------------------------------------------------------------------------------------------------------------------
10) JUGEMENT SUR ECHANTILLON; INTERVALLE DE CONFIANCE ET TEST D'HYPOTHESE
SUR UNE MOYENNE
Considérons une population dans laquelle nous considérerons qu’un caractère quantitatif suit une loi µ de
moyenne et d'écart-type théoriques m et σ, connus ou inconnus.
On observe dans un n-échantillon supposé représentatif de cette population une moyenne me et un écart-type σe .
On peut alors se poser les problèmes suivants:
• Estimer m en proposant un « intervalle de confiance » dans lequel cette valeur doit se situer
raisonnablement.
• Décider s’il faut raisonnablement rejeter ou accepter une hypothèse sur m du type [m = mo], [m ≥
mo], [m ≤ mo] (test d'hypothèse bilatéral, unilatéral gauche ou unilatéral droit).
Pour donner un sens mathématique à ce qui sera « raisonnable », on fixe une probabilité d'erreur α a priori ,
appelée seuil de signification de la réponse que l'on fournira (intervalle; acceptation ou rejet d’une hypothèse
concernant m).
Considérons un n-échantillon aléatoire (X1,…,Xn) de la loi µ, de moyenne Xn et d'écart-type sn.
Population
m
n-échantillon statistique
me
n-échantillon théorique
Moyenne
Ecart-type
σ
σe
sn
Xn
a) Cas d'une observation gaussienne.
Si l'on suppose que les sources d'erreurs dans l'analyse du caractère sont multiples, indépendantes et de faible
importance, on est amené à considérer la distribution µ gaussienne: µ = N(m,σ).
On sait qu'alors:
n
T = σ .( Xn - m ) suit la loi N(0,1).
Xn -m
U = n-1.
sn
suit la loi de Student t(n-1) (qui converge étroitement vers N(0,1)).
En fonction du seuil α que l'on se fixe, les tables des loi normale et de Student (lois symétriques par rapport à
l'origine) fournissent respectivement:
• Les valeurs tα , t2α ≥ 0 telles que
p( |T| > tα ) = p( T > t2α ) = p( T < -t2α ) = α .
• Les valeurs tα,n-1 , t2α,n-1 ≥0 telles que :
p( |U| > tα,n-1) = p( U > t2α,n-1 ) = p( U < -t2α,n-1 ) = α.
En particulier, on a , pour la loi normale et les seuils d'erreur de 1%, 5% et 10%:
t0,01 # 2,58 ; t0,05 # 1,96 ; t0,1 # 1,65.
Intervalle de confiance pour m:
❶ Si σ est donné et non mis en doute: on utilise T et me.
p( |T| > tα ) = α = p( m ∉ [ Xn - tα.
σ
n
, Xn + tα.
σ
]
n
).
On proposera pour m l’intervalle de confiance [me - tα.
σ
n
, me + tα.
σ
]
n
au seuil α.
(i.e. : la probabilité pour que m soit extérieure à cet intervalle n’excède pas le seuil α).
❷ Si σ est inconnu et l'échantillon de petite taille (en pratique: n ≤ 30): on utilise U et σe:
P( |U| > tα,n-1 ) = α = p( m ∉ [ Xn - tα,n-1.
sn
n-1
, Xn + tα,n-1.
On proposera pour m l’intervalle de confiance [me - tα,n-1.
sn
].
n-1
σe
n-1
, me + tα,n-1.
σe
]
n-1
au seuil α.
❸ Si σ est inconnu et l'échantillon de taille assez grande (en pratique: n > 30) on utilise une approximation
normale de U, et σe:
On considérera que U suit approximativement la loi N(0,1), et on proposera donc pour m l’intervalle de
confiance [me - tα.
σe
n-1
, me + tα.
σe
]
n-1
au seuil α.
(Il revient au même ici d’utiliser T en estimant
σ
n
par
2
dans l'échantillon aléatoire à l'estimateur non biaisé τn ) .
σe
n-1
, c'est à dire σ2 par
n 2
.σ , ce qui correspond
n-1 e
Test d’hypothèse sur m:
•
Test bilatéral : Une hypothèse [m=mo] sera rejetée si la valeur mo n’est pas dans l’intervalle de confiance
obtenu.
Il est commode dans la pratique de calculer la valeur τo à comparer avec les valeurs fournies par les tables :
n
→ cas ❶ : on calcule τo = σ .(me - mo) et on rejette l’hypothèse si |τo| > tα .
n-1
→ cas ❷ : on calcule τo = σ .(me-mo) et on rejette l’hypothèse si |τo| > tα,n-1 .
e
n-1
→ cas ❸ : on calcule τo = σ .(me-mo) et on rejette l’hypothèse si |τo| > tα .
e
•
Test unilatéral:
n
n-1
Notons To = σ .( Xn - mo) et Uo = sn .( Xn - mo) les v.a. T et U obtenues pour m = mo .
Il vient alors, pour les valeurs τo définies ci-dessus :
→ cas ❶ : sous l’hypothèse [m ≥ mo] : p( To < - t2α ) ≤ p(T < -t2α ) = α : on rejette l'hypothèse si τo < -t2α .
sous l’hypothèse [m ≤ mo] : p( To > t2α ) ≤ p( T > t2α ) = α : on rejette l’hypothèse si τo > t2α.
et, pour les mêmes raisons dans les deux autres cas :
→ cas ❷ :
rejet de l’hypothèse [m ≥ mo] si τo < -t2α,n-1 .
rejet de l’hypothèse [m ≤ mo] si τo > t2α,n-1 .
→ cas ❸ :
rejet de l’hypothèse [m ≥ mo] si τo < -t2α .
rejet de l’hypothèse [m ≤ mo] si τo > t2α .
EXEMPLES:
• Une étude portant sur 25 voitures identiques indique une consommation moyenne de 8,5 litres aux 100 km
avec un écart-type égal à 0,8 litres.
Donnons un intervalle de confiance au seuil de 5% pour la consommation moyenne de ce type de véhicule
(σ inconnu, n< 30): avec tα,24 # 2,064, on obtient [ 8,5 - 2,064.
0,8
0,8
, 8,5 + 2,064.
24
24
] # [8,16 ; 8,84].
La précision obtenue est de ± 0,34 litre/100 km.
•
En état normal de marche, une machine débite, à raison de 1600 à la minute, des cigarettes dont la masse
moyenne est de 1,2 gr avec un écart-type de 0,063 gr. A un moment donné, on prélève 16 cigarettes à la
sortie de la machine; leur masse moyenne est de 1,23 gr.
16
Testons au seuil α = 5% l'hyptohèse [m = 1,2 gr] (σ connu, test bilatéral): |τo| = 0,063.(1,23-1,2) # 1,905< 1,96.
On n'a aucune raison de rejeter l'hyptothèse que la machine fonctionne normalement.
Si l'on observe la même moyenne sur un échantillon de 100 cigarettes, on obtiendra |τo| # 4,76 > 1,96: au
seuil de 5%, on peut considérer que la machine est déréglée: il y a eu surplus d'information procuré par
l'accroissement de la taille de l'échantillon.
•
En notant les masses en kg de 100 expéditions de pommes, on a relevé une moyenne de 99,56 kg pour un
écart-type de 1,85 kg. La masse moyenne annoncée des expéditions est de 100 kg.
Testons au seuil α = 5% l'hypothèse [m ≥ 100] , i.e. que la masse moyenne des expéditions n'est pas
100
inférieure à celle annoncée (σ inconnu, n >30, test unilatéral gauche): τo = 1,85 .(99,56-100) # -2,38 < -1,65.
L'hypothèse doit être rejetée: on peut considérer, au seuil de 5%, qu'il y a eu fraude.
b) Cas général :
Lorsque la loi µ[m,σ] n'est plus précisée et que l'on connaît σ (ou qu'on sait le majorer), on utilise le théorème
central limite et son corollaire (cf paragraphe 9) en considérant pour n grand que:
n
T = σ .( Xn - m ) suit approximativement la loi N(0,1).
Xn -m
U = n-1.
sn
suit approximativement la loi N(0,1).
La méthode est alors la même qu'en [a]: on utilisera T si σ (ou un majorant de σ) est connu, et U sinon.
Remarque: si σ est connue, l'inégalité de Bienaymé Chebychev fournit aussi pour m un intervalle de confiance,
de diamètre
1 2σ
.
α n
au seuil α; comparativement au diamètre tα.
2σ
n
fourni dans une observation gaussienne ou par
une approximation normale, ce résultat est toutefois nettement moins précis pour α petit.
Pour un exemple d'utilisation de ces résultats, voir en annexe:
Méthodes de Monte-Carlo pour le calcul d'intégrales
c) Un cas particulier: intervalles et tests asymptotiques pour une fréquence
Considérons une population dans laquelle la proportion (ou fréquence) d'individus présentant un caractère donné
(cas favorables) est une valeur p à estimer ou à tester.
La situation se modélise comme ci-dessus, mais avec cette fois une loi µ de Bernoulli de paramètre p:
µ = B(p)
On considérera alors (théorème central limite) pour n grand que :
T=
n
(
p(1-p)
Xn - p) suit approximativement la loi N(0,1).
En pratique, on se placera dans les conditions d'approximation de la loi B(n,p) de Sn = n Xn par N(np, np(1-p)),
à savoir: n ≥15, p et 1-p non voisins de 0.
On suppose prélevé un échantillon statistique de taille n où la proportion (ou fréquence) des cas favorables est pe.
Le principe de la méthode pour estimer ou tester p est le même qu'en [a], avec toutefois deux légères différences:
• les moyennes qui interviendront seront obligatoirement comprises entre 0 et 1 ;
• l'écart-type σ de la population est lié à p par la relation σ = p(1-p).
Intervalle de confiance pour p:
Nous avons p( |T| > tα ) = p ( p ∉ [ Xn - tα.
p(1-p)
n
p(1-p)
n
, Xn + tα.
])=α.
Sachant que p(1-p) ≤1/4, on obtient pour p l'intervalle de confiance [pe -tα.
1
4n
, pe +tα.
En acceptant une probabilité d'erreur α, nous considérons toutefois que | Xn -p| = O(
Xn (1- Xn )
limité montre que
n
-
p(1-p) 1-2p | Xn -p|
~ 2 .
=
n
n
On peut donc négliger l'erreur faite en remplaçant
obtient alors l'intervalle de confiance [ pe - tα.
1
n
] au seuil α.
). Un développement
1
O( ).
n
p(1-p)
n
pe(1-pe)
; pe
n
1
4n
- tα.
Xn (1- Xn )
par
pe(1-pe)
n
n
dans l'intervalle proposé; on
] pour p au seuil α.
(La donnée d'un intervalle de confiance pour pe connaissant p ne pose pas de problème)
Test d'hypothèse sur p, relatif à une valeur po donnée:
Notons To =
n
(
po(1-po)
Xn - po) et τo =
On vérifie facilement que ϕ : x →
n(a-x)
x(1-x)
n
(pe - po)
po(1-po)
.
est décroissante sur ]0,1[ pour a ∈]0,1[.
→ Pour un test bilatéral [p = po] : T = To ; p( |To| > tα) = α.
On rejettera l'hypothèse si |τo| > tα.
→ Pour un test unilatéral gauche [p ≥ po] : T ≤ To ; p( To < -t2α) ≤ p( T < -t2α) = α.
On rejettera l'hypothèse si τo < -t2α.
→ Pour un test unilatéral droit [p ≤ po] : T ≥ To ; p( To > t2α) ≤ p( T > t2α) = α.
On rejettera l'hypothèse si τo > t2α.
EXEMPLES:
• On lance une pièce de monnaie 100 fois et on obtient 60 "pile". Notons p la probabilité pour qu'elle tombe
sur pile en un lancer.
100
L'hypothèse [p = 1/2] donne τo =
(0,6-0,5) = 2 > 1,96 : on peut présumer au seuil α = 5% que la
0,5.0,5
pièce est truquée.
•
D'après les statistiques de l'état civil, la proportion des nouveaux-nés de sexe masculin est de 51,5%.
La proportion des garçons sur l'échantillon des 500 prochaînes naissances est, au seuil de 5%, situé dans
l'intervalle de confiance [ 0,515 - 1,96.
0,515.0,485
500
; 0,515 + 1,96.
0,515.0,485
500
] # [0,471 ; 0,559], soit
donc entre 236 et 279 garçons.
Sur un échantillon de 700 naissances après traitement contre la stérilité, on a enregistré 362 garçons et 338
filles.
L'hypothèse [p = 0,515] fournit |τo| =
362
700
(
- 0,515)
0,515.0,485 700
# 0,11 < t0,91 : on peut donc considérer que le
traitement n'exerce aucune influence sur le sexe des nouveaux-nés (l'écart à la moyenne ne pourrait être
significatif que pour un risque d'erreur considérable (91%)).
•
Dans des conditions normales de fonctionnement, une machine fabrique des pièces défectueuses dans une
proportion au plus égale à 0,01. Testons l'hypothèse [p ≤ 0,01] sur un échantillon de 200 pièces:
τo =
200
( p - 0,01) > t2α ⇔ pe
0,01.0,99 e
> pα # 0,01 + 0,007.t2α.
On peut définir une limite de surveillance (contrôles suivants plus serrés en augmentant la taille des
échantillons) au seuil de 5% : pα # 0,0216, soit donc à partir de 5 pièces défectueuses, et une limite
d'intervention (interruption de la fabrication et réparation de la machine) au seuil de 1/1000: pα # 0,0317, soit
donc à partir de 7 pièces défectueuses.
Soit n la taille d'échantillon pour laquelle un écart de 1% seulement entre la fréquence observée et la
proportion théorique conduirait à interrompre la fabrication des pièces (seuil 1/1000:
3,092
n
( 0,01) > t0,002 # 3,09 ⇔ n > 0,01.0,99.
0,01.0,99
0,01 # 945.
d) Autres résultats
• Nous avons vu comment estimer ou tester la moyenne d'une loi inconnue à partir d'un échantillon. On peut
sn2
faire de même avec sa variance: dans le cas d'une observation gaussienne, on utilise le fait que n. 2 suit la
σ
loi ℵ2(n-1). Il existe aussi des tests de comparaison de paramètres de deux échantillons (en vue d'estimer par
exemple si une modification apportée à la population a un effet notable sur le caractère étudié).
• La compatibilité d'une distribution statistique observée à une distribution théorique donnée se traite selon
2
des méthodes similaires. On consultera en annexe: Le test du ℵ d'ajustement.
ANNEXES
1. CORRELATION LINEAIRE
Soient deux v.a. réelles X et Y d'ordre 2 sur un espace probabilisé (Ω,T,p).
~
~
Cherchons une meilleure approximation quadratique Y de Y comme fonction affine de X, i.e. Y = aX+b où les
réels a et b rendent minimum l'expression E( [Y-aX-b]2 ):
De:
on tire:
(Y-aX-b)2 = [ (Y- Y ) -a(X- X ) + ( Y -a X -b) ]2
E( [Y-aX-b]2 ) = E( [(Y- Y ) -a(X- X )]2 ) + ( Y -a X -b)2,
et il convient donc de choisir a minimisant ϕ(a) = E( [(Y- Y ) -a(X- X )]2 ) , puis b = Y -a X ;
Avec l'expression ϕ(a) = V(X).a2 - 2a.E[(X- X )(Y- Y )] + V(Y) = V(X).a2 - 2a.cov(X,Y) + V(Y), où
cov(X,Y) = E[(X- X )(Y- Y )] est la covariance de X et Y,
cov(X,Y)
on obtient finalement, en supposant X non presque sûrement constante: a = V(X) , et la meilleure
approximation de Y comme fonction affine de X (qui est d'ailleurs le projeté orthogonal de Y sur Vect(1,X) dans
L2(Ω)) est donc:
~
cov(X,Y)
Y = Y + a(X - X ) avec a = V(X) .
Propriétés de la covariance: pour X, Y, X1, …, Xn réelles d'ordre 2:
cov(X,X) = V(X)
cov(X,Y) = E(XY) - E(X)E(Y)
|cov(X,Y)| ≤ σ(X)σ(Y) (inégalité de Cauchy-Schwarz)
n
V(X1+…+Xn) = ∑ V(Xk) + ∑ cov(Xi,Xj).
k=1
i≠j
Dans le plan affine euclidien R2 rapporté au repère orthonormé (O,i,j), la droite
(D) :
y - Y = a.(x - X )
est appelée droite de régression linéaire de Y en X.
cov(X,Y)
De même, en posant a' = V(Y)
(si V(Y) est non nul):
(D') : x - X = a'.(y - Y )
est la droite de régression linéaire de X en Y.
On peut remarquer que a et a' sont de même signe, ce qui indique que D et D' sont toutes deux ascendantes ou
[cov(X,Y)]2
2
= ρX,Y , où
toutes deux descendantes (au sens large). Le produit aa' vaut
V(X)V(Y)
ρX,Y =
cov(X,Y)
∈ [-1,1] est le coefficient de corrélation linéaire de X et Y.
σ(X)σ(Y)
•
|ρX,Y| = 1 si et seulement si X et Y sont affinement dépendantes dans L2(Ω) (cas d'égalité dans
l'inégalité de Cauchy-Schwarz). Nous sommes dans le cas où D et D' sont confondues.
•
ρX,Y = 0 si et seulement si cov(X,Y) = 0. On dit alors que X et Y sont non corrélées. C'est le cas où
D et D' sont orthogonales.
•
Si 0 < |ρX,Y| < 1, D et D' ont pour intersection le point A = ( X , Y ) , sont toutes deux ascendantes
ou descendantes selon que ρX,Y est positif ou négatif.
Dans le repère (A, σX.i , σY.j ), les équations de D et D' sont respectivement [y = ρx] et [x = ρy].
L'écart angulaire de D et D' (dans ]0,π/2[ ) vaut π/2 - 2.Arctan |ρ| : il décroît de π/2 à 0 lorsque
|ρX,Y| croît de 0 à 1.
Lorsque l'on étudie un phénomène qui met en cause deux caractères différents au sein d'une même "population"
(taille et poids dans un échantillon d'individus, montant des ventes et frais de publicité à diverses périodes dans
une entreprise …), on consigne les résultats (xk,yk) obtenus dans un tableau de nombres appelé série statistique à
deux variables.
En d'autres termes, on définit sur un ensemble Ω = {1,…,N} muni de la probabilité p uniforme les deux variables
X : k → X(k) = xk
et
Y : k → Y(k) = yk.
Le nuage de points {Mk(xk,yk) , k ∈Ω} obtenu peut alors prendre diverses formes: il peut sembler dispersé au
hasard ou avoir un profil avoisinant une courbe.
Ajuster le nuage consiste à déterminer une courbe (C) simple "aussi proche que possible" de l'ensemble
{Mk, k∈Ω}.
Une forme allongée du nuage justifie de rechercher pour (C) une droite; on dit que l'on procède alors à un
ajustement linéaire .
En reprenant les notations définies plus haut, et en notant M'k = (xk,yk') ∈ D pour chaque k de Ω , nous avons
minimisé avec la droite D l'expression:
1 N
1 N
1 N
E( (Y-aX-b)2 ) = . ∑ (yk-a.xk-b)2 = . ∑ (yk - yk' )2 = . ∑ MkM'k 2 ,
N k=1
N k=1
N k=1
et la même interprétation peut être faite symétriquement avec D'. Si l'écart angulaire de D et D' est faible, on peut
procéder à un ajustement linéaire en prenant -suivant ce que l'on veut en faire- D ou D' pour droite d'estimation:
c'est la méthode d'ajustement linéaire par les moindres carrés, utilisée lorsqu'il y a forte corrélation entre les
variables (en pratique, lorsque
1-ρ2 ≤ 1/2, i.e. ρ2 ≥ 3/4).
______________________________________________________
2. PRODUIT DENOMBRABLE D'ESPACES PROBABILISES
Soit (S,∑,p) un espace probabilisé discret fini, Ω = SN * l'ensemble des suites (xn)n≥1 à valeurs dans S, et pour
n ≥ 1, l'application coordonnée
Xn : Ω → S , (xi)i≥1 → xn
On note T la plus petite tribu sur Ω telle que les Xn soient mesurables de (S,∑) dans (Ω,T).
Alors il existe une unique probabilité P sur (Ω,T) qui rend les Xn mutuellement indépendantes et qui vérifie:
∀n ≥ 1, ∀A⊂S: P(Xn∈A) = p(A).
Ce résultat permet par exemple de probabiliser les suites infinies de jeu de pile ou face (cf. l'exemple du cours
donné pour la loi géométrique), et plus généralement une suite illimitée de répétitions d'expériences
indépendantes de même loi (cf. échantillons d'une loi).
Démonstration:
+∞ X
T est la tribu engendrée par ∪ ∑ n ; nous allons la définir toutefois autrement, en faisant apparaître les
n=1
événements qui ne font intervenir qu'un nombre fini de coordonnées (événements observables), i.e. de la forme
[πn∈A] , pour n ≥ 1 et A ⊂ Sn , où πn = (X1,…,Xn)
Notons pour n ≥1:
Un = {[πn∈A], A⊂Sn}
(c'est la tribu P(Sn)
πn
, plus petite tribu rendant πnmesurable)
+∞
U = ∪ Un , et To la tribu engendrée par U (la plus petite tribu rendant toutes les πn mesurables).
n=1
On se convaincra sans peine que:
→ (Un) est croissante (pour m>n, [πn∈A] = [πm∈A×Sm-n] )
→ U est une algèbre , i.e. contient ∅, est stable par réunion finie et complémentarité. U n'est toutefois
+∞
pas une tribu, puisque si x ∈ Ω est donnée: ∩ [πn = πn(x)] = {x} ∉ U.
n=1
→ T ⊂ To
( [Xn∈A] = [πn∈Sn-1×A] )
→ To ⊂ T
( [πn∈A] =
n
∩ [Xk= xk] ).
∪
(x1,…,xn)∈A k=1
+∞ X
Ainsi on a bien To = T, sous une forme plus manipulable ( ∪ ∑ n n'est pas une algèbre).
n=1
La propriété suivante va nous servir:
+∞
Prop: soit (Cm)m≥1 une suite décroissante d'éléments de U non vides; alors ∩ Cm est non vide.
m=1
Preuve:
Pour n donné, (πn(Cm))m≥1 décroît dans l'ensemble fini Sn , et est donc stationnaire à partir d'un certain
+∞
rang m(n); on a donc: ∀k ≥ m(n) : πn(Ck) = πn(Cm(n)) , et ∩ πn(Cq) = πn(Cm(n))) ≠ ∅.
q=1
Soit s1 ∈ π1(Cm(1)) ; supposons défini, pour un n ≥1:
(s1,…,sn) ∈ Sn tel que: ∀k = 1,…,n : (s1,…,sk) ∈ πk(Cm(k));
+∞
(s1,…,sn) ∈ πn(Cm(n)) = ∩ πn(Cm) ⊂ πn(Cm(n+1)) , donc il existe dans Cm(n+1) une suite dont
m=1
les n premières coordonnées sont (s1,…,sn), et par conséquent:
Alors:
∃sn+1 ∈ S , (s1,…,sn+1) ∈ πn+1(Cm(n+1)).
+∞
On définit ainsi une suite s = (sk)k≥1 telle que: πn(s) ∈ πn(Cm(n)) = ∩ πn(Cm) pour tout entier n.
m=1
Soit m ≥1; il existe n ≥1 et A ∈ Sn tels que Cm = [πn∈A]; alors:
+∞
πn(s) ∈ ∩ πn(Cq) ⊂ πn(Cm) , et donc: s ∈ Cm .
q=1
+∞
Ceci étant vrai pour tout m ≥ 1, il en résulte que ∩ Cm est non vide.
m=1
Un résultat de théorie de la mesure indique qu'il suffit de définir P sur l'algèbre U (une mesure σ-finie définie sur
une algèbre se prolonge de façon unique sur la tribu engendrée par cette algèbre).
Pour n≥1 et A⊂Sn, l'expression
[πn∈A] =
n
∩ [Xk= xk]
∪
(x1,…,xn)∈A k=1
et les propriétés demandées à P imposent de poser:
P(πn∈A) =
∑
p(x1)…p(xn)
(x1,…,xn)∈A
On vérifie alors que P est une mesure sur U :
→ P(∅) = 0
(P(∅) = P(π1∈∅))
→ ∀ E , F disjoints dans U: P(E∪F) =P(E)+P(F)
( écrire E = [πn∈A] et F = [πn∈B] )
→ Soit (Cn) une suite d'éléments de U décroissante vers ∅, alors (P(Cn)) décroît vers 0.
(on utilise la dernière propriété prouvée en [a]: (Cn) est stationnaire à ∅ , d'où le résultat).
Il est alors immédiat que P satisfait aux conditions demandées:
→ ∀ n ≥1, ∀ A ⊂ S , P(Xn∈A) = p(A);
→ (Xn) est indépendante dans (Ω,T,P).
Remarque: le modèle ainsi construit n'est nécessaire que si l'on veut modéliser une suite infinie d'épreuves
indépendantes à valeurs dans S fini et de même loi p. C'est le cas lorsque l'on recherche des résultats
asymptotiques sur des variables faisant intervenir les applications coordonnées Xn.
______________________________________________________
3. THEOREME DE BOREL-CANTELLI (LOI DU TOUT OU RIEN)
+∞
Soit (An)n≥0 une suite d'événements. On note ∀n: Bn = ∪ Ak , et
A = lim An = ∩ Bn .
k≥n
n=0
n→+∞
+∞
1) Si ∑ p(An) < +∞ , alors p(A) = 0.
n=0
+∞
2) Si la suite (An) est indépendante et ∑ p(An) = +∞ , alors p(A) = 1.
n=0
Preuve:
+∞
+∞
1) Pour q fixé: p(A) = p( ∩ Bn ) ≤ p(Bq) = p( ∪ Ak ) ≤ ∑ p(Ak) , et ce majorant a une limite nulle
n=0
k≥q
k=q
quand q tend vers +∞; on en déduit : p(A) = 0.
2) p(Ac)
=
p ∪↑( ∩ Akc )
( n k≥n
)
q
==== lim p( ∩ Akc ) = lim plim ↓ ∩ Akc
 q k=n 
n
k≥n
n
Beppolevi
q
q
q
indép
==== lim lim p ∩ Akc === lim lim  ∏ p(Akc) = lim lim ∏ (1-p(Ak))
 n q k=n
n q k=n 
n q k=n
Beppolevi
or pour n, q donnés, n ≤ q:
q
q
q
0 ≤ ∏ (1-p(Ak)) ≤ ∏ exp( -p(Ak) ) = exp - ∑ p(Ak) , de limite nulle quand q tend vers +∞;
 k=n

k=n
k=n
il suit:
p(Ac) = lim 0 = 0, et donc p(A) = 1.
n
Le lemme de Borel-Cantelli est un outil efficace pour établir une propriété de convergence presque sûre d'une
suite de variables aléatoires.
Application:
Le singe dactylographe: un singe tape au hasard sur une machine à écrire. Considérons que la machine a N
touches a1,…,aN, et que les œuvres complètes de Victor Hugo se composent de la succession des symboles
[ε1, …, εm] (lettres, espaces, ponctuations…).
Soit S = {a1,…,aN} muni de la probabilité uniforme p (ce qui traduit le fait de taper au hasard), et l'espace
probabilisé produit Ω = {a1,…,aN}N* muni de la tribu T et de la probabilité P telles que les applications
coordonnées Xk soient mesurables et indépendantes (cf l'annexe 2).
Notons pour k ≥1 l'événement:
Ak = { X(k-1)m+1 = ε1 , …, Xkm = εm }.
L'indépendance de la suite (Xk) fournit celle de la suite (Ak), et, pour k ≥ 1, on a:
m
1
1
= m ,
N
N
j=1
m
P(Ak) = ∏ P(X(k-1)m+j = εj ) = ∏
j=1
de sorte que la série ∑p(Ak) est divergente; le théorème de Borel-Cantelli fournit: p( lim An ) = 1, ce qui signifie
n
qu'il est quasi-certain que l'on retrouvera une infinité de fois les œuvres complètes de Victor Hugo dans les
feuilles tapées par le singe (en considérant qu'il ne s'arrête jamais!)
________________________________________________________
4. MARCHES ALEATOIRES
Considérons une suite de jeux à deux issues (succès, échec) où un joueur gagne 1 point en cas de succès, et perd
1 point en cas d’échec.
On s'intéresse au gain algébrique Zn du joueur à l'issue de la nème partie.
Comme nous aurons à étudier Zn lorsque n tend vers +∞, modélisons directement une suite infinie de jeux:
Soit S = {-1,1} muni de la probabilité p = p.δ1 + (1-p).δ-1 (0 < p < 1) , Ω = SN* muni de la tribu T et de la
probabilité P rendant les applications coordonnées Xn mesurables et indépendantes, avec, pour n ≥1:
P(Xn=1) = p , P(Xn= -1) = 1-p
n
Zn = ∑ Xk
k=1
(cf. l'annexe 2; rappelons si l'on ne s'intéresse qu'à une suite finie de N parties, il revient au même de prendre
Ω = SN muni de la probabilité PN({ω}) = pr(1-p)N-r où r est le nombre de "pile" dans ω; l'avantage de la
modélisation d'une suite infinie de parties est qu'elle permet de définir une probabilité P valable pour tout N).
Loi de Zn :
Pour (n,a) donné, l'événement [Zn = a] correspond à un gain algébrique a à l'issue de n parties; si k ∈{0,…,n}
désigne le nombre de parties gagnées, sa valeur est imposée par:
n+a
k.(+1)+(n-k)(-1) = a, soit donc k =
2
Ceci suppose |a| ≤n et a et n de même parité; le cas échéant, il vient:
[Zn = a] =
(disjointe)
∪
J⊂{1,…,n}
|J|=k
∩ [Xi = 1] ∩ ∩ [Xi = -1]
[ i∈J
i∉J
]
et donc finalement:
k
n+a
P(Zn = a) = Cn. pk.(1-p)n-k , où k = 2 ∈ {0,…,n}
q
(on conviendra pour la suite de noter Cp = 0 pour q ∉ {0,…,p}).
En particulier, pour un gain nul, il en résulte:
•
Si n est impair: P(Zn = 0) = 0.
•
Pour n ≥ 1: notons p2n = P(Z2n = 0) = C2n.[p(1-p)]n ; il vient:
p2n+2 (2n+1)(2n+2)
= (n+1)2 .p(1-p) ~ 4p(1-p).
n→∞
p2n
Il découle de ceci que si p ≠ 1/2, la série ∑ P(Z2n = 0) converge (car 4p(1-p) < 1).
n
Dans ces conditions, on obtient (avec Borel-Cantelli): P( lim [Z2n = 0] ) = 0: si p ≠ 1/2, il est quasi-certain
que le joueur ne retrouvera sa fortune initiale qu'un nombre fini de fois.
Pour un gain algébrique a :
•
Tous les éléments de [Zn = a] sont équiprobables, de probabilité commune pk(1-p)n-k ( avec k = (n+a)/2);
Il en découle:
|A|
n+a
Si k = 2 ∈ {0,…,n} et A ⊂ [Zn = a] :
P(A) = |A|. pk(1-p)n-k ; P
(A) = k
Zn=a
Cn
Un calcul de ce genre relève donc du dénombrement.
Représentation géométrique:
Il est commode de représenter le déroulement d'une phase de jeu à l'aide d'une ligne polygonale sur un repère
orthonormé, où chaque partie gagnante (resp. perdante) correspond à un segment de pente 1 (resp. -1) et de
longueur 2 à partir du point précédent, et où un passage par (n,a) correspond à un gain algébrique a à la partie n:
Zn
3
2
1
0
n
-1
-2
L'ensemble des lignes polygonales (au sens défini ci-dessus) d'origine (n,a) et d'extrémité (m,b) sera noté
[(n,a),(m,b)] (avec a, b, n, m ∈ Z et 0 ≤ n < m).
Le symbole "≈" désignant "est en bijection avec", il est clair que:
•
•
•
k
[(0,0),(n,a)] a pour cardinal Cn avec k = (n+a)/2 et la convention donnée plus haut.
[(n,a),(m,b)] ≈ [(0,0),(m-n,b-a)] (par translation).
Si a, b ≥ 1 : { L ∈ [(n,a),(m,b)], L touche Ox } ≈ [(n,-a),(m,b)] (principe de réflexion)
En effet: à une ligne L du premier ensemble: L = (n,a)…(kL,0)…(m,b) où kL est l'abscisse du premier point
de rencontre de L avec Ox, on peut associer la ligne L' = (n,-a)…(kL,0)…(m,b) du second ensemble, dont la
partie précédant (kL,0) est la symétrique de la première par rapport à Ox (cf dessin). Il est manifeste que
cette correspondance est bijective.
Zn
3
2
1
0
n
-1
-2
Exemple :
Pour a ≥ 1, l’événement [Z1 > 0, Z2 > 0, …,Zn-1 > 0 , Zn = a] , où la valeur 1 est imposée pour Z1 , est
est représentable par l’ensemble
A
Mais:
= {lignes de [(1,1),(n,a)] ne touchant pas Ox }
k-1
Card [(1,1),(n,a)] = Card [(0,0),(n-1,a-1)] = Cn-1
n+a
( k = 2 );
k
Card [(1,1),(n,a)] / A = Card [(1,-1),(n,a)] = Card [(0,0),(n-1,a+1)] = Cn-1 .
a k
k-1
k
Il en découle: |A| = Cn-1 - Cn-1 = .Cn , et finalement:
n
et
n+a
Pour a ≥ 1 et k = 2 ∈ {0,…,n}:
a k
P( Z1 > 0, Zn-1 > 0 , Zn = a] = .Cn. pk(1-p)n-k
n
;
P
Zn=a
( Z1 > 0,…, Zn-1 > 0) =
a
.
n
Application:
Un scrutin oppose deux candidats C et D qui obtiennent respectivement c et d bulletins.
On suppose c > d (C est élu); on cherche la probabilité pour que C soit toujours resté en tête lors du
dépouillement.
Modélisons la situation avec Xk = 1 ou -1 selon que le kème bulletin ouvert est pour C ou D (on
c
considère que p vaut ici c+d ); Zk correspond à l'avance algébrique que C a sur D au kème bulletin ouvert.
La probabilité demandée est
c-d
.
(Z >0,…,Zc+d-1 > 0) =
P
Zc+d=c-d 1
c+d
Cas p = 1/2 : étude du premier retour à zéro:
Nous avons obtenu en [a] le résultat:
n
P(Z2n = 0) = p2n =
C2n
22n
p2n+2 2n+1
1
1
= 2n+2 = 1 - 2n + on→∞(n) , on déduit que la série ∑P(Z2n = 0) est divergente (règle de Raabep2n
Duhamel); la suite (Zn) n'étant pas indépendante, le lemme de Borel-Cantelli ne permet toutefois pas de conclure
De
quoi que ce soit en ce qui concerne lim [Z2n = 0].
On peut néanmoins remarquer que la probabilité d'un retour à 0 à la (2n)ème partie décroît en n-1/2 ( la formule de
Stirling donne p2n ~
1
nπ
).
Introduisons l'événement A2n correspondant à 2n parties sans aucun retour à zéro:
A2n = [Z1 ≠ 0, …, Z2n≠0] (n≥1)
A2n correspond aux lignes d'origine (0,0) ne rencontrant pas l'axe des x ailleurs qu'à l'origine. Par symétrie, il
vient:
n
P(A2n)
= 2.P(Z1 > 0, Z2 > 0,…, Z2n > 0) = 2. ∑ P(Z1 > 0, …, Z2n-1 > 0, Z2n = 2r)
r=1
n
1
n+r-1
n+r
= 2. ∑ [ C2n-1 - C2n-1] . 2n
(cf. calculs précédents, avec k = n+r)
2
r=1
n
n
C2n-1
C2n
=
=
.
22n-1
22n
Ainsi:
Pour n ≥ 1 : P( [Z1≠0, … , Z2n≠0] ) = p2n
Notons C2n l'événément correspondant à un premier retour à zéro à la (2n)ème partie:
C2 = [Z2=0] ,
C2n = [Z2 ≠ 0, …, Z2n-2 ≠ 0, Z2n = 0] (n≥2)
Il vient, pour n ≥ 1:
C2n = A2n-2 - A2n ,
n
∪ C2k = (A2n)c
k=1
( on posera par convention Ao = Ω et po = 1 )
d'où, avec la décroissance de (An):
n
P( ∪ C2k ) = 1 - p2n
k=1
P(C2n) = p2n-2 - p2n ,
Un petit calcul fournit finalement:
Pour n ≥ 1: P( [Z1≠0, … , Z2n-1≠0, Z2n= 0] ) =
p2n
2n-1
+∞
Puisque p2n = o(1), on a p( ∪ C2n ) = 1, ce qui signifie qu'il est quasi-certain que le joueur retrouvera sa fortune
n=1
initiale au moins une fois. La pièce étant non truquée, on pouvait intuitivement prévoir ce résultat.
D'autre part, P(A2n) = p2n ~
1
nπ
décroît lentement vers 0; on trouve par exemple p2n < 10% pour 2n ≥ 64, et
p2n < 1% pour 2n ≥ 6366. Cela signifie qu'il faudra jouer aux environs de 6000 parties pour avoir 99% de
chances d'égaliser pertes et gains. Ce résultat indique qu'un joueur peut gagner (ou perdre) une très longue suite
de parties consécutives, entraînant ainsi d'importantes fluctuations de gain.
______________________________________________________
5. NOTIONS SUR LES CHAÎNES DE MARKOV FINIES
a) Définition.
Soit (Ω,B,p) un espace probabilisé et (Xn)n≥0 une suite de v.a. de Ω dans un ensemble fini ( I, P(I) ).
Si les deux conditions suivantes sont vérifiées lorsqu'elles ont un sens:
①
∀x, y ∈ I:
p(Xn+1=y/Xn=x) = π(x,y) est une valeur indépendante de n
②
∀n, ∀xo,…xn+1 ∈ I:
p(Xn+1= xn+1 / (Xo,…,Xn) = (xo,…,xn) ) = p(Xn+1= xn+1 / Xn = xn)
nous dirons que (Xn) est une chaîne de Markov homogène à espace d'états fini I.
La première condition traduit l'homogénéité de la chaîne ; la seconde s'interprète par le fait que (Xn) est "sans
mémoire" (la loi conditionnelle de Xn+1 sachant (Xo,…,Xn) ne dépend que de Xn ).
Le cas échéant: I est l'espace des états, p
Xo
est la loi initiale et pour x,y ∈ I, π(x,y) est la probabilité de
transition de l'état x à l'état y.
Remarque: en considérant que I est l'espace des états pouvant effectivement apparaître dans la suite, la
condition ① s'entend pour les n ∈Ix = {n≥0, p(Xn = x) > 0} (qui est alors non vide). La condition ② doit
être vérifiée pour n et (xo,…,xn) tels que p((Xo,…,Xn)=(xo,…,xn)) ≠ 0.
La matrice T = [π(x,y)]x,y∈I est appelée matrice de transition de la chaîne. Elle est stochastique: ses coefficients
sont positifs ou nuls et la somme des termes de chacune de ses lignes vaut 1:
∀x ∈ I : ∑ p(Xn+1=y/Xn=x) = ∑ π(x,y) = 1.
y∈I
y∈I
Exemples:
La décision de ne plus fumer…:
Cf. l'exemple du fumeur au paragraphe 1: notons Xn la v.a. valant 1 si la personne fume le jour n, et 0
sinon: moyennant la condition que la décision de fumer ou non le jour j sachant l'attitude adoptée les
jours précédents ne dépend que de l'attitude adoptée le jour j-1 (condition ②), (Xn)n≥0 est une une chaîne
1-α α 
π(0,0) π(0,1)
.
de Markov à deux états 0 et 1, de matrice de transition T = ( π(1,0) π(1,1) ) = 
 β 1-β 
Un modèle de tirage:
Trois sacs A1 , A2 , A3 contiennent chacun 100 boules; pour i = 1, 2, 3:
Ai contient αi boules numérotées ① , βi boules numérotées ② et γi boules numérotées ③.
On tire une boule de A1 , on note son numéro X1 ∈{1,2,3}, puis on remet la boule dans son sac; on tire
ensuite une boule de Ax1 , on note son numéro X2 , et ainsi de suite.
Modélisons par la condition naturelle ② (le résultat d'un tirage "ne dépend" que du sac dans lequel il est
effectué et non à l'histoire de ce sac) et la loi uniforme pour chaque tirage (tirage au hasard): la suite
1
 α1 β1 γ1 
 α3 β3 γ3 
(Xn)n≥1 est une chaîne de Markov à trois états 1, 2, 3 et de matrice de transition T = 100.  α2 β2 γ2 .
Transmission d'un message oui/non:
Considérons un message à deux issues -1 ou 1 transmis dans une chaîne d'individus: Xo ∈{-1,1}
représente le message initial; le nème individu reçoit Xn ∈ {-1,1}, et p désigne la probabilité pour que le
message reçu soit "bien" transmis d'un individu au suivant:
p(Xn+1=1/Xn=1) = p(Xn+1= -1/Xn= -1) = p et p(Xn+1=1/Xn= -1) = p(Xn+1= -1/Xn=1) = 1-p.
Ajoutons-y la condition naturelle ② ("les intermédiaires sont indépendants"): (Xn)n≥0 est une chaîne de
p 1-p 
π(-1,-1) π(-1,1)
Markov à deux états -1, 1 et de matrice de transition T = ( π(1,-1) π(1,1) ) = 
 1-p p 
Comment reconnaître une chaîne de Markov?
Soit J un ensemble fini et f une application de I×J dans I.
Supposons donnés:
• Une v.a. Xo de Ω dans I
• Une suite (Vn)n≥1 de v.a. équidistribuées de Ω dans J telle que (Xo,V1,…,Vn,…) est indépendante
Alors la suite (Xn)n≥0 définie par la formule de récurrence Xn+1 = f (Xn,Vn+1) est une chaîne de Markov.
Démonstration:
• Pour n ≥0 et x, y ∈ I, on a, si cela a un sens :
p(Xn+1=y / Xn = x) =
=
p(Xn+1=y , Xn=x)
p(Xn=x , f(Xn,Vn+1)=y) p(Xn=x , f(x,Vn+1)=y)
=
=
p(Xn=x)
p(Xn=x)
p(Xn=x)
p(Xn=x).p(f(x,Vn+1)=y)
p(Xn=x)
(Xn est fonction de Xo,V1,…,Vn et est indépte de Vn+1)
= p( f(x,Vn+1) = y ) = p( f(x,V1) = y ) (V1 et Vn+1 ont même loi),
et cette valeur est bien indépendante de n : ① est vérifiée.
•
Pour n≥0 et xo,…,xn+1 ∈I, lorsque ceci a un sens, on a aussi:
p((Xo,…,Xn+1) = (xo,…,xn+1) )
p(Xn+1=xn+1 / (Xo,…,Xn) = (xo,…,xn)) =
p( (Xo,…,Xn) = (xo,…,xn))
=
p(Xo=xo , f(xo,V1)=x1 ,…, f(xn-1,Vn)=xn , f(xn,Vn+1)=xn+1)
p(Xo=xo , f(xo,V1)=x1 ,…, f(xn-1,Vn)=xn)
=
p(Xo=xo). p(f(xo,V1)=x1)…p(f(xn-1,Vn)=xn).p(f(xn,Vn+1)=xn+1)
(indépendance)
p(Xo=xo). p(f(xo,V1)=x1)…p(f(xn-1,Vn)=xn)
= p( f(xn,Vn+1) = xn+1 ) = p( Xn+1=xn+1 / Xn=xn)
(calcul précédent).
on a donc ②.
Si µ est la loi commune des Vn , n ≥1: π(x,y) =
∑ µ({k}).
k∈J
f(x,k)=y
Exemple:
Dans l’exemple de la transmission d'un message oui/non, notons Vn la v.a. valant 1 ou -1 selon que la
transmission du (n-1)ème individu au nème individu s'est faite correctement ou non; la condition d'
"indépendance des intermédiaires" peut s'exprimer plus explicitement par la condition que
(Xo,V1,…,Vn,…) est indépendante.
Alors pour n ≥0, on a: Xn+1 = Xn.Vn+1 , ce qui justifie le fait que (Xn)n≥0 est une chaîne de Markov.
b) Chaînes régulières.
On note pour n ≥ 0 et x, y ∈ I :
avec donc :
πn(x,y) =
Tn = [πn(x,y)]x,y∈I
∑
π(x,t1).π(t1,t2)…π(tn-1,y),
t1,…,tn-1∈I
Posons I = {a1,…,ar} et Un = (p(Xn=a1),…,p(Xn=an)) la distribution de Xn pour n entier. La propriété ①
s'exprime par la formule matricielle
Un+1 = Un.T
et l'expression de la distribution de Xn que l'on obtient par récurrence pour tout entier n:
Un = Uo.Tn
La chaîne est dite régulière si la suite (Xn) converge en loi vers une v.a. fixe X, indépendemment de la loi initiale
pXo , c’est à dire si Un tend vers une distribution U* indépendante de Uo lorsque n tend vers +∞.
Ceci équivaut donc à dire que (Tn) converge vers une matrice T* à lignes toutes identiques.
Le cas échéant, on a T* = Line (U*,…,U*).
Preuve:
Si la chaîne est régulière, en prenant Uo = ek = (0,…0,1,0,…0) où 1 est placé en kème place (1≤k≤r), on
aura pour chaque k:
U* = lim Un = lim ek.Tn = lim [kème ligne de Tn],
n→ +∞
n→ +∞
n→ +∞
Donc (Tn) converge bien, de limite T* = Line (U*,…,U*).
Réciproquement, si Tn converge vers une matrice T* = Line (U*,…,U*), alors:
r
r
lim Un = UoT* = ∑ p(Xo=ak).ek.T* = ∑ p(Xo=ak).U* = U* , et ce indépendemment de
k=1
k=1
n→ +∞
la distribution Uo, donc la chaîne est régulière.
Exemple:
1-α α 
π(0,0) π(0,1)
avec α, β ∈]0,1[:
Cas d'une chaîne à deux états 0 et 1, de matrice T = ( π(1,0) π(1,1) ) = 
 β 1-β 
T est diagonalisable à valeurs propres 1 et (1-α-β); il existe donc A, B telles que:
A+B = I , et ∀n, Tn = A+(1-α-β)n.B.
On trouvera A et B avec [A+B=I et A + (1-α-β)B = T] , puis:
1  β α  (1-α-β)n  α -α 
.
.
+
,
α+β  -β β 
α+β  β α 
1 β α
.
lim Tn =
β α .
α+β
n→ +∞
α 
β
La chaîne est donc régulière, et la distribution limite est U* = 
,
.
α+β α+β
Tn =
1 1
Pour la transmission d'un message oui/non (α = β = 1-p), la distribution limite est U* = , : quel que
2 2
soit le message initial, pour n grand, "oui" et "non" ont presque la même probabilité d'être transmis.
Propriétés des matrices stochastiques ; comment reconnaître une chaîne régulière:
r
On se place dans Mr(C), r ≥1. C est muni de la norme ||v||∞ = max |vi| et G désigne le sous-ensemble de Mr(C)
i
r
des matrices stochastiques de taille (r,r): G = { T = [tij] ∈ Mr(C), ∀i,j : tij ≥0 ; ∀i : ∑ tij = 1 }.
j=1
Les propriétés suivantes sont immédiates :
•
G est un semi-groupe (Ir est dans G , et le produit de deux éléments de G est dans G}.
•
∀T ∈G, ∀v ∈ C : ||Tv||∞ ≤ ||v||∞ ; (Tnv) n≥0 est bornée (par ||v||∞ , puisque Tn ∈ G pour tout entier n) ; les
valeurs propres de T sont toutes de module ≤ 1.
•
∀ T ∈G : 1 est valeur propre de T , un vecteur propre associé étant e =  ..  .
r
1
1
Précisons : soit T ∈G, et λ ∈ Spec(T) de multiplicité α dans le polynôme caractéristique de T et β dans son
polynôme minimal ( 1 ≤ β ≤ α) ; notons Nλ = Ker(T-λI)α = Ker(T-λI)β le sous-espace caractéristique associé.
Pour v ∈ Nλ et n ≥ β , il vient:
Tn v =
[ λI + (T-λI) ]n.v =
β-1
[ λn + nλn-1(T-λI) + … + Cn λn-β+1(T-λI)β-1 ].v
[1]
Soit vo ∈ Nλ tel que (T-λI)β-1vo ≠ 0 (il y en a), et i ∈ {1,…,r} tel que [(T-λI)β-1vo]i ≠ 0; on obtient:
(Tnvo)i
~
n→+∞
β-1
λn-β+1 . Cn .[(T-λI)β-1vo]i
~
n→+∞
Cte. λn.nβ-1.
On déduit de ceci que:
• Si |λ| = 1 : β = 1 (par [2], puisque la suite (Tnvo) est bornée)
→ si λ = 1 : N1 = Ker (T-I) , et : ∀ v ∈ N1 : lim Tnv = v.
n→ +∞
→ si λ ≠ 1 : (Tnvo) n'a pas de limite (par [2], puisque (λn) n'en a pas)
[2]
•
Si |λ| < 1 : ∀ v ∈ Nλ :
→
lim Tnv = 0 (par [1]).
n→ +∞
En conséquence:
•
Si (Tn) a une limite T* : 1 est la seule vp de module 1 de T et T* = Po , projecteur sur Ker(T-I)
⊕
Nλ . Si de plus T* est de rang 1 (lignes identiques), alors dim Ker(T-I) =1, et 1
parallèlement à
λ ∈ Sp(T)
λ≠1
est ainsi valeur propre simple de T.
•
Réciproquement: si 1 est la seule vp de module 1 de T et est simple: Tn a pour limite Po; Ker (T-I) est
1
1
la droite vectorielle engendrée par e =  ..  , donc Po est de rang 1, de la forme Col( p1e,…, pre) , i.e. à
lignes toutes identiques (p1,…,pr).
En conclusion:
La chaîne (Xn) est régulière si et seulement si : 1 est valeur propre simple de T et les autres valeurs
propres de T sont de modules strictement inférieurs à 1.
Dans ces conditions, en faisant tendre n vers +∞ dans Un+1 = Un.T, on obtient: U* = U*T, ce qui indique
que tU* est vecteur propre de tT associé à la valeur propre simple 1:
Si (Xn) est régulière, alors la distribution limite est U* = tuo , où uo est l'unique vecteur propre à
composantes positives de somme 1 associé à la valeur propre 1 de tT.
En particulier, si la chaîne est régulière avec T bistochastique ( i.e. tT stochastique), alors sa distribution
1
1
limite est la distribution uniforme  , … , .
r
r
c) Autres propriétés.
Les propriétés suivantes s'obtiennent facilement à partir de ① et ② :
Pour n, m ∈ N , xo, x1,…, yo, y1,…, x, y ∈I , Ao, A1,…, Bo, B1,…∈ P(I):
③ p[(Xo,…,Xn)=(xo,…,xn)]
= p(Xo=xo).π(xo,x1)….π(xn-1,xn)
= p((Xo,…,Xk) = (xo,…,xk)) π(xk,xk+1)…π(xn-1,xn)
(k≤n).
④ p(Xn=y / Xo=x) = πn(x,y).
⑤ p[(Xm+1,…,Xm+n) = (y1,…,yn) / (Xo,…,Xm-1,Xm) = (xo,…,xm-1,x) ]
= p[(Xm+1,…,Xm+n) = (y1,…,yn) / Xm= x ]
= π(x,y1).π(y1,y2)…π(yn-1,yn)
⑥ p[Xm+n = y / (Xo,…,Xm) = (xo,…,xm-1, x )] = p(Xm+n = y / Xm = x)
= πn(x,y)
⑦ p[(Xm+1,…,Xm+n) ∈ B1×…×Bn / (Xo,…,Xm-1,Xm) ∈ Ao×…×Am-1×{x}]
= p[(Xm+1,…,Xm+n) ∈ B1×…×Bn) / Xm = x ] = p[(X1,…,Xn) ∈ B1×…×Bn / Xo = x]
(la formule 3 se prouve par récurrence, et les formules 4 à 7 en sont des conséquences immédiates. On
notera que dans la formule 7, la valeur de Xm doit être fixée.
Si (Xn) est une chaîne de Markov, toute sous-suite constituée de termes consécutifs de (Xn) est encore une chaîne
de Markov. En particulier, les propriétés qui précèdent sont encore valables par translation sur les indices de la
chaîne.
d) Classification des états.
Soient x , y ∈I deux états de la chaîne. On écrit "x→y" s'il existe une possibilité de passage de x à y de
probabilité non nulle:
[x → y] ⇔ [∃n ≥0, p(Xn=y /Xo = x) = πn(x,y) > 0]
Un état x est dit récurrent si, lorsqu'un passage de x à un état y est envisageable, alors le passage de y à x l'est
aussi; dans le cas contraire, x est dit transitoire:
x est récurrent ⇔ [∀y∈ I: (x → y) ⇒ (y → x)]
x est transitoire ⇔ x n'est pas récurrent
On vérifie immédiatement que "→" définit une relation d'équivalence sur l'ensemble R des états récurrents. les
classes d'équivalences de cette relation dans R sont appelées classes de récurrence pour la chaîne (Xn)n≥0.
Exemples:
•
•
•
1-α α 
, 0 < α, β < 1:
 β 1-β 
une classe de récurrence: {1,2};
pas d'état transitoire.
0 1
Avec I = {1,2} et T = 
0 1:
l'état 1 est transitoire;
l'état 2 est récurrent.
Avec I = {1,2} et T = 
Avec I = {1,2} et T = 
1/2 1/2 
:
1 
 0
l'état 1 est transitoire;
l'état 2 est récurrent.
•


Avec I = {1,2,3,4,5,6} et T =


1/2 1/2 0
0
0
0
1/3 2/3 0
0
0
0
0
0 1/8 0 7/8 0
1/4 1/4 0
0
0 1/4 1/4
0 3/4 0 1/4 0
0 1/5 0 1/5 1/5 2/5




:
Deux classes de récurrence:
{1,2} et {3,5};
les états 4 et 6 sont transitoires.
Une chaîne telle que tous les états communiquent entre eux est dite récurrente irréductible:
(Xn)n≥0est récurrente irréductible ⇔ [∀x, y ∈I : x→y]
⇔ [Il y a une unique classe de récurrence et aucun état transitoire].
Pour x ∈I tel que p(Xo=x) >0, notons px = p
la probabilité conditionnelle sachant (Xo=x), et N(x) le nombre
Xo=x
de passages après l'indice 0 de la chaîne en x:
• Si x est récurrent, la chaîne restera sur x ou rencontrera un autre état y qui lui permettra de revenir à
x, et ainsi de suite; on peut raisonnablement penser que px(N(x) = +∞) = 1.
•
Si x est transitoire, la chaîne rencontrera un état y ≠x sans possibilité de revenir à x; on peut penser
dans ce cas que px(N(x)=+∞) = 0.
Montrons en effet que px(N(x)=+∞) ne peut prendre que les valeurs 0 ou 1:
Définissons par récurrence les indices successifs de passage de la chaîne en x après 0 (avec inf ∅ = +∞):
T1 = T(x) = inf { n > 0, Xn = x} et pour k ≥ 1: Tk+1 = inf { n > Tk , Xn = x}
+∞
On a ainsi: [N(x)=+∞] = ∩ ↓ [Tk < +∞] , et donc:
k=1
px( N(x) = +∞) = lim px(Tk < +∞)
k→ +∞
Soient k ≥1 et n1,…,nk ≥ 1; notons Nj = n1+…+nj pour j = 1,…,k ; il vient, pour k ≥2:
px [(T1,…,Tk) = (N1,…, Nk)]
= px [(T1,…,Tk-1) = (N1,…,Nk-1) ; XNk-1+1 ≠ x ; …; XNk-1 ≠ x ; XNk = x ]
= px [(XNk-1+1≠x; …;XNk-1 ≠ x; XNk = x) / (T1,…,Tk-1) = (N1,…,Nk-1)]. px ((T1,…,Tk-1) = (N1, …,Nk-1))
= p [(XNk-1+1≠x; …;XNk-1 ≠ x; XNk = x) / XNk-1 = x]. px ((T1,…,Tk-1) = (N1,…,Nk-1))
= p [ (X1 ≠ x ; … Xnk-1 ≠ x ; Xnk = x) / Xo = x]. px((T1,…,Tk-1) = (N1,…,Nk-1))
(a)
= px(T1 = nk). px((T1,…,Tk-1) = (N1,…,Nk-1))
Nous pouvons donc écrire:
1)]
(a)
∑ px(T1= n1, …,Tk = n1+…+nk) =
∑
px(T1 = nk). px[(T1,…,Tk-1) = (N1,…,Nkn1,…,nk
n1,…,nk
∑
px[(T1,…,Tk-1) = (n1,n1+n2…,n1+..+nk-1)] = px(T1 < ∞).px(Tk-1 < ∞).
= ∑ px(T1 = nk).
nk
n1,…,nk-1
px(Tk < ∞)
=
Par récurrence, il suit:
px(Tk < ∞) = [px(T(x)<∞)]k
Le résultat annoncé est donc prouvé, puisque nous avons seulement les deux cas possibles suivants:
1) Si px(T(x) < ∞) = 1 : px(N(x) = ∞) = 1: il est quasi-certain que la chaîne repassera une infinité de fois
en x.
2) Si px(T(x) < ∞) < 1; alors px(N(x) = ∞) = 0 : il est quasi-certain que la chaîne ne repassera qu'un
nombre fini de fois en x.
On peut aussi remarquer que [N(x)=+∞] = lim sup (Xn = x), et donc : si la série ∑ px(Xn = x) = ∑ πn(x,x)
n≥1
n≥1
converge, nous sommes dans le second cas (Borel-Cantelli) ; par contraposée, le premier cas correspond au cas
où la série diverge .
On peut démontrer que ces deux situations correspondent respectivement au cas où x est récurrent et au cas où x
est transitoire.
+∞
+∞
Remarque : la somme de la série précédente a une signification : avec N(x) = ∑ 1
= ∑ 1
,
[X
=x]
n=1 n
k=1 [Tk<∞]
l'espérance Ex(N(x)) de N(x) dans (Ω,B,px) vaut:
+∞
+∞
+∞
px(T(x)<∞)
Ex(N(x)) = ∑ px(Xn=x) = ∑ πn(x,x) = ∑ px(Tk < ∞) =
∈ [0,+∞].
1 - px(T(x)<∞)
n=1
n=1
k=1
e) Compléments.
Une probabilité µ sur I = {a1,…,ar}, assimilée à sa distribution en ligne : µ = (µ(a1),…,µ(ar)) est dite invariante
(ou stationnaire) pour la chaîne (Xn)n≥0 de matrice de transition T si µT = µ.
Il est immédiat de constater qu'il existe au moins une probabilité invariante, et qu'elle est unique si et seulement
si 1 est valeur propre d'ordre 1 de T.
On peut démontrer que le nombre de classes de récurrence de la chaîne coïncide avec la dimension de Ker(T-I).
Ainsi: la chaîne (à espace d'états fini) possède une unique probabilité invariante U* si et seulement si elle admet
une unique classe de récurrence.
Les chaînes régulières introduites en [b] en sont un cas particulier, pour lesquelles la loi de Xn converge
étroitement vers U*.
On peut enfin prouver que si la chaîne est récurrente irréductible de probabilité invariante U*, on a l'équivalence:
p converge étroitement vers U* ⇔ 1 est la seule valeur propre de module 1 de T
Xn
______________________________________________________
6. PROCESSUS DE POISSON
L'origine des temps étant fixée à 0, on considère une succession d'événements, à laquelle on associe:
Pour n ∈N* :
• La date Sn ∈ [0,+∞[ d'observation du nème événement (par convention, on posera So = 0).
n
La durée Xn = Sn-Sn-1 qui sépare le (n-1)ème événement du nème événement (on a donc Sn = ∑ Xk ).
k=1
Pour t ∈ R+:
• Le nombre Nt des événements qui ont lieu dans l'intervalle de temps [0,t]:
+∞
(No = 0).
Nt = max {n ≥ 0, Sn ≤ t} = ∑ 1
n=1 [Sn≤ t]
•
(la famille N = (Nt)t≥0 est appelée fonction de comptage du modèle)
De nombreuses situations concrètes peuvent se modéliser ainsi: arrivée de clients à un guichet, réceptions
d'appels téléphoniques à un standard, accidents survenant sur une route, …
On supposera que la suite (Xn) est indépendante et équidistribuée de loi exponentielle E(λ), λ > 0 (on se
reportera à l'exemple de [4b], où la loi exponentielle est caractérisée par le fait qu'elle n'a pas de mémoire).
a) Loi de (Sm,…,Sn) (1≤ m ≤ n) et conséquences
Par indépendance, le vecteur (X1,…,Xn) est à densité (x1,…,xn) → λn.exp[-λ(x1+…+xn)] sur (R+)n.
Pour tm , … , tn ≥ 0 , il vient:
p(Sm≤ tm,…,Sn≤ tn) = p( X1 +…+Xm ≤ tm , … , X1+…+Xn ≤ tn) =
⌠
⌡exp[-λ(x1+…+xn)]dx1…dxn ,
A
où A = {(x1,…,xn) ∈ (R+)n , x1+…+xm ≤ tm , … , x1+…+xn ≤ tn) est transformé par
(x1,…,xn) → (u1,…,un) = (x1 , x1+x2 , … , x1+…+xn)
en B = {(u1,…,un), 0 ≤ u1 ≤ … ≤ un ; um ≤ tm , …, un ≤ tn }; il suit:
p(Sm≤ tm,…,Sn≤ tn) =
⌠
⌡λ .exp(-λun).10≤ u1≤…≤un(u1,..,un)du1…dun
n
séparons les variables :
n
Rm-1× ∏ ]-∞,tk]
k=m
=
⌠λ .exp(-λun).10≤ u1≤…≤um-1≤um(u1,..,um-1).10≤ um≤ …≤ un(um,…,un).du1…dun
⌡
n
n
Rm-1× ∏ ]-∞,tk]
k=m
=
n
⌠
⌠
⌡du1…dum-1λ .exp(-λun).10≤ um ≤…≤ un(um,…,un)dum…dun

⌡0≤u1≤…≤um-1≤um 
n
∏ ]-∞,tk]
k=m
m-1
um
L'intégrale entre parenthèses se calcule par récurrence et vaut
; il en découle que:
(m-1)!
m-1
•
•
•
um
. exp(-λun).1
(u ,…,un) sur Rn-m+1.
(Sm,…,Sn) suit la loi à densité (um,…,un) → λ .
0≤um≤…≤un m
(m-1)!
λn.xn-1 -λx
Avec m = n : Sn suit la loi à densité x →
.e sur R+ (loi de Erlang de paramètres λ,n).
(n-1)!
Avec m = 1 : (S1,…,Sn) suit la loi à densité (u1,…,un) → λn.exp(-λun).1
(u ,…,un) sur Rn.
0≤u1≤…≤un 1
b) Loi de Nt-Ns (0 ≤ s < t) et conséquences
n
Nt - Ns désigne le nombre d'événements ayant lieu dans l'intervalle de temps ]s,t] ; il vient, pour k ∈N :
[Nt-Ns = k ]
=
+∞
∪ [ Sm ≤ s < Sm+1 ≤ …. ≤ Sm+k ≤ t < Sm+k+1 ]
m=0
(réunion disjointe)
et donc, en reprenant la densité de la loi de (Sm,…,Sm+k+1):
p( Nt-Ns = k)
=
=
+∞
∑
m=0
+∞
∑
m=0
⌠ m+k+1 um
λ
.(m-1)!.exp[-λum+k+1].dum…dum+k+1
⌡
m-1
0≤ um≤ s < um+1≤…≤ um+k≤ t <um+k+1
⌠ m+k+1 um
λ
.(m-1)!.exp[-λum+k+1].dum…dum+k+1
⌡
m-1
(les variables sont ainsi séparées)
0 ≤ um ≤ s
s < um+1≤…≤ um+k≤ t
t < um+k+1
s
+∞
+∞ m+k+1
xm-1
⌠
.
.dx. ⌠e-λx.dx.
= ∑ λ
⌠
⌡ dx1…dxk
⌡(m-1)! ⌡
m=0
t
s < x1 ≤ … ≤ xk ≤ t
0
=
=
+∞
sm -λt
∑ λm+k.
.e .
m!
m=0
⌠ dy1…dyk
⌡
0 < y1 ≤ … ≤ yk ≤ t-s
=
+∞
sm -λt (t-s)k
∑ λm+k .
.e .
m!
k!
m=0
[λ(t-s)]k
.exp[-λ(t-s)].
k!
(pour ne pas alourdir, le terme obtenu pour m = 0 n'a pas été séparé; on se convaincra qu'il vaut bien ce
(t-s)k
)
qu'il faut, avec p(So ≤ s < S1 ≤ … ≤ t < Sk+1) = p(s < S1 ≤ … ≤ t < Sk+1) = λk.e-λt.
k!
En conclusion:
•
Pour 0 ≤ s < t : Nt-Ns suit la loi de Poisson P(λ(t-s)).
•
Pour t ≥0 : Nt suit la loi de Poisson P(λt)
•
Nt-Ns et Nt-s ont même loi: le nombre d'événements ayant lieu dans un intervalle de temps donné ne dépend
donc pas de l'origine de l'intervalle considéré.
(avec s = 0).
On peut démontrer enfin que pour toute suite 0 = to ≤ t1 ≤ … tn ≤ …, la suite (Ntk- Ntk-1) est indépendante.
(reprendre le schéma ci-dessus avec un peu de patience).
c) Temps passé et temps d'attente
Pour t ≥ 0, notons:
•
Zt = t - S
•
Wt = S
Nt
Nt+1
le temps écoulé depuis le dernier événement arrivé ( Zt = t ⇔ Nt = 0 ⇔ 0 ≤ t < S1)
-t le temps d'attente avant l'arrivée du prochain événement.
Les v.a. Zt et Wt sont à valeurs respectivement dans [0,t] et [0,+∞[ .
Pour 0 ≤ z < t et ω ≥ 0, il vient:
[Zt ≥ z , Wt > ω] = [aucun événement n'a lieu dans l'intervalle de temps ]t-z,t+ω] ] = [Nt+ω - Nt-z = 0].
Il en découle:
p( Zt ≥ z , Wt > ω ) = p( Nt+ω - Nt-z = 0 ) = e-λ(ω+z).
Donnons la loi de Wt :
Pour ω ≥0, on en déduit:
p(Wt > ω) = p(Zt ≥ 0 , Wt >ω) = e
ω
-λω
;
p(Wt ≤ ω) = 1 - e
-λω
=
-λt
⌠
⌡λ.e .dt ,
-∞
et Wt suit la loi E(λ) sur R+ .
Passons à la loi de Zt :
•
p(Zt = t)
•
Pour 0 ≤ z < t :
p(Zt = z)
= p(Nt = 0) = e-λt .
= p  lim ↓ ( z ≤ Zt < z + n ) = lim p( z ≤ Zt < z + n ) =
1
n→+∞
1

n→ +∞
lim [ p(Zt ≥z ) - p(Zt ≥ z
n→ +∞
1
+n ) ]
=
1
lim [ p(Zt ≥z , Wt > 0) - p(Zt ≥ z + n , Wt > 0) ] =
n→ +∞
lim [ e-λz - e-λz - λ/n ]
n→ +∞
= 0.
= 1 - p(Zt ≥ z) = 1 - p(Zt ≥ z , Wt > 0)
p(Zt ≤ z)
= 1 - e-λz .
La fonction de répartition F de Zt est donc définie par:
Zt
si z < 0
F (z) = 0
Zt
1-exp(-λz) si z ∈ [0,t[
1
si z ≥ t.
On notera que Zt ne suit pas une loi à densité (sa fonction de répartition présente un saut de e-λt en t ).
Application: le paradoxe de l'autobus:
1
Supposons qu'à un arrêt de bus, le temps moyen d'attente entre deux passages soit E(Xn) = λ = 20 mn; une
1
personne arrivant à un instant t donné attendra son bus pendant une durée moyenne de E(Wt) = λ = 20mn, et non
1
pas 2λ = 10mn , comme ce que l'intuition aurait pu laisser espérer…
______________________________________________________
7. FORMULE D'INVERSION POUR X REELLE et ΦX INTEGRABLE
X désigne une v.a. réelle et Φ sa fonction caractéristique.
T
1
lim
.⌡
1) Calcul pour a ∈R de
⌠e-iax.Φ(x).dx.
2T
T→ +∞
-T
T
1 ⌠e-iax - e-ibx
.
.Φ(x)dx. Conséquence: Φ caractérise la loi de X.
2) Calcul pour a < b de
lim
ix
T→ +∞ 2π ⌡
-T
+∞
1
. ⌠e-itx.Φ(t)dt .
3) On suppose Φ intégrable; alors X est à densité f donnée par: f(x) =
2π ⌡
-∞
------------------------------------------------------------------------------------------------------------------------------------T
T
1 T

Fubini ⌠
1
1
-iax
ix(t-a)
 . ⌠eix(t-a).dxdpX(t) = ⌠g(T,t).dpX(t)



⌠
1) Pour T > 0:
e
.⌡
.Φ(x).dx
=
.
e
dp
(t)
dx
===
⌠
⌠
X
⌡
⌡
⌡
2T
2T 


2T
-T
-T
R
R



⌡
⌡
R
-T
sin T(t-a)
si t ≠ a, et g(T,a) = 1. g est majorée par 1, fonction constante intégrable sur R par
avec g(T,t) =
T(t-a)
rapport à la mesure finie pX, et pour tout t réel:
lim g(T,t) = 1{a}(t) . Un corollaire du théorème de
T→ +∞
convergence dominée permet d'écrire:
T
1
lim
. ⌠e-iax.Φ(x).dx =
T→ +∞ 2T ⌡
-T
⌠
⌡1{a}(t).dpX(t) = p(X= a).
R
T
T
1
2) Pour T > 0:
.
2π
-iax -ibx
⌠e -e .Φ(x).dx = 1 .
2π
⌡ ix
-T
-iax -ibx
⌠e -e .⌠eixt.dpX(t).dx , et le théorème de Fubini s'applique

 ix ⌡
R

⌡
-T
T
1
.
encore:
2π
-iax -ibx
⌠e -e .Φ(x).dx =
⌡ ix
-T
⌠ ⌠ e
 ⌡
⌡-T
T
i(t-a)x



-ei(t-b)x
.dx dpX(t) = ⌡
⌠h(T,t).dpX(t)
2iπx
R
R
T
avec h(t,T) =
⌠sin(t-a)x - sin (t-b)x.dx (la partie imaginaire de l'intégrande est impaire, donc d'intégrale
2πx
⌡
-T
1
nulle). Ainsi: h(t,T) = .
2π
(t-b)T
 (t-a)T

sin
u
⌠
⌠sin udu (formule valable pour tout t réel).
du
 ⌡u
⌡ u 
-(t-a)T

-(t-b)T
u
La fonction u →
⌠sin xdx est définie continue sur R et admet des limites finies en +∞ et -∞; elle est donc
⌡ x
-u
bornée (par une constante M) sur R, et h est donc bornée (par
M
).
π
En outre, en distinguant suivant la position de t par rapport à a et b, on voit que h(.,T) converge simplement
1
vers .(1{a}+1{b}) + 1]a,b[ ) sur R quand T tend vers +∞. Le théorème de convergence dominée permet alors
2
d'écrire:
T
1
1
1 ⌠e-iax - e-ibx
.
.Φ(x)dx = ⌠  .(1{a}+1{b}) + 1]a,b[.dpX(x) = [ p(X=a) + p(X=b) ] + p(a<X<b).
lim
ix
2
2


2π
⌡
⌡
T→ +∞
-T
R
La fonction de répartition F de X est ainsi entièrement déterminée à partir de ΦX (avec [1] et [2] ), donc Φ
caractérise la loi de X.
La dernière expression trouvée vaut exactement
F(b)+F(b-) F(a)+F(a-)
(avec F(x)-F(x-)= p(X=x) ).
2
2
3) Si Φ est intégrable, la formule trouvée en [1] permet d'obtenir p(X=a) = 0 pour tout réel a, puis [2] fournit
alors, pour a, b réels tels que a < b:
T
T
b

1 ⌠e-iax - e-ibx
1 ⌠
e-itx.dt.Φ(x)dx
F(b)-F(a) =
lim
.
.Φ(x)dx = lim
. ⌡
⌠
ix
T→ +∞ 2π ⌡
T→ +∞ 2π 


⌡ a
-T
-T
+∞
b

1 ⌠
-itx
.Φ(x)dx (l'intégrabilité de Φ fournit la convergence de l'intégrale).
e
=
. ⌠
.dt
2π ⌡


⌡ a
-∞
1
La fonction (t,x) → . e-itx.Φ(x) étant intégrable sur [a,b]×R , il en découle (par Fubini):
2π
b

⌠ 1 +∞ -itx
F(b)-F(a) =  . ⌡
e .Φ(x).dxdt , d'où la densité f annoncée.
⌠

2π

⌡ -∞
a
Le résultat n'est pas étonnant: si l'on savait a priori que X était à densité f , la formule d'inversion de
Fourier s'appliquait directement à f, et l'on obtenait le résultat sans calculs.
On a ici démontré que sous la seule hypothèse que Φ soit intégrable, X est à densité f donnée par la
formule d'inversion de Fourier.
On trouvera la généralisation de la formule dans le cas où X est à valeurs dans
notions fondamentales de la théorie des probabilités; p169].
______________________________________________________
Rd dans [Métivier;
8. DEUX LOIS FORTES DES GRANDS NOMBRES
La première loi donne un résultat pour des variables d'ordre 2, non nécessairement équidistribuées; la seconde
(dont la démonstration utilise le résultat de la première) donne un résultat pour des variables intégrables
équidistribuées.
Nous aurons besoin de quelques lemmes.
♦ Pour la première loi: lemmes 1 à 3.
♦ Pour la seconde loi: lemmes 1 à 5 (première loi + lemmes 4 et 5) et théorème de Borel-Cantelli.
1.
un
1 n
Thm de Kronecker: si (un) est une suite réelle telle que ∑ converge, alors lim
. ∑ uk= 0.
n
n→ +∞ n k=1
n uk
On effectue une transformation d'Abel à l'aide des sommes partielles sn = ∑
(so = 0): pour n ≥2:
k=1 k
1 n
1 n
1 n-1
. ∑ u = . ∑ k.(s -s ) = sn - . ∑ sk ;
n k=1 k n k=1 k k-1
n k=1
(sn) étant convergente, la suite de ses moyennes de Cesaro converge aussi vers la même limite, d'où le
résultat annoncé.
2.
Inégalité de Kolmogorov: si X1,…, Xn sont des v.a. réelles centrées indépendantes d'ordre 2, alors:
1 n
∀a > 0 : p( max |X1+…+Xk| ≥ a ) ≤ 2 . ∑ Var (Xk).
a
1≤k≤n
k=1
On note Sn = X1+…+ Xn , et An = { |S1| < a ; … ; |Sn-1| < a ; |Sn| ≥ a }, de sorte que: .
n
A = { max |X1+…+Xk| ≥ a } = ∪ Ak , et cette réunion est disjointe.
1≤k≤n
k=1
Il suit:
n
∑ Var (Xk)
k=1
= Var(Sn) = E(Sn2)
≥
≥
=
=
n
n
E( 1A.Sn2 ) = ∑ E(1 .Sn2) = ∑ E( 1 .[Sk2 + 2Sk(Sn-Sk) + (Sn-Sk)2] )
A
Ak
k
k=1
k=1
n
n
∑ E( 1 .[Sk2 + 2Sk(Sn-Sk)] ) ≥ ∑ [ a2.p(Ak) + 2E(1 .Sk.(Sn-Sk) )]
A
Ak
k
k=1
k=1
n
n
*
a2.p(A) + 2. ∑ E[1 .Sk.(Sn-Sk)] == a2.p(A) + 2. ∑ E(1 .Sk).E(Sn-Sk)
A
k
k=1
k=1 Ak
2
a .p(A) puisque les Sn-Sk sont centrées.
L'égalité (*) provient de l'indépendance de 1 .Sk et Sn-Sk pour k donné; en effet:
Ak
• 1
.S = (1[a,+∞[ o |Sk| ).( 1[0,a[ o |S1| )….( 1[0,a[ o |Sk-1| ).Sk = f (X1,…,Xk) avec:
Ak k
k-1
f : (x1,…,xk) → (x1+…+xk).1[a,+∞[(x1+…+xk). ∏ 1[0,a[(x1+…+xj), mesurable.
j=1
• Sn-Sk = Xk+1+…+Xn = g(Xk+1,…,Xn) avec g mesurable.
D'après le théorème des coalitionss, l'indépendance de (Xi) entraîne celle de 1
Ceci valide (*).
.S et Sn-Sk.
Ak k
3.
Condition suffisante de convergence presque sûre: si (Xn) est une suite indépendante de v.a. réelles centrées
d'ordre 2, telle que ∑ V(Xn) converge, alors ∑ Xn converge presque sûrement.
Si (un) est une suite numérique, le critère de Cauchy fournit:
(un) converge ⇔
lim sup |un+p-un| = 0 ⇔ inf sup |un+p-un| = 0 .
n→ +∞ p≥1
n≥0 p≥1
Il en résulte, en notant (Sn) la suite des sommes partielles de (Xn):
[∑Xn converge]
=
[∑Xn diverge]
=
=
[ (Sn) converge]
=
[ inf sup |Sn+p-Sn| = 0 ] , puis:
n≥0 p≥1
+∞
+∞ +∞
∪ [ inf sup |Sn+p-Sn| ≥ 1/m ] = ∪ ∩ [ sup |Sn+p-Sn| ≥ 1/m]
m=1 n≥0 p≥1
m=1 n=0 p≥1
+∞ +∞
∪ ∩ lim ↑ ( max |Sn+p-Sn| ≥ 1/m) .
m=1 n=0 q→ ∞ 1≤p≤q
Par suite (avec Beppo-Levi):
+∞
∑ inf lim ↑ p( max |Sn+p-Sn| ≥ 1/m)
m=1 n≥0 q→ ∞
1≤p≤q
n+q
+∞ 2
∑ m . inf lim ↑ ∑ Var(Xk)
(Kolmogorov)
≤
m=1
n≥0 q→ ∞ k=n+1
+∞ 2
+∞
+∞
∑ m . inf ∑ Var(Xk) = ∑ m2.0 = 0
=
(hypothèse).
m=1
m=1
n≥0 k=n+1
+∞
Soit X une v.a. réelle intégrable ≥0 ; alors ∑ p( X > n) ≤ E(X).
n=1
+∞
+∞
+∞ +∞
+∞ k
∑ p(X > n) = ∑ ∑ p(k< X ≤ k+1) = ∑ ∑ p(k< X ≤ k+1) = ∑ k.p(k< X ≤ k+1)
k=1
n=1
n=1 k=n
k=1 n=1
p( ∑Xn diverge)
4.
=
5.
+∞
∑ k.
k=1
≤
+∞
∑
⌠
⌡dpX(t) ≤ k=1
]k,k+1]
⌠
⌡t.dpX(t) = E(X).
]k,k+1]
n
+∞ 1
t2.dpX(t) < +∞.
Soit X une v.a. réelle intégrable; alors ∑ 2.⌠
n=1 n ⌡
-n
n
-n+1
+∞
∑ an = E( |X| ) < +∞.
Pour n ≥1, posons an = ⌠
⌡t.dpX(t) + ⌠
⌡| t |.dpX(t) : an ≥ 0 et n=1
n-1
-n
n
De
-n+1
n
-n+1
2
⌠
⌡t .dpX(t) + ⌠
⌡t .dpX(t) = ⌠
⌡t.t.dpX(t) + ⌠
⌡(-t).| t |.dpX(t) ≤ n.an ,
2
n-1
-n
n-1
-n
on tire (calculs a priori dans [0,+∞]:
n
k
-k+1

+∞ 1 n  2
+∞ 1
2
 ⌠t .dpX(t) + ⌠t2.dpX(t)
∑
∑
∑ 2. ⌠
t
.dp
(t)
=
.
2
X
⌡
n=1 n k=1 ⌡
n=1n ⌡

-n
-k
k-1

+∞
+∞
+∞ 1
+∞ 1 n
≤ ∑ 2 . ∑ kak = ∑ k.ak. ∑ 2 = ∑ uk , où uk ~ ak .
k→∞
n
n
k=1
k=1
k=1
n=k
n=1
∑uk converge, et on a donc le résultat
THM 1 Soit (Xn) une suite indépendante de v.a. réelles d'ordre 2 telles que
+∞ Var Xn
X1+…+Xn
lim E(Xn) = m et ∑
<+∞ . Alors
converge presque sûrement vers m.
2
n
n→ +∞
n=1 n
Démonstration:
+∞
+∞ Var Xn
Xn-mn
Notons mn la moyenne de Xn ; de ∑ Var (
)= ∑
< +∞, on déduit avec le lemme 3 que
n
n=1
n=1 n²
Xn-mn
1 n
la série ∑
converge presque sûrement, puis, avec le lemme 1, que . ∑ (Xk-mk) tend presque
n
n k=1
n≥1
sûrement vers 0 quand n tend vers +∞, ce qui permet de conclure.
THM 2 Soit (Xn) une suite indépendante de v.a. réelles intégrables et équidistribuées, d'espérance commune m;
alors
X1+…+Xn
converge presque sûrement vers m.
n
Démonstration:
Pour n ≥0, notons
Un = Xn-m et Vn = 0
si |Xn-m| ≤ n
Un = 0
et Vn = Xn-m si |Xn-m| > n,
de sorte que Xn-m = Un+Vn et
X1+…+Xn
U1+..Un V1+..+Vn
-m =
+
.
n
n
n
Soit X une v.a. réelle de même loi que les Xn.
!
D'après la définition de (Vn), il vient:
+∞
[(Vn) ne converge pas vers 0] ⊂ ∩ ∪ { |Xn-m| > n} = lim { |Xn-m| > n }.
k=0 n=k
+∞
+∞
Or le lemme 4 fournit: ∑ p( |Xn-m| > n ) = ∑ p ( |X-m| > n ) ≤ E ( |X-m| ) < +∞ .
n=1
n=1
D'après le lemme de Borel-Cantelli (partie facile), on déduit: p( lim { |Xn-m| > n }) = 0, et par
conséquent (Vn) converge presque sûrement vers 0. Il en est donc de même de
!
V1+..+Vn
.
n
La suite (Un) est indépendante puisque (Xn) l'est; de plus, nous avons:
n
+∞
(t-m)dp
-m)dp
=
(t)
→
(X
! E(Un) =
⌠
⌠
⌠(t-m)dpX(t) = E(X-m) = 0 .
n
X
⌡
⌡
n → +∞ ⌡
-n
|Xn-m|≤n
-∞
n
2
+∞ Var(Un) +∞ E(Un ) +∞ 1
(t-m)2dpX(t) < +∞ en vertu du
! (a priori dans [0,+∞]): ∑
≤ ∑
= ∑ 2.⌠
2
2
n
n=1
n=1 n
n=1 n ⌡
-n
U1+..Un
converge presque sûrement vers 0.
lemme 5. Enfin, le théorème 1 s'applique à (Un) et
n
X1+…+Xn
On conclut finalement que
converge presque sûrement vers 0.
n
______________________________________________________
9. UNE AMELIORATION DE L'INEGALITE DE BIENAYME-CHEBYCHEV
On se place dans les conditions de la loi faible des grands nombres énoncée en 5.1:
(Xn) désigne une suite de v.a. réelles d'ordre 2 indépendantes et équidistribuées d'espérance m et d'écart-type σ.
Sn
Sn = X1+ …. + Xn , Xn =
n
On suppose en outre connues deux constantes A, B > 0 telles que: |X1| ≤ A p.s. et σ² ≤ B.
Alors pour 0 ≤ β ≤
β²A²n
B
et n ≥1, on a : p( | Xn -m| ≥ βA ) ≤ 2.expA²
 4B .
Preuve:
Notons εn = Xn - m. Pour α, β réels positifs et n ∈N*, il vient:
eαβA.p( εn ≥ βA) =
αβA
⌠
⌡e .dp ≤ ⌠
⌡exp (αεn).dp = E( exp(αεn) ).
εn≥βA
n
α
Mais exp (αεn ) = ∏ exp ( .(Xk-m)) , et l'indépendance des Xk permet donc décrire:
n
k=1
n
α
eαβA.p( εn ≥ βA) ≤ E( exp ( .(X1-m) )) .
n


Utilisons la majoration et ≤ 1+t+t² , valable pour |t| ≤ 1: de
si α ≤
n
:
2A
α²
α²σ²
α²B
α
α
E(exp ( .(X1-m))) ≤ E( 1 + .(X1-m) + .(X1-m)2 ) = 1 +
≤1+
.
n
n
n²
n²
n²
On obtient alors, avec 1+

si α ≤
n
:
2A
2Aα
α
.|X -m| ≤
, on tire :
n 1
n
t n t
≤ e (valable pour t ≥0):
n
eαβA.p( εn ≥ βA) ≤ exp
α²B
α²B

, et donc: p( εn ≥ βA) ≤ exp
n
 n - αβA.
Le minimum de la fonction majorante est obtenu pour α =
condition imposée à α, on en déduit:
si β ≤
B
:
A²
β²A²n
βAn
, et vaut exp2B
 4B . Moyennant la
β²A²n
 4B .
p( εn ≥ βA) ≤ exp-
En procédant de même avec eαβA.p( εn ≤ -βA), on obtiendra le même majorant pour p( εn ≤ -βA), avec la
même condition sur β.
______________________________________________________
10. TEST DU ℵ2 D'AJUSTEMENT
a) Espérance et variance d'un vecteur aléatoire:
Soit V un espace vectoriel réel de dimension finie, et X une variable aléatoire à valeurs dans V.
V* désigne le dual de V.
!
Si u ∈ V*, uoX = u(X) est une v.a. réelle. Si u(X) admet une espérance pour tout u ∈ V*, [u → E(u(X))] est
élément de V**. L'isomorphisme canonique entre V et V** (dimension finie) permet alors de définir un
(unique) vecteur de V, appelé espérance de X, et noté E(X), tel que:
∀ u ∈ V* : E(u(X)) = u(E(X)).
Si B = (e1,…,en) est une base de V, et si X a pour composantes (X1,…,Xn) dans B, on en déduit, en
appliquant ceci aux ei*, que X admet une espérance si et seulement si X1,…,Xn admettent des espérances, et
que, le cas échéant, E(X) a pour composantes (E(X1),…,E(Xn)) dans B.
Si ϕ ∈ L(V), on a pour tout u∈V*: E(u(ϕ(X))) = E((uoϕ)(X)) = (uoϕ)(E(X)) = u( ϕ(E(X)) ). Il découle de
ceci (unicité):
∀ ϕ ∈ L(V) : E(ϕ(X)) = ϕ(E(X)).
Dans le cas V = R , on retrouve bien sûr l'espérance connue.
!
Si pour tout u ∈ V*, u(X) admet une variance, on appelle variance de X l'application
VarX : u → E ( [u(X) - E(u(X))]2 ) = E( u(X)2 ) - [E(u(X))]2.
n
Soit B = (e1,…,en) une base de V, et X = ∑ Xk.ek . En appliquant ceci aux ek* , on constate que X a une
k=1
n
variance si et seulement si les Xk en ont. Le cas échéant, il vient, pour u = ∑ uk.ek* :
k=1
n
VarX (u) = E ( [ ∑ uk(Xk - E(Xk) ]2 ) = ∑ uiuj.cov(Xi,Xj).
k=1
i,j
VarX est donc une forme quadratique positive sur E*, et sa matrice dans B, appelée matrice de dispersion de
X relativement à B, est [cov(Xi,Xj)]i,j . Ses termes diagonaux sont les variances des Xk.
Dans le cas V = R , on retrouve la variance déjà introduite.
Dans le cas qui nous intéresse, à savoir V = Rd, la variance de X est assimilée par abus à la matrice de
dispersion de X relativement à la base canonique.
b) Vecteurs gaussiens:
Rd est muni de sa structure euclidienne usuelle; le produit scalaire de x et y est noté x.y , et ||x||2 = x.x.
 X1 
 m1 
d
 un vecteur aléatoire à valeurs dans R , admettant une espérance m=  ..  et une variance Γ= [cij],
 Xd 
 md 
Soit X = ..
à termes diagonaux ckk = σk2.
Alors pour t ∈ Rd, la v.a. réelle t.X admet une espérance et une variance, données par les formules:
E( t.X ) = t.m ;
V( t.X ) = E( [t.(X-m)]2 ) = t.Γt = ttΓt.
Le vecteur X est dit gaussien si pour tout t ∈ Rd, t.X est gaussienne (i.e. suit une loi normale).
Si X est gaussien, on déduit des deux formules précédentes que:
!
∀k = 1,…,d : Xk suit la loi N(mk,σk).
!
ΦX(t) = E ( ei.t.X ) = Φt.X (1) = exp ( i.t.m ).exp ( -
t
tΓt
).
2
(si une v.a. réelle Z suit la loi N(m,σ), alors: ΦZ(x) = eimx.e-σ²x²/2).
La deuxième formule montre que la loi d'un vecteur gaussien est donc caractérisée par son espérance et sa
Γ) la loi d'un vecteur gaussien d'espérance m et de variance Γ.
variance. On note N(d)(m,Γ
Le cas le plus simple de vecteur gaussien a été introduit dans le cours: un vecteur (X1,…,Xd) suivant la loi
normale N(d)(m,σ) est un vecteur gaussien de variance la matrice diagonale Γ = σ2.Id.
Si A ∈ Md(R) et si X suit la loi N(d)(m,Γ), alors AX suit la loi N(d)(Am, A.Γ.tA)
(il suffit d'écrire ΦAX(t) = ΦX( tA.t) pour t ∈ Rp).
En particulier, la loi N(d)(0,AtA) est donc la loi de AX avec X suivant la loi N(d)(0,1).
En adaptant la démonstration du théorème central limite énoncé pour les variables réelles on déduit enfin le:
Théorème central limite pour les vecteurs aléatoires:
Si (Xn) est une suite indépendante de vecteurs aléatoires à valeurs dans Rd , de moyenne commune
X1+…+Xn - n.m
m et de variance commune Γ, alors
converge en loi vers N(d)(0,Γ
Γ).
n
c) Test du ℵ2 d'ajustement.
d
Soit X une v.a. réelle de loi µ à valeurs dans A = ∪ Ak (réunion disjointe), et pk = p(X∈Ak) pour chaque k.
k=1
n
Soit un n-échantillon (X1,…,Xn) de µ. On veut comparer le nombre Nk = ∑ 1
des éléments de
j=1 Xj∈Ak
l'échantillon qui arraivent dans Ak au nombre npk théorique que l'on peut espérer.
Pour q = 1,…,n, on vérifie par un calcul simple que Zq =
t1X ∈A - p1

q
1
p1
1
, …,
Xq∈Ad
pd
t
variance la matrice Γ = Id - [ pipj ]i,j = Id - e.te , où e désigne le vecteur unitaire (
- pd
 est un vecteur centré de

p1;…; pd ) .
Les Xk étant indépendants, les Zk le sont aussi; on déduit du théorème central limite énoncé ci-dessus que
Tn =
Z1+…+Zn t N1-np1
Nd-npd
=
,..,
converge en loi vers un vecteur T suivant la loi N(d)(0,Γ).
n
npd 
 np1
Par continuité de la norme, il en résulte que ||Tn||2 converge en loi vers ||T||2
Γ est la matrice du projecteur orthogonal sur H = e⊥. Par idempotence, T suit la loi N(d)(0,ΓtΓ), loi d'un vecteur
ΓY où Y suit la loi N(d)(0,1). Le théorème de Cochran montre alors que ||T||2 = ||ΓY||2 suit la loi ℵ2(d-1).
En conclusion:
d Nk-npk2
converge en loi vers une v.a. de loi ℵ2(d-1).
Y= ∑ 
k=1 npk 
En pratique, on considérera que pour n ≥ 30 et des valeurs attendues npk supérieures à 5, Y suit la loi ℵ2(d-1)
(on regroupera éventuellement des catégories pour réaliser la seconde condition).
Concrètement, nous disposons d'une distribution statistique sous forme d'une table d'effectifs (ou de fréquences)
d'un caractère étudié dans une population, et nous désirons savoir si ces résultats sont compatibles avec une
distribution théorique donnée µ:
d
Avec un effectif total n = ∑ nk :
k=1
Catégorie
A1
…
Ak
…
Ad
Nombre nk de caractères observés dans la catégorie
n1
…
nk
…
nd
Nombre ek = npk de caractères attendus dans la catégorie np1
…
npk
…
npd
La table du ℵ2 fournit la valeur uα,d-1 telle que p( Y > uα,d-1 ) = α (seuil de signification)
d nk-ek2
; on rejette l'hypothèse si τo > uα,d-1.
Dans les conditions ci-dessus, on calcule τo = ∑ 
k=1 ek 
• En lançant successivement 60 fois un dé, un joueur obtient les résultats suivants:
Faces xk
Effectifs nk
1
15
2
7
3
4
4
11
5
6
6
17
En comparaison avec les effectifs théoriques attendus si le dé n'est pas truqué:
Effectifs ek = npk
10
10
10
10
10
10
Nous sommes en mesure d'appliquer le test du ℵ2 d'ajustement. On obtient τo = 13,6; pour α = 5%, on
relève dans la table du ℵ2 la valeur u0,05;5 # 11,07. Nous pouvons donc considérer à ce seuil que le dé est
truqué (ou que le joueur triche).
Si l'on doit ajuster certains paramètres (moyenne m , variance σ2) de la loi d'ajustement à partir de l'échantillon
n 2
(moyenne me , variance σ2 ), on utilisera les estimateurs sans biais m = me , σ2 =
.σ . On peut démontrer que,
n-1 e
sous réserve que les conditions d'approximation soient vérifiées, Y suit approximativement la loi ℵ2 (d-1-k) où
k désigne le nombre de paramètres estimés de cette manière.
•
Une enquête sur les chiffres d'affaires mensuels de 103 magasins de détail a donné les résultats suivants (en
milliers de francs):
Classe Ak de chiffre d'affaires 5,5-6,5 6,5-7,5 7,5-8,5 8,5-9,5 9,5-10,5 10,5-11,5 11,5-12,5 12,5-13,5 13,5-14,5 14,5-15,5
Centre de classe xk
6
7
8
9
10
11
12
13
14
15
Effectifs observés nk
2
3
12
27
23
15
12
5
2
2
Relativement aux centres de classes, la moyenne de l'échantillon est me = (∑nkxk)/103 # 10,038, et son écart2
2
type est σe = ∑ nkxk - me # 1,773.
Posons l'hypothèse: "la distribution T des chiffres d'affaires mensuels des magasins est régie par une loi
normale N(m,σ)". Nous estimons m et σ par les valeurs m # me # 10,038 et σ #
n
.σ
n-1 e
# 1,78.
Dressons un nouveau tableau dans lequel les classes extrêmes sont étendues de sorte à pouvoir appliquer à
l'échantillon l'ensemble de la distribution proposée:
Classe Ak de chiffre d'affaires
< 6,5 6,5-7,5 7,5-8,5 8,5-9,5 9,5-10,5 10,5-11,5 11,5-12,5 12,5-13,5 13,5-14,5 > 14,5
Effectifs observés nk
2
3
12
27
23
15
12
5
2
2
19,704
12,597
5,932
2,081
0,618
Effectifs attendus ek = n.p((T-m)/σ ∈ C) 2,399 5,469 12,205 19,282 22,711
Regroupons les classes extrêmes de sorte à pouvoir appliquer le test du ℵ2 d'ajustement (conditions ek > 5):
Classe Ak de chiffre d'affaires
< 7,5 7,5-8,5 8,5-9,5 9,5-10,5 10,5-11,5 11,5-12,5
Effectifs observés nk
5
12
27
23
15
12
19,704
12,597
Effectifs attendus ek = n.p((T-m)/σ ∈ C) 7,868 12,205 19,282 22,711
(nk-ek)2/ek
1,045 0,003 3,090
0,004
1,123
0,028
> 12,5
9
8,631
0,016
On obtient maintenant τo # 5,282. Pour un ℵ2(7-1-2)= ℵ2(4) (2 paramètres estimés), au seuil de
signification α = 5%, on a u0,05;4 # 9,488 > τo : nous pouvons considérer que les chiffres d'affaires sont
normalement distribués.
______________________________________________________
11. METHODES DE MONTE CARLO POUR LE CALCUL D'INTEGRALES
Les méthodes de Monte-Carlo ont pris une importance croissante depuis leur mise en œuvre à la fin de la
seconde guerre mondiale dans les calculs concernant les réactions nucléaires. Leur propriété essentielle est de
pouvoir simuler des distributions de grandeurs aléatoires.
Elles sont employées dans le calcul d'intégrales simples ou multiples dont la valeur est impossible ou très
difficile à obtenir par les méthodes déterministes, et fournissent des approximations satisfaisantes (dans un sens à
définir).
L'avantage réside dans le fait qu'il n'y a aucune hypothèse de régularité à faire sur la fonction intégrée, et que la
méthode converge aussi vite pour les intégrales simples que pour les intégrales multiples.
1) Exemple historique:
En 1777, Buffon propose pour le calcul approché de π l'expérience suivante: on lance un très grand nombre N de
fois une aiguille de longueur L sur un plan strié de droites parallèles distantes les unes des autres de la longueur d
(on suppose L < d).
La proportion pN des lancers pour lesquels l'aiguille a une intersection avec une des droites fournit une
approximation de la probabilité p pour que l'aiguille rencontre une des droites lors d'un lancer.
On modélise l'expérience en considérant que le couple (x,θ), où x est la position du centre de l'aiguille par
rapport à deux droites voisines et θ l'angle que fait l'aiguille avec la direction des droites, suit la loi uniforme sur
[0,d]×[0,π], de sorte que la condition s'écrit:
[a≤
L
L
ou b ≤ ] , soit donc:
2
2
d
L
L
(x,θ) ∈ A = {0≤x≤ .sin θ}∪{d- .sin θ≤x≤d}
2
2
a
x
θ
0
b
On obtient ainsi (pour une raison de symétrie):
π
2 ⌠
P N = .
πd
⌡
L(sin θ)/2
2π
⌠
⌡dxdθ = d.L , et on obtient ainsi une valeur approchée de π.
0
0
En d'autres termes, la génération par l'expérience de couples aléatoires (x,θ) dans [0,d]×[0,π] a permis de fournir
une valeur approchée de l'intégrale double
⌠ 1A(x,θ)dxdθ.
⌡
[0,d]×[0,π]
2) Simulation d'une loi uniforme:
Avec l'ordinateur et des logiciels comme Matlab ou Maple, il existe des fonctions génératrices de nombres
pseudo-aléatoires (lorsque le ou les premiers nombres sont arbitrairement choisis, toute la suite est entièrement
déterminée).
Bien qu'on ne puisse le prouver, leurs propriétés sont identiques à celles des nombres aléatoires: on peut
soumettre les nombres pseudo-aléatoires aux mêmes tests que les nombres aléatoires, et les utiliser si les tests
sont satisfaits.
Une méthode de génération est par exemple celle des congruences linéaires: on initialise une suite avec no entier
nk
sont pseudoentre 0 et N, et nk+1= ank+b mod. N , où a, b et N sont des entiers fixés. Les nombres εk =
N-1
aléatoires dans [0,1], et pour a < b: les nombres a + (b-a)εk sont pseudo aléatoires dans [a,b].
Remarque:
La suite obtenue est périodique (nk+1 est le reste de la division par N de ank+b et ne peut prendre qu'un
nombre fini de valeurs). On a donc intérêt à ce que la période soit la plus longue possible.
Le cas le plus fréquent est [ N=2m, m entre 30 et 40; a puissance impaire de 5; b=0; no impair] pour
lequel on peut vérifier que l'on a une période de longueur 2m-2.
Sedgewick (1987) préconise N=108, a =31415821 et b = 1.
En initialisant la suite avec des valeurs distinctes de no , on est alors en mesure de simuler par des d-uplets de
nombres pseudo-aléatoires la loi uniforme sur [0,1]d ou sur un pavé quelconque de Rd.
3) Application: calcul d'une intégrale sur un pavé de R
d
:
1
3a) Cas d'une intégrale simple A = ⌠
⌡f(t)dt
0
Soit U une v.a. de loi uniforme sur [0,1]; alors X = f(U) est une v.a. de paramètres
1
E(X)=⌡
⌠f.dpU =⌠
⌡f(x)dx = A
1
2
et σ2 = V(X) = ⌡
⌠f2.dpU - A2 = B -A2 , où B = ⌠
⌡f (x)dx (si cela a un sens)
0
0
Pour une intégrale sur un segment [a,a+t], on posera X =t.f(a+tU); on a alors
b
b
E(X) = ⌡
⌠f(t)dt = A et V(X) = t. ⌡
⌠f2(t)dt - A2 = tB-A2 .
a
•
a
L'échantillonnage simple:
Si (U1,…,Un) est un n-échantillon de la loi uniforme sur [0,1], alors en posant Xk = f(Uk) pour chaque k:
(X1,…,Xn) est un n-échantillon d'une loi de paramètres A et σ.
La loi forte des grands nombres indique que Xn cvps vers A, et le TCL ajoute que, pour n grand:
n
n-1
T = σ .( Xn - A) et U = sn .( Xn - A ) suivent approximativement la loi N(0,1).
On obtiendra ainsi, pour un seuil de signification α donné, un intervalle de confiance pour A avec T dans le
cas où l'on dispose d'une majorant de σ, et avec U dans le cas contraire (cf cours).
En pratique , on tire donc un échantillon (u1,…,un) de nombres aléatoires dans [0,1]; on applique alors les
résultats ci-dessus à l'échantillon
(x1,…,xn) où xk = f(uk),
de moyenne me et d'écart-type σe que l'on aura calculés.
Un intervalle de confiance pour A au seuil α pour n grand sera donc:
si σ ≤ M connu: [me - tα.
M
n
; me + tα.
M
n
] ; sinon: [ me - tα.
σe
n-1
; me - tα.
σe
n-1
].
La méthode est d'autant plus efficace que la dispersion (connue ou estimée) σ2 et le temps τ de calcul sont
1
petits. On définit couramment l'efficacité de la méthode par la valeur 2 , en donnant par convention
τσ
l'efficacité 1 à cette méthode de base.
Pour améliorer l'efficacité (réduire la dispersion), on peut envisager des méthodes plus performantes:
•
L'utilisation de variables antithétiques:
L'idée repose sur le fait que, si U suit la loi uniforme sur [0,1], alors il en est de même de 1-U; en outre, les
variations de ces deux variables se compensent partiellement:
En posant alors Z =
f(U)+f(1-U)
, on constate en effet (avec Cauchy-Schwarz) que:
2
V(Z) =
V(f(U)) + V(f(1-U)) + 2cov(f(U),f(1-U))
≤ V(X)
4
Il y a donc beaucoup de chances pour que l'on réduise ainsi la variance (il y a égalité si et seulement si les
fonctions x → f(x) et x → f(1-x) sont presque partout liées sur [0,1] ; dans les cas où f est par exemple de
classe C2 , ceci ne peut arriver que pour une fonction affine).
Uk+j
pour j = 0,…,m-1,
On peut aussi utiliser non plus 2 variables mais un nombre m donné, en posant Ukj =
m
1 m-1
et en posant
Xk = . ∑ f(Ukj).
m j=0
•
L'échantillonnage stratifié:
On découpe le segment [0,1] en N tranches T1,…,TN de longueurs t1,…,tN.
L'intégrale de f sur Ti est notée Ai. et celle de f2 sur Ti est notée Bi.
N
Dans chaque Ti , on procède à un échantillonnage simple de taille ni , avec n = ∑ ni . On reconstitue alors un
i=1
i
estimateur SN de A en additionnant les estimateurs Xni des Ai obtenus. En considérant que les vecteurs
introduits dans chaque Ti sont mutuellement indépendants, la variance de l'estimateur s'exprime alors par:
2
N
N σi
i
V(
X
∑
∑
,
V(SN) =
ni ) =
i=1
i=1 ni
2
2
où σi = ti.Bi - Ai désigne la variance d'une variable de l'échantillon considéré à la tranche i .
En utilisant l'inégalité de Cauchy-Schwarz, on remarque alors que:
N
1  N σi   N 
. ∑ n ≥ 1. ∑ σi , avec égalité si et seulement si ∀i: ni = n. Nσi .
V(SN) = . ∑
n i=1 ni  i=1 i
n i=1
∑ σi
2
i=1
Dans le but de réduire la variance, on peut alors, en pratique: se donner un découpage de l'intervalle en N
1
n
segments (par exemple: t1 = … = tN = ), effectuer la simulation avec n1 = … = nN = (supposé entier), et
N
N
obtenir une première évaluation des estimateurs τi des σi dans ces conditions; on procède alors à une
τi
nouvelle simulation avec ni # n. N (entiers).
∑ τi
i=1
En ce qui concerne le choix des Ti , on peut montrer que, pour N donné, la dispersion est plus faible si on les
choisit de sorte que f ait la même variation dans chaque intervalle.
On peut enfin combiner cette méthode avec l'utilisation de variables antithétiques; l'efficacité devient alors
très grande.
•
L'utilisation d'une variable de contrôle:
On introduit une variable Y dont l'espérance E(Y) est calculable analytiquement et telle que la variance de
X-Y est plus petite que celle de X.
En pratique, on cherche une fonction g voisine de f dont l'intégrale se calcule (par exemple une fonction
affine), et on applique les méthodes précédentes à l'intégrale de f-g : si la dispersion obtenue sur ce dernier
calcul est plus petite que la dispersion initiale avec l'intégrale de f, on gagne ainsi en efficacité.
d
3b) Cas d'une intégrale multiple I = ⌡
⌠f(t1,…,td)dt1…dtd où P = ∏ [ai,bi]
i=1
P
Le principe reste le même: soit ε = (ε1,…,εd) un vecteur de loi uniforme sur [0,1]d ; en posant Ui = ai+(bi-ai)εi ,
U = (U1,…,Ud) et X = vol(P). f(U), on voit que X suit une loi de moyenne I.
En pratique, pour un échantillonnage simple et k = 1…n: on tire d nombres aléatoires (εk1,…,εkd), on calcule les
valeurs uki = ai + (bi-ai)εki et on travaille ensuite avec l'échantillon (x1,…,xn) où xk = vol(P).f(uk1,…,ukd).
Il est important de remarquer qu'à chacune des n épreuves, le calcul de f (ce qui demande en général le plus de
temps) n'est fait qu'une seule fois, tout comme dans le cas d'une intégrale simple.
On peut montrer que, pour une précision demandée fixée, si le calcul d'une intégrale simple requiert un temps τ
par la méthode probabiliste de base, celui d'une intégrale multiple d'ordre d nécessite en général un temps
d'ordre nτ par la même méthode, alors que si une méthode déterministe requiert un temps t pour une intégrale
simple, le temps requis par la même méthode sur une intégrale multiple d'ordre d est en général de l'ordre de τd.
Ceci explique que les méthodes de Monte-Carlo, qui sont peu compétitives par rapport aux méthodes classiques
pour le calcul d'intégrales simples, deviennent très compétitives pour les intégrales multiples, d'autant plus que
leur ordre est élevé.
Dans ce paragraphe, nous avons proposé une méthode de calcul par échantillonnage simple. Les méthodes de
réduction de la dispersion exposées dans le cas des intégrales simples (stratification, transformations
antithétiques) sont d'une application délicate dans le cas des intégrales multiples.
Pour réduire la variance dans le cas général, il s'avère pratique de savoir simuler des lois non uniformes. C'est
l'objet du paragraphe suivant.
4) Simulation de lois non uniformes:
Supposons que la loi µ à simuler est à densité f sur (a,b) (a, b finis ou infinis) et que sa fonction de répartition F
réalise un homéomorphisme de (a,b) dans (0,1).
La donnée d'une v.a. uniforme u sur (0,1) permet alors de définir la v.a. r = F-1(u), qui suit la loi µ.
( p(r ≤ x) = p(u ≤ F(x)) = F(x) ).
Exemples:
•
•
1
Simulation d'une loi exponentielle E(λ) sur R+: F(x) = 1-e-λx ; on prendra r = - .ln(1-u),
λ
1
ou r = - .ln u, puisque 1-u suit aussi une loi uniforme sur (0,1).
λ
Simulation d'une loi normale N(0,σ): la fonction de répartition n'ayant pas d'expression analytique,
s²+t²
1
.exp sur R2 .
on passe en dimension 2: soit (x,y) suivant la loi à densité f(s,t) =
2πσ2
 2σ2 
Le passage en polaires
Φ : R2 - R+×{0} → ]0,∞[×]0,2π[ ,
(x,y)
→
(r,θ) , x = r.cos θ, y = r.sin θ
définit presque partout un couple de v.a. (r,θ).
Avec la formule: p((x,y)∈A) = p((r,θ)∈Φ(A)) =
1
ρ²
⌠ 2πσ
2.exp
( - 2σ2) .ρ.dρ.dθ , on voit facilement que
⌡
Φ(A)
x²
θ suit une loi uniforme sur (0,2π), et que r a pour fonction de répartition F(x) = 1 - exp-  sur
 2σ²
R+.
Partant d'un couple (u1,u2) de loi uniforme sur [0,1], on obtient une simulation de (r,θ) avec:
θ = 2πu1 , r = σ. -2.ln u2 ,
puis deux nombres x et y à distributions gaussiennes, donnés par:
x = σ. -2.ln u2 . cos 2πu1 , y = σ. -2.ln u2.sin 2πu1.
5) Application à la réduction de la variance; cadre général:
Soit f ∈ L1(Rd), et l'intégrale A = ⌡
⌠f(x)dx à évaluer. Supposons que A se mette sous la forme
Rd
A=⌠
⌡f1(x).g(x).dx , f = f1.g
Rd
d
où g est la densité sur R d'une loi µ que l'on sait simuler.
Soit U un vecteur aléatoire de loi µ ; alors X = f1(U) est une variable aléatoire réelle de paramètres
f2(x)
.dx - A2
⌡ g(x)
2
2
E(X) = A , et σ2 = V(X) = ⌠
⌡[f1(x)] .g(x)dx - A = ⌠
d
R
si cela a un sens
d
(le cas traité en [3a] correspond à d = 1, f1 = (b-a)f et g =
R
1
.1 ,
b-a [a,b]
densité de la loi uniforme sur [a,b] )
Si (X1,…,Xn) désigne un n-échantillon de la loi pX, la loi forte des grands nombres et le TCL s'appliquent ici
comme en [3a].
Pour réduire la variance (ou commencer par obtenir un modèle de variance finie), on cherchera donc à écrire
f = f1.g de sorte que le schéma ci-dessus s'applique et que la variance soit la plus petite possible, tout en gardant
1
à l'esprit que g doit être une densité, que A est inconnue ( le choix optimal g = .f est doublement irréaliste), et
A
que l'on sache simuler la loi de densité g.
Exemples:
!
3
π
Soit à calculer A = Γ  =
2 2 =
+∞
-t
⌠
⌡f(x)dx avec f(t) = e . t .
0
Utilisons une loi exponentielle µ = E(λ) de densité g(t) = λ.e-λt sur
+∞
intégrable sur
f2(t)
t
R+ (λ > 0): t → g(t) = λ.e-(2-λ)t est
2
1
f (t)
2
2
R si et seulement si λ < 2; on obtient σ = ⌠
⌡ g(t) .dt - A = λ(2-λ)2 - A , expression dont la
+
2
0
2
valeur est minimale pour λ = ; on obtient σ2 # 0,06 (contre 0,21 pour λ = 1).
3
3 -t/3
2
On pourra donc calculer A = ⌠
⌡f1(t)dµ(t) avec f1(t) = 2.e . t et µ = E3.
R
1
!
Soit à calculer
π
=A=⌡
⌠f(x)dx avec f(x) =
4
1-x² .
0
1
Par la méthode de base, on obtient σ² = ⌡
⌠(1-x²)dx - A2 =
2
- A2
3
( # 0,05).
0
1
Avec A =
1
f(x)
⌠
⌡g(x).g(x)dx
0
, g densité de U sur [0,1] et X =
f
(U),
g
on a σ = ⌠ g(x) .dx - A².
⌡
[f(x)]²
2
0
1
Prenons g(x) = C.(1-βx²), β ≤ 1, C = 1-β/3 (pour avoir une densité); il vient:
1
σ =
2
1-x²
⌠
⌡C(1-βx²).dx =
1 1 (3-β)(1-β).ln β
- β 3
2β. β
, et une recherche numérique du minimum de cette expression
0
donne une variance minimale de 0,0029 (au lieu de 0,05 pour l'estimateur simple) lorsque β = 0,74.
______________________________________________________
12. ENTROPIE D'UN SYSTEME ALEATOIRE DISCRET
(Examen de passage 1999 de première en seconde année de préparation à l'agrégation de mathématiques).
Dans ce problème, (Ω,p) désigne un espace probabilisé discret (ou système aléatoire discret). On note par abus
p({ω}) = p(ω) pour ω ∈ Ω.
On appelle entropie du système (Ω,p) l'élément de [0,+∞]:
H(p) = - ∑ p(ω).log p(ω)
ω∈Ω
où log désigne le logarithme de base 2, avec la convention 0.log 0 = 0, soit encore:
H(p) = - ∑ p(ω).log p(ω),
ω∈Ωp
avec Ωp = {ω ∈ Ω, p(ω) > 0}. L'unité d'entropie est le bit.
1)
a) Donner un système simple d'entropie égale à 1 bit ; à n bits (n∈N*).
b) Que dire d'un système d'entropie nulle?
c) Donner un système d'entropie égale à +∞ (on pourra par exemple utiliser une série de Bertrand
convergente).
On suppose dans toute la suite que p charge tous les points de Ω, i.e. que Ω = Ωp.
2)
a) Soit q une autre loi sur Ω. Prouver l'inégalité: H(q) ≤ - ∑ q(ω).log p(ω), et montrer qu'il y a égalité si et
ω∈Ω
seulement si q = p.
b) On prend Ω = {1,…,n}. Montrer que la loi sur Ω d'entropie maximale est la loi uniforme (on donnera son
entropie).
c) On prend Ω = N* et pour p la loi géométrique de paramètre µ ∈ ]0,1[, définie par p(k) = µ(1-µ)k-1 pour k
≥1. Calculer H(p), m=E(p), et montrer que p est la loi d'entropie maximum parmi les lois sur Ω de
moyenne au plus égale à m.
Si X désigne une variable aléatoire sur Ω, on appelle entropie de X, et on note H(X), l'entropie du système
( X(Ω), pX ) où pX est la loi de X:
H(X) = - ∑ p(X=x).log p(X=x).
x∈X(Ω)
Soient X et Y deux variables aléatoire sur Ω.
3) Montrer que si X et Y sont indépendantes, alors on a: H(X,Y) = H(X) + H(Y).
Pour x∈X(Ω), on note H(Y|X=x) l'entropie de la loi de Y sachant X=x, et on définit l'entropie de Y
conditionnellement à X par:
H(Y|X) = ∑ p(X=x).H(Y|X=x)
x∈X(Ω)
4)
a) Etablir l'égalité H(X,Y) = H(X) + H(Y|X).
b) Prouver la majoration H(X,Y) ≤ H(X) + H(Y), et en déduire l'encadrement: 0 ≤ H(Y|X) ≤ H(Y).
c) Montrer que H(Y|X) est nul si et seulement si Y est fonction de X, et que, le cas échéant, on a
H(Y) ≤ H(X).
d) Donner de même une condition nécessaire et suffisante pour que H(Y|X) = H(Y). Quelle interprétation
peut-on faire de H(Y|X) ∈ [0;H(Y)] lorsque l'on connaît X ?
Applications
5) Abdelkarim choisit un nombre entier Y au hasard dans {0,…,N-1} (N ∈ N*). Taoufiq (qui connaît N) doit
trouver Y le plus vite possible en posant des questions à condition que la réponse soit "oui" ou "non".
a) Montrer que, même s'il est très malin, Taoufiq ne peut être sûr de déterminer Y avant d'avoir posé un
nombre de questions supérieur ou égal à log N.
b) Dans le cas N = 2k , k∈N*, quelles questions poseriez-vous? (On pourra décomposer Y en base 2).
6) Abdelkarim tire des flêches sur une cible, les tirs étant supposés indépendants, avec à chaque tir la probabilité
µ ∈ ]0,1[ d'atteindre le centre. Y désigne la variable donnant l'ordre du premier tir réussi. Après le nème tir,
Taoufiq examine la cible pour savoir si le centre a été atteint ou non, et note Xn la variable à valeurs dans
{oui,non} associée.
a) Que dire de H(Xn|Y)? En déduire que H(Y|Xn) est minimal lorsque H(Xn) est maximal. Quelle valeur de n
choisiriez-pour cela?
b) Peut-on avoir H(Y|Xn) = 0?
__________________________________________________________________________________________
Solution.
1a)
Un système à deux états a et b équiprobables (p(a) = p(b) = 1/2) a une entropie de 1 bit. Un système à 2n
états équiprobables a une entropie de n bits.
1b)
H(p) = 0 si et seulement si p est concentrée en un point (tous les termes de la somme sont nuls): lorsque
l'état du système est connu d'avance, son entropie est nulle.
+∞
1
1
Soit Ω = N-{0,1}, et p définie par p({n}) =
, où S = ∑
> 0; il vient, pour n ≥2:
S.n.log²n
n=2 n.log²n
1
2log log n
log S
1
log S
+
+
≥
+
, terme général d'une série
-p({n}).log p({n}) =
n.log²n
S.n.log²n n.log n
S.n.log²n n.log n
divergente, donc H(p) = +∞.
1c)
2a)
On utilise la concavité puis la croissance de log:
p(ω)
∑ q(ω).log p(ω) + H(q) = ∑ q(ω).log p(ω) - ∑ q(ω).log q(ω) = ∑ q(ω).log
q(ω)
ω∈Ω
ω∈Ωq
ω∈Ωq
ω∈Ωq
(1)
≤ log
(2)
∑ p(ω) ≤ log 1 = 0, d'où l'égalité demandée.
ω∈Ωq
p(ω)
S'il y a égalité, alors (2) est une égalité, donc Ωq = Ω, et (1) aussi, donc les
sont égaux entre eux
q(ω)
(stricte concavité du log): ∃a, ∀ω ∈ Ω, q(ω) = a.p(ω) , ce qui entraîne a = 1 et q = p.
La réciproque est évidente.
Remarque: pour être parfaitement rigoureux dans le calcul précédent, on pourra distinguer deux cas,
suivant que la somme de droite dans l'inégalité à prouver est finie ou non.
2b)
2c)
n
On obtient H(p) = log n. Si q ≠ p: H(q) < - ∑ qk.log pk = log n = H(p).
k=1
L'entropie d'un système est donc maximale lorsque tous ses états sont équiprobables.
1-µ
1-µ
.log (1-µ) = log
- m.log(1-µ).
µ
µ
+∞
1-µ
Si q ≠ p et E(q) ≤ m: H(q) < - ∑ qk.log pk = log
- E(q).log(1-µ) ≤ H(p).
µ
k=1
On obtient m = 1/µ et H(p) = - log µ -
3)
On note px = p(X=x) pour x ∈ X(Ω) (idem pour Y). Si X et Y sont indépendantes:
H(X,Y)
=-
∑
p(X=x,Y=y).log p(X=x,Y=y)
(x,y)∈(X,Y)(Ω)
=-
∑ p(X=x,Y=y).log p(X=x,Y=y)
x∈X(Ω)
y∈Y(Ω)
(0.log 0 = 0: les termes ajoutés sont nuls)
indép
=== -
∑ px.py.log (px.py) = - ∑ px.py.log px - ∑ px.py.log py = H(X) + H(Y).
x∈X(Ω)
x∈X(Ω)
x∈X(Ω)
y∈Y(Ω)
y∈Y(Ω)
y∈Y(Ω)
Par généralisation: lorsque plusieurs systèmes indépendants se trouvent réunis en un seul, leurs
entropies s'ajoutent .
4a)
Avec les notations naturelles px = p(X=x), py = p(Y=y), px,y = p(X=x,Y=y), py|x = p(Y=y|X=x) :
H(X,Y)
4b)
=-
∑
px,y.log px,y
(x,y)∈(X,Y)(Ω)
=-
∑
py|x.px.[log py|x + log px]
(x,y)∈(X,Y)(Ω)
=-
∑
py|x.px.log py|x ∑
py|x.px.log px
(x,y)∈(X,Y)(Ω)
(x,y)∈(X,Y)(Ω)
=-
∑ py|x.px.log py|x ∑ py|x.px.log px (termes ajoutés nuls)
x∈X(Ω)
x∈X(Ω)
y∈Y(Ω)
y∈Y(Ω)
=-
∑ px.
∑ py|x.log py|x ∑ px.log px. ∑ py|x
x∈X(Ω) y∈Y(Ω)
x∈X(Ω)
y∈Y(Ω)
=
∑ px.H(Y|X=x) + H(X).
x∈X(Ω)
On reprend le calcul, les sommes portant sur les (x,y) ∈ (X,Y)(Ω):
px,y 
H(X,Y) - H(X)
= - ∑ px,y.log py|x = - ∑ px,y.log 
 px.py.py
px,y
px,y
= - ∑ px,y.log
- ∑ px,y.log py = -∑ px,y.log
- ∑ px|y.py.log py
px.py
px.py
px,y
= - ∑ px,y.log
+ H(Y) (idem qu'au calcul précédent) soit donc:
px.py
H(X,Y) - H(X) - H(Y)
=
px.py (1)
≤ log
∑
px.py
∑
px,y.log
px,y
(x,y)∈(X,Y)(Ω)
(x,y)∈(X,Y)(Ω)
(2)
≤ log
∑ px.py = log 1 = 0.
x∈X(Ω)
y∈Y(Ω)
(on a utilisé la concavité et la croissance de log).
H(Y|X) est somme de termes ≥ 0, donc H(Y|X) ≥ 0.
H(X) + H(Y|X) = H(X,Y) ≤ H(X) + H(Y), donc H(Y|X) ≤ H(Y).
4c)
Si H(Y|X) = 0, alors pour tout x ∈ X(Ω), on a H(Y|X=x) = 0, d'où par (1b):
∀x ∈ X(Ω), ∃! yx ∈ Y(Ω), p(Y=yx|X=x) = 1, i.e. (p chargeant tous ses points): X(ω) = x ⇒ Y(ω) = yx.
La réciproque est claire.
Si H(Y|X) = 0, alors H(X,Y) = H(X) = H(Y) + H(X|Y) ≥ H(Y).
4d)
Si H(Y|X) = H(Y), alors H(X,Y) = H(X)+H(Y) et dans les calculs de [4b], (2) est une égalité, donc
(X,Y)(Ω) = X(Ω)×Y(Ω), et (1) aussi, ce qui donne (stricte concavité de log): ∃ a , ∀x,y : px,y = a.px.py ,
puis en reportant, on obtient a = 1, ce qui indique que X et Y sont indépendantes.
La réciproque a été établie en [3].
Lorsqu'on connaît X, H(Y|X) mesure donc l'incertitude qui reste sur Y:
H(Y|X) = 0 : Y connue;
H(Y|X) = H(Y): incertitude totale (Y indépendante de X).
5a)
5b)
6a)
H(Y) = log N; mettons que Taoufiq pose n questions: on obtient une v.a. X à valeurs dans {oui,non}n,
dont l'entropie maximale est celle de la loi uniforme sur {oui,non}n, à savoir n (2b). les questions posées
permettront à coup sûr de déterminer Y ssi Y est fonction de X, i.e. ssi H(Y|X) = 0, ce qui nécessite
H(X) ≥ H(Y), i.e. n ≥ log N.
k-1
Si N = 2k , Taoufiq demandera (aimablement) à Abdelkarim d'écrire Y sous la forme ∑ aj.2j , les ak
j=0
valant 0 ou 1. Il ne lui restera plus qu'à poser les k questions: "ao = 0 ?" ,…., "ak-1 = 0 ?".
Y suit la loi géométrique de paramètre µ (voir 2c) et Xn suit une loi de Bernoulli:
p(Xn = non) = (1-µ)n ; p(Xn = oui) = 1-(1-µ)n.
Xn est fonction de Y (Y = k ⇒ Xn = oui si k ≤ n, non sinon), donc H(Xn|Y) = 0, d'où: H(Xn,Y) = H(Y),
et H(Y|Xn) = H(Y) - H(Xn) sera minimal pour H(Xn) maximal.
L'incertitude H(Xn) sera maximale si ses deux états sont équiprobables, soit donc pour
-1
.
(1-µ)n = 1 - (1-µ)n , i.e. n =
log (1-µ)
On prendra l'entier le plus proche de cette valeur.
6b)
Il est clair que Y n'est pas fonction de l'observation Xn (il faudrait n = +∞). On peut le retrouver avec les
résultats établis précédemment: H(Xn) ≤ 1 bit par (2b), et H(Y) > 1 bit par (2c): en effet, 1 bit est
l'entropie de la loi de la v.a. Z sur N * chargeant 1 et 2 avec les probabilités respectives 1-α et α, où
1-µ
α=
, de moyenne E(Z) = 1/µ.
µ
Par suite H(Y|Xn) = H(Y)-H(Xn) > 0.
______________________________________________________
13. SOMMES ALEATOIRES DE VARIABLES ALEATOIRES
(Examen de passage 2000 de première en seconde année de préparation à l'agrégation de mathématiques).
Les variables aléatoires (en abrégé: v.a.) intervenant dans les questions 1 et 2 sont toutes définies sur un même
espace probabilisé (Ω,B,p) fixé.
+∞
1) Soit X une v.a. à valeurs dans N. On définit sa fonction génératrice GX : t → E(tX) = ∑ p(X=k).tk.
k=0
a) Montrer que GX est définie et continue sur [0,1] , de classe C∞ sur [0,1[ , et caractérise la loi de X.
b) Montrer que X est d'ordre 1 (i.e.: a une espérance finie) si et seulement si GX est de classe C1 sur [0,1],
et exprimer le cas échéant son espérance E(X) à l'aide de GX.
c)
Montrer que X est d'ordre 2 (i.e.: a une variance finie) si et seulement si GX est de classe C2 sur [0,1], et
exprimer le cas échéant sa variance V(X) à l'aide de GX.
2) Soit X une v.a. d'ordre 2 à valeurs dans N, (Xk)k≥1 une suite indépendante de v.a. de même loi que X et N
une v.a. d'ordre 2 à valeurs dans N, indépendante de la suite (Xk)k≥1.
n
On note Sn = ∑ Xk pour n ≥1, et on définit sur Ω la v.a. S = SN par:
k=1
N(ω)
S(ω) =
a)
∑ Xk(ω) , avec la convention S(ω) = 0 si N(ω) = 0.
k=1
Que vaut GSn pour n ∈ N* ?
b) Prouver l'égalité: GS = GN o GX .
c)
En déduire que S est d'ordre 2, et exprimer E(S) et V(S) à l'aide des espérances et variances de X et N.
Applications: on demande dans les questions suivantes de modéliser les situations en définissant de façon claire
des variables aléatoires et en indiquant en particulier les hypothèses d'indépendances que l'on fera
éventuellement sur elles.
3) On lance un dé non truqué, puis une pièce de monnaie non truquée le nombre de fois indiqué par le dé.
Calculer la moyenne du nombre de "pile" obtenu.
4) Le nombre N de clients arrivant dans un magasin pendant une journée de vente est supposé suivre une loi de
λk
Poisson de paramètre λ > 0 ( ∀k∈N : p(N=k) = e-λ. ). Chaque client achète avec la probabilité p un
k!
article A du magasin (il en achète au plus un). Le stock d'articles A à l'ouverture du magasin est de s articles
(s≥ 1).
a)
Calculer la probabilité pour qu'il y ait rupture de stock de l'article A durant cette journée.
b) Pour λ = 10 et p = 1/10, évaluer le nombre s minimum d'articles A pour que la probabilité de rupture de
stock soit inférieure à 1%.
5) Pour recueillir une certaine information A sur les conditions à la surface d'une planète, des stations
d'observation sont lancées successivement vers la région en question, jusqu'à obtention de l'information
désirée.
a)
On considère que chaque station arrivant dans la région à étudier a la probabilité p d'obtenir
l'information A. On demande la loi et la moyenne du nombre de stations à lancer pour obtenir
l'information:
i)
si chaque station lancée arrive avec certitude dans la région.
ii)
si chaque station lancée atteint la région avec une probabilité τ.
b) On considère maintenant que les stations communiquent entre elles, et que la probabilité d'obtention de
l'information A augmente avec le nombre de stations présentes sur place: si n-1 stations sont présentes,
la probabilité d'obtention de A à l'arrivée de la nème station vaut pn. On demande la moyenne du nombre
de stations à lancer pour obtenir l'information:
i)
ii)
c)
si chaque station lancée arrive avec certitude dans la région.
si chaque station lancée atteint la région avec une probabilité τ.
Dans le modèle de [5b.ii], évaluer le coût moyen de l'opération lorsqu'une station ne peut s'acquitter de
la tâche, deux stations le feront avec une probabilité égale à 0,4 , trois stations avec une probabilité
égale à 0,7 , et quatre stations à coup sûr, le prix de l'envoi d'une station quelconque étant évalué à
50.109 DH.
6) Dans une réaction nucléaire, une particule élémentaire provoque l'apparition de Z1 particules de même
nature, dites de première génération.
La ième particule de la première génération (i = 1,…,Z1) engendre Xi,1 nouvelles particules. Le nombre de
particules de la deuxième génération est donc Z2 = X1,1+…+XZ1,1.
Les variables aléatoires Zn et Xi,n sont définies par récurrence de la même façon: la taille de la nème
génération est Zn , et Xi,n désigne le nombre de descendants de la ième particule.
On suppose que les Xi,n sont indépendantes et équidistribuées d'ordre 2, de fonction génératrice G, de
moyenne E et de variance V.
a) Exprimer Gn = GZn , En = E(Zn) et Vn = V(Zn) à l'aide des données.
b) Etudier la suite (xn = Gn(0)) et interpréter les résultats.
c) Appliquer les résultats lorsque les Xi,n suivent une loi de Bernoulli de paramètre p.
__________________________________________________________________________________________
Solution.
1)
'
Questions de cours: si X est d'ordre 1: E(X) = GX(1) .
'
2a)
2b)
"
'
Si X est d'ordre 2: V(X) = GX(1) + GX(1) - [GX(1)]2.
Question de cours: L'indépendance de etX1, …, etXn fournit GSn = [GX]n.
Pour t ∈ [0,1]:
+∞
+∞ +∞
+∞ +∞
GS(t) = ∑ p(S=n).tn = ∑ ∑ p(S=n,N=k).tn = ∑ ∑ p(S=n,N=k).tn (termes positifs)
n=0
n=0 k=0
k=0 n=0
+∞ +∞
= p(S=0,N=0) + ∑ ∑ p(Sk=n,N=k).tn
k=1 n=0
+∞ +∞
= p(N=0) + ∑ ∑ p(Sk=n)p(N=k).tn (indépendance de N et Sk)
k=1 n=0
+∞
+∞
+∞
= p(N=0) + ∑ p(N=k). ∑ p(Sk=n).tn = p(N=0) + ∑ p(N=k).GSk(t)
k=1
n=0
k=1
+∞
= p(N=0) + ∑ p(N=k).[GX(t)]k (équation précédente)
k=1
= GN(GX(t)).
2c)
Calculs: E(S) = E(N).E(X) ; V(S) = E(X)2.V(N) + E(N).V(X).
3)
Soit N la v.a. donnant le chiffre indiqué par le dé, et Xn la v.a. valant 1 si le nème lancer de la pièce
fournit "pile", et 0 sinon. N suit la loi uniforme sur {1,..,6}, et les Xn sont équidistribuées de loi B(1/2).
E(X) = 1/2 ; E(N) = 7/2 .
En supposant les Xi et N indépendantes; le nombre de "pile" obtenu est
S = X1+…+XN , et 2c) fournit: E(S) = 7/4 .
4a)
4b)
5a.i)
On pose Xk = 1 si le kème client achète l'article A, 0 sinon. Les Xk sont équidistribuées de loi B(p) et de
fonction génératrice G(t) = 1-p+pt. Le nombre d'articles A achetés est S = X1+…+XN.
Avec GN(t) = exp(λ(t-1)), et en supposant les Xk et N indépendantes, on obtient:
GS(t) = exp(λp(t-1)): S suit la loi P(λp). La probabilité qu'il y ait rupture de stock est:
s-1
(λp)k
p(S ≥ s) = 1 - ∑ e-λp.
.
k!
k=0
s-1 (λp)k
(λp)s
p(S≥s) = e-λp.( eλp - ∑
)≤
par l'inégalité de Taylor-Lagrange. Une condition suffisante est
s!
k=0 k!
s-1 1 99e
ici: s! ≥ 100: 5 articles suffiront. (la condition exacte est: ∑
≥
# 2,69, et s = 4 ne convient pas).
k=0 k! 100
Pour un lancer: X = 1 si l'information est obtenue au nème lancer, 0 sinon.
Si les stations lancées arrivent: X suit la loi B(p); q = 1-p. On considère une suite non limitée de lancers,
et une suite (Xn) de copies indépendantes de X. N désigne le rang de la première station qui obtient
l'information A. Pour n ≥ 1: p(N=n) = p(X1 = 0,…,Xn-1 =0,Xn=1) = qn-1.p : N suit la loi géométrique
G(p) sur N*. E(N) = 1/p .
5a.ii) Si chaque station arrive avec la probabilité τ, le schéma est le même, mais avec cette fois:
p(X=1) = p(X=1/lancer réussi).p(lancer réussi) = pτ. X suit ici la loi B(pτ), et N suit la loi G(pτ) sur N*.
E(N) = 1/(pτ).
5b.i) On considère une suite non limitée de lancers, et une suite (Xn) de v.a. indépendantes:
Xn = 1 si le nème lancer est nécessaire, 0 sinon (info déjà obtenue).
+∞
+∞
Alors le nombre de stations à lancer est N = ∑ Xn , et E(N) = ∑ E(Xn).
n=1
n=1
Pour n fixé: p(Xn = 1) = p(info non obtenue avec la (n-1)ème station) = 1-pn-1 (avec po = 0), donc:
+∞
+∞
E(N) = ∑ (1-pn-1) = ∑ (1-pn) (po = 0).
n=1
n=0
+∞
(Si le coût d'envoi de la station n est an : le coût moyen de l'opération sera S = ∑ an.(1-pn).
n=0
Exemple: si 1 station non, 2 stations avec proba 0,4 , 3 stations avec 0,7 et 4 stations à coup sûr:
E(N) = 1+(1-0)+(1-0,4)+(1-0,7)+(1-1)… = 3,3 stations.
5b.ii)
5c)
Définissons Yn = 1 si la nème station lancée arrive à destination, et 0 sinon. Les Yn sont indépendantes et
équidistribuées de loi B(τ), de moyenne τ. Si Y est le nombre de stations nécessaires sur place pour
obtenir l'information A, et N le nombre de stations à envoyer pour obtenir A, on a Y = Y1+…YN , et,
moyennant les conditions d'indépendance nécessaires pour appliquer 2b) : E(Y) = E(N).E(Y1) = τ.E(N).
+∞
1 +∞
Compte tenu de a): E(Y) = ∑ (1-pn) , d'où: E(N) = . ∑ (1-pn).
τ n=0
n=0
3,3
# 4,72.
Exemple: avec τ = 0,7 : E(N) =
0,7
Dans ce dernier cas, le coût moyen de l'opération sera donc C # 4,72.50.109 = 236.109 DH.
6a)
Zn+1 = X1,n + … + XZn,n ; Zn est fonction des Xi,k , k ≤ n-1, donc indépendante des Xi,n . On pose Zo = 1,
Go = Id ( Z1 = X1,0 ); alors Gn+1 = GnoG , de sorte que Gn = Go…oG (composée n fois). En = En ;
Vn+1 = E2.Vn + En.V fournit, en faisant intervenir (V/E)n : Vn = V.En-1.( 1+E +…En-1).
6b)
xo = 0; xn = Gn(0) = p(Zn = 0) est la probabilité que la nème génération soit vide; posant po = p(X=0):
G(0) = po , G(1) = 1 , G'(1) = E ; G est croissante et convexe; il en découle que:
-
si po= 0 : xn = 0 pour tout n (clair).
si po > 0 et E > 1: (xn) croît vers l'unique point fixe a de G dans ]0,1[ (et En croît vers +∞).
si po > 0 et E ≤ 1: (xn) croît vers 1, extinction certaine (et En décroît vers 0 pour E < 1).
______________________________________________________
14. LOIS DU MIN ET DU MAX. ETUDE ASYMPTOTIQUE
(Examen de passage 2001 de première en seconde année de préparation à l'agrégation de mathématiques).
Les variables aléatoires intervenant dans ce problème sont toutes définies sur un même espace probabilisé
(Ω,B,p) fixé et à valeurs réelles (en abrégé : v.a.r.).
∀ t ∈ R : FT(t) = p(T ≤ t).
Si T est une v.a.r., sa fonction de répartition FT est définie par :
Une v.a.r. T est dite intégrable si elle admet une espérance E(T) < +∞.
On dit qu’une suite (Tn)n≥1 de v.a.r. converge en loi vers une v.a.r. T si l’on a, pour tout réel t où F est continue:
T
lim F (t) = F (t)
T
n→ +∞ Tn
On appellera ici v.a.r. discrète une v.a. à valeurs dans N, et v.a.r. absolument continue une v.a.r. T admettant une
densité f que l’on supposera localement continue par morceaux sur R. Dans ce dernier cas, la fonction de
x
répartition de T est définie sur R par : FT(x) = ⌠
⌡f(t)dt
-∞
La fonction caractéristique d’une partie A de R est notée χ ( χ (x) = 1 si x ∈ A ; χ (x) = 0 si x ∉ A).
A
1) Soit T une v.a.r. positive et intégrable. Prouver la formule :
A
A
+∞
E(T) = ⌠(1- F (t))dt.
⌡
T
0
On pourra se limiter aux cas où T est discrète ou absolument continue.
Dans le cas discret, on exprimera E(T) sous forme d’une somme de série.
2) a) Soient T1 , … , Tn , … , T des v.a.r. discrètes. Montrer que (Tn)n≥1 converge en loi vers T si et seulement
si on a :
∀ k ∈ N : lim p( Tn = k ) = p( T = k ).
n→ +∞
b) Soit pour n ∈ N* la v.a. Tn de fonction de répartition Fn définie par :
(t) + χ
(t).
∀ t ∈R : Fn(t) = ( t - 2πn ) .χ
[0,1]
]1,+∞[
Montrer que les Tn sont absolument continues et que (Tn)n≥1 converge en loi vers une v.a.r. absolument
continue que l’on reconnaîtra.
Que dire de la suite (fn)n≥1 des densités des Tn ?
sin 2πnt
On considère maintenant une suite (Xn)n≥1 de v.a.r. positives, intégrables, indépendantes et équidistribuées de loi
µ et de fonction de répartition F.
Un = min (X1 , … , Xn) ; Vn = max (X1 , … , Xn).
Pour n ∈ N*, on note :
3) Pour n ≥1 : exprimer les fonctions de répartition F
Un
et F
Vn
de Un et Vn en fonction de F et n ; Montrer que
Un et Vn sont intégrables et exprimer E(Un) et E(Vn) en fonction de F et de n.
4) Montrer que (Un)n≥1 converge en loi vers une v.a.r. U que l’on reconnaîtra.
5) On note B = { t ∈ R , F(t) = 1}.
a) On suppose B non vide ; montrer que (Vn)n≥1 converge en loi vers une v.a.r. V que l’on reconnaîtra.
b) Que dire de (Vn)n≥1 lorsque B est vide ? Que vaut alors lim E(Vn) ?
n→ +∞
k
6) On suppose ici que µ est une loi discrète ; on note, pour k ∈N : pk = p(X1=k) , sk = ∑ pj . Exprimer E(Un)
j=0
et E(Vn) sous forme de sommes de séries pour n ∈N*.
7) On suppose ici que µ est une loi à densité f sur R . Pour n ≥1, montrer que Un et Vn sont absolument
continues, et exprimer leurs densités en fonction de n , f et F.
Applications :
8) µ désigne ici la loi uniforme sur {1,…,N} (N≥2).
a) Exprimer E(Un) et E(Vn) sous forme de sommes finies.
b) On lance trois dés équilibrés. Quelle est la moyenne du plus grand chiffre obtenu ?
9) Soit p ∈ ]0,1[, q = 1-p , et µ la loi géométrique G(p) sur N* (définie par pk = qk-1p pour k ≥1).
a) Calculer E(Un) et E(Vn) ; on exprimera E(Vn) sous la forme d’une somme finie.
b) Trois joueurs lancent à tour de rôle une pièce de monnaie équilibrée jusqu’à ce que chacun d’eux ait
obtenu un pile. Quelle est la moyenne du nombre de lancers effectués par le joueur ayant obtenu pile en
dernier ?
10) µ est ici la loi uniforme sur [0,1] (de densité f = χ
).
[0,1]
a) Calculer E(Un) et E(Vn).
b) Montrer que (nUn)n≥1 et (n(1-Vn))n≥1 convergent en loi vers des v.a.r. que l’on reconnaîtra.
11) µ est maintenant la loi exponentielle de paramètre λ > 0 (de densité f : t → λ.e-λt.
a)
χ[0,+∞[(t)).
Reconnaître la loi de Un .
ln n
b) Montrer que ( Vn - λ )n≥1 converge en loi vers une v.a.r. dont on donnera la fonction de répartition.
__________________________________________________________________________________________
Solution.
1)
Cas discret:
1-FT(t)
E(T)
+∞
= p(T≥k) sur [k-1,k[ pour k ∈N* .Il s’agit donc de prouver : E(T) = ∑ p(T≥k) :
k=1
+∞
+∞
+∞
+∞
= ∑ k.p(T=k) = ∑ k.[p(T≥k) – p(T≥k+1)] = ∑ k.p(T≥k) - ∑ k.p(T≥k+1)
k=1
k=1
k=1
k=1
+∞
+∞
+∞
= ∑ k.p(T≥k) - ∑ (k-1).p(T≥k) = p(T≥1) + ∑ p(T≥k) , d’où le résultat.
k=1
k=2
k=2
Cas où T est à densité f :
+∞
+∞
+∞
x
+∞

⌠+∞
⌠ 
⌠dt.f(x)dx =*  ⌠f(x)dxdt = ⌠(1- F (t))dt

E(X) = ⌠
x.f(x)dx
=
⌡
⌡
⌡
0
 
⌡ 0 

⌡ t
0
0


⌡
T
( * : Tonelli).
0
Cas général:
La démonstration est la même que dans le cas précédent, en remplaçant f(x)dx par dpX(x). On notera
que {t ≥0, p(X=t)} est au plus dénombrable.
2)
a)
(Tn)n≥1 converge en loi vers T
⇔ ∀ a ∈R\N :
lim p( Tn ≤ a) = p(T ≤ a)
n→ +∞
⇔ ∀ a ∈ R+\N : lim p( Tn ≤ [a] ) = p( T ≤ [a] ) (partie entière)
n→ +∞
⇔ ∀ k ∈N : lim p( Tn ≤ k ) = p( T ≤ k )
n→ +∞
⇔ ∀ k ∈ N ; lim p( Tn = k ) = p( T = k ) (par différences).
n→ +∞
b) Tn est absolument continue de densité fn : t → 1-cos 2πnx sur [0,1]. (Tn)n≥1 converge en loi vers la
v.a.r. T uniformément distribuée sur [0,1], de densité f = 1 sur [0,1], mais (fn) ne converge pas vers
f, puisque x → cos(2πnx) n’a pas de limite quand n tend vers +∞.
3)
Grâce à l’indépendance : F
Un
= 1 – (1-F)n
et F
Vn
= Fn .
0 ≤ Un ≤ X1 , et 0 ≤ Vn ≤ X1 + … + Xn ; l’intégrabilité des Xk entraîne celle de Un et Vn.
Par 1) : E(Un) =
+∞
+∞
n
n
dt
et
E(V
)
=
(1-F(t))
⌠
⌠
n
⌡
⌡(1 - F(t) )dt .
0
4)
F
Un
0
converge simplement vers χ où A = { t , F(t) >0 } est de la forme [a,+∞[ ou ]a,+∞[ (croissance).
Il y a convergence vers χ
A
[a,+∞[
sur R\{a}, et donc :
(Un)n≥1 converge en loi vers U = a = Inf {t ≥ 0, F(t) >0} .
5)
F converge simplement vers χ .
Vn
a)
B
Si B est non vide, il est de la forme [b,+∞[ (croissance et continuité à droite) , d’où:
Si ∃t , F(t) = 1, alors (Vn)n≥1 converge en loi vers U = b = Inf {t ≥ 0 , F(t) = 1}
b) Si B = ∅ : F converge simplement vers la fonction nulle, et ne peut pas converger sur le
Vn
complémentaire d’un ensemble dénombrable vers une fonction G de répartition (car il existerait un
réel α tel que : t > α ⇒ G(t) ≥ ½) : Si ∀ t : F(t) < 1, alors (Vn)n≥1 ne converge pas en loi .
Soit A > 0 ; le thm de convergence dominée indique que
2A
lim ⌡
⌠(1-F(t)n)dt = 2A ; par suite :
n→ +∞
0
2A
n
∃ N ∈N*, n ≥N ⇒ E(Vn) ≥ ⌠
⌡(1-F(t) )dt ≥ A : Si ∀ t : F(t) < 1, alors
0
6)
Pour k ≥0 :
lim E(Vn) = +∞ .
n→ +∞
indép
p(Un≥k) = p(X1≥k,…,Xn≥k) === [p(X1≥k)]n = (1-sk-1)n (avec la convention s-1 = 0).
indép
n
p(Vn≥k) = 1 – p(Vn<k) = 1 – p(X1< k,…,Xn< k) === 1 – [p(X1<k)]n = 1 - sk-1.
+∞
+∞
+∞
+∞
n
Avec 1) : ∑ p(Un≥k) = E(Un) = ∑ (1-sk)n . ∑ p(Vn≥k) = E(Vn) = ∑ (1- sk ) .
k=1
k=0
k=1
k=0
7)
x
*
F (x) = 1 – (1-F(x))n = ⌡
⌠n(1-F(t))n-1f(t)dt :
Un
Un est à densité n(1-F)n-1.f .
0
x
F (x) = F(x)n = ⌡
⌠nF(t)n-1f(t)dt : Vn est à densité nFn-1.f
Vn
8)
0
( 1 – (1-F)n est continue et admet, sauf peut-être sur un ensemble dénombrable, une dérivée égale à
n(1-F)n-1f : c’est une primitive généralisée de n(1-F)n-1f, et la formule (*) est bien correcte. Idem pour
le cas de Vn).
k
Ici : sk = pour k = 0,…,N-1 ; sk = 1 pour k ≥N.
N
a)
N-1
+∞
k n 1 N-1
1 N
∑ (1-sk)n = ∑ 1 -  = n . ∑ (N-k)n = E(Un) = n . ∑ kn .
N
N
N


k=0
k=0
k=1
k=0
N-1
+∞
kn
n
∑ (1-sk ) = E(Vn) = ∑ 1 - n  = N + 1 - E(Un)
k=0  N 
k=0
b) N = 6 ; n = 3. E(V3) =
9)
119
# 4,96 .
24
k
1-qk
= 1-qk , formule valable aussi pour k = 0.
Ici : so = po = 0 ; pour k ≥1 : sk = ∑ qj-1p = p.
1-q
j=1
a)
+∞
+∞
1
∑ (1-sk)n = ∑ qkn = E(Un) =
n .
1-q
k=0
k=0
+∞
+∞
+∞ n j
n
+∞
n
* ∑ Cj .(-1)j+1. ∑ qkj
∑ (1-sk ) = ∑ [ 1 – (1-qk)n ] = ∑ ∑ Cn .(-1)j+1.qkj ==
n
k=0
k=0
k=0 j=1
j=1
k=0
j
n Cn .(-1)
= E(Vn) = ∑
j
j=1 1-q
b)
10)
n=3;q=
j+1
( * : la finitude des sommes sur k justifie l’interversion).
3
3
1
1
; E(V3) =
+
:
1-q 1-q² 1-q3
2
E(V3) =
22
# 3,14 .
7
Ici : F(x) = x sur [0,1] (0 avant et 1 après).
1
a)
n
F (x) = 1 – (1-x) sur [0,1] ; E(Un) = ⌠
⌡(1-x) dx : E(Un) =
n
Un
1
.
n+1
0
1
n
F (x) = xn sur [0,1] ; E(Vn) = ⌠
⌡(1-x )dx : E(Vn) =
Vn
n
.
n+1
0
x
x n
b) Pour x ∈[0,n] : p( nUn ≤ x ) = p( Un ≤ ) = 1 - 1 -  → 1 – e-x quand n tend vers +∞ .
n
 n
x
x n
p( n(1-Vn) ≤ x) = 1 – p( Vn < ) = 1 - 1 -  :
n
 n
(nUn)n≥1 et (n(1-Vn))n≥1 convergent en loi vers une v.a. W de loi Exp[1]
11)
Ici : F(x) = 1 – e-λx sur [0,+∞[.
a)
F (x) = 1 – e-nλx sur [0,+∞[ :
Un
Un suit la loi Exp(nλ) .
-λx n
b) F (x) = (1 – e ) sur [0,+∞[ ;
Vn
e-λxn
ln n
ln n
-λx
Pour x > - λ : p( Vn - λ ≤ x ) = 1  n  → G(x) = exp ( - e ) quand n tend vers +∞.
On vérifie que G est bien une fonction de répartition sur R :
ln n
( Vn - λ )n≥1 converge en loi vers une v.a.r. de fonction de répartition G(x) = exp ( - e-λx) sur R
15. LOIS CLASSIQUES : RECAPITULATIF
Une v.a. X suivant la loi citée, GX désigne la fonction génératrice (lois discrètes) ; FX désigne la fonction de
répartition, ΦX désigne la fonction caractéristique et fX la densité.
Loi uniforme U(n) sur {1,…,n} ( n ≥1 )
1
n+1
n²-1
p(X=k) = ( 1 ≤ k ≤ n ) ;
E(X) =
; V(X) =
.
n
2
6
1 n
1 n
1 n
GX(t) = . ∑ tk ;
FX(t) = . ∑ 1[k,+∞[(t) ; ΦX(t) = . ∑ eikt.
n k=1
n k=1
n k=1
Loi de Bernoulli B(p) (0 < p < 1)
p(X=0) = 1-p ; p(X=1) = p ;
E(X) = p ; V(X) = p(1-p).
FX(t) = (1-p).1[0,1[(t) + p.1[1,+∞[(t) ; ΦX(t) = 1-p+p.eit.
GX(t) = 1-p + pt ;
Loi binomiale B(n,p) (n ≥ 1 ; 0 < p < 1)
k
p(X=k) = Cn.pk.(1-p)n-k ( 0 ≤ k ≤ n ) ;
E(X) = np ; V(X) = np(1-p) ;
n k
FX(t) = ∑ Cn.pk.(1-p)n-k .1[k,+∞[(t) ; ΦX(t) = (1-p+peit)n.
k=0
GX(t) = (1-p+pt)n ;
Loi de Poisson P(λ) ( λ > 0)
λk
p(X=k) = e-λ.
(k≥0);
k!
E(X) = V(X) = λ ;
+∞
λk
FX(t) = ∑ e-λ. .1[k,+∞[(t) ; ΦX(t) = exp( λ(eit-1) ).
k!
k=0
GX(t) = eλ(t-1) ;
Loi géométrique G(p) ( 0 < p < 1)
1
1-p
; V(X) =
;
p
p²
+∞
peit
FX(t) = ∑ p(1-p)k-1.1[k,+∞[(t) ; ΦX(t) =
.
1-eit+peit
k=1
p(X=k) = p(1-p)k-1 ( k ≥ 1 ) ;
GX(t) =
E(X) =
pt
;
1-t+pt
Loi hypergéométrique H(N ;n ;p) ( 1 ≤ n ≤ N ; 0 < p < 1 ; q = 1-p )
p(X=k) =
k
n-k
CNp.CNq
n
CN
( 0 ≤ k ≤ n );
E(X) = np ; V(X) = Npq.
N-n
.
N-1
Loi multinomiale B(n ; p1 , …, pr ) ( n ≥1 , r ≥1 ; 0 < p1 , …, pr < 1 )
p(X = (k1,…,kr) ) =
r
n!
k k
k
.p11.p22…pr r , (k1,…,kr) ∈N r, ∑ ki = n.
k1!k2!…kr!
i=1
Loi uniforme U(a,b) sur [a,b] ( a < b )
1
fX(t) =
.1 (t) ;
b-a [a,b]
t-a
FX(t) =
.1 (t) + 1[b,+∞[(t) ;
b-a [a,b[
E(X) =
a+b
(b-a)2
; V(X) =
;
12
2
itb ita
e -e
ΦX(t) =
.
it(b-a)
Loi exponentielle E(λ) (λ > 0)
fX(t) = λ.e-λt.1[0,+∞[(t) ;
FX(t) = (1-e-λt).1[0,+∞[(t) ;
E(X) =
ΦX(t) =
λ
.
λ-it
1
1
; V(X) = ;
λ
λ²
Loi normale N(1)(m,σ) (σ > 0)
1
(t-m)²
fX(t) =
.exp;
 2σ² 
σ 2π
ΦX(t) = eimt.e-σ²t²/2.
E(X) = m ; V(X) = σ2 ;
Loi normale N(n)(0,1)
||t||²
fX(t) = (2π)-n/2.exp -  .
 2
Loi de Cauchy C(a) ( a > 0 )
1 a
fX(t) = .
;
π a²+t²
FX(t) =
1 1
t
+ .Arctan ;
2 π
a
ΦX(t) = e-a.|t|.
Loi de Student à n degrés de liberté t(n) (n≥2)
1
fX(t) =
.
nπ
Γ(
n+1
2 )
Γ(
n
2)
n+1
t² - 2
.( 1+ )
.
n
Loi du Chi-deux à n degrés de liberté χ2(n) ( n ≥2)
fX(t) =
1
.t (n/2)-1.e-t/2.1[0,+∞[(t) ;
2n/2.Γ(n/2)
E(X) = n ; V(X) = 2n ;
χ2(2) = E(1/2).
Loi gamma Γ(p) ( p > 0 )
1 p-1 -t
.t .e .1]0,+∞[(t) ; E(X) = V(X) = p ; Γ(1) = E(1).
Γ(p)
ΦX(t) = (1-it)-p.
fX(t) =
Loi de Erlang E(λ,n) ( n ≥ 1 , λ > 0 )
fX(t) =
λn.tn-1.e-λt
.1
(t) .
(n-1)! [0,+∞[
Loi Log-normale LN(m,σ) ( σ > 0 )
fX(t) =
1
(ln t - m)²
.exp .1
(t) ;
 2σ²  [0,+∞[
tσ 2π
E(X) = exp ( m +
σ²
) ; V(X) = (eσ²-1).e2m+σ².
2
BIBLIOGRAPHIE
_______________________________________________________________________________________
!
Probabilités et statistiques. 1. Problèmes à temps fixe.
D. Dacunha-Castelle. M. Duflo
MASSON
!
Exercices de probabilités et statistiques. 1. Problèmes à temps fixe.
D. Dacunha-Castelle. M. Duflo
MASSON
!
Exercices corrigés en théorie des probabilités. 2ème cycle universitaire.
J.P. Ansel. Y. Ducel
ELLIPSES
!
Exercices de probabilités.
J. Guégand. M.A. Maingueneau
ELLIPSES
!
Théorie des probabilités (cours et exercices avec solutions).
K. V. Khac
ELLIPSES
!
Notions fondamentales de la théorie des probabilités.
M. Métivier
DUNOD
!
Exercices de probabilités avec rappels de cours.
M. Cottrel. V. Genon-Catalot. C. Duhamel. T. Meyre
CASSINI
!
Probabilités (Mathématiques pour l'ingénieur.
N. Boccara
ELLIPSES
!
Probabilités: dix leçons d'introduction.
M. Métivier
ELLIPSES
!
Probabilités. Combinatoire-Statistiques.
P. Louquet. A.Vogt
!
Thèmes de probabilités et statistiques
P.S. Toulouse
!
Probabilités et statistiques
J.P. Réau; G. Chauvat
!
Calcul des probabilités
D. Foata ; A. Fuchs
DUNOD
!
Probabilités capes, agrégation
J.Y. Ouvrard
CASSINI
!
Probabilités discrètes.
C. Vigneron. E. Logak
PAVAGES
!
Probabilités continues.
PAVAGES
ARMAND COLIN
MASSON
ARMAND COLIN
C. Vigneron. E. Logak
_______________________________________________________________________________________
Téléchargement