Probabilités

publicité
Probabilités
Yves Robert
2011-2012, semestre 2
Table des matières
1 Introduction
1.1 Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Fondamentaux . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
3
3
3
2 Exemples
2.1 Égalité de polynômes
2.2 Monty Hall . . . . .
2.3 As en main . . . . .
2.4 Pièces . . . . . . . .
2.5 Min-cut . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
5
5
6
6
7
3 Variable aléatoire
3.1 Généralités . . . . . . . . . . . . . .
3.2 Exemple : Tri rapide . . . . . . . . .
3.3 Espérance conditionnelle . . . . . . .
3.4 Lois usuelles . . . . . . . . . . . . . .
3.5 Exemple : Coupon collector problem
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9
9
9
10
11
12
4 Loi
4.1
4.2
4.3
4.4
4.5
4.6
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
14
14
14
15
15
16
17
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
de poisson
Le paradoxe des aniversaires
Encore des anniversaires . .
Boules colorées . . . . . . .
Répartition des boules . . .
Loi de Poisson . . . . . . .
Approximation de Poisson .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5 Fonctions génératrices
18
5.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5.2 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5.3 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1
6 Bornes classiques
6.1 Markov . . . . . . . . . . . . . . . . .
6.2 Chebyshev . . . . . . . . . . . . . . . .
6.3 Chernov . . . . . . . . . . . . . . . . .
6.4 Exemple : pièces de monnaies . . . . .
6.5 Exemple : balls and bins . . . . . . . .
6.6 Exemple : Coupon Collector Problem .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
20
20
20
21
22
23
23
7 Des algorithmes probabilistes
25
7.1 Chemin hamiltonien . . . . . . . . . . . . . . . . . . . . . . . . . 25
7.2 Médiane en temps linéaire . . . . . . . . . . . . . . . . . . . . . . 27
8 Chaînes de Markov
8.1 Définition . . . . . . . . . . . . . . . . . .
8.2 Chaîne de Markov régulière . . . . . . . .
8.3 Distribution limite . . . . . . . . . . . . .
8.4 Hagstrom (Finite Markov Chain) . . . . .
8.5 Chaîne réversible . . . . . . . . . . . . . .
8.6 Exemple : jeux et paradoxes de Parrondo
8.7 Random walk on G . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
29
29
30
31
32
35
36
37
9 Probabilités continues
9.1 σ-algèbre . . . . . . . . . . . . . . . .
9.2 Mesure de probabilité . . . . . . . . .
9.3 Mesure de Lebesgue . . . . . . . . . .
9.4 Variable aléatoire . . . . . . . . . . . .
9.5 Espérance . . . . . . . . . . . . . . . .
9.6 Espérance fonctionnelle . . . . . . . .
9.7 Couples . . . . . . . . . . . . . . . . .
9.8 Variables aléatoires positives . . . . .
9.9 Lois normales théorème central limite
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
38
38
39
39
40
40
41
41
41
42
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Chapitre 1
Introduction
1.1
Objectif
On utilise couramment des algorithmes dits déterministes : on connaît à
l’avance le résultat. Il peut être intéressant d’utiliser un algorithme probabiliste,
dont on ne connaît la correction qu’avec une incertitude (par exemple, meilleure
efficacité en moyenne).
1.2
Modèle
Définition 1. Un espace de probabilités est un ensemble Ω auquel est associé
une loi de probabilité P : P(Ω) → [0, 1] telle que :
– P(Ω) = 1 ;
S
P
– ∀(Ei )i∈N disjoints, P( Ei ) = P(Ei )
Définition 2. Une partie de Ω est appelée évènement.
Définition 3. On utilisera communément la loi équiprobable, ou uniforme, définie pour Ω fini par :
card(E)
P(E) =
card(Ω)
1.3
Fondamentaux
Lemme 1. P(E1 ∪ E2 ) = P(E1 ) + P(E2 ) − (E1 ∩ E2 )
Lemme 2. En généralisant à n évènements :
[ X
X
X
P
Ei =
P(Ei ) −
2≤k≤n (ij )∈[|1,n|]%∗
≤
X
P(Ei )
3
P
\
Eij
Définition 4.
– E et F sont indépendants lorsque P(E∩F ) = P(E)×P(F
);
T
E
– (E
)
sont
mutuellement
indépendants
lorsque
∀I
⊂
[|1,
n|],
P
i∈I i =
Qi
P(E
)
i
i∈I
)
– on définit la « probabilité que E sachant F » : P(E|F ) = P(E∩F
P(F ) .
Propriété 1 (Loi de probabilité totale). Avec (Ei ) une partition de Ω :
X
X
P(B) =
P(B ∩ Ei ) =
P(B|Ei ) × P(Ei )
Théorème 1 (Bayes). Soit (Ei ) une partition de Ω. Alors :
P(Ei |B) =
P(Ei ∩ B)
P(B|Ei ) × P(Ei )
=P
P(B)
j P(B|Ej ) × P (Ej )
4
Chapitre 2
Exemples
2.1
Égalité de polynômes
Soient F et G de Nd [X]. On s’intéresse au test d’égalité de ces deux polynômes. L’approche déterministe consisterait à développer les polynômes puis
comparer les coefficients, ce qui prend un temps O(d2 ).
Dans l’approche probabiliste, on prend uniformément n ∈ [|0; αd|] et on teste
F (n) = G(n) ; autrement dit, que n est racine de F − G de cardinal au plus d.
Donc :
1
P (F (n) = G(n) ∧ F 6= G) ≤
α
Pour k tirages avec replacement, il vient :
P (F (ni ) = G(ni )1≤i≤k ∧ F 6= G) ≤
2.2
k
1
α
Monty Hall
Un candidat doit choisir parmi trois portes. Derrière l’une d’entre elles se
trouve un cookie. Le candidat désigne une porte ; l’animateur révèle volontairement la, ou une des, portes qui n’aboutissent pas à la récompense. Le candidat
a-t-il intérêt à changer de porte ?
5
1
2
1
3
1
3
1
6
Révèle 3 →
1
6
Révèle 3 →
1
3
Révèle 2 →
1
3
1
2
Cookie en 1
Choisit 1
Révèle 2 →
Cookie en 2
1
1
3
Cookie en 3
1
L’arbre de décision explicite l’idée que, si M. Patate conserve son choix initial,
la probabilité de réussite est de un tiers, et donc, s’il change, de deux.
2.3
As en main
On considère une main de m cartes tirées aléatoirement dans un jeu de n
cartes. On considère les évènements M , M 0 et N , respectivement « la main
comporte un as », « la main comporte un as de cœur »et « la main comporte
deux as ».
n−4
m
n
m
P(M ) = 1 −
P(M ) = 1 −
n−1
m
n
m
n−4
m−2
n−4
m−3
0
4
2
P(N ) =
×
+
4
3
×
4
4
×
n−4
m−4
n
m
P(N |M ) =
P(N ∩ M )
P(N )
=
P(M )
P(M )
Si l’on sait que l’as est de cœur : P(N |M 0 ) =
3
n−4
n−4
n−4
(1)×(m−2
)+(32)×(m−3
)+(33)×(m−4
)
n
(m)
2.4
+
P(N ∩M 0 )
P(M 0 )
avec P(N ∩ M 0 ) =
Pièces
On lance trois pièces. Deux sont équilibrées et une tombe sur face deux
fois sur trois. On définit Ei par « la i-ième est fausse »et B par « on obtient
6
face-face-pile ».
2 1 1
1
× × =
3 2 2
6
1 2 1
1
P(B|E2 ) = × × =
2 3 2
6
1 1 1
1
P(B|E3 ) = × × =
2 2 3
12
Donc, avec le théorème de Bayes :
P(B|E1 ) =
P(E1 |B) =
2.5
P(B|E1 ) × P(E1 )
2
=
P(B|E1 )P(E1 ) + P(B|E2 )P(E2 ) + P(B|E3 )P(E3 )
5
Min-cut
Définition Un min-cut d’un graphe connexe est un sous-ensemble de ses arrêtes, de cardinal minimal, dont le retrait déconnecte le graphe.
Algorithme On tire successivement des arêtes dont on fusionne les sommets,
jusqu’à ce qu’il ne reste plus que deux sommets. Reste le min-cut.
L’algorithme retourne ici deux arrêtes.
Mais ici, trois.
Théorème La probabilité que l’algorithme détermine un min-cut est supérieure à |V |(|V2 |−1)
Démonstration Soient G = (V, E) un graphe et C un min-cut de G.
T On note
Ei l’évènement « la i-ième arête contractée n’est pas dans C »et Fi = 1≤j≤i Ej
(F0 = Ω). On cherche à déterminer P(F|V |−2 ).
On remarque que deg v ≥ |C| (sans quoi on peut déconnecter v en deg v
et donc, pour 0 ≤ i < |V | − 2 :
retraits). Il vient que : |E| ≥ |V |×|C|
2
P(Ei+1 |Fi ) = 1 −
|C| − i
2
≥1−
|E| − i
|V | − i
Or :
P(Fi+1 ) = P(Ei+1 |Fi ) × P(Fi )
Donc :
P(F|V |−2 ) =
Y
P(Ei+1 |Fi ) ≥
0≤i<|V |−2
7
2
|V |(|V | − 1)
Corollaire En x itérations, la probabilité d’échec p est inférieure à 1 −
Ainsi, pour x ≥ |V |(|V | − 1) log |V |, il vient que p ≤
8
1
|V |2 .
2
|V |(|V |−1)
x
.
Chapitre 3
Variable aléatoire
3.1
Généralités
Définition Une variable aléatoire est une application de Ω vers R. On définit
l’évènement :
X = a ≡ {s ∈ Ω : X(s) = a}
Exemple Somme de deux dés : P(X = 4) =
3
36 .
Lemme Avec X et Y indépendantes, P(X = s∩Y = t) = P(X = s)×P(Y = t)
Définition On définit l’espérance par E(X) =
Exemple Avec la somme des dés : E(X) =
P
iP(X = i).
P
2≤i≤12
iP(X = i) = · · · = 7.
Théorème E(X + Y ) = E(X) + E(Y ). En effet :
XX
E(X + Y ) =
(i + j)P(X = i ∧ Y = j)
i
j
X X
X X
=
i
P(X = i ∧ Y = j) +
j
P(X = i ∧ Y = j)
i
=
j
X
i
iP(X = i) +
j
X
i
jP(Y = j)
j
= E(X) + E(Y )
3.2
Exemple : Tri rapide
Complexité Le tri rapide se fait en diviser-pour-régner en partitionnant les
n éléments en deux ensembles de n1 et n2 éléments autour d’un pivot. La complexité est alors T (n) = pivot + O(n) + T (n1 ) + T (n2 ).
9
Avec la médiane pour pivot, on obtient du O(n log n).
RandQS On prend un pivot y aléatoirement. On appelle RandQS un appel
récursif de cet algorithme.
Théorème On définit X comme étant le nombre d’appels à RandQS. Alors
E(X) = O(n log n).
Démonstration On considère S de cardinal n supposé trié.
(
1 si on a comparé S(i) et S(j)
Xi,j =
0 sinon
P
On ne compare qu’au pivot donc X = i,j Xi,j et
E(X) =
X
1≤i<j≤n
≤
2
j−i+1
X 2
k
X
1≤i≤n 1≤k≤n
≤ 2n
X 1
i
1≤i≤n
≤ 2nHn
≤ 2n(log n + γ + o(1))
3.3
Espérance conditionnelle
Définition E(Y |Z = z) =
P
y
yP(Y = y|Z = z)
Exemples On note X1 et X2 les valeurs de deux dés et X leur somme. On
veut calculer E(X|X1 = 2) et E(X1 |X = 5).
X
E(X|X1 = 2) =
iP(X = i|X1 = 2)
i
=
X
3≤i≤8
=
E(X1 |X = 5) =
11
2
X
i
1
6
iP(X1 = i|X = 5)
i
1 2 3 4
+ + +
4 4 4 4
5
=
2
=
10
P
P(Y = y) × E(X|Y = y) car :
X
X
X
P(Y = y) ×
xP(X = x|Y = y)
P(Y = y) × E(X|Y = y) =
XX
=
xP(Y = y)P(X = x|Y = y)
XX
=
xP(X = x ∧ Y = y)
X
=
P(X = x)
Propriété On a E(X) =
= E(x)
Définition On définit la variance et l’écart-type par :
2 = E(X 2 ) − E(X)2
V ar(X) = E X − E(X)
σ(X) =
p
V ar(X)
Lemme V ar(aX + b) = a2 V ar(X)
Théorème Si X et Y sont indépendantes, alors E(X × Y ) = E(X) × E(Y ) et
V ar(X + Y ) = V ar(X) + V ar(Y ) :
!
!
X
X
E(X) × E(Y ) =
xP(X = x)
yP(Y = y)
x
=
X
y
xyP(X = x ∧ Y = y)
x,y
= E(X × Y )
3.4
Lois usuelles
Bernouilli
X représente par exemple un unique tirage aléatoire :
P(X = 0) = p ∧ P(X = 1) = 1 − p
E(X) = p et V ar(X) = p(1 − p)
Binome
X représente par exemple le nombre d’occurence d’un évènement parmi n
tirages.
n k
P(X = k) =
p (1 − p)n−k
k
E(X) = np et V ar(X) = np(1 − p) (somme de Berouilli indépendantes)
11
Géométrique
X représente par exemple le nombre de tirage nécessaire pour obtenir l’évènement. Avec k > 0 :
P(X = k) = (1 − p)k−1 p
P
Lemme On a E(X) = P(X ≥ i). En effet :
X
XX
P(X ≥ i) =
P(X = k)
i
i
=
k≥i
X X
P(X = k)
k≥0 0≤i<k
=
X
kP(X = k)
k≥0
= E(X)
Or, P(X ≥ i) = (1 − p)i−1 p
P
k≥0 (1
E(X) =
− p)k = (1 − p)i−1 et donc :
X
1
(1 − p)i =
p
i
Memoryless Une loi est dite « memoryless »lorsque P(X = n + k|X > k) =
P(X = n). La loi géométrique est memoryless. En effet :
P(X = n + k ∧ X > k)
P(X > k)
P(X = n + k)
=
(1 − p)k
(1 − p)n+k−1 p
=
(1 − p)k
P(X = n + k|X > k) =
= (1 − p)n−1 p
= P(x = n)
3.5
Exemple : Coupon collector problem
On considère des balles de n couleurs différentes équitablement distribuées.
On s’intéresse au nombre de tirages X pour en avoir une de chaque. On pose
Xi le nombre de tirage entre la présence de i − 1 couleurs et celle de i.
n − (i − 1)
Xi = Géom
n
12
Alors, par linéarité de l’espérance :
X
E(X) =
E(Xi )
X
n
=
n−i+1
1≤i≤n
=n
X 1
j
1≤j≤n
= nHn
= n(log n + γ + o(1))
13
Chapitre 4
Loi de poisson
4.1
Le paradoxe des aniversaires
On considère les anniversaires de m personnes équitablement répartis sur
n (= 365) jours. Soit p la probabilité qu’au moins deux personnes aient leur
anniversaire en commun. On choisit m dates différentes sans se soucier de leur
affectation :
n
m!
1 − p = mm
n
Ou bien, en considérant les anniversaires successifs :
1−p=
Y
1−
0≤i<m
'
Y
i
n
i
e− n
0≤i<m
' e−
P
' e−
m(m−1)
2n
i
n
m2
' e− 2n
Si on veut p = 12 , on obtient :
m'
4.2
p
2n log 2 ' 22, 49 pour n=365
Encore des anniversaires
On considère des balles de n couleurs différentes équitablement distribuées
(la terminologie « bins »vient de ce que les couleurs peuvent être vues comme des
urnes choisies aléatoirement). On s’intéresse au nombre de tirages nécessaires X
14
pour obtenir deux couleurs :

1




0
P(X ≥ i) =
Y




si i ≤ 2
si i > n + 1
1≤j≤i−2
n−j
n
sinon
On peut alors montrer que :
X
E(X) =
P(X ≥ i)
1≤j
+∞
x n−1
dx
=1+
e−x 1 +
n
r 0
1
Π 1
∼
− +O √
2
3
n
Z
Car :
Z
1+
0
+∞
X n 1 Z +∞
x n−1
e−x xk dx
e−x 1 +
dx =
n
k nk 0
0≤k≤n
|
{z
}
Ik =k!
4.3
Boules colorées
On lance des boules rouges et bleues dans n urnes. On note F l’espérence du
nombre de lancer pile-ou-face pour obtenir pile. On pose X le nombre de boules
jetées dans n urnes afin d’obtenir une urne contenant deux boules de couleurs
différentes. Pour n = 1 :
E(X) = E(tirer une boule) + E(tirer une boule de l’autre couleur) = 1 + F = 3
Pour n = 2, E(X) = 3.
On pose Fk l’évènement : « deux des k premières personnes ont un anniversaire en commun ».
P Fd2√me < P Fd2√me |Fb√mc
√ b√nc
n − b nc
≤
n
1
≤
e
4.4
Répartition des boules
Théorème On note Bi le nombre de boules dans l’urne i. Alors, si m = n :
3 log n
1
P max Bi ≥
≤
log log n
n
15
Démonstration En effet :
M
1
n
M
M
1
n
≤
M! n
1
≤
M!
e M
≤
M
P(Bi ≥ M ) ≤
Car :
n
M
X Mk
MM
≤
= eM
M!
k!
0≤k
Et, pour M =
3 log n
log log n
:
M
n
1
P(max Bi ≥ M ) ≤ n
n
M
e M
≤n
M
3 log n
log log n log log n
≤n
log n
3 log n
≤ ne log log n ×(log log log n−log log n)
1
,m
Bi = Binom
n
4.5
Loi de Poisson
Définition On définit la loi de Poisson de paramètre µ par P(X = j) =
µj −µ
.
j! e
Lemme La somme de deux variables aléatoires indépendantes suivant des lois
de Poisson de paramètres µ1 et µ2 suit une loi de Poisson de paramètre µ1 + µ2 :
X
P(X + Y = j) =
P(X = k ∧ Y = j − k)
0≤k≤j
=
X
P(X = k)P(X = j − k)
0≤k≤j
=
X
e−µ1 e−µ2
0≤k≤j
=
µk1 µj−k
1
k! (j − k)!
e−µ1 −µ2 X
j!
µk µj−k
j!
k!(j − k)! 1 2
0≤k≤j
= Poisson(µ1 + µ2)
16
Théorème La loi binomiale tend vers la loi de Poisson.
Démonstration Soient (pn ) de limite µ et Xn = Binom(n, pn ). Alors :
→e−µ
z }| {
Q
n
k
(n
−
i)
n k
1
0≤i<k
k (n − pn )
−µ µ
P(Xn = k) =
pn (1−pn )n−k =
(np
)
→
e
n
k
k
k! |
n
k!
− pn )k
{z
} | {zk } (1
| {z }
→µ
→1
4.6
→1
Approximation de Poisson
(m)
Définitions On pose cette fois Xi
le nombre de boules dans l’urne i et
(m)
m
Yi
= Poisson n .
P (m)
P (m)
On a
Xi = m et
Yi
= Poisson(m).
P (m)
Théorème La distribution des Yi conditionnée à
Yi
= m est identique
à celle des Xi :
X
AY = P (Yi = ki )i |
Yi = m = P ((Xi = ki )i ) = AX
Démonstration On pose k =
P
ki .
k!
AX = Q
i ki !
k
1
n
Cela vient de la distribution des ki dans les urnes. I-n-d-i-s-t-i-n-g-a-b-l-e.
AY
Théorème Si f est une fonction croissante, alors :
√
(m)
(m)
E f (Xi ) ≤ e mE f (Yi
Démonstration
E
(m)
f (Yi )
!
=
X
E
(m)
f (Yi )|
X
(m)
Yi
!
·P
=k
i
0≤0
X
(m)
Yi
i
!
≥k=m E
(m)
f (Yi )|
X
(m)
Yi
i
mn
(m)
≥ E f (Xi ) · e−m
m!
17
=m
!
·P
X
i
(m)
Yi
=m
Chapitre 5
Fonctions génératrices
5.1
Définition
Définition 5. Soit X au plus dénombrable. On définit gX (t) = E(etX ) et µk =
E(X k ).
5.2
Exemples
Propriété 2. Pour X binômiale, gX (t) = (1 − p + pet )n .
Démonstration.
X
etk P(X = k)
X
n k
p (1 − p)n−k
=
etk
k
0≤k≤n
X n
=
(pet )k (1 − p)n−k
k
gX (t) =
0≤k≤n
= (1 − p + pet )n
Propriété 3. Pour X géométrique, gX (t) =
Démonstration.
pet
1−et (1−p) .
X
etk P(X = k)
X
=p
etk (1 − p)k−1
gX (t) =
1≤k
= pet
X
(et (1 − p))k
0≤k
=
pet
1 − et (1 − p)
18
Propriété 4. Pour X poissonique, gX (t) = eµ(e
Démonstration.
−1)
gX (t) =
X
etk P(X = k)
=
X
etk
0≤k
= e−µ
X (µet )k
= e−µ eµe
= eµ(e
.
µk −µ
e
k!
0≤k
5.3
t
t
k!
t
−1)
Propriétés
(k)
Propriété 5. µk = gX (0)
Démonstration.
gX (t) =
X
etj P(X = j)
j
=
X X (tj)k
j
=
X tk
k
=
k!
X tk
0≤k
k!
k
k!
!
P(X = j)


X

j k P(X = j)
j
E(X k )
Remarque 1. Var(X) = µ2 − µ21
Théorème 2. Pour X et Y indépendantes, gX+Y = gX gY .
Théorème 3. Si X est une variable aléatoire dans un ensemble fini, alors X
est caractérisée par une fonction génératrice.
Démonstration. Si on connait g :
g(tj ) =
X
etk xj P(Xj )
1≤j≤n
Ce qui correspond à une équation de la forme G = M P d’inconnue P avec
detM 6= 0.
19
Chapitre 6
Bornes classiques
6.1
Markov
Propriété 6.
P(X ≥ a) ≤
(
Démonstration. Soit I =
1
0
E(X)
a
si X ≥ a
. Alors I ≤
sinon
P(x ≥ a) = P(I = 1) = E(I) ≤ E(
6.2
X
a
et :
X
E(X)
)=
a
a
Chebyshev
Propriété 7. P(|X − E(X)| ≥ a) ≤
Var(X)
a2
2
Démonstration. On pose Y = (X − E(X)) . Comme E(Y ) = Var(X), on utilise
la borne de Markov avec Y :
√
E(Y )
Var(X)
P( Y ≥ a) = P(Y ≥ a2 ) ≤
=
a2
a2
Exemple 1. Soit X = Binom(n, 12 ). Alors, avec la borne de Markov :
P(X ≥
3n
)≤
4
n
2
3n
4
=
2
3
Et, avec Chebyshev :
P(X ≥
3n
n
n
) = P(X − E(X) ≥ ) ≤ P(|X − E(X)| ≥ ) ≤
4
4
4
20
n
4
n2
16
=
4
n
Exemple 2. On considère n types de coupons et X le nombre de coupons achetés
pour en obtenir un de chaque catégorie. Avec la borne de Markov :
nH(n)
1
E(X)
≤
≤
2nH(n)
2nH(n)
2
P
Pour Chebyshev, on pose Xi = Geom n−i+1
. Ainsi, X = Xi et donc :
n
X
X 1 − n−i+1
X 1
π2
n
V ar(X) =
V ar(Xi ) =
≤ n2
≤ n2
2
2
n−i+1
k
6
P(X ≥ 2nH(n)) ≤
1≤k≤n
n
Alors :
2
P(X ≥ 2nHn ) = P(X − nHn ≥ nHn ) ≤ P(|X − E(X)| ≥ nHn ) ≤
6.3
n2 π6
π2
≤
2
2
n Hn
6Hn2
Chernov
Lemme Avec X = Geom(p) :
g(t) = E(etx ) =
X
etk (1 − p)k−1 p =
p X
pet
((1 − p)et )k =
p−1
1 − (1 − p)et
1≤1
1≤k
En dérivant, on obtient :
g 0 (t) =
pet (1 − (1 − p)et ) + pet (1 − p)et
(1 − (1 − p)et )2
Et, en évaluant en zéro :
g 0 (0) =
p + 2p(1 − p)
3p + 2p2
1
=
=
2
2
(1 − (1 − p))
p
p
De la même manière, on montre que g 00 (0) =
2−p
p2 .
Var(X) = g 00 (0) − (g 0 (0))2 =
Ainsi :
1−p
p2
Lemme 3.
E(etX )
eta
P
Propriété 8. Soient Xi = Bernouilli(pi ) indépendantes, X =
Xi et µ =
E(X). Alors, pour δ ≥ 0 :
µ
eδ
P(X ≥ (1 + δ)µ ≤
(1 + δ)1+δ
P(X ≥ a) = P(etX ≥ eta ) ≤
Et pour δ ≥ 1 :
P(X ≥ (1 + δ)µ) ≤ e−
21
µδ 2
3
Démonstration. Puisque µ =
P
pi , on a :
Y
gX (t) =
gXi (t)
1≤i≤n
=
Y
(1 + pi (et − 1))
1≤i≤n
≤
Y
epi (e
t
−1)
1≤i≤n
= eµ(e
Et donc :
t
−1)
P(X ≥ (1 + δ)µ) = P(etX ≥ e(1+δ)µ )
E(etx
e(1+δ)µ
gX (t)
≤ (1+δ)µ
e
t
eµ(e −1)
≤ (1+δ)µ
e
≤
≤t:=log(1+δ)
eδ
(1 + δ)1+δ
µ
Enfin, pour δ ≥ 1, on passologue, on dérive et tadaaaa !
µ
µδ 2
eδ
≤ e− 3
1+δ
(1 + δ)
µδ 2
⇔µ(δ − (1 + δ) log(1 + δ)) ≤ −
3
2µδ
⇔µ(1 − 1 − δ log(1 + δ)) ≤ −
3
2
⇔ log(1 + δ) ≥
3
6.4
Exemple : pièces de monnaies
Propriété 9. On prend X le nombre de résultats « face »sur n lancers. Alors
2
n 1 p
P X − ≥
6n log n ≤
2
2
n
q
n
Avec la borne de Chernov pour δ = 6 log
et µ = n2 , on obtient :
n
p
1
1
P X ≥ (n + 6n log n) ≤ e− log n ≤
2
n
22
Donc
P
1
1p
−X ≥
6n log n
2
2
1
1p
=P X− ≥
6n log n
2
2
≤
1
n
D’où le résultat.
6.5
Exemple : balls and bins
On considère n boules dans n urnes et on note Bi le nombre de boules dans
l’urne i. On pose M = logloglogn n .
Lemme 4. M ! ≤
Démonstration.
Donc
n
2e log n
√
M! ≤ e M
M
e
M
≤M
M
e
e
log(M !) ≤ M log M − M + log M
≤ log n − log log n − log(2e)
Propriété 10.
P(max Bi ≤ M ) ≤
1
n2
Démonstration.
P(max Bi ≤ M ) =
Y
P(Bi ≤ M )
=
Y
(1 − P(Bi ≥ M ))
≤
Y
≤
(1 − P(Bi = M ))
n
1
1−
eM !
n
≤ e− eM !
≤ e−2 log n
1
≤ 2
n
6.6
Exemple : Coupon Collector Problem
On jette des boules aléatoirement dans n urnes. Pour m tirages, on note E
l’évènement « aucune urne n’est vide ».
23
Propriété 11. P(E) → e−e
−c
Démonstration. On note Bi le nombre
de boules dans l’urne i. Avec l’approximation de poisson, Bi = Poisson m
n . Il vient :
P(E) =
Y
=
1 − P(Bi = 0)
n
e−c
1−
n
−c
→ e−e
(E) = P(E|[Y − m| ≤
p
2m log m) + P(E||Y − m| >
p
P(|X − m| > 2m log m) → 0
Y =
P
p
2m log m)
Yi Poisson m P(Y ≥ x) ≤ ex−m−x log( m )
x
Lemme X = Poisson(µ)
P(X ≥ x) ≤ ex−µ−log( µ )
x
Avec Chernov :
µ
P(X ≥ x) = P(etx ≥ etx ) ≤
eµ(e −1)
etx
x
µ
p
p
p
P(E||Y −x| ≤ 2m log m) ≤ P(E|Y = m+ 2m log m)−P(E|Y = m− 2m log m)
√
√
Si une urne est vide après m = 2m log m boules, je relance 2 2m log m
boules.
√
2 2m log m
P(remplissage) ≤
n
p
p
P(E) = P(|Y − m) ≤ 2m log m) + P(|Y − m| > 2m log m
|
{z
} |
{z
}
t = log
→0
→1
24
Chapitre 7
Des algorithmes probabilistes
7.1
Chemin hamiltonien
Graphe aléatoire
On note Gn,p un graphe sans boucle à n sommets et p arrêtes tiré aléatoirement. Pour cela, on tire successivement les p arrêtes dans J1, nK\{(i, i)}.
Algorithme
Si v1 . . . vk est un chemin, on définit l’opération Rotation(vi , vk ) comme le
remplacement de V par V \{(vi , vi+1 )} ∪ {(vi , vk )} (on inverse le parcours de
i + 1 à k).
Input: graphe G = (V, E) à N sommets
Output: cycle hamiltonien en sortie ou échec
for all v ∈ V do
used(v) ← ∅
unused(v) ← {(v, u) : (v, u) ∈ E}
end for
Prendre un sommet au hasard, en faire la tête du chemin
repeat
(vi )1≤i≤k est le chemin courant
(u, v) ← head(unused(vk ))
unused(vk ) ← unused(vk )\{(vk , u)}
used(vk ) ← used(vk ) ∪ {(vk , u)}
Idem avec u
if u ∈
/ {vi }i<k then
k ←k+1
vk ← u
else
i ← indice(u)
Rotation(vk , vi )
25
La tête est maintenant vi+1
end if
until k = n ∧ vi = v1 ou plus d’arrêtes (échec)
Validité
n
, P(algorithme trouve) = 1 − O
Théorème Pour p ≥ 40 log
n
tration se fait en utilisant l’algorithme suivant :
Input: graphe G = (V, E) à N sommets
Output: cycle hamiltonien en sortie ou échec
for all v ∈ V do
used(v) ← ∅
unused(v) ← {(v, u) : (v, u) ∈ E}
end for
Prendre un sommet au hasard, en faire la tête du chemin
repeat
(vi )1≤i≤k est le chemin courant
Tirer x dans [0, 1[.
if x < n1 then
renverser le chemin
k )|
else if x < |unused(v
then
n
Choisir (vk , vi ) dans used(vk )
Rotation(vk , vi )
end if
until k = n ∧ vi = v1 ou plus d’arrêtes (échec)
1
n
. La démons-
Proposition Supposons que les listes used et unused sont construites en insérant les sommets de manière équiprobable. Tant que l’algorithme peut progresser
(c’est-à-dire qu’à la ligne 2 on trouve vk tel que unused(vk ) 6= ∅) alors tous les
sommets ont la même probabilité de devenir la prochaine tête.
Démonstration Notons (vi )1≤i≤k le chemin en cours de calcul par l’algorithme. Quelle peut-être la prochaine tête :
– le sommet v1 ? (auquel cas, il faut que la liste soit renversée, probabilité
de n1 )
– un sommet u du chemin, deux cas :
– (vk , u) ∈ used(vk ) et dans ce cas on est forcément passé par la ligne 1
de l’algorithme, avec probabilité :
|used(vk )|
1
1
times
=
n
|used(vk )|
n
– (vk , u) ∈ unused(vk ) avec probabilité
26
7.2
Médiane en temps linéaire
On considère un ensemble S à n élements et de médiane m. On cherche
un algorithme pour déterminer m. L’idée consiste à trouver d et u tels que
d ≤ m ≤ u et que {s : d ≤ s ≤ u} soit petit.
L’algorithme consiste en :
3
1. on choisit n 4 éléments de S aléatoirement et on note R leur ensemble ;
2. on trie R ;
3
√
n4
3. on détermine d et u respectivement les
n -ième plus petit et
2 −
3
√
n4
n -ième plus grand éléments de R ;
2 +
4. on détermine C = {s : d ≤ s ≤ u}, ld = |{s : s < d}| et lu = |{s : s > u}| ;
3
5. si ld > n2 , lu > n2 ou |C| ≥ 4n 4 , alors échouer ;
6. trier C ;
7. renvoyer le n2 − ld + 1 -ième élément de C.
Proposition La probabilité d’échec est inférieure à
1
1
n4
.
Démonstration Soient les évènements
:
3
√
– E1 : Y1 = |{r ∈ R : r ≤ m}| ≤ n24 − n ;
3
√
– E2 : Y2 = |{r ∈ R : r ≥ m}| ≤ n24 − n ;
3
– E3 : |C| ≥ 4n 4 .
n
E1 ⇔ ld > 2 et E2 ⇔ lu n2 et donc la probabilité d’échec est P(E1 ∪ E2 ∪ E3 ).
On définit :
(
1 si R[i] ≤ m
Xi =
0 sinon
P
1
et X =
Xi . Xi suit une loi de Bernouilli de paramètre r = 21 + 2n
.
3
n4
1
E(X) =
+
3
2
2n 4
3
3
n4
1
n4
−
3 <
4
4
4n 4
3
√
n4
P(E1 ) = P(X <
− n)
2
3
√
n4
1
≤ P(X <
+
n)
3 −
2
2n 4
Var(X)
≤
n
1
≤
3
4n 4
Var(X) =
27
De même :
1
P(E2 ) ≤
3
4n 4
Pour le calcul de P(E3 ), définssons les évènements :
3
– E3a : 2n 4 éléments de C sont strictement inférieurs à m ;
3
– E3b : 2n 4 éléments de C sont strictement supérieurs à m.
On a ansi : E3 ⇒ E3a ∧ E3b . On redéfinit :
(
3
1 si R[i] est dans les n2 − 2n 4 premiers éléments de S
Xi =
0 sinon
Et on pose pi =
1
2
−
2
3
n4
. Alors :
3
P(E3a ) = P(X ≥ n 4 −
√
n)
√
3 3
= P(X − E(X) ≥ n + n 4 )
2
√
3 3
= P(E(X) − X ≤ n − n 4 )
√ 2
≤ E(|E(X) − X| ≤ n)
!
3
3
n4
1
≤
− 4n 4
4
n
3
n4 √
2 n
−
3
3
3
2
2
1
1
n4
4
− 3
+ 3 =
− 4n 4
Var(X) = n
2 n4
2 n4
4
E(X) =
Propriété Soient S un espace de probabilités, X une variable aléatoire. On
pose µ = E(X). Alors P(X ≥ µ) > 0 et P(X ≤ µ) > 0.
Démonstration Pour le premier, par l’absurde :
X
X
E(X) =
iP(X = i) =
iP (X = i) < E(X)
i<µ
Application : Large cut Soit un graphe G = (V, E). On pose n = |V | et
m = |E|. Il existe un cut d’au moins m
2 arrêtes. L’algorithme consiste à placer
chaque sommet aléatoirement dans des ensembles.
28
Chapitre 8
Chaînes de Markov
8.1
Définition
Définition 6. Une chaîne de Markov est un espace d’états fini muni d’une
matrice de transition P . On pose Xt l’état courant à l’étape t.
Pi,j = P(Xn+1 = sj |Xn

0 21 0
1 0 1
2
2
Exemple 3. Avec P = 
0 1 0
2
1
0 12
2
= si ) = P(X1 = sj |X0 = si )

1
2
0

1 :
2
0
1
2
4
3
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
Propriété 12. On note µn = P(Xk = si ) 1≤i≤k la distribution à l’étape n.
Alors µn = µ0 P n .
Démonstration. En effet :
P(X1 = s1 ) =
X
P(X1 = s1 |X0 = sk )P(X0 = sk )
k
29
8.2
Chaîne de Markov régulière
Définition 7. si communique avec sj ≡ ∃n, P(Xn = sj |X0 = si ) > 0
Définition 8. Une chaîne de Markov est dite irréductible lorsque tous les états
communiquent deux à deux.
Définition 9 (Période). d(si ) ≡ pgcd{n > 0 : (P n )i,i 6= 0}
Définition 10. Une chaîne de Markov est dite apériodique lorsque toutes les
périodes sont égales à un.
Définition 11. Une chaîne de Markov est régulière lorsque elle est irréductible
et apériodique.
Théorème 4. Une chaîne de Markov apériodique vérifie :
∃N, (n ≥ N ⇒ ∀i, (P n )i,i > 0)
Démonstration. Pour i donné, on pose A = {aj } = {n > 0 : (P n )i,i > 0}. A est
stable par addition :
X
∀a, b ∈ A, (P a+b )i,i = (P a )i,i + (P b )i,i +
··· > 0
Or, pgcd(A) = 1 car la chaîne est apériodique. Donc existent dj ∈ Z tels que
P
dj aj = 1. On pose alors :
X
X
S+ =
dj aj ∧ S− = −
dj a j
j/dj ≤0
j/dj <0
On pose alors Ni = S− (S− − 1). Et, pour n ≥ N , on écrit sa division euclidienne
par S− :
n = S− q + r ∧ 0 ≤ r < S−
en particulier, q ≥ P − 1 donc :
r
n = S− q + r(S+ − S− ) = S− (q − r) + S+ |{z}
|{z} | {z } |{z}
∈A
≥0
∈A
≥0
Donc n ∈ A. Il reste donc à prendre N = max Ni .
Théorème 5. Soit une chaîne de Markov régulière. Alors :
∃N, ∀n ≥ N, ∀i, j, (P n )i,j > 0
Démonstration. La chaîne est apériodique donc soit N tel qu’au théorème précédent. Comme elle est irréductible, pour i 6= j, il existe Mi,j tel que (P Mi,j )i,j > 0.
N + max Mi,j convient.
30
8.3
Distribution limite
Théorème 6. Pour une chaîne de Markov régulière, P n → W avec :


w1 . . . wn

..
.. 
W =  ...
.
. 
w1 . . . wn
Démonstration. On suppose k ≥ 2 et Pi,j > 0 et soit d = min P . Alors 9 < d ≤
1
2 . Pour Y vecteur positif normé, on pose :
(
mn = min(P n y)i
Mn = max(P n y)i
Alors :
M1 ≤ dm1 + (1 − d)M0 ∧ m1 ≥ dM0 + (1 − d)m0
Et donc :
M1 − m1 ≤ (1 − 2d)(M0 − n0 )
Et, par récurrence :
Mn − mn ≤ (1 − 2d)n (M0 − m0 )
Il vient que les suites (Mn ) et (mn ) sont adjacentes et tendent vers un réel u.
Ainsi :
 
u
P n y → . . . 
u
Corollaire 1. ∃!w, w = wP ∧
P
wi = 1
Démonstration.
P n → W ⇒ P n P → W P ⇒ W = W P ⇒ w = wP
Corollaire 2. Avec c le vecteur unité, P c = c ∧ P y = y ⇒ y = λc.
Corollaire 3. Avec une chaîne de Markov régulière, ∀i, j, (P n )i,j → wi
Remarque 2. Soit Ti,j la variable aléatoire correspondant au nombre d’étapes
pour aller de si à sj . Alors w1i = τi,j = E(Ti,j ). Cette valeur correspond au
mean hitting time (i 6= j) ou au mean returning time (i = j).
Lemme 5. P(Ti,j < ∞) = 1
31
Démonstration. Soit d = min{(P )i,j > 0}. X0 = si P(Ti,j > N ) ≤ P(XN 6=
sj ) ≥ 1 − d
P(τi,j > 2N ) = P(Ti,j > N )P(Ti,j > 2N |Ti,j > N )
≤ P(Ti,j > N )P(X2n 6= sj |Ti,j > N )
P(Ti,j > lN ) < (1 − d)l
Lemme 6. τi,j < ∞
τi,j =
X
P(Ti,j ≥ n)
1≤n
=n=N q+r
X X
P(Ti,j ≥ N q + r)
0≤q 1≤n≤N
≤
X X
P(Ti,j ≥ N q)
0≤q 1≤r≤N
≤N
X
(1 − d)q
0≤q
Théorème 7. Pour une chaîne de Markov régulière : ∀i, j, (P n )j,i →
τi,i est le Excepted Return Time et Ti,j le temps pour aller de i à j.
8.4
1
τi,i
= vi .
Hagstrom (Finite Markov Chain)
Rappel Ti,j = min{n ≥ 1 : Xn = sj ∧ X0 = si }
τi,j = E(Ti,j )
(mean hitting/return time)
Lemme P(Ti,j < +∞) = 1, E(Ti,j ) < +∞
P
Démonstration On suppose X0 = s1 . On pose pi = 0≤n P(Xn = si ∧ n <
T1,1 ) le nombre moyen de visite à l’état i avant de revenir en s1 . pi < T1,1 est
donc fini et :
p1 = 1
pi
)
Π = (Πi ) = (
τi,i
Propriété ΠP = Π
32
Démonstration Pour j 6= 1 :
pj
τi,i
1 X
=
P(Xn = sj ∧ n < T1,1 )
τ1,1
Πj =
0≤n
=
=
=
=
=
=
1 X
τ1,1
1 X
τ1,1
P(Xn = sj ∧ n < T1,1 )
1≤n
P(Xn = sj ∧ n − 1 < T1,1 )
1≤n
1 X X
τ1,1
1 X X
τ1,1
Pi,j P(Xn−1 = si ∧ n − 1 < Tn )
1≤n 1≤i≤k
1
τ1,1
P(Xn−1 ∧ n − 1 < T1,1 )P(Xn = sj |Xn−1 = si )
1≤n 1≤i≤k
1 X X
τ1,1
P(Xn−1 = si ∧ Xn = sj ∧ n − 1 < Tn )
1≤n 1≤i≤k
X
Pi,j
1≤i≤k
X
P(Xn−1 = si ∧ n − 1 < Tn )
1≤n
|
=
X
{z
}
=pi
Πi Pi,j
1≤i≤k
Pour j = 1 :
p1 = 1
= P(T1,1 < ∞)
X
=
P(Tj,1 = n)
1≤n
=
X X
P(Xn−1 = si ∧ Ti,j = n)
1≤n 1≤i≤k
=
X X
P(Xn−1 = si ∧ Tn > n − 1)P(Xn = s1 |Xn−1 = si )
1≤n 1≤i≤k
=
X X
P(Xn−1 = si ∧ Tn > n − 1)
1≤i≤k 1≤n
Théorème Pour une chaîne de Markov, pour une distribution initiale µ0 :
µn P n → Π = (
33
1
)
τi,i
Démonstration
µn = µ0 P n CM X
Π = ΠP n CM X 0
Soit T = max{n : Xn = Xn0 } et :
(
Xm
00
Xm
=
0
Xm
si m < T
sinon
X 00 est une chaîne de Markov. Avec la régularité de X :
∃M : (P m )i,j > 0
On pose alors :
α = min(P M )i,j
i,j
Et il vient :
0
P(T ≤ M ) ≥ P(XM = XM
)
0
≥ P(XM = s1 ∧ XM
= s1 )
X
0
=
P(X0 = si ∧ XM = s1 )P(Xn0 = s1 ∧ XM
= s1 )
1≤i≤k

=

X

P(X0 = si )P(Xn = s1 |x0 = si ) × 
1≤i≤k

X
1≤i≤k
P(T ≤ M ) ≥ α2
P(T > M ) ≤ 1 − α2
0
P(X2n 6= X2n
|T > M ) ≤ 1 − α2
P(T > 2M ) = P(T > M )P(T > 2M |T > M )
0
≤ (1 − α2 )P(X2n 6= X2n
|T < M )
≤ (1 − α2 )
P(T > lM ) ≤ (1 − α2 )l
lim P(T > n) = 0
n→∞
µ0 = X
Π = X0
µ(n) = µ0 P n
(n)
µi
= Πi
= P(Xn00 = si ) − P(Xn0 = si )
≤ P(Xn00 = si ∧ Xn0 6= si )
≤ P(Xn00 6= Xn0 )
= P(T > n)
→0
34
0
0
P(X00 = si )P(XM
= s1 |XM
= si )
8.5
Chaîne réversible
Définition Une chaîne de Markov est dite réversible lorsque :
X
∃Π : Πi ≥ 0 ∧
Πi = 1 ∧ ∀i, j, Πi Pi,j = Πj Pj,i
1≤i≤k
Théorème Une chaîne réversible vérifie : ΠP = Π.
Démonstration Soit un graphe G = (V, E).
(
1
si voisins
Pi,j = deg(i)
0
sinon
X
d(i) = 2m
d∈I
Π(i) =
d(i)
2m
...
Exemple La chaîne de Markov du premier exemple est réversible, avec :
1 1 1 1
, , ,
Π=
4 4 4 4
Birth and death Toute chaîne vérifiant Pi,j 6= 0 ⇔ |j − i| = 1 (seuls les
voisins communiquent) et réversible. En effet, soit Π définit par :
Π1 = 1 ∧ Πi+1 =
Pi,i+1
Πi
Pi+1,1
Alors le vecteur Π normalisé convient.
Exemple : zéros et uns Soit une grille p × p de zéros et de uns. Une configuration admissible vérifie la propriété : les uns sont entourés des zéros :
0
0
1 0
0
Construisons une chaîne de Markov de la manière suivante : les états sont
les configurations admissibles et, pour passer de Xn à Xn+1 , on tire un sommet
v aléatoirement et de manière équiprobable :
1. si le sommet est entouré de zéros, on le passe à un ;
2. on passe le sommet à zéro.
1
Pi,j = 2
2p
35
Exemple On veut simuler une distribution Π sur {si }1≤i≤k . Pour cela, on tire
un graphe connexe à k sommets (voisins N et degrés d) et on définit :
1
Πj di
}
si j ∈ Ni

 di max{1,
P 1 Πi dj
Pi,j = 1 −
si i = j
di min{. . .}


0
sinon
Πi Pi,j =
Πj Pj,i =
Πj
×
dj
Πj
dj
1
|{z}
Π d
max{1, Πi dj }
j i
8.6
Exemple : jeux et paradoxes de Parrondo
Lorsqu’on tire une pièce X, on gagne un avec probabilité pX , et perd un
sinon.
Jeu A On tire A. Avec pA = 0.49, le jeu est perdant.
Jeu B Si le gain courant est multiple de trois, on tire B, sinon C. On suppose
pB = 0.09 et pC = 0.74. Le jeu est-il gagnant ?
En supposant le modulo 3 du gain équitablement réparti, on aurait E(B) =
1
p
+ 23 pC > 12 mais ce n’est pas le cas.
B
3
2
1 − pB
pC
0
pC
1 − pC
pB
1 − pC
1
Jeu C On joue aléatoirement au jeu A ou au jeu B. Cela revient à jouer au
jeu B avec les probabilités :
(
p0B = 21 (pA + pB )
p0C = 12 (pA + pC )
36
8.7
Random walk on G
Soit G un graphe connexe non orienté non bi-parti. On pose Pi,j = deg1 (i) .
Alors la chaîne de Markov associée est régulière.
deg(i)
Πi P
i∈I i
ijqpjdqldksdfj τi,i =
Démonstration
1
Πi
2|E|
.
= deg
(i)
2|E|
1
deg(i) = τi,i = deg(i)
P
j voisin i (1
+ τj,i )
skjgslfjsdlfjs τi,j = 2|E|
Algo randomisé ? i, j ∈ G = (V, E) ∃? chemin de i à j O(|V|)
– commencer marche à i ;
– retourner l’évaluation de « j trouvé en moins de 4n3 étapes » ;
Propriété P(retourne vrai ≥ 21 )
Lemme Soit :
? ? ? ?(G) = max{temps moyen pour visiter tous les sommets depuis i}
v∈V
Alors ? ? ? ?(G) ≤ α|V ||E|.
Démonstration On construit un arbre couvrant dont effectue un parcours
préfixe des sommets. Le temps est au plus de 2|V | × 2|E|.
37
Chapitre 9
Probabilités continues
Nous allons étendre notre modèle afin de pouvoir travailler sur des réels et
les suites infinies.
9.1
σ-algèbre
Définition 12. Une famille F de parties de Ω est une σ-algèbrei, ou tribu,
lorsque :
– Ω∈F;
– A ∈ F ⇒ Ω\A
S∈F;
– ∀(Ai ) ∈ F N , Ai ∈ F (additivité dénombrable).
Remarque 3.
S– ∅ ∈ F ;
– ∀(Ai ) ∈ F n , Ai ∈ F (additivité finie) ;
– F close par intersections finies et dénombrables.
Exemple 4.
– P(Ω) est une σ-algèbre ;
– avec Ω = [0, 1], F l’ensemble des unions finies d’intervales ]a, b] n’est
pas σ-algèbre cat ne vérifie pas l’additivité dénombrable (mais c’est une
algèbre) ;
Définition 13. Si A ⊆ P(Ω), alors min⊆ {F ⊇ A : Fσ-algèbre} existe (c’est
l’intersection de cet ensemble) et est appelée σ-algèbre engendrée par A (notée
σ(A).
Définition 14. Soient Ω =]0, 1] et A = {]a, b] ⊆ Ω}. σ(A) est la σ-algèbre des
boréliens.
T
Propriété 13. [a, b] ⊆]0, 1] est un borélien de Ω car [a, b] = ]a − n1 , b].
S
Propriété 14. Les ouverts de Ω sont des boréliens : O = {]a, b] ⊆ O}.
Propriété 15. Par complémentation, les fermés aussi.
38
9.2
Mesure de probabilité
Définition 15. Soit F une algèbre. Une mesure de probabilité P est une application de F dans [0, 1] vérifiant :
– P (∅) = 0 et P (Ω) = 1 ;
S
– pour toute
P suite (Ai ) d’éléments disjoints de F telle que A = Ai ∈ F,
P (A) = P (Ai ) (additivité dénombrable).
Remarque 4.
– additivité finie ;
– ∀A ⊆ B, P (A) ≤ P (B) ;
– P (A
S ∪ B) =PP (A) + P (B) − P (A ∩ B) ;
– P ( Ai ) ≤ P (Ai ) (sous-additivité finie).
Théorème 8. Soit (Ai ) ∈ F N monotone avec A =
lim P (Ai ).
S
Ai ∈ F. Alors P (A) =
S
Démonstration. On pose A0 = ∅ et Bi = Ai \Ai+1 . Ainsi, A = Bi avec les Bi
disjoints et donc :
X
[
P (A) =
P (Bi ) = lim P (Bi ) = lim P (
Bi ) = lim P (Ai )
i≤n
Corollaire 4. Sous-additivité dénombrable.
S
Démonstration. Pour Ai une suite d’éléments de F et A = Ai , on pose Cn =
S
k≤n Ak afin que (Cn ) soit croissante. Il vient :
[
X
X
P (A) = P ( Cn ) = lim P (Cn ) ≤ lim
P (Ak ) ≤ lim
P (Ak )
k≤n
9.3
Mesure de Lebesgue
Théorème 9. Une mesure de probabilité sur une algèbre F a une unique extension à la σ-algèbre engendrée σ(F).
On travaille sur F les boréliens (unions finies de F
]a, b]) de Ω =]0,
P 1].
On construit une mesure de probabilité avec P ( ]ai , bi ]) =
bi − ai puis
on applique le théorème d’expansion suivant.
Démonstration Montrons que P est une mesure de probabilité sur les boréliens :
G
X
∀]a, b] = ]ak , bk ], b − a =
bk − ak
Définition 16. Les boréliens de ]0,Q
1]n sont les éléments de la σ-algèbre engendrée par les ensembles de la forme ]ai , bi ].
Démonstration.
Q Il existeQune unique mesure de probabilité λ sur cette σ-algèbre
vérifiant λ( ]ai , bi ]) = bi − ai .
39
9.4
Variable aléatoire
Définition 17. Une variable aléatoire est une fonction de Ω dans R vérifiant :
∀x ∈ R, {w : X(w) ≤ x} ∈ F
Corollaire 5. P(X ≤ x) est donc bien définit.
Définition 18. La fonction de distribution X est la fonction Fx de R dans [0, 1]
qui à x associe P(X ≤ x).
Exemple 5.
– avec Ω = [0, 1] et F la tribu des boréliens. X de Ω dans R
qui à x associe x.
(
0
si x ≤ 0
– distribution exponentielle Fx (x) =
−αx
1−e
sinon
P(X > x + y) = 1 − FX (x + y)
= e−αx+y
= e−αx e−αy
= P(X > x)P(X > y)
On se fixe un instant T . Soit X l’instant à l’arrivée du premier appel à un
central téléphonique après l’instant T . On modélise X par la loi exponentielle. Soient les évènements A « pas d’appel dans l’intervalle [T, T +x] »et
B « pas d’appel dans l’intervalle [T + x, T + x + y] ». Alors A et B sont
indépendants.
9.5
Espérance
Définition
R on définit l’espérance par
P 19. Si X(Ω) est au plus dénombrable,
E(X) = x∈X(Ω) aP(X = a). Sinon, par E(X) = Ω X(ω)P(dω).
Définition 20. On dit que X : Ω → R est continue
lorsq’existe f : R → R+
R
telle que pour tout borélien B ⊆ R, P(X ∈ B) = B f (x)dx
R
Remarque 5. R f = 1.
R
Remarque 6. Lien avec la fonction de distribution : F (x) = P(X ≤ x) = R f
donc f = F 0 .
Exemple 6. Pour une variable aléatoire exponentielle :
(
0
si x < 0
F (x) =
−αx
1−e
sinon
Pour x < 0, f (x) = 0.
Pour x ≥ 0, f (x) = αe−αx .
R +inf ty
F X = −∞
αxe−αx dx =
1
α.
40
9.6
Espérance fonctionnelle
Méthode une On pose Y = g(X).
Méthode deux On applique le résultat suivant :
Propriété
16. Soit X une variable aléatoire.
Si elle est discrète, E(g(X)) =
R
P
g(x)P(X
=
x).
Sinon,
E(g(X))
=
gf
.
X∈A
Corollaire 6. E(aX + b) = aE(X) + b.
9.7
Couples
Définition 21. Soient X et Y deux variables aléatoires. La fonction de distribution jointe est F (x, y) = P(X ≤ x ∧ Y ≤ y).
2
Définition 22. On dit que le couple
R (X, Y ) a pour densité f : R → R+
2
lorsque : ∀A ⊆ R , P((X, Y ) ∈ A) = A f .
R
Propriété 17. Si f est la densité de (X, Y ), la densité de X est x 7→ f (x, ).
P
Propriété 18. Pour X et Y discrètes, E(g(X, Y )) = x,y g(x, y)P(X = x ∧
Y = y).
RR
Propriété 19. Si le couple admet pour densité f , alors E(X, Y ) =
gf .
Corollaire 7. E(X + Y ) = E(X) + E(Y )
9.8
Variables aléatoires positives
Propriété 20. Pour X : Ω → R+ , E(X) =
R +∞
P(X ≥ x)dx.
P
Remarque 7 (Rappel). Pour X : Ω → N, E(X) = n≥1 P(X ≥ n).
0
Théorème 10 (Loi faible des grands nombres). Soient (Xi )1≤i≤n des variables
aléatoires indépendantes deux à deux, d’espérance m et de variance σ 2 . Alors :
X
1
σ2
P
Xi − m| ≥ α ≤
n
nα2
P
Démonstration. Cela découle de Tchibichev appliqué à n1
Xi .
Définition 23. Pour (Xn ) une suite de variables aléatoires de d’espérance p,
on dit que cette suite vérifie la loi faible des grands nombres lorsque :
1X
∀ > 0, lim P(|
Xn − µ| ≥ ) = 0
n
Elle vérifie la loi forte des grands nombres lorsque :
1X
P(lim
Xn = µ) = 1
n
41
Propriété 21. La loi forte implique la loi faible.
Démonstration. On note A l’évènement « |{n|An }| = ∞ ». La loi forte amène
P(A) = 0. Or, A = ∩n≥1 ∪k≥n Ak donc lim P(∪k≥n Ak ) = 0 et lim P (An ) = 0.
Remarque 8. lim P(An ) = 0
P
P(An ) converge, alors P(A) = 0.
P
Démonstration. A ⊆ ∪k≥n Ak donc P(A) ≥ P(∪Ak ) ≤
P(Ak ) → 0.
Lemme 7 (Borel - Cambelli). Si
Théorème 11 (Loi forte des grands nombres). Soit (Xn ) une suite de variables
aléatoires indépendantes deux à deux de même moyenne m telle que E(Xn4 ) ≤
A < ∞. Alors :
1X
Xn = m) = 1
P(lim
n
9.9
Lois normales théorème central limite
Définition 24. On dit que X suit une loi normale de praramètres µ et σ 2
lorsque sa densité est :
f (x) =
1
(x − p)2 2
√ exp −
2σ )
(
σ 2π
On note alors X ∼ N (µ, σ 2 ).
R
R
√
2
Remarque 9.
– f = Z1 cat e−x dx = Zπ ;
R
– E(X) = xf (x)dx = (x − p)f (x)dx + µf ;
|
{z
} | {z }
µ
0
–
2
Var(X) = E((X − p) )
Z
1
(x − µ)2
= √
(x − p)2 exp −
dx
2σ 2
σ 2π
Z
1
t2
√
=
t2 exp − 2 dt
2σ
σ 2π
Z
1
t
t2
= √
exp
−
(−tσ)dt
σ2
2σ 2
σ 2π
+∞
Z
1
t2
1
−t2
√ exp − 2 (−tσ)
=
+√
exp − 2 σdt
2σ
2σ
σ 2π
2π
−∞
2
1
t
√
=
exp − 2 dt
2σ
σ 2π
=1
– avec µ = 0, σ = 1, alors il s’agit d’une loi normale centrée réduite.
42
Propriété 22. Si X est normale, alors pour α ∈ R∗ et β ∈ R, Y = αX + β est
normale.
Théorème 12 (Central limite). Soit (Xn ) une suite de variables aléatoires indépendantes deux à deuxPidentiquement distribuées d’espérance µ et de variance
1
( Xn − nµ). Alors (Yn ) converge vers une loi normale
σ 2 . On pose Yn = σ√
n
centrée réduite.
43
Téléchargement