Probabilités Yves Robert 2011-2012, semestre 2 Table des matières 1 Introduction 1.1 Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Fondamentaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 3 3 2 Exemples 2.1 Égalité de polynômes 2.2 Monty Hall . . . . . 2.3 As en main . . . . . 2.4 Pièces . . . . . . . . 2.5 Min-cut . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 5 5 6 6 7 3 Variable aléatoire 3.1 Généralités . . . . . . . . . . . . . . 3.2 Exemple : Tri rapide . . . . . . . . . 3.3 Espérance conditionnelle . . . . . . . 3.4 Lois usuelles . . . . . . . . . . . . . . 3.5 Exemple : Coupon collector problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 9 9 10 11 12 4 Loi 4.1 4.2 4.3 4.4 4.5 4.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 14 14 15 15 16 17 . . . . . . . . . . . . . . . . . . . . de poisson Le paradoxe des aniversaires Encore des anniversaires . . Boules colorées . . . . . . . Répartition des boules . . . Loi de Poisson . . . . . . . Approximation de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Fonctions génératrices 18 5.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 5.2 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 5.3 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1 6 Bornes classiques 6.1 Markov . . . . . . . . . . . . . . . . . 6.2 Chebyshev . . . . . . . . . . . . . . . . 6.3 Chernov . . . . . . . . . . . . . . . . . 6.4 Exemple : pièces de monnaies . . . . . 6.5 Exemple : balls and bins . . . . . . . . 6.6 Exemple : Coupon Collector Problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 20 20 21 22 23 23 7 Des algorithmes probabilistes 25 7.1 Chemin hamiltonien . . . . . . . . . . . . . . . . . . . . . . . . . 25 7.2 Médiane en temps linéaire . . . . . . . . . . . . . . . . . . . . . . 27 8 Chaînes de Markov 8.1 Définition . . . . . . . . . . . . . . . . . . 8.2 Chaîne de Markov régulière . . . . . . . . 8.3 Distribution limite . . . . . . . . . . . . . 8.4 Hagstrom (Finite Markov Chain) . . . . . 8.5 Chaîne réversible . . . . . . . . . . . . . . 8.6 Exemple : jeux et paradoxes de Parrondo 8.7 Random walk on G . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 29 30 31 32 35 36 37 9 Probabilités continues 9.1 σ-algèbre . . . . . . . . . . . . . . . . 9.2 Mesure de probabilité . . . . . . . . . 9.3 Mesure de Lebesgue . . . . . . . . . . 9.4 Variable aléatoire . . . . . . . . . . . . 9.5 Espérance . . . . . . . . . . . . . . . . 9.6 Espérance fonctionnelle . . . . . . . . 9.7 Couples . . . . . . . . . . . . . . . . . 9.8 Variables aléatoires positives . . . . . 9.9 Lois normales théorème central limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 38 39 39 40 40 41 41 41 42 2 . . . . . . . . . . . . . . . . . . Chapitre 1 Introduction 1.1 Objectif On utilise couramment des algorithmes dits déterministes : on connaît à l’avance le résultat. Il peut être intéressant d’utiliser un algorithme probabiliste, dont on ne connaît la correction qu’avec une incertitude (par exemple, meilleure efficacité en moyenne). 1.2 Modèle Définition 1. Un espace de probabilités est un ensemble Ω auquel est associé une loi de probabilité P : P(Ω) → [0, 1] telle que : – P(Ω) = 1 ; S P – ∀(Ei )i∈N disjoints, P( Ei ) = P(Ei ) Définition 2. Une partie de Ω est appelée évènement. Définition 3. On utilisera communément la loi équiprobable, ou uniforme, définie pour Ω fini par : card(E) P(E) = card(Ω) 1.3 Fondamentaux Lemme 1. P(E1 ∪ E2 ) = P(E1 ) + P(E2 ) − (E1 ∩ E2 ) Lemme 2. En généralisant à n évènements : [ X X X P Ei = P(Ei ) − 2≤k≤n (ij )∈[|1,n|]%∗ ≤ X P(Ei ) 3 P \ Eij Définition 4. – E et F sont indépendants lorsque P(E∩F ) = P(E)×P(F ); T E – (E ) sont mutuellement indépendants lorsque ∀I ⊂ [|1, n|], P i∈I i = Qi P(E ) i i∈I ) – on définit la « probabilité que E sachant F » : P(E|F ) = P(E∩F P(F ) . Propriété 1 (Loi de probabilité totale). Avec (Ei ) une partition de Ω : X X P(B) = P(B ∩ Ei ) = P(B|Ei ) × P(Ei ) Théorème 1 (Bayes). Soit (Ei ) une partition de Ω. Alors : P(Ei |B) = P(Ei ∩ B) P(B|Ei ) × P(Ei ) =P P(B) j P(B|Ej ) × P (Ej ) 4 Chapitre 2 Exemples 2.1 Égalité de polynômes Soient F et G de Nd [X]. On s’intéresse au test d’égalité de ces deux polynômes. L’approche déterministe consisterait à développer les polynômes puis comparer les coefficients, ce qui prend un temps O(d2 ). Dans l’approche probabiliste, on prend uniformément n ∈ [|0; αd|] et on teste F (n) = G(n) ; autrement dit, que n est racine de F − G de cardinal au plus d. Donc : 1 P (F (n) = G(n) ∧ F 6= G) ≤ α Pour k tirages avec replacement, il vient : P (F (ni ) = G(ni )1≤i≤k ∧ F 6= G) ≤ 2.2 k 1 α Monty Hall Un candidat doit choisir parmi trois portes. Derrière l’une d’entre elles se trouve un cookie. Le candidat désigne une porte ; l’animateur révèle volontairement la, ou une des, portes qui n’aboutissent pas à la récompense. Le candidat a-t-il intérêt à changer de porte ? 5 1 2 1 3 1 3 1 6 Révèle 3 → 1 6 Révèle 3 → 1 3 Révèle 2 → 1 3 1 2 Cookie en 1 Choisit 1 Révèle 2 → Cookie en 2 1 1 3 Cookie en 3 1 L’arbre de décision explicite l’idée que, si M. Patate conserve son choix initial, la probabilité de réussite est de un tiers, et donc, s’il change, de deux. 2.3 As en main On considère une main de m cartes tirées aléatoirement dans un jeu de n cartes. On considère les évènements M , M 0 et N , respectivement « la main comporte un as », « la main comporte un as de cœur »et « la main comporte deux as ». n−4 m n m P(M ) = 1 − P(M ) = 1 − n−1 m n m n−4 m−2 n−4 m−3 0 4 2 P(N ) = × + 4 3 × 4 4 × n−4 m−4 n m P(N |M ) = P(N ∩ M ) P(N ) = P(M ) P(M ) Si l’on sait que l’as est de cœur : P(N |M 0 ) = 3 n−4 n−4 n−4 (1)×(m−2 )+(32)×(m−3 )+(33)×(m−4 ) n (m) 2.4 + P(N ∩M 0 ) P(M 0 ) avec P(N ∩ M 0 ) = Pièces On lance trois pièces. Deux sont équilibrées et une tombe sur face deux fois sur trois. On définit Ei par « la i-ième est fausse »et B par « on obtient 6 face-face-pile ». 2 1 1 1 × × = 3 2 2 6 1 2 1 1 P(B|E2 ) = × × = 2 3 2 6 1 1 1 1 P(B|E3 ) = × × = 2 2 3 12 Donc, avec le théorème de Bayes : P(B|E1 ) = P(E1 |B) = 2.5 P(B|E1 ) × P(E1 ) 2 = P(B|E1 )P(E1 ) + P(B|E2 )P(E2 ) + P(B|E3 )P(E3 ) 5 Min-cut Définition Un min-cut d’un graphe connexe est un sous-ensemble de ses arrêtes, de cardinal minimal, dont le retrait déconnecte le graphe. Algorithme On tire successivement des arêtes dont on fusionne les sommets, jusqu’à ce qu’il ne reste plus que deux sommets. Reste le min-cut. L’algorithme retourne ici deux arrêtes. Mais ici, trois. Théorème La probabilité que l’algorithme détermine un min-cut est supérieure à |V |(|V2 |−1) Démonstration Soient G = (V, E) un graphe et C un min-cut de G. T On note Ei l’évènement « la i-ième arête contractée n’est pas dans C »et Fi = 1≤j≤i Ej (F0 = Ω). On cherche à déterminer P(F|V |−2 ). On remarque que deg v ≥ |C| (sans quoi on peut déconnecter v en deg v et donc, pour 0 ≤ i < |V | − 2 : retraits). Il vient que : |E| ≥ |V |×|C| 2 P(Ei+1 |Fi ) = 1 − |C| − i 2 ≥1− |E| − i |V | − i Or : P(Fi+1 ) = P(Ei+1 |Fi ) × P(Fi ) Donc : P(F|V |−2 ) = Y P(Ei+1 |Fi ) ≥ 0≤i<|V |−2 7 2 |V |(|V | − 1) Corollaire En x itérations, la probabilité d’échec p est inférieure à 1 − Ainsi, pour x ≥ |V |(|V | − 1) log |V |, il vient que p ≤ 8 1 |V |2 . 2 |V |(|V |−1) x . Chapitre 3 Variable aléatoire 3.1 Généralités Définition Une variable aléatoire est une application de Ω vers R. On définit l’évènement : X = a ≡ {s ∈ Ω : X(s) = a} Exemple Somme de deux dés : P(X = 4) = 3 36 . Lemme Avec X et Y indépendantes, P(X = s∩Y = t) = P(X = s)×P(Y = t) Définition On définit l’espérance par E(X) = Exemple Avec la somme des dés : E(X) = P iP(X = i). P 2≤i≤12 iP(X = i) = · · · = 7. Théorème E(X + Y ) = E(X) + E(Y ). En effet : XX E(X + Y ) = (i + j)P(X = i ∧ Y = j) i j X X X X = i P(X = i ∧ Y = j) + j P(X = i ∧ Y = j) i = j X i iP(X = i) + j X i jP(Y = j) j = E(X) + E(Y ) 3.2 Exemple : Tri rapide Complexité Le tri rapide se fait en diviser-pour-régner en partitionnant les n éléments en deux ensembles de n1 et n2 éléments autour d’un pivot. La complexité est alors T (n) = pivot + O(n) + T (n1 ) + T (n2 ). 9 Avec la médiane pour pivot, on obtient du O(n log n). RandQS On prend un pivot y aléatoirement. On appelle RandQS un appel récursif de cet algorithme. Théorème On définit X comme étant le nombre d’appels à RandQS. Alors E(X) = O(n log n). Démonstration On considère S de cardinal n supposé trié. ( 1 si on a comparé S(i) et S(j) Xi,j = 0 sinon P On ne compare qu’au pivot donc X = i,j Xi,j et E(X) = X 1≤i<j≤n ≤ 2 j−i+1 X 2 k X 1≤i≤n 1≤k≤n ≤ 2n X 1 i 1≤i≤n ≤ 2nHn ≤ 2n(log n + γ + o(1)) 3.3 Espérance conditionnelle Définition E(Y |Z = z) = P y yP(Y = y|Z = z) Exemples On note X1 et X2 les valeurs de deux dés et X leur somme. On veut calculer E(X|X1 = 2) et E(X1 |X = 5). X E(X|X1 = 2) = iP(X = i|X1 = 2) i = X 3≤i≤8 = E(X1 |X = 5) = 11 2 X i 1 6 iP(X1 = i|X = 5) i 1 2 3 4 + + + 4 4 4 4 5 = 2 = 10 P P(Y = y) × E(X|Y = y) car : X X X P(Y = y) × xP(X = x|Y = y) P(Y = y) × E(X|Y = y) = XX = xP(Y = y)P(X = x|Y = y) XX = xP(X = x ∧ Y = y) X = P(X = x) Propriété On a E(X) = = E(x) Définition On définit la variance et l’écart-type par : 2 = E(X 2 ) − E(X)2 V ar(X) = E X − E(X) σ(X) = p V ar(X) Lemme V ar(aX + b) = a2 V ar(X) Théorème Si X et Y sont indépendantes, alors E(X × Y ) = E(X) × E(Y ) et V ar(X + Y ) = V ar(X) + V ar(Y ) : ! ! X X E(X) × E(Y ) = xP(X = x) yP(Y = y) x = X y xyP(X = x ∧ Y = y) x,y = E(X × Y ) 3.4 Lois usuelles Bernouilli X représente par exemple un unique tirage aléatoire : P(X = 0) = p ∧ P(X = 1) = 1 − p E(X) = p et V ar(X) = p(1 − p) Binome X représente par exemple le nombre d’occurence d’un évènement parmi n tirages. n k P(X = k) = p (1 − p)n−k k E(X) = np et V ar(X) = np(1 − p) (somme de Berouilli indépendantes) 11 Géométrique X représente par exemple le nombre de tirage nécessaire pour obtenir l’évènement. Avec k > 0 : P(X = k) = (1 − p)k−1 p P Lemme On a E(X) = P(X ≥ i). En effet : X XX P(X ≥ i) = P(X = k) i i = k≥i X X P(X = k) k≥0 0≤i<k = X kP(X = k) k≥0 = E(X) Or, P(X ≥ i) = (1 − p)i−1 p P k≥0 (1 E(X) = − p)k = (1 − p)i−1 et donc : X 1 (1 − p)i = p i Memoryless Une loi est dite « memoryless »lorsque P(X = n + k|X > k) = P(X = n). La loi géométrique est memoryless. En effet : P(X = n + k ∧ X > k) P(X > k) P(X = n + k) = (1 − p)k (1 − p)n+k−1 p = (1 − p)k P(X = n + k|X > k) = = (1 − p)n−1 p = P(x = n) 3.5 Exemple : Coupon collector problem On considère des balles de n couleurs différentes équitablement distribuées. On s’intéresse au nombre de tirages X pour en avoir une de chaque. On pose Xi le nombre de tirage entre la présence de i − 1 couleurs et celle de i. n − (i − 1) Xi = Géom n 12 Alors, par linéarité de l’espérance : X E(X) = E(Xi ) X n = n−i+1 1≤i≤n =n X 1 j 1≤j≤n = nHn = n(log n + γ + o(1)) 13 Chapitre 4 Loi de poisson 4.1 Le paradoxe des aniversaires On considère les anniversaires de m personnes équitablement répartis sur n (= 365) jours. Soit p la probabilité qu’au moins deux personnes aient leur anniversaire en commun. On choisit m dates différentes sans se soucier de leur affectation : n m! 1 − p = mm n Ou bien, en considérant les anniversaires successifs : 1−p= Y 1− 0≤i<m ' Y i n i e− n 0≤i<m ' e− P ' e− m(m−1) 2n i n m2 ' e− 2n Si on veut p = 12 , on obtient : m' 4.2 p 2n log 2 ' 22, 49 pour n=365 Encore des anniversaires On considère des balles de n couleurs différentes équitablement distribuées (la terminologie « bins »vient de ce que les couleurs peuvent être vues comme des urnes choisies aléatoirement). On s’intéresse au nombre de tirages nécessaires X 14 pour obtenir deux couleurs : 1 0 P(X ≥ i) = Y si i ≤ 2 si i > n + 1 1≤j≤i−2 n−j n sinon On peut alors montrer que : X E(X) = P(X ≥ i) 1≤j +∞ x n−1 dx =1+ e−x 1 + n r 0 1 Π 1 ∼ − +O √ 2 3 n Z Car : Z 1+ 0 +∞ X n 1 Z +∞ x n−1 e−x xk dx e−x 1 + dx = n k nk 0 0≤k≤n | {z } Ik =k! 4.3 Boules colorées On lance des boules rouges et bleues dans n urnes. On note F l’espérence du nombre de lancer pile-ou-face pour obtenir pile. On pose X le nombre de boules jetées dans n urnes afin d’obtenir une urne contenant deux boules de couleurs différentes. Pour n = 1 : E(X) = E(tirer une boule) + E(tirer une boule de l’autre couleur) = 1 + F = 3 Pour n = 2, E(X) = 3. On pose Fk l’évènement : « deux des k premières personnes ont un anniversaire en commun ». P Fd2√me < P Fd2√me |Fb√mc √ b√nc n − b nc ≤ n 1 ≤ e 4.4 Répartition des boules Théorème On note Bi le nombre de boules dans l’urne i. Alors, si m = n : 3 log n 1 P max Bi ≥ ≤ log log n n 15 Démonstration En effet : M 1 n M M 1 n ≤ M! n 1 ≤ M! e M ≤ M P(Bi ≥ M ) ≤ Car : n M X Mk MM ≤ = eM M! k! 0≤k Et, pour M = 3 log n log log n : M n 1 P(max Bi ≥ M ) ≤ n n M e M ≤n M 3 log n log log n log log n ≤n log n 3 log n ≤ ne log log n ×(log log log n−log log n) 1 ,m Bi = Binom n 4.5 Loi de Poisson Définition On définit la loi de Poisson de paramètre µ par P(X = j) = µj −µ . j! e Lemme La somme de deux variables aléatoires indépendantes suivant des lois de Poisson de paramètres µ1 et µ2 suit une loi de Poisson de paramètre µ1 + µ2 : X P(X + Y = j) = P(X = k ∧ Y = j − k) 0≤k≤j = X P(X = k)P(X = j − k) 0≤k≤j = X e−µ1 e−µ2 0≤k≤j = µk1 µj−k 1 k! (j − k)! e−µ1 −µ2 X j! µk µj−k j! k!(j − k)! 1 2 0≤k≤j = Poisson(µ1 + µ2) 16 Théorème La loi binomiale tend vers la loi de Poisson. Démonstration Soient (pn ) de limite µ et Xn = Binom(n, pn ). Alors : →e−µ z }| { Q n k (n − i) n k 1 0≤i<k k (n − pn ) −µ µ P(Xn = k) = pn (1−pn )n−k = (np ) → e n k k k! | n k! − pn )k {z } | {zk } (1 | {z } →µ →1 4.6 →1 Approximation de Poisson (m) Définitions On pose cette fois Xi le nombre de boules dans l’urne i et (m) m Yi = Poisson n . P (m) P (m) On a Xi = m et Yi = Poisson(m). P (m) Théorème La distribution des Yi conditionnée à Yi = m est identique à celle des Xi : X AY = P (Yi = ki )i | Yi = m = P ((Xi = ki )i ) = AX Démonstration On pose k = P ki . k! AX = Q i ki ! k 1 n Cela vient de la distribution des ki dans les urnes. I-n-d-i-s-t-i-n-g-a-b-l-e. AY Théorème Si f est une fonction croissante, alors : √ (m) (m) E f (Xi ) ≤ e mE f (Yi Démonstration E (m) f (Yi ) ! = X E (m) f (Yi )| X (m) Yi ! ·P =k i 0≤0 X (m) Yi i ! ≥k=m E (m) f (Yi )| X (m) Yi i mn (m) ≥ E f (Xi ) · e−m m! 17 =m ! ·P X i (m) Yi =m Chapitre 5 Fonctions génératrices 5.1 Définition Définition 5. Soit X au plus dénombrable. On définit gX (t) = E(etX ) et µk = E(X k ). 5.2 Exemples Propriété 2. Pour X binômiale, gX (t) = (1 − p + pet )n . Démonstration. X etk P(X = k) X n k p (1 − p)n−k = etk k 0≤k≤n X n = (pet )k (1 − p)n−k k gX (t) = 0≤k≤n = (1 − p + pet )n Propriété 3. Pour X géométrique, gX (t) = Démonstration. pet 1−et (1−p) . X etk P(X = k) X =p etk (1 − p)k−1 gX (t) = 1≤k = pet X (et (1 − p))k 0≤k = pet 1 − et (1 − p) 18 Propriété 4. Pour X poissonique, gX (t) = eµ(e Démonstration. −1) gX (t) = X etk P(X = k) = X etk 0≤k = e−µ X (µet )k = e−µ eµe = eµ(e . µk −µ e k! 0≤k 5.3 t t k! t −1) Propriétés (k) Propriété 5. µk = gX (0) Démonstration. gX (t) = X etj P(X = j) j = X X (tj)k j = X tk k = k! X tk 0≤k k! k k! ! P(X = j) X j k P(X = j) j E(X k ) Remarque 1. Var(X) = µ2 − µ21 Théorème 2. Pour X et Y indépendantes, gX+Y = gX gY . Théorème 3. Si X est une variable aléatoire dans un ensemble fini, alors X est caractérisée par une fonction génératrice. Démonstration. Si on connait g : g(tj ) = X etk xj P(Xj ) 1≤j≤n Ce qui correspond à une équation de la forme G = M P d’inconnue P avec detM 6= 0. 19 Chapitre 6 Bornes classiques 6.1 Markov Propriété 6. P(X ≥ a) ≤ ( Démonstration. Soit I = 1 0 E(X) a si X ≥ a . Alors I ≤ sinon P(x ≥ a) = P(I = 1) = E(I) ≤ E( 6.2 X a et : X E(X) )= a a Chebyshev Propriété 7. P(|X − E(X)| ≥ a) ≤ Var(X) a2 2 Démonstration. On pose Y = (X − E(X)) . Comme E(Y ) = Var(X), on utilise la borne de Markov avec Y : √ E(Y ) Var(X) P( Y ≥ a) = P(Y ≥ a2 ) ≤ = a2 a2 Exemple 1. Soit X = Binom(n, 12 ). Alors, avec la borne de Markov : P(X ≥ 3n )≤ 4 n 2 3n 4 = 2 3 Et, avec Chebyshev : P(X ≥ 3n n n ) = P(X − E(X) ≥ ) ≤ P(|X − E(X)| ≥ ) ≤ 4 4 4 20 n 4 n2 16 = 4 n Exemple 2. On considère n types de coupons et X le nombre de coupons achetés pour en obtenir un de chaque catégorie. Avec la borne de Markov : nH(n) 1 E(X) ≤ ≤ 2nH(n) 2nH(n) 2 P Pour Chebyshev, on pose Xi = Geom n−i+1 . Ainsi, X = Xi et donc : n X X 1 − n−i+1 X 1 π2 n V ar(X) = V ar(Xi ) = ≤ n2 ≤ n2 2 2 n−i+1 k 6 P(X ≥ 2nH(n)) ≤ 1≤k≤n n Alors : 2 P(X ≥ 2nHn ) = P(X − nHn ≥ nHn ) ≤ P(|X − E(X)| ≥ nHn ) ≤ 6.3 n2 π6 π2 ≤ 2 2 n Hn 6Hn2 Chernov Lemme Avec X = Geom(p) : g(t) = E(etx ) = X etk (1 − p)k−1 p = p X pet ((1 − p)et )k = p−1 1 − (1 − p)et 1≤1 1≤k En dérivant, on obtient : g 0 (t) = pet (1 − (1 − p)et ) + pet (1 − p)et (1 − (1 − p)et )2 Et, en évaluant en zéro : g 0 (0) = p + 2p(1 − p) 3p + 2p2 1 = = 2 2 (1 − (1 − p)) p p De la même manière, on montre que g 00 (0) = 2−p p2 . Var(X) = g 00 (0) − (g 0 (0))2 = Ainsi : 1−p p2 Lemme 3. E(etX ) eta P Propriété 8. Soient Xi = Bernouilli(pi ) indépendantes, X = Xi et µ = E(X). Alors, pour δ ≥ 0 : µ eδ P(X ≥ (1 + δ)µ ≤ (1 + δ)1+δ P(X ≥ a) = P(etX ≥ eta ) ≤ Et pour δ ≥ 1 : P(X ≥ (1 + δ)µ) ≤ e− 21 µδ 2 3 Démonstration. Puisque µ = P pi , on a : Y gX (t) = gXi (t) 1≤i≤n = Y (1 + pi (et − 1)) 1≤i≤n ≤ Y epi (e t −1) 1≤i≤n = eµ(e Et donc : t −1) P(X ≥ (1 + δ)µ) = P(etX ≥ e(1+δ)µ ) E(etx e(1+δ)µ gX (t) ≤ (1+δ)µ e t eµ(e −1) ≤ (1+δ)µ e ≤ ≤t:=log(1+δ) eδ (1 + δ)1+δ µ Enfin, pour δ ≥ 1, on passologue, on dérive et tadaaaa ! µ µδ 2 eδ ≤ e− 3 1+δ (1 + δ) µδ 2 ⇔µ(δ − (1 + δ) log(1 + δ)) ≤ − 3 2µδ ⇔µ(1 − 1 − δ log(1 + δ)) ≤ − 3 2 ⇔ log(1 + δ) ≥ 3 6.4 Exemple : pièces de monnaies Propriété 9. On prend X le nombre de résultats « face »sur n lancers. Alors 2 n 1 p P X − ≥ 6n log n ≤ 2 2 n q n Avec la borne de Chernov pour δ = 6 log et µ = n2 , on obtient : n p 1 1 P X ≥ (n + 6n log n) ≤ e− log n ≤ 2 n 22 Donc P 1 1p −X ≥ 6n log n 2 2 1 1p =P X− ≥ 6n log n 2 2 ≤ 1 n D’où le résultat. 6.5 Exemple : balls and bins On considère n boules dans n urnes et on note Bi le nombre de boules dans l’urne i. On pose M = logloglogn n . Lemme 4. M ! ≤ Démonstration. Donc n 2e log n √ M! ≤ e M M e M ≤M M e e log(M !) ≤ M log M − M + log M ≤ log n − log log n − log(2e) Propriété 10. P(max Bi ≤ M ) ≤ 1 n2 Démonstration. P(max Bi ≤ M ) = Y P(Bi ≤ M ) = Y (1 − P(Bi ≥ M )) ≤ Y ≤ (1 − P(Bi = M )) n 1 1− eM ! n ≤ e− eM ! ≤ e−2 log n 1 ≤ 2 n 6.6 Exemple : Coupon Collector Problem On jette des boules aléatoirement dans n urnes. Pour m tirages, on note E l’évènement « aucune urne n’est vide ». 23 Propriété 11. P(E) → e−e −c Démonstration. On note Bi le nombre de boules dans l’urne i. Avec l’approximation de poisson, Bi = Poisson m n . Il vient : P(E) = Y = 1 − P(Bi = 0) n e−c 1− n −c → e−e (E) = P(E|[Y − m| ≤ p 2m log m) + P(E||Y − m| > p P(|X − m| > 2m log m) → 0 Y = P p 2m log m) Yi Poisson m P(Y ≥ x) ≤ ex−m−x log( m ) x Lemme X = Poisson(µ) P(X ≥ x) ≤ ex−µ−log( µ ) x Avec Chernov : µ P(X ≥ x) = P(etx ≥ etx ) ≤ eµ(e −1) etx x µ p p p P(E||Y −x| ≤ 2m log m) ≤ P(E|Y = m+ 2m log m)−P(E|Y = m− 2m log m) √ √ Si une urne est vide après m = 2m log m boules, je relance 2 2m log m boules. √ 2 2m log m P(remplissage) ≤ n p p P(E) = P(|Y − m) ≤ 2m log m) + P(|Y − m| > 2m log m | {z } | {z } t = log →0 →1 24 Chapitre 7 Des algorithmes probabilistes 7.1 Chemin hamiltonien Graphe aléatoire On note Gn,p un graphe sans boucle à n sommets et p arrêtes tiré aléatoirement. Pour cela, on tire successivement les p arrêtes dans J1, nK\{(i, i)}. Algorithme Si v1 . . . vk est un chemin, on définit l’opération Rotation(vi , vk ) comme le remplacement de V par V \{(vi , vi+1 )} ∪ {(vi , vk )} (on inverse le parcours de i + 1 à k). Input: graphe G = (V, E) à N sommets Output: cycle hamiltonien en sortie ou échec for all v ∈ V do used(v) ← ∅ unused(v) ← {(v, u) : (v, u) ∈ E} end for Prendre un sommet au hasard, en faire la tête du chemin repeat (vi )1≤i≤k est le chemin courant (u, v) ← head(unused(vk )) unused(vk ) ← unused(vk )\{(vk , u)} used(vk ) ← used(vk ) ∪ {(vk , u)} Idem avec u if u ∈ / {vi }i<k then k ←k+1 vk ← u else i ← indice(u) Rotation(vk , vi ) 25 La tête est maintenant vi+1 end if until k = n ∧ vi = v1 ou plus d’arrêtes (échec) Validité n , P(algorithme trouve) = 1 − O Théorème Pour p ≥ 40 log n tration se fait en utilisant l’algorithme suivant : Input: graphe G = (V, E) à N sommets Output: cycle hamiltonien en sortie ou échec for all v ∈ V do used(v) ← ∅ unused(v) ← {(v, u) : (v, u) ∈ E} end for Prendre un sommet au hasard, en faire la tête du chemin repeat (vi )1≤i≤k est le chemin courant Tirer x dans [0, 1[. if x < n1 then renverser le chemin k )| else if x < |unused(v then n Choisir (vk , vi ) dans used(vk ) Rotation(vk , vi ) end if until k = n ∧ vi = v1 ou plus d’arrêtes (échec) 1 n . La démons- Proposition Supposons que les listes used et unused sont construites en insérant les sommets de manière équiprobable. Tant que l’algorithme peut progresser (c’est-à-dire qu’à la ligne 2 on trouve vk tel que unused(vk ) 6= ∅) alors tous les sommets ont la même probabilité de devenir la prochaine tête. Démonstration Notons (vi )1≤i≤k le chemin en cours de calcul par l’algorithme. Quelle peut-être la prochaine tête : – le sommet v1 ? (auquel cas, il faut que la liste soit renversée, probabilité de n1 ) – un sommet u du chemin, deux cas : – (vk , u) ∈ used(vk ) et dans ce cas on est forcément passé par la ligne 1 de l’algorithme, avec probabilité : |used(vk )| 1 1 times = n |used(vk )| n – (vk , u) ∈ unused(vk ) avec probabilité 26 7.2 Médiane en temps linéaire On considère un ensemble S à n élements et de médiane m. On cherche un algorithme pour déterminer m. L’idée consiste à trouver d et u tels que d ≤ m ≤ u et que {s : d ≤ s ≤ u} soit petit. L’algorithme consiste en : 3 1. on choisit n 4 éléments de S aléatoirement et on note R leur ensemble ; 2. on trie R ; 3 √ n4 3. on détermine d et u respectivement les n -ième plus petit et 2 − 3 √ n4 n -ième plus grand éléments de R ; 2 + 4. on détermine C = {s : d ≤ s ≤ u}, ld = |{s : s < d}| et lu = |{s : s > u}| ; 3 5. si ld > n2 , lu > n2 ou |C| ≥ 4n 4 , alors échouer ; 6. trier C ; 7. renvoyer le n2 − ld + 1 -ième élément de C. Proposition La probabilité d’échec est inférieure à 1 1 n4 . Démonstration Soient les évènements : 3 √ – E1 : Y1 = |{r ∈ R : r ≤ m}| ≤ n24 − n ; 3 √ – E2 : Y2 = |{r ∈ R : r ≥ m}| ≤ n24 − n ; 3 – E3 : |C| ≥ 4n 4 . n E1 ⇔ ld > 2 et E2 ⇔ lu n2 et donc la probabilité d’échec est P(E1 ∪ E2 ∪ E3 ). On définit : ( 1 si R[i] ≤ m Xi = 0 sinon P 1 et X = Xi . Xi suit une loi de Bernouilli de paramètre r = 21 + 2n . 3 n4 1 E(X) = + 3 2 2n 4 3 3 n4 1 n4 − 3 < 4 4 4n 4 3 √ n4 P(E1 ) = P(X < − n) 2 3 √ n4 1 ≤ P(X < + n) 3 − 2 2n 4 Var(X) ≤ n 1 ≤ 3 4n 4 Var(X) = 27 De même : 1 P(E2 ) ≤ 3 4n 4 Pour le calcul de P(E3 ), définssons les évènements : 3 – E3a : 2n 4 éléments de C sont strictement inférieurs à m ; 3 – E3b : 2n 4 éléments de C sont strictement supérieurs à m. On a ansi : E3 ⇒ E3a ∧ E3b . On redéfinit : ( 3 1 si R[i] est dans les n2 − 2n 4 premiers éléments de S Xi = 0 sinon Et on pose pi = 1 2 − 2 3 n4 . Alors : 3 P(E3a ) = P(X ≥ n 4 − √ n) √ 3 3 = P(X − E(X) ≥ n + n 4 ) 2 √ 3 3 = P(E(X) − X ≤ n − n 4 ) √ 2 ≤ E(|E(X) − X| ≤ n) ! 3 3 n4 1 ≤ − 4n 4 4 n 3 n4 √ 2 n − 3 3 3 2 2 1 1 n4 4 − 3 + 3 = − 4n 4 Var(X) = n 2 n4 2 n4 4 E(X) = Propriété Soient S un espace de probabilités, X une variable aléatoire. On pose µ = E(X). Alors P(X ≥ µ) > 0 et P(X ≤ µ) > 0. Démonstration Pour le premier, par l’absurde : X X E(X) = iP(X = i) = iP (X = i) < E(X) i<µ Application : Large cut Soit un graphe G = (V, E). On pose n = |V | et m = |E|. Il existe un cut d’au moins m 2 arrêtes. L’algorithme consiste à placer chaque sommet aléatoirement dans des ensembles. 28 Chapitre 8 Chaînes de Markov 8.1 Définition Définition 6. Une chaîne de Markov est un espace d’états fini muni d’une matrice de transition P . On pose Xt l’état courant à l’étape t. Pi,j = P(Xn+1 = sj |Xn 0 21 0 1 0 1 2 2 Exemple 3. Avec P = 0 1 0 2 1 0 12 2 = si ) = P(X1 = sj |X0 = si ) 1 2 0 1 : 2 0 1 2 4 3 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 Propriété 12. On note µn = P(Xk = si ) 1≤i≤k la distribution à l’étape n. Alors µn = µ0 P n . Démonstration. En effet : P(X1 = s1 ) = X P(X1 = s1 |X0 = sk )P(X0 = sk ) k 29 8.2 Chaîne de Markov régulière Définition 7. si communique avec sj ≡ ∃n, P(Xn = sj |X0 = si ) > 0 Définition 8. Une chaîne de Markov est dite irréductible lorsque tous les états communiquent deux à deux. Définition 9 (Période). d(si ) ≡ pgcd{n > 0 : (P n )i,i 6= 0} Définition 10. Une chaîne de Markov est dite apériodique lorsque toutes les périodes sont égales à un. Définition 11. Une chaîne de Markov est régulière lorsque elle est irréductible et apériodique. Théorème 4. Une chaîne de Markov apériodique vérifie : ∃N, (n ≥ N ⇒ ∀i, (P n )i,i > 0) Démonstration. Pour i donné, on pose A = {aj } = {n > 0 : (P n )i,i > 0}. A est stable par addition : X ∀a, b ∈ A, (P a+b )i,i = (P a )i,i + (P b )i,i + ··· > 0 Or, pgcd(A) = 1 car la chaîne est apériodique. Donc existent dj ∈ Z tels que P dj aj = 1. On pose alors : X X S+ = dj aj ∧ S− = − dj a j j/dj ≤0 j/dj <0 On pose alors Ni = S− (S− − 1). Et, pour n ≥ N , on écrit sa division euclidienne par S− : n = S− q + r ∧ 0 ≤ r < S− en particulier, q ≥ P − 1 donc : r n = S− q + r(S+ − S− ) = S− (q − r) + S+ |{z} |{z} | {z } |{z} ∈A ≥0 ∈A ≥0 Donc n ∈ A. Il reste donc à prendre N = max Ni . Théorème 5. Soit une chaîne de Markov régulière. Alors : ∃N, ∀n ≥ N, ∀i, j, (P n )i,j > 0 Démonstration. La chaîne est apériodique donc soit N tel qu’au théorème précédent. Comme elle est irréductible, pour i 6= j, il existe Mi,j tel que (P Mi,j )i,j > 0. N + max Mi,j convient. 30 8.3 Distribution limite Théorème 6. Pour une chaîne de Markov régulière, P n → W avec : w1 . . . wn .. .. W = ... . . w1 . . . wn Démonstration. On suppose k ≥ 2 et Pi,j > 0 et soit d = min P . Alors 9 < d ≤ 1 2 . Pour Y vecteur positif normé, on pose : ( mn = min(P n y)i Mn = max(P n y)i Alors : M1 ≤ dm1 + (1 − d)M0 ∧ m1 ≥ dM0 + (1 − d)m0 Et donc : M1 − m1 ≤ (1 − 2d)(M0 − n0 ) Et, par récurrence : Mn − mn ≤ (1 − 2d)n (M0 − m0 ) Il vient que les suites (Mn ) et (mn ) sont adjacentes et tendent vers un réel u. Ainsi : u P n y → . . . u Corollaire 1. ∃!w, w = wP ∧ P wi = 1 Démonstration. P n → W ⇒ P n P → W P ⇒ W = W P ⇒ w = wP Corollaire 2. Avec c le vecteur unité, P c = c ∧ P y = y ⇒ y = λc. Corollaire 3. Avec une chaîne de Markov régulière, ∀i, j, (P n )i,j → wi Remarque 2. Soit Ti,j la variable aléatoire correspondant au nombre d’étapes pour aller de si à sj . Alors w1i = τi,j = E(Ti,j ). Cette valeur correspond au mean hitting time (i 6= j) ou au mean returning time (i = j). Lemme 5. P(Ti,j < ∞) = 1 31 Démonstration. Soit d = min{(P )i,j > 0}. X0 = si P(Ti,j > N ) ≤ P(XN 6= sj ) ≥ 1 − d P(τi,j > 2N ) = P(Ti,j > N )P(Ti,j > 2N |Ti,j > N ) ≤ P(Ti,j > N )P(X2n 6= sj |Ti,j > N ) P(Ti,j > lN ) < (1 − d)l Lemme 6. τi,j < ∞ τi,j = X P(Ti,j ≥ n) 1≤n =n=N q+r X X P(Ti,j ≥ N q + r) 0≤q 1≤n≤N ≤ X X P(Ti,j ≥ N q) 0≤q 1≤r≤N ≤N X (1 − d)q 0≤q Théorème 7. Pour une chaîne de Markov régulière : ∀i, j, (P n )j,i → τi,i est le Excepted Return Time et Ti,j le temps pour aller de i à j. 8.4 1 τi,i = vi . Hagstrom (Finite Markov Chain) Rappel Ti,j = min{n ≥ 1 : Xn = sj ∧ X0 = si } τi,j = E(Ti,j ) (mean hitting/return time) Lemme P(Ti,j < +∞) = 1, E(Ti,j ) < +∞ P Démonstration On suppose X0 = s1 . On pose pi = 0≤n P(Xn = si ∧ n < T1,1 ) le nombre moyen de visite à l’état i avant de revenir en s1 . pi < T1,1 est donc fini et : p1 = 1 pi ) Π = (Πi ) = ( τi,i Propriété ΠP = Π 32 Démonstration Pour j 6= 1 : pj τi,i 1 X = P(Xn = sj ∧ n < T1,1 ) τ1,1 Πj = 0≤n = = = = = = 1 X τ1,1 1 X τ1,1 P(Xn = sj ∧ n < T1,1 ) 1≤n P(Xn = sj ∧ n − 1 < T1,1 ) 1≤n 1 X X τ1,1 1 X X τ1,1 Pi,j P(Xn−1 = si ∧ n − 1 < Tn ) 1≤n 1≤i≤k 1 τ1,1 P(Xn−1 ∧ n − 1 < T1,1 )P(Xn = sj |Xn−1 = si ) 1≤n 1≤i≤k 1 X X τ1,1 P(Xn−1 = si ∧ Xn = sj ∧ n − 1 < Tn ) 1≤n 1≤i≤k X Pi,j 1≤i≤k X P(Xn−1 = si ∧ n − 1 < Tn ) 1≤n | = X {z } =pi Πi Pi,j 1≤i≤k Pour j = 1 : p1 = 1 = P(T1,1 < ∞) X = P(Tj,1 = n) 1≤n = X X P(Xn−1 = si ∧ Ti,j = n) 1≤n 1≤i≤k = X X P(Xn−1 = si ∧ Tn > n − 1)P(Xn = s1 |Xn−1 = si ) 1≤n 1≤i≤k = X X P(Xn−1 = si ∧ Tn > n − 1) 1≤i≤k 1≤n Théorème Pour une chaîne de Markov, pour une distribution initiale µ0 : µn P n → Π = ( 33 1 ) τi,i Démonstration µn = µ0 P n CM X Π = ΠP n CM X 0 Soit T = max{n : Xn = Xn0 } et : ( Xm 00 Xm = 0 Xm si m < T sinon X 00 est une chaîne de Markov. Avec la régularité de X : ∃M : (P m )i,j > 0 On pose alors : α = min(P M )i,j i,j Et il vient : 0 P(T ≤ M ) ≥ P(XM = XM ) 0 ≥ P(XM = s1 ∧ XM = s1 ) X 0 = P(X0 = si ∧ XM = s1 )P(Xn0 = s1 ∧ XM = s1 ) 1≤i≤k = X P(X0 = si )P(Xn = s1 |x0 = si ) × 1≤i≤k X 1≤i≤k P(T ≤ M ) ≥ α2 P(T > M ) ≤ 1 − α2 0 P(X2n 6= X2n |T > M ) ≤ 1 − α2 P(T > 2M ) = P(T > M )P(T > 2M |T > M ) 0 ≤ (1 − α2 )P(X2n 6= X2n |T < M ) ≤ (1 − α2 ) P(T > lM ) ≤ (1 − α2 )l lim P(T > n) = 0 n→∞ µ0 = X Π = X0 µ(n) = µ0 P n (n) µi = Πi = P(Xn00 = si ) − P(Xn0 = si ) ≤ P(Xn00 = si ∧ Xn0 6= si ) ≤ P(Xn00 6= Xn0 ) = P(T > n) →0 34 0 0 P(X00 = si )P(XM = s1 |XM = si ) 8.5 Chaîne réversible Définition Une chaîne de Markov est dite réversible lorsque : X ∃Π : Πi ≥ 0 ∧ Πi = 1 ∧ ∀i, j, Πi Pi,j = Πj Pj,i 1≤i≤k Théorème Une chaîne réversible vérifie : ΠP = Π. Démonstration Soit un graphe G = (V, E). ( 1 si voisins Pi,j = deg(i) 0 sinon X d(i) = 2m d∈I Π(i) = d(i) 2m ... Exemple La chaîne de Markov du premier exemple est réversible, avec : 1 1 1 1 , , , Π= 4 4 4 4 Birth and death Toute chaîne vérifiant Pi,j 6= 0 ⇔ |j − i| = 1 (seuls les voisins communiquent) et réversible. En effet, soit Π définit par : Π1 = 1 ∧ Πi+1 = Pi,i+1 Πi Pi+1,1 Alors le vecteur Π normalisé convient. Exemple : zéros et uns Soit une grille p × p de zéros et de uns. Une configuration admissible vérifie la propriété : les uns sont entourés des zéros : 0 0 1 0 0 Construisons une chaîne de Markov de la manière suivante : les états sont les configurations admissibles et, pour passer de Xn à Xn+1 , on tire un sommet v aléatoirement et de manière équiprobable : 1. si le sommet est entouré de zéros, on le passe à un ; 2. on passe le sommet à zéro. 1 Pi,j = 2 2p 35 Exemple On veut simuler une distribution Π sur {si }1≤i≤k . Pour cela, on tire un graphe connexe à k sommets (voisins N et degrés d) et on définit : 1 Πj di } si j ∈ Ni di max{1, P 1 Πi dj Pi,j = 1 − si i = j di min{. . .} 0 sinon Πi Pi,j = Πj Pj,i = Πj × dj Πj dj 1 |{z} Π d max{1, Πi dj } j i 8.6 Exemple : jeux et paradoxes de Parrondo Lorsqu’on tire une pièce X, on gagne un avec probabilité pX , et perd un sinon. Jeu A On tire A. Avec pA = 0.49, le jeu est perdant. Jeu B Si le gain courant est multiple de trois, on tire B, sinon C. On suppose pB = 0.09 et pC = 0.74. Le jeu est-il gagnant ? En supposant le modulo 3 du gain équitablement réparti, on aurait E(B) = 1 p + 23 pC > 12 mais ce n’est pas le cas. B 3 2 1 − pB pC 0 pC 1 − pC pB 1 − pC 1 Jeu C On joue aléatoirement au jeu A ou au jeu B. Cela revient à jouer au jeu B avec les probabilités : ( p0B = 21 (pA + pB ) p0C = 12 (pA + pC ) 36 8.7 Random walk on G Soit G un graphe connexe non orienté non bi-parti. On pose Pi,j = deg1 (i) . Alors la chaîne de Markov associée est régulière. deg(i) Πi P i∈I i ijqpjdqldksdfj τi,i = Démonstration 1 Πi 2|E| . = deg (i) 2|E| 1 deg(i) = τi,i = deg(i) P j voisin i (1 + τj,i ) skjgslfjsdlfjs τi,j = 2|E| Algo randomisé ? i, j ∈ G = (V, E) ∃? chemin de i à j O(|V|) – commencer marche à i ; – retourner l’évaluation de « j trouvé en moins de 4n3 étapes » ; Propriété P(retourne vrai ≥ 21 ) Lemme Soit : ? ? ? ?(G) = max{temps moyen pour visiter tous les sommets depuis i} v∈V Alors ? ? ? ?(G) ≤ α|V ||E|. Démonstration On construit un arbre couvrant dont effectue un parcours préfixe des sommets. Le temps est au plus de 2|V | × 2|E|. 37 Chapitre 9 Probabilités continues Nous allons étendre notre modèle afin de pouvoir travailler sur des réels et les suites infinies. 9.1 σ-algèbre Définition 12. Une famille F de parties de Ω est une σ-algèbrei, ou tribu, lorsque : – Ω∈F; – A ∈ F ⇒ Ω\A S∈F; – ∀(Ai ) ∈ F N , Ai ∈ F (additivité dénombrable). Remarque 3. S– ∅ ∈ F ; – ∀(Ai ) ∈ F n , Ai ∈ F (additivité finie) ; – F close par intersections finies et dénombrables. Exemple 4. – P(Ω) est une σ-algèbre ; – avec Ω = [0, 1], F l’ensemble des unions finies d’intervales ]a, b] n’est pas σ-algèbre cat ne vérifie pas l’additivité dénombrable (mais c’est une algèbre) ; Définition 13. Si A ⊆ P(Ω), alors min⊆ {F ⊇ A : Fσ-algèbre} existe (c’est l’intersection de cet ensemble) et est appelée σ-algèbre engendrée par A (notée σ(A). Définition 14. Soient Ω =]0, 1] et A = {]a, b] ⊆ Ω}. σ(A) est la σ-algèbre des boréliens. T Propriété 13. [a, b] ⊆]0, 1] est un borélien de Ω car [a, b] = ]a − n1 , b]. S Propriété 14. Les ouverts de Ω sont des boréliens : O = {]a, b] ⊆ O}. Propriété 15. Par complémentation, les fermés aussi. 38 9.2 Mesure de probabilité Définition 15. Soit F une algèbre. Une mesure de probabilité P est une application de F dans [0, 1] vérifiant : – P (∅) = 0 et P (Ω) = 1 ; S – pour toute P suite (Ai ) d’éléments disjoints de F telle que A = Ai ∈ F, P (A) = P (Ai ) (additivité dénombrable). Remarque 4. – additivité finie ; – ∀A ⊆ B, P (A) ≤ P (B) ; – P (A S ∪ B) =PP (A) + P (B) − P (A ∩ B) ; – P ( Ai ) ≤ P (Ai ) (sous-additivité finie). Théorème 8. Soit (Ai ) ∈ F N monotone avec A = lim P (Ai ). S Ai ∈ F. Alors P (A) = S Démonstration. On pose A0 = ∅ et Bi = Ai \Ai+1 . Ainsi, A = Bi avec les Bi disjoints et donc : X [ P (A) = P (Bi ) = lim P (Bi ) = lim P ( Bi ) = lim P (Ai ) i≤n Corollaire 4. Sous-additivité dénombrable. S Démonstration. Pour Ai une suite d’éléments de F et A = Ai , on pose Cn = S k≤n Ak afin que (Cn ) soit croissante. Il vient : [ X X P (A) = P ( Cn ) = lim P (Cn ) ≤ lim P (Ak ) ≤ lim P (Ak ) k≤n 9.3 Mesure de Lebesgue Théorème 9. Une mesure de probabilité sur une algèbre F a une unique extension à la σ-algèbre engendrée σ(F). On travaille sur F les boréliens (unions finies de F ]a, b]) de Ω =]0, P 1]. On construit une mesure de probabilité avec P ( ]ai , bi ]) = bi − ai puis on applique le théorème d’expansion suivant. Démonstration Montrons que P est une mesure de probabilité sur les boréliens : G X ∀]a, b] = ]ak , bk ], b − a = bk − ak Définition 16. Les boréliens de ]0,Q 1]n sont les éléments de la σ-algèbre engendrée par les ensembles de la forme ]ai , bi ]. Démonstration. Q Il existeQune unique mesure de probabilité λ sur cette σ-algèbre vérifiant λ( ]ai , bi ]) = bi − ai . 39 9.4 Variable aléatoire Définition 17. Une variable aléatoire est une fonction de Ω dans R vérifiant : ∀x ∈ R, {w : X(w) ≤ x} ∈ F Corollaire 5. P(X ≤ x) est donc bien définit. Définition 18. La fonction de distribution X est la fonction Fx de R dans [0, 1] qui à x associe P(X ≤ x). Exemple 5. – avec Ω = [0, 1] et F la tribu des boréliens. X de Ω dans R qui à x associe x. ( 0 si x ≤ 0 – distribution exponentielle Fx (x) = −αx 1−e sinon P(X > x + y) = 1 − FX (x + y) = e−αx+y = e−αx e−αy = P(X > x)P(X > y) On se fixe un instant T . Soit X l’instant à l’arrivée du premier appel à un central téléphonique après l’instant T . On modélise X par la loi exponentielle. Soient les évènements A « pas d’appel dans l’intervalle [T, T +x] »et B « pas d’appel dans l’intervalle [T + x, T + x + y] ». Alors A et B sont indépendants. 9.5 Espérance Définition R on définit l’espérance par P 19. Si X(Ω) est au plus dénombrable, E(X) = x∈X(Ω) aP(X = a). Sinon, par E(X) = Ω X(ω)P(dω). Définition 20. On dit que X : Ω → R est continue lorsq’existe f : R → R+ R telle que pour tout borélien B ⊆ R, P(X ∈ B) = B f (x)dx R Remarque 5. R f = 1. R Remarque 6. Lien avec la fonction de distribution : F (x) = P(X ≤ x) = R f donc f = F 0 . Exemple 6. Pour une variable aléatoire exponentielle : ( 0 si x < 0 F (x) = −αx 1−e sinon Pour x < 0, f (x) = 0. Pour x ≥ 0, f (x) = αe−αx . R +inf ty F X = −∞ αxe−αx dx = 1 α. 40 9.6 Espérance fonctionnelle Méthode une On pose Y = g(X). Méthode deux On applique le résultat suivant : Propriété 16. Soit X une variable aléatoire. Si elle est discrète, E(g(X)) = R P g(x)P(X = x). Sinon, E(g(X)) = gf . X∈A Corollaire 6. E(aX + b) = aE(X) + b. 9.7 Couples Définition 21. Soient X et Y deux variables aléatoires. La fonction de distribution jointe est F (x, y) = P(X ≤ x ∧ Y ≤ y). 2 Définition 22. On dit que le couple R (X, Y ) a pour densité f : R → R+ 2 lorsque : ∀A ⊆ R , P((X, Y ) ∈ A) = A f . R Propriété 17. Si f est la densité de (X, Y ), la densité de X est x 7→ f (x, ). P Propriété 18. Pour X et Y discrètes, E(g(X, Y )) = x,y g(x, y)P(X = x ∧ Y = y). RR Propriété 19. Si le couple admet pour densité f , alors E(X, Y ) = gf . Corollaire 7. E(X + Y ) = E(X) + E(Y ) 9.8 Variables aléatoires positives Propriété 20. Pour X : Ω → R+ , E(X) = R +∞ P(X ≥ x)dx. P Remarque 7 (Rappel). Pour X : Ω → N, E(X) = n≥1 P(X ≥ n). 0 Théorème 10 (Loi faible des grands nombres). Soient (Xi )1≤i≤n des variables aléatoires indépendantes deux à deux, d’espérance m et de variance σ 2 . Alors : X 1 σ2 P Xi − m| ≥ α ≤ n nα2 P Démonstration. Cela découle de Tchibichev appliqué à n1 Xi . Définition 23. Pour (Xn ) une suite de variables aléatoires de d’espérance p, on dit que cette suite vérifie la loi faible des grands nombres lorsque : 1X ∀ > 0, lim P(| Xn − µ| ≥ ) = 0 n Elle vérifie la loi forte des grands nombres lorsque : 1X P(lim Xn = µ) = 1 n 41 Propriété 21. La loi forte implique la loi faible. Démonstration. On note A l’évènement « |{n|An }| = ∞ ». La loi forte amène P(A) = 0. Or, A = ∩n≥1 ∪k≥n Ak donc lim P(∪k≥n Ak ) = 0 et lim P (An ) = 0. Remarque 8. lim P(An ) = 0 P P(An ) converge, alors P(A) = 0. P Démonstration. A ⊆ ∪k≥n Ak donc P(A) ≥ P(∪Ak ) ≤ P(Ak ) → 0. Lemme 7 (Borel - Cambelli). Si Théorème 11 (Loi forte des grands nombres). Soit (Xn ) une suite de variables aléatoires indépendantes deux à deux de même moyenne m telle que E(Xn4 ) ≤ A < ∞. Alors : 1X Xn = m) = 1 P(lim n 9.9 Lois normales théorème central limite Définition 24. On dit que X suit une loi normale de praramètres µ et σ 2 lorsque sa densité est : f (x) = 1 (x − p)2 2 √ exp − 2σ ) ( σ 2π On note alors X ∼ N (µ, σ 2 ). R R √ 2 Remarque 9. – f = Z1 cat e−x dx = Zπ ; R – E(X) = xf (x)dx = (x − p)f (x)dx + µf ; | {z } | {z } µ 0 – 2 Var(X) = E((X − p) ) Z 1 (x − µ)2 = √ (x − p)2 exp − dx 2σ 2 σ 2π Z 1 t2 √ = t2 exp − 2 dt 2σ σ 2π Z 1 t t2 = √ exp − (−tσ)dt σ2 2σ 2 σ 2π +∞ Z 1 t2 1 −t2 √ exp − 2 (−tσ) = +√ exp − 2 σdt 2σ 2σ σ 2π 2π −∞ 2 1 t √ = exp − 2 dt 2σ σ 2π =1 – avec µ = 0, σ = 1, alors il s’agit d’une loi normale centrée réduite. 42 Propriété 22. Si X est normale, alors pour α ∈ R∗ et β ∈ R, Y = αX + β est normale. Théorème 12 (Central limite). Soit (Xn ) une suite de variables aléatoires indépendantes deux à deuxPidentiquement distribuées d’espérance µ et de variance 1 ( Xn − nµ). Alors (Yn ) converge vers une loi normale σ 2 . On pose Yn = σ√ n centrée réduite. 43