Université Pierre et Marie Curie Licence de mathématiques L2 Probabilités élémentaires François Bolley Notes de cours de Raphaël Krikorian Année 2016-2017 2M231 2 Table des matières 1 Rappels de théorie des ensembles 1.1 Opérations sur les ensembles . . 1.2 Applications entre ensembles . . 1.3 Dénombrement . . . . . . . . . . 1.4 Dénombrabilité . . . . . . . . . . 2 Espaces probabilisés 2.1 Espaces probabilisés . . . . . . . 2.2 Tribus . . . . . . . . . . . . . . . 2.3 Probabilités . . . . . . . . . . . . 2.4 Probabilités sur un ensemble fini 2.5 Evénements indépendants . . . . 2.6 Probabilités conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 5 6 7 11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 13 13 14 17 22 23 3 Variables aléatoires réelles 3.1 Variables aléatoires réelles . . . . . . . . . . . . . 3.2 Loi d’une variable aléatoire réelle . . . . . . . . . 3.3 Espérance des v.a : cas dénombrable . . . . . . . 3.4 Espérance des v.a : cas général . . . . . . . . . . 3.5 Espérance des v.a admettant une densité . . . . . 3.6 Variance . . . . . . . . . . . . . . . . . . . . . . . 3.7 Inégalité de Markov et de Bienaymé-Tchebychev 3.8 Vecteurs aléatoires . . . . . . . . . . . . . . . . . 3.9 Variables aléatoires indépendantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 25 27 32 34 36 40 44 45 48 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Théorèmes limites 53 4.1 Lois des grands nombres . . . . . . . . . . . . . . . . . . . . . 54 4.2 Théorème de la limite centrale . . . . . . . . . . . . . . . . . 57 4.3 Diverses notions de convergence . . . . . . . . . . . . . . . . . 61 3 4 TABLE DES MATIÈRES Chapitre 1 Rappels de théorie des ensembles Nous rappelons dans ce chapitre quelques notions élémentaires de théorie des ensembles. 1.1 Opérations sur les ensembles Ensemble, ensemble fini/infini, cardinal. Un ensemble est intuitivement une collection d’éléments. Etant donnés un ensemble E et un élément a on écrit a ∈ E si a est un élément de E. Il existe un unique ensemble ne contenant aucun élément ; on le note ∅. On dit qu’un ensemble est fini s’il ne contient qu’un nombre fini d’éléments et infini sinon. Si A est un ensemble fini on appelle cardinal de A le nombre d’éléments de A et on note ce nombre entier #A ou card A. Si A est infini, on pose #A = ∞. Inclusion, complémentaire. Si E et A sont deux ensembles on dit que F est inclus dans E ou que A est un sous-ensemble de E si tout élément de A est un élément de E et on écrit A ⊂ E. On peut alors définir le complémentaire de A dans E qui est l’ensemble des éléments de E qui n’appartiennent pas à A. On le notera dans ce cours E − A, E \ A ou Ac ; cette dernière notation cesse d’être ambigüe si l’on suppose E fixé une fois pour toute. Ensemble des parties d’un ensemble. Si E est un ensemble, l’ensemble constitué des sous-ensembles ou parties de E se note P(E). Union, intersection. Si (Ai )i∈I est S une collection d’ensembles inclus dans E, la réunion des Ai est l’ensemble i∈I Ai des a ∈ E pour lesquels il Texiste i ∈ I tel que a ∈ Ai . De même l’intersection des Ai est l’ensemble i∈I Ai des a ∈ E pour lesquels a ∈ Ai pour tout i ∈ I. On dit que deux ensembles sont disjoints si leur intersection est vide. On dit que les ensembles Ai , i ∈ I 5 6 CHAPITRE 1. RAPPELS DE THÉORIE DES ENSEMBLES constituent une partition de l’ensemble E si i) leur union sur i ∈ I vaut E ii) ils sont disjoints deux à deux (Ai ∩ Aj = ∅ si i 6= j) ; on dit aussi que E est union disjointe des Ai , i ∈ I. On a les formules [ c Ai = \ \ Aci , i∈I i∈I et B∩ [ i∈I c Ai = i∈I Ai = [ [ Aci . i∈I (B ∩ Ai ). i∈I Produits d’ensembles. Si A1 , . . . , An sont des ensembles on peut définir le produit cartésien de ces ensembles comme étant l’ensemble des n-uplets (a1 , . . . , an ) où a1 ∈ A1 , . . . , an ∈ An . On note cet ensemble A1 × · · · × An . Quand les Ai sont finis son cardinal est le produit des cardinaux des Ai . 1.2 Applications entre ensembles Injectivité, surjectivité, bijectivité. Si A et B sont deux ensembles, une application associe à tout élément a de A un unique élément noté f (a) de B. On dit que f (a) est l’image de a par f . Un élément de B peut n’être l’image d’aucun élément de A ou au contraire être l’image de plusieurs éléments de A. On dit qu’une application est injective si tout élément de B est l’image d’au plus un élément de A, surjective si tout élément de B est l’image d’au moins un élément de A et bijective si elle est injective et surjective. S’il existe une injection de A dans B on a #A ≤ #B. S’il existe une surjection de A sur B on a #A ≥ #B. S’il existe une bijection entre A et B on a #A = #B. Ensemble des applications de A dans B. On note B A ou F(A, B) l’ensemble des applications de A dans B. Quand A et B sont finis son cardinal est (#B)#A . Fonctions indicatrices, codages. Si E est un ensemble fixé, l’ensemble des parties de E est en bijection avec l’ensemble des applications de E dans l’ensemble à deux éléments {0, 1}. Cette bijection est la suivante : à tout ensemble A ⊂ E on associe sa fonction caractéristique ou fonction indicatrice 1A : E → {0, 1} définie par 1A (e) = 1 si e ∈ A et 1A (e) = 0 sinon. Réciproquement si f est une application de E dans {0, 1} l’ensemble A des e ∈ E tels que f (e) = 1 est tel que 1A (·) = f (·). En particulier, cela démontre que quand E est fini le cardinal de P(E) est 2#E : #P(E) = 2#E . 1.3. DÉNOMBREMENT 7 Cardinal et fonctions caractéristiques. Si A ⊂ E on a X #A = 1A (x). x∈E Si A1 , . . . , An sont des sous-ensembles de E on a 1A1 ∩···∩An = n Y 1A i . i=1 Pré-image. Si f est une application de E dans F , pour tout B ⊂ F on définit l’ensemble f −1 (B) comme étant l’ensemble des e ∈ E tels que f (e) ∈ B. Cette définition a un sens même si f n’est pas inversible. On dit que f −1 (B) est la pré-image de B par f . On a toujours [ [ −1 f Ai = f −1 (Ai ), i∈I f i∈I −1 \ Ai = i∈I \ f −1 (Ai ), f −1 c −1 (A ) = f (A) . c i∈I Attention le comportement par image directe n’est pas aussi bon. Exercice 1.2.1 i) Montrer que si A, B sont deux sous-ensembles de E on a 1 − 1A∪B = (1 − 1A )(1 − 1B ), et en déduire que #(A ∪ B) = #A + #B − #(A ∩ B). ii) En généralisant la formule précédente montrer que #(A1 ∪ · · · ∪ An ) = n X #(Ai1 ∩ · · · ∩ Aip ). 1≤i1 <...<ip ≤n p=1 1.3 X (−1)p−1 Dénombrement Cardinal d’une union disjointe finie. Si A1 , . . . , An sont des ensembles finis disjoints deux à deux tels que A1 ∪ · · · ∪ An = E alors E et fini et #E = n X #Ai . i=1 Cardinal d’un produit. Si A1 , . . . , An sont des ensembles finis le cardinal du produit A1 × · · · × An est donné par #(A1 × · · · × An ) = (#A1 ) · · · (#An ). 8 CHAPITRE 1. RAPPELS DE THÉORIE DES ENSEMBLES Cardinal de l’ensemble des applications de A dans B. Si A et B sont des ensembles finis, l’ensemble B A des applications de A dans B est fini et a pour cardinal #(B A ) = (#B)#A . Cardinal de P(E). Si E est un ensemble fini de cardinal n, le nombre de sous-ensembles de E est égal au nombre d’applications de E vers {0, 1} et donc à #P(E) = 2n . Nombre d’injections entre deux ensembles finis. Nombre d’arrangements. Si A et B sont deux ensembles finis avec #A = p, #B = n, l’ensemble des applications injectives de A vers B a un cardinal égal à ( 0 si #A > #B n(n − 1) · · · (n − p + 1) si p ≤ n. En effet, supposons A = {a1 , . . . , ap } ; si p > n, il ne peut y avoir d’application injective de A vers B, tandis que si p ≤ n, il y a n choix possibles pour la valeur f (a1 ), n − 1 choix possibles pour la valeur de f (a2 ) (comme f est injective f (a2 ) ne peut pas prendre la même valeur que f (a1 )), etc., n − (p − 1) = n − p + 1 choix possibles pour f (ap ). C’est aussi le nombre de p-uplets (ordonnés), on dit aussi d’arrangements, (e1 , . . . , ep ) où ei ∈ E. Nombre de bijections de A vers A. Nombre de permutations, factorielles. Si A est un ensemble de cardinal n, une application de A vers A est bijective si et seulement si elle est injective et par conséquent le nombre de bijection de A vers A (on dit aussi le nombre de permutations de A) est égal à n! = n(n − 1) · · · 2 · 1. Par convention 0! = 1. Nombre de sous-ensembles de cardinal p d’un ensemble à n éléments. Nombre de combinaisons. Si E est un ensemble fini de cardinal n, le nombre de sous-ensembles de E de cardinal exactement p (on parle aussi de combinaisons) est égal à n n(n − 1) · · · (n − p + 1) n! = Cnp = = . p p! p!(n − p)! n n On pose = 0 quand k > n ou quand n < 0 et = 1. Remarquer 0 k n n que = . k n−k 1.3. DÉNOMBREMENT 9 En effet, un sous-ensemble {a1 , . . . , ap } de E peut être vu comme un puplet d’éléments de E où l’on oublie l’ordre des éléments. Or, étant donnés p éléments de E on peut former p! (nombre de bijections de {a1 , . . . , ap } dans lui même) p-uplets. Ainsi, le nombre de sous-ensembles de cardinal p d’un ensemble à n éléments est égal au nombre d’injections de l’ensemble {1, . . . , p} dans E (i.e. le nombre de p-uplets de E) divisé par p!. n n! Triangle de Pascal. En utilisant la formule = on obtient k k!(n − k)! pour tous entiers 0 ≤ k ≤ n la relation n n n+1 + = . k k+1 k+1 Exercice. Le vérifier. Binôme de Newton. Considérons l’expression (a+b)n = (a+b) · · · (a+b) (où a et b sont des nombres réels ou complexes ou des éléments d’un anneau commutatif). Quand on développe le produit, on obtient une somme de produits de a et de b et on voit que le coefficient de ap bn−p est égal au nombre de façons de choisir p éléments (les a) parmi n. On a donc n X n p n−p (a + b) = a b . p n p=0 Exercice. Le vérifier en utilisant le triangle de Pascal. Obtenir de nouvelles formules sur les coefficients binomiaux. Voici quelques méthodes utiles pour obtenir de nouvelles formules sur les coefficients binomiaux. On considère le polynôme (1 + X)n . D’après la formule du binôme n X n n (1 + X) = Xk. (1.1) k k=0 En faisant X = 1 dans cette expression on voit que n 2 = n X n k=0 k . De même, si on dérive chacun des membres de la formule (1.1) on obtient n(1 + X) n−1 n X n = kX k−1 , k k=0 10 CHAPITRE 1. RAPPELS DE THÉORIE DES ENSEMBLES et en faisant X = 1 n2n−1 = n X n k. k k=0 En dérivant plusieurs fois la formule (1.1) on obtiendrait de la même manière d’autres expressions impliquant les coefficients binomiaux. On peut aussi écrire (1+X)n+m = (1+X)n (1+X)m et utiliser la formule du binôme : n+m n n X n + m X X n m r k X = X X l. (1.2) r k l r=0 k=0 l=0 Chacun des membres de l’équation précédente est un polynôme de degré n+m n + m. Le coefficient du monôme de degré r de ce polynôme est r X nm dans le membre de gauche et dans le membre de droite. On k l k+l=r a donc X r n m n+m . = k r−k r k=0 Exercice 1.3.1 Une urne contient N boules noires et M boules blanches, toutes numérotées. i) On effectue n tirages (ordonnés) sans remise. Quel est le nombre total de tels tirages ? Combien de tirages donnent x (x ≤ n) boules noires ? ii) ) On effectue n tirages (ordonnés) avec remise. Quel est le nombre total de tels tirages ? Combien de tirages donnent x (x ≤ n) boules noires ? Solution. On note {1, . . . , N } l’ensemble des boules noires et {N + 1, . . . , N + M } l’ensemble des boules blanches. i) Un tirage (ordonné) sans remise est équivalent à la donnée d’une injection de {1, . . . , n} dans {1, . . . , N + M } (ou à une suite ordonnée, un n-uplet (x1 , . . . , xn ), xi ∈ {1, . . . , N + M }). Il y a donc (N + M ) · · · (N + M − n + 1) tirages sans remise. Un tirage (ordonné) où x boules noires sont tirées est équivalent à la donnée d’un sous-ensemble A de {1, . . . , n} à x élements (si on pense au tirage comme à une expérience, A est l’ensemble des temps où le résultat de notre expérience est “boule noire”) et de deux injections, une de A dans l’ensemble des boules noires, une seconde du complémentaire de A dans {1, . . . , n} dans l’ensemble des boules blanches : on a donc n · N (N − 1) · · · (N − x + 1) · M (M − 1) · · · (M − (n − x) + 1) x 1.4. DÉNOMBRABILITÉ 11 choix possibles, c’est-à-dire n · N (N − 1) · · · (N − x + 1) · M (M − 1) · · · (M − n + x + 1) x choix possibles. Remarquons que la proportion du nombre de tirages sans remise où x boules noires sortent, dans l’ensemble des tirages sans remise, est n x · N (N − 1) · · · (N − x + 1) · M (M − 1) · · · (M − n + x + 1) (N + M ) · · · (N + M − n + 1) N M n x · x x! · n−x (n − x)! = N +M n! n M N = x n−x N +M n ii) Un tirage avec remise est équivalent à la donnée d’une application (pas nécessairement injective) de {1, . . . , n} vers {1, . . . , N + M } (ou encore d’un n-uplet (e1 , . . . , en ) de {1, . . . , N + M }n ) ; il y a donc (N + M )n choix possibles. Un tirage où x boules noires sont tirées est équivalent à la donnée : d’un sousensemble A de {1, . . . , n} à x élements, d’une application (pas nécessairement injective) de A dans {1, . . . , N } (ou encore d’un x-uplet de {1, . . . , N }x ) et d’une application de {1, . . . , n} − A dans {N + 1, . . . , N + M } (ou encore un (n − x)-uplet de {N + 1, . . . , N + M }). Il y a donc n · N x · M n−x x choix possibles. Remarquons que la proportion du nombre de tirages avec remise où x boules noires sortent dans l’ensemble des tirages avec remise est x n−x n N M n x = p (1 − p)n−x , n x (N + M ) x où p = N/(N + M ). 1.4 Dénombrabilité Définition 1.4.1 Un ensemble est dit dénombrable s’il est en bijection avec un sous-ensemble de l’ensemble N des entiers naturels. Un ensemble est dénombrable s’il est fini ou en bijection avec N. De façon plus concrète, un ensemble est dénombrable si on peut énumérer ses éléments. 12 CHAPITRE 1. RAPPELS DE THÉORIE DES ENSEMBLES Proposition 1.4.2 Soit A et B deux ensembles. a) S’il existe une injection de A dans B et si B est dénombrable alors A est dénombrable. b) S’il existe une surjection de A dans B et si A est dénombrable, alors B est dénombrable. Théorème 1.4.3 a) Si A1 , . . . , An sont des ensembles dénombrables, le produit A1 × · · · × An est également dénombrable. b) Si (Ai )i∈I est une famille dénombrable (c’est-à-dire : I est dénombrable) d’ensembles dénombrables (c’est-à-dire : pour tout i ∈ I, Ai est dénombrable) S alors la réunion i∈I Ai est également dénombrable. Démonstration. — a) On peut supposer A1 = . . . = An = N. Notons p1 = 2, p2 = 3, . . . , pn les n premiers nombres premiers (p est premier s’il est divisible uniquement par 1 et par p). L’application qui à (l1 , . . . , ln ) ∈ Nn associe le nombre pl11 ·pl22 · · · plnn est une injection de Nn dans N car la décomposition en facteurs premiers d’un nombre est unique. La proposition 1.4.2 a) permet de conclure. S b) L’application de N × N dans i∈I Ai qui au couple (n, m) associe le mième élément de l’ensemble Ain , où in est le n-ième élément de I, est une surjection. La proposition 1.4.2 b) donne la conclusion. 2 Corollaire 1.4.4 L’ensemble Z des entiers relatifs et l’ensemble Q des nombres rationnels sont dénombrables. Démonstration. — L’ensemble Z est dénombrable car l’application de l’ensemble dénombrable {1, −1} × N dans Z qui au couple (, n) associe le produit n est une surjection. De même, Q est dénombrable car l’application de l’ensemble dénombrable Z × (N − {0}) dans Q qui au couple (p, q) associe le rationnel p/q est une surjection. 2 On peut démontrer que Théorème 1.4.5 L’ensemble des nombres réels R n’est pas dénombrable. Corollaire 1.4.6 L’ensemble des nombres irrationnels n’est pas dénombrable. Démonstration. — Sinon, R qui est réunion de Q et de l’ensemble des nombres irrationnels serait dénombrable, comme union finie donc dénombrable d’ensembles dénombrables. 2 Chapitre 2 Espaces probabilisés 2.1 Espaces probabilisés Un espace probabilisé est la donnée — d’un espace Ω que l’on appelle l’espace des états. Quand on modélise une situation concrète Ω est l’ensemble des états possibles du système que l’on considère. Bien souvent cet espace est inaccessible à l’expérience ; — d’un sous-ensemble B de P(Ω) qui est l’ensemble des événements. Dans une situation concrète c’est l’ensemble de tous les résultats d’expériences que l’on peut effectuer sur le système. En théorie des probabilités (donc quand on fait des mathématiques) cet ensemble B sera une tribu (on dit aussi une σ-algèbre), cf. définition 2.2.1 ; — d’une probabilité P : pour tout événement A ∈ B le réel P(A) est le degré de vraisemblance de l’événement A ; c’est un nombre réel compris entre 0 et 1. Mathématiquement, une probabilité est une application P : B → [0, 1] vérifiant les propriétés décrites dans la définition 2.3.1. Dans la suite nous précisons les deux derniers points. 2.2 Tribus Soit Ω un ensemble fixé (l’espace des états). Définition 2.2.1 Une tribu, ou σ-algèbre, de Ω est un ensemble de parties de Ω (donc un sous-ensemble de P(Ω), l’ensemble des parties de Ω) qui contient l’ensemble vide, est stable par passage au complémentaire et est stable par union dénombrable : — ∅∈B — pour tout A ∈ B on a Ac ∈ B 13 14 CHAPITRE 2. ESPACES PROBABILISÉS — pour toute famille dénombrable (Ai )i d’éléments de B l’union [ Ai i est également dans B. L’ensemble Ω est toujours élément de la tribu (c’est le complémentaire de l’ensemble vide) et une intersection dénombrable d’éléments de la tribu est encore dans la tribu (car ∩i∈N Ai = (∪i∈N Aci )c ). Un élément A de B est appelé un événement. Exemples 1) Si Ω est un ensemble quelconque on peut toujours définir deux tribus : la tribu triviale qui est B = {∅, Ω} la tribu totale qui est B = P(Ω). 2) Si Ω = {1, 2, 3} le sous-ensemble de P(Ω), B = {∅, {1}, {2, 3}, Ω} est une tribu de Ω. 3) Exercice. Si Ω est un ensemble, le sous-ensemble de P(Ω) constitué des ensembles qui sont dénombrables ou dont le complémentaire est dénombrable est une tribu. 2.3 2.3.1 Probabilités Définition Définition 2.3.1 Si Ω est un ensemble et B est une tribu de Ω, une probabilité P est une application de B dans [0, 1] telle que P(Ω) = 1 et telle que pour toute famille dénombrable (Ai )i d’événements de B disjoints 2 à 2 on a [ X P Ai = P(Ai ). (2.1) i i Dans le cas d’une famille infinie (Ai )i = (Ai )i∈N , l’égalité précédente signifie PN la chose suivante : la suite croissante de nombres réels i=0 P(Ai ) N ∈N converge, et sa limite est égale à la probabilité P(∪i∈N Ai ). Remarque. La stabilité par unions et intersections dénombrables dans la définition d’une tribu permet de construire, à partir d’événements simples, des événements beaucoup plus intéressants que ceux qu’on obtiendrait en ne supposant que la stabilité par unions (intersections) finies. En revanche, si on autorisait la stabilité par unions (intersections) quelconques on ne pourrait pas construire beaucoup de probabilités. La stabilité par unions (intersections) dénombrables est donc le bon compromis. 2.3. PROBABILITÉS 2.3.2 15 Exemples généraux Mesures de Dirac Sur tout ensemble Ω muni d’une tribu B il est possible de construire des mesures de la façon suivante : pour tout α ∈ Ω définissons l’application δα : B → [0, 1] qui à un ensemble A ∈ B associe le réel 1 si α ∈ A et 0 sinon. Cette application δα est une mesure de probabilité que l’on appelle la mesure de Dirac au point α. C’est bien une mesure : en effet δα (Ω) = 1 puisque α ∈ Ω ; par ailleurs si (Ai )i ∈ B est une famille dénombrable d’ensembles de la tribu disjoints deux à deux on a [ X δα (Ai ). δα Ai = i i En effet – soit α appartient à ∪i Ai ; alors il existe un i ≥ 0 pour lequel α ∈ Ai et cet indice i est unique car les Ai sont disjoints deux à deux. L’égalité précédente se réduit à 1 = 1 ; – soit α n’appartient pas à ∪i Ai et de ce fait n’appartient à aucun des Ai : l’égalité se réduit à 0 = 0. Sommes pondérées de probabilités Si P1 , . . . , Pn sont des probabilités sur une tribu B et si λ1 , . . . , λn sont des réels positifs tels que λ1 + · · · + λn = 1 alors P := λ1 P1 + · · · + λn Pn est aussi une probabilité. 2.3.3 Premières propriétés Un ensemble Ω muni d’une tribu B et d’une probabilité P sur B est noté (Ω, B, P) et appelé espace probabilisé. Proposition 2.3.2 Soit (Ω, B, P) un espace probabilisé. a) Si A ∈ B, P(Ac ) = 1 − P(A). b) P(∅) = 0 c)(Positivité) Si A, B ∈ B vérifient A ⊂ B alors P(A) ≤ P(B). d) Si A, B ∈ B alors P(A ∪ B) = P(A) + P(B) − P(A ∩ B). Démonstration. — a) Il suffit décrire Ω comme l’union disjointe finie Ω = A ∪ Ac : comme P est une probabilité 1 = P(Ω) = P(A) + P(Ac ). 16 CHAPITRE 2. ESPACES PROBABILISÉS b) suit de la formule précédente et du fait que P(Ω) = 1. c) On écrit B comme l’union disjointe B = A ∪ (B ∩ Ac ) et P(B) = P(A) + P(B ∩ Ac ). Comme P(B ∩ Ac ) ≥ 0 on a bien P(B) ≥ P(A). d) De l’union disjointe A ∪ B = A ∪ (B ∩ Ac ) on déduit P(A ∪ B) = P(A) + P(B ∩ Ac ). Mais de l’union disjointe B = (B ∩ Ac ) ∪ (B ∩ A) on obtient P(B) = P(B ∩ Ac ) + P(A ∩ B). De ces deux égalités on déduit d). 2 La preuve des propriétés qui suivent n’est pas difficile mais, à la différence de la démonstration des propriétés précédentes, ne pourrait se faire sans autoriser des unions dénombrables : Proposition 2.3.3 a) Si An , n ∈ N est une famille croissante d’éléments de B dont l’union est A alors A ∈ B et la suite P(An ) (qui est croissante bornée) converge vers P(A) : lim P(An ) = P(A). n→∞ b) Si An , n ∈ N est une famille décroissante d’éléments de B dont l’intersection est A alors A ∈ B et la suite P(An ) (qui est décroissante positive) converge vers P(A) : lim P(An ) = P(A). n→∞ c) Si An , n ∈ N est une famille dénombrable d’ensembles appartenant à B on a toujours (même si les An ne sont pas disjoints deux à deux) P [ An n∈N ≤ ∞ X P(An ) n=0 (où le membre de droite de l’inégalité précédente, qui est la limite de la suite croissante, peut éventuellement être infini). Démonstration. — a) Définissons les ensembles Bn , n ≥ 0 de la façon suivante : B0 = A0 , et pour n ≥ 1, Bn = An ∩ Acn−1 . Les Bn constituent une famille dénombrable d’ensembles d’éléments de B, disjoints deux à deux, et on peut donc écrire ∞ X [ P(Bk ) = P Bk , k=0 k∈N c’est-à-dire lim N →∞ N X k=0 P(Bk ) = P [ k∈N Bk , 2.4. PROBABILITÉS SUR UN ENSEMBLE FINI 17 ou encore, puisque les Bk sont disjoints deux à deux lim P [ N N →∞ Mais N [ Bk =P [ k=0 Bk . k∈N ∞ [ B k = AN , Bk = A k=0 k=0 ce qui établit a). b) Il suffit de passer au complémentaire et d’utiliser a) c) Pour ω ∈ ∪i∈N Ai définissons l’entier ν(ω) comme étant le plus petit entier k ≥ 0 pour lequel ω ∈ Ak . L’ensemble Cn des ω ∈ Ω pour lesquels ν(ω) = n est l’ensemble Cn = {ω ∈ Ω, ν(ω) = n} = An ∩ (An−1 ∪ · · · ∪ A0 )c qui est dans B. Les ensembles Cn sont disjoints deux à deux et leur union pour n ≥ 0 est ∪n∈N An car pour tout ω dans ∪n∈N An il existe un n tel que ν(ω) = n c’est-à-dire il existe un n tel que ω ∈ Cn . On a donc P [ n≥0 An =P [ Cn n≥0 = ∞ X P(Cn ), n=0 et comme P(Cn ) ≤ P(An ) (puisque Cn ⊂ An ) on obtient la conclusion de c). 2 Les deux propriétés précédentes a) et b) sont des propriétés de continuité (dans un sens à préciser) des probabilités. 2.4 Probabilités sur un ensemble fini Les espaces probabilisés les plus simples sont ceux où l’espace des états Ω est fini. On choisit en général comme tribu B l’ensemble P(Ω) de toutes les parties de Ω (qui est bien une tribu). C’est ce que nous ferons. Il reste alors à définir la probabilité. Supposons donc que P soit une probabilité sur B = P(Ω) ; tout ensemble A ∈ B = P(Ω) est fini (car inclus dans Ω qui est fini) et est par conséquent l’union (finie donc dénombrable) des singletons {a} où a décrit A : [ A= {a}. a∈A Comme cette union est disjointe et finie on a X P(A) = P({a}). a∈A 18 CHAPITRE 2. ESPACES PROBABILISÉS Supposons que Ω = {ω1 , . . . , ωn } et notons pi = P({ωi }) ; on a donc pi ∈ [0, 1]. D’autre part on a X pi . P(A) = {i:ωi ∈A} Si on choisit A = Ω on voit que les pi , qui sont dans [0, 1], vérifient n X pi = 1. i=1 En conclusion : Proposition 2.4.1 Dans le cas où Ω = {ω1 , . . . , ωn } est fini, une probabilité P sur B = P(Ω) est déterminée par ses valeurs sur les singletons de Ω. Réciproquement si on se donne n nombres réels positifs p1 , . . . , pn dont la somme vaut 1, alors l’application P : P(Ω) → [0, 1] qui à A ∈ P(Ω) associe le réel X P(A) = pi ∈ [0, 1] {i:ωi ∈A} est une probabilité. Démonstration. — Nous avons démontré la première partie de la proposition, démontrons la réciproque. Il suffit de vérifier que pour toute famille (Ak )k∈N , Ak ⊂ Ω deux à deux disjoints, la formule (2.1) est vérifiée. Comme Ω est fini, il en est de même de B = P(Ω) et il suffit donc de considérer le cas où la famille (Ak )k∈N est finie et est A0 , . . . , AN , Ak 6= Al si k 6= l. Si on note Ik l’ensemble des indices i ∈ {1, . . . , n} pour lesquels ωi ∈ Ak , les ensembles I0 . . . , IN sont deux à deux disjoints S et leur union I est l’ensemble des indices i ∈ {1, . . . , n} pour lesquels ωi ∈ N k=0 Ak . On a donc P( N [ Ak ) = X i∈I k=0 pi = N X X k=0 i∈Ik pi = N X P(Ak ). k=0 2 2.4.1 Probabilités uniformes et lien avec la combinatoire Un cas important est celui où tous les pi , 1 ≤ i ≤ n précédents sont égaux. Comme leur somme doit valoir 1 ceci signifie que p1 = · · · = pn = n1 . On dit dans ce cas que la probabilité P est uniforme. On a alors, pour tout sous-ensemble A de Ω, P(A) = X {i:ωi ∈A} pi = #{i ∈ {1, . . . , n}, ωi ∈ A}. 1 n 2.4. PROBABILITÉS SUR UN ENSEMBLE FINI soit P(A) = 19 #A · #Ω Ainsi, quand on travaille avec une probabilité uniforme sur un ensemble fini, déterminer la probabilité d’un événement revient à calculer son cardinal : on voit apparaı̂tre le lien avec la combinatoire. Lancer de deux dés On se propose de modéliser le lancer de deux dés, numérotés de 1 à 6. On appellera pi la probabilité pour chaque dé, quand on le lance, d’obtenir la face i et on suppose de façon implicite que le lancer de chacun des deux dés est indépendant de l’autre (dans un sens qui pour l’instant n’est pas bien défini). La modélisation du problème se fait de la façon suivante. — Espace des états : on pose Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6} l’ensemble des couples (i, j) avec 1 ≤ i ≤ 6, 1 ≤ j ≤ 6. — Espace des événements : on pose B = P(Ω). — Probabilité : Si on suppose que quand on lance un dé, la probabilité de sortie de la face i est égale à pi il est naturel de penser que la probabilité pij de sortie du couple (i, j) (i pour le premier dé et j pour le second) est égal au produit pi pj de la probabilité d’obtenir i sur le premier dé par la probabilité d’obtenir j sur le second. NaP turellement, les pi vérifient pi ≥ 0 et 6i=1 pi = 1. On décide donc de définir, ayant à l’esprit la Proposition 2.4.1, la probabilité P sur B par P({(i, j)}) = pi pj . Pour que P cela soit possible il faut vérifier que les pi pj sont positifs, et que (i,j)∈Ω pi pj = 1. En effet X 6 6 X X pi pj = ( pi )( pj ) = 1 × 1 = 1. 1≤i,j≤6 i=1 j=1 Avec cette modélisation, on peut ainsi déterminer la probabilité pour que la somme des deux dés après lancer vaille 7. Cet événement, appelons-le A, s’écrit de façon mathématique A = {(i, j) ∈ Ω : i + j = 7} ou de façon explicite A = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}. La probabilité de A vaut P(A) = X {1≤i,j≤6:i+j=7} pi pj . 20 CHAPITRE 2. ESPACES PROBABILISÉS Si on suppose que pour tout 1 ≤ i ≤ 6, pi = 1/6 (dé non pipé) on obtient P(A) = #A/#Ω = 6/36 = 1/6. De la même façon l’événement B : “après le lancer des deux dés la face du premier dé est un nombre pair”, est mathématiquement l’ensemble B = {(i, j) : i = 2, 4, 6}. Si on suppose toujours que pour tout 1 ≤ i ≤ 6, pi = 1/6, on obtient P(B) = #B/#Ω = 18/36 = 1/2. La conjonction de ces deux événements, “la somme des deux dés vaut 7” et “le résultat que donne le premier dé est un nombre pair” est mathématiquement l’ensemble A ∩ B = {(2, 5), (4, 3), (6, 1)}. Sa probabilité (si on suppose que pour tout 1 ≤ i ≤ 6, pi = 1/6) est égale à #(A ∩ B)/#(Ω) = 3/36 = 1/12. Exercice 2.4.2 Une urne contient N boules noires et M boules blanches. a) On effectue n tirages sans remises. Quelle est la probabilité d’obtenir x boules noires ? b) Même question si les tirages sont avec remises. On supposera les tirages équiprobables. On prendra soin de bien définir l’espace probabilisé sur lequel on travaille. Exercice 2.4.3 On tire cinq cartes d’un jeu de 32 cartes. Quelle est la probabilité d’obtenir un full, c’est-à-dire deux cartes de même valeur et trois autres cartes de même valeur ? On supposera chaque tirage équiprobable. 2.4.2 Jeu de n pile ou face : le modèle (fini) de Bernoulli On se propose de modéliser un jeu où l’on lance n fois une pièce (pile/face). De façon équivalente un expérimentateur réalise n expériences dont le résultat peut être positif (pile, 1) ou négatif (face, 0). Il est naturel de décrire ce jeu ou cette expérience de la façon suivante : on choisit comme espace des états l’ensemble Ω de toutes les suites de longueur n constituées de 0 ou de 1. Une telle suite est donc un n-uplet ω = (ω1 , . . . , ωn ), chaque ωi , 1 ≤ i ≤ n appartenant à l’ensemble à deux éléments {0, 1}. Ainsi Ω = {0, 1}n , qui a 2n éléments. Nous choisirons comme tribu Bn l’ensemble P(Ω) des n parties de Ω (qui a 22 éléments mais cela n’a pas d’importance). Cette tribu nous permet de décrire des événements. Par exemple l’événement A “obtenir k Pile lors des n lancers” est décrit par l’ensemble A ∈ Bn A = {ω = (ω1 , . . . , ωn ), n X i=1 ωi = k}. 2.4. PROBABILITÉS SUR UN ENSEMBLE FINI 21 L’événement B : “on tire au moins un Pile” est décrit par l’ensemble B = {ω = (ω1 , . . . , ωn ), ∃i ∈ {1, . . . , n} ωi = 1}. L’événement “A et B” est décrit par l’intersection A ∩ B, l’événement “non A” est décrit par Ac , l’événement “A ou B” par A ∪ B etc. Le choix de la probabilité sur notre ensemble est dicté par le jeu ou l’expérience que l’on modélise. Ainsi, on ne modélisera pas de la même façon un jeu où pile et face ont les mêmes chances de sortir qu’un jeu où pile a deux fois plus de chance de sortir que face. Dans le premier cas, il est naturel 1 de choisir comme probabilité P la probabilité uniforme P(A) = #A #A = n . Ω 2 Noter que la probabilité d’un événement élémentaire “on a tiré la suite (ω1 , . . . , ωn )” c’est-à-dire la probabilité du singleton {(ω1 , . . . , ωn )} vaut 1/2n (ceci quel que soit ω1 , . . . , ωn ). En revanche, dans le second cas, on définira la probabilité d’un événement élémentaire {(ω1 , . . . , ωn )} comme étant (2/3)k (1/3)n−k où k est le nombre de 1 dans la suite ω1 , . . . , ωn . Modélisons donc un jeu de n lancers indépendants de 1 ou 0, où à chaque lancer 1 a une probabilité p de sortir et 0 une probabilité 1 − p d’apparaı̂tre. — Espace des états : on pose Ω = {0, 1}n l’ensemble des n-uplets (ω1 , . . . , ωn ) ωi ∈ {0, 1}, 1 ≤ i ≤ n. — Espace des événements : on pose Bn = P(Ω). — Probabilité : Du fait de l’indépendance (notion que l’on appréhende pour l’instant de façon intuitive) il est naturel de penser que la probabilité pω d’apparition de la suite ω = (ω1 , . . . , ωn ), ωi ∈ {0, 1} est pr (1 − p)n−r où r est le nombre de fois où 1 sort (et n − r est donc le nombre de 0). On remarquera que r= n X ωi . i=1 P Tout d’abord pω ≥ 0. Vérifions ensuite que ω∈Ω pω = 1. On a X X pω = pω1 +···+ωn (1 − p)n−(ω1 +···+ωn ) (ω1 ,...,ωn )∈{0,1}n ω∈Ω = X X pω1 +···+ωn−1 +ωn (1 − p)(n−1)−(ω1 +···+ωn−1 )+(1−ωn )) (ω1 ,...,ωn−1 )∈{0,1}n−1 ωn =0 ou 1 = X pω1 +···+ωn−1 (1 − p)(n−1)−(ω1 +···+ωn−1 ) (p + (1 − p)) (ω1 ,...,ωn−1 )∈{0,1}n−1 = X pω1 +···+ωn−1 (1 − p)(n−1)−(ω1 +···+ωn−1 ) (ω1 ,...,ωn−1 )∈{0,1}n−1 1. en fait cela sera encore plus naturel quand on aura défini la notion d’indépendance 22 CHAPITRE 2. ESPACES PROBABILISÉS et donc X pω = X pω1 +···+ωn−1 (1 − p)(n−1)−(ω1 +···+ωn−1 ) (ω1 ,...,ωn−1 )∈{0,1}n−1 ω∈Ω X = pω1 +···+ωn−2 (1 − p)(n−2)−(ω1 +···+ωn−2 ) (ω1 ,...,ωn−2 )∈{0,1}n−2 = ··· =1 D’après la Proposition 2.4.1 on peut donc définir une probabilité P sur (Ω, Bn ) par P({(ω1 , . . . , ωn )}) = pω1 +...+ωn (1 − p)n−(ω1 +···+ωn ) . On appellera l’espace probabilisé ainsi construit le modèle (fini) de Bernoulli de paramètre p (0 ≤ p ≤ 1). Mentionnons une propriété importante du modèle de Bernoulli. Proposition 2.4.4 Dans le modèle de Bernoulli de paramètre p, l’événement A = {(ω1 , . . . , ωn ) : ω1 + · · · + ωn = k} admet pour probabilité n k P(A) = p (1 − p)n−k . k Démonstration. — On a en effet X P(A) = pω1 +···+ωn (1 − p)n−(ω1 +···+ωn ) (ω1 ,...,ωn )∈A = pk (1 − p)k #A. Or, le cardinal de A est égal au nombre de façon de choisir k éléments parmi n (la place des k coordonnées ωi égales à 1), soit nk . 2 Exercice 2.4.5 Calculer, dans chacun des cas p = 1/2 ou p = 2/3, les probabilités des événements A et B définis précédemment. 2.5 Evénements indépendants Définition 2.5.1 Une famille (quelconque, finie ou infinie) d’événements (Ai )i∈I est dite indépendante (ou encore les événements de la famille (Ai )i∈I sont dits mutuellement indépendants) si pour toute sous-famille finie Ai1 , . . . , Ain on a P(Ai1 ∩ · · · ∩ Ain ) = P(Ai1 ) · · · P(Ain ). 2.6. PROBABILITÉS CONDITIONNELLES 23 Exercice 2.5.2 Démontrer que si A, B sont deux événements indépendants les quatre familles (A, B), (A, B c ), (Ac , B), (Ac , B c ) sont, chacune, indépendantes. Solution. Montrons par exemple que (Ac , B) est indépendante : P(Ac ∩ B) = P((E − A) ∩ B) = P(B − (A ∩ B)) = P(B) − P(A ∩ B) et comme P(A ∩ B) = P(A)P(B) P(Ac ∩ B) = P(B)(1 − P(A)) = P(B)P(Ac ). Exercice 2.5.3 Trouver un exemple de famille (A, B, C) qui n’est pas indépendante mais est telle que chacune des familles (A, B), (B, C), (C, A) est indépendante. Le résultat suivant permet de construire des familles d’événements indépendants : Théorème 2.5.4 Soient (Ai )i∈I une famille d’événements indépendants et I = I1 ∪ · · · ∪ Ip une partition de I. Notons pour 1 ≤ k ≤ p, Bk la tribu engendrée par les événements Ai , i ∈ Ik . Si B1 , . . . Bp sont des événements tels que Bk ∈ Bk , alors la famille d’événements (Bk )1≤k≤p est indépendante. Démonstration. — Nous illustrons la preuve dans le cas où p = 2. Démontrons déjà que pour tout événement Ai , i ∈ I1 et tout événement B2 dans B2 on a P(Ai ∩ B2 ) = P(Ai )P(B2 ). (2.2) Pour cela, notons C2 l’ensemble des événements B2 pour lesquels cette relation est satisfaite pour tout i ∈ I1 . On constate déjà que C2 est une tribu (exercice). Ensuite, on observe que d’après l’hypothèse d’indépendance des Ai , i ∈ I, les événements Aj , j ∈ I2 appartiennent à C2 . Par définition de la tribu engendrée et sa minimalité, ceci signifie que B2 ⊂ C2 . Par conséquent, la relation (2.2) est vraie pour tout B2 ∈ B2 . Démontrons à présent que pour tout événement B1 ∈ B1 et tout événement B2 dans B2 on a P(B1 ∩ B2 ) = P(B1 )P(B2 ). (2.3) Notons C1 l’ensemble des événements B1 pour lesquels cette relation est satisfaite pour tout B2 ∈ B2 . On constate comme précédemment que C1 est une tribu (exercice) et qu’elle contient tous les Ai , i ∈ I1 . La définition du fait que B1 est la tribu engendrée par les Ai , i ∈ I1 montre que B1 ⊂ C1 et donc la relation (2.3) est satisfaite pour tout B1 ∈ B1 et tout B2 ∈ B2 . 2 2.6 Probabilités conditionnelles Définition 2.6.1 Si A et B sont deux événements de la tribu B et si P(B) > 0 on définit la probabilité de A sachant B comme étant P(A|B) = P(A ∩ B) · P(B) 24 CHAPITRE 2. ESPACES PROBABILISÉS En fait tout événement B ∈ B définit une nouvelle probabilité sur (Ω, B) : Proposition 2.6.2 Si B ∈ B est tel que P(B) > 0, l’application PB : B → [0, 1] qui à A ∈ B associe PB (A) = P(A|B) est une probabilité. Exercice. Démontrer cette proposition. Supposons à présent que nous ayons une partition de Ω en événements B1 , . . . , Br (c’est-à-dire que les événements B1 , . . . , Br sont disjoints deux à deux et que leur union est égale à Ω) et que, pour tout i, P(Bi ) > 0. On peut donc définir r probabilités P(·|Bi ). Théorème 2.6.3 (Formule des causes) Sous les hypothèses précédentes P(A) = r X P(A|Bi ) P(Bi ). i=1 Démonstration. — L’ensemble A est l’union disjointe des (A ∩ Bi ) donc P(A) = r X P(A ∩ Bi ) = r X P(A ∩ Bi ) i=1 k=1 P(Bi ) · P(Bi ). 2 Dans la pratique un problème courant est de calculer P(Bi |A) connaissant les P(A|Bj ). Théorème 2.6.4 (Formule de Bayes) Sous les hypothèses précédentes : P(A|Bi )P(Bi ) . P(Bi |A) = Pr j=1 P(A|Bj )P(Bj ) Démonstration. — Il suffit d’écrire P(Bi |A) = P(Bi ∩ A) P(A|Bi )P(Bi ) = P(A) P(A) et d’utiliser la formule des causes. 2 Chapitre 3 Variables aléatoires réelles 3.1 3.1.1 Variables aléatoires réelles Définition et premières propriétés Dans toute la suite on suppose que (Ω, B, P) est un espace probabilisé. Définition 3.1.1 Une variable aléatoire réelle (en abrégé v.a.r. ou v.a) est une application X : Ω → R telle que pour tout intervalle I de R l’ensemble X −1 (I) des ω ∈ Ω tels que X(ω) ∈ I, appartient à la tribu B. Proposition 3.1.2 Si X : Ω → R est une application alors les quatre propositions suivantes sont équivalentes : 1. X est une variable aléatoire ; 2. pour tout intervalle I de la forme I =] − ∞, a], X −1 (I) appartient à B ; 3. pour tout intervalle I de la forme ]a, b], X −1 (I) appartient à B ; 4. pour tout intervalle I de la forme ]a, c[, X −1 (I) appartient à B. On a également l’équivalence avec les intervalles de la forme ] − ∞, a[, ou de la forme [a, +∞[, ou ]a, +∞[, etc. Démonstration. — Que 1 implique 2 est évident. Démontrons maintenant que 2 implique 3. On constate que tout intervalle ]a, b] peut s’écrire sous la forme ] − ∞, a]c ∩] − ∞, b]. On a donc c X −1 (]a, b]) = X −1 (]−∞, a]c )∩X −1 (]−∞, b]) = X −1 (]−∞, a]) ∩X −1 (]−∞, b]). Or les ensembles du membre de droite appartient à la tribu B, donc aussi leur intersection X −1 (]a, b]). Pour montrer que 3 implique 4 on remarque que ]a, c[= ∪n≥1 ]a, c − n1 ] donc [ 1 X −1 (]a, c[) = X −1 (]a, c − ]) n n≥1 25 26 CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLES où chaque X −1 (]a, c − n1 ]), et donc leur réunion, appartient à B. La démonstration du fait que 4 implique 1 se démontre de manière analogue. Démontrons par que pour a ≤ b, X −1 ([a, b]) est dans B. On T exemple 1 observe que [a, b] = n≥1 ]a − n , b + n1 [ et donc X −1 ([a, b]) = \ X −1 (]a − n≥1 1 1 , b + [) n n 2 est dans B. Les autre cas se traitent de façon analogue. Notation. Dans la suite du cours, quand X est une v.a et A ⊂ R nous noterons {X ∈ A} ou [X ∈ A] ou (X ∈ A) l’ensemble {ω ∈ Ω : X(ω) ∈ A}. La proposition qui suit permet de construire des v.a. Proposition 3.1.3 a) Si Xn , n ≥ 1 est une famille de v.a alors Z = supn≥1 Xn (resp. Z = inf n≥1 Xn ) est une v.a. b) Si Xn , n ≥ 1 est une famille de v.a alors Z = lim supn→∞ Xn (resp. Z = lim inf n→∞ Xn ) est une v.a. En particulier si pour tout ω ∈ Ω, Xn (ω) converge vers X(ω) alors X est une v.a. c) Si X1 , . . . , Xn sont des v.a et f : Rn → R est une application continue alors Z = f (X1 , . . . , Xn ) est une v.a. En particulier X1 + X2 , λX1 , (λ ∈ R), X1 · X2 sont des v.a. Démonstration. — a) Soit ω tel que supn≥1 Xn (ω) > a. Alors par définition du sup, il existe un n pour lequel Xn (ω) > a et ω est donc dans l’union ∪n≥1 {Xn > a}. Réciproquement si ω ∈ ∪n≥1 {Xn > a} alors il existe n tel que Xn (ω) > a et a fortiori supn Xn (ω) > a. Nous avons donc démontré que les deux ensembles {Z > a} et ∪n≥1 {Xn > a} sont égaux. Mais ce dernier ensemble est une union dénombrable d’éléments de la tribu B (car chaque Xn est une v.a). Ainsi pour tout a l’événement {supn≥1 Xn (ω) > a} est dans B et il en est de même de son complémentaire {supn≥1 Xn (ω) ≤ a}. La proposition 3.1.2 permet de conclure. b) Par définition lim sup Xn (ω) = inf sup Xk (ω) et lim inf Xn (ω) = sup inf Xk (ω). n→∞ p∈N k≥p n→∞ p∈N k≥p Il suffit donc d’appliquer deux fois a). La dernière assertion résulte du fait que lim Xn (ω) = X(ω) si et seulement si lim inf Xn (ω) = lim sup Xn (ω) = X(ω). n→∞ n n c) Si I est un intervalle ouvert de R, Z −1 (I) est l’ensemble des ω ∈ Ω tels que (X1 (ω), . . . , Xn (ω)) ∈ f −1 (I). Comme f est continue, f −1 (I) est un ensemble ouvert de Rn et, par conséquent, est une union dénombrable de pavés ouverts c’està-dire d’ensembles P de la forme ]a1 , b1 [× · · · ×]an , bn [ (nous admettrons ce fait). Par conséquent l’ensemble des ω ∈ Ω tels que (X1 (ω), . . . , Xn (ω)) ∈ f −1 (I) est une union dénombrable d’ensembles de la forme {ω ∈ Ω, (X1 (ω), . . . , Xn (ω) ∈]a1 , b1 [× · · · ×]an , bn [} 3.2. LOI D’UNE VARIABLE ALÉATOIRE RÉELLE 27 c’est-à-dire d’ensembles de la forme {ω ∈ Ω, X1 (ω) ∈]a1 , b1 [, . . . , Xn (ω) ∈]an , bn [} = X1−1 (]a1 , b1 [) ∩ · · · ∩ Xn−1 (]an , bn [) 2 qui sont dans B. En particulier Proposition 3.1.4 a) Si X : Ω → R est une v.a. et f : R → R est une application continue, alors la fonction Y : Ω → R définie par Y = f ◦ X (c’est-à-dire Y (ω) = f (X(ω)) pour tout ω ∈ Ω) est encore une v.a. On la note Y = f (X). b) Si X, Y sont deux v.a l’application Z = max(X, Y ) est une v.a. c) Si X et Y sont deux v.a, aX + bY est également une v.a. Exemple 3.1.5 Si A ∈ B, sa fonction indicatrice 1A : Ω → R (qui prend la valeur 1 si ω ∈ A et 0 sinon) est une v.a. Réciproquement, si une v.a X ne prend que les valeurs 0 et 1 alors elle est la fonction indicatrice de A = X −1 ({1}) ∈ B. 3.1.2 Le cas particulier des v.a à valeurs dans un ensemble fini ou dénombrable Il s’agit du cas où l’ensemble X(Ω) des valeurs prises par X est un ensemble fini ou dénombrable de R. Dans ce cas la caractérisation des variables aléatoires est plus simple : Proposition 3.1.6 Si X : Ω → R est à valeurs dans un ensemble fini ou dénombrable E alors X est une variable aléatoire si et seulement si pour tout e ∈ E, X −1 ({e}) ∈ B. Démonstration. — Supposons que pour tout e ∈ E, X −1 ({e}) ∈ B et soit I un intervalle de R. Comme X est à valeurs dans E, on a [ X −1 (I) = X −1 ({e}) e∈I∩E et comme E ∩ I ⊂ E est dénombrable on déduit que X −1 (I) est dans B. Réciproquement, si X −1 (I) est dans B pour tout intervalle, on a en prenant I = {e}, e ∈ E que X −1 ({e}) ∈ B. 2 3.2 Loi d’une variable aléatoire réelle Soit X : Ω → R une v.a. Alors pour tout intervalle I de R l’ensemble X −1 (I) est un événement (appartient à B). Il est donc possible de parler de la probabilité P(X ∈ I) de l’événement {X ∈ I}. 28 CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLES Définition 3.2.1 Soit X une v.a. L’application qui à tout intervalle I de R associe P(X ∈ I) s’appelle la loi de X. 3.2.1 Loi des variables aléatoires à valeurs dans un ensemble fini ou dénombrable Si X : Ω → R prend ses valeurs dans un ensemble E = {e0 , e1 , . . .} qui est fini ou dénombrable on a pour tout intervalle I ⊂ R X P(X ∈ I) = P(X ∈ I ∩ E) = P(X = e). e∈I∩E La loi de X est donc parfaitement déterminée par les réels pX (e) = P(X = e), e ∈ E et dans la pratique quand on demande de déterminer la loi de X on demande de calculer les réels pX (e) = P(X = e). La loi µX de X est la probabilité sur R muni de sa tribu borélienne Bor(R)) définie par µX = X P(X = e)δe e∈E où δe est la mesure de Dirac (pour A ∈ Bor(R), δe (A) = 1 si e ∈ A et 0 sinon). En effet pour tout ensemble A de Bor({R}), dit borélien, (ou tout intervalle) X P(X ∈ A) = P(X ∈ A ∩ E) = P(X = e), e∈A∩E et cette somme n’est rien d’autre que X P(X = e)δe (A). e∈E Quelques lois classiques de variables aléatoires à valeurs dans un ensemble fini ou dénombrable Loi de Bernoulli. C’est la loi d’une v.a X prenant pour valeur 0 ou 1 et telle que P(X = 1) = p, P(X = 0) = 1 − p. On dit que p ∈ [0, 1] est le paramètre de la loi. Loi géométrique. On dit qu’une v.a X : Ω → N (à valeurs dans N) suit une loi géométrique de paramètre a (0 < a < 1) si P(X = n) = (1 − a)an . On remarquera que l’on a bien P∞ n=0 P (X = n) = 1 puisque X an = n≥0 1/(1 − a). Le temps de première apparition de pile d’un jeu de pile ou face infini , pile apparaissant avec la probabilité 1 − a, suit une loi géométrique de paramètre a. 3.2. LOI D’UNE VARIABLE ALÉATOIRE RÉELLE 29 Loi binomiale. On dit qu’une variable aléatoire Z à valeurs dans {0, . . . , n} suit une loi binomiale de paramètres (n, p) si n k P(Z = k) = p (1 − p)n−k k où nk est le coefficient binomial. Par la formule du binôme de Newton on a ∞ X bien P (X = k) = (p + 1−p)n = 1. k=0 Exemple. Jouons n fois au jeu de pile/face où pile sort avec probabilité p et face avec probabilité 1 − p et notons Z la variable aléatoire : Z est le nombre de pile qui sortent (après avoir joué n fois). Si on note Xi les variables aléatoires Xi (ω) = ωi (ω = (ω1 , . . . , ωn )) on a Z = X1 + · · · + Xn . C’est bien une variable aléatoire Z : B → N à valeurs dans l’ensemble fini {0, . . . , n} (B = P(Ω)) et n k P(Z = k) = p (1 − p)n−k . k Loi de Poisson. Une variable aléatoire Z : Ω → N suit une loi de Poisson de paramètre λ > 0 si λk P(Z = n) = e−λ . k! ∞ X En utilisant le développement en série de eλ on vérifie que P (X = k) = 1. k=0 Exercice Soit Xn une v.a suivant une loi binomiale (n, pn ). Montrer que si limn→∞ npn = λ on a pour tout k ∈ N lim P(Xn = k) = e−λ n→∞ λk . k! On dit que Xn converge en loi vers une loi de Poisson de paramètre λ. 3.2.2 Loi de variables aléatoires admettant une densité Définition 3.2.2 On dit que la variable aléatoire X : Ω → R admet une densité continue (resp. continue par morceaux, etc.) s’il existe une fonction positive R ∞ continue (resp. continue par morceaux, etc.) ρX : R → [0, ∞[ telle que −∞ ρX (t)dt = 1 et telle que pour tout intervalle I Z P(X ∈ I) = ρX (t)dt. I 30 CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLES Fonction de répartition Définition 3.2.3 Si X est une v.a on définit sa fonction de répartition FX : R → [0, 1] par FX (x) = P(X ≤ x). Voici quelques propriétés des fonctions de répartition. Proposition 3.2.4 Si FX : R → [0, 1] est la fonction de répartition d’une v.a X — la fonction FX : R → [0, 1] est croissante : si x1 ≤ x2 alors FX (x1 ) ≤ FX (x2 ). — on a limx→−∞ FX (x) = 0 et limx→∞ FX (x) = 1. — FX est continue à droite en tout point. Exemple. Si X est une v.a prenant seulement deux valeurs 0 ou 1 et P(X = 1) = p, P(X = 0) = 1 − p (X est une v.a. de Bernoulli de paramètre p) alors sa fonction de répartition FX (t) = P(X ≤ t) vaut 0 si x < 0, 1 − p si 0 ≤ x < 1 et 1 si x ≥ 1. Fonction de répartition d’une v.a admettant une densité Si une v.a. X admet une densité ρX alors sa fonction de répartition Z x FX (x) = µX (] − ∞, x]) = ρX (t)dt −∞ est continue. Proposition 3.2.5 Une v.a X admet une densité ρ continue par morceaux si et seulement si sa fonction de répartition FX est continue et dérivable par morceaux. On a alors FX0 (x) = ρX (x) en tout point où FX est dérivable. Si on note µX la loi de X (c’est-à-dire µX (A) = P(X ∈ A) pour A ∈ Bor(R)) on a R Rx donc µX (I) = I ρX (t)dt pour tout intervalle I et FX (x) = µX (] − ∞, x]) = −∞ ρX (t)dt. Il existe donc des variables aléatoires n’admettant pas de densité : par exemple une v.a X à valeurs dans R ne prenant que deux valeurs 0 ou 1 et telle que P(X = 0) = p avec p = 1/2 ne peut posséder de densité car sa fonction de répartition FX (x) vaut 0 si x < 0, 1/2 si 0 ≤ x < 1 et 1 si 1 ≤ x : elle est discontinue en 0 et en 1 (mais bien continue à droite). Quelques exemples de v.a. admettant une densité Loi uniforme. La variable aléatoire X : Ω → R suit une loi uniforme sur l’intervalle [a, b] si sa densité est donnée par ρX (x) = 1 ·1 . b − a [a,b] 3.2. LOI D’UNE VARIABLE ALÉATOIRE RÉELLE 31 R On a bien ρX (t) ≥ 0 pour tout t et R ρX (t)dt = 1. Cette loi est caractérisée par 1 P(X ∈ [c, d]) = longueur([a, b] ∩ [c, d]). b−a En effet, Z P(X ∈ [c, d]) = [c,d] 1 · 1 (x)dx = b − a [a,b] = Z 1 1 (x) · 1[a,b] (x)dx b − a R [c,d] Z 1 1 (x)dx. b − a R [c,d]∩[a,b] Intuitivement, la loi uniforme sur l’intervalle [a, b] modélise une expérience dans laquelle la probabilité d’un point de tomber dans un intervalle ]x − ∆x, x + ∆x[⊂ [a, b], de taille 2∆x, ne dépend pas de x et est linéaire en ∆x. Loi exponentielle de paramètre θ. exponentielle de paramètre θ si La v.a X admet une densité ρX ρX (x) = θe−θx 1[0,∞[ (x). La fonction de répartition est Z x FX (x) = ρX (t)dt = (1 − e−θx )1[0,∞[ (x), −∞ et converge bien vers 1 en ∞. Loi normale N (µ, σ 2 ). C’est la loi de densité ρX (x) = √ 1 2 /2σ 2 e−(x−µ) . 2πσ 2 R Il n’est pas complètement évident que R ρX (x)dx = 1, ce qui est indispensable pour que ρX soit une densité. Ceci résulte, après le changement de variable u = (x − µ)/σ, de l’égalité Z ∞ √ 2 e−u /2 du = 2π. −∞ La loi normale N (0, 1), qui est donc de densité 1 2 √ e−x /2 , 2π est dite loi normale centrée réduite. 32 3.3 3.3.1 CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLES Espérance des v.a : cas dénombrable Définition Soit X : Ω → R une variable aléatoire ne prenant qu’un nombre fini de valeurs x1 , . . . xr . On définit l’espérance de X comme étant le nombre réel E(X) = r X xi · P(X = xi ). i=1 Si X prend ses valeurs dans un ensemble infini dénombrable, la quantité E(X) = ∞ X xi · P(X = xi ), i=1 qui semble être un bon candidat pour la définition de l’espérance, peut ne pas exister car la série peut ne pas converger. Pour garantir cette convergence il suffit de demander que la série précédente soit absolument convergente. On adoptera donc la définition suivante : Définition 3.3.1 Si X est une v.a prenant un nombre fini ou dénombrable de valeurs dans E ⊂ R, telle que X |x|P(X = x) < ∞ (3.1) x∈E on définit l’espérance de X comme étant le nombre réel X E(X) = x P(X = x). x∈E Quand la condition (3.1) est vérifiée on dit que X est dans L1 (Ω, B, P). Remarque P — Quand X est positive, et dans ce cas seulement, si la série x∈E |x|P(X = x) = ∞ diverge on pose E(X) = ∞. — La variance représente intuitivement la valeur moyenne prise par la variable aléatoire X. 3.3.2 Premières propriétés Théorème 3.3.2 L’espérance des v.a prenant un nombre fini ou dénombrable de valeurs vérifie les conditions suivantes : a) si A ∈ B on a E(1A ) = P(A). b) Si X, Y ∈ L1 (Ω, B, P) sont des v.a positives prenant un nombre fini ou dénombrable de valeurs telles que X ≤ Y (c’est-à-dire pour tout ω ∈ Ω X(ω) ≤ Y (ω)) alors E(X) ≤ E(Y ). 3.3. ESPÉRANCE DES V.A : CAS DÉNOMBRABLE 33 c) Si X, Y sont des v.a dans L1 (Ω, B, P) prenant un nombre fini ou dénombrable de valeurs et a, b ∈ R alors aX+bY ∈ L1 (Ω, B, P) et (linéarité de l’espérance) E(aX + bY ) = aE(X) + bE(Y ). d) Si X est une v.a positive prenant un nombre fini ou dénombrable de valeurs telle que E(X) = 0 alors X est nulle P-presque sûrement c’est-àdire que l’ensemble des ω ∈ Ω pour lesquels X(ω) > 0 a une probabilité nulle. Remarque. On dit qu’une propriété Pω qui dépend de ω ∈ Ω est vraie P-presque sûrement, noté P-ps, si l’ensemble des ω ∈ Ω pour lesquels Pω est fausse est de P-probabilité nulle, c’est-à-dire si P({ω : Pω fausse}) = 0. Démonstration. — Démontrons le point b). Notons (xi )i l’ensemble des valeurs prises par X et (yj )j celles prises par Y . Définissons Ai = X −1 (xi ), Bj = Y −1 (yj ) qui sont dans la tribu des événements B. Les (Ai )i constituent une partition de Ω, tout comme les (Bj )j . Par conséquent les (Ai ∩ Bj )i,j constituent également une partition de Ω. Si Ai ∩ Bj 6= ∅ alors xi ≤ yj car X(ω) ≤ Y (ω) pour ω ∈ Ai ∩ Bj ; sinon P(Ai ∩ Bj ) = 0. Donc dans tous les cas P(Ai ∩ Bj )xi ≤ P(Ai ∩ Bj )yj . Ainsi X X X X E(X) = P(Ai )xi = P(Ai ∩Bj )xi ≤ P(Ai ∩Bj )yj ≤ P(Bj )yj = E(Y ). i i,j i,j j Démontrons maintenant le point c). En utilisant la décomposition précédente on montre que aX + bY ∈ L1 (Ω, B, P) et que X E(aX + bY ) = P(Ai ∩ Bj )(axi + byj ) i,j =a X P(Ai ∩ Bj )xi + b i,j =a X X P(Ai ∩ Bj )yj i,j P(Ai )xi + b i X P(Bj )yj i,j = aE(X) + bE(Y ). Enfin, pour le point d) Pnous remarquons (avec les notations précédentes) que si E(X) = 0 on a i P(Ai )xi = 0 ; mais comme X est positive, chacun des termes de la somme précédente est positif ou nul et donc pour tout i, P(Ai )xi = 0. Cela démontre que pour tout i pour lequel xi > 0 on doit avoir S P(Ai ) = 0. Ainsi P( i,xi 6=0 Ai ) = 0. Ceci démontre le point d). 2 3.3.3 Formule de transfert Il est important dans la pratique de savoir calculer des espérances de v.a de la forme Y = f (X) où X : Ω → R est une v.a et f : R → R est une fonction (disons continue). 34 CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLES Proposition 3.3.3 Si X prend un nombre fini ou dénombrable de valeurs dans E ⊂ R et si X |f (e)|P(X = e) < ∞ e∈E alors l’espérance de la variable aléatoire Y = f (X) est donnée par X E(f (X)) = f (e)P(X = e). e∈E Démonstration. — Supposons que X : Ω → R prenne ses valeurs dans un ensemble fini E ⊂ R et soit f : E → R. Comme Y = f (X), la v.a Y ne prend qu’un nombre fini de valeurs e0 qui sont dans E 0 = f (E). Par définition de l’espérance X E(Y ) = e0 P(Y = e0 ). e0 ∈E 0 Pour chaque e0 ∈ E 0 , notons Ae0 = f −1 ({e0 } l’ensemble des e ∈ E tels que f (e) = e0 et constatons que E 0 est l’union disjointe des Ae0 , e0 ∈ E 0 . On a donc X X X E(Y ) = e0 P(Y = e0 ) = e0 P(f (X) = e0 ) = e0 P(X ∈ f −1 (e0 )) e0 ∈E 0 e0 ∈E 0 e0 ∈E 0 = X e0 ∈E 0 = X e0 X P(X = e) e∈f −1 (e0 ) X f (e)P(X = e) e0 ∈E 0 e∈f −1 (e0 ) = X f (e)P(X = e) = E(X). e∈E Cette démonstration s’étend au cas où X prend un nombre infini dénombrable de valeurs, à condition que l’hypothèse de la proposition soit vérifiée. 2 3.4 Espérance des v.a : cas général En s’inspirant de la définition de l’espérance exposée dans la section précédente pour les v.a ne prenant qu’un nombre fini ou dénombrable de valeurs, il est possible de définir, sous certaines conditions, l’espérance de v.a dans un cadre plus général. Théorème 3.4.1 (Espérance : cas positif ) À toute variable aléatoire réelle positive X il est possible d’associer un élément de [0, ∞] que l’on appelle l’espérance de X et que l’on note E(X) et qui vérifie les propriétés suivantes : a) si A ∈ B on a E(1A ) = P(A). 3.4. ESPÉRANCE DES V.A : CAS GÉNÉRAL 35 b) Si X, Y sont des v.a positives telle que X ≤ Y (c’est-à-dire X(ω) ≤ Y (ω) pour tout ω ∈ Ω) alors E(X) ≤ E(Y ). c) Si X, Y sont des v.a positives et a, b ∈ R on a (linéarité de l’espérance) E(aX + bY ) = aE(X) + bE(Y ). d) Si X est une v.a positive telle que E(X) = 0 alors X est nulle P-presque sûrement c’est-à-dire que l’ensemble des ω ∈ Ω pour lesquels X(ω) > 0 a une probabilité nulle. Remarque — Notons que E(a) = a si a est une constante. — Les conditions précédentes imposent que l’espérance coı̈ncide avec celle que nous avons définie pour les v.a. prenant un nombre fini ou dénombrable de valeurs. Définition 3.4.2 On dit qu’une v.a est dans L1 (Ω, B, P) (on note aussi L1 (Ω, P) ou L1 (P) ou simplement L1 ) si l’espérance de la v.a.r. positive |X| est finie : E(|X|) < ∞. Dans ce cas on dit que la v.a X est (P-)intégrable. Si on pose X+ = max(0, X) et X− = − min(0, X), on a X+ ≥ 0, X− ≥ 0 X = X+ − X− et |X| = X+ + X− , et en particulier 0 ≤ X+ ≤ |X|, 0 ≤ X− ≤ |X|. Ainsi X ∈ L1 (Ω, B, P) si et seulement si X+ , X− ∈ L1 (Ω, B, P). Définition 3.4.3 Si X ∈ L1 (Ω, B, P) on pose E(X) = E(X+ ) − E(X− ). Théorème 3.4.4 (Espérance : cas L1 ) a) Si A ∈ B on a E(1A ) = P(A). b) Si X, Y sont des v.a dans L1 (Ω, P) telles que X ≤ Y (c’est-à-dire pour tout ω ∈ Ω X(ω) ≤ Y (ω)) alors E(X) ≤ E(Y ). c) Si X, Y sont des v.a dans L1 (Ω, P) et a, b ∈ R alors aX + bY ∈ L1 (Ω, P) et (linéarité de l’espérance) E(aX + bY ) = aE(X) + bE(Y ). d) Si X ∈ L1 (Ω, B) on a toujours |E(X)| ≤ E(|X|) et on a égalité si et seulement si P-ps X ≥ 0 ou P-ps X ≤ 0. 36 CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLES 3.5 Espérance des v.a admettant une densité 3.5.1 Résultat fondamental Dans la section précédente nous avons vu comment étendre la notion d’espérance définie pour des v.a prenant un nombre fini ou dénombrable de valeurs à des v.a positives ou L1 . Dans cette section nous donnons une formule qui permet d’exprimer l’espérance d’une v.a admettant une densité, en fonction de la densité. Nous admettrons ainsi le théorème important suivant : Théorème 3.5.1 Soit X une v.a admettant une densité ρX . — a) Si X est positive on peut toujours écrire Z ∞ xρX (x)dx. E(X) = −∞ — b) Si X est de signe quelconque, on a X ∈ L1 (Ω, B, P) si et seulement si Z ∞ |x|ρX (x)dx < ∞ −∞ et dans ce cas Z ∞ E(X) = xρX (x)dx. −∞ Exemple. Soit X une v.a suivant une loi normale centrée réduite : une telle loi admet une densité 1 2 ρX (x) = √ e−x /2 . 2π Comme 1 E(|X|) = √ 2π Z ∞ |x|e−x 2 /2 dx −∞ est finie, X est dans L1 (Ω, B, P). L’espérance de X est donc définie et vaut Z ∞ 1 2 E(X) = x √ e−x /2 dx. 2π −∞ Il s’agit de l’intégrale d’une fonction intégrable, impaire sur un intervalle symétrique : cette intégrale est donc nulle. 3.5.2 La formule de transfert Etant donnée une v.a X admettant une densité ρX et une fonction continue (ou continue par morceaux) on se propose de déterminer l’espérance de la v.a Y := f (X). Nous admettrons le résultat suivant : 3.5. ESPÉRANCE DES V.A ADMETTANT UNE DENSITÉ 37 Théorème 3.5.2 Si X : Ω → R est une v.a admettant une densité ρX et f : R → R est une fonction continue (ou continue par morceaux) alors la v.a R∞ Y = f (X) est P-intégrable si et seulement si l’intégrale −∞ |f (x)|ρX (x)dx est finie, et dans ce cas l’espérance de Y = f (X) est donnée par Z f (x)ρX (x)dx. E(f (X)) = R Exercice 3.5.3 Calculer E(Y ) où Y = X 2 est le carré d’une v.a suivant une loi normale centrée réduite. Solution. Par intégration par parties on a 1 E(X ) = √ 2π 2 Z ∞ Z ∞ 1 2 dx = √ x(xe−x /2 )dx 2π −∞ Z ∞ 1 d 2 =√ x (−e−x /2 )dx 2π −∞ dx Z ∞ 1 2 √ = e−x /2 dx = 1. 2π −∞ 2 −x2 /2 x e −∞ Remarque : Dans le cas général des v.a de la forme Y = f (X) où X : Ω → R est une v.a et f : R → R est continue, la forme générale de la formule de transfert fait intervenir la loi de X : Z E(f (X)) = f (x)dµX (x) R dès que l’intégrale converge. 3.5.3 Application au calcul de densité Le problème qui nous intéresse dans cette section est le suivant : étant donnée une v.a X dont on connait la densité ρX , déterminer la densité, si elle existe, de la v.a Y = f (X), où f est une fonction continue de R dans R. Le résultat qui va nous permettre d’aborder cette question est le théorème suivant que nous admettrons : Théorème 3.5.4 Si X est une v.a telle que pour toute fonction continue bornée φ : R → R on a Z ∞ E(φ(X)) = φ(x)ρX (x)dx, −∞ alors X admet ρX pour densité. 38 CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLES Méthode de calcul de la densité de Y = f (X) Supposons que Y admette une densité ρY . On doit alors avoir pour toute fonction continue bornée φ : R → R Z ∞ φ(y)ρY (y)dy. E(φ(Y )) = −∞ Mais φ(Y ) = φ(f (X)) = φ ◦ f (X) et on a donc Z ∞ φ ◦ f (x)ρX (x)dx. E(φ(Y )) = E(φ ◦ f (X)) = −∞ Supposons que f soit une bijection dérivable de R dans R, envoyant R sur R. La formule classique de changement de variable montre que (x = f −1 (y), dx = 1/f 0 (f −1 (y))dy) Z ∞ Z ∞ 1 φ ◦ f (x)ρX (x)dx = φ(y) 0 −1 ρX (f −1 (y))dy. |f (f (y))| −∞ −∞ En conclusion, pour toute fonction φ continue de R → R Z ∞ Z ∞ 1 ρX (f −1 (y))dy φ(y)ρY (y)dy = φ(y) 0 −1 |f (f (y))| −∞ −∞ et il est naturel de penser que ρY (y) = 1 ρX (f −1 (y)). |f 0 (f −1 (y))| (3.2) Justifions le fait que c’est effectivement le cas. Le calcul précédent montre que pour toute fonction continue bornée φ : R → R on a Z ∞ 1 E(φ(Y )) = φ(y) 0 −1 ρX (f −1 (y))dy. |f (f (y))| −∞ Mais d’après le théorème 3.5.4 ceci implique que Y admet une densité et que celle-ci est donnée par la formule (3.2). On pourrait démontrer de la même manière : Théorème 3.5.5 Soient X une v.a de densité ρX prenant ses valeurs dans un intervalle I (fini ou infini) et f : I → J est une application de classe C 1 pas nécessairement bijective mais telle que tout point y ∈ J ait un nombre fini d’antécédents. Alors, la v.a Y = f (X) admet une densité ρY dont l’expression est donnée par ρY (y) = X x∈f −1 (y) ρX (x) · 1J . |f 0 (x)| L’expression précédente peut prendre la valeur ∞ mais la fonction positive ρY restera d’intégrale 1. 3.5. ESPÉRANCE DES V.A ADMETTANT UNE DENSITÉ 39 Exercice. Supposons que X admette une densité ρX . Déterminer la densité, si elle existe de Y = X 2 . Application au cas où X suit une loi normale N (0, 1). Solution. On a Y = f (X) où f (x) = x2 est une bijection de I− =]−∞, 0[ sur ]0, ∞[ et de I+ =]0, ∞[ sur ]0, ∞[ (f est une fonction continue strictement décroissante sur I− =] − ∞, 0] et strictement croissante sur I+ = [0, ∞[.) Pour toute fonction φ : R → R continue et bornée Z ∞ φ(f (x))ρX (x)dx. E(φ(Y )) = E(φ ◦ f (X)) = −∞ Ecrivons Z ∞ Z 0 2 Z φ(x )ρX (x)dx + φ(f (x))ρX (x)dx = −∞ −∞ ∞ φ(x2 )ρX (x)dx 0 et effectuons dans chacune des intégrales du membre de droite le changement de variable y = x2 : Z 0 Z ∞ √ dy φ(x2 )ρX (x)dx = φ(y)ρX (− y) √ , 2 y −∞ 0 Z ∞ Z ∞ √ dy 2 φ(x )ρX (x)dx = φ(y)ρX ( y) √ , 2 y 0 0 si bien que ∞ 1 √ √ E(φ(Y )) = φ(y) ρX (− y) + ρX ( y) √ dy 2 y 0 Z 1 √ √ = φ(y) ρX (− y) + ρX y) √ . 1]0,∞[ (y)dy 2 y R Z et comme cette formule est vraie pour toute fonction φ : R → R continue bornée, on peut conclure que Y admet une densité ρY égale à 1 √ √ ρY (y) = ρX (− y) + ρX ( y) √ . 1]0,∞[ (y). 2 y (Ne pas oublier le terme 1]0,∞[ (y).) √ 2 Si X suit une loi normale N (0, 1) sa densité est ρX (x) = (1/ 2π)e−x /2 et la densité de Y = X 2 vaut 1 e−y/2 ρY (y) = √ √ 1]0,∞[ (y). y 2π Exercice. Si X suit une loi normale centrée réduite, déterminer la loi de Y = σX + µ. 40 CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLES Solution. On a Y = f (X) où f (x) = ax + b. C’est une bijection C 1 de R sur R. La formule du théorème 3.5.5 montre donc que la densité de Y est √ 1 2πσ 2 2 /2σ 2 e−(x−µ) , c’est-à-dire est une loi N (0, σ 2 ). 3.6 3.6.1 Variance Variables aléatoires de carré intégrable Définition 3.6.1 On dit qu’une v.a X est dans L2 (Ω, B, P) si son carré est P-intégrable, c’est-à-dire si E(|X|2 ) < ∞. L’espace L2 (Ω, B, P) est stable par combinaisons linéaires : Théorème 3.6.2 L’espace L2 (Ω, B, P) est un R-espace vectoriel, c’est-àdire que si a, b ∈ R et X, Y ∈ L2 (Ω, B, P) on a aussi aX + bY ∈ L2 (Ω, B, P). En outre, la propriété suivante est toujours vérifiée (inégalité de Minkowski) : E(|X + Y |2 )1/2 ≤ E(|X|2 )1/2 + E(|Y |2 )1/2 . Une propriété très utile des espaces L2 est la propriété de Cauchy-Schwarz (qui permet entre autres choses de démontrer l’inégalité de Minkowski) : Théorème 3.6.3 (Cauchy-Schwarz) Si X et Y sont des v.a dans L2 (Ω, B, P) alors le produit XY est dans L1 (Ω, B, P) et on a |E(XY )| ≤ E(|X|2 )1/2 E(|Y |2 )1/2 avec égalité si et seulement si X et Y sont colinéaires. 3.6.2 Variance Nous pouvons à présent définir la variance d’une v.a de carré intégrable. Si X est dans L2 (Ω, B, P) la v.a X −E(X) est également dans L2 (Ω, B, P) puisque c’est une somme de deux v.a de L2 (Ω, B, P) (une v.a constante est toujours dans L2 (Ω, B, P)). Définition 3.6.4 La variance d’une v.a dans L2 (Ω, B, P) est la quantité VarX := E(|X − E(X)|2 ). La racine carrée σ de ce nombre s’appelle l’écart type de X. 3.6. VARIANCE 41 La variance est donc la moyenne (l’espérance) des carrés des écarts de X par rapport à E(X). Elle mesure le caractère plus ou moins diffus, étalé, de la variable aléatoire X. Le calcul suivant E(|X − E(X)|2 ) = E(X 2 − 2XE(X) + E(X)2 ) = E(X 2 ) − 2E(X)2 + E(X)2 = E(X 2 ) − E(X)2 démontre : Proposition 3.6.5 Si X ∈ L2 (Ω, B, P), on a Var(X) = E(X 2 ) − E(X)2 . De plus, si σ ∈ R, alors Var(σX) = σ 2 Var(X). 3.6.3 Calcul de variance des v.a à valeurs dans N Fonctions génératrices Un outil très utile pour calculer les moments d’ordre p d’une v.a à valeurs dans N est d’introduire la fonction génératrice de X. Définition 3.6.6 La fonction génératrice d’une v.a X à valeurs dans N est la fonction définie par gX (t) = E(tX ) = X tk P(X = k). k∈N L’intérêt de gX réside dans la proposition suivante : Proposition 3.6.7 On a toujours d gX (t) = E(X) t→1,t<1 dt lim et de façon plus générale dp gX (t) = E(X(X − 1) · · · (X − p + 1)). t→1,t<1 dtp lim Démonstration. — Si X ne prend qu’un nombre fini de valeurs dans {0, 1, . . . N }, il suffit de calculer N X N dp X k t P(X = k) = k(k − 1) · · · (k − p + 1)tk−p P(X = k). dtp k=0 k=0 Pour t = 1 on obtient le résultat d’après la formule de transfert. 42 CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLES Dans le cas général où X prend ses valeurs dans N on peut procéder de la façon suivante : pour 0 ≤ t < 1, ∞ X ∞ dp X k t P(X = k) = k(k − 1) · · · (k − p + 1)tk−p P(X = k), dtp k=0 k=0 car les séries sont uniformément P convergentes. La série du membre de droite converge quand t → 1− vers ∞ k=0 k(k − 1) · · · (k − p + 1)P(X = k) d’après le théorème de convergence monotone et cette quantité égale E(X · · · (X − p + 1)) d’après le théorème de transfert. 2 En particulier, pour la variance, Var(X) = E(X 2 ) − E(X)2 = E(X(X − 1)) + E(X) − E(X)2 00 0 0 = gX (1) + gX (1) − (gX (1))2 . Exemples Loi géométrique. La v.a. X prend ses valeurs dans N et P (X = k) = (1 − a)ak (0 ≤ a < 1). Ainsi gX (t) = (1 − a) ∞ X tk ak = (1 − a) k=0 1 1 − ta dès que que 0 ≤ t < a−1 . De plus 0 gX (t) = a 1−a , (1 − ta)2 et donc E(X) = a , 1−a 00 gX (t) = 2a2 Var(X) = 1−a , (1 − ta)3 a . (1 − a)2 Loi binomiale. Si la v.a X suit une loibinomiale (p, n) elle prend ses valeurs dans {0, 1, . . . , n} et P(X = k) = nk pk (1 − p)n−k . Ainsi n X n k k gX (t) = t p (1 − p)n−k = (tp + 1 − p)n , k k=0 si bien que 0 gX (t) = pn(tp + 1 − p)n−1 , 00 gX (t) = p2 n(n − 1)(tp + 1 − p)n−2 , et donc E(X) = np, Var(X) = np(1 − p). 3.6. VARIANCE 43 Loi de Poisson. Si la v.a X suit une loi de Poisson de paramètre λ, elle k prend ses valeurs dans N et P(X = k) = e−λ λk! . Ainsi gX (t) = e−λ ∞ X tk λk k=0 1 = e−λ etλ = e(t−1)λ . k! Ainsi, 0 gX (t) = λe(t−1)λ , 00 gX (t) = λ2 e(t−1)λ , et donc E(X) = λ, Var(X) = λ. Mentionnons enfin une propriété très utile des fonctions génératrices : une fonction génératrice caractérise de façon unique la loi de la variable aléatoire qui la définit. Proposition 3.6.8 Soient X et Y deux v.a à valeurs dans N et supposons que pour tout 0 ≤ t < 1 (ou même pour tout t ∈]a, b[⊂ [0, 1[) on ait gX (t) = gY (t). Alors, X et Y ont même loi : pour tout k ∈ N, P(X = k) = P(Y = k). 3.6.4 Cas des v.a admettant une densité Si X est une v.a admettant une densité ρX , alors d’après la formule de transfert, X est dans L2 (Ω, B, P) si et seulement si Z ∞ E(X 2 ) = x2 ρX (x)dx −∞ est finie. Exemples Loi uniforme. La variable aléatoire X : Ω → R suit une loi uniforme sur l’intervalle [a, b] si sa densité est donnée par ρX (x) = 1 · 1 (x). b − a [a,b] On a Z 1 1 E(X) = x· · 1[a,b] (x)dx = b−a b−a R Z b xdx = a 1 x2 b a+b [ ]a = b−a 2 2 ce qui est conforme à l’intuition : en moyenne, un point jeté au hasard sur l’intervalle (a, b) sera situé au milieu de l’intervalle (a, b). De plus Z Z b 1 1 b3 − a3 a2 + b2 + ab 2 2 E(X ) = x · ·1[a,b] (x)dx = x2 dx = = b−a b−a a 3(b − a) 3 R 44 CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLES puisque b3 − a3 = (b − a)(b2 + ab + a2 ), et donc la variance de X est a2 + b2 + ab Var(X) = E(X ) − E(X) = − 3 2 Loi exponentielle de paramètre θ. 2 a+b 2 = (b − a)2 . 12 La v.a X admet une densité ρX (x) = θe−θx 1[0,∞[ (x). On a Z ∞ −θx xθe E(X) = −∞ Z ∞ −θx xθe 1[0,∞[ (x)dx = 0 1 dx = θ Z 0 ∞ 1 ue−u du = , θ après changement de variable et intégration par parties. Le moment d’ordre 2 s’obtient de façon analogue : Z Z ∞ 2 1 ∞ 2 −u u e du = 2 E(X 2 ) = x2 θe−θx dx = 2 θ θ 0 0 après changement de variable et deux intégrations par parties. On a donc Var(X) = E(X 2 ) − E(X)2 = 1 . θ2 Loi normale N (µ, σ 2 ). On a vu plus haut que si Y suit une loi N (µ, σ 2 ) alors elle est de la forme σX +µ où X suit une loi normale N (0, 1) de densité 1 2 √ e−x /2 . 2π On sait que pour une telle loi, E(X) = 0 et Var(X) = 1. Par conséquent, E(Y ) = σE(X) + µ = µ et Var(Y ) = σ 2 Var(X) = σ 2 . 3.7 Inégalité de Markov et de Bienaymé-Tchebychev L’intérêt de considérer les moments d’une v.a X réside dans les propositions suivantes. Proposition 3.7.1 Si X est une v.a dans L1 (Ω, P) on a pour tout λ > 0 P(|X| ≥ λ) ≤ Démonstration. — E(|X|) . λ La v.a |X| peut sécrire |X| = |X| · 1{|X|≥λ} + |X| · 1{|X|<λ} , 3.8. VECTEURS ALÉATOIRES 45 et par additivité et positivité de l’espérance on a E(|X|) ≥ E(|X| · 1{|X|≥λ} ). Or |X| · 1{|X|≥λ} ≥ λ · 1{|X|≥λ} , et par conséquent E(|X|) ≥ λE(1{|X|≥λ} ), c’est-à-dire E(|X|) ≥ λP({|X| ≥ λ}, 2 ce qui est la conclusion de la proposition. La proposition précédente est une version quantitative du fait que la probabilité que X prenne de grandes valeurs a tendance à être petite. Si on a des informations sur les moments d’ordre supérieurs l’estimation précédente est meilleure : Proposition 3.7.2 Si X est une v.a dans L2 (Ω, B, P) on a pour tout λ > 0 P(|X| ≥ λ) ≤ E(|X|2 ) . λ2 Démonstration. — Il suffit de remarquer que {|X| ≥ λ} = {X 2 ≥ λ2 } et d’appliquer la proposition précédente à la v.a Y = X 2 . 2 Appliquée à la v.a Y = X − E(X), la proposition précédente donne le théorème de Bienaymé-Tchebychev : Théorème 3.7.3 Si X est une v.a dans L2 (Ω, B, P) on a pour tout λ > 0 P(|X − E(X)| ≥ λ) ≤ Si on note σ = Var(|X|) . λ2 p Var(X) l’écart type on a donc P(|X − E(X)| ≥ λσ) ≤ 1 · λ2 Ceci justifie le nom d’écart type donné à σ. Le théorème de Bienaymé-Tchebychev permet d’obtenir les probabilités des déviations importantes de la v.a X par rapport à sa moyenne. 3.8 Vecteurs aléatoires Un vecteur aléatoire est un n-uplet de variables aléatoires réelles X = (X1 , . . . , Xn ). 46 CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLES 3.8.1 Loi d’un vecteur aléatoire Définition 3.8.1 Si X1 , . . . , Xn sont des v.a, on appelle loi du vecteur aléatoire X = (X1 , . . . , Xn ) la donnée de tous les quantités P(X1 ∈ I1 , . . . , Xn ∈ In ) pour tous intervalles I1 , . . . , In de R. Cas des v.a. prenant un nombre fini ou dénombrable de valeurs Si chacune des v.a. Xi prend ses valeurs dans un ensemble Ei fini ou dénombrable (i = 1, . . . , n), la loi du vecteur X = (X1 , . . . , Xn ) est déterminée par les nombres P(X1 = e1 , . . . , Xn = en ), où (e1 , . . . , en ) ∈ E1 × · · · × En . Cas des v.a admettant une densité Si chacune des v.a. Xi admet une densité, il est possible de démontrer que le vecteur X = (X1 , . . . , Xn ) admet une densité, c’est-à-dire qu’il existe une fonction ρ(x1 , . . . , xn ) telle que pour tous intervalles I1 , . . . , In Z P(X1 ∈ I1 , . . . , Xn ∈ In ) = ρ(x1 , . . . , xn )dx1 · · · dxn . (3.3) I1 ×···×In Réciproquement, si le vecteur aléatoire X = (X1 , . . . , Xn ) admet une densité ρ au sens de (3.3) alors chacune des v.a Xi admet une densité ρi telle que pour tout intervalle I de R on a Z ci · · · dxn P(Xi ∈ I) = ρ(x1 , . . . , xi , . . . xn )dx1 · · · dx (3.4) R×···×R où le chapeau signifie que l’on n’intègre pas sur la variable xi ; on intègre donc dans Rn−1 . 3.8.2 Formules de transfert Etant donné un vecteur aléatoire X = (X1 , . . . , Xm ) et f : Rm → Rp (x1 , . . . , xm ) 7→ (f1 (x1 , . . . , xm ), . . . , fp (x1 , . . . , xm )) une application continue, on cherche à calculer l’espérance de Y = f (X) c’est-à-dire que l’on veut calculer le vecteur E(Y ) = (E(Y1 ), . . . , E(Yp )) où Yj = fj (X1 , . . . , Xm ). Le problème se ramène donc au suivant : étant donné X = (X1 , . . . , Xm ) un vecteur aléatoire calculer E(φ(X1 , . . . , Xm )) où φ est une application de Rm dans R. Ce problème se résout de la même façon que dans le cas m = 1 (variables aléatoires). Nous donnons les résultats sans démonstration (les preuves sont identiques à celles du cas m = 1). 3.8. VECTEURS ALÉATOIRES 47 Cas de vecteurs aléatoires à valeurs dans un ensemble fini ou dénombrable. Si X = (X1 , . . . , Xm ) prend ses valeurs dans E1 × · · · × Em on a X E(φ(X1 , . . . , Xm )) = φ(e1 , . . . , em )P(X1 = e1 , . . . , Xm = em ). e1 ∈E1 ,...,em ∈Em Cas de vecteurs aléatoires admettant une densité. Si le vecteur aléatoire X = (X1 , . . . , Xm ) admet une densité ρX (x1 , . . . , xm ) on a Z Z E(φ(X1 , . . . , Xm )) = · · · φ(x1 , . . . , xm )ρX (x1 , . . . , xm )dx1 · · · dxm . R 3.8.3 R Loi d’une somme de v.a Théorème 3.8.2 Soient X et Y deux v.a. — Si les v.a X, Y prennent leurs valeurs dans des ensembles finis ou dénombrables et si p est la loi du vecteur aléatoire (X, Y ), alors la loi pX+Y de X + Y vérifie pour tout e X pX+Y (e) = p(e1 , e2 ). e1 +e2 =e — Si le vecteur aléatoire (X, Y ) admet pour densité ρ alors la v.a X +Y admet pour densité ρX+Y : Z ρX (x − y, y)dy. ρX+Y (x) = R Démonstration. — Faisons la preuve dans le second cas. i) Introduisons le vecteur aléatoire Z = (X + Y, Y ) et calculons sa loi. Pour toute fonction φ : R2 → R continue bornée, E(φ(Z)) = E(φ(X + Y, Y )) = E(ψ(X, Y )), où ψ : R2 → R est définie par ψ(x, y) = φ(x + y, y). Comme (X, Y ) admet une densité ρ on a d’après la formule de transfert Z Z E(ψ(X, Y )) = ψ(x, y)ρ(x, y)dxdy = φ(x + y, y)ρ(x, y)dxdy 2 R2 ZR Z = φ(x + y, y)ρ(x, y)dx dy. R R Effectuons le changement de variables (y étant fixé) u = x + y, x = u − y dans l’intégrale du milieu : Z Z φ(u, y)ρ(u − y, y)du dy E(ψ(X, Y )) = R R 48 CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLES et donc Z E(φ(Z)) = φ(u, v)ρ(u − v, v)dudv. R2 Ceci étant vrai pour toute fonction φ continue bornée on peut dire que Z = (U, V ) = (X+Y, Y ) admet une densité donnée par ρZ (u, v) = ρ(u−v, v). ii) La formule (3.4) montre que la densité de X + Y est ρX : Z ∞ ρ(x − v, v)dv. ρX (x) = −∞ 2 3.9 3.9.1 Variables aléatoires indépendantes Définition La notion d’indépendance de n v.a est la suivante : Définition 3.9.1 Une suite X1 , . . . , Xn de variables aléatoires est dite indépendante si pour tous intervalles I1 , . . . , In de R, P(X1 ∈ I1 , . . . , Xn ∈ In ) = P(X1 ∈ I1 ) · · · P(Xn ∈ In ). Définition 3.9.2 Une famille (quelconque, finie ou infinie) (Xi )i∈I de v.a est dite indépendante si toute sous-famille finie (Xi )i∈J , J ⊂ I fini, est indépendante. 3.9.2 Cas des v.a à valeurs dans un ensemble discret Si les Xi sont à valeurs dans des ensembles finis ou dénombrables Ei la définition précédente se simplifie : Proposition 3.9.3 La famille (X1 , . . . , Xn ) est indépendante si et seulement si pour tout (e1 , . . . , en ) ∈ E1 × · · · × En on a P(X1 = e1 , . . . , Xn = en ) = P(X1 = e1 ) · · · P(Xn = en ). Définition 3.9.4 Si on note pXi (e) := P(Xi = e) et p(e1 , . . . , en ) = P(X1 = e1 , . . . , Xn = en ) on dit que p est la loi du vecteur aléatoire (X1 , . . . , Xn ). Ainsi, X1 , . . . , Xn sont indépendantes si et seulement si pour tous ei p(e1 , . . . , en ) = pX1 (e1 ) · · · pXn (en ). 3.9. VARIABLES ALÉATOIRES INDÉPENDANTES 3.9.3 49 Cas des v.a admettant des densités Proposition 3.9.5 Si les X1 , . . . , Xn sont des v.a indépendantes admettant des densités ρX1 , . . . , ρXn alors pour tous intervalles I1 , . . . , In de R on a Z P(X1 ∈ I1 , . . . , Xn ∈ In ) = ρ(x1 , . . . , xn )dx1 · · · dxn I1 ×···×In où ρ(x1 , . . . , xn ) = ρX1 (x1 ) · · · ρXn (xn ). On dit que ρ est la densité du vecteur aléatoire X = (X1 , . . . , Xn ). Démonstration. — En effet pour tous intervalles I1 , . . . , In , P(X ∈ I1 × · · · × In ) = P(X1 ∈ I1 ) · · · P(Xn ∈ In ) Z Z ρXn (xn )dxn = ρX1 (x1 )dx1 · · · In I1 Z = ρX1 (x1 ) · · · ρXn (xn )dx1 · · · dxn . I1 ×···×In 2 3.9.4 Loi d’une somme de v.a indépendantes Nous pouvons à présent calculer la densité d’une somme de v.a indépendantes en utilisant les résultats des sous-sections précédentes et le théorème 3.8.2 Théorème 3.9.6 Soient X et Y deux v.a indépendantes. — Si X et Y sont des v.a prenant leurs valeurs dans des ensembles finis ou dénombrables et admettant respectivement pour loi pX et pY alors la loi pX+Y de X + Y vérifie pour tout e X pX+Y (e) = pX (e1 )pY (e2 ). e1 +e2 =e — Si X et Y sont des v.a admettant respectivement pour densité ρX et ρY alors la v.a X + Y admet pour densité ρX+Y : Z ρX+Y (x) = ρX (x − y)ρY (y)dy. R 3.9.5 Espérance des produits de v.a indépendantes Le théorème fondamental de cette section est le suivant : Théorème 3.9.7 Si X1 , . . . , Xn est une famille de v.a indépendantes et dans L1 (Ω, B, P) alors le produit Y = X1 · · · Xn est également une v.a dans L1 (Ω, B, P) et son espérance est égale au produit des espérances des Xi : E(X1 · · · Xn ) = E(X1 ) · · · E(Xn ). 50 CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLES Démonstration. — Donnons une preuve de ce résultat dans le cas où les Xi sont à valeurs dans un ensemble fini, et dans le cas n = 2. Supposons donc que X1 , X2 sont à valeurs dans un ensemble fini E. Notons f : R2 → R l’application définie par f (x1 , x2 ) = x1 · x2 . On a d’après la formule de transfert X f (e1 , e2 )P(X1 = e1 , X2 = e2 ) E(f (X1 , X2 )) = (e1 ,e2 )∈E×E X = e1 e2 P(X1 = e1 ), P(X2 = e2 ) (e1 ,e2 )∈E×E = X X e1 P(X1 = e1 ) e2 P(X2 = e2 ) e2 ∈E (e1 ∈E = E(X1 )E(X2 ). 2 Remarque. Dans le cas où les v.a Xi admettent des densités (continues) ρXi on peut donner la preuve suivante. La formule de transfert appliquée à Y = f (X1 , X2 ) = X1 · X2 donne Z E(X1 · X2 ) = f (x1 , x2 )ρX (x1 , x2 )dx1 dx2 . R×R Or on sait que ρX (x1 , x2 ) = ρX1 (x1 )ρX2 (x2 ) si bien que Z E(X1 · X2 ) = x1 x2 ρX1 (x1 )ρX2 (x2 )dx1 dx2 R×R Z Z = x1 ρX1 (x1 ) x2 ρX2 (x2 ) = E(X1 )E(X2 ). R R Remarque. Attention, la réciproque du résultat précédent est fausse : si deux v.a X, Y sont telles que E(XY ) = E(X)E(Y ) on ne peut pas conclure que X, Y sont indépendantes. En revanche : Théorème 3.9.8 Une famille X1 , . . . , Xn de v.a est indépendante si et seulement si pour toutes fonctions continues bornées φ1 , . . . , φn de R → R on a E(φ1 (X1 ) · · · φn (Xn )) = E(φ1 (X1 )) · · · E(φn (Xn )). 3.9.6 Critères d’indépendance Dans la pratique il est important de déterminer si une famille de v.a est indépendante. Un cas courant est le suivant : on suppose donnée une famille de v.a indépendantes X1 , X2 , . . . et on construit, à partir des Xi , de nouvelles v.a Y1 , Y2 , . . .. Par exemple, on peut définir Y1 = X1 , Y2 = X1 +X2 , 3.9. VARIABLES ALÉATOIRES INDÉPENDANTES 51 Yn = X1 + · · · + Xn , etc, mais on pourrait définir les Yi par Y1 = X1 + X2 , Y2 = X2 + X3 , Yn = Xn + Xn+1 etc. ou faire des choses plus compliquées. On se propose alors de savoir si la famille ainsi construite est indépendante. Le théorème qui suit permet dans certains cas de répondre à cette question. Théorème 3.9.9 Soient (Xi )i∈N une famille de v.a indépendantes et (Ji ) (i = 1, 2, . . .) des sous-ensembles finis de N qui forment une partition de N (i.e les Ji sont non vides, N = ∪i≥1 Ji et Ji ∩ Jj = ∅ si i 6= j). Supposons données des applications (continues, continues par morceaux,...) fi de R#Ji → R et posons Yi = fi (Xi1 , . . . , Xi#Ji ) (où i1 < · · · < i#Ji sont les éléments de Ji ). Alors, la famille de v.a Y1 , Y2 , . . . est indépendante. Ainsi, si la famille de v.a X1 , X2 , . . . est indépendante, il en est de même de X1 + X2 , X3 + X4 , . . . , X2n−1 + X2n , . . .. En revanche, la suite de v.a X1 + X2 , X2 + X3 , X3 + X4 , . . . ne sera en général pas indépendante. 3.9.7 Variance d’une somme de v.a indépendantes Si (Xi )i∈N est une famille de v.a, indépendantes ou non, on a toujours E(X1 + · · · + Xn ) = E(X1 ) + · · · + E(Xn ). Si en outre on suppose la famille indépendante on peut calculer facilement la variance de X1 + · · · + Xn . Théorème 3.9.10 Soit (Xi )i∈N une famille de v.a indépendantes. Alors Var(X1 + · · · + Xn ) = Var(X1 ) + · · · + Var(Xn ). Démonstration. — Soit S := X1 + · · · + Xn ; il suffit de calculer Var(S) = E(S 2 ) − (E(S))2 . On a X X E(S 2 ) = E( Xi · Xj ) = E(Xi Xj ). 1≤i,j≤n 1≤i,j≤n Or quand i 6= j on a d’après l’hypothèse d’indépendance E(Xi Xj ) = E(Xi )E(Xj ). En décomposant la somme précédente en i = j et i 6= j on a donc E(S 2 ) = n X X E(Xi2 ) + i=1 E(Xi )E(Xj ). 1≤i6=j≤n D’autre part, (E(S))2 = X E(Xi )E(Xj ). 1≤i,j≤n On a donc 2 2 Var(S) = E(S ) − (E(S)) = n X i=1 E(Xi2 ) − n X i=1 2 E(Xi ) = n X Var(Xi ). i=1 2 52 CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLES Exercice 3.9.11 a) Calculer l’espérance et la variance d’une v.a suivant une loi de Bernoulli P(X = 1) = p, P(X = 0) = 1 − p. b) On suppose que les v.a (Xi )i∈N sont indépendantes et suivent chacune une loi de Bernoulli de paramètre p. Calculer l’espérance et la variance de X1 + · · · + Xn . c) Comparer avec l’espérance et la variance d’une loi binomiale (n, p). Chapitre 4 Théorèmes limites Soit X1 , . . . , Xn , . . . une famille de v.a indépendantes et introduisons les v.a Sn = X1 + · · · + Xn . Si par exemple les v.a Xi ont même loi, l’intuition que nous avons des probabilités nous incite à penser que les moyennes 1 1 Sn = (X1 + · · · + Xn ) n n convergent quand n tend vers l’infini vers l’espérance E(X1 ) de X1 (et donc de chacun des Xi ). En effet, si par exemple les Xi suivent une loi de Bernoulli (1/2, 1/2) et forment une famille indépendante de v.a - les Xi modélisent donc un jeu infini de Pile/Face où les tirages sont indépendants - l’expérience ou l’intuition indique que 1 (X1 + · · · + Xn ) n converge vers le nombre (ou la v.a constante) 1/2 qui n’est rien d’autre que l’espérance de X1 . La première difficulté que nous rencontrons est de donner un sens à la convergence précédente. Rappelons la définition suivante qui introduit la notion de convergence presque sûre : Définition 4.0.12 (Convergence presque sûre) Soit (Ω, B, P) un espace probabilisé. On dit que la suite de v.a Yn converge P-presque sûrement vers la v.a Y si l’ensemble (il s’agit en fait d’un événement) des ω ∈ Ω pour lesquels la suite (Yn (ω))n converge vers Y (ω) est de P-probabilité 1. Le théorème fondamental de ce chapitre et qui est à la base de la théorie mathématique des probabilités est la loi forte des grands nombres : Théorème 4.0.13 Soit X1 , . . . , Xn , . . . une famille de v.a indépendante où les Xi ont même loi et sont dans L1 (Ω, P). Alors, la suite de v.a 1 (X1 + · · · + Xn ) n converge P-p.s vers la v.a constante E(X1 ). 53 54 CHAPITRE 4. THÉORÈMES LIMITES La démonstration de ce théorème fondamental dans cette généralité sort du cadre de ce cours, mais nous allons en donner une preuve sous des hypothèses plus fortes. Définition 4.0.14 On dit qu’une suite de v.a (Xn )n∈N est indépendante et identiquement distribuée (i.i.d.) si elle est indépendante et si les Xn suivent la même loi. 4.1 4.1.1 Lois des grands nombres Loi faible des grands nombres dans le cas L2 Supposons les Xi i.i.d. et de carré intégrable. Nous savons déjà d’après la linéarité de l’espérance que E(Sn ) = E(X1 ) + · · · + E(Xn ) et d’après l’indépendance Var(Sn ) = Var(X1 ) + · · · + Var(Xn ). Ainsi, comme les Xi ont même loi E(Sn ) = nE(X1 ), Var(Sn ) = n Var(X1 ). Le fait que la variance de la somme des n v.a X1 , . . . , Xn se comporte comme n et non pas comme n2 (c’est ici où intervient l’hypothèse d’indépendance) est l’observation fondamentale. Appliquons en effet l’inégalité de BienayméTchebychev : nV ar(X1 ) P(|Sn − nE(X1 )| ≥ λ) ≤ , λ2 ce qui peut s’écrire P(| Sn λ nV ar(X1 ) − E(X1 )| ≥ ) ≤ . n n λ2 Posons à présent λ = n où est un réel positif : P(| Sn V ar(X1 ) − E(X1 )| ≥ ) ≤ . n n2 Nous voyons donc que pour tout > 0 on a lim P(| n→∞ Sn − E(X1 )| ≥ ) = 0. n Introduisons la définition suivante : 4.1. LOIS DES GRANDS NOMBRES 55 Définition 4.1.1 (Convergence en probabilité) On dit que la suite de v.a (Yn )n converge en probabilité vers la v.a Y si pour tout > 0 on a lim P(|Yn − Y | > ) = 0. n→∞ Nous avons donc démontré la loi faible des grands nombres : Théorème 4.1.2 Si (Xi )i≥1 est une famille de v.a i.i.d. et dans L2 (Ω, P) alors la suite Sn /n converge en probabilité vers E(X1 ). 4.1.2 Démonstration de la loi forte des grands nombres On se limite au cas où les v.a sont L4 , c’est-à-dire quand E(|X1 |4 ) < ∞. i) Remarquons que l’hypothèse E(Xi4 ) < ∞ entraı̂ne que ∀k = 0, 1, 2, 3, 4, E(|Xi |k ) < ∞. (4.1) Pour k = 0 c’est évident. On a d’après l’inégalité de Cauchy-Schwarz (cf. 3.6.3) E(Xi2 · 1) ≤ E(Xi4 )1/2 E(12 )1/2 = E(Xi4 )1/2 < ∞. On a donc (4.1) pour k = 4 et k = 2. En appliquant de nouveau l’inégalité de Cauchy-Schwarz on a E(|Xi · 1|) ≤ E(Xi2 )1/2 E(12 )1/2 < ∞ ; ainsi (4.1) est vraie pour k = 1. Enfin, E(|Xi |3 ) = E(Xi2 |Xi |) ≤ E(Xi4 )1/2 E(Xi2 )1/2 < ∞. On a donc bien établi (4.1) pour k = 0, 1, 2, 3, 4. ii) Posons X̄k = Xk − E(Xk ) et S̄n = X̄1 + · · · + X̄k . La famille de v.a (X̄i )i est indépendante et les X̄i sont de même loi et d’espérance nulle : E(X̄i ) = 0. Vérifions que ∀k = 0, 1, 2, 3, 4, E(|X̄i |k ) < ∞. (4.2) Pour cela, il suffit de constater que E(|X̄|k ) ≤ E (|X| + E(|X|))k et que cette dernière quantité est une combinaison linéaire de termes de la forme E(|Xi |l )E(|X|)m pour l + m = k, 0 ≤ l, m ≤ k. On utilise alors (4.1) pour conclure. Pn iii) Posons S̄n = i=1 X̄i et remarquons que n X S̄n4 = ( X̄i )4 = X i=1 1≤i1 ,i2 ,i3 ,i4 ≤n X̄i1 X̄i2 X̄i3 X̄i4 et donc E(S̄n4 ) = X E(X̄i1 X̄i2 X̄i3 X̄i4 ). (4.3) 1≤i1 ,i2 ,i3 ,i4 ≤n On constate à présent que si les indices ir , r = 1, 2, 3, 4 sont distincts deux à deux on a d’après l’indépendance des X̄i et le fait que E(X̄i ) = 0 E(X̄i1 X̄i2 X̄i3 X̄i4 ) = E(X̄i1 )E(X̄i2 )E(X̄i3 )E(X̄i4 ) = 0 De la même manière si un indice est différent des trois autres, E(X̄i1 X̄i2 X̄i3 X̄i4 ) = 0 ; en effet si par exemple cet indice est i1 , X̄i1 est indépendant de X̄i2 X̄i3 X̄i4 et donc E(X̄i1 X̄i2 X̄i3 X̄i4 ) = E(X̄i1 )E(X̄i2 X̄i3 X̄i4 ) = 0 × E(X̄i2 X̄i3 X̄i4 ) = 0. 56 CHAPITRE 4. THÉORÈMES LIMITES Ceci montre que les seuls termes qui contribuent à la somme (4.3) sont les indices tels que #{i1 , i2 , i3 , i4 } est égal à 1 ou 2. Ainsi E(S̄n4 ) = 4 2 X X E(X̄i2 X̄j2 ) + 1≤i<j≤n E(X̄i4 ). 1≤i≤n En utilisant le fait qu’il y a n(n − 1)/2 termes dans la première somme du membre de droite de cette inégalité et que E(X̄i2 X̄j2 ) = E(X̄i2 )E(X̄j2 ) = E(X̄12 )2 (puisque les v.a X̄i2 et X̄j2 sont indépendantes si i 6= j) on a E(S̄n4 ) = 3n(n − 1)E(X̄12 )2 + nE(X̄14 ). Par conséquent, 4 S̄n 3E(X̄12 ) E(X̄14 ) E(S̄n4 ) ≤ + . = E n n4 n2 n3 iv) La dernière inégalité montre que 4 ∞ X S̄n E < ∞. n n=1 Mais on peut démontrer (c’est le théorème de convergence monotone) que 4 4 X X ∞ ∞ S̄n S̄n E = < ∞. E n n n=1 n=1 On a donc 4 X ∞ S̄n < ∞. E n n=1 Or, si l’espérance d’une v.a positive est finie, cette v.a est finie P-presque sûrement. Par conséquent, P-p.s. la somme 4 ∞ X S̄n n=1 n converge et en particulier S̄n n converge P-p.s. vers 0. Par définition de S̄n , ceci est équivalent au fait que lim n→∞ Sn = E(X1 ) P − p.s. n 4.2. THÉORÈME DE LA LIMITE CENTRALE 4.2 57 Théorème de la limite centrale Nous donnons une première version de ce théorème : Théorème 4.2.1 Soit X1 , . . . , Xn , . . . une famille de v.a. i.i.d. dans L2 (Ω, P). Notons µ = E(X1 ) et σ 2 = V ar(X1 ). Alors, pour tout intervalle I de R Z 1 Sn − nµ 2 √ √ e−x /2 dx. ∈I = lim P n→∞ σ n 2π I Une autre façon d’énoncer ce théorème est de dire que Z √ 1 n Sn 2 √ e−x /2 dx. −µ ∈I = lim P n→∞ σ n 2π I En d’autres termes, Sn /n−µ converge d’après la loi forte des grands nombres vers 0, la déviation des moyennes par rapport à l’espérance, “renormalisée” √ par le facteur n/σ, converge dans un certain sens vers une loi gaussienne normalisée (espérance nulle, variance égale à 1). Avant de passer à la preuve de ce théorème, nous devons faire quelques rappels et introduire quelques notions utiles. 4.2.1 Fonctions de répartition Se reporter à la section 3.2.2 4.2.2 Convergence en loi Définition 4.2.2 On dit qu’une suite de v.a (Yn )n∈N converge en loi vers une v.a Y si pour toute fonction continue bornée f : R → R lim E(f (Yn )) = E(f (Y )). n→∞ Un résultat fondamental (et admis) est le suivant : Théorème 4.2.3 Soient (Yn )n∈N une suite de v.a et Y une v.a. et notons FYn : R → [0, 1] et FY : R → [0, 1] les fonctions de répartition des v.a Yn , Y : FYn (t) = P(Yn ≤ t), FY (t) = P(Y ≤ t). La suite (Yn )n∈N converge en loi vers Y si et seulement si en tout point t0 où FY est continue à gauche lim FYn (t0 ) = FY (t0 ). n→∞ Un corollaire utile du théorème précédent est le suivant : 58 CHAPITRE 4. THÉORÈMES LIMITES Corollaire 4.2.4 Si les Yn convergent en loi vers une v.a Y qui admet une densité ρY alors pour tout intervalle I de R Z lim P(Yn ∈ I) = ρY (y)dy n→∞ I Démonstration. — En effet, dans ce cas FY est continue en tout point. 2 4.2.3 Fonctions caractéristiques Définition 4.2.5 Si Y est une v.a, la fonction caractéristique de Y est la fonction continue φY : R → R définie par φY (t) = E(eitY ) = E[cos(tY )] + i E[sin(tY )] où i est le nombre complexe de carré −1. Remarque. i) Pour t fixé la v.a eitY est bornée par 1 (puisque Y est à valeurs réelles) et est donc intégrable. ii) La fonction caractéristique d’une v.a ne dépend que de la loi de cette v.a. On peut préciser le résultat de continuité précédent (admis) : Proposition 4.2.6 Si Y est une v.a intégrable, alors la fonction caractéristique de Y est de classe C 1 (dérivable et de dérivée continue) et 0 itY φY (t) = E (iY )e . Si Y est dans Lp (Ω, P) la fonction caractéristique de Y est de classe C p et dp p itY φY (t) = E (iY ) e . dtp Exercice. Montrer que si Z = aY + b alors φZ (t) = eitb φY (ta). Calculons à présent les fonctions caractéristiques de certaines lois classiques. V.a discrètes. Si Y prend un nombre fini de valeurs y1 , . . . , yr et si on note pr = P(Y = yr ) on a φY (t) = E(eitY ) = r X k=1 eityk P(Y = yk ) = r X (eit )yk P(Y = yk ). k=1 Si Y est à valeurs entières on reconnait la fonction génératrice de Y au point eit . Le calcul des fonctions caractéristiques de v.a discrètes est exactement le même que celui que nous avons effectué au chapitre précédent. 4.2. THÉORÈME DE LA LIMITE CENTRALE 59 V.a admettant une densité ρY . Si Y a pour densité ρY alors Z ∞ eity ρY (y)dy. φY (t) = E(eitY ) = −∞ On reconnaı̂t la transformée de Fourier ρ̂Y (t) = tion ρY . R∞ −∞ e ity ρ (y)dy Y de la fonc- Exemple : Fonction caractéristique d’une gaussienne. Rappelons que si Z est une v.a suivant une loi gaussienne N (µ, σ) on peut l’écrire sous la forme Z = σY + µ où Y suit une loi gaussienne normalisée N (0, 1) de densité 1 2 ρ(y) = √ e−y /2 . 2π On a donc (exercice) : 1 φY (t) = √ 2π Z ∞ eity e−y 2 /2 2 /2 dy = e−t . −∞ Ainsi, la fonction d’une caractéristique d’une v.a suivant une loi gaussienne N (µ, σ) est 2 2 φZ (t) = eitµ−σ t /2 . Liens avec la convergence en loi Les fonctions caractéristiques jouent un rôle important dans les problèmes où interviennent des convergences en loi. Les deux théorèmes qui suivent illustrent ce fait. Théorème 4.2.7 La loi d’une v.a est déterminée par sa fonction caractéristique : si Y et Z sont deux v.a telles que pour tout t ∈ R φY (t) = φZ (t), alors Y et Z ont même loi : pour tout intervalle I de R P(Y ∈ I) = P(Z ∈ I). En particulier, elles ont la même fonction de répartition. La notion de fonction caractéristique est très utile pour donner un critère utile de convergence en loi. On a ainsi le théorème important suivant (admis) : Théorème 4.2.8 La suite de v.a (Yn )n∈N converge en loi vers Y si et seulement si pour tout t ∈ R lim φYn (t) = φY (t). n→∞ 60 CHAPITRE 4. THÉORÈMES LIMITES Fonction caractéristique d’une somme de v.a indépendantes Théorème 4.2.9 Si les v.a X1 , . . . , Xn forment une famille indépendante, alors pour tout t ∈ R φX1 +···+Xn (t) = φX1 (t) · · · φXn (t). Démonstration. — Par définition φX1 +···+Xn (t) = E[eitX1 · · · eitXn ]. On applique alors le théorème 3.9.8 aux fonctions continues bornées φi (x) = cos(tx) et sin(tx). 2 4.2.4 Démonstration du théorème de la limite centrale Soit donc X1 , . . . , Xn , . . . une famille indépendante de v.a qui sont de même loi et de carré intégrable. Notons µ = E(X1 ), σ = V ar(X1 ), Sn = X1 + · · · + Xn , Σn = (X1 − µ) + · · · + (Xn − µ) et Zn = Σn Sn − nE(X1 ) √ = √ . σ n σ n La formule de l’exercice du début de la section 4.2.3 montre que t √ . φZn (t) = φΣn σ n Comme Σn est la somme des v.a indépendantes Xi − µ, 1 ≤ i ≤ n et que ces v.a ont même loi, le théorème précédent assure que φΣn (t) = φX1 −µ (t)n . Si on pose φ(t) = φX1 −µ (t) on a donc φZn (t) = φ t √ n σ n . Puisque la v.a X1 − µ est de carré intégrable, la fonction φ est de classe C 2 . Par ailleurs, φ(0) = E(1), φ0 (0) = iE(X1 − µ), φ00 (0) = −E((X1 − µ)2 ), c’est-à-dire φ(0) = 1, φ0 (0) = 0, φ00 (0) = −σ 2 . D’après la formule de Taylor φ(t) = 1 − σ2 2 t + o(t2 ), 2 4.3. DIVERSES NOTIONS DE CONVERGENCE 61 et donc pour t fixé φZn (t) = 2 n √ t σ2 √ + o((t/(σ n))2 ) , 1− 2 σ n ou encore φZn (t) = t2 1 n 1− + o( ) . 2n n Pour n suffisamment grand, le nombre complexe 1 − (t2 )/(2n) + o(1/n) est dans la boule de centre 1 et de rayon 1/2 et on peut écrire 1 t2 + o( ) , φZn (t) = exp n log 1 − 2n n où log est la détermination principale du logarithme dans le plan complexe (qui admet le même développement en série que le logarithme réel). On a donc 2 t 2 φZn (t) = exp − + o(1) = e−(t /2) + o(1), 2 et ainsi 2 /2 lim φZn (t) = e−t n→∞ . On reconnait dans le membre de droite la fonction caractéristique d’une v.a gaussienne normalisée et le théorème 4.2.8 montre que Zn converge en loi vers une loi gausienne normalisée. 4.3 Diverses notions de convergence Rappelons les diverses notions de convergence que nous avons rencontrées. Soit (Ω, B, P) un espace probabilisé. Définition 4.3.1 (Convergence presque sûre) On dit qu’une suite de v.a (Xn )n∈N converge P-presque sûrement (et on écrit P-p.s.) vers une v.a X si l’ensemble des ω ∈ Ω pour lesquels limn→∞ Xn (ω) = X(ω), qui est un événement, est de probabilité 1. Définition 4.3.2 (Convergence en moyenne) On dit qu’une suite de v.a (Xn )n∈N converge en moyenne (ou dans L1 ) vers une v.a X si lim E(|Xn − X|) = 0. n→∞ Définition 4.3.3 (Convergence en probabilité) On dit qu’une suite de v.a (Xn )n∈N converge en probabilité vers une v.a X si pour tout > 0 on a lim P(|Xn − X| > ) = 0. n→∞ 62 CHAPITRE 4. THÉORÈMES LIMITES Définition 4.3.4 (Convergence en loi) On dit qu’une suite de v.a (Xn )n∈N converge en loi vers une v.a X si pour toute fonction continue bornée f : R→R lim E(f (Xn )) = E(f (X)). n→∞ Voici quelques liens entre ces diverses notions de convergence. Proposition 4.3.5 a) La convergence p.s et la convergence en moyenne impliquent la convergence en probabilité ; la convergence en probabilité (et donc la convergence p.s et la convergence en moyenne) implique la convergence en loi. b) S’il existe une constante A telle que |Xn | ≤ A la convergence en probabilité de Xn est équivalente à sa convergence en moyenne. c) Si une suite de v.a converge en loi vers une constante, alors elle converge en probabilité vers cette constante.