Chapitre 1 Vocabulaire probabiliste, notion de probabilité La théorie des probabilités est une branche des mathématiques (en pleine effervescence) dont le but vise à fournir un cadre rigoureux pour quantifier le hasard, ou encore pour modéliser un phénomène aléatoire. On souhaite, une fois les axiomes d’un modèle posés, être capable d’évaluer la chance (ou le risque) que tel ou tel évènement se produise. On ne prouvera pas qu’une pièce de monnaie donnée est parfaitement équilibrée. Mais, en décidant qu’elle l’est, on voudra être capable de donner la probabilité pour que sur 100 lancers de cette pièce, on obtienne exactement 50 fois Pile. 1.1 Le modèle probabiliste Exemple 1.1.1. On s’intéresse à l’expérience aléatoire consistant à lancer un dé à six faces numérotées de 1 à 6. L’ensemble des résultats possibles peut être représenté par l’ensemble Ω = {1, . . . , 6}. Si le dé est supposé équilibré, il est naturel de penser que chacun des résultats apparaît avec la même probabilité, ici 16 . On notera : pour tout ω ∈ Ω, P({ω}) = 61 . On peut aussi s’intéresser à un ensemble de résultats du type : “le nombre obtenu est pair”, on parlera d’évènement. Il s’agit ici de l’évènement {2, 4, 6}. Exemple 1.1.2. On souhaite modéliser l’expérience : “prendre un nombre au hasard dans [0, 1]”. La modélisation est ici plus délicate. Quelle est la probabilité d’obtenir 12 ? Depuis les travaux d’Andreï Kolmogorov dans les années 1930, le cadre général du calcul des probabilités s’appuie sur celui de la théorie de la mesure. Il est basé sur un triplet fondamental (Ω, A, P) où 1. Ω est appelé ensemble fondamental (ou univers), il décrit l’ensemble des résultats possibles d’une expérience aléatoire. Un élément ω ∈ Ω est appelé un résultat élémentaire. Ω pourra être fini, dénombrable, R, R2 , . . . mais on verra que la plupart du temps il ne sera pas explicite ! 2. A est un sous-ensemble de P(Ω) appelé ensemble des évènements. Lorsque Ω est fini ou dénombrable, on prendra souvent A = P(Ω), mais dans des cas plus élaborés, on verra qu’il conviendra de prendre un sous-ensemble strict de P(Ω). Néanmoins, A devra obéir avec des règles algébriques simples qui feront de cet ensemble une tribu. 3. P est une fonction sur A, qui a A ∈ A associe un nombre P(A) compris entre 0 et 1, représentant la “chance” que l’évènement A se réalise (0 = aucune chance et 1 = sûr à 100%). On aura donc P(Ω) = 1. CHAPITRE 1. VOCABULAIRE PROBABILISTE, NOTION DE PROBABILITÉ La théorie du calcul des probabilités, et notamment les manipulations sur les évènements, utilise le langage de la théorie des ensembles. Ainsi : — — — — — — — — ∅ est l’évènement impossible, Ω est l’évènement certain, ω ∈ A signifie que le résultat ω est une réalisation possible de l’évènement A, A ⊂ B signifie que la réalisation de A implique celle de B , l’évènement A ∪ B est réalisé lorsque A ou B se réalisent, l’évènement A ∩ B est réalisé lorsque A et B se réalisent, Ac est l’évènement contraire de A, A ∩ B = ∅ signifie que A et B sont incompatibles. Exemple 1.1.3. On reprend l’exemple du lancer d’un dé. Ici Ω = {1, . . . , 6}, A = P(Ω), et P est la mesure uniforme sur Ω. Si A est l’évènement “le résultat est pair”, B est “le résultat est impair” et C est “le résultat est un nombre premier”, alors A et B sont incompatibles, Ac = B , ou encore A ∩ C = {2}. On aura P(A) = P(B) = P(C) = 12 , tandis que P(A ∩ B) = 0 et P(A ∩ C) = 16 . Exercice 1.1.4. On souhaite modéliser l’expérience aléatoire consistant en n lancers successifs d’une pièce de monnaie. Donner Ω. Écrire de façon ensembliste l’évènement A =“il n’y a pas eu de Pile lors des deux premiers lancers”, ainsi que les évènements Li =“on a obtenu Pile au i-ème lancer”, i = 1, . . . , n. Exprimer A à l’aide des Li . Exprimer l’évènement “on a obtenu au moins un Face” à l’aide des Li . 1.2 L’ensemble des évènements Définition 1.2.1. Soit Ω un ensemble non vide et A un sous-ensemble de P(Ω). On dira que A est une tribu si A contient Ω et est stable par passage au complémentaire et par réunion dénombrable. C’est-à-dire : i) Ω ∈ A, ii) si A ∈ A, alors Ac ∈ A, iii) si (Ai )i∈N ⊂ A, alors S i∈N Ai ∈ A. Lorsque A est une tribu, le couple (Ω, A) est appelé espace mesurable (ou probabilisable). Exemple 1.2.2. 1. Quelque soit Ω, P(Ω) est toujours une tribu. 2. Quelque soit Ω, {∅, Ω} est une tribu, appelée tribu grossière ou du “tout ou rien”. 3. Si C est un sous-ensemble de P(Ω), alors on montre qu’il existe une unique plus petite tribu (au sens de l’inclusion) contenant C . [Il suffit de vérifier que l’intersection d’une famille de tribus est encore une tribu.] Cette tribu est notée σ(C) et est appelée tribu engendrée par C . 4. Si Ω est muni d’une topologie, on désigne par B(Ω) la tribu borélienne, c’est-à-dire la tribu engendrée par les ouverts de Ω. Remarque 1.2.3. De manière générale, lorsque Ω sera fini ou dénombrable, on prendra A = P(Ω) et lorsque Ω sera R ou un intervalle de R, on prendra la tribu borélienne associée. 1.3. LA PROBABILITÉ 1.3 La probabilité Une probabilité sur un espace mesurable (Ω, A) est une mesure positive de masse totale égale à 1. Définition 1.3.1. Soit (Ω, A) un espace mesurable. Une application P : A → [0, 1] est une probabilité (ou mesure de probabilité, ou loi de probabilité) si : i) P(Ω) = 1, ii) (σ -additivité) pour toute suite (Ai )i∈N ⊂ A d’évènements deux à deux disjoints (ou incompatibles), on a ! P [ Ai = X P(Ai ). i∈N i∈N Le triplet (Ω, A, P) est alors appelé espace probabilisé. Voici quelques premiers exemples. Exemple 1.3.2. Soit a ∈ R et δa la masse de Dirac en a définie par, pour tout A ∈ B(R), δa (A) = 1 0 si a ∈ A . sinon δa est une probabilité sur (R, B(R)). Elle ne charge que le point a. Exemple 1.3.3. P = 31 δ−1 + 32 δ1 est une probabilité sur l’espace (R, B(R)), mais aussi sur l’espace ({−1, 1}, P({−1, 1})). Exemple 1.3.4. Pour modéliser le lancer d’un dé, on a utilisé la probabilité P = 61 sur Ω = {1, . . . , 6} muni de P(Ω). P6 k=1 δk Exemple 1.3.5. Pour modéliser l’expérience “prendre un nombre au hasard dans [0, 1]”, on utilisera le triplet ([0, 1], B([0, 1]), P) où P = λ[0,1] est la mesure de Lebesgue sur [0, 1]. On a donc P([ 31 , 12 ]) = 12 − 13 = 16 , et pour tout ω ∈ [0, 1], P({ω}) = 0. On pourra noter que le deuxième axiome de la définition d’une probabilité ne peut pas s’étendre aux réunions non-dénombrables d’ensembles car dans le dernier exemple, on a P P([0, 1]) = 1 tandis que x∈[0,1] P({x}) = 0. Remarque 1.3.6. En utilisant l’intégrale au sens de Lebesgue (voir cours du 1er semestre), on utilisera souvent que, si A ∈ A, P(A) = 1.4 Z A dP = Z 1A dP. Ω Exemples d’espaces probabilisés Les trois classes d’exemples suivantes sont fondamentales et il sera rare (mais pas du tout impossible !) que l’on ne soit pas dans l’une de ces classes. 1.4.1 Espaces finis Si Ω est un ensemble fini, notons Ω = {x1 , . . . , xn }, on prendra toujours A = P(Ω). Pour Pn une mesure de probabilité P sur Ω, on peut toujours écrire P = i=1 P({xi })δxi et donc P est caractérisé par les n valeurs pi = P({xi }), i = 1, . . . , n. La donnée d’une loi de probabilité P sur Ω se résume donc à la donnée de p1 , . . . , pn réels positifs. Mais attention, pour que P Pn soit une probabilité il faudra que l’on ait i=1 pi = 1. C’est aussi, bien sûr, une condition suffisante et on a la proposition suivante. CHAPITRE 1. VOCABULAIRE PROBABILISTE, NOTION DE PROBABILITÉ Proposition 1.4.1. P est une probabilité sur Ω = {x1 , . . . , xn } ssi il existe p1 , . . . , pn ≥ 0 tels Pn Pn que i=1 pi = 1 et P = i=1 pi δxi . Exemple 1.4.2. On souhaite truquer un dé de sorte que la probabilité de d’obtenir un P6 numéro soit proportionnelle à ce numéro. On a alors Ω = {1, . . . , 6} et P = i=1 pi δi avec pour condition, l’existence d’une constante c ≥ 0 telle que pi = c i pour tout i = 1, . . . , 6. De P6 1 i=1 pi = 1, on déduit qu’il n’y a qu’une possibilité pour le choix de c qui est c = 21 . Exemple 1.4.3. Pour Ω = {x1 , . . . , xn }, en prenant pi = n1 pour tout i = 1, . . . , n, on définit une probabilité dite probabilité uniforme (ou équiprobabilité) sur {x1 , . . . , xn }. Dans ce cas (et seulement dans ce cas !), pour tout A ∈ P(Ω), on a P(A) = Card(A) Card(Ω) . Que l’on résume souvent en : “nombre de cas favorables sur nombre de cas possibles”. Dans le cas d’une probabilité uniforme sur un espace fini, le calcul de la probabilité d’un évènement se ramène donc à un problème de dénombrement. On pourra donc revoir quelques notions de dénombrement (nombre de permutations, coefficients binomiaux (ou nombre de combinaisons), nombre d’arrangements, ...) si neccessaire ! Exercice 1.4.4. On tire successivement et avec remise 5 boules dans une urne contenant 1 boule blanche et 2 boules noires. Quelle est la probabilité d’obtenir 2 boules blanches ? Exercice 1.4.5. On tire sans remise 3 boules dans une urne contenant 4 boules blanches et 2 boules noires. Quelle est la probabilité d’obtenir 2 boules blanches ? Exemple 1.4.6. Lorsque Ω = {0, 1} (et A = P(Ω)), on parle d’épreuve de Bernoulli. Une mesure de probabilité P sur ({0, 1}, P({0, 1})) est nécessairement de la forme P = (1−p)δ0 + pδ1 avec p ∈ [0, 1]. 1.4.2 Espaces dénombrables Il en est de même pour un ensemble Ω dénombrable (il existe une injection de N dans Ω). On considérera toujours A = P(Ω) et on a la proposition suivante. Proposition 1.4.7. P est une probabilité sur Ω = {xi | i ∈ N} ssi il existe une suite (pi )i∈N P∞ P∞ de réels positifs tels que i=0 pi = 1 et P = i=0 pi δxi . P+∞ Démonstration. ⇒) On a nécessairement P = i=0 P({xi })δxi . D’où le résultat avec pi = P({xi }). P ⇐) On vérifie que P = +∞ i=0 pi δxi est bien une mesure de probabilité. Exercice 1.4.8. On définit la mesure P sur N comme dans la proposition en prenant pk = k C 3k! . Déterminer C pour que P soit une probabilité (la mesure de probabilité obtenue est appelée loi de Poisson de paramètre 3). Exercice 1.4.9. Soit 0 < p < 1. Déterminer une constante C > 0 permettant de définir une probabilité P sur N de sorte que P({k}) = Cpk . Cette constante est-elle unique ? 1.4. EXEMPLES D’ESPACES PROBABILISÉS 1.4.3 Mesures de probabilité à densité Considérons le cas de l’espace mesurable (Ω, A) = (R, B(R)). Proposition 1.4.10. Soit f : R → R une fonction intégrable (au sens de Lebesgue) par rapport à la mesure de Lebesgue λ sur R, telle que (i) f est positive sur R, (ii) R Rf dλ = 1. R R Alors l’application P : B(R) → R définie par P(A) = A f dλ = R f 1A dλ est une mesure de probabilité sur (R, B(R)). La probabilité P ainsi définie est appelée probabilité à densité (par rapport à la mesure de Lebesgue) sur R et la fonction f est appelée densité de probabilité (par rapport à la mesure de Lebesgue). On écrit dP = f dλ. Démonstration. P est positive par (i) et on a P(R) = 1 par (ii). La σ -additivité vient du découpage de l’intégrale sur des supports disjoints. Exemple 1.4.11. Sur (R, B(R)), la fonction 1[0,1] vérifie (i) et (ii) de la proposition précédente et donc définit une mesure de probabilité sur R. On parle de probabilité uniforme sur [0, 1]. On a P([0, 1]) = 1 et P(R\[0, 1]) = 0. De plus pour tout a < b ∈ [0, 1], P([a, b]) = P(]a, b]) = P([a, b]) = P(]a, b[) = b − a. On a ainsi retrouvé l’exemple 1.3.5. Exercice 1.4.12. Pour quelle valeur de C la fonction f (x) = Ce−2x 1[0,+∞[ est-elle une densité de probabilité sur R ? Soit P la probabilité de densité f . Calculer P([0, 12 ]). Remarque 1.4.13. 1. Si la probabilité P est à densité, alors elle est absolument continue par rapport à la mesure de Lebesgue. C’est-à-dire que pour tout A ∈ B(R), λ(A) = 0 implique P(A) = 0. En particulier, pour tout x ∈ R, P({x}) = 0. 2. La réciproque est vraie. Si P est absolument continue par rapport à la mesure de Lebesgue alors il existe une densité de probabilité f telle que P soit la mesure de densité f . (Ce résultat est admis ici, mais l’étudiant curieux pourra voir le Théorème de Radon-Nikodym par exemple dans [Rudin]). 3. Si f et g sont deux densités de probabilité égales λ-presque partout, alors les probabilités de densités respectives f et g sont égales. 4. Si P est la probabilité de densité f . On a, pour tout a < b ∈ R, P([a, b]) = P(]a, b]) = P([a, b]) = P(]a, b[) = Z f dλ. [a,b] Lorsque f est Riemann intégrable (ce qui sera quand même souvent le cas !), on Rb pourra écrire P([a, b]) = a f (t)dt. Tout ceci se généralise sur un espace abstrait Ω. Il faut alors spécifier une mesure de référence µ sur (Ω, A). Une densité de probabilité par rapport à µ est alors une fonction R R µ-intégrable de Ω → R+ telle que Ω f dµ = 1. La mesure P définie par P(A) = A f dµ est une probabilité sur Ω. Remarque 1.4.14. On peut aussi mélanger mesures de probabilité discrètes et à densité. Par exemple, si µ est la mesure de probabilité de densité f (x) = 2x1[0,1] (x), la mesure P = 31 δ0 + 13 µ + 13 δ1 est une probabilité sur ([0, 1], B([0, 1]). CHAPITRE 1. VOCABULAIRE PROBABILISTE, NOTION DE PROBABILITÉ 1.5 Les propriétés fondamentales Les premières propriétés évidentes (et naturelles) d’une mesure de probabilité sont les suivantes. Proposition 1.5.1. Toute probabilité P sur (Ω, A) vérifie 1) pour tout A ∈ A et B ∈ A, si A ∩ B = ∅, alors P(A ∪ B) = P(A) + P(B). (additivité) 2) pour tout A ∈ A, P(Ac ) = 1 − P(A). 3) P(∅) = 0. 4) pour tout A ∈ A et B ∈ A, si A ⊂ B , alors P(A) ≤ P(B). (croissance) 5) pour tout A ∈ A et B ∈ A, P(A ∪ B) = P(A) + P(B) − P(A ∩ B). Démonstration. 1) C’est un cas particulier de la propriété de σ -additivité de P. 2) Prendre B = Ac dans 1). 3) Prendre A = ∅ dans 2). 4) Si A ⊂ B , on a P(B) = P(A ∪ (B ∩ Ac )) = P(A) + P(B ∩ Ac ) ≥ P(A). 5) Soit A ∈ A et B ∈ A, on a les décompositions en unions disjointes suivantes A ∪ B = (A ∩ B c ) ∪ (A ∩ B) ∪ (Ac ∩ B) A = (A ∩ B c ) ∪ (A ∩ B) B = (A ∩ B) ∪ (Ac ∩ B) En utilisant l’additivité de P, on en déduit P(A ∪ B) = P(A ∩ B c ) + P(A ∩ B) + P(Ac ∩ B) P(A) = P(A ∩ B c ) + P(A ∩ B) P(B) = P(A ∩ B) + P(Ac ∩ B) ce qui démontre 5). La propriété 5) donne une propriété de sous-additivité de la mesure de probabilité P : pour tout A ∈ A et B ∈ A, P(A ∪ B) ≤ P(A) + P(B). La propriété 5) permet également d’affaiblir l’hypothèse A ∩ B = ∅ de la propriété 1) en la remplaçant par P(A ∩ B) = 0. La propriété 5) se généralise aussi à trois évènements : P(A ∪ B ∪ C) = P(A) + P(B) + P(C) − P(A ∩ B) − P(A ∩ C) − P(B ∩ C) + P(A ∩ B ∩ C). De façon encore plus générale, on a la formule suivante Proposition 1.5.2 (Formule de Poincaré). Pour tout entier n ≥ 2 et tout A1 , . . . , An ∈ A, P n [ i=1 Ai ! = n X i=1 P(Ai ) + n X (−1)k+1 k=2 Démonstration. Par récurrence ! (exercice) X 1≤i1 <i2 <...<ik ≤n P(Ai1 ∩ Ai2 ∩ . . . ∩ Aik ). 1.6. COMPLÉMENT : THÉORÈME DE DYNKIN On dit qu’une suite d’évènements (Ai )i∈N est croissante si pour tout n ∈ N, An ⊂ An+1 . On dit que la suite est décroissante si pour tout n ∈ N, An+1 ⊂ An . Proposition 1.5.3 (Continuité monotone séquentielle). 1) Si (Ai )i∈N est une suite croissante d’évènements, alors lim P(An ) = P n→∞ [ Ai i∈N ! . 2) Si (Bi )i∈N est une suite décroissante d’évènements, alors lim P(Bn ) = P n→∞ \ Bi i∈N ! . Démonstration. 1) La suite (An ) étant croissante, on montre facilement (exercice) que pour tout n ∈ N, An s’écrit comme l’union disjointe An = A0 ∪ n [ ! (Ai \Ai−1 ) . i=1 L’union étant disjointe, on obtient P(An ) = P(A0 ) + lim P(An ) = P(A0 ) + n→∞ Pn ∞ X i=1 i=1 P(Ai \Ai−1 ) et donc P(Ai \Ai−1 ), où la série est convergente en tant que suite croissante majorée par 1. D’autre part, on a [ n∈N An = [ n∈N A0 ∪ n [ !! (Ai \Ai−1 ) i=1 = A0 ∪ ∞ [ ! (Ai \Ai−1 ) , i=1 ce qui prouve 1). 2) s’obtient en appliquant 1) à An = Bnc (exercice). Cette propriété est à la base du théorème de convergence monotone de Beppo Levi qui R assure que pour toute suite croissante (fn )n≥1 de fonctions mesurables positives, limn→∞ Ω fn dP = R Ω limn→∞ fn dP. Prendre fn = 1An pour retrouver la proposition. 1.6 Complément : Théorème de Dynkin L’un des buts de cette section est de montrer que pour identifier une mesure sur (R, B(R)), il suffit de déterminer la mesure des intervalles. Néanmoins, on se place ici dans un cadre plus général. En première lecture, on pourra se contenter d’admettre le résultat final de la section. Soit Ω un ensemble, A une tribu sur Ω et C ⊂ A. Définition 1.6.1. On dit que C est un π -système si pour tout A, B ∈ C , A ∩ B ∈ C . Exemple 1.6.2. C = {] − ∞, x] | x ∈ R} est un π -système sur R. De plus, on a σ(C) = B(R). Définition 1.6.3. On dit que C est une classe monotone si 1. Ω ∈ C , CHAPITRE 1. VOCABULAIRE PROBABILISTE, NOTION DE PROBABILITÉ 2. pour tout A, B ∈ C , A ⊂ B ⇒ B\A ∈ C , 3. si (An )n∈N ⊂ C est une suite croissante, alors S n∈N An ∈ C. On peut montrer (exercice) que si C est à la fois un π -système et une classe monotone alors C est une tribu. On peut aussi montrer (encore exercice) que l’intersection d’une famille de classes monotones est encore une classe monotone. Cela nous permet de définir une notion de classe monotone engendrée par un ensemble (c’est l’intersection de toutes les classes monotones contenant cet ensemble). Théorème 1.6.4 (Théorème de Dynkin). Si C est un π -système, alors la classe monotone engendrée par C est aussi la tribu engendrée par C . Démonstration. Notons M la classe monotone engendrée par C (i.e. la plus petite classe monotone contenant C ). Comme une tribu est toujours une classe monotone, on a immédiatement M ⊂ σ(C). Pour l’inclusion réciproque, on va montrer que M est aussi un π -système, ce qui montrera que c’est une tribu et donnera le résultat. Pour tout A ∈ M, on pose MA = {B ∈ M | A ∩ B ∈ M}. On montre (exercice) que MA est une classe monotone. Mais pour A ∈ C , MA est une classe monotone qui contient C et donc M ⊂ MA . Ceci signifie que pour tout A ∈ C et tout B ∈ M, A ∩ B ∈ M, ou encore que pour tout B ∈ M, MB contient C . MB étant une classe monotone, on en déduit qu’elle contient M et donc que MB = M. Ceci prouve que M est un π -système. Comme corollaire au théorème de Dynkin, on obtient la proposition suivante. Proposition 1.6.5. Soit P et Q deux mesures de probabilité sur (Ω, A) et C un π -système qui engendre A. Si P et Q coïncident sur C (c-à-d P(A) = Q(A) pour tout A ∈ C ), alors P = Q. Démonstration. Il suffit de remarquer que {A ∈ A | P(A) = Q(A)} est une classe monotone, et donc une tribu par le théorème précédent. Si l’on considère des mesures de probabilité sur (R, B(R)), grâce à l’exemple 1.6.2, on obtient le corollaire suivant. Corollaire 1.6.6. Soit P et Q deux mesures de probabilité sur (R, B(R)). Si pour tout a ∈ R, P(] − ∞, a]) = Q(] − ∞, a]) alors P = Q. Remarque 1.6.7. 1. La fonction a 7→ P(] − ∞, a]) sera appelée fonction de répartition de P. Voir chapitre 4. 2. Si P est une probabilité sur (R, B(R)) et f une densité de probabilité, on a dP = f dλ ssi ∀a ∈ R, P(] − ∞, a]) = Z ]−∞,a] f dλ.