Vocabulaire probabiliste, notion de probabilité Chapitre 1

publicité
Chapitre 1
Vocabulaire probabiliste, notion de
probabilité
La théorie des probabilités est une branche des mathématiques (en pleine effervescence) dont le but vise à fournir un cadre rigoureux pour quantifier le hasard, ou encore
pour modéliser un phénomène aléatoire. On souhaite, une fois les axiomes d’un modèle posés, être capable d’évaluer la chance (ou le risque) que tel ou tel évènement se produise.
On ne prouvera pas qu’une pièce de monnaie donnée est parfaitement équilibrée. Mais, en
décidant qu’elle l’est, on voudra être capable de donner la probabilité pour que sur 100
lancers de cette pièce, on obtienne exactement 50 fois Pile.
1.1 Le modèle probabiliste
Exemple 1.1.1. On s’intéresse à l’expérience aléatoire consistant à lancer un dé à six faces
numérotées de 1 à 6. L’ensemble des résultats possibles peut être représenté par l’ensemble
Ω = {1, . . . , 6}. Si le dé est supposé équilibré, il est naturel de penser que chacun des
résultats apparaît avec la même probabilité, ici 16 . On notera : pour tout ω ∈ Ω, P({ω}) = 61 .
On peut aussi s’intéresser à un ensemble de résultats du type : “le nombre obtenu est pair”,
on parlera d’évènement. Il s’agit ici de l’évènement {2, 4, 6}.
Exemple 1.1.2. On souhaite modéliser l’expérience : “prendre un nombre au hasard dans
[0, 1]”. La modélisation est ici plus délicate. Quelle est la probabilité d’obtenir 12 ?
Depuis les travaux d’Andreï Kolmogorov dans les années 1930, le cadre général du
calcul des probabilités s’appuie sur celui de la théorie de la mesure. Il est basé sur un
triplet fondamental (Ω, A, P) où
1. Ω est appelé ensemble fondamental (ou univers), il décrit l’ensemble des résultats
possibles d’une expérience aléatoire. Un élément ω ∈ Ω est appelé un résultat élémentaire. Ω pourra être fini, dénombrable, R, R2 , . . . mais on verra que la plupart du
temps il ne sera pas explicite !
2. A est un sous-ensemble de P(Ω) appelé ensemble des évènements. Lorsque Ω est fini
ou dénombrable, on prendra souvent A = P(Ω), mais dans des cas plus élaborés, on
verra qu’il conviendra de prendre un sous-ensemble strict de P(Ω). Néanmoins, A
devra obéir avec des règles algébriques simples qui feront de cet ensemble une tribu.
3. P est une fonction sur A, qui a A ∈ A associe un nombre P(A) compris entre 0 et 1,
représentant la “chance” que l’évènement A se réalise (0 = aucune chance et 1 = sûr
à 100%). On aura donc P(Ω) = 1.
CHAPITRE 1. VOCABULAIRE PROBABILISTE, NOTION DE PROBABILITÉ
La théorie du calcul des probabilités, et notamment les manipulations sur les évènements, utilise le langage de la théorie des ensembles. Ainsi :
—
—
—
—
—
—
—
—
∅ est l’évènement impossible,
Ω est l’évènement certain,
ω ∈ A signifie que le résultat ω est une réalisation possible de l’évènement A,
A ⊂ B signifie que la réalisation de A implique celle de B ,
l’évènement A ∪ B est réalisé lorsque A ou B se réalisent,
l’évènement A ∩ B est réalisé lorsque A et B se réalisent,
Ac est l’évènement contraire de A,
A ∩ B = ∅ signifie que A et B sont incompatibles.
Exemple 1.1.3. On reprend l’exemple du lancer d’un dé. Ici Ω = {1, . . . , 6}, A = P(Ω), et P
est la mesure uniforme sur Ω. Si A est l’évènement “le résultat est pair”, B est “le résultat
est impair” et C est “le résultat est un nombre premier”, alors A et B sont incompatibles,
Ac = B , ou encore A ∩ C = {2}. On aura P(A) = P(B) = P(C) = 12 , tandis que P(A ∩ B) = 0
et P(A ∩ C) = 16 .
Exercice 1.1.4. On souhaite modéliser l’expérience aléatoire consistant en n lancers successifs d’une pièce de monnaie. Donner Ω. Écrire de façon ensembliste l’évènement A =“il
n’y a pas eu de Pile lors des deux premiers lancers”, ainsi que les évènements Li =“on a
obtenu Pile au i-ème lancer”, i = 1, . . . , n. Exprimer A à l’aide des Li . Exprimer l’évènement
“on a obtenu au moins un Face” à l’aide des Li .
1.2 L’ensemble des évènements
Définition 1.2.1. Soit Ω un ensemble non vide et A un sous-ensemble de P(Ω). On dira
que A est une tribu si A contient Ω et est stable par passage au complémentaire et par
réunion dénombrable. C’est-à-dire :
i) Ω ∈ A,
ii) si A ∈ A, alors Ac ∈ A,
iii) si (Ai )i∈N ⊂ A, alors
S
i∈N Ai
∈ A.
Lorsque A est une tribu, le couple (Ω, A) est appelé espace mesurable (ou probabilisable).
Exemple 1.2.2.
1. Quelque soit Ω, P(Ω) est toujours une tribu.
2. Quelque soit Ω, {∅, Ω} est une tribu, appelée tribu grossière ou du “tout ou rien”.
3. Si C est un sous-ensemble de P(Ω), alors on montre qu’il existe une unique plus petite
tribu (au sens de l’inclusion) contenant C . [Il suffit de vérifier que l’intersection d’une
famille de tribus est encore une tribu.] Cette tribu est notée σ(C) et est appelée tribu
engendrée par C .
4. Si Ω est muni d’une topologie, on désigne par B(Ω) la tribu borélienne, c’est-à-dire la
tribu engendrée par les ouverts de Ω.
Remarque 1.2.3. De manière générale, lorsque Ω sera fini ou dénombrable, on prendra
A = P(Ω) et lorsque Ω sera R ou un intervalle de R, on prendra la tribu borélienne associée.
1.3. LA PROBABILITÉ
1.3 La probabilité
Une probabilité sur un espace mesurable (Ω, A) est une mesure positive de masse totale
égale à 1.
Définition 1.3.1. Soit (Ω, A) un espace mesurable. Une application P : A → [0, 1] est une
probabilité (ou mesure de probabilité, ou loi de probabilité) si :
i) P(Ω) = 1,
ii) (σ -additivité) pour toute suite (Ai )i∈N ⊂ A d’évènements deux à deux disjoints (ou
incompatibles), on a
!
P
[
Ai
=
X
P(Ai ).
i∈N
i∈N
Le triplet (Ω, A, P) est alors appelé espace probabilisé. Voici quelques premiers exemples.
Exemple 1.3.2. Soit a ∈ R et δa la masse de Dirac en a définie par, pour tout A ∈ B(R),
δa (A) =
1
0
si a ∈ A
.
sinon
δa est une probabilité sur (R, B(R)). Elle ne charge que le point a.
Exemple 1.3.3. P = 31 δ−1 + 32 δ1 est une probabilité sur l’espace (R, B(R)), mais aussi sur
l’espace ({−1, 1}, P({−1, 1})).
Exemple 1.3.4. Pour modéliser le lancer d’un dé, on a utilisé la probabilité P = 61
sur Ω = {1, . . . , 6} muni de P(Ω).
P6
k=1 δk
Exemple 1.3.5. Pour modéliser l’expérience “prendre un nombre au hasard dans [0, 1]”, on
utilisera le triplet ([0, 1], B([0, 1]), P) où P = λ[0,1] est la mesure de Lebesgue sur [0, 1]. On a
donc P([ 31 , 12 ]) = 12 − 13 = 16 , et pour tout ω ∈ [0, 1], P({ω}) = 0.
On pourra noter que le deuxième axiome de la définition d’une probabilité ne peut pas
s’étendre aux réunions non-dénombrables d’ensembles car dans le dernier exemple, on a
P
P([0, 1]) = 1 tandis que x∈[0,1] P({x}) = 0.
Remarque 1.3.6. En utilisant l’intégrale au sens de Lebesgue (voir cours du 1er semestre),
on utilisera souvent que, si A ∈ A,
P(A) =
1.4
Z
A
dP =
Z
1A dP.
Ω
Exemples d’espaces probabilisés
Les trois classes d’exemples suivantes sont fondamentales et il sera rare (mais pas du
tout impossible !) que l’on ne soit pas dans l’une de ces classes.
1.4.1
Espaces finis
Si Ω est un ensemble fini, notons Ω = {x1 , . . . , xn }, on prendra toujours A = P(Ω). Pour
Pn
une mesure de probabilité P sur Ω, on peut toujours écrire P = i=1 P({xi })δxi et donc P est
caractérisé par les n valeurs pi = P({xi }), i = 1, . . . , n. La donnée d’une loi de probabilité
P sur Ω se résume donc à la donnée de p1 , . . . , pn réels positifs. Mais attention, pour que P
Pn
soit une probabilité il faudra que l’on ait
i=1 pi = 1. C’est aussi, bien sûr, une condition
suffisante et on a la proposition suivante.
CHAPITRE 1. VOCABULAIRE PROBABILISTE, NOTION DE PROBABILITÉ
Proposition 1.4.1. P est une probabilité sur Ω = {x1 , . . . , xn } ssi il existe p1 , . . . , pn ≥ 0 tels
Pn
Pn
que i=1 pi = 1 et P = i=1 pi δxi .
Exemple 1.4.2. On souhaite truquer un dé de sorte que la probabilité de d’obtenir un
P6
numéro soit proportionnelle à ce numéro. On a alors Ω = {1, . . . , 6} et P =
i=1 pi δi avec
pour condition, l’existence d’une constante c ≥ 0 telle que pi = c i pour tout i = 1, . . . , 6. De
P6
1
i=1 pi = 1, on déduit qu’il n’y a qu’une possibilité pour le choix de c qui est c = 21 .
Exemple 1.4.3. Pour Ω = {x1 , . . . , xn }, en prenant pi = n1 pour tout i = 1, . . . , n, on définit
une probabilité dite probabilité uniforme (ou équiprobabilité) sur {x1 , . . . , xn }. Dans ce
cas (et seulement dans ce cas !), pour tout A ∈ P(Ω), on a
P(A) =
Card(A)
Card(Ω)
.
Que l’on résume souvent en : “nombre de cas favorables sur nombre de cas possibles”.
Dans le cas d’une probabilité uniforme sur un espace fini, le calcul de la probabilité
d’un évènement se ramène donc à un problème de dénombrement. On pourra donc revoir
quelques notions de dénombrement (nombre de permutations, coefficients binomiaux (ou
nombre de combinaisons), nombre d’arrangements, ...) si neccessaire !
Exercice 1.4.4. On tire successivement et avec remise 5 boules dans une urne contenant
1 boule blanche et 2 boules noires. Quelle est la probabilité d’obtenir 2 boules blanches ?
Exercice 1.4.5. On tire sans remise 3 boules dans une urne contenant 4 boules blanches
et 2 boules noires. Quelle est la probabilité d’obtenir 2 boules blanches ?
Exemple 1.4.6. Lorsque Ω = {0, 1} (et A = P(Ω)), on parle d’épreuve de Bernoulli. Une
mesure de probabilité P sur ({0, 1}, P({0, 1})) est nécessairement de la forme P = (1−p)δ0 +
pδ1 avec p ∈ [0, 1].
1.4.2
Espaces dénombrables
Il en est de même pour un ensemble Ω dénombrable (il existe une injection de N dans
Ω). On considérera toujours A = P(Ω) et on a la proposition suivante.
Proposition 1.4.7. P est une probabilité sur Ω = {xi | i ∈ N} ssi il existe une suite (pi )i∈N
P∞
P∞
de réels positifs tels que i=0 pi = 1 et P = i=0 pi δxi .
P+∞
Démonstration. ⇒) On a nécessairement P =
i=0 P({xi })δxi . D’où le résultat avec pi =
P({xi }).
P
⇐) On vérifie que P = +∞
i=0 pi δxi est bien une mesure de probabilité.
Exercice 1.4.8. On définit la mesure P sur N comme dans la proposition en prenant pk =
k
C 3k! . Déterminer C pour que P soit une probabilité (la mesure de probabilité obtenue est
appelée loi de Poisson de paramètre 3).
Exercice 1.4.9. Soit 0 < p < 1. Déterminer une constante C > 0 permettant de définir une
probabilité P sur N de sorte que P({k}) = Cpk . Cette constante est-elle unique ?
1.4. EXEMPLES D’ESPACES PROBABILISÉS
1.4.3
Mesures de probabilité à densité
Considérons le cas de l’espace mesurable (Ω, A) = (R, B(R)).
Proposition 1.4.10. Soit f : R → R une fonction intégrable (au sens de Lebesgue) par
rapport à la mesure de Lebesgue λ sur R, telle que
(i) f est positive sur R,
(ii)
R
Rf
dλ = 1.
R
R
Alors l’application P : B(R) → R définie par P(A) = A f dλ = R f 1A dλ est une mesure de
probabilité sur (R, B(R)).
La probabilité P ainsi définie est appelée probabilité à densité (par rapport à la mesure
de Lebesgue) sur R et la fonction f est appelée densité de probabilité (par rapport à la
mesure de Lebesgue). On écrit dP = f dλ.
Démonstration. P est positive par (i) et on a P(R) = 1 par (ii). La σ -additivité vient du
découpage de l’intégrale sur des supports disjoints.
Exemple 1.4.11. Sur (R, B(R)), la fonction 1[0,1] vérifie (i) et (ii) de la proposition précédente et donc définit une mesure de probabilité sur R. On parle de probabilité uniforme sur
[0, 1]. On a P([0, 1]) = 1 et P(R\[0, 1]) = 0. De plus pour tout a < b ∈ [0, 1],
P([a, b]) = P(]a, b]) = P([a, b]) = P(]a, b[) = b − a.
On a ainsi retrouvé l’exemple 1.3.5.
Exercice 1.4.12. Pour quelle valeur de C la fonction f (x) = Ce−2x 1[0,+∞[ est-elle une
densité de probabilité sur R ? Soit P la probabilité de densité f . Calculer P([0, 12 ]).
Remarque 1.4.13.
1. Si la probabilité P est à densité, alors elle est absolument continue par rapport à la
mesure de Lebesgue. C’est-à-dire que pour tout A ∈ B(R), λ(A) = 0 implique P(A) = 0.
En particulier, pour tout x ∈ R, P({x}) = 0.
2. La réciproque est vraie. Si P est absolument continue par rapport à la mesure de
Lebesgue alors il existe une densité de probabilité f telle que P soit la mesure de
densité f . (Ce résultat est admis ici, mais l’étudiant curieux pourra voir le Théorème
de Radon-Nikodym par exemple dans [Rudin]).
3. Si f et g sont deux densités de probabilité égales λ-presque partout, alors les probabilités de densités respectives f et g sont égales.
4. Si P est la probabilité de densité f . On a, pour tout a < b ∈ R,
P([a, b]) = P(]a, b]) = P([a, b]) = P(]a, b[) =
Z
f dλ.
[a,b]
Lorsque f est Riemann intégrable (ce qui sera quand même souvent le cas !), on
Rb
pourra écrire P([a, b]) = a f (t)dt.
Tout ceci se généralise sur un espace abstrait Ω. Il faut alors spécifier une mesure de
référence µ sur (Ω, A). Une densité de probabilité par rapport à µ est alors une fonction
R
R
µ-intégrable de Ω → R+ telle que Ω f dµ = 1. La mesure P définie par P(A) = A f dµ est
une probabilité sur Ω.
Remarque 1.4.14. On peut aussi mélanger mesures de probabilité discrètes et à densité.
Par exemple, si µ est la mesure de probabilité de densité f (x) = 2x1[0,1] (x), la mesure
P = 31 δ0 + 13 µ + 13 δ1 est une probabilité sur ([0, 1], B([0, 1]).
CHAPITRE 1. VOCABULAIRE PROBABILISTE, NOTION DE PROBABILITÉ
1.5 Les propriétés fondamentales
Les premières propriétés évidentes (et naturelles) d’une mesure de probabilité sont les
suivantes.
Proposition 1.5.1. Toute probabilité P sur (Ω, A) vérifie
1) pour tout A ∈ A et B ∈ A, si A ∩ B = ∅, alors P(A ∪ B) = P(A) + P(B). (additivité)
2) pour tout A ∈ A, P(Ac ) = 1 − P(A).
3) P(∅) = 0.
4) pour tout A ∈ A et B ∈ A, si A ⊂ B , alors P(A) ≤ P(B). (croissance)
5) pour tout A ∈ A et B ∈ A, P(A ∪ B) = P(A) + P(B) − P(A ∩ B).
Démonstration. 1) C’est un cas particulier de la propriété de σ -additivité de P.
2) Prendre B = Ac dans 1).
3) Prendre A = ∅ dans 2).
4) Si A ⊂ B , on a P(B) = P(A ∪ (B ∩ Ac )) = P(A) + P(B ∩ Ac ) ≥ P(A).
5) Soit A ∈ A et B ∈ A, on a les décompositions en unions disjointes suivantes
A ∪ B = (A ∩ B c ) ∪ (A ∩ B) ∪ (Ac ∩ B)
A = (A ∩ B c ) ∪ (A ∩ B)
B = (A ∩ B) ∪ (Ac ∩ B)
En utilisant l’additivité de P, on en déduit
P(A ∪ B) = P(A ∩ B c ) + P(A ∩ B) + P(Ac ∩ B)
P(A) = P(A ∩ B c ) + P(A ∩ B)
P(B) = P(A ∩ B) + P(Ac ∩ B)
ce qui démontre 5).
La propriété 5) donne une propriété de sous-additivité de la mesure de probabilité P :
pour tout A ∈ A et B ∈ A, P(A ∪ B) ≤ P(A) + P(B).
La propriété 5) permet également d’affaiblir l’hypothèse A ∩ B = ∅ de la propriété 1) en la
remplaçant par P(A ∩ B) = 0.
La propriété 5) se généralise aussi à trois évènements :
P(A ∪ B ∪ C) = P(A) + P(B) + P(C) − P(A ∩ B) − P(A ∩ C) − P(B ∩ C) + P(A ∩ B ∩ C).
De façon encore plus générale, on a la formule suivante
Proposition 1.5.2 (Formule de Poincaré). Pour tout entier n ≥ 2 et tout A1 , . . . , An ∈ A,
P
n
[
i=1
Ai
!
=
n
X
i=1
P(Ai ) +
n
X
(−1)k+1
k=2
Démonstration. Par récurrence ! (exercice)
X
1≤i1 <i2 <...<ik ≤n
P(Ai1 ∩ Ai2 ∩ . . . ∩ Aik ).
1.6. COMPLÉMENT : THÉORÈME DE DYNKIN
On dit qu’une suite d’évènements (Ai )i∈N est croissante si pour tout n ∈ N, An ⊂ An+1 .
On dit que la suite est décroissante si pour tout n ∈ N, An+1 ⊂ An .
Proposition 1.5.3 (Continuité monotone séquentielle).
1) Si (Ai )i∈N est une suite croissante d’évènements, alors
lim P(An ) = P
n→∞
[
Ai
i∈N
!
.
2) Si (Bi )i∈N est une suite décroissante d’évènements, alors
lim P(Bn ) = P
n→∞
\
Bi
i∈N
!
.
Démonstration. 1) La suite (An ) étant croissante, on montre facilement (exercice) que pour
tout n ∈ N, An s’écrit comme l’union disjointe
An = A0 ∪
n
[
!
(Ai \Ai−1 ) .
i=1
L’union étant disjointe, on obtient P(An ) = P(A0 ) +
lim P(An ) = P(A0 ) +
n→∞
Pn
∞
X
i=1
i=1 P(Ai \Ai−1 )
et donc
P(Ai \Ai−1 ),
où la série est convergente en tant que suite croissante majorée par 1. D’autre part, on a
[
n∈N
An =
[
n∈N
A0 ∪
n
[
!!
(Ai \Ai−1 )
i=1
= A0 ∪
∞
[
!
(Ai \Ai−1 ) ,
i=1
ce qui prouve 1).
2) s’obtient en appliquant 1) à An = Bnc (exercice).
Cette propriété est à la base du théorème de convergence monotone de Beppo Levi qui
R
assure que pour toute suite croissante (fn )n≥1 de fonctions mesurables positives, limn→∞ Ω fn dP =
R
Ω limn→∞ fn dP. Prendre fn = 1An pour retrouver la proposition.
1.6
Complément : Théorème de Dynkin
L’un des buts de cette section est de montrer que pour identifier une mesure sur (R, B(R)),
il suffit de déterminer la mesure des intervalles. Néanmoins, on se place ici dans un cadre
plus général. En première lecture, on pourra se contenter d’admettre le résultat final de la
section.
Soit Ω un ensemble, A une tribu sur Ω et C ⊂ A.
Définition 1.6.1. On dit que C est un π -système si pour tout A, B ∈ C , A ∩ B ∈ C .
Exemple 1.6.2. C = {] − ∞, x] | x ∈ R} est un π -système sur R. De plus, on a σ(C) = B(R).
Définition 1.6.3. On dit que C est une classe monotone si
1. Ω ∈ C ,
CHAPITRE 1. VOCABULAIRE PROBABILISTE, NOTION DE PROBABILITÉ
2. pour tout A, B ∈ C , A ⊂ B ⇒ B\A ∈ C ,
3. si (An )n∈N ⊂ C est une suite croissante, alors
S
n∈N An
∈ C.
On peut montrer (exercice) que si C est à la fois un π -système et une classe monotone
alors C est une tribu. On peut aussi montrer (encore exercice) que l’intersection d’une
famille de classes monotones est encore une classe monotone. Cela nous permet de définir
une notion de classe monotone engendrée par un ensemble (c’est l’intersection de toutes
les classes monotones contenant cet ensemble).
Théorème 1.6.4 (Théorème de Dynkin). Si C est un π -système, alors la classe monotone
engendrée par C est aussi la tribu engendrée par C .
Démonstration. Notons M la classe monotone engendrée par C (i.e. la plus petite classe
monotone contenant C ). Comme une tribu est toujours une classe monotone, on a immédiatement M ⊂ σ(C). Pour l’inclusion réciproque, on va montrer que M est aussi un π -système,
ce qui montrera que c’est une tribu et donnera le résultat. Pour tout A ∈ M, on pose
MA = {B ∈ M | A ∩ B ∈ M}.
On montre (exercice) que MA est une classe monotone. Mais pour A ∈ C , MA est une
classe monotone qui contient C et donc M ⊂ MA . Ceci signifie que pour tout A ∈ C et tout
B ∈ M, A ∩ B ∈ M, ou encore que pour tout B ∈ M, MB contient C . MB étant une classe
monotone, on en déduit qu’elle contient M et donc que MB = M. Ceci prouve que M est
un π -système.
Comme corollaire au théorème de Dynkin, on obtient la proposition suivante.
Proposition 1.6.5. Soit P et Q deux mesures de probabilité sur (Ω, A) et C un π -système
qui engendre A. Si P et Q coïncident sur C (c-à-d P(A) = Q(A) pour tout A ∈ C ), alors P = Q.
Démonstration. Il suffit de remarquer que {A ∈ A | P(A) = Q(A)} est une classe monotone,
et donc une tribu par le théorème précédent.
Si l’on considère des mesures de probabilité sur (R, B(R)), grâce à l’exemple 1.6.2, on
obtient le corollaire suivant.
Corollaire 1.6.6. Soit P et Q deux mesures de probabilité sur (R, B(R)). Si pour tout a ∈ R,
P(] − ∞, a]) = Q(] − ∞, a]) alors P = Q.
Remarque 1.6.7.
1. La fonction a 7→ P(] − ∞, a]) sera appelée fonction de répartition
de P. Voir chapitre 4.
2. Si P est une probabilité sur (R, B(R)) et f une densité de probabilité, on a
dP = f dλ
ssi
∀a ∈ R, P(] − ∞, a]) =
Z
]−∞,a]
f dλ.
Téléchargement