Cours d`introduction aux Probabilités - IMJ-PRG

publicité
Cours d’introduction aux Probabilités
C. Fiszka, Université Paris VII
Cette note résume le cours de Probabilités donné à Polytech’ en 2013 à la section ST.
Table des matières
1 Bases des probabilités
1.1 Intérêts des probabilités . . . . . . . . . .
1.2 Axiomatique de Kolmogorov . . . . . . . .
1.2.1 Vocabulaire . . . . . . . . . . . . .
1.2.2 Une mesure de probabilité . . . . .
1.3 Le cas d’équiprobabilité . . . . . . . . . .
1.4 Probabilités conditionnelles, indépendance
1.4.1 Probabilité conditionnelle . . . . .
1.4.2 Indépendance stochastique . . . .
1.4.3 Formule de Bayes . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
2
3
3
4
5
6
6
6
6
2 Variables aléatoires réelles
2.1 Loi de probabilité d’une v.a.r . . . . . . . . .
2.1.1 Définition d’une v.a.r . . . . . . . . .
2.1.2 Loi de probabilité . . . . . . . . . . .
2.2 Fonction de répartition . . . . . . . . . . . . .
2.3 Définition d’une variable aléatoire discrète . .
2.4 Définition d’une variable aléatoire continue .
2.5 Quantiles . . . . . . . . . . . . . . . . . . . .
2.6 V.a de loi ϕ(X) . . . . . . . . . . . . . . . . .
2.7 Indépendance de variable aléatoire . . . . . .
2.8 Espérance, moments . . . . . . . . . . . . . .
2.8.1 Définition et propriétés de l’espérance
2.8.2 Définition et propriétés des moments .
2.8.3 Inégalité de Bienaymé-Tchebyshev . .
2.9 Lois usuelles discrètes . . . . . . . . . . . . .
2.9.1 Loi uniforme U[[a,b]] . . . . . . . . . . .
2.9.2 Loi de Bernoulli B(1, p) . . . . . . . .
2.9.3 Loi Binomiale B(n, p) . . . . . . . . .
2.9.4 Loi de Poisson P(λ) . . . . . . . . . .
2.9.5 Loi géométrique . . . . . . . . . . . .
2.9.6 Loi hypergéométrique . . . . . . . . .
2.10 Lois usuelles continues . . . . . . . . . . . . .
2.10.1 Loi uniforme U[a,b] . . . . . . . . . . .
2.10.2 Loi exponentielle E(λ) . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7
7
7
7
8
8
8
9
10
10
10
10
11
12
12
12
12
12
13
13
13
14
14
14
1
.
.
.
.
.
.
.
.
.
2.10.3 Loi normale N (µ, σ) . . . . . . . . .
2.11 Convolution, loi d’une somme . . . . . . . .
2.11.1 Qu’est ce qu’une convolution ? . . .
2.11.2 Propriétés du produit de convolution
2.11.3 Somme de v.a.r . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
14
15
15
15
15
3 Fonctions caractéristiques et convergences de variables aléatoires
3.1 Fonctions caractéristiques . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.2 Premières propriétés . . . . . . . . . . . . . . . . . . . . . . . .
3.1.3 Exemples usuels et applications . . . . . . . . . . . . . . . . . .
3.2 Convergences de variable aléatoire . . . . . . . . . . . . . . . . . . . .
3.2.1 Convergence presque-sûrement, en probabilité et quadratique .
3.2.2 Convergence en Loi . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.3 Liens entre ces différentes convergences . . . . . . . . . . . . .
3.3 Lois des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.1 Loi faible des grands Nombres . . . . . . . . . . . . . . . . . .
3.3.2 Méthode de Monte-Carlo . . . . . . . . . . . . . . . . . . . . .
3.3.3 Loi forte des grands Nombres . . . . . . . . . . . . . . . . . . .
3.4 Théorème central limite . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.1 La Planche de Galton . . . . . . . . . . . . . . . . . . . . . . .
3.4.2 Le théorème de De Moivre-Laplace . . . . . . . . . . . . . . . .
3.4.3 Le théorème central limite . . . . . . . . . . . . . . . . . . . . .
3.5 Exemples d’intervalle de confiance . . . . . . . . . . . . . . . . . . . .
3.6 Autres théorèmes de convergence . . . . . . . . . . . . . . . . . . . . .
3.7 Complément : le lemme de Borel-Cantelli . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
16
16
16
16
17
17
17
18
18
19
19
19
19
20
20
20
21
21
23
23
réelles
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
24
24
25
26
4 Couples de variables aléatoires
4.1 Fonctions de répartition . . .
4.2 Lois conjointes et marginales
4.3 Covariance et correlation . . .
5 Compléments
5.1 Fonctions génératrices . .
5.2 Espérances conditionnelles
5.3 Chaînes de Markov . . . .
5.4 Entropie (de Shannon) . .
1
. . . . . . . . .
et Martingales
. . . . . . . . .
. . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Bases des probabilités
1.1
Intérêts des probabilités
Des applications nombreuses :
– Vie quotidienne (temps d’attente à une caisse...)
– Aux statistiques (sondages d’opinion...)
– Théorie des jeux (estimation chances de gain...)
– Économie/Finance (prévision de l’évolution du marché...)
– Automatisme (dans la prise de décision...)
– Physique (mécanique statistique)...
– Biologie (mouvement brownien d’une particule de pollen...)
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
26
27
27
27
28
– Branche importante des Mathématiques (W.Werner médaille Fields 06, nouveaux
types d’énoncés valables presque partout...)
– etc...
−•−
1.2
Axiomatique de Kolmogorov
Exemple historique : « le grand scandale » du Chevalier de Méré
Le chevalier de Méré est un noble et écrivain français très amateur de jeu d’argent.
Contemporain de Blaise Pascal, il s’opposa à ce dernier sur un problème de jeu de dés :
Jeu 1 : Sur un lancer de 4 dés, le chevaliergagne si au moins un "6" apparaît.
Jeu 2 : On lance 24 fois une paire de dés et il gagne si un "double 6" apparaît.
A la grande surprise du chevalier, le second jeu n’est pas favorable alors que le premier l’est.
Ce problème, et d’autres, seront résolus par Pascal et Fermat dans une série de 5 lettres de 1651
à 1654.
Je n’ai pas eu le temps de vous envoyer la
démonstration d’une difficulté qui étonnait fort
M. de Méré, car il a très bon esprit, mais il n’est
pas géomètre (c’est, comme vous savez, un grand
défaut) (...) je n’ai jamais pu l’en tirer. Si vous
pouviez le faire, on le rendrait parfait. Extrait
de la lettre du 29 juillet 1654 de Pascal à Fermat
mentionnant le problème du chevalier de Méré.
−•−
1.2.1
Vocabulaire
Andreï Kolmogorov (1903-1987) est un mathématicien soviétique et russe. Il est l’auteur
de nombreux résultats dans des domaines très
variés : probabilité, topologie, systèmes dynamiques (théorie K.A.M)...
– En 1933
– Manuel des Fondements de la théorie des
probabilités, en allemand Grundbegriffe
der Wahrscheinlichkeitsrechnung.
• Partons d’une « expérience aléatoire » :
– L’ensemble des issues possibles sera appellé l’univers des possibles. On le note Ω.
Attention : il existe plusieurs choix possibles de Ω.
– Un évenement est une partie de Ω.
−•−
3
Langage probabiliste
Issue
Événement A
A est réalisé
Événement contraire (non-A)
A et B
A ou B
Événements incompatibles
A implique l’événement B
Événement impossible
Événement certain
Système complet
d’événements An
Notation
ω (ω ∈ Ω)
A ⊂ Ω (A ⊂ Ω)
ω∈A
A=Ω\A
A∩B
A∪B
A∩B =∅
A⊂B
∅
Ω
S
Ω = n An
et Ai ∩ Aj = ∅
Langage ensembliste
élément de Ω
partie de Ω
complémentaire
intersection
union
inclusion
ensemble vide
espace entier
partition
Dans le cas du premier jeu du chevalier de Méré, on a par exemple
4
Ω1 = {1, . . . , 6} ⊂ R4 ,
ω = (1, 2, 2, 6),
Ai : "le premier lancer est i"
−•−
– Une tribu (ou algèbre des événements) est la donnée de E ⊂ P(Ω) tels que :
– Ω ∈ E.
– Stabilité par le complémentaire.
– Stabilité par union finie ou dénombrable.
– Un espace probabilisable est la donnée d’un couple (Ω, E) avec :
– Ω un univers des possibles.
– E une tribu des événements sur Ω.
Remarque : dans le cas où Ω est un ensemble fini, on choisira en général
E = P(Ω)
−•−
1.2.2
Une mesure de probabilité
Soit (Ω, E) un espace probabilisable.
• Une probabilité est une application P telle que
– P : E → [0, 1]
– P(Ω) = 1
– Pour toute suite finie ou dénombrable d’événements deux à deux incompatibles, on a :
!
[
X
P
An =
P(An )
n∈I
n∈I
• Un espace probabilisé est la donnée d’un triplet : (Ω, E, P)
– espace probabilisable (Ω, E)
– P une probabilité sur E.
−•−
Deux cas particuliers vont concentrer notre attention :
4
– Le cas fini où la probabilité est une somme pondérée de Dirac
X
1 si x ∈ A
P=
pi δxi où δx (A) =
0 si x ∈
/A
i∈I
– Le cas absolument continu par rapport à la mesure de Lebesgue.
Z
P(A) =
f (x) dx
A
Dans toute la suite, nous nous limiterons à l’étude de ces deux cas. Le cadre général
suppose des notions de théorie de la mesure, une probabilité étant une mesure de
masse totale 1 (µ(Ω) = 1).
Remarque* : considérons le cas où Ω = [0, 1] muni de la mesure de Lebesgue, on ne peut
choisir directement E = P(Ω) à l’instar du cas fini. En effet, même si elles sont "exeptionnelles", il
existe des parties de [0, 1] qui ne sont pas mesurables (pour la mesure de Lebesgue). C’est une des
raisons à l’introduction de la notion de tribu...
Exemple : dans ce cas, tout singleton est de mesure nulle. Par suite, la propriété d’additivité
permet d’affirmer que P(Q) = 0. Autrement dit, lorsqu’on l’on choisit au hasard (et uniformement)
un nombre dans [0, 1], on a bien aucune chance de tomber sur un nombre rationnel.
−•−
1.3
Le cas d’équiprobabilité
• Soit Ω de cardinal fini.
On dira qu’il y a équiprobabilité dans le cas où tous les événements élémentaires ont même
probabilité.
Si Ω = {ω1 , ω2 , . . . , ωn } ⇒ P(ωj ) =
1
n
ou encore ∀A ∈ E :
P(A) =
Card(A) nombre cas favorables
=
Card Ω
nombre cas possibles
−•−
Rappels en combinatoire :
– Nombre de permutations d’un ensemble à n éléments : n!
– Nombre de p-uplets d’un ensemble à n éléments : np
– Nombre de p-arrangements d’un ensemble à n éléments :
Apn :=
n!
= n(n − 1) . . . (n − p + 1)
(n − p)!
– Nombre de parties d’un ensemble à n éléments : 2n
– Nombre de parties à k éléments d’un ensemble à n éléments :
n!
n
:=
k
k!(n − k)!
– Rappelons aussi la formule du binôme de Newton :
n X
n k n−k
n
(a + b) =
a b
k
k=0
−•−
5
1.4
1.4.1
Probabilités conditionnelles, indépendance
Probabilité conditionnelle
Soit (Ω, E, P ) un espace probabilisé et A un événement possible (P(A) 6= 0).
– L’application :

 E → [0, 1]
P(A ∩ B)
PA :
 B 7→ PA (B) =
P(A)
est une probabilité sur (Ω, E) appelée probabilité conditionnelle.
– On note aussi PA (B) = P(B | A).
– Si (An )n∈I définit un système complet alors :
P(B) =
X
P(An )P(B | An )
n∈I
C’est la formule des probabilités totales.
−•−
1.4.2
Indépendance stochastique
– Deux événements sont dits indépendants si :
P(A ∩ B) = P(A)P(B)
Ou encore PA (B) = P(B).
– n événements sont dits mutuellement indépendants si pour toute partie non vide I de [[1, n]] :
!
\
Y
P
Ai =
P(Ai )
i∈I
i∈I
Conclusion sur le problème du chevalier de Méré : nous pouvons faire l’hypothèse de
l’indépendance de chaque lancer de dés. Sachant que les probabilités d’un "6" sur le lancer d’un dé
et d’un "double 6" sur une paire de dés sont respectivement 1/6 et 1/36. On trouve
!4
!24
1
1
1
1
Jeu 1 : p1 =
' 0.52 >
Jeu 2 : p2 =
' 0.49 <
6
2
36
2
Contrairement à l’intuition du Chevalier, le premier jeu est favorable alors que le second ne l’est pas.
−•−
1.4.3
Formule de Bayes
Théorème 1.
– Pour tous événements possibles A, B :
P(A)P(B | A)
P(B)
– Si (Aj )j désigne un système complet d’événements possibles et B un événement possible,
alors
P(A | B) =
P(Ak )P(B | Ak )
P(Ak | B) = P
j P(Aj )P(B | Aj )
Rappel : un événement A est possible si P(A) > 0.
−•−
6
2
Variables aléatoires réelles
2.1
Loi de probabilité d’une v.a.r
Le paradoxe de Bertrand (1888)
Soit C un cercle de rayon 1.
Quelle est√ la probabilité qu’une corde du cercle, choisie au hasard, possède une longueur
supérieure à 3 ?
Que vaut la probabilité ?
1
3
ou
1
4
Le côté d’un triangle équilatéral inscrit dans ce cercle a pour longueur
√
3.
C’est un exemple de problème mal-posé : la distribution du milieu de la corde est différente
dans chacun des cas. Certes on choisit au hasard, mais suivant quelle loi ?
−•−
2.1.1
Définition d’une v.a.r
Soit (Ω, E, P) un espace probabilisé, une variable aléatoire réelle est une application :
Ω → R
X:
ω 7→ X(ω)
ayant la propriété suivante : l’image réciproque de tout intervalle de type ]a, b] est un élément de
la tribu E.
∀a < b,
X −1 (]a, b]) ∈ E
Remarque : notons qu’une variable aléatoire n’a finalement rien d’aléatoire : c’est une application parfaitement déterminée ! C’est un abus de langage, ce qui est aléatoire c’est X(ω) et
non X.
−•−
2.1.2
Loi de probabilité
Soit (Ω, E, P) un espace probabilisé et X une variable aléatoire réelle.
On appelle loi de probabilité de X la probabilité, notée PX , image de P par X :
PX (]a, b]) = P X −1 (]a, b])
Remarque : on utilisera les notations suivantes :
P(X ∈ A) := P({ω ∈ Ω | X(ω) ∈ A})
P(X = k) := P({ω ∈ Ω | X(ω) = k})
−•−
7
2.2
Fonction de répartition
Soit (Ω, E, P) un espace probabilisé et X une variable aléatoire réelle.
La fonction de répartition de X est la donnée de :
R → [0, 1]
FX :
y 7→ PX (] − ∞, y])
Quelques propriétés :
– la fonction est croissante et continue à droite.
– lim F = 1 et lim F = 0.
+∞
−∞
– pour tout a < b
PX (]a, b]) = FX (b) − FX (a)
– Une fonction de répartition caractérise la loi.
−•−
2.3
Définition d’une variable aléatoire discrète
Rappelons que
X(Ω) := {X(ω) | ω ∈ Ω}
Définition 1. On dit qu’une variable aléatoire est discrète lorsque X(Ω) est fini ou dénombrable.
Remarques et exemple
– Si Ω est fini ou dénombrable, X est une v.a discrète.
– Pour connaitre la loi, il suffit de la connaître sur les singletons {x} car
X
P(X ∈ I) =
P(X = x)
x∈I
– La Loi de Bernoulli
P(X = 1) = p
et P(X = 0) = 1 − p = q
– Loi uniforme discrète
P(X = k) =
1
n
−•−
2.4
Définition d’une variable aléatoire continue
Définition 2.
– Une densité de probabilité est une fonction positive d’intégrale 1.
– Soit X une v.a.r et fX une densité de probabilité sur R. On dit que X est v.a continue de
densité fX si pour tout intervalle [a, b] de R on a :
Z b
P(X ∈ [a, b]) =
fX (t) dt
a
La fonction de répartition d’une variable aléatoire continue est la primitive de la densité dont
la limite en −∞ est nulle.
Z t
FX (t) = P(X 6 t) =
fX (u) du
−∞
C’est une fonction continue sur R. En tout point t où fX est continue, FX est dérivable et
d
FX (t) = fX (t)
dt
8
Remarque. La formule précédente est encore vraie pour les variables aléatoires discrètes à la
condition toutefois de considérer la dérivée au sens des distributions. Par exemple, pour la Loi de
Bernoulli
FX (t) = q H(t) + p H(t − 1) ⇒ [FX ]0 = q δ0 + p δ1
où H désigne la fonction de Heaviside.
Interprétation graphique :
−•−
Exemples de v.a continues :
– Loi uniforme continue
fX =
1
1[a,b]
b−a
– Loi normale centrée réduite N (0, 1) :
1
2
fX (t) = √ e−t /2
2π
−•−
2.5
Quantiles
Définition 3. On appelle p-quantiles pour p ∈ N∗ , les valeurs xk,p pour lesquelles
F (xk,p ) =
k
,
p
k ∈ [[1, p[[
Remarques :
– Pour p = 2, on parle de médiane ;
– Les 3-quantiles sont appelés terciles ;
– Les 10-quantiles sont appelés déciles...
– Il n’y a pas unicité de xk,p . Pour avoir unicité, on peut poser :
k
xk,p = g
p
où g est l’inverse généralisé de la fonction de répartition FX :
g(u) := inf{x ∈ R | FX (x) > u}
−•−
9
2.6
V.a de loi ϕ(X)
Supposons connue la loi de X (de densité fX ), on veut déterminer la loi de Y = ϕ(X).
– Cas où ϕ est strictement croissante dérivable.
FY (y) = P[Y 6 y] = P[ϕ(X) 6 y] = P[X 6 ϕ−1 (y)] = FX (ϕ−1 (y))
La densité correspondante est :
fY (y) =
d
1
FY (y) = 0 −1
fX (ϕ−1 (y))
dy
ϕ (ϕ (y))
– Dans le cas général, il faut étudier les ensembles ϕ−1 (] − ∞, y])...
−•−
Exemples :Supposons que X ∼ N (0, 1)
– ϕ une fonction affine ϕ(t) = σt + µ.
⇒
Y ∼ N (µ, σ)
– ϕ la fonction carrée ϕ(t) = t2 .
⇒
1
1 1
fY (y) = √ √ e− 2 y 1R+∗ (y)
y 2π
est la loi du chi-deux à 1 degré de liberté X 2 (1).
−•−
2.7
Indépendance de variable aléatoire
Définition 4. X et Y sont indépendantes si pour tout couple (I, J) d’intervalles de R, on a :
P ( (X ∈ I) ∩ (Y ∈ J) ) = P(X ∈ I) × P(Y ∈ J)
Exercice : Donner un exemple et un contre-exemple dans le cas d’un lancer d’une paire de dés.
−•−
2.8
2.8.1
Espérance, moments
Définition et propriétés de l’espérance
Soit X une variable aléatoire réelle, l’espérance mathématique de X est (si elle existe)
définie par :
– si X est une v.a.r discrète finie ou dénombrable
X
E(X) =
x P(X = x)
x∈X(Ω)
– si X est une v.a.r à densité fX :
Z
t fX (t) dt
E(X) =
R
−•−
10
Soient X1 et X2 deux v.a.r et λ ∈ R, alors
– (Linéarité) E(X1 + λX2 ) = E(X1 ) + λE(X2 )
– (Positivité) |E(X)| 6 E(|X|)
– Si X1 et X2 sont indépendantes :
E(X1 × X2 ) = E(X1 ) × E(X2 )
– Pour tout A ∈ E :
P(X ∈ A) = PX (A) = E(1A (X))
– Pour une fonction h : R 7→ R
E(h(X)) =



P
h(x) P(X = x)
en discret
x∈X(Ω)
R
R
h(t)fX (t) dt
en continu
C’est la formule de transfert.
−•−
2.8.2
Définition et propriétés des moments
Soit X une variable aléatoire réelle,
– le moment d’ordre s de X est (s’il existe) défini par
ms (X) := E(X s )
– si X est une v.a.r discrète finie ou dénombrable
X
ms (X) =
xs P(X = x)
x∈X(Ω)
– si X est une v.a.r à densité f :
Z
ms (X) :=
ts f (t) dt
R
– La variance est donnée par :
Var(X) = E (X − E(X))2 > 0
– L’écart type est donné par :
σX =
p
Var(X)
−•−
Soient X1 et X2 deux v.a.r et a ∈ R, alors
–
Var(aX + b) = a2 Var(X)
– Si X1 et X2 sont indépendantes :
Var(X1 + X2 ) = Var(X1 ) + Var(X2 )
2
– Var(X) = E(X 2 ) − E(X)2 = m2 (X) − m1 (X) .
−•−
11
2.8.3
Inégalité de Bienaymé-Tchebyshev
Théorème 2 (Inégalité de Markov et de Bienaymé-Tchebyshev).
alors :
E(Z)
∀ε > 0,
P(Z > ε) 6
ε
– Soit Z une v.a positive,
– Soit X une v.a.r admettant un moment d’ordre 2 (E(X 2 ) < +∞) alors :
∀ε > 0,
P(|X − E(X)| > ε) 6
2
σX
ε2
Preuve : il faut remarquer que Z > ε1{Z>ε} , puis prendre Z = |X − E(X)|.
−•−
2.9
2.9.1
Lois usuelles discrètes
Loi uniforme U[[a,b]]
Définition :


X(Ω)
=
 P(X = k)
=
Caractéristiques : E(X) =
[[a, b]]
1
n
n+1
2
où
= b−a+1
n
V (X) =
n2 − 1
12
Modélisation : Tirage au hasard d’une boule numérotée dans une urne comptant n boules notées
de 1 à n.
−•−
2.9.2
Loi de Bernoulli B(1, p)
Définition :



X(Ω)
P(X = 1)


P(X = 0)
= {0, 1}
= p
= 1−p=q
Caractéristiques : E(X) = p
V (X) = pq
Modélisation : pour p = 1/2, lancer d’une pièce équilibrée.
−•−
2.9.3
Loi Binomiale B(n, p)
(
Définition :
X(Ω)
P(X = k)
[[0, n]]
= nk pk (1 − p)n−k
=
Caractéristiques : E(X) = np
V (X) = npq
Modélisation : Expérience de n épreuves de Bernoulli indépendantes.
12
source : wiki
−•−
2.9.4
Loi de Poisson P(λ)
Définition :



X(Ω)
= N

 P(X = k)
=
e−λ
Caractéristiques : E(X) = λ
λk
k!
V (X) = λ
Modélisation : Événement rare, temps d’attente à une caisse, appel téléphonique etc...
source : wiki
−•−
2.9.5
Loi géométrique
(
Définition :
X(Ω)
P(X = k)
= N
=
(1 − p)k−1 p
1
p
V (X) =
Caractéristiques : E(X) =
q
p2
Modélisation : Temps du premier échec. Modèle discret de la désintégration d’une particule
radioactive (loi sans mémoire).
−•−
2.9.6
Loi hypergéométrique
Soit p ∈ [0, 1], pA ∈ N et n 6 A.


X(Ω) = [[0, n]]


qA pA
Définition :
k
n−k


 P(X = k) =
A
n
13
Caractéristiques : E(X) = npq
V (X) = npq
A−n
A−1
Modélisation : Tirage simultané.
−•−
2.10
2.10.1
Lois usuelles continues
Loi uniforme U[a,b]
Définition :


 X(Ω)
= R

 f (x)
=
Caractéristiques : E(X) =
1
1[a,b] (x)
b−a
a+b
2
V (X) =
(b − a)2
12
Modélisation : Choix d’un point au hasard sur [a, b].
−•−
2.10.2
Loi exponentielle E(λ)
Définition :
X(Ω) = R+
fλ (x) = λe−λx 1R+
(x)
∗
Caractéristiques : E(X) =
1
λ
V (X) =
1
λ2
Modélisation : Processus sans mémoire, désintégration atomique (datation au carbone 14).
−•−
2.10.3
Loi normale N (µ, σ)
Définition :



X(Ω)

 fµ,σ (x)
= R
=
1 −
√ e
σ 2π
(x − µ)2
2σ 2
V (X) = σ 2
Caractéristiques : E(X) = µ
Modélisation : Très importante en statistique (cf le théorème central limite).
−•−
Remarque : comment lire une table de la loi normale ?
u
0,00
0,01
0,02
...
0,0
0,500
0,504
0,508
...
0,1
0,539
0, 543
0,547
...
0,2
..
.
0,579
0,583
0,587
...
14
Exemple :
pour u = 0, 11 = 0, 1 + 0, 01 ⇒ F (u) = P (X 6 u) ' 0, 543
Il n’existe pas de formule simple utilisant les fonctions usuelles (cos, exp, ln ...) pour calculer la
fonction de répartion de la loi Normale. D’où le recours à ce genre de tables...
−•−
2.11
2.11.1
Convolution, loi d’une somme
Qu’est ce qu’une convolution ?
– Cas fonctionnel : soient deux fonctions g, f : R 7→ C.
Le produit de convolution noté f ∗ g est défini (sous réserve de convergence) par :
Z +∞
Z +∞
(f ∗ g)(x) =
f (x − t) · g(t)dt =
f (t) · g(x − t)dt
−∞
−∞
– Cas discret : soient deux suites u, v : N 7→ C.
Le produit de convolution noté u ∗ v est défini (sous réserve de convergence) par :
(u ∗ v)(n) =
∞
X
u(n − m) · v(m) =
m=−∞
∞
X
u(m) · v(n − m)
m=−∞
Donnons deux cas de convergence :
– les fonctions sont à supports compacts,
– g bornée et f ∈ L1 (R).
−•−
2.11.2
Propriétés du produit de convolution
Soient f, g et h trois fonctions et λ ∈ R :
– (Linéarité) f ∗ (g + λh) = f ∗ g + λf ∗ h
– (Commutativité) f ∗ g = g ∗ f
– Lien avec les distributions : δ0 ∗ f = f avec δ0 la masse de Dirac en 0.
– Lien avec la transformée de Fourier :
F(f ∗ g) = F(f ) · F(g)
−•−
2.11.3
Somme de v.a.r
Proposition 1. Soient X, Y deux variables aléatoires discrètes indépendantes, la loi de la
somme X + Y est donnée pour tout z ∈ N par :
P
P(Z = z) =
x P(X = x) × P(Y = z − x)
P
=
y P(Y = y) × P(X = z − y)
Exemples :
– Donner la loi de la somme de deux v.a indépendantes suivant respectivement une loi P(λ)
et P(µ).
– Donner la loi de la somme de deux v.a indépendantes suivant respectivement une loi B(n, p)
et B(m, p).
−•−
15
Proposition 2. Soient X, Y deux variables aléatoires indépendantes à densité fX et fY , la
somme X + Y est une v.a à densité donnée par :
fX+Y = fX ∗ fY
Exemple :
– Donner la loi de la somme de deux v.a indépendantes suivant respectivement une loi N (µ, σ)
et N (µ0 , σ 0 ).
Indication : pour le calcul de la somme, on pourra passer par la transformée de Fourier de
la Gaussienne (qui est encore une fonction de type Gaussien) et utiliser le fait qu’une convolution
revient à un produit dans le domaine de Fourier...
−•−
3
Fonctions caractéristiques et convergences de variables
aléatoires
3.1
3.1.1
Fonctions caractéristiques
Définition
La fonction caractéristique de la variable aléatoire X est :
ρX (t) := E(eitX )
– pour X une v.a. discrète, on a :
X
ρX (t) =
eitx P(X = x)
x∈X(Ω)
– pour X une v.a continue de densité fX , on a :
Z
ρX (t) =
eitu fX (u) du
R
Remarque : dans le second cas, on reconnait une transformée de Fourier inverse de la fonction
densité fX .
−•−
3.1.2
Premières propriétés
– ρX est continue sur R et majorée par ρX (0) = 1.
– ρaX+b (t) = eibt ρX (at).
– Si X et Y sont indépendants alors :
ρX+Y = ρX ρY
Lien avec les moments
– Si E(X s ) < +∞ pour s ∈ N∗ alors :
(s)
ρX (0) = is E(X s )
– En particulier :
E(X) = −iρ0X (0),
00
V ar(X) = ρ02
X (0) − ρX (0)
−•−
16
3.1.3
Exemples usuels et applications
Soient X et Y deux v.a.r.
ρX = ρY
si
alors
PX = PY
La fonction caractéristique caractérise la loi d’une v.a.r.
Exercice : Trouver la loi de X + Y − Z où X ∼ N (0, 1), Y ∼ N (0, 2) et Z ∼ N (1, 3) (les
variables sont indépendantes).
−•−
Pour a, b, n ∈ N, λ ∈ R+
∗ et p ∈ [0, 1]
– Si X ∼ U([[a, b]]), alors
ρX (t) =
b−a
eiat X
eikt
b−a+1
k=0
– Si X ∼ B(n, p), alors
ρX (t) = (q + peit )n
– Si X ∼ P(λ), alors
ρX (t) = exp(λ(eit − 1))
– Si X ∼ G(p), alors
peit
1 − q eit
ρX (t) =
−•−
Pour a, b, µ ∈ R et λ, σ ∈ R+
∗
– Si X ∼ U([a, b]), alors
eitb − eita
it(b − a)
ρX (t) =
– Si X ∼ E(λ), alors
1−
ρX (t) =
it
λ
−1
– Si X ∼ N (µ, σ), alors
σ 2 t2
ρX (t) = exp µit −
2
−•−
3.2
3.2.1
Convergences de variable aléatoire
Convergence presque-sûrement, en probabilité et quadratique
On dira que X et Y deux v.a sont égales presque-partout si
P(ω t.q X(ω) 6= Y (ω)) = 0
17
Définition 5 (Les convergences).
– (Xn )n converge presque sûrement vers X si
P(ω t.q lim Xn (ω) 6= X(ω)) = 0
n
– La suite (Xn )n converge en probabilité vers X si pour tout ε > 0, on a :
lim P(|Xn − X| > ε) = 0
n→∞
– On a une convergence quadratique de (Xn )n vers X si :
lim E((Xn − X)2 ) = 0
n→∞
−•−
3.2.2
Convergence en Loi
Définition 6. (Xn )n converge en loi vers X si les fonctions de répartition de Xn converge vers
la fonction de répartition de X en tout point de continuité de cette dernière.
– pour des v.a discrètes convergent vers une v.a discrète :
∀x ∈ R,
lim P(Xn = x) = P(X = x)
n→∞
– pour des v.a. à densité fXn vers une v.a à densité fX
∀t ∈ R,
fXn (t) −→ fX (t)
n→∞
Théorème 3 (de Levy).
Loi
Xn −→ X
si et seulement si
simpl.
ρXn −→ ρX
où
ρn (t) = E[eitXn ] et ρ(t) = E[eitX ]
simpl.
Le symbole −→ signifiant qu’il y a convergence simple ou encore point par point :
∀ t ∈ R,
ρXn (t) −→ ρX (t)
n→+∞
−•−
3.2.3
Liens entre ces différentes convergences
Convergence presque sûrement
P(ω t.q lim Xn (ω) 6= X(ω)) = 0
n
⇓
Convergence en probabilité
∀ε > 0,
lim P(|Xn − X| > ε) = 0
n→∞
⇓
Convergence en loi
lim P (Xn ∈ A) = P (X ∈ A) 1
n→∞
−•−
1. Pour tout A ∈ E dont la frontière ∂A vérifie P (X ∈ ∂A) = 0.
18
3.3
3.3.1
Lois des grands nombres
Loi faible des grands Nombres
Théorème 4 (Loi faible des grands Nombres). Soit Xi une suite v.a.r indépendantes et de même
loi. Si de plus E(Xi2 ) < +∞, alors :
n
Xn =
1X
P roba.
Xi −→ E(X1 )
n i=1
Remarque : preuve via Bienaymé-Tchebyshev.
Application au Théorème de Bernoulli :
Lorsque le nombre d’expériences aléatoires augmentent indéfiniment, la fréquence d’apparition
Fn (A) de l’événement A converge en probabilité vers sa probabilité théorique p = P(A).
∀ε > 0,
lim P(|Fn (A) − p| > ε) = 0
n
−•−
3.3.2
Méthode de Monte-Carlo
Tirons des points uniformément dans un carré [0, 1]2 . Soit Xi une v.a valant 1 si le i-ème point
tiré est dans le quart de disque et 0 sinon. On a P(Xi = 1) = π/4.
On s’attend à Fn =
Nombre de points dans le quart de disque
Nombre de points tirés
'
π
4.
Plus généralement, on parle de Méthode de Monte-Carlo. Le véritable développement des
méthodes de Monte-Carlo s’est effectué pendant le Projet Manhattan conduisant à la fabrication
de la bombe atomique...
−•−
3.3.3
Loi forte des grands Nombres
Théorème 5 (Loi forte des grands Nombres ). Soit Xi une suite v.a.r indépendantes et de même
loi. Si de plus E(Xi2 ) < +∞. Alors :
n
Xn =
1X
p.s
Xi −→ E(X1 )
n i=1
Principe Shadok :
Plus ça rate, et plus on a de chances que ça
marche.
Exemple : Ils avaient calculé que leur fusée
avait une chance sur un million de décoller, ils
se sont donc dépêchés de rater les 999 999 premiers essais pour être sûrs que le millionième soit
le bon.
19
−•−
3.4
3.4.1
Théorème central limite
La Planche de Galton
La planche de Galton est un dispositif inventé par Francis Galton illustrant la convergence d’une
loi Binomiale vers une loi Normale. On lance plusieurs billes sur une planche inclinée recouverte
de clous. On constate alors que la repartition des billes prend l’allure d’une courbe en cloche : la
Gaussienne.
Partons de X0 = 0. On définit Xi une v.a représentant la direction prise par la boule au i-ème
étage (−1 pour gauche, +1 pour droite). La loi de X est P(Xi = −1) = P(Xi = 1) = 21 . La position
n
P
de la bille à la fin est donnée par S =
Xi . De plus les Xi sont indépendants.
i=1
−•−
3.4.2
Le théorème de De Moivre-Laplace
Théorème 6 (de De Moivre-Laplace). Soit Sn une suite de v.a de loi Binomiale B(n, p), alors :
Sn − np Loi
−→ N (0, 1)
√
npq
– Principe de l’approximation,
P
Sn − np
6t
√
npq
!
' FN (0,1) (t)
avec F la fonction de répartition de la loi normale centrée réduite.
– Meilleure approximation par « correction de continuité ».
−•−
Mise en pratique : les sondages
– Le modèle : on considère une population de N individus et on sonde n personnes avec
n N . Supposons que 45% des gens soient pour, le reste étant contre. On fait aussi
l’hypothèse (peu réaliste) que le choix de chacun est indépendant des autres.
– Questions :
Q1 : Quelle est la probabilité pour que le sondage soit favorable ? Pour n = 10, n = 100 et
n = 1000.
Q2 : Combien de sondage faut-il faire pour en avoir au moins un favorable dans 95% des
cas ?
20
Remarque. D’après le calcul précedent, il est très possible d’obtenir des sondages favorables
en multipliant leurs nombres. Malheuresement ces derniers sont souvent surexposés et analysés
comme un « changement de l’opinion public » alors qu’ils n’ont qu’une réalité statistique...
Solution.
n
Loi Binomiale
Théorème De Moivre-Laplace
Correction de continuité
n = 10
n = 100
n = 1000
−•−
3.4.3
Le théorème central limite
Théorème 7 (central limite). Soit (Xn )n une suite de variables aléatoires indépendantes de même
loi d’espérance µ et d’écart-type σ. Alors :
n
P
i=1
Xn − nµ
Loi
√
−→ N (0, 1)
σ n
– On peut traduire l’énoncé de la manière suivante


X1 + · · · + Xn
Z b


−µ
exp(−x2 /2)


n
√
∀a < b
P a <
< b −→
dx

 n→+∞ a
σ
2π
√
n
–
–
–
–
Idées de la preuve.
Une généralisation du théorème de De Moivre-Laplace.
Principe de l’approximation.
Le Théorème central limite est un théorème d’une très grande généralité : on ne suppose que
très peu de chose sur la loi si ce n’est l’existence d’un moment d’ordre 2.
Application : La mesure d’un grandeur phsique est soumise à de nombreuses erreurs accidentelles. On fait l’hypothèse que l’erreur sur la mesure est la somme d’un très grand nombre
de petites erreurs conséquence de différentes causes indépendantes. Chaque petite erreur se traduit par une variable aléatoire et par application du théorème central limite, l’erreur totale suit
approximativement une distribution normale centrée en la mesure exacte.
−•−
3.5
Exemples d’intervalle de confiance
L’idée de l’estimation par intervalle de confiance est de définir, autour de la moyenne empirique,
un intervalle aléatoire (dépendant des n expériences) qui contienne l’espérance µ avec une forte
probabilité. L’amplitude de l’intervalle mesure la précision de l’estimation.
21
Partons de la répétition d’une expérience conduisant à l’observation des valeurs numériques
x1 , . . . xn . La moyenne empirique est
µ̂ =
x1 + . . . xn
n
– Supposons la variance σ connue. Par application du théorème centrale limite, pour n suffisament grand
!
√
n
(Xn − µ) 6 0.95 ' FN (0,1) (0.95)
P
σ
On obtient l’intervalle de confiance asymptotique suivant
#
"
σ
σ
I = µ̂ − 1.96 × √ ; µ̂ + 1.96 × √
n
n
Avec 95% de chance, l’espérance appartient à I si n est « suffisament grand ».
– Si la variance est inconnue. Considérons le cas d’une loi de Bernoulli. Nous savons que la
variance est toujours inférieure à 1/2. On obtient l’intervalle (grossier)
#
"
1
1
p ∈ p̂ − √ ; p̂ + √
n
n
Valable pour n > 30, np > 5 et nq > 5.On peut aussiremplaçer σ par son approximation
empirique σ̂
"
#
σ̂
σ̂
I = µ̂ − 1.96 × √ ; µ̂ + 1.96 × √
n
n
Pour une justification théorique de cette type d’approximation, on pourra regarder p88-91
du polycopié et voir le lien avec la loi de Student...
−•−
Exemple d’un sondage
Voici les résultats d’un sondage IPSOS réalisé avant l’élection présidentielle de 2002 pour Le Figaro
et Europe 1, auprès de 989 personnes, constituant un échantillon national représentatif de la
population française.
Dans cet échantillon, les intentions de vote au premier tour pour les principaux candidats sont
les suivantes : 20% pour J. Chirac, 18% pour L. Jospin et 14% pour J.-M Le Pen. Les médias se
préparent donc, au vu de ce sondage, pour un second tour entre J. Chirac et L. Jospin...
Le 21 avril 2002, les résultats du premier tour des élections sont les suivants : 19.88% pour J.
Chirac, 16.18% pour L. Jospin et 16, 86% pour J.-M Le Pen.
Q. Le sondage permet-il de donner la composition du second tour à 95% de chance ?
22
Certes le score de J.-M Le Pen est au-delà de son intervalle de confiance, mais il faut bien voir
qu’au vu de ce sondage, on ne pouvait écarter (avec un niveau de confiance de 0.95) aucun des 3
candidats pour le second tour malgré les 4 points séparant L. Jospin et J.-Le Pen... Notons qu’on
peut expliquer ces erreurs par la modélisation. Outre le faible nombre de sondés, on peut douter de
l’hypothèse d’indépendance (notamment avec l’emploi de la méthode des quotas). De plus, il est
bien connu des sondeurs que beaucoup de personnes ayant des convictions marquées à l’extrême
droite ne se déclarent pas comme tel au sondeur.
Conclusion. Les sondages sont un bel exemple où la théorie mathématique fournit un outil très
efficace d’analyse et de prédiction (avec estimations des erreurs) mais où la difficulté réside dans
le modèle et l’interprétation des résultats, source d’erreurs difficilement quantifiables. Le calcul
des intervalles de confiance montre que des fluctuations aussi faibles doivent inciter à une grande
prudence dans leur interprétation. Les nombreux commentaires portant sur des fluctuations d’un
ou deux pour cent paraissent alors vides de sens. Terminons sur une citation d’Herbert George
Wells tirées de Statistiques en action
La pensée statistique sera un jour aussi nécessaire pour une participation citoyenne active que
savoir lire et écrire.
−•−
3.6
Autres théorèmes de convergence
Théorème 8 (Convergence de la loi de Binomiale vers la loi de Poisson). Soient Xn ∼ B(n, pn )
indépendantes tels que :
n
→ +∞
Loi
⇒ Xn −→ P(λ)
npn → λ
Théorème 9 (Convergence de la Loi Hypergéométrique vers la Binomiale). Soient Xn ∼ H(N, n, p)
indépendantes tels que N → +∞. Alors
Loi
Xn −→ B(n, p)
N →+∞
−•−
Exercice partiel ELI 2012 :En France, il y a environ 1 punk pour 1000 personnes. Dans une
salle de 3000 personnes choisies au hasard dans la population, quelle est la probabilité de tomber
sur un groupe d’au moins 3 punks ?
Indication : on pourra approximer le problème par une loi de Poisson.
−•−
3.7
Complément : le lemme de Borel-Cantelli
Soit (An )n∈N une suite d’événements, on pose :
\ [
lim sup An =
(
Ak )
n∈N
Lemme 1 (De Borel-Cantelli).
n>0 k>n
P
P(An ) < +∞ alors P(lim supn∈N An ) = 0.
P
– Si les événements sont indépendants alors
P(An ) < +∞ implique P(lim supn∈N An ) = 1.
– Si
n∈N
n∈N
23
• Exemple : Le singe dactylographique. Supposons qu’un singe, placé devant une machine à
écrire, tape au hasard sur toutes touches. Supposons que ce singe appuie sur chaque touche avec
une fréquence égale. Alors, tôt ou tard, il tapera n’importe quel texte choisi à l’avance.
−•−
« Parce que le hasard, il a bon dos. Prenons un des singes, là. Objectivement, quelles sont ses
chances de sortir un livre de 200 pages au hasard ? Mettons que ça fasse une combinaison de
400 000 signes. 100 caractères sur un clavier, en général. Donc ça fera 100 puissance 400 000
possibilités. Un « 1 » avec 800 000 zéros derrière. En gros, si un milliard d’ordinateurs essayaient
chacun un milliard de combinaisons par seconde depuis le big bang, ils auraient à peine eu le temps
de faire suffsamment d’essais pour tomber sur le titre. Tous ces efforts pour 200 pages. Le livre a
intérêt à être bon. La haine si tu tombes sur du Dan Brown. » Boulet, Notes.
4
Couples de variables aléatoires réelles
Soient X et Y deux variables aléatoires définies sur un même espace probabilisé (Ω, E, P). Le
couple (X, Y ) est définit par
ω ∈ Ω 7→ (X(ω), Y (ω))
Deux exemples (discret et continu)
• On considére deux Tirages indépendants et uniformes dans [[1, 4]]
X = T1
et Y = max(T1 , T2 )
La loi est donnée par :
X \Y
1
2
3
4
1
1/16
0
0
0
2
1/16
1/8
0
0
3
1/16
1/16
3/16
0
4
1/16
1/16
1/16
1/16
• Les aiguilles de Buffon.On veut calculer la probabilité pour qu’une aiguille lancée de manière
aléatoire coupe la ligne de séparation entre deux lames de parquet (supposées infinies en longueur).
– θ suit une loi uniforme continue sur [0; π/2]
– x suit une loi uniforme continue sur [0; L/2]
On modélise le problème en supposant x et θ indépendants.
−•−
4.1
Fonctions de répartition
Définition 7. Soient X, Y deux v.a définies sur un espace probabilisé (Ω, E, P). On définit
– La fonction de répartition conjointe de X et Y par :
FXY (x, y) = P ((X 6 x) ∩ (Y 6 y))
24
– Les fonctions de répartition marginales de X et Y par :
• FX (x) = FXY (x, +∞) = P(X 6 x)
• FY (y) = FXY (+∞, y) = P(Y 6 y)
X et Y sont indépendantes si et seulement si
∀(x, y),
FXY (x, y) = FX (x)FY (y)
−•−
4.2
Lois conjointes et marginales
Cas discret
Soient X, Y deux v.a discrètes définies sur un espace probabilisé (Ω, E, P).
X(Ω) = {xn | n ∈ I},
Y (Ω) = {yn | n ∈ J}
La loi conjointe du couple (X, Y ) est donnée par :
P (xi , yj ) = P ((X = xi ) ∩ (Yj = yj ))
Les lois marginales désignent les lois de X et Y
X
• P(X = xi ) =
P ((X = xi ) ∩ (Yj = yj ))
j∈J
• P(Y = yj ) =
X
P ((X = xi ) ∩ (Yj = yj ))
i∈I
−•−
Cas continu
Soient X, Y deux v.a continue définies sur un espace probabilisé (Ω, E, P). On dira que le couple
(X, Y ) admet une densité notée fX,Y si :
– FX,Y est deux fois dérivable par rapport à x et y
∂ 2 FX,Y
– fX,Y =
∂x∂y
On définit les densités marginales de probabilité de X et Y respectivement par :
Z +∞
fX (x) =
fX,Y (x, v) dv
−∞
Z
+∞
fY (y) =
fX,Y (u, y) du
−∞
−•−
Propositions :
Rx Ry
FX,Y (x, y) = −∞ −∞ fX,Y (u, v) du dv
R x R +∞
–
FX (x) = −∞ −∞ fX,Y (u, v) du dv
– Si D est une partie « mesurable » de R2 :
ZZ
ZZ
P ( (X, Y ) ∈ D ) =
fX,Y (u, v) du dv =
1D fX,Y (u, v) du dv
R2
D
25
– Si X et Y sont indépendantes :
fX,Y (u, v) = fX (u)fY (v)
Application : Il y a intersection entre l’aiguille et une des lignes si
x6
L
sin θ
2
P(« L’aiguille intersecte la ligne ») =
2L
πl
−•−
4.3
Covariance et correlation
Définition 8. On définit la covariance d’un couple (X, Y ) par :
cov(X, Y ) = E ( (X − E(X))(Y − E(Y )) )
RR
⇒ cov(X, Y ) =
(u − E(X))(v − E(Y ))fX,Y (u, v) du dv
R2
P
cov(X, Y ) =
i,j pi,j (xi − E(X))(yj − E(Y ))
continu
discret
où pi,j = P ((X = xi ) ∩ (Yj = yj )).
On a alors :
V (X + Y ) = V (X) + V (Y ) + 2 cov(X, Y )
−•−
Définition 9. On définit le coefficient de correlation d’un couple (X, Y ) par :
ρ(X, Y ) =
cov(X, Y )
σX σY
Remarque : Deux v.a indépendantes sont décorrélées :
X, Y indépendantes ⇒ ρ(X, Y ) = 0
Mais l’inverse est faux.
−•−
Lois conditionnelles pour des variables à densité
Lorsque cela a un sens, on défnit la fonction de répartition conditionnelle de la variable
aléatoire Y pour X = x par :
Z y
1
fXY (x, v) dv
F (y | x) = lim P (Y 6 y | a < x 6 b) =
a,b→x
fX (x) −∞
et la densité de probabilité conditionnelle de la variable aléatoire Y pour X = x par :
f (y | x) =
∂F (y | x)
∂y
−•−
5
Compléments
Cette partie donne quelques définitions et exemples d’outils importants en probabilités.
26
5.1
Fonctions génératrices
La fonction génératrice GX d’une variable aléatoire réelle discrète X est donnée par
GX (t) = E(tX ) =
+∞
X
tk pk
k=0
G est bien définie pour tout t ∈ [−1; 1] et elle caractérise la loi de X. Si X et Y sont indépendantes
alors
GX+Y = GX GY
5.2
Espérances conditionnelles et Martingales
On se place dans le cas général d’un espace de probabilité (Ω, E, P). Soit F ⊂ E une sous-tribu,
ainsi qu’une variable aléatoire intégrable X. Alors il existe une variable aléatoire Z, F -mesurable
et Lebesgue-intégrable, telle que, pour toute variable aléatoire U bornée et F -mesurable,
E(XU ) = E(ZU )
On note alors Z = E(X|F )
De plus, si Y est une seconde v.a engendrant la tribu σ(Y ), on note
E (X|Y ) = E (X|σ(Y ))
Définition 10. Soit (Ω, E, P) un espace probabilisé. Considérons (Xn )n une suite de v.a.r et
(En )n une suite croissante de tribus inclus dans E (on parle de filtration). On dit que (Xn )n est
une martingale si
– E(Xn ) < +∞ et Xn est En -mesurable pour tout n .
– On a pour tout n
E(Xn+1 |En ) = Xn
5.3
Chaînes de Markov
Une chaîne de Markov est une suite X0 , X1 , ... de variables aléatoires à valeurs dans un ensemble
E (dit ensemble des états) où l’avenir ne dépend que du présent. Autrement dit, pour tous états
x0 , ..., xn+1 ∈ E,
P(Xn+1 = xn+1 |Xn = xn , Xn−1 = xn−1 , ..., X0 = x0 ) = P(Xn+1 = xn+1 |Xn = xn )
On rajoute souvent l’hypothèse supplémentaire que la chaîne est indépendante du temps, c’est-àdire que les probabilités conditionnelles ne dépendent pas de n,
P(Xn+1 = j|Xn = i) = pij
On parle de chaînes de Markov homogènes. La matrice P = (pij )i,j∈E s’appelle la matrice de
transition.
Exemples :
– Un canal de transmission transmet des bits avec erreur selon le modèle suivant : il transmet
fidèlement un bit avec probabilité p et de façon erronée avec probabilité 1 − p avec p ∈ [0, 1].
On considère n canaux en série, et que chaque canal fonctionne indépendamment des autres.
On note Xk le bit reçu en sortie du k-ième canal et X0 le bit à l’entrée du premier canal.
On désire calculer la probabilité qu’au bout des n canaux, le signal reste inchangé.
Cette situation se modélise par une chaîne de Markov à 2 etats :
P (Xk+1 = 1|Xk = 0) = 1 − p et P (Xk+1 = 1|Xk = 1) = p
p
1−p
∈ M2 (R). Il est commode de modéliser cela par un graphe
1−p
p
1−p
et P =
p
0
1
1−p
27
p
Le calcul des puissances de P donne la probabilité qu’un bit soit fidèlement transmis au
bout de n canaux
1 + (2p − 1)n
P(Xn = X0 ) =
−→ 1/2
n→+∞
2
A la limite, on ne transmet rien...
– L’algorithme PageRank utilisé par Google donnant un indice de popularité d’une page Web.
– L’exemple proposé par d’Andrei Andreevich Markov, en 1913. On considère une suite de 20
000 caractères pris dans Eugène Onegin d’Alexandre Pouchkine, et on regarde la succession
entre les voyelles et les consonnes. En russe, ce dernier avait obtenu la matrice de transition
suivante
12, 8 87, 2
P =
66, 3 33, 7
Par exemple, la probabilité qu’une voyelle soit suivie d’une consonne est de 87,2%.
5.4
Entropie (de Shannon)
Soient X et Y deux variables aléatoires discrètes finies. On définit
– l’entropie de X par
n
X
H(X) = −
pi log2 pi
i=1
– l’entropie conjointe des variables X et Y
X
H(X, Y ) = −
P(X = xi , Y = yj ) log2 P(X = xi , Y = yj )
i,j
– l’entropie conditionnelle de Y relativement à X
X
H(Y | X) = −
P(X = xi , Y = yj ) log2 P(Y = yj | X = xi )
i,j
On vérifie que si Xc et Xeq suivent respectivement une loi certaine et une loi équiprobable alors
0 = H(Xc ) 6 H(X) 6 H(Xeq )
Interprétation en théorie de l’information. Supposons qu’un recepteur ignore ce que
l’emetteur va lui envoyé. Toutefois, le recepteur connaît la probablité de chaque message possible.
Par exemple, le recepteur connaît chaque pi , la probabilité d’un mot xi pris dans un dictionnaire
χ = {x1 , . . . , xn }. Alors H(p) mesure en un certain sens l’incertitude lors de l’envoi du message.
La relation précédente confirme cette intuition, l’entropie est nulle pour un message certain alors
qu’elle est maximale pour dans le cas d’équiprobabilité.
On vérifie aussi que
H(X, Y ) 6 H(X) + H(Y )
Si X et Y sont indépendants, on a égalité.
Citons aussi une phrase de John von Neuman à Shannon en 1949 justifiant le terme d’entropie :
« La théorie est excellente mais elle a besoin d’un bon nom pour « information perdue ». Pourquoi ne l’appelles-tu pas entropie ? Premièrement, un développement mathématique ressemblant
fort au tien existe déjà dans la mécanique statistique de Boltzmann, et deuxièmement, personne
ne comprend vraiment bien l’entropie, donc dans une discussion tu te trouverais dans une position
avantageuse. »
Références
–
–
–
–
–
Polycopié de cours, Claire LeGoff
Probabilités, Analyse de Données statistiques, G.Saporta
Probabilité pour non-probabilistes, W.Apfel
Exercices de probabilité, Cotterel/Genon-Catalot/Duhamel/Meyre
Statistiques en action, Rivoirard et Stoltz.
28
Téléchargement