Statistiques Chapitre 1: Rappels de calcul de Probabilité

publicité
Statistiques
Chapitre 1: Rappels de calcul de Probabilité
Catherine Bruneau
Année 2004
1
Expérience aléatoire
Definition 1 Une expérience est dite aléatoire si on ne peut pas prévoir l’issue
avec certitude
Example 2 : on lance un dé et on ne sait pas quelle face va apparaître
Definition 3 On appelle Ω l’ensemble des issues possibles, notées ω.
Example 4 On lance deux dés: l’ensemble Ω comporte 36 éléments; il est défini
par:
Ω = {(1, 1), (1, 2), ..., (6, 6)}
Definition 5 Un évènement A est une partie de Ω donc un ensemble d’issues
possibles ω.
Example 6 Un évènement élémentaire est réduit à une seule issue: {ω}
Example 7 un évènement possible lorqu’on lance deux dés noir et rouge: A :
la somme des points des deux faces apparues est ≥ 10 :
A = {(4, 6); (6, 4); (5, 5); (5, 6); (6, 5); (6, 6)}
Definition 8 A tout évènement A on associe son contraire: A qui est défini
comme le complémentaire de A dans Ω :
A∪A = Ω
A∩A = φ
où φ désigne le sous-ensemble vide (complémentaire de Ω dans Ω). Ω est
l’évènement cetain: n’importe quelle issue réalise Ω
1
Definition 9 Un sous-ensemble A de l’ensemble P (Ω) des parties de Ω , est
une tribu d’évènements définie sur Ω, si elle obéit aux trois axiomes:
i) ∀A ∈ A, A ∈ A
ii) Pour toute suite finie ou infinie (dénombrable) d’évènements Ai , i =
1, 2, ... d’évènements de A, ∪i Ai ∈ A
iii) Ω ∈ A
(Ω, A) est appelé espace probabilisable
Definition 10 Deux évènements A et B sont dits incompatibles si leur intersection est vide: A ∩ B = φ
Example 11 on lance un dé: A = {la face tirée est paire} = {2, 4, 6}. B =
{la face tirée est impaire} = {1, 3, 5}
Definition 12 Une partition de Ω est une suite finie d’évènements disjoints
(ou incompatibles) Ωk , 1 ≤ k ≤ K (Ωk ∩ Ωk0 = φ, pour k 6= k0 ) dont l’union
donne Ω :
[
Ωk = Ω
1≤k≤K
Example 13 Exemple On lance un dé: Ω1 = {la face tirée est inférieure ou égale à 2};
Ω2 = {la face tirée est comprise entre 2 et 4} ; Ω3 = {la face tirée est supérieure ou égale à 5}.
Exemple Le temps de demain; Ω1 = {il fait beau}; Ω2 = {il fait mauvais}
2
Probabilité
Definition 14 (Axiomatique de Kolmogorov): On appelle probabilité sur l’espace
probabilisable (Ω, A) une application de A dans [0, 1] qui à chaque évènement A
de Ω associe sa probabilité P (A)), satisfaisant les axiomes suivants:
i) P (Ω) = 1
ii) Pour toute suite finie ou non (mais dénombrable) d’évènements Ai ⊂ Ω,
incompatibles:
[
X
P ( Ai ) =
P (Ai )
i
i
On parle alors d’espace probabilisé (Ω, A, P).
Propriété ∀A ∈ C, P (A) = 1 − P (A)
Definition 15 Propriété P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Propriété Si on a une partition de Ω, {Ωk , 1 ≤ k ≤ K}, pour tout évènement
A de Ω, la propriété suivante est vérifiée:
P (A) =
K
X
k=1
2
P (A ∩ Ωk )
Exercice: établir les différentes propriétés
Remarque: historiquement la probabilité d’un évènement a été introduite
comme limite de la fréquence d’occurrence de cet évènement, observée en reproduisant de manière indépendante une même expérience aléatoire un grand
nombre de fois. Il s’agit de l’approche fréquentiste de Bernouilli. Par exemple;
on lance le même dé (non pipé) n fois, et on note combien de fois l’évènement
”la face est 3” s’est produit lors des n lancés, soit n3 . la fréquence nn3 tend vers
1
1
6 lorsque n tend vers l’infini: 6 est la probabilité d’observer la face 3 (lorsque
le dé n’est pas pipé, car alors les 6 faces sont équiprobables).
On définit la probabilité conditionnelle de la manière suivante:
Definition 16 Etant donnés deux évènements A et B on appelle probabilité
coinditionnelle ”sachant B”la probabilité définie sur Ω par:
A → P (A/B) =
P (A ∩ B)
P (B)
Exercice: vérifier que cette application définit bien une probabilité sur Ω
Example 17 On lance successivement deux dés; il y a 36 issues possibles comme
vu précédemment. Soit B l’évènement : ”la somme des deux faces est paire”;
Soit A l’évènement: ”la face du premier dé est paire”.
½
¾
(1, 1); (1, 3); (1, 5); (2, 2); (2, 4); (2, 6); (3, 1); (3, 3); (3, 5); (4, 2);
B=
(4, 4); (4, 6); (5, 1); (5, 3); (5, 5); (6, 2); (6, 4); (6, 6)
définit le nouvel ensemble des issues possibles. Il y en a 18.
A = {(2, 2); (2, 4); (2, 6); (4, 2); (4, 4); (4, 6); (6, 2); (6, 4); (6, 6)}
A est réalisé quand on observe l’une des 9 issues précédentes sur les 18
possibles, ce qui donne une probabilité:
P (A/B) =
1
9
=
18
2
On vérifie que A∩B = {(2, 2); (2, 4); (2, 6); (4, 2); (4, 4); (4, 6); (6, 2); (6, 4); (6, 6)}.
P (A ∩ B) =
donc
P (A ∩ B)
P (B)
=
1
18
1
9
= ; P (B) =
=
36
4
36
2
1
1
4
1 = 2 = P (A/B)
2
Proposition 18 Définition A et B sont deux évènements indépendants si et
seulement si P (B/A) = P (B)
Propriété A et B sont deux évènements indépendants si et seulement si P (A∩
B) = P (A)P (B)
3
3
Probabilité a priori, a posteriori et formule de
Bayes
Proposition
19 Formule de Bayes. Etant donnée une partition de Ω, Ω =
S
Ω
et
Ωk ∩ Ωk0 = φ pour k 6= k0 , et A un évènement (A ⊂ Ω), on a:
k
1≤k≤K
P (A/Ωk0 )P (Ωk0 )
1≤k≤K P (A/Ωk )P (Ωk )
P (Ωk0 /A) = P
En effet: P (A/Ωk0 )P (Ωk0 ) =
PP (A ∩ Ωk0 ) et
P
P
(A/Ω
)P
(Ω
)
=
k
k
1≤k≤K
1≤k≤K P (A ∩ Ωk ) = P (A).
Cette formule s’interprète de la manière suivante: on appelle P (Ωk0 ) la
probabilité a priori de l’évènement Ωk0 et P (Ωk0 /A) la probabilité a posteriori,
c’est-à-dire ”sachant que l’évènement A s’est réalisé”.
On donne l’exemple suivant.
On s’intéresse à la prévision du temps du lendemain en utilisant un baromètre.
On considère la partition de Ω en deux évènements Ω1 : ”il fait beau” et Ω2 :
”il fait mauvais temps”.
Des statistiques météorologiques fournissent une estimation des probabilités
a priori: π1 = P (Ω1 ) et π2 = 1 − π1 pour une région et une période de l’année
données, soit:
π1 = 0.60
Les caractéristiques du baromètre sont telles qu’il prévoit à tort du beau
temps -respectivement du mauvais temps- 1 fois sur 10 - respectivement 2 fois
sur 10 pour la prévision du beau temps et 12 fois sur 100 pour la prévision
du mauvais temps. On appelle A l’évènement :”prévision de beau temps”. Par
définition, l’évènement A correspond à la prévision de mauvais temps.
Les performances prédictives du baromètre sont donc les suivantes:
P (A/Ω1 ) = 0.20
P (A/Ω2 ) = 0.10
Par suite, si le baromètre indique qu’il va faire beau, la probabilité qu’il fasse
effectivement beau -probabilité a posteriori- est donnée par:
P (A/Ω1 )P (Ω1 )
P (A/Ω1 )P (Ω1 ) + P (A/Ω2 )P (Ω2 )
0.80x0.60
=
0.80x0.60 + 0.20x0.40
= 0.86
P (Ω1 /A) =
à comparer à la probabilité de 0.60, donnée sans référence au baromètre.
4
4
Variable aléatoire
Une variable aléatoire varie selon l’aléa: sa valeur dépend de l’aléa ω.
Definition 20 Etant donné un espace Ω muni d’une tribu d’évènements A, on
appelle variable aléatoire réelle X définie sur (Ω ,A) toute application de Ω dans
(R, B) telle que:
∀B ∈ B, X −1 (B) ∈ A
B désigne la tribu des boréliens de l’ensemble des réels R, c’est-à-dire la plus
petite tribu définie sur R qui contient les intervalles ouverts de R.
4.1
Variables alétoires discrètes
Definition 21 Une variable alétoire est dite discrète si elle ne prend qu’un
nombre fini ou dénombrable de valeurs: X(ω) ∈ {x1 , ..., xK , ...}.
Definition 22 Si (Ω,A) est muni d’une probabilité P , la distribution -ou loide probabilité de X est caractérisée par la donnée de pk = P (X = xk ) =
P ({ω/X(ω) = xk }).
P
Remarque: On a k pk = 1.
Exemple: On jette un dé jusqu’à ce que la face 1 apparaisse. On appelle X
la variable aléatoire qui est égale au numéro du lancé qui fait apparaître 1 pour
la première fois. L’ensemble des valeurs possibles est l’ensemble des entiers, N .
¡ ¢k−1
.
Dans ce cas, pour tout entier k, X = k avec la probabilité pk = 16 x 56
Definition
P 23 On appelle espérance d’une variable aléatoire X, la quantité
EX = k pk xk .
¢
¡
Definition
24 On appelle variance de X la quantité V arX = E (X − EX)2 =
P
2
k pk (xk − EX)
Rappel: on montre que V arX = E(X 2 ) − (EX)2
Definition 25 On appelle covariance de deux variables aléatoires X et Y définies
sur un espace (Ω ,A, P), la quantité:
cov(X, Y ) = E ((X − EX)x(Y − EY ))
= E(XxY ) − EXxEY
Propriété Pour deux variables aléatoires réelles X et Y définies sur une space
(Ω ,A, P), et tous scalaires λ et µ, on a E(λX + µY ) = λE(X) + µE(Y )
1. et V ar(λX + µY ) = λ2 V ar(X) + µ2 V ar(Y ) + 2λµcov(X, Y )
5
Propriété Deux variables alétoires discrètes X et Y sont indépendantes si
et seulement si:
∀xk , ∀yl , P (X = xk et Y = yl ) = P (X = xk )P (Y = yl )
Deux variables indépendantes ont une covariance nulle mais la
réciproque n’est pas vraie.
Exemples de variables aléatoires discrètes
1. Variable de Bernouilli de paramètre p.
Elle peut prendre deux valeurs: 1 avec la probabilté p et 0 (avec la probabilité 1 − p).
Son espérance est égale à : EX = 1xp + 0x(1 − p) = p et sa variance est
V ar(X) = 12 xp + 02 (1 − p) − p2 = p(1 − p).
Exemple: on lance un dé (non pipé) et on définit: X = 1 si la face est
paire et 0 sinon. X est une Bernouilli de paramètre p = 36 .
Variable de loi binômiale B(n, p)
L Pn
X =
i= Xi où les variables Xi sont des variables de Bernouilli de
paramètre p indépendantes.
Pn
Son espérance est
Pnégale à EX = i= EXi = nEX1 = np et sa variance
est V ar(X) = i= V arXi = nV arX1 = np(1 − p) car les variables Xi
sont indépendantes donc de covariances nulles.
Exemple: on lance 10 fois un dé non pipé avec indépendance des lancés
successifs. X est la variable alaétoire qui indique le nombre de fois où
apparaît la face paire. X est une binômiale B(10, 12 ).
Exercice : Montrer que si X est une binômiale B(n, p), P (X = k) = Cnk pk (1 −
n!
désigne le nombre de permutations de k éléments
p)n−k où Cnk = k!(n−k)!
parmi n.
Variable de Poisson de paramètre λ
c’est une variable à valeurs dans N telle que:
∀k ∈ N , P (X = k) =
λk exp(−λ)
k!
Cette variable alétoire est utilisée lorsqu’on veut comptabiliser le nombre
de fois où se produisent des évènements sur une durée donnée sous les
hypothèses suivantes:
i) seul évènement survient à la fois
ii) le nombre d’évènements ne dépend que de la durée T
iii) les évènements survenant sur des sous-périodes disjointes sont indépendants.
La cadence c, c’est à dire le nombre moyen d’évènements par unité de temps,
est alors telle que: λ = cT .
6
Propriété : Pour une variable de loi de Poisson P (λ), EX = V arX = λ.
Exercice : Le démontrer.
Propriété Si X1 et X2 sont deux variables indépendantes de lois de Poisson P (λ1 )
et P (λ2 ), X1 + X2 suit loi de Poisson P (λ1 + λ2 ).
Exercice : Le démontrer.
Propriété : Si n est grand et p est petit, on peut approximer la binômiale B(n, p)
par une loi de Poisson P (np).
Exemples d’utilisation de la loi de Poisson:
1. loi du nombre de suicidés par an
loi du nombre d’appels téléphoniques pendant une durée donnée
loi du nombre de pièces défectueuses dans une livraison importante pour
une production de bonne qualité, etc...
4.2
4.2.1
Variables alétoires continues
Cas d’une seule variable
Definition 26 Une variable alétoire réelle continue X définie sur un espace
(Ω,A,P) prend un continuum de valeurs (donc non dénombrables)
Definition 27 Sa loi de probabilité est caractérisée par sa fonction de répartition: F (x) = P (X < x) pour tout x de R.
F est croissante, F (−∞) = 0 et F (+∞) = 1
Definition 28 La loi de probabilité de X est caractérisée de manière équivalente
par sa densité:
f (x)
1
F 0 (x) = lim P (x ≤ X < x + h)
h→0 h
Z x
⇔ F (x) =
f(t)dt
=
−∞
L
Exemple: La loi normale ou loi de Laplace-gauss centrée réduite : X =
N(0, 1) est caractérisée par la densité:
1
1
∀x ∈ R, f (x) = √ exp(− x2 )
2
2π
R +∞
L’espérance de X de densité f est la quantité: EX = −∞ tf (t)dt.
R +∞
R +∞
La variance est V arX = −∞ (t − EX)2 f (t)dt = −∞ t2 f(t)dt − (EX)2
Remarque: une variable est dite centrée lorque que son espérance est nulle;
elle est dite réduite lorsque sa variance est égale à 1
7
Exercice Vérifier que EX = 0 et V arX = 1 pour une variable de LaplaceGauss centrée réduite.
Definition 29 Une variable suit la loi de Laplace Gauss de moyenne m et de
variance σ2 ,notée N (m, σ2 ) si et seulement si sa densité est donnée par:
1
1 (x − m)2
∀x ∈ R, f(x) = √ exp(−
)
2
σ2
σ 2π
Exercice Vérifier que si X suit une loi de Laplace-Gauss N(m, σ 2 ),
une loi de Laplace-Gauss centrée réduite N(0, 1).
X−m
σ
suit
Definition 30 On définit le coefficient d’asymétrie :µ3 = E((X − EX)3 ) et le
4
)
coefficient de kurtosis µ4 = E((X−EX)
(V arX)2
Le coefficient d’asymétrie est nul si et seulement si la loi centrée est symétrique
autour 0. C’est le cas d’une variable normale.
Le coefficient d’aplatissement caractérise l’épaisseur des queues de distribution (probabilité d’observer des grandes valeurs). Pour une loi normale µ4 = 3.
Exercice: le démontrer
Si une variable a une loi présentant des queues de distribution plus épaisses
que celles de la loi normale, son coefficinet de kurtosis est plus grand que 3: on
parle d’effet leptokurtique (ou excès de kurtosis).
Definition 31 On peut aussi caractériser une variable alétoire continue par la
donnée de sa fonction caractéristique:
Z
itX
ϕX (t) = E(e ) = eitx f(x)dx
=
∞
X
(it)k
k=0
k
k!
E(X k )
où E(X ) désigne le moment d’ordre k de X.
La densité est obtenue à partir de la fonction caractéristique ϕX :
Z
1
e−itx ϕX (t)dt
f (x) =
2π
Exemple: pour une variable X de loi N (0, 1), on montre que ϕX (t) =
(admis).
e
Remarque: la fonction génératrice de la somme de n variables alétoires indépendantes est égle au produit des n fonctions génératrices:
2
− t2
ϕX1 +...+Xn (t) = E(eit(X1 +...+Xn ) )
= E(eitX1 eitX2 ...eitXn )
n
Y
=
E(eitXj )(indépendance des Xj )
=
j=1
n
Y
ϕXj (t)
j=1
8
Appplication: démonstration du théorème central limite
Théorème : Etant donné n variables alétoires indépendantes Xi et de même
loi de probabilité, d’espérnace m et de variance σ 2 , on a la convergence
en loi 1 :
√ X −m L
n
→ N (0, 1)
σ
où X =
1
n
Pn
i=1
Xi .
Preuve On peut écrire:
√ X −m
n
σ
=
X −m
√
σ/ n
nX − nm
√
σ n
n
X
Xi − m
√
=
σ n
i=1
=
Les variables
i étant indépendantes, la fonction caractéristique de la
Pn X−m
est égale au produit des fonctions caractéristiques:
somme i=1 Xσi√
n
ϕh P
Xi −m
n
√
i=1 σ n
i (t)
=
n
Y
i=1
ϕh Xi√−m i (t)
σ
σ
car les variables
téristique
X1√
−m
σ n
ϕh X1√−m i (t) = 1 −
σ
n
ont toutes même loi donc même fonction carac-
Or ϕh X1√−m i (t) = ϕ[X1 −m] (t)( σ√t n ) = E(eit
σ n
¡ X1 −m ¢2
t2
t2
) + O( 2n
),soit:
2n E(
σ
1 On
n
¶n
µ
=
ϕh X1√−m i (t)
n
X1 −m
√
σ n
) = 1+
it
√
E( X1σ−m )
n
−
t2
t2
+ O( )
2n
2n
dit qu’une suite de variables aléatoires Xn de fonctions de répartition Fn tend en loi
vers une variable X de fonction de répartition F si et seulement si on a pour tout x (point
de continuité de F )
Fn (x) → F (x)
n→∞
9
de sorte que:
ϕh P n
Xi −m
√
i=1 σ n
i (t)
¸n
·
t2
t2
+ O( )
1−
2n
2n
=
t2
→ e− 2
n→ ∞
→ ϕN(0,1) (t)
n →∞
ce qui établit bien la propriété de convergence recherchée.
5
5.1
Vecteurs aléatoires
Caractérisation de la distribution de probabilité
Definition 32 La loi d’un couple de variables aléatoires (X, Y ) réelles, continues, définies sur un espace (Ω,A,P) est caractérisée par la fonction de répartition:
∀x ∈ R, ∀y ∈ R, F(X,Y ) (u, v) = P (X < x et Y < v)
Definition 33 On définit la densité h par la dérivée seconde de F(X,Y ) , soit:
∂ 2 F(X,Y )
|(x,y) ⇔ F(X,Y ) (u, v) =
h(x, y) =
∂u∂v
Z
u
−∞
Z
v
h(x, y)dxdy
−∞
Definition 34 On appelle loi marginale de X (resp. de Y ) la loi de X (resp.
Y ). Sa fonction de répartition FX (resp. FY ) est définie par:
FX (x) = P (X < x) =
(resp.) FY (x) = P (Y < y) =
Z
x
Z
+∞
h(u, v)dudv = H(x, +∞)
−∞ −∞
Z y Z +∞
−∞
h(u, v)dudv = H(+∞, y)
−∞
de sorte que les densités marginales associées sont:
Z +∞
0
f(x) = FX
(x) =
h(x, v)dv
(resp.) g(y) = FY0 (y) =
Z
−∞
+∞
h(u, y)du
−∞
Definition 35 On définit aussi la loi conditionnelle de de Y sachant X = x
par la densité:
g(y/x) =
10
h(x, y)
f (x)
De manière heuristique, on peut écrire:
P (Y
P (Y < y et x ≤ X < x + dx)
< y/x ≤ X < x + dx) =
P (x ≤ X < x + dx)
i
R y hR x+dx
h(u, v)du dv
−∞
x
i
= R +∞ hR x+dx
h(u,
v)du
dv
−∞
x
Ry
[h(x, v)dx] dv
≈ R −∞
+∞
[h(x, v)dx] dv
−∞
Ry
h(x, v)dv
−∞
≈
f(x)
de sorte que la dérivée par rapport à y donne la densité conditionnelle recherchée:
∂
g(y/x) =
=
Ry
−∞
h(x,v)dv
∂y
f (x)
h(x, y)
f (x)
Indépendance de deux variables aléatoires: deux variables aléatoires X et Y
sont indépendantes si et seulement si:
∀x, ∀y, P (X
<
⇔
⇔
⇔
x et Y < y) = P (X < x)P (Y < y)
P (Y < y/X < x) = P (Y < y)
H(x, y) = f (x)g(y)
g(y/x) = g(y)
Remarque: l’independance entraîne la non-corrélation (ou covariance nulle)
mais la réciproque n’est pas vraie (le vérifier).
On rappelle que :la corrélation entre deux variables X et Y est définie par:
corr(X, Y ) = √
cov(X, Y )
p
V arx V ar(Y )
RR
avec cov(X, Y ) =
(x − EX)(y − EY )h(x, y)dxdy. D’après l’inégalité de
Schwartz, le coefficient de corrélatione st comprisentre −1 et 1.
Definition 36 Ona ppelle espérance conditionnelle E(Y /X) la variable alétoire
définie par:
x → E(Y/X = x)
Z +∞
yg(y/x)dy
x →
−∞
+∞
x →
Z
y
−∞
11
h(x, y)
dy
f(x)
Remarque: E(Y/X) est une variable aléatoire: ω → E(Y /X = X(ω)).
On admettra la propriété suivante:
Propriété L’espérance conditionnelle E(Y/X) est la variable aléatoire, fonction de X , ψ(X) (qui approxime le mieux Y au sens de l’ereur quadratique
moyenne:
E(Y/X) = M inψ(X) (E(Y − ψ(X))2 )
Remarque: lorqu’on se limite aux fonctions affines ψ(X) de X, le minimum au
sens de l’erreur quadratique moyenne correspond à la régression linéaire
(affine) de Y sur X.
5.2
Moments des deux premiers ordres d’un vecteur aléatoire de dimension n
Un vecteur aléatoire est un vecteur dont les composantes sont des variables
aléatoires. Soit X = (X1 , ..., Xn )0 un vecteur alétoire de dimension n .
On définit les deux premiers moments espérance EX de X, et variance
V arX de X par:
EX = (EX1 , ..., EXn )0
V arX = E((X − EX)(X − EX)0 )
soit:



V arX = 


V arX1
Cov(X1 , X2 )
.
.
V arX2
Cov(X2 , X1 )
.
.
Cov(X3 , X1 )
.
.
.
.
Cov(Xn , X1 ) Cov(Xn , X2 )
. Cov(X1 , Xn )
. Cov(X2 , Xn )
.
.
.
.
.
V arXn






Les propriétés suivantes sont vérifiées, pour toute matrice non-aléatoire A de
dimension nxn:
E(AX) = AEX
V ar(AX) = AV arXA0
où A0 désigne la transposée de A (cest-à-dire la matrice obtenue à partir de A
en inversant les rôles des lignes et des colonnes).
Exercice : Le vérifier.
Definition 37 Etant donnés deux vecteurs aléatoires X et Y , la matrice de
covariance entre X et Y est définie par:
Cov(X, Y ) = E((X − EX)(Y − EY )0 )
12
5.3
Densité d’une loi normale n-dimensionnelle
Definition 38 Le vecteur aléatoire X = (X1 , ..., Xn )0 suit une loi normale
d’espérance m = (m1 , ..., mn )0 et de variance si et seulement si sa densité est
donnée par :
∀x = (x1 , ..., xn ) ∈ Rn ,
1
1
exp(− (x − m)0 Σ−1 (x − m))
h(x) =
n/2
2
(2π) det(Σ)1/2
Si les variables Xi sont non-corrélées, la matrice de variance-covariance Σ
est diagonale et dans ce cas, on peut écrire:
1
n/2
(2π)
det(Σ)1/2
1
exp(− (x − m)0 Σ−1 (x − m))
2
n
1X 1
(xi − mi )2 )
n/2
2 i=1 Σii
(2π) det(Σ)1/2
Ã

!
n
n
2
Y
Y
1
1
−
m
)
(x
i
i

exp(−
)
= 
1/2
2
Σii
Σjj
j=1 (2π)
i=1
=
1
exp(−
en appellant Σii le i−ième élément diagonal de Σ.
Ainsi les variables aléatoires Xi sont indépendantes puisque la densité h du
vecteur X est le produit des densités de ses composantes:
h(x1 , ..., xn ) = fX1 (x1 )...fXn (xn )
2
1
i)
où fXi (xi ) = (2π)1/2
exp(− 12 (xi −m
).
Σii
Σii
On a donc établi la propriété suivante.
Propriété : Des variables aléatoires normales sont indépendantes si et seulement si elles sont non-corrélées.
Une autre propriété importante concerne la stabilité de la classe des variables
normales par transformation linéaire (affine).
Propriété : La transformée linéaire AX d’un vecteur aléatoire normal X est
normal.
Preuve On peut établir facilement la propriété lorsque les composantes de X
sont indépendantes.
Par hypothèse, chaque composante Xi suit une loi normale N(mi , σ 2i ).
On peut supposer, sans perte de généralité, que les composantes Xi de X
fi où X
fi est une variable centrée).
sont centrées (sinon Xi = mi +X
13
Par suite, pour tout scalaire λi , la fonction caractéristique de λi Xi est donnée
par:
2
φ[λi Xi ] (t) = φh Xi i (λi σi t) = e−(λi σi t)
σi
Alors, pour tous scalaires λi la fonction caractéristique de
le produit des fonctions caractéristiques, soit:
φ[P n λi Xi ] (t) =
i=1
n
Y
Pn
i=1 λi
Xi est
φ[λi Xi ] (t)
i=1
n
X
= exp(
−(λi σi t)2 )
i=1
n
X
= exp(−t2 (
λ2i σ 2i )
i=1
= φU (t)
On reconnaît P
la fonction caractéristique d’une variable de loi normale, cenn
trée,Pde variance i=1 λ2i σ2i .
Pn
n
2 2
i=1 λi Xi suit donc une loi normale centrée de variance
i=1 λi σ i .
Pour établir la propriété dans le cas général (où les composantes ne sont pas
indépendantes), la démonstration est plus délicate; si on se limite, sans perte de
généralité à deux variables (n = 2), on décompose λ1 X1 + λ2 X2
λ1 X1 + λ2 X2 = λ1 X1 + λ2 E(X2 /X1 ) + λ2 (X2 − E(X2 /X1 ))
comme la somme de deux variables aléatoites U et V :
U
V
= λ1 X1 + λ2 E(X2 /X1 )
= λ2 (X2 − E(X2 /X1 ))
On établit la propriété générale:
Propriété : Etant donnée deux variables X et Y , distribuées comme deux
variables normales N (mX , σX ) (resp. N (mY , σY )) de coefficient de corrélation ρ, l’espérance conditionnelle E(Y /X) est une fonction affine de
X:
cov(X, Y )
(X − mX )
σ2X
ρσ Y
(X − mX )
= mY +
σX
E(Y/X) = mY +
Exercice Etablir cette propriété
14
Indication: pour établir cette propriété, on calcule la loi conditionnelle de Y
sachant X = x, on vérifie qu’elle a pour expression:
·
¸
1
1
ρσY
1
2
p
(y
−
m
g(y/x) = √
exp(− 2
+
(x
−
m
)
Y
X )
2σY (1 − ρ2 )
σX
2π σY 1 − ρ2
c’est-à-dire la densité d’une variable normale de moyenne:
ρσ Y
E(Y /X = x) = mY +
(x − mX )
σX
et de variance:
V ar(Y/X = x) = σ 2Y (1 − ρ2 )
Par suite, U est une fonction affine de X1 :
µ
¶
ρσ2
ρσ 2
U = λ2 (m2 −
m1 ) + λ1 + λ2
X1
σ1
σ1
et donc distribuée, en tant que telle, comme une variable normale.
De même, V = X2 − E(X2 /X1 ) est distribuée, conditionnellement à X1 ,
comme une loi normale centrée, de variance V ar(X2 /X1 ) = σ22 (1 − ρ2 ) d’après
la dernière propriété établie; mais cette variable aléatoire a ses deux premiers
moments indépendants de la valeur de X1 ( ils sont respectivement égaux à 0
et σ22 (1 − ρ2 )), ce qui implique que V est distribuée indépendamment de X1 ,
et donc de toute fonction de X1 , et en particulier de U , comme une variable
normale.
En conclusion, U et V sont deux variables normales et indépendantes. On
peut alors utiliser le résultat obtenu précédemment lorsque les composantes du
vecteur aléatoire X sont indépendantes pour conclure que λ1 X1 + λ2 X2 , qui est
la somme U + V , est distribuée comme une loi normale. c.q.f.d.
Propriété Etant donnés un vecteur aléatoire normal X n-dimensionnel, centré
et réduit, et un sous espace V de Rn les vecteurs aléatoires PV U et PV ⊥ U
qui sont les projetés de X sur les espaces V et V⊥ sont deux vecteurs normaux (parce que transformés linaires d’un vecteur normal) non-corrélés,
c’est-à-dire indépendants.
0
Preuve cov( PV U ,PV ⊥ U) = E(PV U (PV ⊥ U ) ) parce que les vecteurs PV U et
0
PV ⊥ U sont centrés. E(PV U (PV ⊥ U ) ) = E(PV U U 0 PV0 ⊥ ) = PV E(U U 0 )PV0 ⊥ =
PV V arU PV0 ⊥ = PV Idn PV ⊥ = 0. En effet PV0 ⊥ = PV ⊥ car un projecteur
est défini par une matrice symétrique.
5.4
Transformé quadratique d’un vecteur normal: la loi
du chi-deux
Definition 39 une variable V suit
Pn une loi du chi-deux à n degrés de liberté si
elle est égale en loi à la somme i=1 Ui2 où les variables Ui sont des variables
normales centrées réduites indépendantes.
15
Sa densité est donnée par:
f (x) =
1
x
e− 2 xn/2−1
2n/2 Γ( n2 )
où la fonction Γ vérifie:
Γ(p) = (p − 1)Γ(p − 1) pour tout p > 0
n
n
Γ( ) = ( − 1)! si n est pair
2
2
(n − 1)! √
n
Γ( ) =
π si n est impair
n−1
2
2
( n−1
2 )!
Propriété C’est aussi la densité d’une loi gamma de paramètre
n
2.
Definition 40 Une variable est distribuée comme la loi Gamma de paramètre
r, si sa densité, définie sur l’ensemble des réels strictement positifs, est donnée
par:
fΓr (u) =
1 −u r−1
e u 1u>0
Γ(r)
On établit d’abord la propriété pour n = 1, puis on utilise la propriété
selon laquelle la somme de variables distribuées comme des variables gamma est
encore une variable gamma.
Propriété: Etant données deux variables X et Y , indépendantes, distribuées
comme des variables gamma de paramètres respectifs r1 et r2 , la somme
X + Y est distribuée comme une variable gamma de paramètre (r1 + r2 ).
L
L
L
Exercice : si U = N (0, 1), alors U 2 = χ21 = Γ 12
Indication Ecrire que, pour tout x > 0, fU 2 (x) = limdx→0
√
√
√
√
limdx→0 P ( x≤U < x+dx)+Pdx(− x+dx≤−U <− x) ,
f
U2
P (x≤U 2 <x+dx)
dx
=
soit:
√
√
P ( x ≤ U < x + dx)
(x) = 2 lim
dx→0
dx
parce que
autour de 0.
√U est symétrique
√
Comme x + dx ≈ x(1 + 12 dx
x ), on peut ensuite écrire:
√
√
P( x ≤ U < x +
1
fU 2 (x) ≈ √ lim
dx
√
x dx→0
2 x
dx
√ )
2 x
√
1
≈ √ fU ( x)
x
Conclure en utilisant l’expression des densités de la loi normale centrée réduite et de la loi gamma de paramètre 1/2.
16
L
Donc si n = 1 la propriété est vérifiée: χ21 = Γ 12 . supposons maintenant que
la propriété soit vraie pour n. Elle est vraie pour n + 1: en effet,
L
χ2n+1 = V + U 2
L
L
où U = N (0, 1) , V = χ2n et U et V sont indépendantes.
L
D’après l’hypothèse de récurrence et la propriété de la loi gamma, V = Γ n2 et
L
L
U 2 = Γ 12 , donc, U +V = Γ n+1
2
Propriété Si X = (X1 , ..., Xn )0 est un vecteur aléatoire distribué selon une loi
normale N (0, Σ), la variable aléatoire X 0 Σ−1 X est distribuée comme un
chi-deux à n degrés de libertés
Preuve On utilise d’abord la décomposition de Cholewski d’une matrice symétrique
définie positive A2 :il existe une seule matrice triangulaire inférieure P telle
que: A = P P 0 . Cette propriété s’applique à la matrice Σ. Par suite, on
peut écrire:
X 0 Σ−1 X
= X 0 P 0−1 P −1 X
¡
¢
= (P −1 X)0 P −1 X
On remarque que le vecteur U = P −1 X est distribué comme une loi
normale, parce que transformé linéaire d’un vecteur X normal. Il est centré
comme X et sa variance est égale à:
¢0
¡
V ar(P −1 X) = P −1 V arX P −1
−1
= P −1 P P 0 (P 0 )
Idn
P
U est donc un vecteur normal centré réduit et U 0 U = Ui2 , sc’est-à-dire
X 0 Σ−1 X, est distribué comme un chi-deux à n degrés de liberté. c. q. f.
d
6
Principaux résultats de convergence
6.1
Définitions
On a vu la convergence en loi. Il existe d’autres types de convergence.
On peut définir la convergence presque sûre:
2 Une
matrice A de dimension nxn est définie si elle est régulière (inversible) et positive si :
∀x ∈ Rn , x0 Ax ≥ 0
17
Definition 41 Une suite de variables aléatoires Xn définies sur un même espace probabilisé (Ω ,A, P) tend presque sûrement vers une variable aléatoire X
si et seulement si l’ensemble des aléas ω pour lesquels Xn (ω) ne tend pas vers
X(ω) a une probabilité nulle.
Definition 42 Une suite de variables aléatoires Xn définies sur un même espace probabilisé (Ω ,A, P) tend en probabilité vers une variable aléatoire X si et
seulement si:
∀α > 0, ∀ε > 0, ∃N, ∀n ≥ N, P (|Xn − X| > α) < ε
On montre que la convergence presque sûre entraîne la convergence en probabilité.
Definition 43 Une suite de variables aléatoires Xn définies sur un même espace probabilisé (Ω ,A, P) tend en moyenne quadratique vers une variable aléatoire X si et seulement si:
¢
¡
E (Xn − X)2 → 0
n→∞
ce qui est équivalent à:
EXn → EX
n→∞
et V ar(Xn − X) → 0
n→∞
La convergence en moyenne quadratique vers une constante implique la convergence en probabilité vers cette constante.
6.2
Principaux résultats de convergence
On a établi précédemment le théorème central limite:
Théorème : Etant donné n variables aléatoires indépendantes Xi et de même
loi de probabilité, d’espérnace m et de variance σ 2 , on a la convergence
en loi
où X =
1
n
Pn
i=1
√ X −m L
n
→ N (0, 1)
σ
Xi .
Loi faible des grands nombres : Si X1 , ..., Xn , ... désignent n variables indépendantes de moyennes m1 , m2 , ..., mn , ... finies et de variances σ21 , σ22 , ..., σ 2n , ...
finies. Si on a:
n
1X
mi → m
n→∞
n i=1
et
n
1 X 2
σ → 0
n2 i=1 i n→∞
18
alors on a la convergence en probabilité:
n
1X
P
Xi → m
n→∞
n i=1
Loi forte des grands nombres : Si X1 , ..., Xn , ... désignent n variables indépendantes de moyennes m1 , m2 , ..., mn , ... finies et de variances σ21 , σ22 , ..., σ 2n , ...
finies. Si on a:
n
1X
mi → m
n→∞
n i=1
et
∞
X
σ2
i
i2
i=1
est convregente
alors on a la convergence presque sûre:
n
1X
P.S.
Xi → m
n→∞
n i=1
19
Téléchargement