Que faire lorsqu`on considère plusieurs variables en même temps ?

publicité
Chapitre 3
Que faire lorsqu’on considère
plusieurs variables en même temps ?
On va la plupart du temps se limiter à l’étude de couple de variables aléatoires, on peut
bien sûr étendre les notions introduites à l’étude de n variables aléatoires, n ≥ 2.
On considère deux variables aléatoires X et Y . On aimerait savoir s’il existe un lien entre
les deux variables et le quantifier.
Exemple 0.1 On peut se demander s’il y a influence de la pollution par CO2 sur l’évolution
des cancers . La variable X modélisera alors le taux de CO2 et la variable Y le nombre de
cancer.
1
Cas de variables indépendantes
On dit de deux variables qu’elles sont indépendantes si la connaissance de l’une ne donne aucune information sur la connaissance de l’autre. C’est le cas le plus simple à étudier. Lorsque
cela est possible, on essaye au maximum de travailler avec des variables indépendantes.
Définition 1.1 Deux variables aléatoires X et Y sont indépendantes si pour tous intervalles
A et B de R on a
IP(X ∈ A, Y ∈ B) = IP(X ∈ A)IP(Y ∈ B).
Proposition 1.2 Deux v.a. X et Y sont indépendantes
⇔ dans le cas discret pour tous x, y,
IP(X = x, Y = y) = IP(X = x)IP(Y = y),
⇔ dans le cas continu, notons fX la densité de X et fY la densité de Y , on a
pour tout intervalles A, B de R
!
!
IP(X ∈ A, Y ∈ B) =
fX (x)dx
fY (y)dy.
A
B
⇔ la transformée de Laplace du couple vérifie pour tout (u, v),
L(X,Y ) (u, v) = LX (u)LY (v)
où L(X,Y ) (u, v) = E[euX+vY ].
33
34
CHAPITRE 3. COUPLE DE VARIABLES
⇔ pour toutes fonctions h, g : R → R
E[h(X)g(Y )] = E[h(X)]E[g(Y )].
Définition 1.3 Les variables aléatoires X1 , . . . , Xn sont indépendantes si pour tout intervalles A1 , . . . , An de R on a
IP(X1 ∈ A1 , . . . , Xn ∈ An ) =
n
"
i=1
IP(Xi ∈ Ai ).
Une suite de variables (Xn )n≥ indépendantes est une suite telle que pour toute sous partie
finie I ⊂ N, les variables (Xi )i∈I sont indépendantes.
Remarque 1.4 Si les v.a. X1 , . . . , Xn sont indépendantes, alors elles sont indépendantes
deux à deux.
Attention La réciproque est fausse ! Par exemple, soient X et Y deux variables indépendantes de même loi : IP(X = 1) = IP(X = −1) = 1/2. On considère Z = XY . Les variables
sont deux à deux indépendantes, mais pas mutuellement indépendantes.
Dans la nature les objets, les événements, les comportements sont rarement indépendants
les uns des autres. Modéliser la chaîne de nucléotides dans un brin d’ADN par des variables
indépendantes à valeurs dans {a, c, g, t} est trop simpliste et loin de la réalité car on sait
qu’il y a des zones codantes et d’autres non.
Exemple 1.5 Considérons les enfants de parents hétérozygotes de génétopye Aa. La distribution des enfants est
IP(AA) = 1/4 IP(Aa) = 1/2 IP(aa) = 1/4.
On choisit de façon aléatoire 240 de ces enfants. On définit N1 , N2 , N3 le nombre d’enfants
de génotype AA,Aa et aa respectivement.
1. Les variables N1 , N2 et N3 suivent respectivement des lois Binomiales B(240, 1/4),
B(240, 1/2) et B(240, 1/4).
2. Ces variables ne sont pas indépendantes, car N1 + N2 + N3 = 240 (si on connait les
valeurs de N1 et N2 , on en déduit facilement la valeur de N3 ).
3. Soit k1 , k2 , k3 ∈ N. Si k1 + k2 + k3 '= 240, on a
IP(N1 = k1 , N2 = k2 , N3 = k3 ) = 0.
Si k1 + k2 + k3 = 240, on a
IP(N1 = k1 , N2 = k2 , N3 = k3 ) =
On remarque que
240! # 1 $k1 # 1 $k2 # 1 $k3
.
k1 !k2 !k3 ! 4
2
4
IP(N1 = k1 , N2 = k2 , N3 = k3 ) '= IP(N1 = k1 )IP(N2 = k2 )IP(N3 = k3 ).
Les variables ne sont effectivement pas indépendantes.
On dit que le triplet (N1 , N2 , N3 ) suit la loi multinomiale M(240, (1/4, 1/2, 1/4)).
2. QUE FAIRE S’IL EXISTE UN LIEN ENTRE LES VARIABLES ?
35
Définition 1.6 On effectue un sondage avec remise (ou sur une population suffisament
grande) avec d réponses possibles sur une sous-population de taille n.
On note p1 la proportion dans la population totale d’individu correspondant à la première
réponse, p2 la proportion dans la population totale d’individu correspondant à la deuxième
réponse, . . . , pd la proportion dans la population totale d’individu correspondant à la dernière réponse.
On définit N1 le nombre d’individus ayant choisi la première réponse, N2 ceux qui ont choisi
la seconde,. . . , Nd ceux qui ont choisi la dernière réponse.
Alors la loi de (N1 , N2 , . . . , Nd ) est appelée loi multinomiale Md (n, p), avec n ∈ N∗ ,
n ≥ 1, pi ∈]0, 1[ tels que p1 + p2 + .. + pd = 1.
P (N1 = k1 , N2 = k2 , ..., Nd = kd ) =
d
%
n!
pk11 pk22 ...pkdd avec
ki = n
k1 !k2 !...kd !
i=i
C’est une généralisation de la loi Binomiale. Pour d = 2, on retrouve la loi Binomiale.
2
Que faire s’il existe un lien entre les variables ?
Comme on a définit la loi d’une variable aléatoire, on va définir la loi d’un couple de variables.
2.1
Cas des variables discrètes
Propriétés 2.1 Soient X et Y deux variables discrètes. La loi du couple (X, Y ) est définie
par l’ensemble des probabilités :
IP(X = x, Y = y)
pour toutes valeurs possibles x et y.
Remarque 2.2 Notons DX et DY l’ensemble des valeurs possibles de X et de Y respectivement. On peut retrouver les lois de chacune des variables à partir la loi de couple.
Soit x ∈ DX , on a
IP(X = x) = IP(X = x et Y ∈ DY ) =
%
IP(X = x, Y = y)
y∈DY
&
De même, pour y ∈ DY , on a IP(Y = y) = x∈DX IP(X = x, Y = y).
À partir de la loi du couple, on retrouve facilement la loi de chacune des variables. Par
contre, des lois de chacune des variables on ne peut pas déduire la loi du couple, car elles
ne rendent pas compte des connections, des liens qui existent entre les variables.
Dans le cas où les variables sont discrètes et prennent un petit nombre de valeurs, on écrit
en général la loi du couple sous la forme d’un tableau :
Y \X
..
.
Somme des lignes
...
Somme des colonnes
IP(X = x, Y = y)
IP(X = x)
IP(Y = y)
36
CHAPITRE 3. COUPLE DE VARIABLES
Exemple 2.3
1. On lance une pièce truquée 3 fois. La probabilité de tomber sur "Pile"
est 2/3. Soit X le nombre de "Face" obtenu dans les deux premiers jets et Y le nombre
de "Face" obtenu dans les deux derniers jets. La loi de (X, Y ) est donnée par
y\x
0
1
2
IP(X = x)
0
' 2 (3
8
3 ( = 27
'
2
1 2
4
= 27
3 3
0
4/9
1
' (
1 2 2
=
3
' ( 3 ' 1 (2
1 2 2
3 3' +
( 3
1 2 2
3
3 =
4/9
4
27
2
6
3 = 27
2
27
2
0
' 1 (2 2
= 2
'31 (33 127
= 27
3
1/9
IP(Y = y)
4/9
4/9
1/9
2. L’université de Rennes 1 veut évaluer l’effet de l’offre MIPE sur le campus et voir
quel système d’exploitation est apprécié des étudiants. Les proportions collectées sont
résumées dans un tableau :
Système d’exploitation
Filière
Biologie
Droit/Économie
Informatique
Mathématiques
Windows Mac OS Linux
0.07
0.08
0.25
0.21
0.05
0.02
0.13
0.04
0.02
0
0.09
0.04
On déduit de ce tableau les proportions d’élèves qui ont profité de l’offre MIPE en
fonction des filières, ainsi que la répartition des systèmes d’exploitation sur le campus.
Exercice 2.4 On effectue une suite infinie de lancers indépendants d’un dé équilibré. On
note les lancers à partir de 1. On définit les deux variables aléatoires :
X est égale au numéro du lancer qui donne le premier 6,
Y est égale au nombre de 5 obtenus avant le premier 6.
Déterminer la loi du couple (X, Y ).
Corrigé : Le couple est à valeurs dans N∗ × N avec Y < X. Par conséquent si k ≥ n, IP(X = n, Y = k) = 0
et si k < n,
IP(X = n, Y = k)
=
=
IP(“k fois 5 et pas de 6 sur les n − 1 premiers lancers et un 6 au nème lancer.”)
!„ « „ «
k
n−1−k
4
1
n−1
1
.
6
6
6
k
!
2.2
Cas des variables à densité
Définition 2.5 La loi du couple de v.a. (X, Y ) est dite à densité s’il existe une fonction
f(X,Y ) de deux variables telle que le fonction de répartition du couple vérifie pour tout
(u, v) ∈ R2
!
!
IP(X ≤ u, Y ≤ v) =
satisfaisant les conditions suivantes :
u
v
−∞
−∞
1. f(X,Y ) (x, y) ≥ 0 pour tout (x, y) ∈ R2 ,
f(X,Y ) (x, y)dxdy
2. QUE FAIRE S’IL EXISTE UN LIEN ENTRE LES VARIABLES ?
2.
!
+∞ ! +∞
−∞
−∞
37
f(X,Y ) (x, y)dxdy = 1.
On peut facilement retrouver la densité à partir de la fonction de répartition. En dérivant
une fois par rapport à chacune des variables la fonction de répartition, on obtient
f(X,Y ) (u, v) =
∂2
F
(u, v).
∂u∂v (X,Y )
Proposition 2.6 Si le couple (X, Y ) admet une densité. Alors, pour tout A ⊂ R × R
!!
IP((X, Y ) ∈ A) =
f(X,Y ) (x, y)dxdy.
A
Par conséquent, X et Y sont indépendantes si et seulement si pour tous x, y
f(X,Y ) (x, y) = fX (x)fY (y).
Remarque 2.7 De même que pour les variables discrètes, on peut retrouver facilement les
lois de chacune des variables. Soit u ∈ R, on a
FX (u) = IP(X ≤ u) = IP((X, Y ) ∈] − ∞, u]×] − ∞, +∞[)
*
! u )! +∞
=
f(X,Y ) (x, y)dy dx.
−∞
La densité de X est fX (x) =
!
+∞
−∞
−∞
f(X,Y ) (x, y)dy. De même, la densité de Y est fY (y) =
!
+∞
−∞
f(X,Y ) (x, y)dx.
Exemple 2.8
1. Considérons le couple (X, Y ) de densité f(X,Y ) (x, y) = 3/8(x2 +xy/2)I[0,1]×[0,2] (x, y).
Cette fonction est bien une densité de probabilité. On en déduit la densité de X :
! +∞
! 2
3 2 xy
(x +
)dy
fX (x) =
f(X,Y ) (x, y)dy =
8
2
−∞
0
3
=
x(x + 2) si x ∈ [0, 1]
4
On peut calculer par exemple IP(X > Y ) :
! +∞ # ! x
!
$
IP(X > Y ) =
f(X,Y ) (x, y)dy dx =
=
−∞
! 1
3
8
0
−∞
0
1
2x3 dx = .
4
1 )! x
0
*
3 2 xy
(x +
)dy dx
8
2
2. Considérons le couple (X, Y ) de densité
f(X,Y ) (x, y) = c(y 2 − x2 )e−y
si − y < x < y, y > 0
Cette fonction est bien une densité de probabilité lorsque c = 1/8. Les densités de X
et Y sont :
fX (x) =
et fY (y) =
1
(|x| + 1)e|x| pour x ∈ R
4
1 3 −y
y e
pour y > 0
6
38
3
CHAPITRE 3. COUPLE DE VARIABLES
Évaluer la dépendance entre deux variables
On va introduire une nouvelle quantité, la corrélation, qui permet d’estimer la dépendance
entre deux variables aléatoires.
Définition 3.1 La covariance de deux v.a. X et Y est
Cov(X, Y ) = E(XY ) − E(X)E(Y ).
La corrélation est alors définie par
Cov(X, Y )
ρ(X, Y ) = +
.
V ar(X)V ar(Y )
L’espérance E[XY ] est calculée à partir de la loi jointe de (X, Y ) :
1. dans le cas discret, lorsque la somme a un sens,
%
E[XY ] =
xyIP(X = x, Y = y)
x,y
2. dans le cas continu, lorsque l’intégrale a un sens,
! +∞ ! +∞
E[XY ] =
xyf(X,Y ) (x, y)dxdy.
−∞
−∞
Remarque 3.2 Soient X et Y deux v.a. Alors
V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y ).
Preuve. En développant le carré, on obtient le résultat :
V ar(X + Y )
=
=
=
=
E[(X + Y − E[X + Y ])2 ] = E[(X − E[X] + Y − E[Y ])2 ]
E[(X − E[X])2 ] + E[(Y − E[Y ])2 ] + 2E[(X − E[X])(Y − E[Y ])]
V ar(X) + V ar(Y ) + 2E[XY ] − 2E[X]E[Y ]
V ar(X) + V ar(Y ) + 2Cov(X, Y ).
$
Propriétés 3.3 Si X et Y sont indépendantes, alors E[XY ] = E[X]E[Y ].
Par conséquent, si X et Y sont indépendantes on a
Cov(X, Y ) = 0
et
V ar(X + Y ) = V ar(X) + V ar(Y ).
Attention La réciproque est fausse ! Cov(X, Y ) = 0 ne veut rien dire sur les variables. Par
contre, Cov(X, Y ) '= 0 implique que les variables sont dépendants.
Proposition 3.4
1. Contrairement à la covariance, la corrélation ne dépend pas de
l’unité de mesure des variables. Par exemple que des vitesses soient mesurées en m/s
ou en km/h ne changera pas la valeur de la corrélation.
2. Le coefficient de corrélation est compris entre −1 et 1. Plus |ρ(X, Y )| est proche de 1,
plus les variables sont dites dépendantes.
4. LOI CONDITIONNELLE POUR DES VARIABLES DISCRÈTES
39
3. Lorsque |ρ(X, Y )| = 1, alors il existe a, b ∈ R tels que aX + bY = 0, les variables sont
entièrement liées (il suffit de connaitre la valeur d’une des variables pour connaitre la
valeur de l’autre).
Exemple 3.5 Une étude médicale sur l’effet du tabac est menée dans un hopital. Les 2278
patients sont divisés en deux groupes : ceux atteints d’un cancer pulmonaire (X = 1) et les
autres (X = 0). Les membres de chaque groupe sont ensuite répartis selon le nombre Y de
paquets de cigarettes fumés par jour.
Cancer
pulmonaire
0
1
Total
Nombre de paquets de cigarettes
0
1
2
3
4
1247 492 319 58
9
66
50
28
6
3
1313 542 347 64
12
Total
2125
153
2278
On souhaite étudier l’association entre cancer pulmonaire et la consommation de cigarette
en calculant la covariance.
La proportion de personnes atteintes d’un cancer pulmonaire est 6.72%, le nombre moyen
de paquets de cigarettes consommés est 0.65, on obtient
1 × 1 × 50 + 1 × 2 × 28 + 1 × 3 × 6 + 1 × 4 × 3
− 0.0672 × 0.65
2278
= 0.02
Cov(X, Y ) =
La covariance est positive, le résultat indique qu’il y a un lien positif entre la déclaration du
cancer et la consommation de cigarettes (plus on consomme des cigarettes, plus le risque de
cancer est grand !).
4
Loi conditionnelle pour des variables discrètes
Lorsque les variables sont dépendantes, avoir une information sur une des variables a une
influence sur la loi de l’autre. On définit alors la notion de loi conditionnelle. On se limite
ici aux variables discrètes, mais une telle notion peut être étendue aux variables à densité.
Définition 4.1 On considère deux variables aléatoires X et Y discrètes. Soit y une valeur
de Y possible.
La loi conditionnelle de X sachant que Y = y est donnée par l’ensemble des valeurs
IPY =y (X = x) =
IP(X = x, Y = y)
IP(Y = y)
pour tout x.
Exercice 4.2 Loi de Poisson et loi Binomiale
1. Soient X et Y deux variables indépendantes, de loi de Poisson de paramètre respectif
λ et µ. Déterminer la loi conditionnelle de X sachant {X + Y = n}.
2. Si X1 , ..., Xr sont indépendantes de lois de Poisson de paramètres respectifs λ1 , ..., λr ,
quelle est la loi conditionnelle de (X1 , ..., Xr ) sachant {X1 + ... + Xr = n} ?
Corrigé :
40
CHAPITRE 3. COUPLE DE VARIABLES
1. On montre en utilisant les fonctions génératrices que X + Y ∼ P[λ + µ). Soit k ∈ N, si k > n
IPX+Y =n (X = k) = 0 et si k ≤ n
IPX+Y =n (X = k)
=
=
On retrouve la loi B(n,
IP(X = k, Y = n − k) Indép. IP(X = k)IP(Y = n − k)
=
IP(X + Y = n)
IP(X + Y = n)
!„
«k „
«n−k
n
λ
µ
.
k
λ+µ
λ+µ
λ
).
λ+µ
λ1
2. On obtient une loi multinomiale M(n, p) avec p = ( λ1 +···+λ
,...,
r
λr
λ1 +···+λr
).
!
5. EXERCICES SUR LE CHAPITRE 3
5
41
Exercices sur le chapitre 3
Exercice 3.15.
On jette simultanément deux dés. On note X le nombre de chiffres pairs apparus et Y le
maximum des deux chiffres obtenus. Chercher la loi du couple (X, Y ). X et Y sont-elles
indépendantes ?
Exercice 3.16.
La loi d’un couple de variables aléatoires est donnée par le tableau suivant :
X\Y
0
1
2
−2 −1
0
1
2
0
0
1/6 1/12 1/12
0 1/12 1/24 1/24
0
1/4 1/8 1/8
0
0
1. Déterminer la loi de X, puis celle de Y .
2. Calculer E[X], E[Y ], E[XY ] et Cov(X, Y ).
Les variables X et Y sont-elles indépendantes ?
3. On pose U = X et Z = X + Y . Donner le tableau de la loi du couple (U, Z).
Les variables U et Z sont-elles indépendantes ?
Exercice 3.17. À la recherche de l’ancêtre commun
On considère une population cellulaire de taille constante N . La population est isolée (pas de
migration), il n’y a pas de sélection, les générations ne se chevauchent pas et la reproduction
se fait de façon indépendante entre les cellules. Chaque cellule n’a qu’un seul parent. On
étudie l’évolution de la population.
On choisit quatres cellules au hasard et on note X le nombre de générations écoulées depuis
le premier ancêtre commun entre les deux premières et Y le nombre de générations écoulées
depuis le permier ancêtre commun entre les deux dernières cellules. On cherche le nombre
de générations écoulées U depuis le plus jeune ancêtre de chacun des couples et le nombre
de générations écoulées V depuis le plus vieux des deux ancêtres de chacun des couples.
1. Expliquer pourquoi on peut modéliser les lois de X et de Y par des lois géométriques
G(p) et exprimer p en fonction de la taille de la population.
2. Exprimer U et V en fonction de X et Y .
3. Déterminer la loi du couple (U, V ).
4. En déduire les lois de U et V . Vérifiez que V suit une loi géométrique de paramètre
q = 2p − p2 .
5. On rappelle que l’espérance d’une loi géométrique G(p) est 1/p. Exprimer l’espérance
de V en fonction de N . Puis sans calcul, en déduire l’espérance de U .
Exercice 3.18. Les amoureux du banc public
Deux personnes se donnent rendez-vous. L’heure d’arrivée de chacune de ces deux personnes
sur les lieux est une variable uniforme entre midi et une heure. Les personnes n’ayant pas de
téléphone portable, on suppose ces deux variables indépendantes. Quelle est la probabilité
qu’ils arrivent au même instant ? Quelle est la probabilité que le premier arrivé doive attendre
plus de 10 minutes ? Si les deux personnes se donnent un rendez-vous plus précis, à midi
exactement par exemple. La loi uniforme est-elle adaptée au problème ? Quelle autre type
de loi peut-on utiliser ?
42
CHAPITRE 3. COUPLE DE VARIABLES
Exercice 3.19.
Soient X et Y deux variables aléatoires indépendantes et de même loi : P (X = k) = 2−k
pour k ∈ N∗ . Calculer les quantités suivantes :
P (X = Y ), P (X < Y ), P (min{X, Y } ≤ n), P (X divise Y ).
Exercice 3.20. À la pêche aux Homards
Il n’existe aucune méthode pour déterminer l’âge exact d’un homard. Le homard ne montre
aucun signe mesurable de vieillissement : aucune perte d’appétit, aucun changement dans
le métabolisme, aucune perte de besoin reproducteur ou de capacité, aucun déclin dans la
force ou la santé. Les homards, quand ils meurent, semblent mourir des causes externes. Ils
sont pêchés par les humains, mangés par les sceaux, gaspillés par les parasites, mais ils ne
semblent pas mourir de l’intérieur.
Un pêcheur de Cancale se spécialise dans la pêche au homard.
Le pêcheur veut estimer le temps qu’il dispose pour vendre ses homards.
1. Quelle loi usuelle peut-on utiliser pour modéliser la durée de vie T d’un homard ?
Notons λ le paramètre de la loi de T . Exprimer en fonction de λ la durée de vie
moyenne d’un homard ainsi que l’écart type associé.
2. On considère n homards choisis de façon indépendantes. On note T1 , . . . , Tn leurs
durées de vie respectives. On note U = min(T1 , . . . , Tn ) le premier instant où au
moins un des homards décède et V = max(T1 , . . . , Tn ) le premier instant où tous les
homards cessent de vivre.
Exprimer les lois de U et de V . Reconnaitre la loi de U .
Exercice 3.21.
On considère une variable aléatoire équidistribuée X telle que
IP(X = 1) = IP(X = 0) = IP(X = −1) = 1/3.
On pose Y = X 2 . Montrer que Cov(X, Y ) = 0, mais que X et Y ne sont pas indépendantes.
Exercice 3.22. Recherche de cellules malignes
On fait deux biopsies à un patient. Dans la première n cellules sont étudiées et on désigne
par X le nombre de cellules malignes. Dans la seconde m cellules sont étudiées et on note
Y le nombre de cellules malignes. La probabilité qu’une cellule soit maligne est notée p.
1. Par quelle loi peut-on modéliser les variables X et Y ?
2. Que représente X + Y ? Déterminer la loi de X + Y .
3. Le laborantin a mélangé par inadvertance les deux éprouvettes. Quelle est alors la loi
conditionnelle de X sachant {X + Y = k} ?
Exercice 3.23. L’oeuf ou la poule ?
On considère deux espèces de poules : les poules bressanes et les poules de Janzé. On
supppose qu’une poule pond des oeufs selon une loi de Poisson de paramètre λ pour les
bressanes et µ pour celles de Janzé.
On note X le nombre d’oeufs pondu par jour par une poule bressane choisie au hasard et
Y le nombre d’oeufs par jour d’une poule de Janzé choisie aussi au hasard.
5. EXERCICES SUR LE CHAPITRE 3
43
1. En utilisant la fonction génératrice, trouver la loi du nombre d’oeufs total pondu par
jour par les deux poules ?
2. Sachant qu’au total elles ont pondu n oeufs, quelle est la loi du nombre d’oeufs pondu
par la poule bressane ?
Exercice 3.24. Mutation dans un brin d’ADN
L’ADN est soumis à des mutations endogènes et exogènes. Pour survivre, les cellules disposent d’un mécanisme de réparation, mais parfois la mutation se fixe et se transmet aux
cellules filles. On suppose que le nombre de mutation M subi par l’ADN suit une loi de
Poisson de paramètre λ et on note p la probabilité qu’une mutation soit fixée.
1. Quelle est la loi du nombre de mutation fixée F sachant que M = k ?
2. Déterminer la loi du couple (M, F ).
3. Déterminer la loi de F , son espérance et sa variance.
4. Quelle est la loi de M sachant que F = n ?
44
CHAPITRE 3. COUPLE DE VARIABLES
Téléchargement