Chapitre 3 Que faire lorsqu’on considère plusieurs variables en même temps ? On va la plupart du temps se limiter à l’étude de couple de variables aléatoires, on peut bien sûr étendre les notions introduites à l’étude de n variables aléatoires, n ≥ 2. On considère deux variables aléatoires X et Y . On aimerait savoir s’il existe un lien entre les deux variables et le quantifier. Exemple 0.1 On peut se demander s’il y a influence de la pollution par CO2 sur l’évolution des cancers . La variable X modélisera alors le taux de CO2 et la variable Y le nombre de cancer. 1 Cas de variables indépendantes On dit de deux variables qu’elles sont indépendantes si la connaissance de l’une ne donne aucune information sur la connaissance de l’autre. C’est le cas le plus simple à étudier. Lorsque cela est possible, on essaye au maximum de travailler avec des variables indépendantes. Définition 1.1 Deux variables aléatoires X et Y sont indépendantes si pour tous intervalles A et B de R on a IP(X ∈ A, Y ∈ B) = IP(X ∈ A)IP(Y ∈ B). Proposition 1.2 Deux v.a. X et Y sont indépendantes ⇔ dans le cas discret pour tous x, y, IP(X = x, Y = y) = IP(X = x)IP(Y = y), ⇔ dans le cas continu, notons fX la densité de X et fY la densité de Y , on a pour tout intervalles A, B de R ! ! IP(X ∈ A, Y ∈ B) = fX (x)dx fY (y)dy. A B ⇔ la transformée de Laplace du couple vérifie pour tout (u, v), L(X,Y ) (u, v) = LX (u)LY (v) où L(X,Y ) (u, v) = E[euX+vY ]. 33 34 CHAPITRE 3. COUPLE DE VARIABLES ⇔ pour toutes fonctions h, g : R → R E[h(X)g(Y )] = E[h(X)]E[g(Y )]. Définition 1.3 Les variables aléatoires X1 , . . . , Xn sont indépendantes si pour tout intervalles A1 , . . . , An de R on a IP(X1 ∈ A1 , . . . , Xn ∈ An ) = n " i=1 IP(Xi ∈ Ai ). Une suite de variables (Xn )n≥ indépendantes est une suite telle que pour toute sous partie finie I ⊂ N, les variables (Xi )i∈I sont indépendantes. Remarque 1.4 Si les v.a. X1 , . . . , Xn sont indépendantes, alors elles sont indépendantes deux à deux. Attention La réciproque est fausse ! Par exemple, soient X et Y deux variables indépendantes de même loi : IP(X = 1) = IP(X = −1) = 1/2. On considère Z = XY . Les variables sont deux à deux indépendantes, mais pas mutuellement indépendantes. Dans la nature les objets, les événements, les comportements sont rarement indépendants les uns des autres. Modéliser la chaîne de nucléotides dans un brin d’ADN par des variables indépendantes à valeurs dans {a, c, g, t} est trop simpliste et loin de la réalité car on sait qu’il y a des zones codantes et d’autres non. Exemple 1.5 Considérons les enfants de parents hétérozygotes de génétopye Aa. La distribution des enfants est IP(AA) = 1/4 IP(Aa) = 1/2 IP(aa) = 1/4. On choisit de façon aléatoire 240 de ces enfants. On définit N1 , N2 , N3 le nombre d’enfants de génotype AA,Aa et aa respectivement. 1. Les variables N1 , N2 et N3 suivent respectivement des lois Binomiales B(240, 1/4), B(240, 1/2) et B(240, 1/4). 2. Ces variables ne sont pas indépendantes, car N1 + N2 + N3 = 240 (si on connait les valeurs de N1 et N2 , on en déduit facilement la valeur de N3 ). 3. Soit k1 , k2 , k3 ∈ N. Si k1 + k2 + k3 '= 240, on a IP(N1 = k1 , N2 = k2 , N3 = k3 ) = 0. Si k1 + k2 + k3 = 240, on a IP(N1 = k1 , N2 = k2 , N3 = k3 ) = On remarque que 240! # 1 $k1 # 1 $k2 # 1 $k3 . k1 !k2 !k3 ! 4 2 4 IP(N1 = k1 , N2 = k2 , N3 = k3 ) '= IP(N1 = k1 )IP(N2 = k2 )IP(N3 = k3 ). Les variables ne sont effectivement pas indépendantes. On dit que le triplet (N1 , N2 , N3 ) suit la loi multinomiale M(240, (1/4, 1/2, 1/4)). 2. QUE FAIRE S’IL EXISTE UN LIEN ENTRE LES VARIABLES ? 35 Définition 1.6 On effectue un sondage avec remise (ou sur une population suffisament grande) avec d réponses possibles sur une sous-population de taille n. On note p1 la proportion dans la population totale d’individu correspondant à la première réponse, p2 la proportion dans la population totale d’individu correspondant à la deuxième réponse, . . . , pd la proportion dans la population totale d’individu correspondant à la dernière réponse. On définit N1 le nombre d’individus ayant choisi la première réponse, N2 ceux qui ont choisi la seconde,. . . , Nd ceux qui ont choisi la dernière réponse. Alors la loi de (N1 , N2 , . . . , Nd ) est appelée loi multinomiale Md (n, p), avec n ∈ N∗ , n ≥ 1, pi ∈]0, 1[ tels que p1 + p2 + .. + pd = 1. P (N1 = k1 , N2 = k2 , ..., Nd = kd ) = d % n! pk11 pk22 ...pkdd avec ki = n k1 !k2 !...kd ! i=i C’est une généralisation de la loi Binomiale. Pour d = 2, on retrouve la loi Binomiale. 2 Que faire s’il existe un lien entre les variables ? Comme on a définit la loi d’une variable aléatoire, on va définir la loi d’un couple de variables. 2.1 Cas des variables discrètes Propriétés 2.1 Soient X et Y deux variables discrètes. La loi du couple (X, Y ) est définie par l’ensemble des probabilités : IP(X = x, Y = y) pour toutes valeurs possibles x et y. Remarque 2.2 Notons DX et DY l’ensemble des valeurs possibles de X et de Y respectivement. On peut retrouver les lois de chacune des variables à partir la loi de couple. Soit x ∈ DX , on a IP(X = x) = IP(X = x et Y ∈ DY ) = % IP(X = x, Y = y) y∈DY & De même, pour y ∈ DY , on a IP(Y = y) = x∈DX IP(X = x, Y = y). À partir de la loi du couple, on retrouve facilement la loi de chacune des variables. Par contre, des lois de chacune des variables on ne peut pas déduire la loi du couple, car elles ne rendent pas compte des connections, des liens qui existent entre les variables. Dans le cas où les variables sont discrètes et prennent un petit nombre de valeurs, on écrit en général la loi du couple sous la forme d’un tableau : Y \X .. . Somme des lignes ... Somme des colonnes IP(X = x, Y = y) IP(X = x) IP(Y = y) 36 CHAPITRE 3. COUPLE DE VARIABLES Exemple 2.3 1. On lance une pièce truquée 3 fois. La probabilité de tomber sur "Pile" est 2/3. Soit X le nombre de "Face" obtenu dans les deux premiers jets et Y le nombre de "Face" obtenu dans les deux derniers jets. La loi de (X, Y ) est donnée par y\x 0 1 2 IP(X = x) 0 ' 2 (3 8 3 ( = 27 ' 2 1 2 4 = 27 3 3 0 4/9 1 ' ( 1 2 2 = 3 ' ( 3 ' 1 (2 1 2 2 3 3' + ( 3 1 2 2 3 3 = 4/9 4 27 2 6 3 = 27 2 27 2 0 ' 1 (2 2 = 2 '31 (33 127 = 27 3 1/9 IP(Y = y) 4/9 4/9 1/9 2. L’université de Rennes 1 veut évaluer l’effet de l’offre MIPE sur le campus et voir quel système d’exploitation est apprécié des étudiants. Les proportions collectées sont résumées dans un tableau : Système d’exploitation Filière Biologie Droit/Économie Informatique Mathématiques Windows Mac OS Linux 0.07 0.08 0.25 0.21 0.05 0.02 0.13 0.04 0.02 0 0.09 0.04 On déduit de ce tableau les proportions d’élèves qui ont profité de l’offre MIPE en fonction des filières, ainsi que la répartition des systèmes d’exploitation sur le campus. Exercice 2.4 On effectue une suite infinie de lancers indépendants d’un dé équilibré. On note les lancers à partir de 1. On définit les deux variables aléatoires : X est égale au numéro du lancer qui donne le premier 6, Y est égale au nombre de 5 obtenus avant le premier 6. Déterminer la loi du couple (X, Y ). Corrigé : Le couple est à valeurs dans N∗ × N avec Y < X. Par conséquent si k ≥ n, IP(X = n, Y = k) = 0 et si k < n, IP(X = n, Y = k) = = IP(“k fois 5 et pas de 6 sur les n − 1 premiers lancers et un 6 au nème lancer.”) !„ « „ « k n−1−k 4 1 n−1 1 . 6 6 6 k ! 2.2 Cas des variables à densité Définition 2.5 La loi du couple de v.a. (X, Y ) est dite à densité s’il existe une fonction f(X,Y ) de deux variables telle que le fonction de répartition du couple vérifie pour tout (u, v) ∈ R2 ! ! IP(X ≤ u, Y ≤ v) = satisfaisant les conditions suivantes : u v −∞ −∞ 1. f(X,Y ) (x, y) ≥ 0 pour tout (x, y) ∈ R2 , f(X,Y ) (x, y)dxdy 2. QUE FAIRE S’IL EXISTE UN LIEN ENTRE LES VARIABLES ? 2. ! +∞ ! +∞ −∞ −∞ 37 f(X,Y ) (x, y)dxdy = 1. On peut facilement retrouver la densité à partir de la fonction de répartition. En dérivant une fois par rapport à chacune des variables la fonction de répartition, on obtient f(X,Y ) (u, v) = ∂2 F (u, v). ∂u∂v (X,Y ) Proposition 2.6 Si le couple (X, Y ) admet une densité. Alors, pour tout A ⊂ R × R !! IP((X, Y ) ∈ A) = f(X,Y ) (x, y)dxdy. A Par conséquent, X et Y sont indépendantes si et seulement si pour tous x, y f(X,Y ) (x, y) = fX (x)fY (y). Remarque 2.7 De même que pour les variables discrètes, on peut retrouver facilement les lois de chacune des variables. Soit u ∈ R, on a FX (u) = IP(X ≤ u) = IP((X, Y ) ∈] − ∞, u]×] − ∞, +∞[) * ! u )! +∞ = f(X,Y ) (x, y)dy dx. −∞ La densité de X est fX (x) = ! +∞ −∞ −∞ f(X,Y ) (x, y)dy. De même, la densité de Y est fY (y) = ! +∞ −∞ f(X,Y ) (x, y)dx. Exemple 2.8 1. Considérons le couple (X, Y ) de densité f(X,Y ) (x, y) = 3/8(x2 +xy/2)I[0,1]×[0,2] (x, y). Cette fonction est bien une densité de probabilité. On en déduit la densité de X : ! +∞ ! 2 3 2 xy (x + )dy fX (x) = f(X,Y ) (x, y)dy = 8 2 −∞ 0 3 = x(x + 2) si x ∈ [0, 1] 4 On peut calculer par exemple IP(X > Y ) : ! +∞ # ! x ! $ IP(X > Y ) = f(X,Y ) (x, y)dy dx = = −∞ ! 1 3 8 0 −∞ 0 1 2x3 dx = . 4 1 )! x 0 * 3 2 xy (x + )dy dx 8 2 2. Considérons le couple (X, Y ) de densité f(X,Y ) (x, y) = c(y 2 − x2 )e−y si − y < x < y, y > 0 Cette fonction est bien une densité de probabilité lorsque c = 1/8. Les densités de X et Y sont : fX (x) = et fY (y) = 1 (|x| + 1)e|x| pour x ∈ R 4 1 3 −y y e pour y > 0 6 38 3 CHAPITRE 3. COUPLE DE VARIABLES Évaluer la dépendance entre deux variables On va introduire une nouvelle quantité, la corrélation, qui permet d’estimer la dépendance entre deux variables aléatoires. Définition 3.1 La covariance de deux v.a. X et Y est Cov(X, Y ) = E(XY ) − E(X)E(Y ). La corrélation est alors définie par Cov(X, Y ) ρ(X, Y ) = + . V ar(X)V ar(Y ) L’espérance E[XY ] est calculée à partir de la loi jointe de (X, Y ) : 1. dans le cas discret, lorsque la somme a un sens, % E[XY ] = xyIP(X = x, Y = y) x,y 2. dans le cas continu, lorsque l’intégrale a un sens, ! +∞ ! +∞ E[XY ] = xyf(X,Y ) (x, y)dxdy. −∞ −∞ Remarque 3.2 Soient X et Y deux v.a. Alors V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y ). Preuve. En développant le carré, on obtient le résultat : V ar(X + Y ) = = = = E[(X + Y − E[X + Y ])2 ] = E[(X − E[X] + Y − E[Y ])2 ] E[(X − E[X])2 ] + E[(Y − E[Y ])2 ] + 2E[(X − E[X])(Y − E[Y ])] V ar(X) + V ar(Y ) + 2E[XY ] − 2E[X]E[Y ] V ar(X) + V ar(Y ) + 2Cov(X, Y ). $ Propriétés 3.3 Si X et Y sont indépendantes, alors E[XY ] = E[X]E[Y ]. Par conséquent, si X et Y sont indépendantes on a Cov(X, Y ) = 0 et V ar(X + Y ) = V ar(X) + V ar(Y ). Attention La réciproque est fausse ! Cov(X, Y ) = 0 ne veut rien dire sur les variables. Par contre, Cov(X, Y ) '= 0 implique que les variables sont dépendants. Proposition 3.4 1. Contrairement à la covariance, la corrélation ne dépend pas de l’unité de mesure des variables. Par exemple que des vitesses soient mesurées en m/s ou en km/h ne changera pas la valeur de la corrélation. 2. Le coefficient de corrélation est compris entre −1 et 1. Plus |ρ(X, Y )| est proche de 1, plus les variables sont dites dépendantes. 4. LOI CONDITIONNELLE POUR DES VARIABLES DISCRÈTES 39 3. Lorsque |ρ(X, Y )| = 1, alors il existe a, b ∈ R tels que aX + bY = 0, les variables sont entièrement liées (il suffit de connaitre la valeur d’une des variables pour connaitre la valeur de l’autre). Exemple 3.5 Une étude médicale sur l’effet du tabac est menée dans un hopital. Les 2278 patients sont divisés en deux groupes : ceux atteints d’un cancer pulmonaire (X = 1) et les autres (X = 0). Les membres de chaque groupe sont ensuite répartis selon le nombre Y de paquets de cigarettes fumés par jour. Cancer pulmonaire 0 1 Total Nombre de paquets de cigarettes 0 1 2 3 4 1247 492 319 58 9 66 50 28 6 3 1313 542 347 64 12 Total 2125 153 2278 On souhaite étudier l’association entre cancer pulmonaire et la consommation de cigarette en calculant la covariance. La proportion de personnes atteintes d’un cancer pulmonaire est 6.72%, le nombre moyen de paquets de cigarettes consommés est 0.65, on obtient 1 × 1 × 50 + 1 × 2 × 28 + 1 × 3 × 6 + 1 × 4 × 3 − 0.0672 × 0.65 2278 = 0.02 Cov(X, Y ) = La covariance est positive, le résultat indique qu’il y a un lien positif entre la déclaration du cancer et la consommation de cigarettes (plus on consomme des cigarettes, plus le risque de cancer est grand !). 4 Loi conditionnelle pour des variables discrètes Lorsque les variables sont dépendantes, avoir une information sur une des variables a une influence sur la loi de l’autre. On définit alors la notion de loi conditionnelle. On se limite ici aux variables discrètes, mais une telle notion peut être étendue aux variables à densité. Définition 4.1 On considère deux variables aléatoires X et Y discrètes. Soit y une valeur de Y possible. La loi conditionnelle de X sachant que Y = y est donnée par l’ensemble des valeurs IPY =y (X = x) = IP(X = x, Y = y) IP(Y = y) pour tout x. Exercice 4.2 Loi de Poisson et loi Binomiale 1. Soient X et Y deux variables indépendantes, de loi de Poisson de paramètre respectif λ et µ. Déterminer la loi conditionnelle de X sachant {X + Y = n}. 2. Si X1 , ..., Xr sont indépendantes de lois de Poisson de paramètres respectifs λ1 , ..., λr , quelle est la loi conditionnelle de (X1 , ..., Xr ) sachant {X1 + ... + Xr = n} ? Corrigé : 40 CHAPITRE 3. COUPLE DE VARIABLES 1. On montre en utilisant les fonctions génératrices que X + Y ∼ P[λ + µ). Soit k ∈ N, si k > n IPX+Y =n (X = k) = 0 et si k ≤ n IPX+Y =n (X = k) = = On retrouve la loi B(n, IP(X = k, Y = n − k) Indép. IP(X = k)IP(Y = n − k) = IP(X + Y = n) IP(X + Y = n) !„ «k „ «n−k n λ µ . k λ+µ λ+µ λ ). λ+µ λ1 2. On obtient une loi multinomiale M(n, p) avec p = ( λ1 +···+λ ,..., r λr λ1 +···+λr ). ! 5. EXERCICES SUR LE CHAPITRE 3 5 41 Exercices sur le chapitre 3 Exercice 3.15. On jette simultanément deux dés. On note X le nombre de chiffres pairs apparus et Y le maximum des deux chiffres obtenus. Chercher la loi du couple (X, Y ). X et Y sont-elles indépendantes ? Exercice 3.16. La loi d’un couple de variables aléatoires est donnée par le tableau suivant : X\Y 0 1 2 −2 −1 0 1 2 0 0 1/6 1/12 1/12 0 1/12 1/24 1/24 0 1/4 1/8 1/8 0 0 1. Déterminer la loi de X, puis celle de Y . 2. Calculer E[X], E[Y ], E[XY ] et Cov(X, Y ). Les variables X et Y sont-elles indépendantes ? 3. On pose U = X et Z = X + Y . Donner le tableau de la loi du couple (U, Z). Les variables U et Z sont-elles indépendantes ? Exercice 3.17. À la recherche de l’ancêtre commun On considère une population cellulaire de taille constante N . La population est isolée (pas de migration), il n’y a pas de sélection, les générations ne se chevauchent pas et la reproduction se fait de façon indépendante entre les cellules. Chaque cellule n’a qu’un seul parent. On étudie l’évolution de la population. On choisit quatres cellules au hasard et on note X le nombre de générations écoulées depuis le premier ancêtre commun entre les deux premières et Y le nombre de générations écoulées depuis le permier ancêtre commun entre les deux dernières cellules. On cherche le nombre de générations écoulées U depuis le plus jeune ancêtre de chacun des couples et le nombre de générations écoulées V depuis le plus vieux des deux ancêtres de chacun des couples. 1. Expliquer pourquoi on peut modéliser les lois de X et de Y par des lois géométriques G(p) et exprimer p en fonction de la taille de la population. 2. Exprimer U et V en fonction de X et Y . 3. Déterminer la loi du couple (U, V ). 4. En déduire les lois de U et V . Vérifiez que V suit une loi géométrique de paramètre q = 2p − p2 . 5. On rappelle que l’espérance d’une loi géométrique G(p) est 1/p. Exprimer l’espérance de V en fonction de N . Puis sans calcul, en déduire l’espérance de U . Exercice 3.18. Les amoureux du banc public Deux personnes se donnent rendez-vous. L’heure d’arrivée de chacune de ces deux personnes sur les lieux est une variable uniforme entre midi et une heure. Les personnes n’ayant pas de téléphone portable, on suppose ces deux variables indépendantes. Quelle est la probabilité qu’ils arrivent au même instant ? Quelle est la probabilité que le premier arrivé doive attendre plus de 10 minutes ? Si les deux personnes se donnent un rendez-vous plus précis, à midi exactement par exemple. La loi uniforme est-elle adaptée au problème ? Quelle autre type de loi peut-on utiliser ? 42 CHAPITRE 3. COUPLE DE VARIABLES Exercice 3.19. Soient X et Y deux variables aléatoires indépendantes et de même loi : P (X = k) = 2−k pour k ∈ N∗ . Calculer les quantités suivantes : P (X = Y ), P (X < Y ), P (min{X, Y } ≤ n), P (X divise Y ). Exercice 3.20. À la pêche aux Homards Il n’existe aucune méthode pour déterminer l’âge exact d’un homard. Le homard ne montre aucun signe mesurable de vieillissement : aucune perte d’appétit, aucun changement dans le métabolisme, aucune perte de besoin reproducteur ou de capacité, aucun déclin dans la force ou la santé. Les homards, quand ils meurent, semblent mourir des causes externes. Ils sont pêchés par les humains, mangés par les sceaux, gaspillés par les parasites, mais ils ne semblent pas mourir de l’intérieur. Un pêcheur de Cancale se spécialise dans la pêche au homard. Le pêcheur veut estimer le temps qu’il dispose pour vendre ses homards. 1. Quelle loi usuelle peut-on utiliser pour modéliser la durée de vie T d’un homard ? Notons λ le paramètre de la loi de T . Exprimer en fonction de λ la durée de vie moyenne d’un homard ainsi que l’écart type associé. 2. On considère n homards choisis de façon indépendantes. On note T1 , . . . , Tn leurs durées de vie respectives. On note U = min(T1 , . . . , Tn ) le premier instant où au moins un des homards décède et V = max(T1 , . . . , Tn ) le premier instant où tous les homards cessent de vivre. Exprimer les lois de U et de V . Reconnaitre la loi de U . Exercice 3.21. On considère une variable aléatoire équidistribuée X telle que IP(X = 1) = IP(X = 0) = IP(X = −1) = 1/3. On pose Y = X 2 . Montrer que Cov(X, Y ) = 0, mais que X et Y ne sont pas indépendantes. Exercice 3.22. Recherche de cellules malignes On fait deux biopsies à un patient. Dans la première n cellules sont étudiées et on désigne par X le nombre de cellules malignes. Dans la seconde m cellules sont étudiées et on note Y le nombre de cellules malignes. La probabilité qu’une cellule soit maligne est notée p. 1. Par quelle loi peut-on modéliser les variables X et Y ? 2. Que représente X + Y ? Déterminer la loi de X + Y . 3. Le laborantin a mélangé par inadvertance les deux éprouvettes. Quelle est alors la loi conditionnelle de X sachant {X + Y = k} ? Exercice 3.23. L’oeuf ou la poule ? On considère deux espèces de poules : les poules bressanes et les poules de Janzé. On supppose qu’une poule pond des oeufs selon une loi de Poisson de paramètre λ pour les bressanes et µ pour celles de Janzé. On note X le nombre d’oeufs pondu par jour par une poule bressane choisie au hasard et Y le nombre d’oeufs par jour d’une poule de Janzé choisie aussi au hasard. 5. EXERCICES SUR LE CHAPITRE 3 43 1. En utilisant la fonction génératrice, trouver la loi du nombre d’oeufs total pondu par jour par les deux poules ? 2. Sachant qu’au total elles ont pondu n oeufs, quelle est la loi du nombre d’oeufs pondu par la poule bressane ? Exercice 3.24. Mutation dans un brin d’ADN L’ADN est soumis à des mutations endogènes et exogènes. Pour survivre, les cellules disposent d’un mécanisme de réparation, mais parfois la mutation se fixe et se transmet aux cellules filles. On suppose que le nombre de mutation M subi par l’ADN suit une loi de Poisson de paramètre λ et on note p la probabilité qu’une mutation soit fixée. 1. Quelle est la loi du nombre de mutation fixée F sachant que M = k ? 2. Déterminer la loi du couple (M, F ). 3. Déterminer la loi de F , son espérance et sa variance. 4. Quelle est la loi de M sachant que F = n ? 44 CHAPITRE 3. COUPLE DE VARIABLES