©Arnaud de Saint Julien - MPSI Lycée La Merci 2015-2016 1 Variables aléatoires sur un espace probabilisé fini Dans tout ce chapitre, on considère (Ω, P ) un espace probabilisé fini. Démos de cours 1. V (X) = E(X 2 ) − E(X)2 2. Espérance et variance d’une loi binomiale en écrivant X = X1 + · · · + Xn . 3. Si X et Y sont indep, E(XY ) = E(X)E(Y ) 4. inégalité de Bienayme-Tchebychev 1 Notion de variable aléatoire 1. Définition : une variable aléatoire est une application de Ω dans un ensemble E. En général, E est égal à R (on parle alors de variable aléatoire réelle, en abrégé var) ou à Rk (on parle alors de vecteur aléatoire). Si rien n’est précisé, les variables aléatoires considérées seront à valeurs dans R. Si A est une partie de E, l’ensemble {w ∈ Ω | X(w) ∈ A} est un évènement que l’on note (X ∈ A) ou [X ∈ A]. En particulier (X 6 10) = {w ∈ Ω | X(w) 6 10). Comme Ω est fini 1 , X ne prend qu’un nombre fini de valeurs. On dit alors que X est une variable aléatoire finie. Déterminer la loi de probabilité de X c’est déterminer les valeurs x1 , . . . , xn que prend X et calculer les probabilités associées P (X = x1 ), . . . , P (X = xn ). Remarque : • les évènements [X = x1 ], . . . , [X = xn ] forment un système complet d’évènements de Ω. En particulier, n X P (X = xi ) = 1 . i=1 • Si A est une partie de X(Ω), on pose PX (A) = P (X ∈ A). L’application PX est alors une probabilité sur X(Ω). Déterminer PX revient à déterminer la loi de X. Elle mesure la vraisemblance des valeurs de X(Ω), c’est-à-dire des valeurs que prend X. Exemple : on lance successivement deux dés, on note S la somme des deux dés. Alors Ω = J1, 6K2 muni de la probabilité uniforme. On a S(Ω) = J2, 12K. 2. Fonction de répartition : si X est une variable aléatoire finie, on appelle fonction de répartition de X la fonction notée FX de R dans R définie par : ∀x ∈ R, FX (x) = P (X 6 x) . C’est une fonction en escalier, croissante. 1. l’année prochaine, on généralisera avec X(Ω) dénombrable, la variable aléatoire est dite alors discrète. 2 ©Arnaud de Saint Julien - MPSI Lycée La Merci 2015-2016 Elle détermine totalement la loi d’une variable aléatoire discrète (cad lorsque X(Ω) est dénombrable ou fini). En effet, si par exemple X prend les valeurs x0 < · · · < xn , on a P (X = x0 ) = P (X 6 x0 ) et ∀k ∈ J2, nK, P (X = xk ) = P (X 6 xk ) − P (X 6 xk−1 ). Astuce : la fonction de répartition pêut être par exemple utile pour déterminer la loi du maximum de plusieurs variables aléatoires. En effet, par exemple P (max(X, Y ) 6 k) = P ((X 6 k) ∩ (Y 6 k)). 3. Un exercice modèle : on tire successivement sans remise deux boules dans une urne contenant des boules numérotés de 1 à n. On note X le plus grand numéro des deux boules tirées. On a (k) k−1 pour k ∈ X(Ω) = J2, nK, P (X 6 k) = P (X1 6 k)P(X1 6k) (X2 6 k) = nk × n−1 ou P (X 6 k) = n2 (2) 2(k−1) d’où P (X = k) = n(n−1) . 2 Deux indicateurs fondamentaux : l’espérance et la variance 1. Espérance : Définition 1 Si X est une variable aléatoire réelle prenant les valeurs x1 , . . . , xn , on appelle espérance de X le réel E(X) = n X xi P (X = xi ) ou i=1 E(X) = X xP (X = x) . x∈X(Ω) Quelques remarques : • L’espérance est la moyenne des valeurs xi pondérés par les probabilités P (X = xi ). C’est un indicateur de position. Elle est en particulier comprise entre les valeurs extrêmes des xi . • Si X est une vecteur aléatoire, c’est-à-dire une varaible aléatoire à valeurs dans un espace vectoriel E, alors on définit de même E(X) qui est un vecteur de E. • Si X représente le gain à un jeu de hasard, on dit que le jeu est équitable si E(X) = 0, favorable si E(X) > 0 et défavorable si E(X) < 0. Par exemple, dans le jeu de la roulette (18 numéros rouges, 18 noires et une verte), l’epérance de gain vaut −1 37 sa mise, soit une perte pour le joueur en moyenne d’environ ∼ 2.7% sa mise. On peut exprimer l’espérance à l’aide des probabilités des évènements élémentaires : Proposition 2 E(X) = X X(w)P ({w}) . w∈Ω On en déduit les propriétés suivantes : Proposition 3 (Propriétés fondamentales) 3 ©Arnaud de Saint Julien - MPSI Lycée La Merci 2015-2016 • Linéarité de l’espérance : si X et Y sont des variables aléatoires réelles et a et b des réels on a : E(aX + bY ) = aE(X) + bE(Y ) . • Théorème de transfert : si X est une variable aléatoire réelle prenant les valeurs x1 , . . . , xn , et g est une fonction de X(Ω) dans R, alors E(g(X)) = n X g(xi )P (X = xi ) . i=1 • Si A est un évènement, on a E(1A ) = P (A) . • Positivité et croissance : soit X et Y deux variables aléatoires réelles. Si X > 0, alors E(X) > 0 et si X > Y , alors E(X) > E(Y ). Remarques : • En particulier E(aX + b) = aE(X) + b car E(b) = b (comprendre pourquoi) ! • En général, E(XY ) 6= E(X)E(Y ) (si X prend les valeurs ±1 de manière équiprobable, alors X 2 = 1, d’où E(X 2 ) = 1 mais E(X) = 0, d’où E(X 2 ) 6= E(X)2 ). Nous verrons par la suite que cette égalité est vraie si X et Y sont des variables aléatoires indépendantes. • L’intérêt du théorème de transfert est de calculer l’espérance de f (X) sans avoir à connaître la loi de f (X) (qui est plus délicat). Exemple : si S = X1 + X2 est la somme de deux dés, E(S) = 7, par linéarité car E(X1 ) = 1 7 E(X2 ) = 1 × 16 + 2 × 16 + . . . + 6 × 61 = 7×6 2 × 6 = 2 2. Variance Définition 4 Si X est une variable aléatoire réelle prenant les valeurs x1 , . . . , xn , on appelle variance de X le réel V (X) = E (X − E(X))2 et écart-type de X le réel σX = q V (X). La variance est «la moyenne des carrés des écarts à la moyenne», elle mesure donc la dispersion des valeurs xi par rapport à la moyenne E(X). La variance est un nombre toujours positif. La variance peut se calculer avec la formule suivante V (X) = n X i=1 (xi − E(X))2 P (X = xi ) qui découle du théorème de transfert. Mais en général, on la calculera avec la formule dite de Huygens : Proposition 5 On a V (X) = E(X 2 ) − E(X)2 . De plus, pour tous réels a et b, on a V (aX + b) = a2 V (X) En particulier, la variance n’est pas linéaire 2 et on a V (a + X) = V (X) et V (b) = 0. 2. Nous verrons par la suite que si X et Y sont des variables aléatoires indépendantes, on a quand même V (X + Y ) = V (X) + V (Y ). 4 ©Arnaud de Saint Julien - MPSI Lycée La Merci 2015-2016 Remarques : √ • si X est une variable aléatoire de variance non nulle, alors la variable aléatoire Y = X−E(X) V (X) a une espérance nulle et une variance égale à 1. On dit que Y est centrée et réduite. • si X a une variance nulle, donc un écart-type nul, alors X est presque sûrement constante, c’est-à-dire P (X = E(X)) = 1. • Plus généralement, on appelle moment d’ordre k d’une variable aléatoire X le nombre E(X k ). Exercice : On pose X = 1A +2×1B où A et B sont deux évènements tels que P (A) = 21 , P (B) = et P (A ∩ B) = 41 . Calculer l’espérance et la variance de X. 3 1 3 Lois usuelles finies Nous allons lister les lois usuelles des variables aléatoires finies. 3 Lorsque vous reconnaissez l’une de ces lois, vous pouvez ainsi utiliser sans les redémontrer les résultats de ce paragraphe. 1. Loi uniforme : si X est une variable aléatoire qui prend les valeurs 1, . . . , n de façon équiprobable, on dit que X suit une loi uniforme sur J1, nK, on note X ֒→ U(J1, nK) et on a : ∀k ∈ {1, . . . , n}, P (X = k) = 1 , n E(X) = n+1 , 2 V (X) = n2 − 1 . 12 Exemple modèle : une urne contient n boules numérotées de 1 à n. On en prend une au hasard. Si X est le numéro de la boule tirée, on a X ֒→ U(J1, nK). 2. Loi de Bernoulli : si X est une variable aléatoire prenant uniquement les valeurs 0 et 1, et que P (X = 1) = p, on dit que X suit une loi de Bernoulli de paramètre p. Alors E(X) = p et V (X) = p(1 − p) . On dit qu’une expérience aléatoire est une épreuve de Bernoulli lorsqu’elle admet seulement deux issues possibles, moralement échec ou succès. L’exemple classique est le lancer d’une pièce (équilibrée ou non). Remarque : si A est un évènement, la fonction indicatrice 1A est une variable aléatoire qui suit une loi de Bernoulli de paramètre p = P (A). 3. Loi Binomiale : on répète n fois de manière indépendante une épreuve de Bernoulli de paramètre p. On note X la variable aléatoire donnant le nombre de succès au cours des n épreuves. Alors X peut prendre les valeurs 0, 1, . . . , n et on montre que ∀k ∈ {0, . . . , n}, P (X = k) = ! n k p (1 − p)n−k . k 3. L’année prochaine, vous verrez les lois discrètes mais infinies : loi géométrique et loi de Poisson. Il existe aussi des lois dites continues ou à densité (les variables aléatoires ne prennent alors pas seulement des valeurs entières, mais toutes les valeurs d’un intervalle), telles que la loi normale, ou loi exponentielle. Mais elles ne sont pas au programme de prépa. 5 ©Arnaud de Saint Julien - MPSI Lycée La Merci 2015-2016 On dit que X suit une loi binomiale de paramètres n et p, on note X ֒→ B(n, p). On montre que 4 E(X) = np et V (X) = np(1 − p) . Exemple modèle : une urne contient des boules blanches et noires avec une proportion p de boules blanches. On tire n boules avec remise et on note X la variable aléatoire donnant le nombre de boules blanches tirées après les n tirages. Alors X suit une loi B(n, p). Contre-exemple : un tireur à l’arc tire n fois sur une cible avec p la probabilité qu’il touche la cible au cours du permier tir. On note X la variable aléatoire donnant le nombre de fois qu’il touche la cible au cours des n tirs. Si on suppose que le tireur n’a «aucune psychologie» à savoir que rater ou réussir son tir n’influe pas sur son tir suivant, alors X suit une loi binomiale de paramètres n et p. Sinon, s’il prend confiance en réussissant un tir (ou stresse s’il a raté), la probabilité de toucher la cible est modifiée à chaque épreuve, et X ne suit plus une loi binomiale. Exercice : «Surbooking» Un restaurant possède 50 places. La probabilité pour qu’une personne, ayant réservé, ne vienne pas est de 20%. Un jour, le patron a pris 53 réservations. Quelle est la probabilité qu’il se retrouve dans une situation embarassante ? 4. Loi hypergéométrique (hors-programme) : Situation modèle : une urne contient N boules, des blanches et des noires. On note p la proportion de boules blanches. On effectue n tirages sans remise et on note X le nombre de boules blanches obtenues. Alors, ∀k ∈ N, P (X = k) = N p N −N p k n−k N n . Dans ce cas, on dit que X suit une loi hypergéométrique de paramètres N , n et p, on note X ֒→ H(N, n, p). Quelques remarques : • Dans cette formule un peu compliquée, N p est le nombre total de boules blanches et N −N p le nombre total de noires. • «preuve de la loi de probabilité» : on modélise l’expérience aléatoire par des tirages simul tanés (c’est bien équilent à des tirages sans remise). Il y en a N n , et ils sont équiprobables, Card(X = k) on peut donc écrire P (X = k) = . Enfin, l’évènement [X = k] est réalisé si N n l’on tire k blanches parmi les N p blanches et si l’on tire n − k noires parmi les (N − N p) −N p d’où le résultat. noires, donc Card(X = k) = Nkp Nn−k • On a écrit P (X = k) pour tout k ∈ N. En fait X ne peut évidemment prendre toutes ces valeurs, par exemple , on est sûr que X 6 n. Mais la formule précédente reste valable lorsque k est une valeur que X ne peut prendre car on a alors P (X = k) = 0. • Si les n tirages étaient effectués avec remise, on pourrait les considérer comme indépendants et ainsi X suivrait une loi binomiale de paramètres n et p. 4. Pour se souvenir de ce résultat, on écrit X = X1 + · · · + Xn où pour tout i ∈ {1, . . . , n}, Xi est la variable aléatoire qui vaut 1 si on réalise un succès à la i-ème épreuve et 0 sinon. Xi suit une loi de Bernoulli de paramètre p, donc E(Xi ) = p ainsi par linéarité E(X) = np. De plus comme les variables aléatoires X1 , . . . , Xn sont indépendantes, on a V (X1 + · · · + Xn ) = V (X1 ) + · · · + V (Xn ) et on obtient ainsi V (X) = nV (X1 ) = np(1 − p). 6 ©Arnaud de Saint Julien - MPSI Lycée La Merci 2015-2016 On retiendra que si X ֒→ H(N, n, p), alors E(X) = np et V (X) = np(1 − p) 4 N −n . N −1 Indépendance de variables aléatoires Définition 6 Deux variables aléatoires X et Y sont dites indépendantes si pour tout (x, y) ∈ X(Ω) × Y (Ω) : ∀(x, y) ∈ X(Ω) × Y (Ω), P ([X = x] ∩ [Y = y]) = P (X = x)P (Y = y). Plus généralement des variables X1 , . . . , Xn sont dites (mutuellement) indépendantes si pour tout x1 ∈ X1 (ω), . . . , xn ∈ Xn (Ω) : P ([X1 = x1 ] ∩ . . . ∩ [Xn = xn ]) = P (X1 = x1 ) . . . P (Xn = xn ). Remarque : on peut démontrer et on l’admet que les variables aléatoires X1 , . . . , Xn sont indépendantes, ssi les évènements [X1 = x1 ], . . . , [Xn = xn ] sont indépendants. Exemples : • Si S = X1 + X2 est la somme de deux dés, alors X1 et X2 sont indépendantes, mais X1 et S ne le sont pas. • On peut ainsi modéliser n expériences aléatoires indépendantes par une suite finie X1 , . . . , Xn de variables aléatoires indépendantes. Par exemple, si X1 , . . . , Xn sont indépendantes et suivent une même loi de Bernoulli de paramètre p, la variable aléatoire X = X1 + · · · + Xn suit une loi binomiale de paramètres n et p. Proposition 7 Si X et Y sont des variables aléatoires, alors pour toute partie A de X(Ω) et toute partie B de Y (Omega), on a : P ([X ∈ A] ∩ [Y ∈ B]) = P (X ∈ A)P (Y ∈ B). On en déduit la proposition suivante très utile. Proposition 8 (image de variables aléatoires indépendantes) Soit X et Y deux variables aléatoires indépendantes et f : X(Ω) → F , g : Y (Ω) → G deux fonctions. Alors, les variables aléatoires f (X) et g(Y ) sont indépendantes. Cette proposition se généralise à n variables indépendantes. Exercice : on suppose X, Y, Z indépendantes. Démontrer que X et Y sont indépendantes, puis que X + Y et Z sont indépendantes. 4.1 Covariance et variables non corrélées Définition 9 Soit X et Y deux variables aléatoires réelles, on appelle covariance de X et Y le réel cov(X, Y ) = E((X − E(X))(Y − E(Y )) . 7 ©Arnaud de Saint Julien - MPSI Lycée La Merci 2015-2016 On a aussi cov(X, Y ) = E(XY ) − E(X)E(Y ) . Les variables X et Y sont dites non corrélées lorsque cov(X, Y ) = 0. Proposition 10 (Presque un produit scalaire) Soit X une variable aléatoire réelle. On a : • Positivité et symétrie : cov(X, X) = V (X) > 0 et cov(X, Y ) = cov(Y, X). • cov est bilinéaire, si a et b sont des réels cov(aX + bY, Z) = a cov(X, Z) + b cov(Y, Z). En particulier cov(X + a, Z) = cov(X, Z). • si V (X) = 0, alors X est presque sûrement constante. Proposition 11 Si X et Y sont indépendantes, alors X et Y sont non corrélées, c’est-à-dire cov(X, Y ) = 0 et E(XY ) = E(X)E(Y ). Remarques : • la réciproque est fausse, voir en exercice. • il y a une véritable analogie 5 entre la covariance de deux variables et le produit scalaire de deux vecteurs. Proposition 12 (Variance d’une somme) Soit X, Y, X1 , . . . , Xn des variables aléatoires réelles. 1. On a V (X + Y ) = V (X) + V (Y ) + 2 cov(X, Y ). Plus généralement V (X1 + · · · + Xn ) = V (X1 ) + · · · + V (Xn ) + 2 X cov(Xi , Xj ) . 16i<j6n 2. Si les variables X1 , . . . , Xn sont deux à deux indépendantes, on a V (X1 + · · · + Xn ) = V (X1 ) + · · · + V (Xn ). Application : • calcul de la variance d’une loi binomiale • Soit M une matrice de M2 (R) dont les coefficients Xi,j sont des variables aléatoires indépendantes de même loi telles que P (Xi,j = 1) = 21 et P (Xi,j = −1) = 21 . Démontrer que E(det M ) = 0 puis que V (det M ) = 2. 5. Le produit scalaire mesure le défaut d’orthogonalité et la covariance mesure le défaut de corrélation entre deux variables. D’ailleurs, la covariance est bilinéaire, symétrique, positive (cov(X, X) = V (X) > 0) et si cov(X, X) = V (X) = 0, alors X est égale à son espérance presque sûrement.. Ainsi par exemple, la variance de X peut s’interpréter comme la norme au carré de X. 8 ©Arnaud de Saint Julien - MPSI Lycée La Merci 2015-2016 5 Couples de variables aléatoires 1. Notion de loi conjointe et de lois marginales Soit X et Y deux variables aléatoires. L’application (X, Y ) : w 7→ (X(w), Y (w)) définit une variable aléatoire à valeurs dans X(Ω) × Y (Ω). Sa loi notée P(X,Y ) est appelée loi conjointe de X et Y . Si X prend les valeurs {xi | i ∈ I} et Y les valeurs {yj | j ∈ J}, la loi de (X, Y ) est donc définie par ses valeurs (xi , yj ) et les probabilités associées P ([X = xi ] ∩ [Y = yj ]) pour (i, j) ∈ I × J. Si l’on connaît la loi du couple (X, Y ), on peut retrouver les lois de X et de Y . On dit que X et Y sont les lois marginales du couple (X, Y ). En effet, les ensembles [Y = yj ] pour j ∈ J constituent une partition de Ω, donc ∀i ∈ I, P (X = i) = X j∈J P ([X = i] ∩ [Y = yj ]). Remarque : les lois marginales ne permettent pas de retrouver la loi conjointe. 2. Notion de loi conditionnelle Soit x une valeur de X, alors l’évènement (X = x) est non négligeable (P (X = x) > 0). La loi conditionnelle de Y sachant (X = x) est la donnée des valeurs yj que prend Y et des probabilités conditionnelles associées PX=x (Y = yj ). Remarque : si X et Y sont deux variables aléatoires, P (X + Y = k) = X (i,j)∈I×J i+j=k 6 P (X = i ∩ Y = j). Vers la loi des grands nombres Proposition 13 (Deux inégalités de concentration) Soit X une variable aléatoire réelle. 1. Inégalité de Markov : si a > 0, on a : P (|X| > a) 6 E(|X|) . a 2. Inégalité de Bienaymé-Tchebychev : pour tout ε > 0 : P (|X − E(X)| > ε) 6 V (X) . ε2 Interprétation : la probabilité que X s’écarte de sa moyenne d’au moins ε est majoré par la variance divisé par ε2 . Cela confirme que la variance est un indicateur de dispersion.