Probabilité continue METHODE STATISTIQUES POUR L’INFORMATIQUE CHAPITRE 2 LICENCE INFORMATIQUE – UNIVERSITE BORDEAUX 1 – SEMESTRE 5 – ANNEE SCOLAIRE 2004/2005 1 PROBABILITES CONTINUES Dans le cas ou l’espace des évènements élémentaires n’est pas dénombrable, les probabilités ne peuvent être caractérisées ponctuellement. En effet, il se peut que ces probabilités soient nulles et leur connaissance n’apporte aucune information sur la probabilité des évènements contenant une infinité indénombrable d’évènements élémentaires. Considérons à titre d’exemple, les problèmes suivants : aiguille de Buffon : On lance une aiguille de longueur 1 sur un parquet dont les lames sont parallèles de distance 1. Quelle est la probabilité que l’aiguille chevauche une lame du parquet ? Une procédure a généré uniformément trois réels aléatoires dans l’intervalle [0, 1]. Quelle est la probabilité pour que ces grandeurs soient les mesures des côtés d’un triangle ? On ne peut pas formuler ces questions en termes de probabilités associées à des valeurs ponctuelles des paramètres qui déterminent l’évènement. Nous sommes alors ramené à emprunter d’autres outils que la somme de probabilités (ou d’une série de probabilités). Dans le cas des espaces continus, le calcul de la probabilité d’un évènement par une somme (employé dans le cas des espaces discrets) doit être remplacée par une intégrale. On peut avoir aussi un espace qui n’est ni continu ni discret. Une intégration au sens de Lebesgue peut fournir un encadrement universel uniforme pour tous les espaces probabilisés. Dans la suite, nous introduisons un fondement élémentaire du calcul des probabilités, en supprimant les preuves de certaines constructions, qui peuvent se trouver dans les ouvrages sur le calcul des probabilités et sur la théorie de la mesure. 2 ESPACE PROBABILISE 2.1 DEFINITION 1 Soit un ensemble non vide quelconque. Une famille A de sous ensembles de (I.E A P()) est appelée algèbre ou tribu, si elle contient et est fermée pour la complémentation et la réunion dénombrable : A. A A => /A A. Si pour tout i N, Ai A alors UiN Ai A. 2.1.1 Exemple Pour = {a, b, c}, les -algèbres possibles sur sont : {, } {, , {a},{b, c}} et deux autres familles obtenues par permutations. P() = {, {a}, {b}, {c}, {a, b}, {a, c}, {b, c}, } 2.1.2 Propriétés On démontre facilement que : Toute -algèbre est fermée pour une intersection dénombrable. L’intersection d’une classe -algèbres est encore une -algèbre. Soit C un sous-ensemble de P(). Il y a une plus petite -algèbre qui contient C. 2.2 DEFINITION 2 La plus petite -algèbre contenant C est appelée -algèbre engendrée par C. Dans le cas ou R (ou R k en général), on prend pour C la classe des intervalles (ou des pavés) ouverts, fermés droite et/ou gauche. 1 2.2.1 Exemple Soit = {a, b, c, d}. Quelle est la -algèbre engendrée par {{a}, {b,c}} ? 2.2.2 Solution On vérifie facilement que l’ensemble D={, , {a}, {b}, {a,b}, {c,d}, {a,c,d}, {b,c,d}} est la plus petite algèbre contenant l’ensemble donné. 2.3 DEFINITION 3 Un espace probabilisé est un triplet (, A, Pr), ou est un ensemble non vide, A une -algèbre sur et Pr une application de A dans [0, 1] telle que : Pr()=1. Pour toute suite Ai, iN, d’éléments de A 2-à-2 disjoints : Pr( Ai ) Pr( Ai ) . (-additivité). iN iN Pr est appelée une loi (ou mesure ou distribution) de probabilité sur A, et pour tout probabilité de A. A A, Pr(A) s’appelle En ce qui concerne les tribus des boréliens, nous admettons le théorème suivant, dont la démonstration déborde le cadre que nous nous sommes fixé ici. 2.3.1 Théorème Soit PR une application de l’ensemble des pavés de Rk dans [0, 1] satisfaisant : Pr(Rk) = 1 ; Si A est un pavé de Rk qui est laréunion d’une suite Ai, i N de pavés, 2-à-2 disjoints, de Rk alors : Pr( A) Pr( Ai ) iN Alors, Pr se prolonge de façon unique en une mesure de probabilité sur B k. 2.3.2 Propriétés élémentaires Soit (, A, Pr) un espace probabilisé. Nous avons : Pr() = 0 ; Pour tout A A , Pr(/A) = 1 – Pr(A) ; Pour tout A, B A : Pr(A U B) + Pr(A B) = Pr(A) + Pr(B) ; Et donc Pr(A U B) Pr(A) + Pr(B). 2.3.3 Quelques exemples simples 2.3.3.1 Exemple 1 Une procédure a généré deux réels X et Y uniformément et indépendamment dans l’intervalle [0, 1]. Définir l’espace probabilisé et calculer la probabilité pour que la distance (euclidienne) du point (X, Y) de l’origine ne dépasse pas 1. 2.3.3.2 Solution On prend pour le carré [0, 1] * [0, 1]. La -algèbre A est engendrée par l’ensemble des pavés (ou ici rectangles) contenus dans . La mesure de probabilité Pr est le prolongement unique de l’application qui associe à tout rectangle contenu dans son aire. La distance du point (X, Y) de l’origine ne dépasse pas 1 si et seulement si il se trouve à l’intérieur du premier quadrant délimité par le cercle d’origine (0, 0) et de rayon 1. Or cette région est d’aire /4. D’où, la probabilité recherchée vaut /4. 2.3.3.3 Exemple 2 Une procédure génère les réels X et Y uniformément et indépendamment dans l’intervalle [a, b] , ou a<b, et en retourne le maximum. Quelle est la probabilité pour que la valeur retournée soit z [a, b] ? 2 2.3.3.4 Solution Soit Z=max{X, Y}. On a Z z si et seulement si X z et Y z, pour tout z [a, b]. La probabilité de chacun de ces deux évènements est (z-a)/(b-a). Ils sont de plus indépendants et donc : déduit : Pr(c Z d ) Pr( Z z ) ( z a)² . On en (b a)² (d a)² (c a)² . (b a)² (b a)² 3 FONCTION DE REPARTITION ET DENSITE Dans la suite, nous introduisons la fonction de répartition et la densité (lorsqu’elle existe) pour les mesures de probabilités définies sur (R, B). Soit Pr une mesure de probabilité. Sa fonction de répartition (f.r.) F est définie par F(t) = Pr( ] -, t] ), t R. 3.1 PROPRIETES Nous admettons les deux propositions suivantes sur les f.r. 3.1.1 Proposition 1 La f.r. F est croissante, à valeur dans [0, 1], continue à droite et telle que lim tF(t) = 0. 3.1.2 Proposition 2 Soit F : R [0, 1] croissante, continue à droite et telle que limtF(t) = 1 et limt-F(t) = 0. Alors il existe une mesure de probabilité unique Pr sur (R, B) dont la f.r. est F. 3.2 DENSITE Soit F la f.r. de la distribution Pr. S’il existe une fonction f telle que : t F (t ) f ( x)dx pour tout t R, alors cette fonction f s’appelle la densité de Pr. La f.r. étant croissante, si la densité f existe alors son intégrale de - à t, doit valoir F(t). Donc on peut définir la densité f comme la dérivée de la f.r., si cette dernière en admet une. 3.2.1 Exemple 1 Soit Pr la distribution uniforme sur [0, 1], donnée par Pr(<a, b>) = l([0, 1] <a, b>), pour tout intervalle <a, b> ou l’application l désigne la longueur d’un intervalle. La f.r. est donnée par : F(t) = 0 si t < 0 F(t) = t si 0 t < 1 F(t) = 1 si t 1 Elle admet la densité : f(t) = 0 si t < 0 f(t) = 1 si 0 t < 1 f(t) = 0 si t 1 3 3.2.2 Exemple 2 Soient Z la valeur maximale de deux réalisations indépendantes de la loii uniforme dans [0, 1], fournie par l’exemple précédent. Nous avons ; Pr(Z t) = Pr( X t et Y t) = t² t [0, 1]. On en déduit : FZ(t) = 0 si t < 0 FZ(t) = t² si t 0 t < 1 FZ(t) = 1 si t 1 Cette f.r. admet la densité suivante : fZ(t) = 0 si t < 0 fZ(t) = 2t si t 0 t < 1 fZ(t) = 0 si t 1 4 VARIABLES ALEATOIRES A VALEURS DANS R Le concept de variable aléatoire introduite comme une application X de l’espace discret des évènements dans R se généralise pour un espace probabilisé (, A, Pr) quelconque. Il faut toutefois qu’on puisse définir, pour tout borélien B ß, Pr(B). Or, ceci n’est possible que si {X B} = X-1(B) appartient à A. 4.1 DEFINITION Soit (, A, Pr) un espace probabilisé quelconque. Une application X de dans R est une variable aléatoire si, pour tout B ß, X-1(B) A. 4.2 PROPOSITION Une application X de dans R est une v.a. sur (, A, Pr) si et seulement si X-1( ] , x]) = {X x} A. 4.2.1 Exemple Soit le réel U uniformément généré dans l’intervalle [0, 2]. On définit l’application X par X(u) = u². Etudier X et en donner la f.r, s’il s’agit d’une v.a. 4.2.2 Solution L’espace probabilisé initial est ( [0, 2], ß[0, 2], Pr) ou ß[0,2] est la tribu des boréliens contenus dans [0, 2] et Pr la mesure de probabilité qui associe à chaque sous-intervalle de [0, 2] la moitié de sa longueur. La f.r de U est données par : FU(t) = 0 si t<0 FU(t) = t/2 si 0 t < 2 FU(t) = 1 si t 2 L’application X est bien une v.a., puisque l’image inverse d’un sous intervalle (a, b) de [0, 4] par X est le sous intervalle ( a , b ) de [0, 2], qui est un borélien. Pour calculer la f.r de X, nous remarquons d’abord que F X(x) vaut 0 pour x<0 et 1 pour x 4. Ses valeurs non triviales sont obtenues pour 0 x 4. Soit x [0, 4] ? Nous avons : FX (t ) Pr( X x) Pr(U x ) FU ( x ) x / 2 D’où : FX(x) = 0 si x < 0 FX(x) = x/2 si 0 x < 4 FX(x) = 1 si x 4 4 5 PROBABILITE CONDITIONNELLE Le concept de conditionnement introduit pour les espaces discrets s’étend sans difficulté aux espaces quelconques. 5.1 DEFINITIONS Soit (, A, Pr) un espace probabilisé et soit A A de probabilité non nulle. On définit une application Pr(./A) de A dans [0, 1] par Pr( B / A) PR( A B) , B A. Pr( A) Elle est appelée probabilité conditionnelle sachant A. Le nombre Pr(B/A) est appelé probabilité de B sachant A. On démontre facilement que le triplet (, A, Pr(./A)) est un espace probabilisé. Il est appelé espace probabilisé conditionnée par A. On remarque aussi que la probabilité d’une intersection peut s’écrire en termes de probabilité conditionnelle : Pr(AB) = Pr(A).Pr(B/A). On dit alors que l’on a effectué un conditionnement. 5.2 PROPOSITION Soit A1, A2, …, An une partition de dans A, telle que Pr(Ai) 0, i = 1, …, n. Alors, pour tout B A, on a : Pr( B) Pr( Ai ) Pr( B / Ai ). La définition d’indépendance pour les évènements d’un espace généralisé est tout à fait identique à celle d’un espace discret. 6 INDEPENDANCE Soit (, A, Pr) un espace probabilisé. On peut définir un vecteur aléatoire (ou une variable aléatoire à valeurs dans Rk) comme une application de dans Rk telle que, pour tout B ßk, {X B} = X-1(B) soit dans A. Si X est une v.a à valeurs dans Rk sur l’espace (, A, Pr), on peut munir (Rk, ßk) de la mesure de probabilité qui associe à tout B ßk, Pr({X B}). La proposition suivante permet de réduire la vérification de la propriété d’appartenance à A aux images inverses des pavés. 6.1 PROPOSITION Une application X de dans Rk est une v.a si et seulement si pour tout x Rk, {Xx} A. Dans ce cas, on peut définir la fonction de répartition du vecteur X par : F(x) = F(x1, …, xk) = Pr(X(x1, …, xk)). Si l’on pose X = ( X1, …, Xk), on aura Pr(X1 x1, …, Xk xk) = F(x1, …, xk). 6.2 DEFINITIONS 6.2.1 Définition 1 Soit X = ( X1, …, Xk) une v.a définie sur (, A, Pr). Les v.a X1, …, Xk sont dites indépendantes, si pour tout B1, …, Bk ß : Pr( X 1 B1 ,..., X k Bk ) k Pr( X i Bi ) . 1 5 6.2.2 Définition 2 Si F(x1, …, xk) est la f.r, la fonction de répartition marginale Fi(xi), i = 1, …, k est lim x j ,j i F ( x1 ,..., xk ) . 6.3 PROPOSITIONS Nous admettons les deux propositions suivantes 6.3.1 Proposition 1 Les v.a X1, …, Xk sont indépendantes si et seulement si : F ( x1 ,..., x k ) k F (x ) i i 1 6.3.2 Proposition 2 Soient X1, …, Xk des v.a indépendantes réelles. Soient 1, …, k des applications réelles. Alors les v.a 1(X1), …, k(Xk) sont des v.a indépendantes. Cette proposition est importante. Elle confirme en effet l’idée intuitive que les transformations des v.a indépendantes préservent l’indépendance des variables. Dans la suite, nous supposerons que les v.a non discrètes admettent une densité. Cette hyposthèse permet de simplifier les calculs en termes d’intégrales de Riemann. 7 ESPERANCE DES V.A CONTINUES La densité d’une v.a X = (X1, …, Xk) Rk, lorsqu’elle existe, est la fonction f(t1, …, tk) telle que, pour tout x1, …, xk R : xk x1 F ( x1 ,..., xk ) ... f (t1 ,..., t k )dt1 ...dt k . Notons tout de suite que l’on doit avoir : ... f (t1 ,..., t k )dt1 ...dt k 1 . 7.1 QUELQUES EXEMPLES 7.1.1 Exemple 1 : loi uniforme Soit la v.a X uniformément répartie dans [a, b] avec a<b. Elle admet la densité : f(x) = 0 si x < a f(x) = 1/(b-a) si a x < b f(x) = 0 si x b b Nous avons alors : EX b a x² x b² a ² b a dx ba 2 2(b a ) a 2(b a ) Il est à noter qu’on peut calculer l’espérance de toute v.a de la forme (X) par une intégration similaire. Par b exemple l’espérance de X² vaut : EX ² b a x3 x² b 3 a 3 b² a ² ab dx . ba 3 3(b a) a 3(b a) 7.1.2 Exemple 2 : loi normale La distribution que nous introduire a un rôle central en statistique. Elle est appelée aussi loi gaussienne ou loi de Laplace-Gauss. Elle intervient en effet dans la modélisation probabiliste d’un nombre de grandeurs physiques observée un grand nombre de fois. 6 Soit X une v.a réelle. On dit que X suit une loi normale de paramètres m et , si elle admet la densité : ( x m )² 2 ² 1 f ( x) e 2 . Il est d’usage de noter une telle distribution par N(m, ). Pour prouver qu’il s’agit d’une densité, il faut montrer que y variable xm 2 f ( x)dx 1 . Pour ce faire, on introduit d’abord le changement de puis on applique l’équation : e y² dy qui permet de confirmer l’identité souhaitée. 7.1.3 Exemple 3 : loi de Cauchy La distribution de Cauchy est donnée par sa densité : f ( x ) On démontre facilement F (t ) Pr( X t ) 1 1 , x R. 1 x² 1 Arc tan( t ) , t R. 2 7.1.4 Exemple 2bis : Espérance de la loi normale Pour la v.a X de paramètres m et , nous avons y de variable EX 1 xm 2 EX 1 2 xe ( x m )² 2 ² dx . En introduisant le changement , on obtient : ( 2y m)e y ² dy 2 ye y ² dy m e y ² dy . La première intégrale vaut 0 et la seconde . D’où, EX=m. 7.1.5 Exemple 3bis : Espérance de la loi de Cauchy Pour que la loi de Cauchy admette une espérance, il est nécessaire que sa partie positive et sa partie négative en admette une. Mais nous avons : 7 1 L 0 x 1 ln( 1 x²0L ln( 1 L²) . dx 1 x² 2 2 Cette expression tend vers lorsque L . On en déduit que la loi de Cauchy n’admet pas d’espérance. 7.1.6 Exemple 4 : Loi exponentielle Cette loi a beaucoup d’importance dans l’étude de durée de vie des particules subatomiques en physique théorique et aussi dans celle des files d’attentes. Elle possède en effet la propriété « sans mémoire » qui la distingue des autres lois possédant une densité. On dit la v.a réelle à valeurs positives X suit une loi exponentielle de paramètre > 0 si elle admet la densité f(x)=e-x, x R+. On démontre facilement que 0 f ( x)dx 1. On en déduit que f est bien une densité. On peut calculer t facilement la f.r de X. Nous avons : F (t ) f ( x)dx e x 0 t 0 1 e t . On a en particulier : Pr( X s t / X s) Pr( X s t X s) e ( s t ) s e t Pr( X t ) . Pr( X s) e Cette propriété est appelée « sans mémoire ». On peut montrer que, réciproquement, si une loi admettant une densité est sans mémoire alors elle est exponentielle. L’espérance de la loi exponentielle se calcule facilement et on a Ex xex dx . En 0 effectuant le changement de variable y=x puis une intégration par partie (voir aussi intégrales eulériennes), on obtient : EX 1 0 ye y dy 1 . 7.2 PROPRIETES DE L’ESPERANCE DES V.A CONTINUES Dans la suite, nous considérons les v.a admettant une densité. Les propriétés énumérées sont vraies dans le cas général. 7.2.1 Théorème : linéarité de l’espérance Soient X et Y deux v.a définies sur le même espace et soient et deux réels quelconques. Alors E(X+Y)=EX+EY. 7.2.2 Théorème : produit Soient X et Y deux v.a sur le même espace et indépendantes d’espérance finie. Alors la v.a XY admet une espérance et E(XY)=EX.EY 7.2.3 Définition Une v.a est dite centrée si son espérance est 0. Si la v.a X admet l’espérance EX, alors la v.a Y=X-EX est centrée. 8 VARIANCE 8.1 DEFINITIONS Soit X une v.a admettant une espérance. La variance de X est définie par VX=E(X-EX)², si cette espérance existe. 8 Si une v.a est de variance 1, on dit quelle est réduite. 8.2 PROPRIETES DE LA VARIANCE 8.2.1 Propositions 1 On a : VX=EX²-(EX)² ; V(X) = ² VX ; V(X+)= VX . 8.2.2 Proposition 2 Si les v.a X et Y sont indépendantes, alors : V(X+Y) = VX + VY. 8.3 QUELQUES EXEMPLES Nous calculons dans la suite la variance pour les 3 lois dont l’espérance a été calculée. La loi de Cauchy n’admet pas de variance puisqu’elle n’a pas d’espérance. 8.3.1 Exemple 1 : loi uniforme Nous avons déjà calculé EX et EX². On obtient donc : VX EX ² ( EX )² b² a ² ab (b a)² (b a)² . 3 4 12 8.3.2 Exemple 2 : loi normale Nous avons EX ² Or 1 x² 2 EX ² e ( x m )² 2 ² dx . Le changement de variable y 2 ( y 2 m)² e y ² dy ye y ² dy 0 et e y ² dy figurant dans le calcul de EX² : 2 ² y ²e y ² dy 2m 2 xm 2 permet d’écrire : ye y ² dy m² e y ² dy . . De plus, par intégration par partie, on trouve la première intégrale y ²e y² y² e ey² dy y dy . 2 2 2 On en déduit donc que EX²=²+m² et donc VX=². 8.3.3 Exemple 3 : Loi exponentielle Nous avons : EX ² x²e x dx . 0 Le changement de variable y=x permet d’écrire : EX ² On en déduit : VX 1 2 y ²e y dy 0 ² ² 2 1 1 . ² ² ² 9 9 FONCTION CARACTERISTIQUE Dans le cas des v.a discrètes, la fonction génératrice permet une caractérisation simple de la loi et constitue un outil puissant et efficace pour manipuler des opérations complexes telles que la somme des v.a indépendantes, calcul des moments et étude des comportements asymptotiques e suites des v.a. Dans le cas des v.a continues, on doit remplacer le concept de la somme par celle de l’intégrale. Il existe plusieurs techniques pour définir une transformation de même performance applicable à des lois de probabilités quelconques. L’outil le plus populaire est la fonction caractéristique. 9.1 DEFINITION La fonction caractéristique (f.c.) d’une v.a X est définie par : (t) = E(eitX) Etant donnée que | eitX | = 1, la f.c est bien définie. 9.2 PROPRIETES 9.2.1 Proposition 1 Soit (t) la fonction caractéristique de la v.a X, on a : (0) = 1 ; ’(0) = iEX ; ’’(0)=-EX² . 9.2.2 Proposition 2 Soient X et Y des v.a indépendantes de f.c X(t) et y(t) respectivement. Alors la v.a Z = X + Y admet la f.c : Z(t)=X(t) + Y(t). 9.2.3 Proposition 3 Si la f.c de la v.a X est (t), alors la v.a Y=aX + b où a, b N vaut eitb(at) 9.3 QUELQUES EXEMPLES 9.3.1 Exemple 1 : loi uniforme Reconsidérons la v.a X uniformément répartie dans [a, b]. Sa fonction caractéristique vaut : (t ) EeitX 1 b itx e itb e ita e dx b a a it (b a) 9.3.2 Exemple 2 : loi normale Nous calculons la f.c. de la v.a suivant une loi normale centrée réduite (N(0,1)). On a : (t ) Ee itX 1 2 e 1 x² itx 2 e dx Une méthode simple de calcul est de dériver la fonction (t). L’intégrale à calculer est convergente et, donc, une dérivation sous le signe intégrale est possible. Nous aurons alors : 1 x² i t (t ) e 2 e itx 2 2 e 1 x² itx 2 e dx . On en déduit donc que admet l’équation différentielle ’(t) = -t(t). 10 Tenant compte de la condition initiale (0)=1, l’équation admet l’unique solution : (t ) e t² 2 . 9.3.3 Exemple 3 : loi exponentielle Pour la f.c. de la loi exponentielle de paramètre , nous avons : 0 0 (t ) e x e itx dx e x ( it ) dx it . Il faut noter que le calcul de la f.c ne se limite pas aux v.a admettant une densité. Calculons à titre d’exemple la f.c. d’une loi binomiale. 9.3.4 Exemple 4 Soit X une v.a. binomiale de paramètre p et n. On suppose 0 p 1et on pose q=1 – p. Evidemment, on peut calculer la f.c. directement à partir de l’expression de la loi probabilité : Pr( X k ) n! p k q nk . k!(n k )! Mais, sachant que la v.a. binomiale est la somme de n v.a. identiques et indépendantes de Bernouilli de paramètres p, une méthode plus subtile consiste à calculer la f.c. de la loi de Bernouilli ; la f.c. de la v.a. sera alors, d’après la proposition sur la f.c. de la somme de v.a. indépendante, la n-ième puissance de la f.c. de Bernouilli. Donc : (t ) (q pe it ) n . 9.3.5 Proposition Dans le cas des v.a. à valeurs dans N, si la f.g est disponible, on peut la transformer en f.c en utilisant la proposition suivante. Soit X une v.a. à valeurs dans N. Soit G(z) sa fonction génératrice. Alors sa fonction caractéristique vaut : (t ) G(e it ) . 9.4 CONVERGENCE STOCHASTIQUE 9.4.1 Proposition (inégalité de Bienaymé-Tchebychev) Soit X une v.a. d’espérance µ et de variance V alors, pour tout e > 0 : Pr( X µ e) V e² Dans la suite, nous étudions très sommairement certaines notions d’approximation pour une suite de v.a. Il existe plusieurs définitions de convergences pour une suite de v.a. Elles ne sont pas équivalentes et certaines sont plus fortes que d’autres. Les convergences que nous allons considérer sont parmi les plus simples. Nous en avons d’ailleurs déjà cité deux exemples portants sur la loi binomiale. Soit X n une suite de v.a. binomiales de paramètres et n. Alors : Si p reste fixé et que n tend vers alors Pr( Xn p e) 0 quelque soit e > 0. n k Si n tend vers et p tend vers 0 tels que np > 0, alors Pr(Xn=k) tend vers e k ! (I.e. une distribution de Poisson). Il est évident que ces deux modes de convergence, l’un pour X n/n et l’autre pour Xn, sont distincts. Le premier confirme que Xn/n s’approche avec une quasi-certitude vers p alors que le second montre que X n suit asymptotiquement une loi de Poisson. 11 9.4.2 Définitions Soit Xn, n N une suite de v.a. et soit Xn une v.a. quelconque. On dit que la suite Xn converge en probabilité vers v.a. X si pour tout e > 0 : On dit que la suite Xn converge en loi vers la v.a. X si pour tout a point de continuité de la f.r. de X : lim Pr X n a Pr( X a) . Autrement dit, la f.r. Fn(x) de Xn converge vers la f.r. F(x) de X en lim Pr X n X e 0 . n n tout point de continuité de F(x). L’inégalité de Bienaymé-Tchebychev (pour les v.a. réelles) permet de généraliser la loi des grands nombres pour les suites de v.a. indépendantes et identiquement distribuées (qui ne sont pas nécessairement discrètes). 9.4.3 Théorème (loi faible des grands nombres) Soit Xn une suite de v.a ; indépendantes et identiquement distribuées, admettant chacune l’espérance µ et la variance V. Alors la suite des v.a. constituées de leurs moyennes arithmétiques, i.e. la suite M n 1 n Xi n 1 converge en probabilité vers µ. 9.5 THEOREME CENTRAL LIMITE La loi des grands nombres est très importante. Elle établit en effet un pont entre des prévisions probabilistes et des confirmations qui frisent la quasi-certitude. Mais pour en arriver là, un grand nombre de répétitions d’épreuve est nécessaire. Malheureusement, la loi ne nous dit rien sur la vitesse de convergence vers la certitude. Le théorème central limite a pour objectif de remédier à ce problème en multipliant l’écart entre la valeur aléatoire (la moyenne) et la valeur certaine approchée (l’espérance) par la racine carrée de n. 9.5.1 Théorème (central limite) Soit Xn, n=1, 2, 3, …, une suite de v.a. indépendantes et identiquement distribuées, admettant chacune l’espérance µ et la variance V= ² > 0. Soit Mn la valeur moyenne de la suite : M n 1 n X i . Alors la suite n 1 n (M n µ) converge en loi, lorsque n , vers une v.a. normale centrée et de variance ². Nous avons donc, pour tout intervalle [a, b] de R : lim Pr( n ( M n µ) [a, b]) n 1 2 b e a x² 2 ² dx . 9.5.2 Corollaire (théorème de Moivre-Laplace) Soit Xn, n=1, 2, 3, ..., une suite de v.a. de Bernouilli de paramètres p et n. On suppose 0 < p < 1. Alors la suite X n np converge en loi, lorsque n vers une v.a. de loi N(0, n p(1 p) ). 9.5.3 Exemple 9.5.3.1 Enoncé Deux candidats se présentent à une élection. Un institut effectue des sondages auprès des électeurs. Lorsque l’institut veut diviser l’erreur commise par 10, de combien doit-il augmenter l’effectif des sondés ? 9.5.3.2 Solution On peut modéliser le nombre d’électeurs sondés favorables par une v.a. de Bernouilli de paramètres p et n. Le théorème de Moivre-Laplace nous dit que l’erreur commise en effectuant un sondage diminue avec la racine carrée du nombre des sondés. Diviser l’erreur par 10 oblige à augmenter le nombre de sondés par 100. 12 10 CORRELATION Nous avons déjà défini l’indépendance des v.a. Il reste alors à définir une mesure de dépendance entre les v.a. Etant donné deux v.a. X et Y, sont-elles positivement ou négativement liées ? Pour formuler mathématiquement ces questions, nous introduisons dans la suite les notions de covariance et de coefficient de corrélation. Elles auront pour but de fournir une mesure quantitative de liaison éventuelle entre les v.a. Ces définitions et les propriétés sous jacentes sont vraies aussi bien dans le cas des espaces discrets que continus. Pour étudier les conséquences de ces définitions, nous aurons besoin de l’inégalité suivante : 10.1 PROPOSITION (INEGALITE DE CAUCHY SCHWARZ) : Soient X et Y deux v.a. admettant chacune une variance. Nous avons : E ( XY ) EX ² EY ² . 10.2 DEFINITION Soient X et Y deux v.a. admettant chacune une variance. La covariance entre x et Y est définie par cov( X , Y ) E[( X EX )(Y EY )] . Si les variances de X et de Y sont non nulles, on définit le coefficient de corrélation entre X et Y par corr ( X , Y ) cov( X , Y ) . VX .VY L’inégalité de Cauchy Schwarz implique que ce coefficient est situé dans l’intervalle [-1 ; 1]. La covariance et le coefficient de corrélation mesurent en quelque sorte le lien entre les v.a. Si corr(X,Y) est positif les deux v.a. sont positivement corrélées et, donc, l’augmentation de l’une favorise l’augmentation en moyenne de l’autre. S’il est négatif, la situation s’inverse. On démontre aussi facilement la proposition suivante. 10.3 PROPOSITION Si X et Y sont eux v.a. indépendantes admettant chacune une espérance, alors cov(X,Y)=0. Si de plus, elles admettent chacune une variance, corr(X,Y)=0. La réciproque est fausse. 10.3.1 Exemple Soit X une v.a. prenant une des valeurs –1, 0, 1 avec la même probabilité 1/3. Posons Y=X². Il est évident que X et Y sont fortement liées et en particulier : Pr(X=1, Y=0) = 0 Pr(X=1)Pr(Y=0). Néanmoins, on a cov(X,Y) = corr(X,Y) = 0. 11 OPERATIONS SIMPLES SUR LES VARIABLES ALEATOIRES Soit X une v.a. réelle et soit h une application de R dans R mesurable (I.e. pour out borélien B, h -1(B) ϐ). Alors Y=h(X) est une nouvelle v.a. On peut calculer sa loi de probabilité. Dans certains cas, il y a des formules simples qui donnent la f.r. (ou la densité de Y, si celle-ci existe) à partir de celle de X. 13 11.1 CHANGEMENT DE VARIABLE Soit F la f.r. de la v.a. X. On suppose que l’intervalle I est l’intervalle de variations de F (I.e. F est strictement croissante sur I et constante en dehors de I). Soit h une application réelle qui est strictement croissante et continue sur I. Nous avons alors les propositions suivantes. 11.1.1 Proposition Soit Y=h(X), ou X, h satisfont les conditions ci-dessus. Alors la f.r. G de Y vaut : G(y) = F(h-1(y)) 11.1.2 Corollaire Si U est une v.a. uniforme tirée dans [0, 1] et la f.r F satisfait la condition ci-dessus, alors la v.a. X=F-1(U) admet la f.r. F. 11.1.3 Une application en simulation Pour simuler des évènements qui arrivent de façon aléatoire, nous avons besoin de générer des v.a. suivant une distribution donnée. Il arrive souvent qu’une source de génération uniforme soit disponible. Ce corollaire nous permet de construire une v.a. X à partir d’une v.a. uniformément tirée ans [0, 1]. Sous certaines hypothèses supplémentaires, on pourra calculer directement la densité de Y=h(X). 11.1.4 Proposition Reconsidérons les hypothèses de la proposition précédente et supposons que, de plus, X admette une densité f(x) sur I et que h soit continûment dérivable sur I. Alors Y=h(X) admet la densité :g(y) = [h-1]’(y) . f[ h-1(y) ]. 11.1.4.1 Exemple 1 Soit X une v.a. uniforme sur [0, 1]. Trouver la densité de Y=Arcsin(X). Solution : On vérifie facilement que l’on est dans les conditions de l’application de la proposition précédente pour I=[0, 1]. On démontre alors que Y admet la densité : g(y)=cos(y), y [0, /2]. 11.1.4.2 Exemple 2 Disposant d’une source de génération uniforme dans l’intervalle [0, 1], comment peut-on générer des v.a. exponentielles de paramètres >0 ? Solution : Soit U une v.a. uniforme sur [0, 1]. Le corollaire précédent confirme que X=ln(1-u)/(-) est une v.a. de f.r. : F(x) = Pr(X x) = 1-e-x , x 0. 11.2 SOMME DES VARIABLES ALEATOIRES INDEPENDANTES Nous avons vu que la f.c. d’une somme de v.a. indépendantes est le produit des v.a. Cette propriété permet de transformer le calcul sur la somme en un calcul sur les f.c. A titre d’exemple, nous allons démontrer que la somme de deux v.a. normales indépendantes est encore une v.a. normale. 11.2.1 Théorème Soit X une v.a. normale de type N(m1, 1) et Y une autre v.a. normale de type N(m2, 2). Alors la v.a. Z=X+Y est une v.a. normale de type N(m1+m2, 1 ² 2 ² ). Il arrive toutefois que le calcul des f.c. ou l’inversion de la transformation soit difficile et qu’un calcul direct sur les f.r. (ou sur les densités) soit plus simple. La proposition suivante peut dans certains cas simplifier le calcul de la distribution de la somme de deux v.a. indépendantes. 11.2.2 Proposition Soient X et Y deux v.a. indépendantes admettant les densites f X et fY respectivement. Alors la v.a. Z=X+Y admet la densité : f Z ( z ) f X ( x) f Y ( z x)dx . 14 11.2.2.1 Exemple Trouver la densité de la somme de deux v.a. indépendantes et uniformément tirées dans [0, 1]. 11.2.2.2 Solution Si les v.a. X et Y sont uniformes dans l’intervalle unitaire, elles ont toutes les deux la densité 1 [0, 1]. Etant par ailleurs indépendantes, la proposition ci dessus s’applique à leur somme Z qui sera donc de densité : g ( z ) 1[0,1] ( x).1[0,1] ( z x)dx . L’expression à intégrer vaut 1 si l’on a simultanément 0 x 1 et 0 z – x 1 et 0 sinon. Nous sommes ramenés à considérer deux cas pour z : Si 0 z 1, ces deux conditions sont satisfaites 0 x z, et z g ( z ) dx z . Si 1 z 2, ces deux conditions sont satisfaites z – 1 x 1 et 0 1 dx 2 z . z 1 12 QUELQUES LOIS UTILES EN STATISTIQUE Nous présentons dans la suite deux lois qui interviennent couramment en tests statistiques. 12.1 LOI DU KHI-DEUX 12.1.1 Définition k La somme des carrés X i 1 i ² de k v.a. normales indépendantes, centrées réduites est une v.a. qui suit une loi du 2 à k degrés de liberté. Cette v.a. est désignée par k². Dans le cas où k=1, la v.a. suit une loi du 2 à 1 degré de liberté et elle est le carré d’une v.a. de type N(0, 1). Elle admet la densité : f ( x) 1 2x x 2 e ,x 0. 12.1.2 Proposition Nous admettons la proposition suivante sur la loi du 2. Soit une v.a. k². Alors : Sa densité est : f ( x) 1 k 2 k 2 ( ) 2 x 2 e x k 1 2 ,x 0. 15 1 (t ) E (e it ) 2 k Sa f.c. est donnée par : Son espérance vaut k et sa variance 2k. (1 2it ) k 2 . 12.2 LOI DE STUDENT 12.2.1 Définition On appelle loi de Student à k degré de liberté la loi du quotient X , ou X et Zk sont deux v.a. Zk / k indépendantes, la première suivant une loi normale centrée réduite et la seconde une loi du 2 à k degrés de liberté. Cette loi est notée tk. 12.2.2 Proposition Nous admettons la proposition suivante à propos de la loi de Student. Pour une loi de Student, nous avons : k 1 ) k 1 x² 2 La densité de la loi tk vaut : f ( x) .(1 ) 2 . k k ( ) k 2 ( Son espérance est 0 et sa variance vaut : k/(k-2). 16