Université Mentouri Constantine Département de Mathématiques Laboratoire MMS Ecole Doctorale de Mathématique Introduction à la Théorie du Calcul des Probabilités Dr. Meghlaoui Dakhmouche Table des matières I Introduction aux modèles de probabilité 1 Dé…nitions de base et rappels 1.1 Probabilité discrète . . . . . . . . . . . . . . . . . . . . . . . 1.1.1 Moyenne ou espérance mathématique des distributions discrètes . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Probabilité continue . . . . . . . . . . . . . . . . . . . . . . 1.2.1 Moyenne ou espérance mathématique . . . . . . . . . 1.2.2 Quelques rappels utiles . . . . . . . . . . . . . . . . . 1.2.3 Transformation en coordonnées polaires (d = 2) : . . 1.2.4 Transformation linéaire . . . . . . . . . . . . . . . . . 1.2.5 Quelques remarques utiles . . . . . . . . . . . . . . . 2 Probabilités et espérances mathématiques 2.1 Propriétés des probabilités . . . . . . . . . . . . . . . . . . . 2.1.1 Ensembles négligeables . . . . . . . . . . . . . . . . . 2.1.2 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Propriétés des espérances . . . . . . . . . . . . . . . . . . . . 2.3 Cas d’égalité des probabilités . . . . . . . . . . . . . . . . . 2.3.1 Egalité sur les pavés fermés (1er cas) . . . . . . . . . 2.3.2 Egalité sur les fonctions à support compact 2eme cas 2.3.3 Egalité sur les transformées de Fourier 3eme cas . . 2.3.4 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Propriété fondamentale de la transformée de Fourier . . . . . 2.4.1 Cas particuliers . . . . . . . . . . . . . . . . . . . . . 2 . 3 3 . . . . . . . 4 5 6 7 8 8 9 . . . . . . . . . . 10 10 10 10 11 12 12 13 14 14 15 16 3 Variables aléatoires 17 3.1 Variables aléatoires réelles . . . . . . . . . . . . . . . . . . . . 17 1 3.2 Variables aléatoires vectorielles . . . . . . . . . . . 3.2.1 Moyenne et dispersion d’un vecteur aléatoire 3.2.2 Notations . . . . . . . . . . . . . . . . . . . 3.2.3 Critères d’indépendance . . . . . . . . . . . 3.2.4 Exemple d’application de la proposition (69) 4 Modèles de probabilité 4.1 Introduction . . . . . . . . . . . 4.1.1 Exemple 1 : . . . . . . . 4.1.2 Exemple 2 : . . . . . . . 4.2 Dé…nition d’un modèle produit 4.2.1 Propriétés . . . . . . . . 4.2.2 Cas particulier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Calcul de loi dans les modèles produits 5.1 Loi d’une fonction de deux v.a. indépendantes . . . . 5.2 Loi de la somme de deux v.a. indépendantes . . . . . 5.2.1 Application . . . . . . . . . . . . . . . . . . . 5.3 Modèle de suite de variables aléatoires indépendantes II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 25 26 26 27 . . . . . . 30 30 30 32 33 33 33 . . . . 35 35 36 36 37 Les distributions de probabilité remarquables 6 Distribution de Laplace-Gauss 6.1 Loi de Gauss à une dimension . . . . . . . . . . . . . . 6.1.1 Propriété . . . . . . . . . . . . . . . . . . . . . 6.1.2 Moments particuliers . . . . . . . . . . . . . . . 6.1.3 Fonction caractéristique . . . . . . . . . . . . . 6.2 Loi normale quelconque . . . . . . . . . . . . . . . . . 6.3 Loi de Gauss bidimensionnelle . . . . . . . . . . . . . . 6.3.1 Loi de Gauss bidimensionnelle centrée . . . . . 6.3.2 Propriétés d’un couple gaussien (X1 ; X2 ) . . . . 6.3.3 Loi de Gauss bidimensionnelle centrée et réduite 6.3.4 Lois de Gauss conditionnelles . . . . . . . . . . 6.3.5 Loi de Gauss bidimensionnelle quelconque . . . 6.4 Loi de Gauss de dimension p . . . . . . . . . . . . . . . 6.4.1 Cas général . . . . . . . . . . . . . . . . . . . . 2 . . . . . . . . . . . . . . . . . . . . . . . . . . 39 . . . . . . . . . . . . . . . . . . . . . . . . . . 40 40 41 41 42 43 44 44 47 50 52 53 53 54 7 Les distributions d’échantillonnage 7.1 Distribution Gamma . . . . . . . . . . . . . . . . 7.1.1 Propriétés de la loi Gamma . . . . . . . . 7.2 Distribution Bêta . . . . . . . . . . . . . . . . . . 7.2.1 Propriétés de la distribution Béta . . . . . 7.3 Distribution du 2 . . . . . . . . . . . . . . . . . 7.3.1 Propriétés de la distribution d’un 2(n) . . . 7.4 Distribution de Student . . . . . . . . . . . . . . 7.4.1 Propriétés de la distribution de Student 7.5 Distribution de Fisher-Snédécor ou distribution F 7.5.1 Propriétés de la distribution de Fisher . . 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 60 61 62 63 66 67 70 72 74 76 Première partie Introduction aux modèles de probabilité 4 Chapitre 1 Dé…nitions de base et rappels Il a été établi dans les cours précédents qu’à une expérience aléatoire E dont chaque résultat est décrit par d nombres, nous avons associés un modèle probabiliste, l’espace Rd ; P . Dans ce qui suit nous allons essayer de préciser la nature mathématique de P . Dans le cours d’analyse nous avons étudié les fonctions sur Rd de façon générale, alors nous allons étudier les probabilités sur Rd de façon aussi générale que nécessaire pour les applications qui suivront. De…nition 1 On appelle pavé de Rd un produit d’intervalles (…nis ou in…nis) n O (ai ; bi ). Si les intervalles sont ouverts (resp. fermés) le pavé est dit ouvert i=1 (resp. fermé). De…nition 2 On appelle fonction continue à support compact sur Rd une fonction continue de Rd dans R nulle en dehors d’un pavé fermé borné (i.e. produit d’intervalles fermés …nis). 1.1 Probabilité discrète De…nition 3 On appelle probabilité discrète P sur Rd la donnée d’une fonction f , appelée densité, de Rd dans R+ , nulle sauf sur un ensemble au plus dénombrable de points, appelé support de P , noté S et telle que : X f (x) = 1 x2S 5 X Remarque 4 La somme , qui est étendue à tous les x pour lesquels f (x) 6= 0, a bien un sens car S est dénombrable et si x 2 S; f (x) > 0. De…nition 5 Soit B nombre : Rd , on appelle probabilité de B et on note P (B) le X f (x) x2B\S Example 6 Loi binomiale : d = 1 : 0 f0; 1; 2; :::; ng : f (x) = Cnx px (1 Loi poisson : d = 1 : p)n p x 1, n entier …xé et S = pour x 2 S > 0 …xé, S = N : x f (x) = e 1.1.1 x! pour x 2 N Moyenne ou espérance mathématique des distributions discrètes De…nition 7 Considérons un espace de probabilité Rd ; B; P où P admet f pour densité de probabilité de support S. Soit h une fonction de Rd dans R, on appelle X moyenne ou espérance mathématique de h et on note E(h) le nombre h(x)f (x) s’il existe. x2S Remarque 8 Si S est …ni, X h(x)f (x) a un sens pour h quelconque. Mais x2S si S est dénombrable, comme il n’X est pas muni d’un ordre particulier, E(h) ne peut être dé…nie que si la série h(x)f (x) converge vers la même limite x2S quel que soit l’ordre dans lequel on e¤ectue la somme (séries commutativement ne dé…nirons E(h) que si la série X convergentes). C’est pourquoi nous X jh(x)j f (x) converge (on sait qu’alors h(x)f (x) est commutativement x2S x2S convergente). 6 Example 9 1) Considérons la loi binomiale de support S = f0; 1; 2; :::; ng et de densité : f (x) = Cnx px (1 p)n x pour x 2 S Soit la fonction h : x ! x, alors : E(h) = n X h(x)f (x) = x=0 n X xCnx px (1 p)n x = np x=0 Soit la fonction h : x ! x2 , alors : E(h) = n X h(x)f (x) = x=0 n X x2 Cnx px (1 p)n x = np(1 p) + (np)2 x=0 2) Considérons la loi de Poisson de support S = N et de densité : x f (x) = e x! pour x 2 N Soit la fonction h : x ! x, alors : n X E(h) = h(x)f (x) = x=0 1 X x xe x! x=0 = Soit la fonction h : x ! x2 , alors : E(h) = n X h(x)f (x) = x=0 1.2 1 X x 2 xe x=0 x! = ( + 1) Probabilité continue De…nition 10 On appelle probabilité continue P sur Rd , la donnée d’une fonction f appelée densité, dé…nie de Rd dans R+ , nulle en dehors d’un pavé n O ouvert ]ai ; bi [, appelé support de P , noté S, continue sur ce pavé et telle que : i=1 Z ::: Z f (x1 ; x2 ; :::; xd )dx1 dx2 :::dxd = 1 Rd 7 Example 11 Loi exponentielle : d = 1, f (x) = Loi uniforme : d quelconque : 8 > < 1 f (x) = > : 0 1.2.1 x e 0 > 0 …xé : si x > 0 sinon si x 2 d Y ]0; 1[ i=1 sinon Moyenne ou espérance mathématique De…nition 12 Soit B Rd un sous-ensemble dont on sait calculer le volume, on appelle probabilité de B et on note P (B) l’intégrale : Z Z ::: f (x1 ; x2 ; :::; xd )dx1 dx2 :::dxd B Pratiquement B sera toujours un pavé, une …gure de Rd limitée par des hyperplans ou une portion de sphère. De…nition 13 Considérons un espace de probabilité Rd ; B; P où P admet f pour densité de probabilité de support S. Soit h : Rd ! R une fonction intégrable, on appelle moyenne ou espérance mathématique de h et on note E(h), la quantité si elle a un sens dé…nie telle que : Z Z E(h) = ::: h(x1 ; x2 ; :::; xd )f (x1 ; x2 ; :::; xd )dx1 dx2 :::dxd Rd R R E(h) se note aussi hdP ou Rd h(x)dP (x) ou Rd h(x1 ; x2 ; :::; xd )dP (x1 ; x2 ; :::; xd ). Dans la pratique, h sera très souvent une fonction à support compact. R Example 14 1) Considérons la loi exponentielle de densité : f (x) = x e 0 si x > 0 sinon Soit la fonction h : x ! x, alors : Z Z E(h) = h(x)f (x)dx = R 0 8 1 x e x dx = 1 Soit la fonction h : x ! x2 , alors : Z Z E(h) = h(x)f (x)dx = 1 x x2 e dx = 2 2 0 R 2) Considérons la loi normale de densité : 1 f (x) = p e 2 1 (x 2 2 Soit la fonction h : x ! x, alors : Z Z E(h) = h(x)f (x)dx = R 1 0 )2 x p e 2 Soit la fonction h : x ! x2 , alors : Z 1 Z x2 p e h(x)f (x)dx = E(h) = 2 0 R 1.2.2 x2R 1 (x 2 2 1 (x 2 2 )2 )2 dx = dx = 2 + 2 Quelques rappels utiles L’intégration des fonctions continues sur Rd est supposée connue même lorsque les bornes sont in…nies (intégrales généralisées). – On admet dans le cas des fonctions positives ou intégrables la formule de calcul des intégrales multiples par intégration successives : par exemple dans le cas d = 2, si f est positive, on admet que (théorème de Fubini) : Z +1 Z +1 Z +1 Z +1 Z +1 Z +1 f (x; y)dxdy = dx f (x; y)dy = dy f (x; y)dx 1 1 1 1 1 1 – On admet la formule de changement de variables dans Rd : dans la pratique elle sera toujours d’application simple, il su¢ t de se rappeler le cas d = 1 (changement de variable dans une intégrale simple). On connait bien la formule : Z b Z u 1 (b) f (y)dy = f fu(x)g u0 (x)dx a u 1 (a) Il su¢ t alors d’admettre que lorsque u est injective et su¢ samment régulière de Rd dans Rd on a : Z Z Du(x) ::: f fu(x1 ; x2 ; :::; xd )g dx1 dx2 :::dxd Dx u 1 (A) 9 est le déterminant de la matrice d d que l’on appelle le où Du(x) Dx Jacobien de u, et dont le terme de rang (i; j) est @u@xi (x) où ui désigne la j eme d d i coordonnée de l’application u de R dans R . En fait on sera toujours dans les deux cas suivants : 1.2.3 Transformation en coordonnées polaires (d = 2) : Considérons la transformation : x = cos y = sin u( ; ) = et Du ( ; ) = D( ; ) d’où Z Z cos sin f (x; y)dxdy = A 1.2.4 sin cos Z Z u1 ( ; ) u2 ( ; ) = cos2 = sin2 = = f ( cos ; sin ) d d u 1 (A) Transformation linéaire Soit u est une application linéaire inversible de Rd dans Rd . Elle est alors donnée par sa matrice (aij ) 1 i d exprimée dans la base canonique de Rd , et 1 j d de déterminant 6= 0, alors : Z Z Z Z ::: f (y1 ; y2 ; :::; yd )dy1 dy2 :::dyd = ::: u A 1 (A) f fu(x1 ; x2 ; :::; xd )g j j dx1 dx2 :::dxd – On admet le théorème de convergence suivant : Cas d = 1 : Si fn (x) ! f (x) uniformément pour x 2 [a; b], alors : n!1 Z a b fn (x)dx ! n!1 Z b f (x)dx a Cas d quelconque : Si fn (x) ! f (x) uniformément pour x dans un n!1 pavé fermé borné A, alors : Z Z Z Z ::: fn (x1 ; x2 ; :::; xd )dx1 dx2 :::dxd ! ::: f (x1 ; x2 ; :::; xd )dx1 dx2 :::dxd n!1 A 10 A – En…n, on admet l’inégalité fondamentale : Z Z f (x)dx jf (x)j dx valable en dimension quelconque. 1.2.5 Quelques remarques utiles Remarque 15 1) Nous imposons à la densité f (x) d’être nulle en dehors d’un pavé ouvert, en fait ses valeurs aux frontières du pavé ne nous intéressent pas, car en calcul des probabilités la densité ne sert qu’à intégrer et l’intégrale ne change pas si l’on change les valeurs de f sur un ensemble de volume nul, par exemple si : 1 pour x 2 [0; 1] f1 (x) = 0 sinon et si : f2 (x) = 0 1 pour x 2 ]0; 1[ sinon pour toute fonction continue h : R ! R on a : Z +1 Z +1 Z h(x)f1 (x)dx = h(x)f2 (x)dx = 1 1 1 h(x)dx 0 2) Nous imposons d’autre part au support de f d’être un pavé. Nous aurions pu lui permettre d’être une sphère ou une réunion disjointe de pavés par exemple, mais pour les applications qui suivent nous n’en avons pas besoin, aussi par souci de simplicité nous convenons que seuls les pavés sont intéressants. 11 Chapitre 2 Probabilités et espérances mathématiques 2.1 2.1.1 Propriétés des probabilités Ensembles négligeables De…nition 16 Soit Rd ; P un espace de probabilité (discret ou continu). On appelle ensemble négligeable un sous-ensemble B de Rd tel que P (B) = 0. Example 17 Soit d = 1 et P une probabilité continue quelconque, alors tout point est négligeable (car de longueur nulle). Soit d = 2 et P une probabilité continue quelconque, alors toute droite est négligeable (car de surface nulle). Soit d quelconque et P une probabilité quelconque de support S, alors tout B tel que B \ S = ? est négligeable. Remarque 18 Souvent dans la suite au lieu de l’espace de probabilité Rd ; P on considérera l’espace équivalent (S; P ) ou ( ; P ) avec S Rd . Tous les sous-ensembles B de Rd disjoints de (ou de S) sont négligeables et n’apportent aucune information sur l’expérience aléatoire E. 2.1.2 Propriétés – Soit Rd ; P un espace de probabilité (discret ou continu). Si B1 et B2 Rd , B1 \ B2 = ?, alors P (B1 [ B2 ) = P (B1 ) + P (B2 ) dès que 12 l’on sait donner un sens aux deux membres de l’égalité. – De même, si B1 et B2 Rd : P (B1 [ B2 ) P (B1 ) + P (B2 ) dès que cette égalité a un sens. – P (Rd ) = 1 et si P (B) existe alors 0 P (B) 1. De…nition 19 Un sous-ensemble B de Rd est dit mesurable ou probabilisable si l’on sait donner un sens à P (B) (soit qu’on sache le calculer soit qu’il soit donné par une table). Proposition 20 Si B1 et B2 sont probabilisables , B1 [ B2 et B1 \ B2 le sont aussi. Si B est probabilisable, son complémentaire B l’est aussi et P (B) = 1 P (B). 2.2 Propriétés des espérances De…nition 21 Une fonction h : Rd ! Rd est dite intégrable dans l’espace de probabilité Rd ; P si E(jhj) existe (soit dans une table soit qu’on sache la calculer) et que sa valeur soit …nie. Proposition 22 Si h1 et h2 sont intégrables, h1 + h2 l’est aussi et : E (h1 + h2 ) = E(h1 ) + E (h2 ) Proposition 23 Si h est intégrable et si 2 R, alors h est intégrable et E( h) = E(h). Si h est intégrable alors jE(h)j E(jhj). Remarque 24 La fonction 1 : x E(1) = P (Rd ) = 1. ! 1 de Rd dans R est intégrable et Proposition 25 Soit Rd ; P un espace de probabilité continu de densité f . Alors, toute fonction continue bornée de Rd dans R est intégrable. Démonstration : Soit h une fonction continue bornée h de Rd dans R. Alors, pour une constante K > 0 …xée, elle véri…e jh(x)j K pour tout x 2 Rd . Comme f est positive, on a alors jh(x)f (x)j Kf (x), d’où : E(jh(x)j) E(K:1) = KE(1) = K < +1 13 Corollaire 26 Une fonction continue à support compact sur Rd est bornée donc intégrable. Mais par contre, une fonction continue n’est pas en général intégrable. Par 1 appliexemple, si on considère la densité de probabilité f (x) = 1 1+x 2 , alors l’ cation identique de R, h : x ! x, est telle que : Z +1 Z +1 1 1 1 x jxj E (jhj) = dx = dx 2 1+x 1 + x2 1 0 qui est une intégrale divergente ( 2.3 1 x à l’in…ni). Cas d’égalité des probabilités Souvent dans la suite nous utiliserons les critères suivants : 2.3.1 Egalité sur les pavés fermés (1er cas) Proposition 27 Soient P1 et P2 deux probabilités sur Rd . Si pour tout pavé B de Rd on a P1 (B) = P2 (B) alors P1 = P2 , i.e. que P1 et P2 ont même densité et même support. Démonstration : Le cas discret est évident puisque les points sont des pavés fermés particuliers et que si a 2 S alors P (fag) = f (a). Supposons que P1 et P2 soient toutes deux continues de densités respectives f1 et f2 . Pour simpli…er l’écriture nous ne considérerons que le cas d = 1. Supposons que le support de P1 = le support de P2 = R. Si f1 6= f2 alors il existe au moins un point x 2 R / f1 (x) > f2 (x). Comme f1 et f2 sont continues, alors f1 f2 l’est aussi, donc sur un intervalle ]a; b[ il existe x tel que f1 (x) f2 (x) " > 0, d’où Z b (f1 (x) f2 (x)) dx " (b a) > 0 a Rb Rb qui contredit l’hypothèse P1 ([a; b]) = P2 ([a; b]) i.e. a f1 (x)dx = a f2 (x)dx Rb soit a (f1 (x) f2 (x)) dx = 0. Les autres cas se traitent de façon semblable ou évidente. 14 2.3.2 Egalité sur les fonctions à support compact 2eme cas Proposition 28 Soient P1 et P2 deux probabilités sur RRd . Si pourR toute fonction continue à support compact h dé…nie sur Rd , on a hdP1 = hdP2 alors P 1 = P2 . Démonstration : Considérons P1 et P2 deux mesures de probabilité continues de support R: Soient f1 et f2 les densités respectives de P1 et P2 . Si f1 6= f2 , alors il existe au moins un point x 2 R / f1 (x) > f2 (x). Comme f1 et f2 sont continues, alors f1 f2 l’est aussi, donc sur un intervalle ]a; b[, il existe x tel que f1 (x) f2 (x) " > 0. Il su¢ t alors de considérer la fonction continue et à support compact h dé…nie sur R telle que : 8 0 si x < a > > > > < x a si a x < c k si c < x d h(x) = > > x + b si d < x b > > : 0 si x > b avec a < c < d < b. Ainsi Z h(x) (f1 (x) f2 (x)) dx > (d c) " > 0 ce qui contredit l’hypothèse que Z Z h(x)f1 (x)dx = h(x)f2 (x)dx Corollaire 29 On aura la même proposition en remplaçant "toute fonction continue à support compact" "toute fonction du type h (x1 ; x2 ; :::; xd ) = h1 (x1 ) h2 (x2 ) :::hd (xd ) où les hi sont des fonctions à support compact sur R". 15 Egalité sur les transformées de Fourier 3eme cas 2.3.3 Une probabilité n’est pas un objet simple. C’est en fait un "opérateur" qui associe, à des ensembles et à des fonctions, des nombres (respectivement leur probabilité et leur moyenne). D’autre part, les deux cas d’égalité précédents, bien que très utiles, sont d’apparence compliqués. Les mathématiciens ont eu l’idée d’associer à toute probabilité une fonction qui la représente parfaitement, la transformée de Fourier. De…nition 30 Soit Rd ; P un espace de probabilité. On appelle transformée de Fourier de P la fonction de Rd dans C, notée Pb, dé…nie telle que : Z ei(t1 x1 ;t2 x2 ;:::;td xd ) dP (t1 ; t2 ; :::; td ) Pb (t1 ; t2 ; :::; td ) = Rd 2.3.4 Propriétés – Pb est une fonction continue. – Pb (0; 0; :::; 0) = E(1) = 1 – Pb (t1 ; t2 ; :::; td ) 1 Example 31 1) Cas continu : Considérons le cas d = 1. Si P est continue de support R et de densité f , la transformée de Fourier de P est alors la fonction : Z +1 Z +1 Z +1 itx Pb(t) = e f (x)dx = cos (tx) f (x)dx + i sin(tx)f (x)dx 1 1 1 Malheureusement le calcul des transformées de Fourier dans le cas continu ne se fait simplement que par intégration dans le plan complexe. La plus part du temps nous nous contenterons d’admettre le résultat. Cependant quelques cas se traitent facilement, en e¤et : * Loi uniforme : f (x) = alors Z + 12 itx e dx = 1 2 Z 1 si x 2 0 ailleurs + 12 cos (tx) dx + i 1 2 Z 16 1 1 ; 2 2 + 21 sin(tx)dx = 1 2 Z + 12 cos (tx) dx 1 2 car le sinus est une fonction impaire et donc son intégrale sur un intervalle symétrique est donc nulle. D’où Z + 12 eitx dx = t 2 sin t 2 1 2 2) Cas discret : * Loi binomiale : f (x) = Cnx px (1 p)n x 0 x n Alors, sa transformée de Fourier est telle que : Z itx e f (x)dx = n X eitx Cnx px (1 p)n x = peit + 1 p n x=0 * Loi de Poisson : x x2N x! Alors, sa transformée de Fourier est telle que : f (x) = e Z 2.4 itx e f (x)dx = 1 X x eitx e x=0 x! = e (1 eit ) Propriété fondamentale de la transformée de Fourier c1 = P c2 alors P1 = P2 . Proposition 32 Si P Autrement dit la transformée de Fourier caractérise la probabilité. Démonstration : On sait que toute fonction continue à support compact est approchable uniformément par des polynômes trigonométriques du n X type ak eixtk . k=1 Soient P1 et P2 deux probabilités continues de support R, et soit h une fonction continue à support compact, nulle en dehors de l’intervalle [a; b] ; alors 17 h(x) = limhn (x) uniformément, où hn (x) = n X ank eixtk . k2K(n) R R c1 = P c2 , alors hn dP1 = hn dP2 car : Par hypothèse P Z Z Z X X ixtk ank eixtk f1 (x)dx ank e dP1 (x) = hn dP1 = Z X Z X ixtk ank eixtk f2 (x)dx = ank e f2 (x)dx = Z = hn dP2 Comme la limite est uniforme et que h est à support Rcompact, on R peut passer à la limite sous le signe intégrale, par conséquent hdP1 = hdP2 et on applique le cas d’égalité sur les fonctions à support compact. 2.4.1 Cas particuliers 1) Soit une probabilité discrète sur R de densité f et de support S = N, 1 X f (x)eitx . Plutôt que b (t), alors sa transformée de Fourier est b (t) = x=0 1 X souvent on considère la fonction entière g(s) = n=0 f (n)sn pour jsj 1, qui coïncide avec b (t) pours s = eit et qu’on appelle fonction génératrice des moment de . 2) Soit une probabilité continue sur R de densité f et de support S = fx= x > 0g, plutôt que b (t) on considère la fonction de R+ dans R+ dé…nie telle que : Z L( ) = 1 e x f (x)dx 0 La fonction L joue le même rôle que la transformée de Fourier et possède en outre des propriétés plus …nes, on l’appelle transformée de Laplace de . 18 Chapitre 3 Variables aléatoires 3.1 Variables aléatoires réelles De…nition 33 Soit E une expérience aléatoire de modèle Rd ; P . On appelle variable aléatoire (v.a.) liée à E toute application Y de Rd dans R véri…ant la propriété suivante : il existe une probabilité Y sur R (discrète ou continue) de densité fY telle que pour toutes valeurs réelles a; b, a < b, on ait : P (fx= a Y (x) bg) = Proposition 34 S’il existe une probabilité elle est unique. Y Y ([a; b]) (3.1) véri…ant (3:1) pour tout a; b, Démonstration : Appliquer le cas d’égalité des probabilités sur les pavés fermés (1er cas). De…nition 35 Y s’appelle loi de probabilité ou loi de Y . La transformée de Fourier c Y de Y est appelée fonction caractéristique de Y , notée 'Y (t), et est dé…nie telle que : Z 'Y (t) = c eity d Y (y) Y (t) = Proposition 36 Deux v.a. de même fonction caractéristique, ont la même loi. Démonstration : Appliquer le 3eme cas d’égalité des probabilités. 19 De…nition 37 La fonction FY (x) dé…nie pour tout x 2 R telle que : FY (x) = Y (] 1; x]) = P ! 2 Rd /Y (!) x est appelée fonction de répartition de la variable aléatoire Y . Proposition 38 Deux v.a. ayant la même fonction de répartition ont la même loi. Démonstration : 1) Considérons R xla loi Y continue sur R et de support R. On a alors par dé…nition FY (x) = 1 fY (u)du ; comme fY (u) est continue sur R, FY (x) est partout dérivable et de dérivée fY (x), donc FY (x) détermine bien fY (sa dérivée) donc Y . Dans le cas où Y est continue et de support ]a; b[, on a : 8 si x a < R 0 x f (u)du si a < x < b FY (x) = Y : a 1 si x b FY (x) détermine donc bien le support ]a; b[ de 0 Y sur ]a; b[ est égale à FY (x). Y. Par ailleurs, la densité de Example 39 Considérons l’espace Rd ; P sur lequel on dé…nit : * Les constantes : X Considérons l’application (x1 ; x2 ; :::; xd ) ! a, a …xé dans R. Alors la loi de la v.a. X est discrète et de densité fX (x) dé…nie telle que : fX (x) = 0 si x 6= a 1 si x = a Son support est S = fag. Une telle mesure s’appelle la mesure de Dirac en a en général noté a où est le symbole de Kronecker. * Les projections : On dé…nit comme à l’accoutumée les d projections de Rd à savoir : X 1 (x1 ; x2 ; :::; xd ) ! x1 X2 (x1 ; x2 ; :::; xd ) ! x2 ::::::::::::::::::::: X d (x1 ; x2 ; :::; xd ) ! xd 20 Proposition 40 Les applications Xi (1 i d) sont des v.a. de densité : X fXi (x) = f (x1 ; :::; xi 1 ; x; xi+1 ; :::; xd ) (x1 ;:::;xi 1 ;x;xi+1 ;:::;xd )2S x …xé dans R si P est discrète. Z Z fXi (x) = ::: f (x1 ; :::; xi 1 ; x; xi+1 ; :::; xd ) dx1 ::dxi 1 dxdxi+1 ::dxd Rd 1 si P est continue. Démonstration : Il su¢ t d’écrire dans les deux cas : P ! 2 Rd / a Xi (!) b Remarque 41 1) Soit (R; P ) l’espace de probabilité de densité uniforme dé…nie telle que : 1 si 0 < x < 1 f (x) = 0 sinon Soit Y une v.a. de R ! R dé…nie telle que : Y (x) = 0 si x 1 si x > 1 2 1 2 Alors Y est une v.a. de loi discrète de support f0; 1g et de densité : fY (0) = P fx /Y (x) = 0g = 1 = P fx /Y (x) = 1g = fY (1) 2 C’est donc la loi de Bernoulli. Donc une variable aléatoire liée à un modèle continu peut être de loi discrète. 2) Par contre si l’espace Rd ; P est discret, toute application de Rd dans R est une v.a. de loi discrète. En e¤et, soit X cette application et soit S le support (au plus dénombrable) de P , alors le support de X est X(S) et : fX (x) = P (f! / X(!) = x g) si x 2 X(S) 0 sinon Notation : Dans la suite, nous noterons très souvent P (a lieu de P (fx / a Y (x) b g). 21 Y b) ou P (Y 2 [a; b]) au Théorème 42 Soit Y une v.a. de loi Y liée au modèle Rd ; P une fonction continue à support compact de R dans R, alors : Z Z h(Y )dP = hd Y et soit h Démonstration : On considère le cas où P et Y sont continues. Puisque h est continue à support compact, on sait qu’elle est limite uniforme de fonctions en escalier. Par passage à la limite sous le signe intégrale, on se ramène au cas d’une fonction en escalier et même au cas d’une seule "marche" par le procédé déjà employé plus haut proposition (32). Il su¢ t donc de R R 1 si x 2 [a; b] montrer que si h(x) = , alors h(Y )dP = hd Y , i.e. 0 ailleurs Z ::: Z h [Y (x1 ; x2 ; :::; xd )] f (x1 ; x2 ; :::; xd ) dx1 dx2 :::dxd = Rd Z +1 h(y)fY (y)dy 1 Or la première intégrale se réduit à : Z Z f (x1 ; x2 ; :::; xd ) dx1 dx2 :::dxd = P fY 2 [a; b]g ::: fx/ Y (x)2[a;b] g Par ailleurs P fY 2 [a; b]g = Y ([a; b]) = Z b fY (y)dy = a Z +1 h(y)fY (y)dy 1 Les autres cas se traitent de façon analogue. Remarque 43 On peut démontrer que si h est une fonction de R dans R intégrable pour Y , alors h(Y ) est intégrable dans Rd ; P et on a l’égalité du théorème (42). Et inversement , si h(Y ) est intégrable dans Rd ; P , h l’est aussi dans (R; Y ) et on a l’égalité du théorème (42). R Corollaire 44 Soit Y une v.a. sur Rd ; P de loi Y , si E (jY j) = jY j dP < 1, alors : Z Z +1 Y dP = yd Y (y) 1 Ce nombre s’appelle espérance mathématique ou moyenne de la v.a. Y et se note E(Y ). 22 Corollaire 45 Soit Y une v.a. sur Rd ; P de loi Y , alors : Z itY = eitY dP bY (t) = E e Corollaire 46 Soit Y un v.a. de loi continue Y de densité fY , si pour toute fonction continue à support compact h de R dans R : Z +1 h(y)g(y)dy E [h (Y )] = 1 où g(y) est une densité de probabilité sur R, alors fY = g. Remarque 47 La condition "g(y) densité de probabilité" sera automatiquement véri…ée si on a g(y) 0, et si on montre que l’égalité du corollaire est valable également pour les fonctions continues bornées et en particulier pour la fonction 1 : x ! 1, on aura toujours : Z +1 g(y)dy = E [1(Y )] = E [1] = 1 1 Dans la pratique nous seront toujours dans ce cas. Example 48 1) Considérons le modèle (R; P ), et soit la v.a. X de densité f (x) uniforme sur ; , i.e. 2 2 1 f (x) = si sinon 0 2 <x< 2 R +1 f (x) est bien une densité de probabilité puisque f (x) 0 et 1 f (x)dx = R 1 +2 dx = 1. 2 Considérons l’application Y : R ! R dé…nie par x ! y = tg(x). On remarque que Y n’est pas dé…nie aux points (2k + 1) , mais seul l’intervalle ; + 2 nous intéresse et sur cet intervalle Y a bien un sens. Le calcul de 2 la loi de Y est bien possible. Soit h une fonction continue à support compact, alors : E [h(Y )] = Z h(Y )dP = Z +1 h [Y (x)] f (x)dx = 1 23 Z +2 2 1 h [tg(x)] dx dy On procède au changement de variable y = tg(x) avec dx = 1+y 2 , il vient alors : Z +1 dy h(y) E [h(Y )] = (1 + y 2 ) 1 R +1 dy R 1 +2 Or 1 (1+y dx = 1, donc la loi de Y est la loi de Cauchy de 2) = 2 1 support R et de densité égale à (1+y 2) . 1 2 2) Considérons le modèle (R; P ) de densité gaussienne f (x) = p12 e 2 x dé…nie sur R, et soit l’application Y : x ! x2 . Calculons la loi de v.a. Y = X 2 . Soit h une fonction continue à support compact, alors : Z +1 1 2 1 E [h(Y )] = h(x2 ) p e 2 x dx 2 1 Posons x2 = y avec dx = dy 1p , 2 y alors E [h(Y )] = Z y +1 1 e 2 h(y) p p dy y 2 0 Or Z 0 +1 y 1 e 2 p p dy = y 2 Z D’où Y est une v.a. de densité f (y) = 3.2 +1 1 1 p e 2 p1 p1 e y 2 y 2 x2 2 dx = 1 si y > 0 (densité du 2 (1)). Variables aléatoires vectorielles De…nition 49 Soit (Rd ; P ) un espace de probabilité. On appelle variable aléatoire vectorielle ou vecteur aléatoire à valeurs dans Rn une application X de Rd dans Rn véri…ant la propriété suivante : Il existe une probabilité X sur Rn de densité fX telle que pour tout pavé fermé A de Rn on ait : P [X 2 A] = X (A) (3.2) Remarque 50 Toutes les propositions démontrées sur les v.a. restent valables. Proposition 51 S’il existe une probabilité fermé A de Rn , elle est unique. 24 X véri…ant (3:2) pour tout pavé Proposition 52 Si on appelle fonction caractéristique de X; la transformée de Fourier bX (t) de X pour t 2 Rn , alors la fonction caractéristique détermine la loi de X. Proposition 53 Si h est une fonction continue à support compact de Rn dans R, alors : Z Z h(X)dP = hd X (3.3) Remarque 54 On admettra que si h est une fonction intégrable dans (Rn ; X ) alors h(X) est intégrable dans Rd ; P et on a l’égalité (3:3), en particulier la relation (3:3) est valable pour toute fonction continue bornée. Corollaire 55 Si X est de loi continue X de densité fX , et si pour toute fonction h continue à support compact de Rn dans R on a : Z Z h(x1 ; x2 ; :::; xd )g(x1 ; x2 ; :::; xd )dx1 dx2 :::dxd ) (3.4) E [h(X)] = ::: Rn où g est une densité de probabilité sur Rn alors fX = g. Remarque 56 La dernière condition ci-dessus (g densité de probabilité) est véri…é dès que l’équation (3:4) est valable pour toute fonction continue bornée. Example 57 1) Soit Rd ; P un espace de probabilité et soient X1 ; X2 ; :::; Xd les variables aléatoires projections, alors pour tout n d, la fonction X = 0 n (X1 ; X2 ; :::; Xn ) à valeurs dans R est une v.a. vectorielle de densité : X fX (x1 ; x2 ; :::; xn ) = f (x1 ; :::; xn ; xn+1 :::; xd ) (xn+1 ;:::;xd )2S à (x1 ; :::; xn ) …xé si P est discrète. Et Z Z fX (x1 ; x2 ; :::; xn ) = ::: f (x1 ; :::; xn ; xn+1 :::; xd )dxn+1 :::dxd ) Rd n si P est continue. 2) En particulier, l’application (X1 ; X2 ; :::; Xd ) de Rd dans Rd (application identique dans Rd ) est un vecteur aléatoire à valeurs dans Rd et de loi P . 25 0 Proposition 58 Soit Y = (Y1 ; Y2 ; :::; Yn ) un vecteur aléatoire dé…ni sur Rd ; P et à valeurs dans Rn de loi Y , alors Yi est une v.a. dé…nie sur Rd ; P pour tout 1 i n et on a : P fYi 2 [a; b]g = Y fYi 2 [a; b]g Démonstration : Il su¢ t d’écrire les dé…nitions. Proposition 59 Soit X un vecteur aléatoire à valeurs dans Rn , dé…ni sur l’espace probabilisé Rd ; P et soit f : Rn ! R, une v.a. dé…nie sur (Rn ; X ) de loi f , alors f (X) est une v.a. dé…nie sur Rd ; P de loi f . Démonstration : Il su¢ t d’écrire les dé…nitions. De…nition 60 Une v.a. telle que f (X) est dite liée à X. Example 61 1) Soit Rd ; P un espace probabilisé et soient X1 ; X2 ; :::; Xd les variables projections , alors si n d, 0X1 + X2 + ::: + Xn est une v.a. liée au vecteur aléatoire X = (X1 ; X2 ; :::; Xn ) à valeurs dans Rn . 0 2)Plus généralement, soit X = (X1 ; X2 ; :::; Xn ) un vecteur aléatoire dé…ni sur Rd ; P à valeurs dans Rn et soit M une matrice p n (p lignes, n colonnes) de rang p (ce qui suppose p n). Alors, l’application Y = 0 p (Y1 ; Y2 ; :::; Yp ) à valeurs dans R dé…nie par : Y = MX est une vecteur aléatoire lié à X. Démonstration : Puisque M est de rang p, on peut la compléter en f cette matrice, on peut alors dé…nir Ye = M fX. une matrice n n. Soit M n e Montrons que Y est une v.a. à valeurs dans R : - le cas discret est trivial (toute fonction de X est une v.a. liée à X). - Soit, dans le cas continu, fX la densité de X, et soit h une fonction continue à support compact sur Rn , on a alors Z h i Z f fx fX (x1 ; x2 ; :::; xn ) dx1 dx2 :::dxn E h M X = ::: h M Rn 26 0 où x désigne le vecteur colonne (x1 ; x2 ; :::; xn ) . fx avec Dx = 1 . D’où On pose y = M c Dy det M h fx E h M i = Z ::: Z Rn f 1 y fX M f 1y h M 1 f det M dy1 dy2 :::dyn Cette égalité est valable aussi pour les fonctions h continues bornées donc pour h = 1, on alors : Z Z 1 f 1y ::: fX M dy1 dy2 :::dyn = 1 f Rn det M f 1y Yb est donc un vecteur aléatoire de loi continue de densité fX M 1 fj . jdet M en désignant par Ye1 ; Ye2 ; :::; Yep les Mais, Y = (Y1 ; Y2 ; :::; Yp ) = Ye1 ; Ye2 ; :::; Yep p premières coordonnées de Ye , donc Y est aussi une v.a. vectorielle. 3.2.1 Moyenne et dispersion d’un vecteur aléatoire 0 De…nition 62 Soit X = (X1 ; X2 ; :::; Xn ) un vecteur aléatoire. Si E(Xi ) existe pour tout i = 1; 2; :::; n, on appelle moyenne ou espérance mathéma0 tique de X, le vecteur E(X1 ) E(X2 ) : : E(Xn ) 2 Rn , et qu’on note E(X). De…nition 63 On sait que si E (Xi2 ) existe pour tout i = 1; 2; :::; n, alors Cov(Xi ; Xj ) = E [(Xi E(Xi )) (Xj E(Xj ))] existe. On appelle matrice de covariance de X ou matrice de dispersion de X, la matrice symétrique (n n) dont le terme de rang (i; j) est Cov(Xi ; Xj ). En particulier, si i = j (la diagonale de la matrice) on a Cov(Xi ; Xj ) = V ar(Xi ). On notera D(X) cette matrice, qui jouera pour les vecteurs aléatoires le rôle de la variance pour les v.a. réelles. 27 3.2.2 Notations – Dans Rn on identi…e toujours le vecteur (x1 ; x2 ; :::; xn ) à la matrice co0 1 x1 B x2 C B C C lonne (n 1) B B : C. @ : A xn 0 – Si M est une matrice (n n), on notera M sa transposée„ ce qui permet d’écrire : h i 0 D(X) = E (X E(X)) (X E(X)) Example 64 Si M est une matrice (n n) de rang n, X un vecteur aléatoire à valeurs dans Rn de moyenne E(X) et de dispersion D(X), alors : E (M X) = M E(X) et D (M X) = M D(X)M 3.2.3 0 Critères d’indépendance De…nition 65 Soit Rd ; P un espace de probabilité. Soit (X; Y ) un couple de v.a., X et Y sont dites indépendantes si la densité du couple (X; Y ) est égale au produit des densités de X et de Y . Dans le cas discret il n’y a en général aucun problème, il su¢ t d’appliquer la dé…nition. Proposition 66 Soit I et J deux intervalles fermés quelconques de R. Si P [(X; Y ) 2 I J] = P (X 2 I) P (Y 2 J), alors X et Y sont indépendantes. Démonstration : Appliquer les propositions (27) ou (51). Proposition 67 Soit h1 et h2 deux fonctions continues à support compact dé…nies sur R. Si E fh1 (X)h2 (Y )g = E [h1 (X)] E [h2 (Y )], alors X et Y sont indépendantes. Démonstration : Appliquer la proposition (28). 28 Proposition 68 Soient X et Y deux v.a. indépendantes, h1 et h2 deux fonctions continues à support compact, alors E fh1 (X)h2 (Y )g = E [h1 (X)] E [h2 (Y )] (3.5) Démonstration : Appliquer la proposition (53). Plus généralement, on démontre que si h1 et h2 sont deux fonctions telles que les deux membres de l’égalité (3:5) aient un sens, alors l’égalité (3:5) est véri…ée. En particulier, l’égalité (3:5) est valable pour tout couple de fonctions h1 , h2 continues bornées. De plus, si E (jXY j) < 1, alors E (XY ) = E(X)E(Y ). Proposition 69 Soient X et Y deux v.a. indépendantes de lois et , de fonctions caractéristiques respectivement ' (t) et (t), alors la fonction caractéristique de X + Y est ' (t) (t). Démonstration : La fonction caractéristique de X +Y est E eit(X+Y ) . Il su¢ t alors d’appliquer la proposition précédente, ce qui donne : E eit(X+Y ) = E eitX eitY = E eitX E eitY = ' (t) (t) Remarque 70 La dé…nition et les propositions précédentes s’étendent au cas de n v.a.. Ainsi, n v.a. X1 ; X2 ; :::; Xn seront dites indépendantes si la densité du vecteur aléatoire (X1 ; X2 ; :::; Xn ) est égale au produit des densités de chacune des Xi ; i = 1; 2; :::; n. 3.2.4 Exemple d’application de la proposition (69) Soient (X1 ; X2 ; :::; Xn ) n v.a. indépendantes dé…nies sur un même espace de probabilité Rd ; P , toutes de loi de Bernoulli de paramètre p, i.e. P (Xi = 1) = p et P (Xi = 0) = 1 p; i = 1; 2; :::; n. Par ailleurs, la fonction caractéristique de Xi est : E eitXi = peit + 1 p Donc, d’après la proposition (69), la fonction caractéristique de (X1 ; X2 ; :::; Xn ) n est (peit + 1 p) qui est la transformée de Fourier d’une loi binomiale de paramètres n et p. 29 De…nition 71 Soient X = (X1 ; X2 ; :::; Xn ) un vecteur aléatoire dé…ni sur Rd ; P . Posons Y1 = (X1 ; X2 ; :::; Xp ) et Y2 = (Xp+1 ; Xp+2 ; :::; Xn ), on dit que les vecteurs aléatoires Y1 et Y2 sont indépendants si la densité de X est égale au produit des densités de Y1 et Y2 . Remarque 72 Les propositions (66) ; (67) ; (68) et (69) sont valables sans changement pour les vecteurs indépendants de Rp et de Rq respectivement. Soient g et h deux fonctions continues respectivement de Rp et de Rq dans R, alors g(Y1 ) et h(Y2 ) sont indépendantes. Démonstration : Soient h1 et h2 deux fonctions continues à support compact quelconques de R dans R, alors h1 g et h2 h sont continues à support compact, donc E fh1 [g(X)] h2 [h(Y )]g = E fh1 [g(X)]g E fh2 [h(Y )]g et on applique la proposition (67). Proposition 73 Soit X1 ; X2 ; :::; X n , n v.a. indépendantes, alors les deux 0 0 vecteurs aléatoires (X1 ; X2 ; :::; Xp ) et (Xp+1 ; Xp+2 ; :::; Xn ) sont indépendants (1 p n). Démonstration : Appliquer la dé…nition (71). 0 Proposition 74 Soit X = (X1 ; X2 ; :::; Xn ) un vecteur aléatoire à valeurs dans Rn , de coordonnées X1 ; X2 ; :::; Xn indépendantes, et telles que E (Xi2 ) < 1 pour tout i. Alors, si i 6= j; Cov (Xi ; Xj ) = 0 et D(X) est une matrice diagonale. Démonstration : On applique la proposition (69). En e¤et, Cov(Xi ; Xj ) = E f[Xi E(Xi )] [Xj E(Xj )]g = E fXi E(Xi )g E fXj E(Xj )g = 0 0 Proposition 75 Soit (X1 ; X2 ; :::; Xn ) un vecteur aléatoire de fonction ca0 0 ractéristique ' (t1 ; t2 ; :::; tn ) et soient Y1 = (X1 ; X2 ; :::; XK ) et Y2 = (XK+1 ; XK+2 ; :::; Xn ) deux vecteurs aléatoires de fonction caractéristique respectivement 'Y1 (t1 ; :::; tK ), 'Y2 (tK+1 ; :::; tn ). Pour que Y1 et Y2 soient indépendantes, il faut et il su¢ t que : ' (t1 ; t2 ; :::; tn ) = 'Y1 (t1 ; :::; tK ) 'Y2 (tK+1 ; :::; tn ) 30 Démonstration : Z Z 'Y2 (tK+1 ; :::; tn ) = ::: ei(t1 x1 =:::=tn xn ) dP (x1 ; :::; xn ) = E ei(t1 X1 +:::+tn Xn ) Rn = E ei(t1 X1 +:::+tK XK ) ei(tK+1 XK+1 +:::+tn Xn ) = E ei(t1 X1 +:::+tK XK ) E ei(tK+1 XK+1 +:::+tn Xn ) 31 Chapitre 4 Modèles de probabilité 4.1 4.1.1 Introduction Exemple 1 : Très souvent, dans la pratique, nous aurons à décrire et à étudier n observations indépendantes ou bien la combinaison de n expériences indépendantes. Par exemple : a) On observe n lampes de durées de vie indépendantes et toutes de même loi exponentielle de paramètre et de densité f (x; ) telle que : f (x; ) = e 0 x si x > 0 sinon On cherche à déterminer la loi de probabilité du premier instant auquel une lampe s’éteindra. La façon la plus simple de construire un espace de probabilité dans lequel ce problème sera bien posé est de considérer l’espace (Rn ; P ) de densité : 8 n X > > n xi < Y n xi i=1 e = e si xi > 0 8i f (x1 ; :::; xn ) = > > : i=1 0 sinon C’est bien une densité de probabilité sur Rn car Z Z n Z +1 Y ::: f (x1 ; :::; xn )dx1 :::dxn = e i=1 32 0 xi dxi = 1 Appelons X1 ; X2 ; :::; Xn les n projections de Rn . Par construction, ce sont des v.a. indépendantes toutes de loi exponentielle. Elles représentent dans le modèle la durée de vie de chacune des lampes. Dans (Rn ; P ), le premier instant auquel une lampe s’éteindra peut être représenté par la v.a. T = inf (Xi ). La loi de la v.a. T se calcule simplement 1 i n de la façon suivante, si t > 0 : P (T > t) = P = n Y inf (Xi ) > t 1 i n P (Xi > t) = i=1 =P n Z Y i=1 ne 0 n \ ) (Xi > t) i=1 +1 e xi dxi = e n t g(u)du = e n t 0 La densité g de T doit véri…er pour tout t > 0, g(t) = ( n t R +1 t , soit : si t > 0 sinon C’est donc un loi exponentielle de paramètre n . b) Considérons le jeu de pile ou face répété n fois, par analogie avec ce qui précède, le modèle le plus naturel est le modèle produit (Rn ; P ) ou bien f0; 1g n ; P de densité telle que : f (x1 ; x2 ; :::; xn ) = 1 2n 0 si (x1 ; x2 ; :::; xn ) 2 f0; 1g sinon n Les v.a. coordonnées Xi ; i = 1; 2; :::; n sont indépendantes et toutes de même loi de Bernoulli, P (Xi = 0) = P (Xi = 1) = 21 . Elles représentent dans le modèle les résultats du jeu en identi…ant par exemple pile à 0 et face à 1. L’évènement (Xi = 0) signi…e que le ieme résultat est pile. Cherchons la loi de probabilité du nombre de fois qu’on a obtenu face au cours de n répétitions du jeu. Ce nombre est représenté dans le modèle par n X la v.a. Sn = Xi . Alors, i=1 P (Sn = k) = Cnk 33 1 2n 4.1.2 Exemple 2 : Il faut noter que le modèle produit n’est pas le seul modèle possible du jeu de pile ou face répété n fois. On peut en construire d’autres, par exemple, considérons l’espace (R; P ) de densité uniforme telle que : f (x) = 1 si 0 < x < 1 0 sinon Les v.a. Xi sont alors dé…nies de la manière suivante ; on sait que tout nombre réel de l’intervalle [0; 1[ admet un développement binaire qui le situe dans les deux partages successifs en deux de l’intervalle [0; 1[. Par exemple, 1 0 0 + 2 + 3 + ::: 2 2 2 0 1 0 0:25 = + 2 + 3 + ::: 2 2 2 0:5 = De manière générale, si x 2 [0; 1[ il existe x1 ; x2 ; :::; xn :::tous égaux à 0 ou 1 tels que : xn x1 x2 + 2 + ::: + n + ::: x= 2 2 2 Considèrerons les développements binaires des des x 2 [0; 1[ contenant une in…nité de zéros. Soient Xi ; i = 1; 2; :::; n une suite de v.a. dé…nies telles que : Xi (x) = xi si x 2 [0; 1[ et P (Xi = 1) = P (Xi = 0) = 1 2 Alors 1 2n pour tout (x1 ; x2 ; :::; xn ) 2 f0; 1g n . Donc les v.a. Xi ; i = 1; 2; :::; n sont indépendantes. P [(X1 ; X2 ; :::; Xn ) = (x1 ; x2 ; :::; xn )] = Remarque 76 1) L’espace de probabilité (R; P ) de loi uniforme sur [0; 1] a été introduit comme modèle de l’expérience aléatoire "tirer un point au hasard du segment [0; 1]". En fait, tirer un point au hasard du segment [0; 1], c’est choisir "au hasard" une in…nité de nombres xi valant 0 ou 1. Les termes du développement binaire de x sont obtenus en jouant une in…nité de fois à pile ou face, et noter 0 lorsquon obtient pile et noter 1 lorsqu’on obtient face. 34 2) Il est remarquable que presque tous les phénomènes aléatoires naturels peuvent être "simulés" en tirant un point de l’intervalle [0; 1], i.e. en jouant un grand nombre de fois à pile ou face. 4.2 Dé…nition d’un modèle produit Malgré l’exemple précédent, c’est pratiquement toujours le modèle produit que l’on associera à une répétition d’expériences indépendantes. Nous avons alors besoin d’une dé…nition formelle : De…nition 77 Soient RK1 ; P1 ; RK2 ; P2 ; :::; RKn ; Pn , n espaces de probabilité de densité respectivement f1 ; f2 ; :::; fn . On appelle espace de probabilité produit (ou modèle produit) l’espace de probabilité RK1 +K2 +:::+Kn ; P de densité f (x1 ; x2 ; :::; xn ) = f1 (x1 ) f2 (x2 ) :::fn (xn ) où xi 2 RKi . 4.2.1 Propriétés – La fonction f (x1 ; x2 ; :::; xn ) est bien une densité de probabilité sur RK1 +K2 +:::+Kn . – Soient X1 ; X2 ; :::; Xn les n vecteurs projections de RK1 +K2 +:::+Kn sur les n espaces RKi (1 i n). Alors, les vecteurs aléatoires Xi sont indépendants. – Soient Y1 = (X1 ; :::; Xk ) et Y2 = (Xk+1 ; :::; Xn ). Alors, les vecteurs aléatoires Y1 et Y2 sont indépendants. – Si g (Y1 ) et h (Y2 ) sont deux v.a. liées à Y1 et Y2 respectivement, alors elles sont indépendantes. 4.2.2 Cas particulier Soit f (x) la densité d’une loi de probabilité sur R (discrète ou continue). De…nition 78 On appelle n-échantillon de la loi f (x), une suite de n v.a. X1 ; X2 ; :::; Xn , indépendantes et toutes de même loi de densité f (x). Remarque 79 Un n-échantillon est donc un vecteur aléatoire de Rn de densité f (x1 ) f (x2 ) :::f (xn ). On notera toujours ce n-échantillon (X1 ; X2 ; :::; Xn ). 35 Example 80 1) Un n-échantillon de la loi de Gauss centrée et réduite de n X densité f (x) = p1 2 e x2 2 n est un vecteur aléatoire de R de densité p1 2 = 12 , 1 2 n e i=1 2) Un n-échantillon de loi de Bernoulli de densité f (0) = f (1) est un vecteur aléatoire de Rn de densité g (i1 ; i2 ; :::; in ) = 21n pour (i1 ; i2 ; :::; in ) 2 f0; 1g n , nulle sinon. Remarque 81 1) Si n est …xé, l’espace de probabilité sur lequel sera dé…ni le n-échantillon sera toujours (Rn ; P ) de densité f (x1 ) f (x2 ) :::f (xn ). Le vecteur (X1 ; X2 ; :::; Xn ) sera alors le vecteur des coordonnées. 2) Il est utile de rappeler qu’un n-échantillon d’une loi f (x) est l’idéalisation de n observations indépendantes d’une quantité aléatoire de loi empirique ' f (x). 36 xi . Chapitre 5 Calcul de loi dans les modèles produits 5.1 Loi d’une fonction de deux v.a. indépendantes Soient X et Y deux v.a. indépendantes de même densité N (0; 1). Calcu. lons la loi de (X; Y ) = X Y x2 +y 2 On se place dans le modèle produit (R2 ; P ) de densité f (x; y) = 21 e 2 . La v.a. X est la première projection (x; y) ! x et la v.a. Y est la seconde. la v.a quotient est donnée par l”application : (x; y) ! xy . Remarquons que cette application n’est pas dé…nie lorsque y = 0, alors on conviendra que x = 0 lorsque y = 0.. Cette convention n’a aucune importance réelle car elle y ne concerne qu’un ensemble négligeable pour P . Alors, il su¢ t d’après la proposition (9), de calculer, pour toute fonction réelle h continue à support compact, E h X . Ainsi, Y E h X Y = Z Z h( 37 x y 1 e 2 x2 +y 2 2 dxdy x y = u et y = v qui transforme R2 en R2 et où v u x = uv et y = v, a pour jacobien D(x;y) = = v. D’où D(u;v 0 1 Le changement de variable E h X Y Z Z 1 12 v2 (1+u2 ) e jvj dudv 2 Z +1 Z +1 1 2 1 2 h(u)du = e 2 v (1+u ) jvj dv 1 1 2 Z +1 1 1 = h(u) du 1 + u2 1 = h(u) D’où l’on déduit que la loi de la v.a. 5.2 X Y est la loi de Cauchy 1 . (1+u2 ) Loi de la somme de deux v.a. indépendantes Soient deux v.a. X et Y indépendantes de densités respectives f et g. Calculons la loi de la somme X + Y . On se place dans le modèle produit (R2 ; P ) de densité f (x)g(x) et on considère l’application de R2 dans R, (x; y) ! x+y. Soit une fonction h continue à support compact de R dans R, alors Z Z E fh (X + Y )g = h(x + y)f (x)g(y)dxdy Par le changement de variable x + y = u et y = v de jacobien 1, il vient : Z +1 Z +1 E fh (X + Y )g = h(u)du f (u v)g(v)dv 1 1 R +1 Or, 1 f (u v)g(v)dv est une densité de probabilité donc la densité de la v.a. X + Y est est la convoluée des densités f et g. 5.2.1 Application Soient n v.a. X1 ; X2 ; :::; Xn indépendantes, dé…nies sur l’espace de probabilité (Rn ; P ) et de même loi exponentielle de densité conjointe f (x1 ; x2 ; :::; xn ) 38 telle que : f (x1 ; x2 ; :::; xn ) = Soit Sn = n X Xi , alors : 8 > < > : n e 0 n X i=1 xi si xi > 0 sinon i=1 Proposition 82 La densité de probabilité gn (x) de la v.a. Sn est dé…nie telle que : ( ( x)n 1 e x si x > 0 (n 1)! gn (x) = 0 sinon Démonstration : Raisonnons par récurrence : Pour n = 1, S1 = X1 a pour densité de probabilité f (x) = e x . Supposons que la v.a. Sn admet pour densité de probabilité gn . Soit Xn+1 une v.a. telle que (X1 ; X2 ; :::; Xn+1 ) soient indépendantes. D’après la la troisième propriété des vecteurs aléatoires dans les modèles produit énoncée précédemment, Sn et Xn+1 sont indépendantes, et Sn+1 = Sn + Xn+1 donc la densité de Sn+1 est : Z +1 Z x n 1 (x v) ( v) e v dv f (x v) gn (v)dv = e (n 1)! 1 0 n+1 Z x ( x)n x v n 1 dv = e x = e (n 1)! 0 n! 5.3 Modèle de suite de variables aléatoires indépendantes Considérons une succession d’évènements dans le temps (arrivées d’autobus à une station, appels téléphoniques à un standard, par exemple) et faisons les hypothèses (souvents véri…ées en pratique) que les intervalles de temps entre deux évènements consécutifs sont indépendants entre eux et de loi exponentielle de paramètre . On se propose de calculer la probabilité que n évènements se produisent avant le temps t …xé. 39 Le modèle de probabilité le plus naturel consiste à prendre un grand nombre de v.a. indépendantes X1 ; X2 ; :::; Xn ; :::, toutes de même loi exponentielle. Comme précédemment, posons Sn = X1 + X2 + ::: + Xn et dé…nissons la nouvelle v.a. "Nt = nombre dévènements qui se sont produits avant l’instant t ; alors (Nt = n) si et seulement si (Sn t) et (Sn+1 > t). Pour calculer la probabilité de l’évènement (Nt = n) dans ce modèle, on peut considérer le modèle produit associé à X1 ; X2 ; :::; Xn+1 puisque (Nt = n) ne fait intervenir que les n + 1 premiers intervalles entre deux évènements consécutifs, mais il est plus simple de considérer le modèle produit associé aux deux v.a. indépendantes Sn et Xn+1 de densité f (x; y) sur R2 dé…nie telle que : ( ( x)n 1 e x : e y pour x > 0 et y > 0 (n 1)! f (x; y) = 0 ailleurs Dans ce modèle nous avons (Nt = n) = fSn t et Sn + Xn+1 > tg, d’où la probabilité de l’évènement (Nt = n) est donnée par l’intégrale sur le domaine D = f(x; y) 2 R2 /x t et x + y > t x tg telle que : Z Z P (Nt = n) = f (x; y)dxdy D Z 1 Z t ( x)n 1 x e y dy e dx = (n 1)! t x 0 Z t n 1 ( x) ( t)n = e t dx = e t (n 1)! n! 0 Donc la v.a. Nt suit une loi de poisson de paramètre t. Mais, Nt est-elle une variable aléatoire et sur quel espace de probabilité ? L’évènement fNt = ng est de probabilité bien dé…nie, mais si n grandit l’évènement fNt = ng dépend d’un nombre de plus en plus grand de v.a. Xi . La dimension de l’espace de probabilité associé croit de plus en plus. Et cependant, pour tout n on sait que : P fNt = ng = e t( t)n n! qui est bien une loi de probabilité. Nous voyons apparaître ici, pour la première fois, sur un exemple simple un espace de probabilité de dimension in…nie. 40 Deuxième partie Les distributions de probabilité remarquables 41 Chapitre 6 Distribution de Laplace-Gauss 6.1 Loi de Gauss à une dimension La loi normale ou la loi de Gauss a été précédemment introduite comme limite de certaines lois discrètes, comme par exemple la loi Binomiale. En physique elle intervient dans de nombreux modèles, mouvement brownien, loi des vitesses de Maxwell, par exemple. Il a été déjà établi que la loi de la somme d’un grand nombre de variables aléatoires indépendantes, sous des conditions très générales, peut être approchée par la loi de Gauss, ce qui justi…era l’introduction ou l’utilisation de cette loi en théorie des erreurs d’observation et de mesure. Historiquement, c’est en ré‡échissant au problème des erreurs de mesure des constantes physiques, en astronomie plus précisément, que Gauss remarque l’importance de la loi qui porte son nom. Les erreurs de mesure sont dues à l’addition d’un très grand nombre de petites causes indépendantes ; cesont des variables aléatoires innobservables. Cette loi joue un rôle capital en probabilité et en statistique. De…nition 83 On appelle loi de Gauss (ou loi normale, loi de LaplaceGauss) centrée et réduite, une loi de probabilité de densité dé…nie sur R telle que : x2 1 f (x) = p e 2 2 42 6.1.1 Propriété La fonction f (x) est bien une densité de probabilité. Elle est positive et de plus : Z +1 x2 1 p e 2 dx = 1 2 1 R +1 R +1 1 2 2 En e¤et, considérons l’intégrale double 1 1 e 2 (x +y ) dxdy. Par ailleurs, en utilisant le changement des coordonnées cartésiennes en coordonnées polaires, on a : Z +1 Z +1 Z 2 Z +1 1 1 2 2 +y 2 x ( ) e 2 d e 2 d =2 dxdy = 1 1 0 De plus, en utilisant Fubini, on a : Z Z +1 Z +1 1 x2 +y 2 ) ( 2 e dxdy = 1 1 En posant I = 6.1.2 R +1 1 e 1 2 x 2 +1 e 0 1 2 x 2 Z dx 1 +1 e 1 2 y 2 dy =2 1 dx, on aura alors I 2 = 2 . D’où le résultat : 1 p 2 Z +1 e x2 2 dx = 1 1 Moments particuliers Moyenne La loi de probabilité de Gauss est dite centrée si elle est de moyenne nulle. Z +1 x2 x p e 2 dx = 0 2 1 En e¤et : Z +1 xe 1 x2 2 dx = lim A!1 Z +A xe x2 2 dx = 0 A car c’est l’intégrale d’une fonction impaire sur un intervalle symétrique. 43 Variance La loi de probabilité de Gauss est dite réduite si sa variance est égale à l’unité. En e¤et Z +1 2 Z +1 2 x2 x2 x x 2 p e 2 dx = 2 p e 2 dx E(X ) = 2 2 0 1 " #+1 Z x2 +1 x2 xe 2 1 p p e 2 dx = 1 = + 2 2 1 1 x2 en intégrant par partie et en posant u = x et dv = xe 2 . D’où Z +1 2 x2 x 2 p e 2 dx = 1 E(X ) = 2 1 Comme la moyenne est nulle alors la variance est égale au moment d’ordre 2 ; d’où le résultat. Remarque 84 La loi de probabilité de Gauss centrée et réduite est aussi appelée loi standard et sera notée N1 (0; 1). 6.1.3 Fonction caractéristique Proposition 85 La transformée de Fourier de la loi N1 (0; 1) est telle que ' (t) = e t2 2 . Démonstration : Par dé…nition, on a : Z +1 1 itX ' (t) = E e =p eitx e 2 1 Par ailleurs, e D’où 1 2 (x2 2itx) =e ' (t) = e t2 2 1 2 Z f(x +1 1 it)2 +t2 g 1 p e 2 44 =e t2 2 1 (x 2 it)2 e x2 2 1 (x 2 dx it)2 dx = e . t2 2 6.2 Loi normale quelconque Proposition 86 Soit X une variable aléatoire de loi N1 (0; 1), la variable aléatoire Y = aX + b (où a 6= 0 et b sont deux réels quelconques) suit une loi de densité de probabilité g (y) dé…nie sur R telle que : 1 g (y) = p e a 2 1 2 2 ( ya b ) La moyenne de Y est égale à b et sa variance à a2 . Démonstration : Considérons une fonction h continue à support compact. Alors, Z +1 1 2 1 E fh(Y )g = E fh (aX + b)g h(ax + b) p e 2 x dx 2 1 y b a On é¤ectue le changement de variable y = ax + b avec x = Par conséquent, Z +1 1 z b 2 1 h(y) p e 2 ( a ) dz E fh(Y )g = a 2 1 D’où, d’après le corrollaire (46), on déduit que g (y) = y 2 R, est la densité de probabilité de Y . p1 a 2 et dx = e 1 2 dy . a 2 ( y a b ) où Remarque 87 Il est clair que : E (Y ) = E (aX + b) = aE (X) + b = b et d’autre part V ar (Y ) = V ar (aX + b) = a2 V ar (X) = a2 De…nition 88 La loi de probabilité d’une variable aléatoire de densité g (y) dé…nie sur R telle que : 1 g (y) = p e a 2 1 2 2 ( ya b ) s’appelle loi de Gauss (ou loi normale, loi gaussienne) de moyenne b et de variance a2 et sera notée N1 (b; a2 ). 45 Remarque 89 Nous constatons que la loi de Gauss est une loi à deux paramètres, la moyenne et la variance. Dans la pratique ce sont ces deux paramètres qu’il s’agira de déterminer. Par exemple, pour …xer la vraie valeur d’une constante physique au vue d’un échantillon de n mesures indépendantes, on fera l’hypothèse de Gauss : les mesures sont des variables aléatoires indépendantes de loi gaussienne de paramètres inconnus et on cherchera les valeurs des paramètres les mieux adaptées aux n mesures observées. Proposition 90 La transformée de Fourier ' (t) de la loi N1 (b; a2 ) est dé…nie telle que : 1 2 2 ' (t) = eitb e 2 a t Démonstration : Par dé…nition, on a : ' (t) = E eitY D’autre part, Y = aX + b avec X N (0; 1), d’où : ' (t) = E eit(aX+b) = eitb E eitaX = eitb e 6.3 6.3.1 1 2 2 a t 2 Loi de Gauss bidimensionnelle Loi de Gauss bidimensionnelle centrée Une loi de Gauss centrée est obtenue en posant b = 0, et donc elle admet pour densité de probabilité une fonction f dé…nie telle que : 1 f (x) = p e a 2 x2 2a2 1 (6.1) L’expression 6:1 est du type Ce 2 q(x) où q(x) est une forme quadratique en x. La généralisation la plus naturelle en dimension 2 est donc de considérer les densités de probabilité (s’il en existe) de la forme : f (x1 ; x2 ) = Ce 46 1 q(x1 ;x2 ) 2 où q (x1 ; x2 ) = a1 x21 + 2bx1 x2 + a2 x22 est une forme quadratique en x1 ; x2 . Pour que f soit une densité de probabilité il faut et il su¢ t (puisque f > 0 dès que C > 0) que : Z +1 Z +1 f (x1 ; x2 ) dx1 dx2 = 1 1 1 On est donc amené à se demander s’il existe des constantes C; a1 ; a2 ; b telles que : Z +1 Z +1 1 2 2 Ce 2 (a1 x1 +2bx1 x2 +a2 x2 ) dx1 dx2 = 1 (6.2) C 1 1 Proposition 91 L’égalité 6:2 est véri…ée dès que : a1 + a2 > 0 aa b2 > 0 p 1 2 a1 a2 b 2 = C 2 Démonstration : En notation matricielle, la forme quadratique q (x1 ; x2 ) peut s’écrire telle que : q (x1 ; x2 ) = x1 x2 en notant par x le vecteur colonne a1 b b a2 x1 x2 x1 x2 = x0 Bx , par x0 sa transposée et par B la a1 b . b a2 B est symétrique donc diagonalisable par une transformation orthogonale des axes tellle que : y1 x1 =T y2 x2 matrice où T est une matrice orthogonale (i.e. T 0 = T 1 , en notant T 0 la transposée de T ). Alors, 0 q (x1 ; x2 ) = x0 Bx = (T 0 y) BT 0 y = y 0 T BT 0 y où T BT 0 est une matrice diagonale telle que : T BT 0 = 47 1 0 0 2 Par ailleurs, le jacobien de la transformation y = T x est l’unité. D’où Z +1 Z +1 Z +1 Z +1 1 1 0 q(x ;x ) 1 2 e 2 e 2 x Bx dx1 dx dx1 dx2 = 1 1 1 1 Z +1 Z +1 1 2 2 e 2 ( 1 y1 + 2 y2 ) dy1 dy2 = 1 1 Z +1 Z +1 1 1 2 2 y 1 1 e 2 2 y2 dy2 dy1 = e 2 1 1 Ces intégrales n’ont de sens que si a alors : Z Z +1 1 2 y e 2 1 1 dy1 1 > 0 et 1 +1 e 1 2 1 2 2 y2 2 > 0. Sous ces conditions, on dy2 = p 2 1 2 p2 Finalement, d’après la relation 6:2, on a C 1 2 = 1, d’où : p 1 2 C= 2 Mais on sait que 1 et 2 sont les valeurs propres de la matrice B, i.e. elles sont solution de l’équation du second degré : a1 b b a2 2 = 0 qui s’écrit (a1 + a2 ) + a1 a2 b2 = 0 Il est aisé de véri…er que le discriminant est positif. De plus, les racines sont positives si et seulement si leur somme et leur produit sont positifs, i.e. si : a1 + a2 > 0 et a1 a2 b2 > 0 On a alors : p 1 2 = p a1 a2 b2 d’où le résultat de la proposition. On peut aussi démontrer la proposition (91) sans utiliser les techniques de l’algère linéaire, en intégrant d’abord en x1 puis en x2 . a1 b véri…ant les condib a2 tions a1 +a2 > 0 et a1 a2 b2 > 0, est appelée matrice dé…nie positive. Comme nous venons de le voir, il est équivalent de dire que ses valeurs propres sont 0 strictement positives ou encore que pour tout x = x1 x2 6= 0 0 , x0 Bx > 0. Remarque 92 Une matrice symétrique B = 48 De…nition 93 Sous les hypothèses de la proposition (91), une loi de probabilité de densité f (x1 ; x2 ) est appelée loi de Gauss bidimensionnelle centrée. 6.3.2 Propriétés d’un couple gaussien (X1 ; X2 ) On considère dans ce qui suit un couple variables aléatoires centrées (X1 ; X2 ) de densité de probabilité f (x1 ; x2 ). Lois marginales des variables aléatoires X1 et X2 Les densités des lois marginales sont obtenues par intégration de f (x1 ; x2 ) par rapport à l’une ou l’autre des variables, soit : Z +1 Z 1 1 1 2 q(x1 ;x2 ) a1 x21 2 2 e g1 (x1 ) = C dx2 = Ce e 2 (a2 x2 +2bx1 x2 ) dx2 1 On sait que : a2 x22 + 2bx1 x2 = a2 x2 + D’où g1 (x1 ) = Ce Or D’où Z 1 2 +1 e a1 1 a 2 2 b2 a2 x21 Z b x1 a2 +1 x2 + ab x1 1 a 2 2 e 2 b2 2 x a2 1 x2 + ab x1 2 2 dx2 1 2 2 dx2 = 1 g1 (x1 ) = p 2 1 q a2 a1 a2 b2 e 1 2 r 2 a2 a1 a2 b2 a2 x21 Donc la loi marginale de X1 est la loi normale N1 0; a1 aa22 b2 . Et en changeant l’indice 1 en l’indice 2 dans ce qui précède, on déduit que la densité de probabilité de X2 est telle que : g2 (x2 ) = p 2 1 q a1 a1 a2 b2 49 e 1 2 a1 a2 b2 a1 x22 Donc, la loi marginale de X2 est la loi normale N1 0; a1 aa21 b2 . Il est clair que les projections X1 et X2 sont aussi centrées, et que : V ar (X1 ) = a2 a1 a2 et V ar (X2 ) = b2 a1 b2 a1 a2 Covariance entre X1 et X2 Les variables aléatoires X1 et X2 étant centrées donc de moyennes nulles, alors le calcul de la covariance nous donne : Z +1 Z +1 x1 x2 f (x1 ; x2 ) dx1 dx2 Cov (X1 ; X2 ) = E (X1 X2 ) = C 1 1 Z +1 Z +1 2 2 a2 bx 1 a1 ab x21 x + 1 2 2 x2 e 2 2 a2 dx2 dx1 = C x1 e 1 1 1 Après le changement de variable u = x2 + bx , l’intégrale entre accolades a2 s’écrit telle que : Z +1 Z +1 a2 bx 1 bx1 2 x2 + a 1 2 2 dx2 = e 2 a2 u du x2 e u a2 1 1 Z +1 bx1 1 a2 u2 = e 2 du 1 a2 p 2 = bx1 3 a22 D’où Cov (X1 ; X2 ) = = Cb Cb p 2 3 2 a p2 2 3 2 a2 Z +1 x21 e 1 2 a1 b2 a2 x21 dx1 1 p a1 2 b2 a2 3 2 = b a1 a2 b2 Proposition 94 Les variables aléatoires X1 et X2 sont indépendantes si et seulement si Cov (X1 ; X2 ) = 0. 50 Démonstration : Si les variables aléatoires X1 et X2 sont indépendantes, on sait que Cov (X1 ; X2 ) = 0. Réciproquement, Cov (X1 ; X2 ) = 0 () b = 0 () B = D’où f (x1 ; x2 ) = Ce 1 a x2 2 1 1 e a1 0 0 a2 1 a x2 2 2 2 Par conséquent, la densité du couple (X1 ; X2 ) étant le produit des densités de X1 et de X2 , alors X1 et X2 sont indépendantes. Matrice des covariances ou matrice de dispersion d’un couple de v.a. (X1 ; X2 ) De…nition 95 On appelle matrice de covariances ou matrice de dispersion la matrice D dé…nie telle que : D= V ar (X1 ) Cov (X1 ; X2 ) Cov (X1 ; X2 ) V ar (X2 ) Example 96 D’après les résultats précédents, on peut exprimer la matrice de dispersion D de X1 et X2 telle que : D= 1 a1 a2 b2 a2 b b a1 Proposition 97 La matrice de dispersion D est l’inverse de la matrice de la forme quadratique q (x1 ; x2 ), i.e. : D=B 1 Remarque 98 La loi de probabilité de densité f (x1 ; x2 ) sera alors notée N2 (0; D) par analogie avec le cas unidimensionnel (il faut se rappeler que D joue en dimension > 1 le même rôle que la variance). De plus, D est une matrice dé…nie positive car ses valeurs propres sont > 0. 51 6.3.3 Loi de Gauss bidimensionnelle centrée et réduite De…nition 99 Dans le cas particulier où : 1 0 0 1 B= = I2 i.e. D = B = I2 on obtient la loi normale N2 (0; I) de densité de probabilité f (x1 ; x2 ) telle que : 1 12 (x21 +x22 ) e f (x1 ; x2 ) = 2 Alors, la loi N2 (0; I) est appelée loi normale bidimensionnelle centrée et réduite. On va montrer qu’à partir de cette loi on retrouve naturellement toutes les lois bidimensionnelles centrées. Reprenons les notations de la démonstration de la proposition (91). On a vu qu’il existe une matrice T telle que T BT 0 soit diagonale, i.e. T BT 0 = où 1 0 0 2 > 0 , 2 > 0 et T T 0 = I. On peut alors écrire : 1 0 T BT = 1 0 0 2 et donc B=T 0 p = p 0 p0 1 0 En posant T 0 p0 1 p 0 1 p 0 2 p 1 0 2 p0 p0 1 p0 2 T 2 =R 2 Il vient que : B = RR0 Remarque 100 S’il existe une matrice R telle que B = RR0 , on dit alors que R est la racine de B. De plus R est de rang 2. 52 Posons A = (R0 ) 1 (A de rang 2), alors il vient que D = B 1 = (R0 ) 1 R 1 et donc D = AA0. Soit Y un vecteur aléatoire de loi N2 (0; I). Posons X = AY et cherchons 0 la loi de X. On remarque d’abord que B = (AA0 ) 1 . D’où, si on pose x = 0 x1 x2 et y = y1 y2 , on aura : 1 x0 Bx = x0 (A0 ) A 1x = y0y où x = Ay ou bien y = A 1 x. Soit h une fonction continue à support compact dé…nie sur R2 , alors : Z+1Z+1 h (y1 ; y2 ) e 1 E [h(X)] = E [h(AY )] = 2 1 2 (y12 +y22 ) dy dy 1 2 1 1 Z+1Z+1 1 = h (x1 ; x2 ) e 2 1 1 1 0 x Bx 2 1 dx1 dx2 jdet (A)j où l’on a procédé au changement de variable x = Ay de jacobien 1 . det (A 1 ) = det(A) 1 Par conséquent, le vecteur aléatoire X a pour densité 2 jdet(A)j e 0 1 R2 . Par ailleurs, AA = D = B 1 , d’où jdet Aj = pdet B = p @y @x 1 0 x Bx 2 1 . a1 a2 b2 = sur On retrouve bien la loi étudiée plus haut. Proposition 101 Soit B une matrice dé…nie positive quelconque, il existe 0 alors une matrice A de même rang que B telle que AA = B 1 . De plus, si Y est un vecteur aléatoire de loi N2 (0; I), alors X = AY admet une loi de probabilité de densité f (x1 ; x2 ) telle que : p det B 1 x0 Bx f (x1 ; x2 ) = e 2 2 0 où x = x1 x2 . Remarque 102 La proposition ci-dessus aurait pu être énoncée telle que : Soit D une matrice dé…nie positive quelconque et soit Y un vecteur aléatoire de loi de probabilité N2 (0; I). Alors il existe une matrice A de même rang que 0 D telle que AA = D et le vecteur aléatoire X = AY est de loi N2 (0; D). 53 6.3.4 Lois de Gauss conditionnelles 0 Soit X = X1 X2 un vecteur aléatoire de loi de probabilité de densité f (x1 ; x2 ). On sait que la densité de la loi conditionnelle de la variable aléatoire X2 sachant (X1 = x1 ), notée f(X1 =x1 ) (x2 ), est déterminée telle que : f(X1 =x1 ) (x2 ) = f (x1 ; x2 ) Z+1 f (x1 ; x2 ) dx2 1 1 q(x1 ;x2 ) 2 Dans le cas gaussien f (x1 ; x2 ) = Ce f (x1 ; x2 ) Z+1 f (x1 ; x2 ) dx2 = 1 q(x1 ;x2 ) 2 Ce C 0e 1 2 a1 b2 a2 x21 1 = Ke où K = p a p 2. 2 1 a 2 2 x2 + ab x1 . Alors = Ke 1 2 b2 +2bx1 x2 +a2 x22 a2 2 2 D’où Proposition 103 La loi conditionnelle de X2 sachant X1 = x1 est la loi N1 ( ab2 x1 ; a12 ). Remarque 104 La moyenne de la loi conditionnelle de X2 sachant X1 = x1 est une fonction linéaire de x1 et elle est notée telle que : E [X2 /X1 = x1 ] = b x1 a2 Par contre sa variance ne dépend pas de x1 et est égale à : V ar(X2 ) = 1 a2 Si b = 0 alors Cov(X1 ; X2 ) = 0 et donc la loi conditionnelle de X2 sachant X1 = x1 est une une loi N1 (0; a12 ). C’est la loi marginale de X2 et elle ne dépend pas de x1 . Et donc les variables aléatoires X2 sont indépendantes. 54 6.3.5 Loi de Gauss bidimensionnelle quelconque A partir des lois gaussiennes bidimensionnelles centrées on peut engendrer par translation n’importe quelle loi gaussienne bidimensionnelles. En e¤et, supposons que X = (X1 ; X2 ) soit distribué suivant une loi gaussienne bidi0 mensionnelle centrée. Soit b = (b1 ; b2 ) un vecteur quelconque de R2 . Alors par dé…nition la variable aléatoire bidimensionnelle Y = X + b est distribuée suivant une loi gaussienne de vecteur moyenne b et de matrice de dispersion, la matrice de dispersion de X. 6.4 Loi de Gauss de dimension p Soit X1 ; X2 ; :::Xp , p variables aléatoires indépendantes de même loi normale N (0; 1). Il est clair que la loi du vecteur aléatoire X1 X2 ::: Xp est dé…nie sur Rp et est égale à la loi conjointe f (x1 ; x2 ; :::; xp ) des variables aléatoires X1 ; X2 ; :::Xp . De…nition 105 On appelle loi de Gauss ou loi normale centrée réduite de dimension p une loi de densité de probabilité dé…nie sur Rp telle que : f (x1 ; x2 ; :::; xp ) = 1 p 2 1 2 p e p X x2i i=1 Elle est, en général, notée Np (0; I). Remarque 106 La somme p X x2i est une forme quadratique en x1 ; x2 ; :::xp . i=1 Il est possible alors de suivre la même démarche que précédemment pour déterminer la densité d’un vecteur gaussien quelconque. Soit (X1 ; X2 ; :::Xp ) un vecteur aléatoire de loi Np (0; I) alors E (Xi ) = 0 et V ar (Xi ) = 1 pour tout i, puisque la loi de Xi est une loi N1 (0; 1). De plus, si i 6= j Cov (Xi ; Xj ) = 0 puisque Xi et Xj sont indépendantes. D’où la p matrice de dispersion 1 de (X1 ; X2 ; :::Xp ) est la matrice identité de R , I = 0 1 0 ::: 0 B 0 1 ::: ::: C C B @ ::: ::: ::: 0 A.Ceci justi…e la notation Np (0; I). 0 ::: 0 1 55 6.4.1 Cas général Nous pourions comme dans le chapitre précédent, chercher les conditions 1 sur une forme quadratique q (x1 ; x2 ; :::xp ) pour que l’expression Ce 2 q(x1 ;x2 ;:::xp ) soit une densité de probabilité et introduire ainsi les lois de Gauss de dimension p. Pour renouveler l’intérêt nous allons cette fois procéder à l’envers et adopter la dé…nition suivante. De…nition 107 Soit X = (X1 ; X2 ; :::Xp ) un vecteur aléatoire de loi Np (0; I). Soit A une matrice p p de rang p et soit b un vecteur (colonne) de Rp . Alors, le vecteur aléatoire Y = AX + b suit une loi de Gauss de dimension p. Proposition 108 La loi de probabilité du vecteur aléatoire Y admet une densité de probabilité g dé…nie sur Rp telle que : g(y) = p où y 0 = 1 2 p jdet Aj e 1 (y 2 b)0 [AA0 ] 1 (y b) y1 y2 ::: yp . Démonstration : Pour déterminer la densité g de Y , il su¢ t de la faire apparaître dans le calcul de E [h(Y )] pour une fonction h continue à support compact quelconque de Rp dans R tel que : E [h(Y )] = E [h(AX + b)] = 0 où x = x1 x2 ::: xp Z +1 ::: 1 0 et x x = Z +1 1 p X 1 h (Ax + b) p 2 1 2 pe p X i=1 x2i dx1 :::dxp x2i . i=1 La matrice A est de rang p (rang plein) donc elle est inversible. Par ailleurs, on e¤ectue le changement de variables de Rp dans Rp tel que : x ! y = Ax + b avec x = A 1 Le jacobien de la transformation est alors : Dx = det A Dy 56 1 = 1 det A (y b) D’où E [h(Y )] = Or [A 1 Z +1 ::: 1 0 (y E [h(Y )] = b)] [A Z +1 1 Z +1 1 h(y) p 1 2 p jdet Aj e 1 2 [A 1 (y 0 b)] [A 1 (y (y b)] = (y b)0 [AA0 ] 1 (y b), d’où Z +1 0 1 1 0 1 h(y) p ::: e 2 (y b) [AA ] (y p 2 jdet Aj 1 b)] dy1 :::dyp 1 b) dy1 :::dyp Corollaire 109 Le vecteur Gaussien Y est tel que : E(Y ) = b et D(Y ) = AA0 où D(Y ) est la matrice de dispersion du vecteur Y . Démonstration : En e¤et, E(Y ) = E(AX + b) = AE(X) + b = b Et D(Y ) = E (AX + b b) (AX + b b)0 = E [AX(AX)0 ] = AE(XX 0 )A0 = AA0 0 Car E(XX ) = D(X) = I. Proposition 110 Soit Y = (Y1 ; Y2 ; :::; Yp ) un vecteur aléatoire Gaussien de Rp . Alors, les variables aléatoires Yk sont distribuées suivant des lois de Gauss, et pour (t1 ; t2 ; :::; tp ) 2 Rp , il en est de même pour les variables aléap X toires ti Yi . i=1 Démonstration : Soit Y = AX + b où A = (aij )i;j=1;:::;p . Alors Yk = X akj Xj + bk j=1p 57 1 k p Et donc la fonction caractéristique de Yk pour 0 X 1 p i bk i Yk =e E e B i EB @e akj Xj j=1 6= 0, est telle que : C C = ei A bk E " p Y i akj Xj e j=1 # Or les varaibles aléatoires Xj ; j = 1; 2; :::; p sont indépendantes, donc E ei Yk = ei p Y bk 1 2 E ei akj Xj = ei bk e j=1 2 p X a2kj j=1 C’est évidemment la fonction caractéristique d’une variable aléatoire de Gauss. p X On procède de même pour montrer que ti Yi est une variable aléatoire de i=1 Gauss. En e¤et, on remarque que l’on a : p X ti Yi = i=1 p X k=1 tk bk + p X tk p X akj Xj = j=1 k=1 p X tk bk + p X j=1 k=1 Xj p X tk akj k=1 Et on continue comme précédemment pour les Yk . Proposition 111 La fonction caractéristique de la variable aléatoire Y de loi Np (b; D(Y )) est telle que : 0 'Y (t1 ; t2 ; :::; tp ) = eit b e 1 0 t D(Y 2 )t où b = E(Y ): Démonstration : En reprenant les notations de la proposition (110), on peut écrire : 2 X 3 p tk Yk 6 i 7 6 7 k=1 bY (t1 ; t2 ; :::; tp ) = E 4e 5 = Z Rp i e p X tk yk k=1 58 g (y1 ; y2 ; :::; yp ) dy1 dy2 :::dyp Or p X k=1 tk Yk = p X tk bk + p X Xj j=1 k=1 1 2 0 Donc bY t1 ; t2 ; :::; tp = eit b e p p X X j=1 k=1 tk akj p X 0 tk akj = t b + k=1 0 p p X X j=1 !2 B @ k=1 12 C tk akj A p X j=1 Xj p X tk akj k=1 et alors on a : = t0 A(t0 A)0 = t0 AA0 t = t0 D(Y )t d’où le résultat. Remarque 112 Soit B une matrice p p symétrique de rang p. Elle est dite dé…nie positive si l’une des 3 propriétés équivalentes suivantes est satisfaite : a) les valeurs propres de la matrice B sont strictement positives. b) il existe une matrice A (p p) de rang p telle que B = AA0 . c) pour tout vecteur colonne non nul x de Rp on a x0 Bx > 0. Proposition 113 Soit D une matrice p p dé…nie positive quelconque et soit b un vecteur de Rp . Il existe un vecteur aléatoire Y de Rp de loi Np (b; D). Démonstration : La matrice D peut être écrite sous la forme AA0 . Alors d’après la proposition (110), si X est de loi Np (0; I), Y = AX + b est de loi Np (b; D). Proposition 114 Soit Y = (Y1 ; Y2 ; :::; Yp )0 de loi Np (b; D) avec D = AA0 et soient Z1 = (Y1 ; Y2 ; :::; Yk )0 et Z2 = (Yk+1 ; Yk+2 ; :::; Yp )0 1 k p …xé. Alors Z1 et Z2 sont gaussiens et ils sont indépendants si et seulement si Cov (Yi ; Yj ) = 0 dès que 1 i k et k + 1 j p. Démonstration 0 0 1 1: Montrons que Z1 est un vecteur gaussien de loi b1 Np @@ ::: A ; D(Z1 )A. bk La fonction caractéristique de (Y1 ; Y2 ; :::; Yk )0 est donnée par : 2 k 3 k X X tj Yj 7 i tj bj 6 i 1 0 6 j=1 7 j=1 E 6e e 2 t(k) D(Y )t(k) 7 = bY (t1 ; t2 ; :::; tk ; 0; :::; 0) = e 4 5 59 où t(k) = (t1 ; t2 ; :::; tk ; 0; :::; 0)0 . 1 0 b b La deuxième exponentielle peut s’écrire telle que e 2 t(k) D(Z1 )t(k) où b t(k) = (t1 ; t2 ; :::; tk )0 . En e¤et, D(Y ) = (Cov (Yi ; Yj )) 1 i p et D(Z1 ) = (Cov (Yi ; Yj )) 1 i k . D’autre 1 j p 1 j k 0 0 part, ceci montre que b t(k) D(Z1 )b t(k) = t(k) D(Y )t(k) > 0 dès que t1 ; t2 ; :::; tk sont non tous nuls. Donc D(Z1 ) est dé…nie positive d’après le point (c) de la remarque ci-dessus. Il existe donc d’après le point (a) de la remarque ci0 . Mais si T dessus une matrice A1 (k k) 0 de rang 1 k telle que D(Z1 ) 2=0A1 A11 31 b1 b1 suit une Nk (0; I), alors A1 T1 + @ ::: A suivra une loi Nk 4@ ::: A ; D(Z1 )5, bk bk donc d’après la proposition (111) aura la même2fonction caractéristique que 1 3 0 b1 Z1 donc aura la même loi, d’où Z1 suit la loi Nk 4@ ::: A ; D(Z1 )5. De même bk 20 1 3 bk+1 0 Z2 suit la loi Np k 4@ ::: A ; D(Z2 )5 où on posera D(Z2 ) = A2 A2 avec A2 bp (p k) (p k) de rang (p k) (même construction que pour Z1 ). Z1 et Z2 sont indépendantes si et seulement si la loi de (Z1 ; Z2 ) c’est à dire la loi de Y est égale au produit des lois de Z1 et de Z2 soit si et seulement si : p 1 2 p jdet Aj e 1 (y 2 b)0 [AA0 ] 1 (y b) = p p 1 2 2 k e jdet A1 j 1 p k 1 2 e (z1 1 2 0 b(1) ) [A1 A01 ] (z2 1 (z1 0 b(2) ) [A2 A02 ] 1 (z2 jdet A2 j où z1 = (y1 ; :::yk )0 , b(1) = (b1 ; :::; bk )0 , z2 = (yk+1 ; :::yp )0 , b(2) = (bk+1 ; :::; bp )0 . Mais si Cov (Yi ; Yj ) = 0, 1 i k et k + 1 j p alors : D(Y ) = AA0 = D(Z1 ) 0 0 D(Z2 ) 0 = A 1 A1 0 0 0 A 2 A2 L’égalité est alors véri…ée car l’inverse conserve la même forme. Réciproquement, si Z1 est indépendant de Z2 , alors toute variable aléatoire liée à Z1 est indépendante de toute variable aléatoire liée à Z2 , en particulier 60 b(1) ) b(2) ) Yi est indépendante de Yj dès que 1 Cov (Yi ; Yj = 0). i k et k + 1 j p, donc 0 Corollaire 115 Soit Y = (Y1 ; Y2 ; :::; Yp ) un vecteur aléatoire de Rp de distribution de Gauss de dimension p. Pour que les Yi soient indépendants il faut et il su¢ t que la matrice de dispersion de Y soit diagonale. Démonstration : C’est une application immédiate de la proposition (114). Proposition 116 Si Y suit une loi de Gauss de dimension p, si B est une matrice p p de rang p et si c est un vecteur de Rp alors Z = BY + c suit une loi de Gauss de dimension p. Démonstration : Le vecteur gaussien Y s’écrit en général AX + b avec A de rang p et X suivant une loi Np (0; I), donc Z = BY +c = BAX +Bb +c et BA est de rang p. Corollaire 117 Si Y suit une loi de Gauss de dimension p et si C est une matrice q p de rang q (donc q p) alors Z = CY suit une loi de Gauss de dimension q. b (p p) de rang p Démonstration : On complète C en une matrice C b qui est de loi gaussienne de dimension p, il su¢ t alors et on dé…nit Zb = CY de remarquer que Z est une projection de Zb et d’appliquer la proposition (114). 61 Chapitre 7 Les distributions d’échantillonnage 7.1 Distribution Gamma De…nition 118 On appelle fonction Gamma de paramètre ( ), la fonction intégrale dé…nie telle que : Z 1 ( )= x 1 e x dx > 0, notée 0 Remarque 119 Il est aisé d’établir la propriété suivante : ( )=( 1) ( 1) De…nition 120 On appelle distribution Gamma de paramètre > 0, notée ( ), toute variable aléatoire X admettant pour densité de probabilité la fonction f (x; ) dé…nie telle que : f (x; ) = 1 x ( ) 0 62 1 e x si x > 0 sinon 7.1.1 Propriétés de la loi Gamma Moment d’ordre r de la distribution ( ) A partir de la dé…nition de la fonction Gamma, on déduit que : Z 1 1 ( + r) mr = x +r 1 e x dx = ( ) 0 ( ) Par conséquent, pour r = 1; 2, on a : E(X) = E(X 2 ) = ( + 1) V ar(X) = ( ) Fonction caractéristique de la distribution Par dé…nition, on a : itX 'X (t) = E e = 1 ( ) Z 1 itx e x 1 1 ( ) x e dx = 0 Z 1 x 1 e x(1 it) dx 0 En procédant au changement de variable, y = x (1 it), dans l’intégrale précédente, on obtient : Z 1 1 1 'X (t) = y 1 e y dy = (1 it) ( ) (1 it) 0 1 Remarque 121 Evaluons le nombre . 2 Il est clair que : Z 1 1 1 = x 2 e x dx 2 0 (7.1) Procédons dans l’intégrale au changement de variable dé…ni tel que : p 1 x = y 2 avec y = 2x 2 et dx = ydy Alors, en remplaçant dans l’intégrale (7:1), on obtient : 1 2 = Z 0 1 1 2 y 2 1 2 e 1 2 y 2 p Z ydy = 2 0 63 1 e 1 2 y 2 dy = p 2 p p 2 = 2 7.2 Distribution Bêta De…nition 122 On appelle distribution Bêta de paramètres 1 > 0 et 2 > 0, notée ( 1 ; 2 ), toute variable aléatoire X admettant pour densité de probabilité la fonction f (x; 1 ; 2 ) dé…nie telle que : ( ( 1+ 2) x 1 1 (1 x) 2 1 si 0 < x < 1 ( 1) ( 2) f (x; 1 ; 2 ) = 0 sinon Remarque 123 Montrons que f (x; 1 ; 2 ) est bien une densité de probabilité. En e¤et, soit : Z 1Z 1 ( 1) ( 2) = x1 1 1 x2 2 1 e x1 e x2 dx1 dx2 (7.2) 0 0 Procédons alors au changement de variables dans l’intégrale (7:2), tel que : 8 < x1 = r2 cos2 et x2 = r2 sin2 2r cos2 2r2 cos sin @(x1 ;x2 ) = : avec J = @(r; ) 2r sin2 2r2 cos sin = 4r3 cos sin Alors ( 1) ( 2) = 4 Z 2 0 Z +1 (cos )2 1 1 (sin )2 2 1 r2 2( e r 1+ 2) 1 drd (7.3) 0 On remarque que l’intégrale (7:3) est une intégrale à variables séparées, d’où en appliquant le théorème de Fubini, on obtient : ( Z ) Z +1 2 2 2 1 1 2 2 1 ( 1) ( 2) = 2 (cos ) (sin ) d 2 e r r2( 1 + 2 ) 1 dr 0 R +1 Dans l’intégrale 0 e p r = y, alors : Z +1 2 2 e r r2( 1 + 0 0 r 2 2( r 2) 1 1+ 2) 1 dr on procède au changement de variable dr = 2 Z = Z +1 e y y( 1+ 2) 0 +1 e y y( 0 64 1+ 2) 1 1 2 dy p 2 y dy = ( 1 + 2) Par conséquent, l’intégrale (7:3) nous donne : ( Z 2 ( 1) ( 2) = ( 1 + 2) 2 (cos )2 1 1 (sin )2 2 1 d 0 ) De plus, dans la relation ci-dessus on e¤ectue le changement de variable tel que : 1 p cos = x et sin = (1 x) 2 avec 0 x 1 p = avec 2dx sin d ou bien d = 1 dx 1 x 2x 2 (1 x) 2 d’où : Z 1 x 1 1 (1 x) 2 1 ( 1) ( 2) ( 1 + 2) dx = 0 par conséquent Z 1 f (x; 1; 2 ) dx =1 0 De…nition 124 On appelle fonction Bêta de paramètres 1 et B ( 1 ; 2 ), la fonction intégrale dé…nie telle que : Z 1 ( 1) ( 2) B ( 1; 2) = x 1 1 (1 x) 2 1 dx = ( 1 + 2) 0 2, Remarque 125 En général, la fonction de densité d’une distribution avec 1 > 0 et 2 > 0, est présentée sous la forme suivante : 1 f (x; 7.2.1 1; 2) = 0 B( 1; 2) x 1 1 (1 x) 2 1 si 0 sinon x notée ( 1; 1 Propriétés de la distribution Béta Moment d’ordre r de la distribution ( 1; Par dé…nition mr est dé…ni tel que : Z 1 ( 1 + 2) mr = x 1 +r 1 (1 x) ( 1) ( 2) 0 ( 1 + 2 ) ( 1 + r) ( 2 ) = = ( 1 ) ( 2 ) ( 1 + 2 + r) 65 2 1 ( 2) dx ( 1 1 + + 2 2) + r) ( + r) ( 1) 1 2) D’où : 1 E(X) = m1 = 1 + et V ar(X) = 2 1 2 ( 1 + 2 2) ( 1 + 2 + 1) Proposition 126 Soit X une variable aléatoire de densité de probabilité f (x) et soit ' (X) une fonction de la variable aléatoire X. Soit h une fonction à support compact. Alors si E fh (' (X))g peut être écrite sous la forme : Z E fh (' (X))g = h(y)g(y)dy Alors g(y) représente la densité de probabilité de la variable aléatoire Y = ' (X). Proposition 127 Soient X1 et X2 deux variables aléatoires indépendantes de distributions de probabilité respectives ( 1 ) et ( 2 ). Alors, la variable 1 est distribuée suivant la loi ( 1 ; 2 ). aléatoire U = X1X+X 2 Démonstration : En e¤et, on peut considérer que U = ' (X1 ; X2 ) = Et donc, on peut appliquer la proposition précédente. La densité de probabilité conjointe de X1 et X2 est telle que : X1 . X1 +X2 f (x1 ; x2 ) = 1 x 1 1 x2 2 1 e ( 1) ( 2) 1 x1 e x2 si x1 > 0 et x2 > 0 Soit h une fonction à support compact. Calculons E(h(U ) = E fh (' (X1 ; X2 ))g : Z +1 Z +1 1 h f' (x1 ; x2 )g x1 1 1 x2 2 1 e x1 e x2 dx1 dx2 E(h(U )) = ( 1) ( 2) 0 0 Procédons d’abord à un changement de variable dans l’intégrale R +1 R +1 I= 0 h f' (x1 ; x2 )g x1 1 1 x2 2 1 e x1 e x2 dx1 dx2 , tel que : 0 1 y1 = x1x+x 2 y2 = x2 ! x1 = 1y1 yy21 x2 = y2 où 0 y1 1 et 0 y2 +1. Le jacobien de la transformation est alors tel que : @ (x1 ; x2 ) J= = @ (y1 ; y2 ) y2 (1 y1 )2 y1 1 y1 0 1 66 = y2 (1 y1 )2 d’où Z I = 1 0 Z = 0 Z +1 h(y1 ) 0 1 Z y1 y2 1 y1 1 y1 1 +1 h(y1 ) 1 0 1 y2 dy1 dy2 (1 y1 )2 y2 1 y1 y2 2 1 e 1 y2 1 + y1 1 2 (1 y1 ) 2 e y2 1 y1 dy1 dy2 D’après le théorème de Fubini, on a : I= Z 1 0 Z +1 y2 1+ 2 1 e y2 1 y1 1 y1 dy2 h(y1 ) 1 0 1 (1 y1 y1 ) 2 dy1 Dans l’intégrale simple entre accolades, on procède au changement de variable tel que : y2 t= ou bien y2 = t (1 y1 ) 1 y1 avec d y2 = (1 Alors, on aura : Z +1 y2 1 + 2 1 e y2 1 y1 dy2 = 0 Z y1 ) dt +1 t 1+ 2 0 = (1 y1 ) = (1 y1 ) 1+ (1 y1 ) 1 + 2 e t dt Z +1 2 t 1 + 2 1 e t dt 1 0 1+ 2 ( 1 + 2) Finalement : E(h(U )) = Z 1 0 = Z 0 1 ( 1 + 2) h(y1 )y1 1 1 (1 y1 ) 2 1 dy1 ( 1) ( 2) 1 h(y1 )y1 1 1 (1 y1 ) 2 1 dy1 B ( 1; 2) En conclusion et d’après la proposition (9), la fonction dé…nie telle que : f (y1 ; 1; 2) = 1 B ( 1; 2) y1 1 1 (1 y1 ) 2 1 avec 0 est la densité de probabilité de la variable aléatoire U = 67 y1 X1 . X1 +X2 1 Remarque 128 On peut montrer qu’en utilisant la fonction Bêta, on obtient le résultat suivant : 22 (2 ) = p En e¤et, on sait que : Z 1 0 D’où, en posant 1 = 1 ( ) ( 1 + 2) x ( 1) ( 2) 2 1 1 + (1 x) = , on obtient : Z 1 2 ( ) = x x2 (2 ) 0 2 1 1 2 1 dx = 1 dx Par ailleurs, dans l’intervalle [0; 1] la fonction (x x2 ) est symétrique par rapport à la droite x = 12 . On peut alors exprimer l’expression précédente sous la forme : Z 1 2 2 ( ) 1 =2 x x2 dx (2 ) 0 Pour 0 x 1 , 2 posons y = 4 (x x2 ), d’où : p 1 dy 1 y x= et dx = p 2 4 1 y Finalement : 2 ( ) 1 = 2 (2 ) 2 1 = 2 2 Par conséquent, sachant que 7.3 1 Z 1 y 1 (1 0 ( ) 1 y) 1 2 1 B ; 12 dy = 2 1 2 1 2 1 2 + p = , on déduit le résultat. 1 2 Distribution du 2 Soit X une variable aléatoire de distribution de probabilité Y une autre variable aléatoire dé…nie telle que : Y = 2X 68 ( ) et soit Pour déterminer la densité de probabilité de la variable aléatoire Y , considérons la fonction h continue à support compact et calculons : Z +1 1 E fh(Y )g = E fh(2X)g = h (2x) e x x 1 dx ( ) 0 Considérons le changement de variable y = 2x dans l’intégrale précédente. Alors Z +1 y 1 h (y) e 2 y 1 dy E fh(Y )g = 2 ( ) 0 Et donc, d’après la proposition 9, la densité de probabilité de la variable aléatoire Y est la fonction f dé…nie sur R telle que : f (y) = 2 1 e ( ) 0 y 2 y 1 si y sinon 0 et >0 De…nition 129 Une variable aléatoire Y admettant pour fonction de densité la fonction f dé…nie ci-dessus, est dite variable aléatoire de loi 2 (Khi deux) à 2 degrés de liberté. Remarque 130 Supposons que n = 2 , alors la densité de probabilité f (y) s’écrit sous la forme suivante : ( y n 1 e 2 y 2 1 si y 0 et n > 0 n n 2 2 (2) f (y) = 0 sinon C’est la forme de la fonction de densité du 2 la plus usitée. Et ainsi, on dit de la variable aléatoire Y qu’elle est distribuée suivant un 2(n) (Khi deux) à n degrés de liberté (ou ddl). 7.3.1 Propriétés de la distribution d’un 2 (n) Moment d’ordre r Soit Y une variable aléatoire de distribution de probabilité 2(n) et soit X une variable aléatoire de distribution de probabilité ( ) avec 2 = n. On sait que Y = 2X, alors : mr (Y ) = E (Y r ) = E f(2X)r g = 2r E (X r ) 69 Par ailleurs, on sait que E (X r ) = ( +r) , ( ) d’où : n 2 mr (Y ) = E (Y r ) = 2r +r n 2 Ainsi, n 2 m1 (Y ) = E(Y ) = 2 +1 n 2 =n De plus, n 2 m2 (Y ) = E(Y 2 ) = 22 +2 n 2 = n(n + 2) Finalement, E(Y ) = n et V ar(Y ) = 2n 2 (n) Fonction caractéristique de la loi du Supposons que 2 = n, alors : it(2X) 'Y (t) = '2X (t) = E e = Z +1 1 e ( ) 0 x(1 2it) x 1 dx On e¤ectue un changement de variable dans l’intégrale précédente tel que z = x (1 2it) avec dz = dx. Alors, Z +1 1 1 1 e z z 1 dz = 'Y (t) = (1 2it) 0 ( ) (1 2it) Et …nalement, sachant que n = 2 , on aura : 'Y (t) = 1 (1 n 2it) 2 Remarque 131 1) Si Y1 ; Y2 ; :::; Yn sont des variables aléatoires indépendantes distribuées respectivement suivant un 2( j ) , j = 1; 2; :::; n, alors : n 'X (t) = Yj j=1 n Y 1 j=1 (1 70 n X 2it) j=1 j 2 ( j) Ainsi, la somme de n variables aléatoires indépendantes de loi 1. tribuée suivant une loi 20X n B @ j=1 est dis- C jA 2 2) Soit U N (0; 1), alors U 2 (1) . En e¤et, considérons la fonction caractéristique de U 2 telle que : Z +1 Z +1 u2 1 2 1 1 2 itu2 2 'U 2 (t) = p e e eitu e 2 u (1 2it) du du = p 2 2 1 1 1 2it) 2 avec du = Procédons au changement de variable tel que w = u(1 dw 1 , alors : (1 2it) 2 'U 2 (t) = 1 (1 2it) 1 2 Z +1 1 1 p e 2 w2 2 dw = 1 (1 1 2it) 2 On reconnaît ici la fonction caractéristique d’un 2(1) . 3) Si U1 ; U2 ; :::; Un sont des variables aléatoires indépendantes et de même distribution N (0; 1), alors : n X Ui2 2 (n) i=1 4) Si les variables aléatoires X1 ; X2 ; :::; Xn sont indépendantes et sont distribuées suivant la même loi N ( ; 2 ), alors : n X Xi 2 2 (n) et i=1 n X (Xi )2 2 2 (n) i=1 5) Il est naturel de généraliser les résultats précédents aux variables aléatoires vectorielles. 0 Soient X = (X1 ; X2 ; :::; Xn ) un vecteur aléatoire de distribution normale telle que : 0 1 1 1 (X m) (X m) 2 e 1 n det ( ) 2 (2 ) 2 0 1 alors la forme quadratique (X m) (X m) est distribuée suivant une 0 2 1 loi du (n) , où m = E(X) = (E(X1 ); E(X2 ); :::; E(Xn )) et est l’inverse 71 de la matrice de covariances. 6) Soit Y une variable aléatoire distribuée suivant une loi du 2(n) . Détermip nons la distribution de probabilité de la variable aléatoire = Y . Soit h une fonction continue à support compact, alors : Z +1 p y n 1 p 1 2y2 E (h( )) = E h( Y ) = h ( y) e dy n n 2 2 0 2 p Procédons au changement de variable dé…ni x = y avec 2xdx = dy, alors : Z +1 x2 1 E (h( )) = h (x) n 1 n e 2 xn 1 dx 22 0 2 D’après la proposition (9), on déduit que : 1 2 n 2 n 2 1 e x2 2 xn 1 Moment d’ordre r de la variable aléatoire Calculons le moment d’ordre r de la variable aléatoire o 2 r2 n r r r 2 mr ( ) = E ( ) = E Y 2 = E (2X) = Par conséquent : m1 ( ) = E ( ) = 7.4 p 2 n+1 2 n 2 et m2 ( ) = E : n + 2r 2 n 2 2 =n Distribution de Student Proposition 132 Soit U une variable aléatoire distribuée suivant une loi normale N (0; 1) et soit Y une deuxième variable aléatoire distribuée suivant un 2(n) . Supposons que les variables aléatoires U et Y soient indépendantes. Alors, la variable aléatoire t = pUY est distribuée suivant une loi de densité n de probabilité f (t) dé…nie telle que : f (t) = 1+ p n 1 (n+1) 2 t2 n n 1 ; 2 2 72 t2R La loi de t est appelée distribution de Student à n degrés de liberté (ddl) et est notée t(n). p Démonstration : La densité de probabilité conjointe de U et de = Y est dé…nie telle que : 1 1 g(u; x) = p n 1 2 2 2 n 2 e u2 2 e x2 2 xn 1 u 2 R et x 2 R+ Soit h une fonction continue à support compact. Alors calculons : 2 0 13 ! Z +1 Z +1 U u E(h(t)) = E 4h @ q A5 = h x g(u; x)dudx Y n = Z +1 1 Z 1 +1 2 0 n 2 h pux p n 1 2 p 0 n 2 e u2 2 e x2 2 n xn 1 dudx Considérons le changement de variable dé…ni tel que : ( ) t = pux u = p1n ts n =) s=x s=x Le jacobien de la transformation est alors : J= D’où E(h(t)) = Z @ (u; x) = @ (t; s) +1 1 Z +1 0 ps n pt n 0 1 h (t) n 1p 2 2 n n 2 s =p n e 1 2 s 2 2 1+ tn sn dtds Et en appliquant Fubini dans l’intégrale précédente, on obtient : Z +1 Z +1 2 1 2 h (t) s 1+ tn 2 E(h(t)) = e sn ds dt n 1p n n 1 2 2 0 2 D’après la distribution de la variable aléatoire , et en procédant dans l’intégrale entre accolades, au changement de variable dé…ni tel que : t2 z =s 1+ n 1 2 avec dz = 73 t2 1+ n 1 2 ds On obtient alors : Z +1 e 1 2 s 2 1 2 1+ tn n s ds = 1+ 0 = 2 n+1 2 t2 n n 1 2 Z +1 e 1 2 z 2 z n dz 0 n+1 2 1+ n+1 2 t2 n Finalement : E(h(t)) = = = Z Z Z +1 1 n 2 1 2 +1 h (t) 1 +1 1 2 h (t) n 1p 2 2 n 1+ h (t) p n n 2 + n 1 2 1+ n+1 2 1+ 1 2 n 2 n+1 2 t2 n t2 n p n dt n+1 2 dt n+1 2 t2 n n 1 ; 2 2 dt Par conséquent, d’après la proposition (9), la densité de probabilité de la variable aléatoire t est la fonction f (t) dé…nie telle que : 1+ f (t) = p n 7.4.1 n+1 2 t2 n n 1 ; 2 2 ; t2R Propriétés de la distribution de Student Moments de la distribution de Student On remarque que la densité de probabilité f (t) de t est paire. Donc, ses moments d’ordre impair sont tous nuls et plus spécialement : m1 (t) = E(t) = 0 Calculons les moments d’ordre 2r de la distribution de Student tels que : m2r (t) = E t2r = nr E 74 U 2r Yr Du fait que U et Y soient indépendantes, on a : m2r (t) = nr E U 2 2 ou U 2 (1) et Y r r E Y 2 (n) Par ailleurs, U2 E U 2r = E r 1 2 = 2r r 1 2 r et E Y 1 2 D’où m2r (t) = n +r n 2 n 2 +r 1 2 =2 r n 2 r n 2 r Remarque 133 Les moments d’ordre pair de t existent uniquement si r véri…ant la condition 1 2r n. En conclusion, V ar (t) = m2 (t) = n 1 2 n 2 n 2 +1 1 2 1 = n n 2 Fonction de répartition du t de Student Notons par , la fonction de répartition du t de Student. Alors : (t) = Z t f (x)dx = 1 1 + 2 Z 0 Considérons le changement de variable y = 1 y= t 1+ p n 1 2 1+ xn x2 n n+1 2 n 1 ; 2 2 , alors : x2 1 y 2 ou bien x = n x2 + n y 75 dx Par ailleurs x = p q1 y d’où dx = n y p n p dy 3 . 2 (1 y)y Alors, l’intégrale précé- dente nous donne : 1 1 + (t) = 2 2 1 1 + = 2 2 = 1 Z 1 1 2 1+ tn ( 1 1 F n 2 n+t2 1 n n 1 ; 2 2 Z y2 n n+t2 1 (1 n 1 y2 n 1 ; 2 2 0 1 y) 2 1 (1 1 dy y) 1 2 1 ) dy n 1 ; 2 2 De…nition 134 La fonction Fp (k; m) est appelée fonction Bêta incomplète. Remarque 135 La fonction Bêta incomplète est tabulée pour les di¤érentes valeurs des paramètres p; k; m. 7.5 Distribution de Fisher-Snédécor ou distribution F Proposition 136 Soient U et V deux variables aléatoires indépendantes distribuées respectivement suivant un 2(n1 ) et un 2(n2 ) . Alors, la variable aléatoire F = VU // nn12 est distribuée suivant la loi de Fisher-Snédécor de densité de probabilité f (y) dé…nie telle que : 8 n 1 (n1 +n2 ) < ( n21 + n22 ) n1 21 n1 1 2 n1 2 y 1 + y si y 2 R+ n1 n2 n n 2 2 f (y) = (2) (2) : 0 sinon Démonstration : La densité de probabilité conjointe des variables aléatoires U et V est dé…nie telle que : 1 g(u; v) = 2 n1 +n2 2 n1 2 n2 2 u n1 2 76 1 v n2 2 1 e (u+v) ou (u; v) 2 R2 Pour déterminer la densité de probabilité de la variable aléatoire F = VU // nn12 , considérons h une fonction continue à support compact et calculons : Z Z U / n1 u / n1 E fh(F )g = E h = h g(u; v)dudv V / n2 v / n2 n1 n2 Z +1 Z +1 u / n1 u 2 1 v 2 1 e (u+v) = h dudv 2 n2 n1 v / n2 2 n1 +n 2 0 0 2 2 Considérons le changement de variable dé…ni tel que : y = nn12u v t=v u = nn21 yt v=t =) Par ailleurs, le jacobien de la transformation est tel que : J= @ (u; v) = @ (y; t) n1 t n2 n1 y n2 0 1 = n1 t n2 D’où : E fh(F )g = Z = Z 0 +1 Z +1 h (y) 2 0 +1 h (y) 2 0 n1 +n2 2 n1 n2 n1 2 n1 n2 n1 +n2 2 n1 2 y n1 2 n1 2 n1 2 y 1 n1 2 n2 2 Z 1 n2 2 +1 t t n1 +n2 2 n1 +n2 2 1 e 1 e n 1 (1+ n1 y)t 2 2 n 1 (1+ n1 y)t 2 2 dtdy dt dy 0 Dans l’expression entre accolades nous procédons à un changement de variable tel que : n1 n1 1 x = (1 + y)t avec dt = 2(1 + y) 1 dx 2 n2 n2 Alors : Z +1 t n1 +n2 2 1 e n 1 (1+ n1 y)t 2 2 2 dt = (1 + 0 = 2 n1 +n2 2 n1 y) n2 n1 +n2 2 (1 + 77 n1 +n2 2 n1 +n2 2 n1 +n2 n1 y) 2 n2 Z 0 +1 x n1 +n2 2 1 e x dx Finalement : E fh(F )g = Z n1 +n2 2 +1 h (y) n1 n2 n1 2 0 n1 2 y n2 2 (1 + n1 2 1 dy n1 +n2 n1 y) 2 n2 Par conséquent, et d’après la proposition (9), la densité de probabilité de la statistique F est la fonction f (y) dé…nie telle que : f (y) = 7.5.1 n1 2 n1 n2 n1 +n2 2 n1 2 n1 2 y n2 2 1 (1 + n1 y) n2 n1 +n2 2 ; y 2 R+ Propriétés de la distribution de Fisher Moment d’ordre r de la distribution F Nous avons par dé…nition : n2 U n1 V mr (F ) = E = r n2 n1 r = n1 2 +r n1 2 n2 n1 n2 2 n2 2 r E (U r ) E V r r Remarque 137 Les moments de la distribution F existent uniquement à l’ordre r véri…ant la condition n1 < 2r < n2 . Alors, E(F ) = m1 (F ) = n2 n2 2 et V ar(F ) = 2n22 (n1 + n2 2) n1 (n2 2)2 (n2 4) La distribution de probabilité du F de Fisher peut s’exprimer en fonction d’une distribution Bêta. En e¤et, il est possible de montrer que la variable aléatoire 1+ n11 F est distribuée suivant la loi distribuée suivant la loi n2 n1 ; 2 . 2 n1 n2 ; 2 2 n2 Alors que la variable aléatoire . 78 n1 F n2 +n1 F est