Table des matières Cours 1. Loi de probabilité; espérance; moments…………………………………….. 5 2. Lois discrètes ; lois à densité………………………………………………… 10 3. Indépendance d'événements, de tribus, de variables aléatoires……………… 13 4. Caractérisation des lois……………………………………………………… 18 5. Suites de variables aléatoires; différentes sortes de convergence…………… 28 6. Echantillons d'une loi. Définitions et notations pour la suite……………….. 34 7. Estimateurs pour une loi normale…………………………………………… 35 8. Loi(s) des grands nombres…………………………………………………… 36 9. Le théorème de la limite centrale…………………………………………… 39 10. Jugement sur échantillon; intervalles de confiance et tests d'hypothèses…… 43 sur une moyenne. Annexes 1. Corrélation linéaire………………………………………………………….. 49 2. Produit dénombrable d'espaces probabilisés………………………………… 51 3. Théorème de Borel-Cantelli: loi du tout ou rien…………………………….. 53 4. Marches aléatoires…………………………………………………………… 55 5. Introduction aux chaînes de Markov finies………………………………….. 59 6. Processus de Poisson………………………………………………………… 65 7. Formule d'inversion pour X réelles et ΦX intégrable………………………… 69 8. Deux lois fortes des grands nombres………………………………………… 71 9. Une amélioration de l'inégalité de Bienaymé-Chebychev…………………… 75 10. Le test du ℵ2 d'ajustement…………………………………………………… 77 11. Méthodes de Monte-Carlo pour le calcul d'intégrales……………………….. 81 12. Examen de passage 1-2, 1999 (entropie d'un système aléatoire discret)…….. 91 13. Examen de passage 1-2, 2000 (sommes aléatoires de variables aléatoires)…. 95 14. Examen de passage 1-2, 2001 (loi du min, loi du max ; étude asymptotique).. 99 15. Lois classiques : récapitulatif………………………………………………… 103 Bibliographie………………………………………………………… 105 COURS 1) LOI DE PROBABILITE; ESPERANCE; MOMENTS On appelle espace probabilisé un espace mesuré (Ω,T,p) vérifiant la condition p(Ω) = 1. Ω est l'ensemble des possibles, ou événements élémentaires, et les éléments de T sont appelés événements. Exemple: la probabilité uniforme: Si Ω est fini non (vide) et si T est l'ensemble des parties de Ω, la probabilité uniforme p sur Ω est définie sur T par: Card A p(A) = Card Ω . Le calcul de la probabilité d'un événement se ramène alors à un problème de dénombrement. Par exemple: • La probabilité pour qu'en jetant 6 dés non truqués, on obtienne 6 résultats deux à deux distincts est 6! p = 6 # 0,015. 6 • La probabilité pour que parmi n personnes, au moins deux aient la même date de naissance (en n A365 supposant n ≤ 365 et qu'aucune de ces personnes ne soit née un 29 février) est pn =1 - 365n , soit n-1 k donc: pn = 1- ∏ (1-365). On obtient par exemple p4 # 0,016 et p64 # 0,997 ; pn dépasse 50% pour n=25. k=1 • Si, sur M tickets de loterie, n sont gagnants (avec n ≤M/2), la probabilité pour qu'un acheteur de n billets en ait au moins un gagnant est p = 1 - n CM-n n CM . Si D est une partie mesurable de mesure finie non nulle de Rd , λ(d) et T la mesure et la tribu de Lebesgue de D, la probabilité uniforme p sur D est définie sur T par: p(A) = λ(d)(A) . λ(d)(D) Par exemple, la probabilité pour qu'un nombre choisi au hasard dans l'intervalle [0,1] soit rationnel est nulle. Si B ∈T est un événement de probabilité ≠ 0, on définit sur (Ω,T) la probabilité conditionnelle sachant B , notée pB , par : p(A∩B) pB(A) = p(A/B) = . p(B) • p(A/B) = p(A) ⇔ p(A∩B) = p(A).p(B) • Si A, B ∈ T sont tels que p(A).p(B) ≠ 0, alors : p(A/B).p(B) = p(B/A).p(A) (formule d'inversion). • Si (Bk) est un système complet d’événements (i.e. une partition finie ou dénombrable de parties mesurables mesurables de Ω) de probabilités non nulles, alors : (ceci traduit l'indépendance de A et B; cf. paragr. 3). ∀A∈T : p(A) = ∑ p(A∩Bk) = ∑ p(A/Bk).p(Bk) (formule des probabilités totales) k k Si p(A) ≠ 0: ∀i : p(Bi/A) = p(A/Bi).p(Bi) (formule de Bayes). ∑ p(A/Bk).p(Bk) k Exemples: • Dans une population, la probabilité pour qu'un individu ait une maladie M donnée est p. On dispose d'un test T de dépistage, et l'on évalue à 0,95 la probabilité pour qu'une personne ayant respt: n'ayant pas - la maladie ait un test positif - respt. négatif). Evaluons l'efficacité du test sur la population en donnant la probabilité pour qu'une personne ayant un test positif ait effectivement la maladie. Notons T l'événement: "le test est positif" et M : "la personne a la maladie"; il vient: p(T/M).p(M) p(M/T) = = g(p) , p(T/M)p(M) + p(T/Mc)p(Mc) p(M) = p , p(Mc) = 1-p , p(T/M) = 0,95 , p(Tc/Mc) = 0,95 et p(T/Mc) = 0,05. 19p . g croît de 0 à 0,83 avec p. On trouve g(p) = 18p+5 Pour une population peu atteinte, le test sera très peu concluant (g(0,005) # 0,087). avec Le test est efficace à 50% pour p = 1/4. • Un fumeur décide de ne plus fumer; le jour (jour 1) de cette (sage) décision, il ne fume pas. On considère que, pour j ≥1: → la probabilité qu’il fume le jour j+1 sachant qu’il n’a pas fumé le jour j est α ∈ ]0,1[. → la probabilité qu’il ne fume pas le jour j+1 sachant qu’il a fumé le jour j est β ∈ ]0,1[. Cherchons la probabilité un pour qu'il ne fume pas le jour n (événement An): la formule des probabilités totales fournit, pour n ≥1: un+1 = (1-α-β)un + β , avec u1 = 1. On obtient par la méthode classique: β α β + .(1-α-β) n-1. Notons que lim un = : un = α+β α+β α+β n→ +∞ → Si 1-α > β (s'il lui est plus facile de ne pas fumer un jour s'il n'a pas fumé la veille), un tendra vers sa limite de façon monotone (en décroissant). → Si 1-α < β (s'il lui est plus facile de ne pas fumer un jour s'il a fumé la veille), un tendra vers sa limite en oscillant. → Si α + β = 1, un est constante et égale à cette valeur commune (logique). Supposons de plus que la décision de fumer ou non le jour j sachant son attitude adoptée les jours précédents ne dépend que de l'attitude adoptée le jour j-1 (suite sans mémoire; cf annexe: chaînes de Markov), et calculons la probabilité pour que le fumeur ne fume pas du jour n au jour q inclus (q>n): q q-1 q-1 q-1 q-1 hyp p( ∩ Ak ) = p( Aq / ∩ Ak ).p( ∩ Ak) == p(Aq/Aq-1 ). p( ∩ Ak ) = p1. p( ∩ Ak ); k=n k=n k=n k=n k=n q par récurrence, on obtient: p( ∩ Ak ) = (1-α)q-n.p(An). k=n Il en découle la probabilité pour qu'il ne fume plus à partir du jour n (avec Beppo-Levi): q p( ∩ Ak ) = lim p( ∩ Ak ) = 0, q→ +∞ k=n k≥n et celle pour qu'il s'arrête définitivement de fumer un jour: (!). p( ∪ ∩ Ak ) = 0 n k≥n Une variable aléatoire sur Ω (en abrégé v.a.) est une application mesurable de Ω dans K = R, C, Rd ou une de leurs parties (v.a. réelle; complexe; vecteur aléatoire de dimension d). Une v.a. à valeurs dans un ensemble fini ou dénombrable est dite discrète. On décrit une variable aléatoire X : Ω → K par les p({ω∈Ω, X(ω) ∈ A}) = p(X-1(A)) pour A borelien de K ; on note: p(X-1(A)) = p(X∈A) = pX(A) où pX est la mesure image de p par X (c'est une probabilité sur K), aussi appelée loi de X . Pour une v.a. discrète à valeurs dans un ensemble I (fini ou dénombrable), on note p(X-1({k})) = p(X=k) = pk pour k ∈I , et ainsi: pX = ∑ pk.δk , où δk désigne la mesure de Dirac en k. k∈I Si une v.a. X a pour loi la probabilité uniforme sur un ensemble ∆, on dit que X suit la loi uniforme sur ∆. On introduit une v.a. X sur un espace probabilisé Ω pour mesurer le résultat d'une expérience aléatoire (expérience renouvelable, en principe sinon en pratique, et qui, renouvelée dans des conditions "identiques", ne donne pas à chaque essai le même résultat). Pour étudier une expérience aléatoire, on modélise la situation en attribuant par exemple à certaines v.a. des lois connues, ce qui permet ensuite de faire des prévisions théoriques sur les résultats de l'expérience. Toute modélisation exige un choix; un modèle valide est un modèle qui, confronté avec les données recueillies lors de l'expérience, fournit des résultats satisfaisants (c'est l'objet de la statistique). Exemples: • Le lancer de trois dés non truqués peut se modéliser en considérant que les dés sont discernables et que le résultat (a1,a2,a3) obtenu suit la loi uniforme sur {1,…,6}3 . Déterminons les lois des v.a. X = min(a1,a2,a3) et Y = max(a1,a2,a3) en donnant la loi de (X,Y): 1 Pour 1 ≤ i ≤ 6 : p(X=i,Y=i) = p( (a1,a2,a3) = (i,i,i) ) = 3 . 6 Pour 1 ≤ i < j ≤ 6 (sans trop formaliser): 3 3 (X=i, Y=j) = ∪ ( ak = i , autres = j ) ∪ ∪ ( ak = j , autres = i ) k=1 k=1 3 ∪ ∪ ( i < ak < j , {autres} = {i,j} ) , et la réunion est disjointe; il suit: k=1 1 j-i-1 j-i 1 . p( X=i,Y=j) = 3. 3 + 3. 3 + 3.2. 3 = 6 6 36 6 Ce sont bien sûr les seuls événements de probabilités non nulles. Nous pouvons donner maintenant les lois de X et Y (à valeurs dans {1,…,6}): 6 6 j-i 1 3i2 - 39i +127 = . p(X=i) = ∑ p(X=i,Y=j) = 3 + ∑ 6 216 j=i j=i+136 j j-1 j-i 1 3j2- 3j +1 p(Y=j) = ∑ p(X=i,Y=j) = 3 + ∑ = . 6 216 i=1 i=1 36 Remarques: • La loi d’un couple (X,Y) de v.a. fournit fournit celles de X et Y, et d'une façon générale celle de ϕ(X,Y) pour toute fonction mesurable ϕ, avec: p( ϕ(X,Y) ∈ A ) = p(X,Y)( ϕ-1(A) ) = ⌠ ⌡dp(X,Y) = • ⌠ ⌡dp(X,Y)(x,y) . ϕ(x,y)∈A ϕ (A) Si X1,…,Xn sont n v.a. indépendantes et équidistribuées, on peut obtenir facilement les lois des v.a. S = sup(X1,…,Xn) et I = inf(X1,…,Xn) à l’aide de la fonction de répartition commune aux Xi (voir après). -1 • • Fouad et Taoufiq projettent de se rencontrer entre 0h et 1h, chacun d'eux ayant promis d'attendre l'autre 10 mn (ni plus, ni moins). Si l'on considère que (X,Y) = (heure d'arrivée de Fouad, heure d'arrivée de Taoufiq) suit la loi uniforme p sur [0,1]2, la probabilité qu'ils se rencontrent effectivement est: λ(2)(A) p1 = p( |X-Y| ≤ 1/6) = p(X,Y)(A) = (2) = λ(2)(A) , λ ([0,1]2) où A = {(x,y)∈[0,1]2, |x-y| ≤ 1/6}, soit donc (dessin) : 11 # 0,3. p1 = 1 - (5/6)2 = 36 La loi de Z = |X-Y| est décrite par: p(Z ≤ a) = 1- (1-a)2 = 2a-a2 sur [0,1] (loi à densité (cf paragr. 2). Si l'heure d'arrivée x de Fouad est fixée et si Y suit la loi uniforme p sur [0,1], la proba. p devient: on obtient: p2 = p( |x-Y| ≤ 1/6) = λ(1)(Ix) , où Ix = [0,1] ∩ [x-1/6,x+1/6] ; 1 1 1 → si x ∈ [ 0 , ] : Ix = [0 , x+ ]; p2 = x + ; 6 6 6 1 5 1 1 1 → si x ∈ [ , ] : Ix = [x - , x + ]; p2 = ; 6 6 6 6 3 5 1 7 → si x ∈ [ , 1 ] : Ix = [x - , 1 ]; p2 = - x . 6 6 6 Dans ces mêmes dernières conditions, la probabilité p3 d’une rencontre sachant que Fouad ne trouve personne en arrivant dévient, en notant Jx l'événement: [Taoufiq n'est pas là à l'heure x] (ie.: déjà parti, ou pas encore arrivé): p(Ix∩Jx ) p3 = p( |x-Y| ≤ 1/6 / Jx ) = ; on obtient cette fois: p(Jx) 1 1 1 Jx = ]x,1]; Ix∩Jx = ]x,x+ ]; p3 = ; → si x ∈ [ 0 , ] : 6 6(1-x) 6 1 5 1 1 1 → si x ∈ [ , ] : Jx = [0,x- [∪]x,1]; Ix∩Jx = ]x,x+ ]; p3 = ; 6 6 6 6 5 5 1 6(1-x) → si x ∈ [ , 1 ] : Jx = [0,x- [∪]x,1]; Ix∩Jx = ]x,1]; p3 = . 6 6 5 On note T la v.a. à valeurs dans N donnant en nombre d'heures la durée de vie d'une ampoule électrique (arrondie à l'heure inférieure ; on considére que p(T = ∞) = 0). On suppose que l'ampoule n'a pas de durée de vie limite fixée, i.e. : ∀ n ∈ N , p(T ≥ n) > 0. Si l'ampoule a tenu bon jusqu'à l'heure n, on note θn la probabilité de la voir griller avant l'heure n+1 : θn = p(T=n / T ≥n). La suite (θn) est le taux de panne de l'ampoule. Donnons la loi de T à l'aide des θn : Pour n entier, il vient: p(T ≥ n) = p(T=n) + p(T ≥ n+1) = p(T=n/T≥n).p(T≥n) + p(T ≥ n+1), n-1 (1) d'où pour n ≥1 (réc): p( T ≥n ) = ∏ (1-θk) (n ≥1) k=0 n-1 puis, pour n ≥1: p(T=n) = p(T≥n) - p(T≥n+1) = θn. ∏ (1-θk) , avec p(T=0) = θo. k=0 Le résultat (1) et l'hypothèse indiquent que la suite (θn) est à valeurs dans [0,1[ ; En outre, on a, par +∞ +∞ convergence décroissante: p( ∩ (T≥n) ) = 0 = ∏ (1-θn) ; n=0 n=0 +∞ Le produit infini est donc divergent, et par suite: ∑ θn = +∞ (série et produit ont même nature). n=0 +∞ Soit réciproquement une suite (θn) à valeurs dans [0,1[ telle que ∑ θn = +∞. On vérifie alors qu'en n=0 n-1 posant po = θo et pn = θn. ∏ (1-θk) pour n ≥1, on définit par p(T=n) = pn une v.a. T à valeurs dans N k=0 +∞ n-1 n de taux de panne (θn) (vérifier que ∏ (1-θn) = 0 et écrire pn = ∏ (1-θk) - ∏ (1-θk) pour constater n=0 k=0 k=0 +∞ que ∑ pn =1 ; prouver ensuite : [∀n ≥0 : p(T≥n) > 0] puis [∀n ≥ 0 : p(T=n/T≥n) = θn ] . n=0 Dans le cas où (θn) est constante ( = θ ∈ [0,1[ ) , la loi de T est donnée par: p(T=0) = θ ; ∀n ≥1 , p(T=n) = θ(1-θ)n . Si X : Ω → K est une v.a. et ϕ une application mesurable de K dans aussi ϕ(X)) soit intégrable sur Ω, on note C telle que la v.a. complexe ϕoX (notée E(ϕoX) = ⌠ ⌡ϕoX.dp = ⌠ ⌡ϕ.dpX . Ω K En particulier, si X est une v.a. complexe intégrable sur Ω, la valeur moyenne de X sur Ω est appelée espérance de X, et notée E(X), ou X (s'il n'y a pas d'ambiguité): ∀X ∈L1(Ω) : E(X) = X = ⌠ ⌡X.dp = ⌠ ⌡t.dpX(t). Ω C Si A est une partie mesurable de K : p(X∈A) = E(1AoX). Deux v.a. X et Y définies sur Ω et presque partout égales (dans le langage des probabilités, on dit plutôt: "presque sûrement" , en abrégé p.s.), suivent donc la même loi (car pour A mesurable dans K, 1AoX et 1AoY sont pp égales). La réciproque est évidemment fausse. (par exemple: on lance une pièce de monnaie non truquée et on note X la v.a. qui vaut 1 si le résultat est 1 pile, et 0 sinon: pX = p1-X = (δ0+δ1) et pourtant X et 1-X sont partout distinctes). 2 La connaissance de la seule moyenne d'une v.a. détermine assez peu celle-ci. Pour mesurer l'éparpillement des masses autour du centre de gravité, on introduit les moments de la v.a. lorsqu'ils existent. On notera, du fait que p est une mesure finie, les inclusions: Lq(Ω) ⊂ Lp(Ω) ⊂ … ⊂ L1(Ω) , pour q ≥ p ≥ 1. ( car |X|p ≤ 1 + |X|q pour q ≥ p ) Si X∈Lp(Ω;R) pour un p ∈ [1,+∞[ , on dit que X est d'ordre p; on définit pour k ∈ [1,p] le moment d'ordre k, le moment absolu d'ordre k, le moment centré d'ordre k et le moment absolu centré d'ordre k de X (ils dépendent uniquement de la loi de X): k k k k k E(Xk) = ⌠ ⌡X .dp = ⌠ ⌡t .dpX(t) ; E(|X| ) = ⌠ ⌡|X| .dp = ⌠ ⌡| t | .dpX(t) ; Ω Ω R k R k mk = E((X- X ) ) ; Mk = E(|X- X | ). Le moment (absolu) centré d’ordre 2 : m2 = M2 = E( (X- X )2 ) est noté V(X) et appelé variance de X ; sa racine carrée positive σ(X) est l’écart-type de X . La linéarité de E fournit : V(X) = E(X2) – E(X)2 (on a donc l'inégalité E(X)2 ≤ E(X2)); V(λX) = λ2V(X) (λ∈R) ; V(X-a) = V(X) (a∈R). La variance V(X) est nulle si et seulement si X est presque sûrement égale à sa moyenne. Hormis ce cas X-E(X) particulier, la variable σ(X) est centrée réduite , i.e. de moyenne nulle et de variance égale à 1. L'éparpillement des valeurs d'une v.a. réelle X d'ordre p autour de sa valeur moyenne est mesuré par l'inégalité: Prop 1. ∀ r > 0 : p( |X- X | ≥ r ) ≤ Pour p = 2 : p( |X- X | ≥ r ) ≤ Mp . rp σ2 où σ est l'écart-type de X (inégalité de Bienaymé-Chebychev). r2 (pour Y réelle positive intégrable et α > 0, on a : E(Y) = ⌠ ⌡Ydp ≥ ⌠ ⌡Y.dp ≥ r. ⌠ ⌡dp = r.p(Y≥ α), i.e. Ω Y≥α Y≥α E(Y) p(Y≥ α) ≤ (inégalité de Markov) ; il suffit alors d’appliquer ceci à Y = |X-E(X)|p et α = rp. α ---------------------------------------------------------------------------------------------------------------------------------------Annexe: corrélation linéaire. ---------------------------------------------------------------------------------------------------------------------------------------- 2) LOIS DISCRETES ; LOIS A DENSITE a) Lois discrètes : Soit X une v.a. à valeurs dans I, partie finie ou dénombrable de R, et pk = p(X=k) pour k∈I : pX = ∑ pk.δk. k∈I Si ϕ : I → C est une application (automatiquement mesurable ici), on a, lorsque cela a un sens : ∑ ϕ(k).pk . E(ϕ(X)) = ⌠ ⌡ϕ.dpX = k∈I I en particulier : E(X) = ∑ k.pk ; E(Xn) = ∑ kn.pk . k∈I k∈I Exemple : On lance une pièce ayant la probabilité p de tomber sur « pile » ; soit X la variable valant 1 si le résultat est pile, et 0 sinon: p(X=0) =1-p ; p(X=1) = p; la loi pX est appelée loi de Bernoulli B(p) de paramètre p. On obtient immédiatement: E(X) = p ; V(X) = p(1-p). b) Lois à densité dans un intervalle I de R: Soit f ∈ L+(I) telle que ⌠ ⌡f.dλ = 1 (λ désigne la mesure de Lebesgue sur I ). Une v.a. X à valeurs dans I suit la loi I à densité f sur I si pX = f.λ. (On dit aussi que X est absolument continue). Pour A ⊂ I mesurable, on a alors: p(X∈A) = pX(A) = ⌠ ⌡f.dλ A (d’où l’interprétation de la probabilité que X soit comprise entre deux réels a et b par une "aire sous la courbe de f entre x = a et x = b"). Cette formule est caractéristique d'une variable à densité f. Si X est absolument continue, on a p(X=x) = 0 pour tout x ∈ I. Pour ϕ mesurable de I dans C , il vient, si cela a un sens : E(ϕ(X)) = ⌠ ⌡ϕ.dpX = ⌠ ⌡ϕ.f.dλ I I En particulier : E(X) = ⌠ ⌡x.f(x).dx , …. I Exemples : Loi uniforme U(a,b) (a < b): On choisit « au hasard » un réel x entre a et b ; le résultat est décrit par la variable X. Pour A mesurable λ(A) 1 1 dans [a,b]: p(X∈A) = = .⌡dx : X suit la loi U(a,b) à densité f(x) = sur [a,b]. b-a b-a b-a ⌠ A b On obtient E(X) = ⌠b-a.dx = ⌡ x a+b (a-b)2 , et V(X) = . 12 2 a densité de U(a,b) 1 b-a a b Loi normale (ou de Laplace-Gauss) N(m,σ) (m∈R ; σ > 0): 1 (x-m)2 Loi d'une v.a. X de densité fm,σ(x) = .expsur 2σ2 σ. 2π R. La courbe de fm,σ est en cloche, symétrique par rapport à la droite d'équation [x = m], et possède deux points d’inflexion d’abscisses m±σ (et d'ordonnée commune 1 σ. 2πe ). C'est la loi utilisée généralement pour décrire la mesure expérimentale X d’une grandeur scalaire de valeur théorique m; σ est une constante positive dépendant des conditions dans lesquelles s’effectue la mesure (constante de précision). Beaucoup de variables peuvent être en première estimation considérées comme normales, i.e. comme suivant une loi N(m,σ). D'un point de vue concret, on doit à Emile Borel l'énoncé des conditions pratiques d'application de la loi normale: une variable X est distribuée normalement si: • Les facteurs de variation de X sont nombreux. • Les fluctuations de X dues à ces différents facteurs sont indépendantes les unes des autres. • La fréquence des grandes fluctuations est suffisamment petite. • Les fluctuations dues aux différents facteurs sont approximativement du même ordre de grandeur. En résumé, il en sera ainsi chaque fois qu'une grandeur X sera le résultat de causes nombreuses, indépendantes les unes des autres, et dont les effets propres sur X sont faibles isolément. La loi γ = N(0,1), de densité f(x) = 1 .exp(-x2/2) sur R, est centrée réduite. 2π 1 x-m Si X suit une loi à densité .f (m∈R,σ> 0), alors un simple σ σ X-m suit une loi à changement de variable permet de voir que σ densité f(x).Par suite: si X suit la loi N(m,σ), alors E(X) = m et V(X)= σ2. > with(stats) : > liste:=seq(statevalf[pdf,normald[0,k]],k=1..5): > plot({liste},-4..4); c) Lois à densité dans une partie mesurable D de Rd: (d) (d) Soit f ∈ L+(D) telle que ⌠ ⌡f.dλ = 1 (λ désigne la mesure de Lebesgue sur D). D Un vecteur aléatoire X = (X1,…,Xd): Ω → D est dit de densité f sur D si pX = f.λ(d) . (d) Pour ϕ : D → C mesurable, on obtient, si cela a un sens : E(ϕ(X)) = ⌠ ⌡ϕ.f.dλ . D Pour A mesurable dans D : p(X∈A) = ⌠ ⌡f.dλ (d) . A La propriété suivante est essentielle: Prop 2. fXi(t) = Si X = (X1,…,Xd) est à densité f sur Rd, alors chaque Xi est à densité fi sur R , avec: (d-1) ⌠ ⌡f(x1,..,xi-1,t,xi+1,..,xd).dλ (x1,..,xi-1,xi+1,..,xd). Rd-1 (avec X1 : on a, pour A mesurable dans R : p(X1∈A) = p(X∈A×Rd-1) = ⌠ ⌠f(x1,…,xd)dλ(d-1)(x2,..,xd)dλ(1)(x1) par Tonelli). ⌡d-1 ⌡R A Exemples : La loi uniforme sur une partie D mesurable de mesure finie non nulle de R 1 f = (d) .1D sur Rd. λ (D) d est donnée par la densité Soit un vecteur (X,Y) suivant la loi uniforme sur le disque D(O,1) de R2 , de densité f = X est à densité fX(x) = 1 .1 : π |D(O,1) 2 2 ⌠ ⌡f(x,y).dy = π. 1-x sur [-1,1],; fY est par symétrie donnée par la même formule. R 1 ⌠xydxdy = 0 (pour une raison de symétrie) ; π ⌡ D(O;1) il suit cov(X,Y) = 0: X et Y sont non corrélées (cf annexe 1 : corrélation linéaire). fX = fY étant paire, on a E(X) = E(Y) = 0, puis: E(XY) = (toutefois, on peut constater que f(X,Y) ≠ fX⊗fY : ceci s'interprétera par la dépendance de X et Y). La loi normale centrée réduite γ(2) = N(2)(O,1) sur R2: 1 x2+y2 2 .exp2π 2 sur R . Si (X,Y) suivent cette loi, on vérifie immédiatement que X et Y suivent la loi γ sur R . Elle est donnée par la densité f(x,y) = Densité de N(2)(0,1) Donnons la loi de X2+Y2: pour r ≥ 0, il vient (avec un passage en polaires): r r 1 -u/2 -t²/2 .e .du: ⌠t.e .dt = ⌠ ⌡ ⌡2 0 0 D(O, r) 2 2 la loi de X +Y est trouvée sur les intervalles [0,r], et donc entièrement déterminée: X2+Y2 suit la loi à 1 densité h2(u) = .e-u/2 sur R+ : c’est la loi exponentielle E(1/2) 2 La loi exponentielle E(λ) (λ > 0) est donnée par la densité f(x) = λ.e-λx sur R+. 1 p(X +Y ≤ r) = p[(X,Y)∈D(O, r)] = . 2π 2 2 2 2 ⌠ exp-x +y .dxdy = ⌡ 2 Densité de E(1) 1 .exp(-||x||2/2) (norme (2π)d/2 euclidienne). Soit V = (X1,…,Xd) suivant cette loi ; on vérifie immédiatement que X1, …,Xd suivent la loi γ sur R . En utilisant le résultat d’intégration des fonctions sphériques sur Rd : +∞ πd/2 d-1 f( ||x|| ).dx = d.V . .f(t).dt , avec V = , t ⌠ ⌠ d d ⌡ ⌡ Γ(d/2 +1) d 0 R on démontre (de la même manière que dans l’exemple précédent) que ||V||2 suit la loi à densité 1 .t(d/2) –1.e-t/2 sur R+ : c’est la loi du ℵ2 à d degrés de liberté. hd(t) = d/2 2 .Γ(d/2) Pour d = 2, on retrouve la loi exponentielle E(1/2). La loi normale centrée réduite N(d)(0,1) sur Rd est donnée par la densité f(x) = 3) INDEPENDANCE D’EVENEMENTS, DE TRIBUS, DE VARIABLES ALEATOIRES (Ω,T,p) désigne un espace probabilisé. Si I est un ensemble (d'indices), Pf (I) désigne l'ensemble des parties finies de I. Une famille (Ai)i∈I d’éléments de T est dite [mutuellement] indépendante si: ∀K ∈ Pf (I) : p( ∩ Ai ) = ∏ p(Ai ). i∈K i∈K Une sous-famille d'une famille indépendante est indépendante. L’indépendance d’événements implique leur indépendance deux à deux, mais la réciproque est fausse. Par exemple : on lance deux dés non truqués dont les résultats sont notés a, b (i.e.: (a,b) suit la loi uniforme sur {1,…,6}2 ); considérons A = {a pair} ; B = {b impair} ; C = {a et b de même parité}: on a: p(A) = p(B) = p(C) = ½ ; p(A∩B) = p(A∩C) = p(B∩C) = ¼ : A, B et C sont deux à deux indépendants, mais p(A∩B∩C) = 0 ≠ 1/8 : A, B et C ne sont pas (mutuellement) indépendants. n n D’autre part, la formule p( ∩ Ak ) = ∏ p(Ak) n’entraîne pas (pour n ≥ 3) l’indépendance de la famille k=1 k=1 (A1,…,An) ; prendre par exemple A tel que p(A) ∈ ]0,1[et considérer A, A et ∅. On remarquera aussi que si (A,B) est indépendante, alors (A,Bc), (Ac,B) et (Ac,Bc) le sont (par un petit calcul immédiat). Enfin, A est indépendant de lui-même si et seulement si p(A) = 0 ou p(A) = 1. Une famille (Ti)i∈I de parties de T est dite (mutuellement) indépendante si toute famille (Ai)i∈I avec Ai ∈ Ti pour chaque i est indépendante. Voici un critère d'indépendance pour une famille de sous-tribus de T: Prop 3. Si pour chaque i ∈ I, Ti est une sous-tribu de T engendrée par une partie Ci stable par intersection finie, alors l'indépendance de (Ci)i∈I entraîne celle de (Ti)i∈I . (pour une démonstration, voir par exemple Buchwalter, le calcul intégral p61; elle utilise le théorème de Dynkin, p.20 du même livre). Exemple: si (Ai)i∈I est indépendante, alors ( {∅,Ai,Aic,Ω} )i∈I l'est aussi. Application: calcul de l'indicateur d'Euler ϕ(n) d'un entier n ≥ 2: ϕ(n) = Card { k ∈ [[1,n]] , k∧n = 1} = n.p(A), où Ω = {1,…,n} est muni de sa tribu discrète et de la probabilité p uniforme, et A = {k∈Ω , k∧n = 1}. Notons p1 < p2 < … < pr les diviseurs premiers de n; il vient : r Ac = { k∈Ω , ∃ j∈[[1,r]], k ∈ pj.N } = ∪ Apj où Apj = pj.N ∩ Ω. j=1 Pour d divisant n (n = λd), l'événement Ad = d.N ∩ Ω des multiples de d dans Ω a pour probabilité: Card {d, 2d, …, λd} λ 1 = = p(Ad) = n d n Pour toute partie J de {1,…,r}, on a immédiatement: ∩ Apj = A ∏ pj , j∈J j∈J 1 et donc: p ∩ Apj = pA ∏ pj = = ∏ p(Apj) , ( j∈J ) j∈J ∏ pj j∈J j∈J ce qui traduit l'indépendance de la famille (Apj )j= 1,…,r . c Par voie de fait, la famille (Apj )j=1,…,ϕ(n) est indépendante; il en découle r r r c ϕ(n) 1 c = p(A) = p ∩ Apj = ∏ p(Apj) = ∏ 1 - . n p j j=1 j=1 j=1 Si X : (Ω,T) → (K,∑) est une v.a., la sous-tribu ∑X = X-1(∑) de T est appelée tribu engendrée par X (c’est la plus petite tribu que l’on peut placer sur Ω pour rendre X mesurable). Une famille (Xi: Ω → (Ki,∑i))i∈I de v.a. est dite (mutuellement) indépendante si la famille des tribus (∑iXi)i∈I est indépendante, c'est à dire si: ∀J ∈ Pf ( I ) , ∀(Bi)i∈J ∈ ∏ ∑i : p( ∩ (Xi ∈Bi) ) = ∏ p(Xi ∈Bi). i∈J i∈J i∈J Une sous-famille d'une famille de v.a. indépendantes est indépendante. Prop 4. Une famille finie (Xi)1≤i≤n de v.a. est indépendante ssi p (si (Xi) est indépendante, alors ∀(Ai): p mesure produit p ⊗ … ⊗ p X1 Xn (X1,…,Xn) (X1,…,Xn) =p ⊗…⊗p X1 Xn . (A1×…×An) = p (A1). … . p (An) (*): on reconnaît la X1 Xn (c'est la seule à vérifier ceci). Réciproquement, si (*) est vérifiée, on retrouve l'indépendance de (Xi) en prenant, pour J ⊂ {1,…,n}, Aj = Kj lorsque j ∉ J. Les deux propositions suivantes sont importantes en pratique: Prop 5. Si (Xi: (Ω,T) → (Ki,∑i))i∈I est indépendante et si (ϕi : Ki → (Li,Λi)i∈I est une famille d'applications mesurables, alors (ϕi(Xi))i∈I est indépendante. C'est clair. Par exemple, l’indépendance de deux v.a. réelles X et Y entraîne celle de X2 et Arc tanY, de tX et tY (t >0) et de eitX et eitY (t réel). Attention aux idées intuitives sur l'indépendance: Soient deux v.a. X et Y indépendantes définies sur (Ω,T,p), à valeurs dans {-1,1}, de même loi 1 2 pX = pY = .δ-1 + .δ1 , et (U,V) = (X, sgn(X).Y). 3 3 2 2 2 2 Les v.a. U = X et V = Y sont indépendantes, mais U et V ne sont pas indépendantes; en effet: p(U=1,V=1) = p(X=1,Y=1) = p(X=1).p(Y=1) = 4/9 , tandis que p(U=1).p(V=1) = p(X= 1).[p(Y=1/X=1)p(X=1)+p(Y= -1/X= -1)p(X= -1)] = p(X=1).[p(Y=1)p(X=1)+p(Y= -1)p(X= -1) = 10/27 ≠ 4/9. Prop 6. Soient (Xi : (Ω,T) → Ki)1≤i≤n et (Yj : (Ω,T) → Lj)1≤j≤m des variables aléatoires ; si la famille (X1,…,Xn,Y1,…,Ym) est indépendante, alors X = (X1,…,Xn) et Y = (Y1,…,Ym) sont des vecteurs aléatoires indépendants. m n Conséquence: si f : ∏ Ki → E et g : ∏ Lj → F sont des applications mesurables, alors f(X1,..,Xn) et g(Y1,..,Ym) j=1 i=1 sont indépendantes. n m i=1 j=1 Démonstration : on vérifie l'égalité que pX,Y et pX⊗pY sont égales sur les pavés de la forme ∏ Ai× ∏ Bj n m (famille stable par intersection finie et génératrice de la tribu (produit) de ∏ Ki× ∏ Lj ): i=1 j=1 n m n m i=1 j=1 i=1 j=1 pX,Y ( ∏ Ai× ∏ Bj) = p(X∈ ∏ Ai ,Y∈ ∏ Bj ) = p(X1∈A1,…,Xn∈An,Y1∈B1,…,Ym∈Bm) m n m n m indép n indép === ∏ p(Xi∈Ai). ∏ p(Yj∈Bj) === p(X∈ ∏ Ai).p(Y∈ ∏ Bj) = (pX⊗pY)( ∏ Ai× ∏ Bj), i=1 j=1 i=1 j=1 i=1 j=1 d’où le résultat. La conséquence provient de la proposition 5. Exemple : si X,Y, Z, T sont des v.a. réelles indépendantes, alors X2Y et Z+T sont indépendantes… n Prop 7. Si (Xi)1≤i≤n est une famille indépendante de v.a. réelles intégrables, alors ∏ Xi est intégrable, et l'on a: i=1 n n E( ∏ Xi ) = ∏ E(Xi) . i=1 i=1 Démonstration: grâce à la proposition 6 , on se ramène au cas de deux variables X, Y indépendantes: Si X et Y sont réelles positives, le résultat provient de Tonelli (calcul a priori dans [0,+∞]): +∞ +∞ +∞ +∞ E(XY) = ⌠ ⌡xyd(pX⊗pY) = ⌠ ⌡xy.dpX,Y = ⌠ ⌡xdpX . ⌠ ⌡ydpY = E(X).E(Y) < +∞ . 0 0 0 0 Dans le cas général, le résultat précédent appliqué aux v.a. indépendantes |X] et |Y| fournit l’intégrabilité de XY et on retrouve la même formule grâce au théorème de Fubini. Deux variables indépendantes sont donc non corrélées; on verra que la réciproque est fausse. Deux v.a. réelles intégrables peuvent avoir un produit non intégrable; par exemple, avec Ω = ]0,1] et p = λ, X: t → t-1/2 est intégrable, mais X2 ne l'est pas. n n Prop 8. Si X1,…,Xn sont des v.a. réelles d'ordre 2 deux à deux indépendantes, alors V( ∑ Xk) = ∑ V(Xk). k=1 k=1 (c'est même vrai pour des v.a. deux à deux non corrélées). Exemples: Loi binomiale B(n,p) (n ≥ 1; 0 < p < 1): C'est la loi suivie par la somme X de n v.a. de Bernoulli X1,…,Xn de paramètre p indépendantes. X est donc à valeurs dans {0,…,n}, avec, pour 0 ≤ k ≤ n: disjointe ∩ [Xj=1] ∩ ∩ [Xj=0] , ∪ ] j∉A A⊂{1,..,n} [ j∈A |A|=k k d'où, compte tenu de l'indépendance des Xi : p(X=k) = Cn.pk(1-p)n-k pour 0≤ k ≤ n. [X=k] = On obtient E(X) = ∑E(Xi) = np et V(X) = ∑V(Xi) = np(1-p). p(X=k) 0,30 - 0,20 - B(n,p) n=10 p = q = 1/2 p (X = k ) 0,40 - B (n , p ) n= 10 p = 0,1 0,30 - 0,10 - 0,20 - 0,05 - 0,10 - 1 2 3 4 5 6 7 8 9 10 k 1 2 3 4 5 6 7 8 9 10 k On notera que l''allure du diagramme en bâtons est différente suivant que p et q sont voisins, ou non proches de 0. a) On effectue n lancers successifs d’une pièce ayant à chaque lancer la probabilité p de tomber sur « pile » ; en considérant que les v.a. de Bernoulli donnant le résultat de chaque lancer sont indépendantes, la v.a. X donnant le nombre de « pile » obtenus suit la loi binomiale B(n,p). Pour p = ½ (pièce non truquée), la moyenne des « piles » obtenus est E(X) = n/2 (prévisible). b) On lance une flèche vers une cible circulaire de centre O et de rayon 1; on suppose que le couple (X,Y) représentant les coordonnées du point d'impact sur le mur où est fixée la cible suit la loi γ(2). 1 Nous avons vu que X2+Y2 suit la loi exponentielle E(1/2), de densité .e-t/2 sur R+; la probabilité p pour 2 1 1 e-t/2dt = 1-e-1/2 # 0,39. que la flèche touche la cible est donc: p = p(X2+Y2≤1) = .⌡ 2⌠ 0 Si l'on effectue n lancers dont les résultats seront supposés indépendants, le nombre Zn de flêches qui atteindront la cible suit la loi B(n,p). En particulier: p(Zn≥ 1) = 1 - (1-p)n = 1 - e-n/2 . Pour avoir par exemple p(Zn≥1) ≥ 0,9, il faudra donc: 1- e-n/2 ≥ 0,9, ce qui équivaut à n ≥ 2.ln 10 # 4,60 : il faudra au moins 5 lancers pour que la probabilité qu'au moins une flèche atteigne la cible soit ≥ 0,9. Loi multinomiale B(n ; p1,…,pr) (n≥1; r ≥1 ; 0 < p1,…,pr < 1): On considère une urne U contenant des boules de r couleurs différentes c1, …,cr , la probabilité de tirer r une boule de couleur ci étant donnée par la proportion pi de boules de cette couleur dans U ( ∑ pi = 1). i=1 On effectue n tirages successifs avec remise d'une boule dans U, et on note X = (X1,…,Xr), où Xk est le nombre de boules de couleur ck tirées. r X est à valeurs dans D = {k=(k1,…,kr) ∈ Nr, ∑ ki = n}. i=1 Pour j ∈ {1,…,n}, notons Yj la couleur obtenue au jème tirage, et considérons que (Yj) est indépendante; on a: ∀j ∈ {1,…,n} , ∀i ∈ {1,…,r} : p(Yj = ci ) = pi Pour k = (k1,…,kr) ∈ D, il vient, en notant Ak l'ensemble des partitions (L1,…,Lr) de {1,…,n} telles que |Li| = ki pour i ∈ {1,…,r}: disjointe r ∩ ∩ [Yj= ci] ∪ [X=k] = (L1,…,Lr)∈Ak i=1 j∈Li k1 k2 kr n! et l'indépendance des Yj , il vient: Avec |Ak| = Cn .Cn-k …Cn-k -…-k = k1!k2!…kr! 1 1 r-1 p(X=k) = kr k1 k2 n! . p .p …pr . k1!k2!…kr! 1 2 On dit que X suit la loi multinomiale B(n;p1,…,pr). On notera que chaque Xi suit la loi B(n,pi), et que X1+…+Xr = n. Les Xi ne sont bien sûr pas indépendantes. k1,…,kr = Remarque: pour k1+…+kr = n, le coefficient multinomial Cn n! est aussi le nombre de k1!k2!…kr! n-uplets (a1,…,an) de {1,…,r}n où i apparaît ki fois pour i ∈ {1,…,r}. 2,2,2,2 = 2520. Par exemple : le nombre d'anagrammes du mot COUSCOUS est C8 1,…,1 (lorsque r = n et k1= …= kr = 1, on retrouve le nombre de permutations de {1,…,n} : Cn = n!). Loi géométrique G(p) (0 < p < 1): C'est la loi d'une v.a. X à valeurs dans N* , avec: p(X=k) = p(1-p)k-1 pour k ≥1. (déjà rencontrée au paragr.1; cf taux de panne constant). +∞ 1 1 1-p A l'aide de f(t) = ∑ tk = , en calculant f '(1-p) et f "(1-p) on trouvera E(X) = et V(X) = 2 . 1-t p p k=0 p(X=k) 0,25 0,20 - G(1/4) 0,15 0,10 0,05 1 2 3 4 5 6 7 8 9 k Exemple : On effectue des lancers successifs d'une pièce ayant à chaque fois la probabilité p de tomber sur "pile" ; on note X l'ordre du premier "pile" obtenu. On modélise l'expérience en considérant que les résultats de chaque lancer sont indépendants et que X suit la loi géométrique G(p). Si p = ½, on obtient E(X) = 2. Si Z désigne le nombre minimal de pièces à lancer pour obtenir 1 pile et 1 face (i.e. Z = inf {k≥2, {X1,…,Xk} = {pile,face}}, on a: ∀k ≥2: P(X=k) et E(X) = = = P(X1 = … = Xk-1 = pile, Xk = face) + P(X1 = … = Xk-1 = face, Xk = pile) pk-1(1-p) + p(1-p)k-1. 1 est minimale de valeur 1/4 pour p = 1/2 (pièce non truquée). p(1-p) Remarque: l'idée qui mène à cette modélisation est la suivante: notant Xk le résultat du kème lancer, on écrit P(X=k) = P(X1=face,…,Xk-1 = face, Xk = pile) = p(1-p)k-1 avec l'indépendance. Pour valider le modèle, il est nécessaire de définir la probabilité P que l'on utilise, soit donc l'espace (Ω,T,P) de départ de P. Comme nous effectuons en théorie une infinité de lancers, l'ensemble Ω est ici celui des suites (xn)n≥1 à valeurs dans {pile,face} et (Xn) est la suite des applications coordonnées de Ω dans S. Il s'agit donc de définir T et P de sorte que les Xn soient mesurables et indépendantes pour P, et que : ∀n, P(Xn = pile) = 1- P(Xn = face) = p. On pourra lire pour ceci: Annexe: produit dénombrable d'espaces probabilisés. ----------------------------------------------------------------------------------------------------------------------------Autres annexes: Théorème de Borel-Cantelli (loi du tout ou rien). Marches aléatoires. Introduction aux chaînes de Markov (espace d’états fini). ----------------------------------------------------------------------------------------------------------------------------- 4) CARACTERISATION DES LOIS a) Fonction génératrice d'une variable à valeurs dans N : Soit X une v.a. à valeurs dans N; on introduit la fonction génératrice de X : GX(t) = ∑ pk.tk = E(tX) . k Que X(Ω) soit fini ou non, l'égalité ∑ pk = 1 indique que GX est définie et continue sur [0,1], et C∞ sur [0,1[ (au k moins; GX est même définie et continue au moins sur D(O,1) ⊂ C ). (k) GX caractérise la loi de X par les formules pk = p(X=k) = GX (0) k! . La v.a. X est intégrable si et seulement si GX est de classe C1 sur [0,1] ; le cas échéant, on a E(X) = G’X(1). +∞ Démonstration: sur [0,1[ , on a G’X (t)= ∑ k.pk.tk-1 ; k=1 +∞ Si X est intégrable: ∑ k.pk = E(X) < +∞ , donc ∑ k.pk.tk-1 cvn sur [0,1] et G'X a pour limite E(X) en 1; k k=1 par le théorème de limite de la dérivée: GX est C1 sur [0,1] et G'X(1) = E(X). Si GX est C1 sur [0,1] , G'X n est en particulier bornée par un M > 0 sur [0,1[; il en découle: (∀n): 0 ≤ ∑ k.pk.tk-1 ≤ M ; passons à la k=1 n limite quand t tend vers 1: (∀n): 0 ≤ ∑ k.pk ≤ M : ∑ k.pk ayant ses sommes partielles majorées est k k=1 convergente. Par récurrence, on prouve pour n ≥1 l’équivalence : X est d’ordre n ⇔ GX est de classe Cn sur [0,1] ; (k) le cas échéant, on a E(X(X-1)…(X-k+1)) = GX (1) pour k = 1, …, n . Prop 9. La fonction génératrice est donc appropriée au calcul des moments de X. Exemples: • Si X suit la loi géométrique G(p) sur N*, on obtient GX(t) = pt 1 : GX est C∞ sur [0, [ et donc 1-t+pt 1-p 1-p sur [0,1]. E(X) = 1/p ; V(X) = p2 . • Une v.a. X à valeurs dans N suit la loi de Poisson P(λ) (λ>0) lorsque: p(X=k) = e-λ. λk ( k≥ 0). k! On obtiendra: GX(t) = eλ(t-1) ; E(X) = V(X) = λ. La loi de Poisson est utilisée dans l'étude de phénomènes rares (appelée aussi loi des petites probabilités; voir l'annexe sur le processus de Poisson): elle intervient dans les descriptions de phénomènes résultant de l'effet cumulatif d'un grand nombre d'événements peu probables. p (X = k ) 0,30 - P (2 ) 0,20 - 0,10 - 1 2 3 4 5 6 7 k A un embranchement routier, les véhicules peuvent prendre l'une des directions A ou B. On considère que la v.a. X donnant le nombre de véhicules arrivant pendant un intervalle de temps d'1 heure suit une loi de Poisson P(λ), et que chaque véhicule arrivant à l'embranchement a la probabilité p de prendre la direction A. On cherche la loi de la v.a. Y donnant le nombre de véhicules qui prennent la direction A dans un intervalle de temps d'1 heure. Faisons l'hypothèse que les véhicules arrivant choisissent leur direction de façon indépendante, de sorte que la loi conditionnelle de Y sachant que X=n est donc la loi B(n,p); il suit, pour k entier: +∞ +∞ k λn (λp)k +∞ (λ(1-p))n-k (λp)k . ∑ = e-λp. p(Y=k)= ∑ p(Y=k / X=n ).p(X=n) = ∑ Cn .pk(1-p) n-k.e-λ. = e-λ. n! k! n=k (n-k)! k! n=k n=k Y suit donc la loi de Poisson P(λp). Remarque: le choix de la loi de Poisson pour la v.a. X se justifiera pleinement bientôt: considérons que l'on a relevé une moyenne de λ véhicules se présentant à l'embranchement par heure et que; pour N véhicules circulant dans la région, notons po la probabilité qu'un véhicule passe effectivement par l'embranchement; moyennant une condition d'indépendance naturelle, le nombre X des véhicules qui se présentent suit alors la loi B(N,po), de moyenne Npo ; on obtient ainsi: po = λ/N, et X suit la loi B(N,λ/N); pour N grand, on approxime cette loi par P(λ) (voir le paragraphe 5). n Prop 10. Si X1, …, Xn sont des v.a. à valeurs dans N indépendantes, alors GX1+…+Xn = ∏ GXk . k=1 Xk (c’est immédiat, avec l’indépendance des v.a. t ). Exemples : "~" signifie: "suit la loi". • Si X ~ B(n,p): X est la somme de n v.a. de Bernoulli indépendantes: GX(t) = (tp+1-p)n . On retrouve E(X) = np, E(X2-X) = (n2-n)p2 , V(X) = np(1-p). • Si X et Y sont indépendantes: X ~ B(n,p), Y ~ B(m,p) ⇒ X+Y ~ B(m+n,p) (car GX+Y(t) = (tp+1-p)n+m). X ~ P(λ), Y ~ P(µ) ⇒ X+Y ~ P(λ+µ). (car GX+Y(t) = e(λ+µ)(t-1) ). b) Fonction de répartition d'une v.a. réelle ou à valeurs dans Rd : Si X est une v.a. réelle, la fonction FX : x → p(X≤x) = pX(]-∞ ;x]) = ⌠ ⌡dpX est appelée fonction de répartition ]-∞,x] de X ; elle caractérise la loi de X . On vérifie immédiatement que lim FX = 0 , lim FX = 1 , FX est croissante, continue à droite, et le saut à gauche en -∞ +∞ un réel x est FX(x) – FX(x-) = p(X=x). La croissance est claire; il suffit ensuite de remarquer que (qd n → +∞ ): ]-∞,-n] ↓ ∅ ; ]-∞,n] ↑ R ; ∀x : ]-∞, x-1/n] ↑ ]-∞,x[ ; ]-∞,x +1/n] ↓ ]-∞,x]. Certains ouvrages prennent pour définition FX(x) = p(X<x), ce qui donne la continuité à gauche et le saut à droite. Si X est une v.a. réelle et positive, la fonction de répartition FX fournit les moments de X (lorsqu’ils existent) par +∞ ∞ n-1 la formule : E(Xn) = ⌠ ⌡n.t .(1-FX(t)).dt. On le prouve par le théorème de Tonelli : 0 +∞ n n E(Xn) = ⌠ X .dp = ⌠ ⌡ ⌡x .dpX(x) = Ω 0 +∞ +∞ 0 0 x n-1 ⌠+∞ ⌠ n-1 .dt dp (x) n.t = X ⌠ ⌠ ⌡ ⌡dpX(x).n.t .dt ⌡ 0 ⌡ t +∞ On retiendra en particulier la formule: E(X) = ⌡ ⌠p(X > t).dt pour X positive intégrable. 0 ( l’ensemble {t≥0, p(X=t) > 0} est au plus dénombrable : c’est l’ensemble des points de discontinuité d’une fonction croissante). Cette formule fournit par comparaison série-intégrale un encadrement souvent utilisé dans des +∞ applications du lemme de Borel-Cantelli: si X est une v.a. positive, alors E(X)-1 ≤ ∑ p(X≥n) ≤ E(X). n=1 En particulier, X est intégrable si et seulement si ∑p(X≥n) converge. Si X est discrète, FX est en escaliers (c’est même une équivalence). x Si X est à densité f sur R, alors pour tout réel x : FX(x) = ⌡ ⌠f(t)dt (et FX est continue). -∞ ∞ Cette formule caractérise une v.a. à densité f ∈ L+(R) d’intégrale égale à 1; en tout point x où f est continue, FX est alors dérivable, avec : FX’(x) = f(x). Exemples : • Si X suit la loi N(0,1) : FX(x) = 1 x .⌠exp(-t²/2).dt 2π ⌡ -∞ vérifit FX(0) = ½ et FX(-x) = 1-FX(x) : la courbe de FX est symétrique par rapport au point (0,1/2). Des tables de valeurs sont données, qui permettent d’obtenir p(a ≤ X ≤ b) = FX(b) – FX(a). Fon cti o n de ré pa rti ti on d e N(0,1 ) • Si X suit la loi uniforme sur [a,b] : FX est nulle sur ]-∞,a], égale à 1 sur [b,+∞[ et vaut x-a sur [a,b]. b-a fct° de répartition de U(a,b) 1 a b Soit θ une v.a. suivant la loi uniforme sur ]-π/2,π/2[ et X = tg θ; la loi de X est décrite par: x Arc tg x + π/2 1 ⌠ du FX(x) = p(tg θ ≤ x) = p(θ ≤ Arc tg x) = = . : X suit sur R la loi à densité π π ⌡1+u² -∞ 1 1 f(x) = . 2 , appelée loi de Cauchy de paramètre 1; on remarquera que X n’est pas intégrable. π 1+x 1 a La loi de Cauchy C(a) de paramètre a > 0 est donnée par la densité f(x) = . 2 2. π a +t Densité de C(1) fct° de répartition de C(1) • Soit (X,Y) un couple de v.a. réelles à densité f sur R2 ; X étant absolument continue, l’événement X=0 est de probabilité nulle, et on peut définir presque partout la v.a. Q = Y/X Donnons la loi de Q en calculant sa fonction de répartition pour z réel : ⌠f(x,y)dxdy = ⌠ ⌡ ⌡f(x,y)dxdy + ⌠ ⌡f(x,y)dxdy = ⌠ ⌡f(x,y)dxdy + ⌠ ⌡f(-x,-y)dxdy FQ(z) = p(Y/X≤z) = y/x ≤ z y≤zx y≥zx y≤zx y≤zx x>0 x<0 x>0 x>0 z +∞ +∞ zx z +∞ ⌠ ⌠ Fubini ⌠ ⌠x(f(x,tx)+f(-x,-tx))dxdt === [f(x,y)+f(-x,-y)]dy dx = x.[f(x,tx)+f(-x,-tx)]dt dx = ⌠ ⌠ ⌡ ⌡ ⌡ ⌡-∞ 0 ⌡-∞ 0 +∞ Q est à densité fQ(t) = -∞ +∞ ⌠ ⌡x(f(x,tx)+f(-x,-tx)).dx = ⌠ ⌡|x|.f(x,tx)dx. 0 (2) Si (X,Y) suit la loi N (0,1), on trouve fQ(t) = • ⌡ 0 -∞ 1 : Q suit la loi de Cauchy C(1). π(1+t²) Taux de panne; loi sans mémoire: Notons T la v.a. donnant l’instant de la première panne d’une machine (T ≥ 0) et supposons T à densité f continue sur R+. On note F sa fonction de répartition (F(0) = 0 ; f(t) = F’(t)) et on définit le taux de panne instantané de la machine à l’instant t ≥ 0 : F(t+h)-F(t) f(t) 1 = , λ(t) = lim . p(t ≤ T ≤ t+h / T ≥t ) = lim h.(1-F(t)) 1-F(t) h h→ 0 h→ 0 de sorte que F satisfait à l’équation différentielle F’ = -λ.F + λ , et est donc de la forme : t → F(t) = 1 + α.e-Λ(t) , où Λ est une primitive de λ sur R+. La condition F(0) = 0 fournit α = -eΛ(0), soit donc : F : t → 1 – e-Λ(t) , où Λ est la primitive de λ qui s’annule en 0. Pour un modèle de sortie d'usine, on modélise le risque d'une défectuosité de construction possible par un taux de panne important pour les faibles valeurs de t. Pour une machine en passe d'être usée, on prend un taux de panne important pour les grandes valeurs de t. Pour une machine rodée, et avant de voir apparaître des signes d’usure, on peut faire l’hypothèse naturelle d’un taux de panne constant λ(t) = λ > 0. On obtient alors : F : t → 1 – e-λt , et f : t → λ.e-λt sur R+ : T suit donc la loi exponentielle E(λ) ; elle est intégrable de moyenne τ = 1/λ, et la quantité e-λt.(1-e-λh) p( T ∈[t,t+h] / T ≥ t ) = = 1 – e-λh = p( T ∈ [0,h] / T≥0) e-λt est indépendante de T . On retrouve la distribution exponentielle dans la plupart des expériences où la probabilité qu'un événement se produise dans un laps de temps [T,T+h] sachant qu'il ne s'est pas produit avant est indépendante de son histoire antérieure (durée de vie d'une particule, temps d'attente à un guichet,…). Cette condition caractérise la loi exponentielle par le fait qu'elle n'a pas de mémoire. Si X = (X1,…,Xd) est un vecteur aléatoire à valeurs dans Rd, on définit de même la fonction de répartition de X, ou fonction de répartition conjointe de X1, …,Xd par : FX(x) = p(X≤ ≤x) = p(X1≤x1,…,Xd ≤ xd) pour tout d-uplet x = (x1,…,xd) de réels. De même, FX caractérise la loi de X, et une v.a. X à densité f sur Rd se reconnaît par la formule FX(x1,…,xd)) = ⌠ ⌡ f(t1,…,td).dt1…dtd . ∞,xi] ∏]-∞ Prop 11. Soient X1,…,Xn des v.a. réelles. Alors (X1,…,Xn) est indépendante ⇔ F =F ⊗…⊗F . X1,…,Xn X1 Xn Si chaque Xi est à densité fi sur R , alors (X1,…,Xn) est indépendante ⇔ (X1,…,Xn) est à densité f = f1⊗…⊗fn. Démonstration: Pour la première équivalence, le sens direct est clair; réciproquement, l'égalité F X1,…,Xn = F ⊗…⊗ F X1 Xn n fournit l’égalité des mesures p et p ⊗ … ⊗ p sur les ∏ ]-∞,xk], d'où (théorème d’unicité) X1,…,Xn X1 Xn k=1 l’égalité de ces mesures, et l’indépendance des v.a. X1, …,Xn. Dans le cas de v.a. à densité: (X1,…,Xn) est indépendante si et seulement si on a: t n k Tonelli ∀(t1,…,tn): F (t1,…,tn) = ∏ ⌡ ⌠fk(uk)duk === ⌠f1(u1)…fn(un).du1…dun , ⌡ X1,…,Xn k=1 ∏]-∞,tk] -∞ i.e. si et seulement si (X1,…,Xn) est à densité f1⊗…⊗fn. Exemples: • (X1,…,Xd) suit la loi N(d)(0,1) ⇔ [chaque Xi suit la loi N(0,1) et (X1,…,Xd) est indépendante]. • Si (X,Y) suit la loi uniforme sur D(O,1), X et Y sont non corrélées, mais non indépendantes (cf. le paragraphe 2: f(X,Y) ≠ fX⊗fY ). • (X,Y) suit la loi uniforme sur A2 ⇔ [ X et Y suivent la loi uniforme sur A et sont indépendantes]. Calculons la probabilité pour qu'en pliant une tige de longueur L en deux points choisis au hasard, on puisse former un triangle: On note X et Y les abscisses des deux points: X et Y suivent la loi uniforme sur [0,L], et sont supposées indépendantes, ce qui revient à dire que (X,Y) suit la loi uniforme sur [0,L]2. Posons U = min(X,Y) et V = max(X,Y). L’événement considéré est: A = [U ≤ L/2; V ≥ L/2; V-U ≤ L/2]. p(A) est donc l’aire de la partie D du carré correspondant à A, divisée par L2 . On obtient p(A) = ¼. • Loi conditionnelle dans le cas de variables à densité : Soit (X,Y) un couple de v.a. réelles de densité fX,Y sur R2 ; on se propose de définir la loi de Y sachant que X a une valeur donnée (loi conditionnelle de Y par rapport à X). Pour x et y réels, il s'agit donc de donner un sens à la quantité p( Y ≤ y / X = x ) ( la v.a. X étant à densité, on a p(X=x) = 0). p( Y ≤ y / X = x ) = lim p(Y≤ ≤y / x ≤ X ≤ x+h ), soit donc: h→ →0 On propose alors naturellement : x+h y 1 . h fX,Y(u,v)dudv ⌠ ⌡⌠ ⌡ p(Y≤ y / X=x) = lim h→ 0 p(Y≤y, x ≤ X ≤ x+h) x -∞ = lim x+h p(x≤X≤x+h) h→ 0 ⌠fX(t)dt ⌡ x = lim h→ 0 x+h y fX,Y(u,v)dvdu ⌠ ⌡⌠ ⌡ x -∞ x+h 1 . ⌠fX(t)dt h ⌡ x y ⌠ ⌡fX,Y(x,t)dt = -∞ fX(x) y = ⌠fX,Y(x,t)dt , ⌡ fX(x) -∞ sous réserve que fX(x) soit ≠ 0, ce qui valide dans ce cas le calcul précédent pour h petit). On définit donc pour x tel que fX(x) ≠ 0 la loi de Y sachant X = x comme la loi à densité fY/X=x(y) = fX,Y(x,y) , appelée densité conditionnelle de Y sachant X = x. fX(x) On admettra inversement que si X est à densité et si Y/X=x est à densité pour presque tout x, alors (X,Y) est à densité fX,Y(x,y) = fX(x).fY/X=x(y). a) On choisit au hasard un nombre X entre 0 et 1, puis Y entre 0 et X. Donnons la loi de Y: 1 1 dans ]0,1[: fX = 1 et fY/X=x = .1[0,x] , donc fX,Y(x,y) = .1[0,x] ; on déduit la densité de Y: x x 1 1/2 1+ln 2 fY(y) = ⌠ ⌡fX,Y(x,y)dx = -ln y. E(Y) = 1/4 ; p(Y≤1/2) = ⌠ ⌡fY(t)dt = 2 ~ 0,85. 0 0 b) On plie une tige de longueur 1 en X choisi au hasard, puis en Y choisi au hasard dans le plus grand des deux segments [0,X] et [X,1] ; cherchons la probabilité pour que l’on puisse ainsi former un triangle. L’événement est A = [min(X,Y)≤½; max(X,Y)≥ ½ ; max(X,Y)–min (X,Y)≤ ½] ; D désigne la partie du carré correspondant à A. 1 1 .1 si x ≤ ½ ; on obtient sur ]0,1[2 : Sur ]0,1[ : fX = 1 ; fY/X=x = .1[0,x] si x ≥ ½ et x 1-x [x,1] 1 1 fX,Y(x,y) = fX(x).fY/X=x(y) = si [x < ½ et x < y] ; si [x > ½ et x > y] ; 0 sinon . x 1-x 1 ⌠ 1/2 dx ⌠ f dy = 2ln 2 – 1 ~ 0,39. (x,y)dxdy = 2. Il suit (symétries): p(A) = ⌠ ⌡ X,Y ⌡ x D ⌡x-1/2 1/2 (lorsque X et Y étaient choisis indépendants, on avait obtenu p(A) = 0,25). Prop 12. Si X, Y sont (réelles) indépendantes à densités f et g, alors X+Y est à densité f * g . Démo : (X,Y) est à densité f(x)g(y), donc pour tout réel r: ⌠ ⌡f(x)g(y)dxdy = ⌠ ⌡f(u)g(v-u)dudv (avec le changement de variables (u,v) = (x,x+y) ) FX+Y(r) = v≤r x+y≤r r Tonelli === r ⌠⌡ f(u)g(v-u)dudv = ⌡ ⌠(f*g)(v)dv , d'où le résultat. ⌠ ⌡ R -∞ -∞ Cas de n variables: soient X1,…, Xn indépendantes à densités f1 , …, fn , de somme S. On a: FS(r) = ⌠ ⌡f1(x1)…fn(xn)dx1…dxn . x1+…+xn≤ r Le changement de variable u1 = x1 ; u2 = x1+x2 ; …; un = x1+ …+xn fournit r FS(r) = ⌠f1(u1)f2(u2-u1)…fn(un-un-1)du1…dun-1dun ⌠ ⌡f1(u1)f2(u2-u1)…fn(un-un-1).du1…dun = ⌠ ⌡n-1 un≤r ⌡R -∞ et S est donc à densité x → ⌠ ⌡f1(u1)f2(u2-u1)…fn-1(un-1-un-2)fn(x-un-1)du1…dun-1 , notée f1*f2*…*fn et appelée Rn-1 produit de convolution de f1,…,fn. Remarque: si X1,…,Xn sont des v.a. indépendantes (non nécessairement à densité) de somme S, pS est la mesure image de pX1,…,Xn par l’application s : (x1,…,xn) → x1+…+xn ; pour ϕ intégrable par rapport à pS , ⌠ ⌡ϕ.dpS = ⌠ ⌡ϕos.d pX1,…,Xn = ⌠ ⌡ϕ(x1+…+xn)dpX1(x1)..dpXn(xn) . D'une manière générale, si µ1,…,µn sont des probabilités sur R , leur produit de convolution est la on a donc: mesure µ = µ1*…*µn , image de µ1⊗…⊗µn par s, définie par: ∀ B ∈ B(R): µ(B) = ⌠ ⌡1B(x1+…+xn)dµ1(x1)…dµn(xn). Rn Il est associatif et commutatif, et δo en est l'élément neutre. Exemples : • Si X ~ E(λ), Y ~ E(µ): X+Y suit la loi à densité f(x) = -λµ. e-λx-e-µx (cas λ=µ inclus). Ce n'est pas une λ-µ loi exponentielle. • 1 p-1 -x .x .e sur R+ (p > 0); soient X et Y deux v.a. réelles Γ(p) indépendantes avec X ~ Γ(p) et Y ~ Γ(q) : leur somme S a pour densité : fS(x) = (γp * γq)(x), qui vaut, après calcul, sur R+ : Γ(p+q) e-x .xp+q-1.β(p,q) = .β(p,q).γ p+q . Γ(p).Γ(q) Γ(p).Γ(q) Γ(p).Γ(q) La condition ⌠ ⌡d(γp*γq) = 1 fournit alors β(p,q) = Γ(p+q) , puis γp * γq = γp+q. La loi Γ(1) n’est autre que la loi exponentielle E(1). • En annexe: processus de Poisson. La loi Γ(p) est la loi à densité γp(x) = c) Fonction caractéristique d'une v.a. réelle ou à valeurs dans Rd : Soit X une v.a. à valeurs dans Rd. La fonction caractéristique ΦX de X est définie sur Rd par: ΦX : t → E(ei t.X ) = i < t,x > .dpX(x) ⌠ ⌡e d R (produit scalaire usuel). THM : ΦX caractérise la loi de X. ∧ Si X est à densité fX , on a simplement ΦX = fX : l'injectivité de la transformation de Fourier montre que la fonction caractéristique caractérise la loi de X dans l'ensemble des variables à densité. Dans le cas général, ΦX est par définition la transformée de Fourier de la mesure pX ., et on peut montrer que l’on a encore l’injectivité. Pour X, v.a. à valeurs dans Rd, et f ∈ L1 = L1(Rd), le théorème de Fubini permet tout d’abord d’obtenir la ∧ formule : ⌠ ⌠ΦX(t).f(t)dt. ⌡ f (x).dpX(x) = ⌡ Soient maintenant Y une autre v.a. à valeurs dans Rd telle que ΦY = ΦX . La formule précédente prouve que nous avons l’égalité E(ϕoX) = E(ϕoY) pour tout élément de Φ(L1), où Φ est l’opérateur de Fourier. Mais, notant Co = { f : Rd → C , f continue et de limite nulle quand ||x|| → +∞}, on sait que Φ(L1) est dense dans (Co,||.||∞) (cf le cours d’intégration : Φ(L1) contient l’espace de Schwarz S des fonctions C∞ à décroissance rapide). Soit ϕ ∈ Co et ε > 0 : il existe ψ ∈ Φ(L1) telle que ||ϕ-ψ||∞ < ε. Il vient alors : |E(ϕoX)-E(ϕoY)| ≤ |E(ϕoX)-E(ψoX)| + |E(ψoX)-E(ψoY)| + |E(ψoY)-E(ϕ(Y)| ≤ ε + 0 + ε. Ceci étant vrai pour tout ε > 0, il en résulte : E(ϕoX) = E(ϕoY) pour toute ϕ ∈ Co. Soit maintenant A un pavé de Rd , et (Ωn)n une suite décroissante d’ouverts bornés de Rd, de limite A. On sait qu’il existe pour chaque n une fonction θn à valeurs dans [0,1], égale à 1 sur A et nulle hors de Ωn (on peut même trouver des θn de classe C∞ ; cf le cours d’intégration). La suite (θn) de fonctions de Co converge alors simplement vers 1A sur Rd , le théorème de convergence dominée permet alors d’écrire : lim ⌠θn.dpX = lim E(θnoX) = … lim E(θnoY) = …p(Y∈A), n→ +∞ ⌡ n→ +∞ n→ +∞ d de sorte que pX et pY sont égales sur les pavés de R . En vertu du théorème d’unicité, elles sont finalement égales. On pourra lire en annexe: Formule d'inversion quand X est réelle et ΦX intégrable. p(X∈A) = ⌡ ⌠1A.dpX = Les propriétés suivantes sont immédiates: • • ΦX (0) = 1; |ΦX| ≤ 1 ; ΦX est uniformément continue sur Rd. ∀ a ∈ R , ∀ b ∈ Rd : ΦaX+b(t) = eit.b.ΦX(at). (ceci se généralise au cas où a est un endomorphisme symétrique de Rd). • ΦX(-t) = ΦX(t) . Si d = 1 et si pX est symétrique par rapport à l'origine, alors ΦX est réelle et paire. Si ΦX est paire, alors elle est réelle. Si d = 1, le théorème de dérivation sous l’intégrale indique que si X est d’ordre n ≥1, alors ΦX est de classe Cn sur R , avec: (n) ΦX (0) = in.E(Xn). En pratique, un développement limité de ΦX en 0 permet d’obtenir les premiers moments de la loi de X : (it)² ΦX(t) = 1 + E(X).it + E(X2). + ot→0(t2) 2 Remarque: une réciproque existe: si ΦX est de classe Cn, alors X est d'ordre 2k, avec 2k ≤ n. Pour une démonstration, voir [Métivier; notions fondamentales de la théorie des probabilités, p 157]. Exemples : p(X=k) = pk ; ΦX(t) = GX(eit): Variables discrètes à valeurs dans N : • Si X ~ B(p) : ΦX(t) = peit + 1-p ; si X ~ B(n,p): ΦX(t) = (peit + 1-p)n. λ+λ2 2 Si X ~ P(λ) : ΦX(t) = exp [λ(eit-1)] = 1+λ(it)+ (it) +o0(t2), et on retrouve E(X) = V(X) = λ. 2 • Variables réelles à densité: 1 sin at .1 ): ΦX(t) = . 2a [-a,a] at t² Si X ~ N(0,1) : ΦX(t) = e-t²/2 = 1 - + o(t2).: E(X) = 0; E(X2)=V(X)=1. 2 X-m Si X ~ N(m,σ) : Y = ~ N(0,1) donc : ΦX(t) = ΦσY+m(t) = eimt.ΦY(σt) = eimt.e-σ² t² /2. σ it (it)2 λ Si X ~ E(λ) : ΦX(t) = = 1 + + 2 + ot→0(t2); E(X) = 1/λ ; E(X2) = 2/λ2 ; V(X) = 1/λ2 . λ-it λ λ • Si X ~ U(-a,a) (densité • • • Prop 13. Soient X1,…,Xn des v.a. réelles. Alors: (X1,…,Xn) est indépendante ⇔ Φ (X1,…,Xn) = Φ ⊗…⊗Φ . X1 Xn Le sens direct est conséquence de l'indépendance des eitXk . Réciproquement, l'égalité Φ Fubini: ⌠e ⌡ i.<x,t> p ⊗…⊗p X1 .dp Xn X1,…,Xn (X1,…,Xn) (x) = ⌠e ⌡ (t1,…,tn) = Φ (t1).… Φ (tn ) pour tout (t1,…,tn) fournit, avec X1 i.<x,t> Xn .d(⊗p )(x) pour tout t dans Xi Rn , ce qui indique que p(X1,…,Xn) et ont même transformée de Fourier . Par injectivité, elles sont égales. Exemple : si X = (X1,…,Xn) suit la loi N(n)(0,1) sur Rn, nous savons que les Xk sont indépendantes et n équidistribuées de loi N(0,1) ; il suit : ΦX(t) = ∏ exp( -ti2/2) = e-||t||²/2. k=1 n Prop 14. Si X1, …, Xn sont des v.a. à valeurs dans Rd indépendantes, de somme X, alors ΦX = ∏ Φ . k=1 Xk (C’est immédiat, avec l’indépendance des v.a. exp(itXk)). Exemples: • Si X ~ N(m1,σ1), Y ~ N(m2,σ2), X et Y indépendantes, alors X+Y suit la loi N(m1+m2, σ12+σ22 ). • 1 n σ Si X1,…,Xn sont indépendantes de même loi N(m,σ), alors Xn = . ∑ Xk suit la loi N(m, ). n k=1 n • Soit X suivant la loi de Cauchy C(1): ΦX(t) = +∞ eitx 1 .⌠ 2dx π ⌡1+x -∞ = e-|t| (utiliser par exemple le théorème des résidus pour t > 0; ΦX est paire, puisque X est réelle et pX symétrique par rapport à l'origine). X n'est pas indépendante d'elle-même ( p(X≤0) = 1/2), et pourtant Φ2X (t) = e-|2t| = ΦX(t)2 : la réciproque de la proposition 14 est fausse. • La loi N(n)(0,1) est invariante par transformation orthogonale. En effet: si u ∈O(Rn), il vient, pour t ∈ Rn et X suivant N(n)(0,1): Φu(X)(t) = E[exp it.u(X)] = E[ exp iu-1(t).X] = ΦX (u-1(t)) = exp (-||u-1(t)||2/2) = exp(-||t||2/2) = ΦX(t), d'où le résultat). • Soient X et Y deux v.a. réelles indépendantes telles que la loi de (X,Y) soit invariante par rotation. Nous allons montrer que X et Y suivent une loi centrée de Gauss: Si deux couples de v.a. réelles (X,Y) et (Z,T) suivent la même loi, alors X et Z (respt Y et T) suivent la même loi. L'invariance par rotation indiquant que pour tout θ réel, les couples (Xcos θ-Ysin θ,Xsin θ+Ycos θ) ont une loi commune sur R2, on en déduit, avec θ = 0 et π/2 que X,Y et X.sinθ+Ycosθ suivent une même loi µ sur R, et ce pour tout θ. Soit Φ leur fonction caractéristique commune. On obtient: indep ∀ θ, t ∈ R : Φ(t) = E(eitXsin θ +itY.cos θ) = E(eitXsin θ.eitYcos θ) === E(eitXsin θ).E(eitYcos θ) = Φ(t.sin θ).Φ(t.cos θ) (1). En prenant θ = π, il en découle que Φ est paire, et donc réelle. En outre, Φ ne s'annule pas sur R; en effet, s'il existe t > 0 tel que Φ(t) = 0, alors en prenant θ = π/4 dans (1), on obtient Φ(t/ 2) = 0, puis pour tout n ≥1: Φ(2-n/2.t) = 0, ce qui contredirait Φ(0) = 1 par continuité de Φ. Ainsi, Φ est strictement positive et paire sur R; posons f(x) = ln Φ( x) pour x ≥ 0, de sorte que l'on a Φ(x) = exp f(x2) sur R , avec f continue; de (1) on tire: ∀θ, t ∈ R : f(t2) = f(t2.sin²θ) + f(t².cos²θ), soit donc: ∀x, y ≥ 0 : f(x+y) = f(x) + f(y), et f est donc linéaire: f(x) = a.x , où a = f(1) ≠ 0. -σ² Il en découle Φ(x) = eax² , et la majoration |Φ| ≤ 1 indique que a est strictement négatif; posant a = 2 , il résulte de ceci: Φ(x) = e-σ²x²/2 , et donc X et Y suivent la loi N(0,σ). 5) SUITES DE VARIABLES ALEATOIRES : DIFFERENTES SORTES DE CONVERGENCE a) Convergence presque sûre. Soient X1, …, Xn, …, X des v.a. réelles définies sur un même espace probabilisé (Ω,T,p). Déf 1. La suite (Xn) converge presque sûrement (en abrégé: cvps) vers la variable X si: p( Xn → X ) = p( {ω∈Ω, lim Xn(ω) = X(ω) } ) = 1. n→ +∞ L'ensemble dont on prend la probabilité est bien mesurable: c'est ∩ ∪ ∩ {|Xk-X| < 1/m}. On peut donc m n k≥n écrire: p( [Xn → X]c ) = p ( ∪↑ lim {|Xn-X| ≥ 1/m} ) = lim ↑ p ( lim {|Xn-X| ≥ 1/m} ) m m On obtient ainsi une caractérisation de la convergence presque sûre: Prop 1. (Xn) cvps vers X ⇔ [ ∀ε > 0 : p( lim {|Xn-X| ≥ ε } ) = 0 ]. ⇔ [ ∀ε > 0 : lim p( sup { |Xk-X| ≥ ε} ) = 0 ]. n→ +∞ k≥n Remarque: Le lemme de Borel-Cantelli peut donc se révéler un outil efficace pour établir une propriété de convergence presque sûre: si, pour tout réel ε > 0, la série ∑ p( |Xn-X| ≥ε ) est convergente, alors (Xn) cvps vers X. En guise de "réciproque": si (Xn) est indépendante et cvps vers une constante x, alors pour tout ε > 0, la série ∑ p( |Xn-x| ≥ε ) converge (car les événements {|Xn-x| ≥ ε} sont indépendants). b) Convergence en probabilité. Soient toujours X1, …, Xn, …, X des v.a. réelles définies sur un même espace probabilisé (Ω,T,p). Déf 2. La suite (Xn) converge en probabilité vers X si: ∀ ε > 0 : Prop 2. lim p( |Xn-X| ≥ ε ) = 0. n→ +∞ La convergence dans un Lk (k ≥ 1) entraîne la convergence en probabilité. La convergence presque sûre entraîne la convergence en probabilité. Démonstration: Le premier résultat est une conséquence immédiate de l'inégalité de Markov: ∀ ε > 0: p(|Xn-X| ≥ ε) ≤ ε-k.E(|Xn-X|)k. La réciproque est fausse en général; par exemple, soit Ω = [0,1] , p = λ et Xn = n1/k.1[0,1/n]: la suite (Xn) converge en probabilité vers 0 puisque p( |Xn| ≥ ε ) = 1/n pour n > εk, mais (Xn) ne converge pas vers 0 dans Lk, puisque ||Xn||k = 1 pour tout n. Le second résultat est clair avec la proposition 1. La réciproque est fause en général: par exemple, soit Ω = [0,1] et p = λ ; pour n ≥ 1 et 1 ≤ i ≤ n , on note i-1 i , ] . On vérifie facilement que la suite (X11, X12 , X22 , X13 , X23 , X33 , … ) Xi,n l'indicatrice de [ n n converge en probabilité vers 0, mais ne converge en aucun point de [0,1]. c) Convergence en loi. Soient X1, …, Xn, …, X des v.a. réelles (définies éventuellement sur des espaces probabilisés différents). Def 3. La suite (Xn) converge en loi vers X si en tout point t de continuité de FX (fonction de répartition de X), on a lim FXn(t) = FX(t) n→ +∞ Prop 3. Les propositions suivantes sont équivalentes: a) (Xn) cv en loi vers X. b) ∀ ϕ ∈ Co : lim E(ϕoXn) = E(ϕoX) (Co = {ϕ ∈ C(R,R), lim ϕ(x) = 0}). n→ +∞ |x|→ +∞ c) ∀ ϕ ∈ Cb : lim E(ϕoXn) = E(ϕoX). (Cb = {ϕ ∈ C(R,R), ∃ M > 0, ∀x∈R , |ϕ(x)|≤ M}). n→ +∞ d) (ΦXn) converge simplement vers ΦX sur R. Démonstration: [a⇒b]: On a par hypothèse lim FX (t) = FX(t) sur une partie D dense dans R (l'ensemble des points de n→ +∞ n discontinuité de FX est dénombrable). Pour I = ]a,b] avec a,b∈D: lim FXn(b)-FXn(a) = FX(b)-FX(a), soit: lim ⌡ ⌠1I.dpXn=⌠ ⌡1I.dpX. n→ +∞ n→ +∞ lim ⌠ϕ.dpXn = ⌠ ⌡ϕ.dpX pour ϕ dans l'espace vectoriel des fonctions étagées n→ +∞⌡ sur les intervalles I précédents (i.e. les fonctions ϕ ne prenant qu'un nombre fini de valeurs: x1,…,xn , avec ∀k: ϕ-1({xk}) est un intervalle I de ce type). Une fonction f de Co peut être approchée uniformément à une précision ε arbitraire par une telle fonction étagée ϕ; on conclut avec une inégalité triangulaire. Par linéarité: on obtient [b⇒c]: on suppose [b] vérifié. Soit f ∈ Cb , | f | ≤ M, et ε > 0. Pour a > 0, soit ϕa ∈ Co , 0 ≤ ϕa ≤ 1 , valant 1 sur [-a,a]; il vient: ⌠ ⌡[foXn-foX]dp • • • ≤ ⌠ ⌡[(fϕa)oXn-(fϕa)oX]dp + ⌠ ⌡(f(1-ϕa))oX.dp + ⌠ ⌡(f(1-ϕa))oXn.dp ≤ ⌠[(fϕa)oXn-(fϕa)oX]dp + M.⌡ ⌠(1-ϕa)oX.dp + ⌠ ⌡ ⌡(1-ϕa)oXn.dp = ① + M.( ② + ③ ). ② ≤ p( | X | ≥ a ) → 0 : on fixe a tel que ② ≤ ε . a → +∞ ③ = 1 - E(ϕaoXn) → 1 - E(ϕaoX) = ② ≤ ε (car ϕa ∈ Co) : ∃ N, n ≥N ⇒ ③ ≤ 2ε . n → +∞ ① → 0 (car f.ϕa ∈ Co) : ∃ N' ≥ N, n ≥N' ⇒ ① ≤ ε . n → +∞ Ainsi: n ≥N' ⇒ ⌠ ⌡[f(Xn)-f(X)]dp ≤ (1+3M).ε , et on a donc le résultat. [c⇒a]:On suppose [c] vérifié; soit t un point de continuité de FX : FXn(t) = p(Xn ≤ t ) = E ( ϕoXn ) avec ϕ = 1]-∞,t] bornée, mais non continue. Définissons pour k ≥1 les fonctions continues et affines par morceaux encadrantes suivantes: gk valant 1 sur ]-∞; t-1/k], affine sur [t - 1/k , t] , et valant 0 sur [t , +∞[ ; hk valant 1 sur ]-∞, t ], affine sur [t , t+1/k] , et valant 0 sur [t+1/k, +∞[ , t-1/k t t+1/k de sorte que: ∀k, n ≥1: E(gkoXn) ≤ FXn(t) ≤ E(hkoXn). Passons à k fixé aux limites inférieure et supérieure sur n (gk et hk sont dans Cb): E(gkoX) ≤ lim FXn(t) ≤ lim FXn(t) ≤ E(hkoX). On déduit alors, puisque 1]-∞; t-1/k] ≤ gk et hk ≤ 1]-∞ , t+1/k] : p( X ≤ t-1/k) ≤ lim FXn(t) ≤ lim FXn(t) ≤ p(X ≤ t+1/k). En faisant tendre k vers +∞, on obtient alors le résultat attendu. [c⇒d] est immédiat, puisque pour t réel, x → eitx est continue et bornée (séparer parties réelle et imaginaire). [d⇒b]: (théorème de Paul Lévy) : supposons que ( ΦXn ) converge simplement vers ΦX sur R . ∧ Grâce à la formule déjà rencontrée : E( f oX) = 1 ⌠ ⌡ΦX(t).f(t)dt pour f ∈ L , le théorème de convergence lim E(ϕoXn) = E(ϕoX) pour les fonctions de Φ(L1). n→ +∞ Soit ϕ ∈ Co et ε > 0 ; par densité de Φ(L1) dans (Co, ||.||∞), il existe ψ ∈ Φ(L1) telle que ||ϕ-ψ||∞ ≤ ε. Soit N ∈ N tel que l’on ait : n ≥N ⇒ |E(ψoXn)-E(ψoX)| ≤ ε . Pour n ≥N, il vient alors : dominée montre que l’on a |E(ϕoXn)-E(ϕoX)| ≤ |E(ϕoXn)-E(ψoXn)| + |E(ψoXn)-E(ψoX)| + |E(ψoX)-E(ϕoX)| ≤ ε + ε + ε = 3ε, d’où le résultat attendu. R, on dit que (µn) converge étroitement vers une lim ⌡ ⌠ϕ.dµn = ⌡ ⌠ϕ.dµ. Remarque : si (µn) est une suite de probabilités sur probabilité µ sur R si : ∀ϕ ∈ Co : n→ +∞ La convergence en loi de (Xn) vers X équivaut donc à la convergence étroite de (pXn) vers pX . Exemple: soit (Xn) telle que chaque Xn suit la loi géométrique G(λ/n) (λ > 0 donné), et (Yn) = ( Xn ). n λ.eit λ on tire ΦYn(t) = ΦXn(t/n) → : (Yn) converge en loi vers une v.a. Y n(1-eit)+λeit λ-it n → +∞ suivant la loi exponentielle E(λ). De ΦXn(t) = Autres remarques: • De [c], on tire facilement la propriété suivante: si (Xn) converge en loi vers X et si f est une fonction continue de R dans R , alors f(Xn) converge en loi vers f(X). • Soient X1,…,Xn,…X,Y1,…,Yn,…,Y définies sur un même espace probabilisé (Ω,B,p), telles que (Xn) converge en loi vers X et (Yn) converge en loi vers Y. Soit ϕ une fonction de R2 dans R . En général, ϕ(Xn,Yn) ne converge pas en loi vers ϕ(X,Y). Par exemple, si Xn = X suit la loi B(1/2): Xn converge en loi vers X et 1-X, mais 2Xn ne converge pas en loi vers 1. Nous verrons toutefois plus loin un cas où le résultat est vrai. Prop 4. La convergence en probabilité entraîne la convergence en loi. La convergence en loi vers une v.a. constante X = m entraîne la convergence en probabilité vers X. Démonstration: Supposons que (Xn) converge en probabilité vers X; soit ϕ ∈ Co , et ε > 0; la continuité uniforme de ϕ sur R entraîne l'existence de α > 0 tel que |u-v| < α ⇒ |ϕ(u)-ϕ(v)| ≤ ε; il suit, notant M = ||ϕ||∞: | E(ϕoXn) - E(ϕoX)| ≤ ⌠|ϕoXn- ϕoX|.dp + ⌡ ⌠|ϕoXn- ϕoX|.dp ≤ ε + 2M.p(|Xn-X| > α); on conclut. ⌡ |Xn-X| < α |Xn-X| ≥ α La réciproque est fausse: soit par exemple (Xn) constante: ∀n, Xn = X, où X suit la loi B(1/2); (Xn) converge en loi vers X, mais aussi vers Y =1-X, puisque pX = p1-X ; cependant, (Xn) ne converge pas en probabilité vers Y, puisque p(|Xn-Y| = 1) = 1. Supposons que (Xn) converge en loi vers une v.a. constante X = m: FX = 1[m,+∞[ est continue en tout point autre que m; soit ε > 0; il vient: p( |Xn-m| > ε ) = p( Xn > m+ε ) + p( Xn < m-ε) = 1 - FXn(m+ε) + FXn(m-ε) - p(Xn=m-ε) ≤ 1 - FXn(m+ε) + FXn(m-ε) et cette dernière quantité a pour limite 1 – FX(m+ε) + FX(m-ε) = 1 – 1 + 0 = 0 quand n tend vers +∞. Récapitulons: convergence presque sûre ⇓ convergence en probabilité ⇒ convergence en loi récip.si la limite est constante ⇑ d convergence dans L Dans le cas discret, on a les caractérisations suivantes: Prop 5. Si X1,…Xn,… X sont à valeurs dans N , les propositions suivantes sont équivalentes: a) (Xn) converge en loi vers X. b) ∀k: lim p(Xn = k) = p(X = k). n→ +∞ c) (GXn) converge simplement (ou uniformément) vers GX sur D(O,1) . Démonstration: [a⇒b]: on suppose que (Xn) converge en loi vers X; soit k entier fixé, et ϕ ∈ Co valant 1 en k et 0 aux autres valeurs entières; alors E(ϕoXn) = p(Xn = k) → p(X = k) = E(ϕoX). n → +∞ [b⇒c]: on note pk = p(X=k), et pk,n = p(Xn = k). Supposons b); pour |z| ≤ 1, n, N ∈ N , il vient: N +∞ +∞ |GX(z) - GXn(z)| ≤ ∑ |pk -pk,n| + ∑ pk + ∑ pk,n = ①+②+③ . k=0 k=N+1 k=N+1 Soit ε > 0; choisissons N tel que ② ≤ ε, puis q tel que pour n ≥q on ait ① ≤ ε . Cette dernière inégalité entraîne aussi: N ∑ (pk -pk,n) ≤ ε, soit donc: |③-②| ≤ε, puis ③ ≤ ε + ② ≤ 2ε. k=0 Alors pour n ≥q et |z| ≤1, on a: |GX(z) - GXn(z)| ≤ ε + ε + 2ε = 4ε, et on conclut. [c⇒a]: si (GXn) cvs vers (GX) sur D(O,1) , alors ΦXn(t) = GXn(eit) → GX(eit) = ΦX(t) pour tout réel n → +∞ t, et (Xn) converge donc en loi vers X. Remarque: comme on l'a vu dans un exemple précédent, une suite de v.a. discrètes peut converger en loi vers une v.a. non discrète: quand (Yn) = (Xn/n) , Xn suivant la loi G(λ/n), GYn converge simplement sur D(O,1) vers 1{1} , qui n'est pas une fonction génératrice. Exemples: • Si Xn suit la loi binomiale B(n,λ/n) (λ > 0, espérance commune aux Xk) et si les Xk sont indépendantes, alors (Xn) converge en loi vers une v.a. suivant la loi de Poisson P(λ). (évident avec les fonctions génératrices). Pour p petit, le polygone des fréquences de la loi B(n,p) présente une forte dyssymétrie, que l'on retrouve pour les petites valeurs de λ dans celui de la loi P(λ). Pour λ ≥15, la distribution de P(λ) est par contre fortement symétrique (et son polygone des fréquences est très voisin de la courbe en cloche de la loi gaussienne ; voir après, le théorème central limite). En pratique, on obtient des résultats acceptables lorsque l'on approxime B(n,p) par P(np) pour [n ≥50 , p ≤ 0,1 , np ≤ 15] . > with(stats): n:=50: p:=0.1: >gr1:=plot([seq([k,statevalf[pf,binomiald[n,p]](k)],k=0..20)], colour=blue): > gr2:=plot([seq([k,statevalf[pf,poisson[n*p]](k)],k=0..20)]): > plots[display]({gr1,gr2}); Supposons par exemple que dans des conditions normales de fonctionnement, la quantité de pièces défectueuses usinées par une machine est de 1%. En considérant que la machine est bien réglée, le nombre de pièces défectueuses dans une caisse de 100 pièces, suit la loi B(102,10-2), que l'on approxime par la loi P(1). La probabilité pour qu'il y ait moins de 2 pièces défectueuses dans la caisse est donc: p(X < 2) # 2/e # 0,735758 (la valeur exacte est 0,99100 + 0,9999 # 0,735761...) • Considérons une urne contenant N boules blanches ou noires, les blanches étant en proportion p et les noires en proportion q = 1-p (soit donc Np boules blanches et Nq boules noires). On tire successivement n boules sans remise de l'urne (n ≤ N). La variable X donnant le nombre de boules blanches obtenues est décrite par la loi: p(X = k) = k n-k CNp.CNq n CN pour 0 ≤ k ≤ n (avec les conventions usuelles). C'est la loi hypergéométrique H(N,n,p). N-n Quelques calculs fournissent: E(X) = np et V(X) = Npq. . N-1 Fixons n et p, et considérons une suite (XN)N≥n de v.a. où XN suit la loi H(N,n,p). Pour k ∈{0,…,n} et N ≥ n, il vient: P(XN = k) = n! . (N-n) ! . (Np)! . (Nq)! k (Np)! (Nq)! (N-n)! = Cn. , N! . k! . (Np-k)! . (n-k)! . (Nq-n+k)! N! (Np-k)! (Nq-n+k)! k k (Np)k.(Nq)n-k = Cn . pkqn-k .quand N tend vers +∞: expression équivalente à Cn. Nn (XN) converge donc en loi vers une variable binomiale de paramètres n et p. Ce résultat est très important dans les applications: si N est grand devant n, il revient à peu près au même de tirer un échantillon de n boules avec ou sans remise. Dans le cas de variables à densité, on a la condition suffisante suivante: Prop 6. Si les Xn sont à densités fn , si (fn) converge presque partout vers f et s'il existe g intégrable telle que l'on ait: ∀pp t , ∀n : |fn(t)| ≤ g(t), alors (Xn) converge en loi vers une v.a. à densité f. Démonstration: le théorème de convergence dominée prouve que que f est une densité de probabilité, puis qu'à x fixé, Φ (x) tend vers ΦX(x), où X est une v.a. de densité f. Xn Exemple: Si Y et Z sont deux v.a. réelles indépendantes, Y suivant la loi N(0,1) et Z suivant la loi du ℵ2(n), alors un calcul simple montre que Un = n. Y Z suit la loi de densité n+1 Γ( 2 t2 1 . gn(t) = an.1 + 2 avec an = n n nπ n+1 Γ( ) 2) appelée loi de Student t(n) à n degrés de liberté. On vérifie avec la formule de Stirling ( Γ(x) ~ +∞ 2 t par un M > 0) ; de lim 1 + n n→ +∞ n+1 2 2π.xx-1/2.e-x ) que 1 lim an = (an est donc majorée 2π n→ +∞ = e-t²/2 . La suite (gn) converge donc simplement sur R vers la densité de N(0,1). De plus, pour n ≥ 2 et t ≥ 0, la formule du binôme fournit: 6 6 6 1+t²n+1 ≥ (n+1)n(n-1). t 3 = 1- 1 .t ≥ t n 6 n n² 6 9 et donc: |gn(t)| ≤ M.(1[-1,1](t) + 3 .1 |t|3 R -[-1,1] (t)) , fonction intégrable sur R . Il en résulte que (Un) converge en loi vers une v.a. normale centrée réduite. densité de t(2k), k=1..5 Remarque: Inversement, si Xn est à densité fn , X à densité f , et si les Φn sont intégrables et bornées par une même fonction H intégrable, alors la formule d'inversion de Fourier montre que si (Xn) converge en loi vers X, (fn) converge alors simplement vers f presque partout. Le contre-exemple qui suit incline toutefois à la prudence: sin 2πnx sur [0,1]: 2πn (Xn) converge en loi vers une variable X suivant la loi uniforme sur [0,1], mais (fn) ne converge pas simplement sur [0,1]. Soit Xn à densité fn(x) = 1-cos 2πnx sur [0,1], de fonction de répartition Fn(x) = x - ------------------------------------------------------------------------------------------------------------------------------- 6) ECHANTILLONS D'UNE LOI. DEFINITIONS ET NOTATIONS POUR LA SUITE Pour décrire un caractère quantitatif ou qualitatif sur les éléments d'une population S nombreuse, on est amené à travailler sur des échantillons statistiques représentatifs de cette population; procéder à un échantillonnage de taille n consiste à choisir indépendamment et avec une loi uniforme n individus de la population. Une fois le caractère quantifié par un paramètre réel x, on dispose d'un échantillon (x1,…,xn) du paramètre, qui 2 possède une moyenne me et une variance σe : 1 n me = . ∑ xk n k=1 2 σe = 1 n . ∑ (x - me)2 n k=1 k et on peut se poser la question de savoir si ces valeurs sont des estimations acceptables (voire améliorables) de la moyenne et de la variance du paramètre étudié sur la population entière. Nous reviendrons sur ceci dans un prochain paragraphe. Un échantillon aléatoire (théorique) de taille n d'une loi de probabilité µ sur R sera représenté par un n-uplet (X1,…,Xn) de v.a. réelles, indépendantes et équidistribuées de loi commune µ et appelé n-échantillon de µ. Par analogie avec le modèle statistique, on définit deux nouvelles variables aléatoires: la moyenne Xn et la 2 variance sn de l'échantillon: 1 n Sn Xn = . ∑ X k = n n k=1 1 n 2 sn = . ∑ (Xk - Xn )2 . n k=1 Si les Xn sont intégrables d'espérance commune m, on écrira que (X1,…,Xn) est un n-échantillon de µ[m]. Si les Xn sont d'ordre 2 et d'écart-type σ , on écrira que (X1,…,Xn) est un n-échantillon de µ[m,σ]. Le cas échéant, on retiendra les résultats suivants: E( Xn ) = m ; V( Xn ) = σ² n-1 2 2 ; E(sn ) = σ. n n 1 n . ∑ (X -m)2 - ( Xn -m)2 ). n k=1 k 2 ( pour le dernier résultat, on pourra remarquer que sn = Par analogie avec la procédure statistique d''échantillonnage, et dans un sens qui va être précisé, Xn est un 2 estimateur de m, et sn un estimateur de σ2. On définit deux nouvelles variables d'erreur (lorsque c'est possible): • l'erreur sur la moyenne en = Xn - m; E(en) = 0 ; on dit que l'estimateur Xn est non biaisé, ou sans biais. • l'erreur sur la variance: en' = sn - σ2 ; E(en') = - 2 σ2 2 : l'estimateur sn est dit biaisé. n 2 On rencontrera pour cette raison un nouvel estimateur τn = n 2 2 .s non biaisé de σ2 ( E(τn) = σ2 ). n-1 n Enfin, nous serons amenés à énoncer des résultats asymptotiques sur les n-échantillons d'une loi lorsque n tend vers +∞ . Pour abréger les énoncés qui vont suivre:: Une suite (Xn) de v.a. indépendantes et équidistribuées de loi µ sera appelée N-échantillon de µ (resp de µ[m], de µ[m,σ] si elles sont intégrables de moyenne m, ou d'ordre 2, de moyenne m et d'écart-type σ) . ---------------------------------------------------------------------------------------------------------------------------------------- 7) ESTIMATEURS POUR UNE LOI NORMALE Rn étant muni de sa structure euclidienne usuelle (le p.s. de x et y est noté x.y , et ||x||2 = x.x), nous avons déjà démontré les résultats suivants: • Si X1,…,Xn sont des v.a. réelles: X = (X1,…,Xn) est un n-échantillon de N(0,1) si et seulement si X suit la loi N(n)(0,1) sur Rn. • Si X est un n-échantillon de N(0,1), alors ||X||2 suit la loi ℵ2(n). • Si Y et Z sont deux v.a. réelles indépendantes, Y suivant la loi N(0,1) et Z suivant la loi du ℵ2(n), alors n Y . suit la loi de Student t(n) à n degrés de liberté. Z • La loi N(n)(0,1) est invariante par transformation orthogonale. Autrement dit, si X est un n-échantillon de N(0,1), ses composantes dans toute base orthonormée de Rn forment encore un n-échantillon de N(0,1). Le théorème suivant est conséquence immédiate de ces propriétés: Théorème de Cochran: si Rn est somme directe orthogonale de E1,…,Ep , de dimensions r1,…,rp, et si X est un n-échantillon de N(0,1), alors: • les projections orthogonales XE1 , … , XEp de X sur E1,…,Ep sont indépendantes. • XEk suit la loi Nrk(0,1) pour chaque k. • ||XE1||2 , …. ||XEp||2 sont indépendantes et ||XEk||2 suit la loi ℵ2(rk). X1-m Xn-m ,…, ) dans la σ σ n -1/2 somme directe orthogonale R = D ⊕ H, avec D = R.e, où e = n .(1,…,1): il vient Y = YD + YH, avec: Soit maintenant X = (X1,…,Xn) un n-échantillon de µ = N(m,σ). Décomposons Y = ( YD = (e.Y)e = n .( Xn -m).e σ ||YH||2 = ||Y||2 - ||YD||2 = n 1 n n . . ∑ (X -m)2 - ( Xn -m)2 = 2 .sn2. σ2 n k=1 k σ On obtient alors en corollaire du théorème de Cochran quatre résultats (dont un que l'on connaissait déjà): Théorème. Si (X1,…,Xn) est un n-échantillon de N(m,σ), alors: • • Xn et sn2 sont indépendantes; n. Tn = sn2 suit la loi ℵ2(n-1). σ2 n .( Xn -m) suit la loi N(0,1). σ Xn -m σ ( = .Tn ) suit la loi de Student t(n-1) (et converge en loi vers N(0,1)). sn τn ---------------------------------------------------------------------------------------------------------------------------------------• Un = n-1. 8) LOI(S) DES GRANDS NOMBRES On considère dans ce paragraphe et dans le suivant des v.a. réelles Xo, …, Xn, …, X définies sur un même espace probabilisé (Ω,T,p). LOI FORTE DES GRANDS NOMBRES: Si (Xn) est un N-échantillon d'une loi µ[m], alors ( Xn ) converge presque-sûrement vers m. Ce résultat non évident (et hors programme) est démontré en annexe: deux lois fortes des grands nombres). 2 2 Corollaire: si (Xn) est un N -échantillon d'une loi µ[m,σ], alors sn (et τn ) convergent presque sûrement vers σ2. 1 n 2 (sn = . ∑ (Xk-m)2 - ( Xn -m)2 : on applique la loi forte aux v.a. indépendantes (Xk-m)2 de moyenne n k=1 commune σ2 ). Par des procédés élémentaires, prouvons la "loi faible" suivante (au programme): Loi faible des grands nombres. Si (Xn) est un N-échantillon d'une loi µ[m], alors ( Xn ) converge en probabilité vers m. Preuve: on prouve la convergence en loi, ce qui est équivalent dans le cas d'une limite constante: soit Φ la fonction caractéristique commune aux Xk; il vient: Φ(t) = 1 + imt + t.ε(t) avec lim ε(t) = 0. t→ 0 Alors pour t fixé, on déduit (indépendance): Φ Xn (t) = ΦSn(t/n) = [Φ(t/n)]n = [ 1 + = exp [imt + on→+∞(1)], d'où: imt t t imt 1 + .ε( )] n = [ 1 + + on→+∞( ) ]n n n n n n lim Φ (t) = eimt = Φm(t) , X n n→ +∞ où m désigne la v.a. constante égale à m, d'où le résultat. Remarque: si les Xn sont d'ordre 2 et de variance σ, on a même la convergence de (Xn) vers m dans L2, σ2 sans utiliser les fonctions caractéristiques, puisque E(| Xn - m|2) = V( Xn ) = tend bien vers 0 avec n. n L'inégalité de Bienaymé-Chebychev fournit dans ce cas l'inégalité: ∀n ≥1, ∀ ε > 0 : p( | Xn -m| ≥ ε ) ≤ σ2 . nε2 Par le même raisonnement élémentaire, si (Xn) est une suite de v.a. réelles d'ordre 2, deux à deux non corrélées de même espérance m et telle que la suite (V(Xn)) soit bornée, alors ( Xn ) converge en probabilité vers m. On pourra consulter en annexe: une amélioration de l'inégalité de Bienaymé Chebychev lorsque l'on a à disposition des majorants A et B des |Xn| (ps) et de σ2. Applications: a) Le théorème de Bernstein (application de l'inégalité de Bienaymé-Chebychev, loi faible): Soit f ∈ C([0,1]); pour x∈[0,1], considérons des v.a. Xn indépendantes de loi commune B(x) (Bernoulli), chaque Sn suivant donc la loi B(n;x). Le nème polynôme de Bernstein Bn(f) a alors en x la valeur n n k k k k Bn(f)(x) = ∑ f( ).Cn.xk.(1-x)n-k = ∑ f( ).p( Xn = ) = E ( f( Xn ) ). n n n k=0 k=0 Soit ε > 0, α > 0 tel que : |u-v| ≤α ⇒ |f(u)-f(v)| ≤ ε (uniforme continuité de f) et M = || f ||∞. Il vient: |Bn(f)(x)-f(x)| = | E(f( Xn )) - f(x)| ≤ E( |f( Xn ) - f(x)| ) = ⌠ ⌡|f( Xn )-f(x)|.dp + | Xn -x| ≤ α ⌠ ⌡|f( Xn )-f(x)|.dp | Xn -x| > α x(1-x) M ≤ε+ . nα² 2nα² cette dernière quantité pouvant être rendue ≤ 2ε pour n assez grand, et ceci indépendemment de x, il en résulte que (Bn(f)) converge uniformément sur [0,1] vers f. ≤ ε + 2M.p ( | Xn - x| > α ) ≤ ε + 2M. Le théorème de Bernstein en découle: l'espace des fonctions polynomiales de [a,b] dans K est dense dans C([a,b],K) pour la norme de la convergence uniforme. (K=R ou C) b) Un théorème de Borel (application de la loi forte): On choisit un nombre au hasard dans [0,1[ , et on note Xn sa nème décimale binaire (dans son unique développement dyadique pur, i.e. non stationnaire à 1). Montrons que la suite (Xn) ainsi définie est indépendante: Pour n ≥ 1 et (x1,..,xn) ∈ {0,1}n : p(X1=x1 , …, Xn=xn) = λ [ n xk n xk 1 ∑ k, ∑ k+ n k=12 k=12 2 [ = 21n . Il en découle: p(X1= x1) =1/2; ∀k≥ 2: p(Xk = xk) = 1 ∑ p(X1 = x1,…,Xk=xk) = 2k-1. k = 1/2 , k-1 2 (x1,…,xk-1)∈{0,1} n puis: p(X1=x1 , …, Xn=xn) = ∏ p(Xk = xk). k=1 On en déduit que (Xn) est indépendante et que chaque Xk suit la loi de Bernoulli B(1/2). La loi forte des grands nombres indique alors que Xn converge presque sûrement vers 1/2. Autrement dit, dans presque tout nombre de [0,1[, la fréquence d'apparition des 1 tend vers 1/2. On obtiendra le même résultat pour la fréquence d'apparition des 0. Le résultat s'étend en base quelconque; par exemple, pour presque tout nombre x ∈ [0,1[, la fréquence d'apparition dans le développement décimal de x de chacun des chiffres 0,1,…,9 tend vers 1/10. Un réel x tel que x - E(x) possède cette propriété est dit normal en base 10. Presque tous les réels sont donc normaux. A l'heure actuelle, on ne sait toujours pas si π est normal. Simulation avec MAPLE de la loi faible pour un N –échantillon de B(m). Nous allons : - fixer une valeur plafond N dans laquelle variera l'entier n; - effectuer T expériences indépendantes Xi,1,...,Xi,N , i = 1..T , chaque Xi,j simulant B(m); - calculer pour chacune des expériences i = 1..T et pour chaque n = 1..N la valeur Si,n = Xi,1+...+Xi,n simulant la v.a. Sn; - évaluer pour chaque n = 1..N la fréquence fn = Card{ i = 1..T, |Si,n/n – m| ≥ ε }/ T , qui simule la probabilité p( |Sn/n –m| ≥ε); - représenter graphiquement f en fonction de n ; - comparer les résultats obtenus avec: m(1-m) ; - la majoration de Bienaymé-Chebichev: p( |Sn/n - m| ≥ ε) ≤ nε² -β²A²n - la majoration améliorée (cf annexes) avec A=1, βA=ε , B=m(1-m)et p( |Sn/n - m| ≥ ε) ≤ 2exp 4B > restart: > T:=40: N:=500: m:=.5: epsilon:=0.05: > X:=matrix(T,N,(i,j)->rand(0..1)()): > S:=matrix(T,N,(i,j)->sum(X[i,k],k=1..j)): > for n from 1 to N do f[n]:=0: for i from 1 to T do if abs(S[i,n]/n-m)>=epsilon then f[n]:=f[n]+1/T fi: od: od: > graphe1:=plot([seq([n,f[n]],n=1..N)],colour=red): > graphe2:=plot(m*(1-m)/(x*epsilon^2),x=1..N,y=0..1,colour=blue): > A:=1: beta:=epsilon/A: B:=m*(1-m): > graphe3:=plot(2*exp(-(beta^2)*(A^2)*x/(4*B)),x=1..N,colour=green): > plots[display]({graphe1,graphe2,graphe3}); ------------------------------------------------------------------------------------------------------------------------------- 9) LE THEOREME DE LA LIMITE CENTRALE Les notations sont les mêmes qu'au paragraphe 6; les v.a. X1,…,Xn,…,X peuvent être définies sur des espaces probabilisés différents. THEOREME CENTRAL LIMITE (TCL). Si (Xn) est un N-échantillon d'une loi µ[m,σ], alors: Tn = n Sn - nm = .( Xn -m) converge en loi vers une v.a. normale centrée réduite (en abrégé:VNCR). σ σ. n Corollaire: dans les mêmes conditions: Un = n-1 .( Xn -m) converge en loi vers une VNCR. sn Démonstration du théorème: soit Φ la fonction caractéristique commune aux variables centrées Xn-m : σ²x² E(Xn-m) = 0 et E((Xn-m)2) = σ2 , donc Φ(x) = 1 + x2.ε(x) avec lim ε(x) =0. 2 x→0 n Xk-m Sn - nm Tn = = ∑ et ces variables sont indépendantes, donc pour t réel fixé: σ. n k=1 σ n n t n t² t² t t² 1 n t² ΦTn(t) =Φ( ) = 1+ .ε ( ) = 1 - + on→∞( ) = exp ( - + on→∞(1) ), 2n 2n n 2 nσ² σ n σ n -t²/2 donc lim ΦTn(t) = e , fonction caractéristique d'une VNCR, d'où le résultat. n→ +∞ Extension: on peut énoncer un résultat avec des variables non équidistribuées (la démonstration n'est pas n σk2 plus compliquée): en posant E(Xn) =mn, V(Xn) = σn2 , sn2 = ∑ σk2 et en supposant: ∀k: lim 2 = 0, k=1 n→ +∞ sn (X1-m1) + … + (Xn-mn) converge en loi vers une VNCR. on déduira que la v.a. sn Démonstration du corollaire: Etablissons tout d'abord un lemme: Lemme: soient Y1,…,Yn,…,Z1,…,Zn,…,Z des v.a. réelles définies sur un même espace probabilisé. Si (Yn) converge en loi vers une constante a et si (Zn) converge en loi vers Z, alors (Yn , Zn) converge en loi vers (a,Z), et en conséquence: pour toute fonction continue ψ de R2 dans R , ψ(Yn,Zn) converge en loi vers ψ(a,Z). Preuve du lemme: on étend facilement les définitions et résultats pour la convergence en loi au cas de vecteurs aléatoires à valeurs dans R2. En particulier, nous vérifions la convergence annoncée à l'aide des fonctions caractéristiques: pour (u,v) ∈ R2, il vient: (u,v) - Φ (u,v) | ≤ | Φ (u,v) - Φ (u,v) | + | Φ (u,v) - Φ (u,v) | |Φ (Yn,Zn) (a,Z) (Yn,Zn) = | E(e ≤ E( |e (a,Zn) i(uYn+vZn) iuYn -e i(ua+vZn) (a,Zn) (a,Z) | + | eiua( Φ (v) - Φ (v) ) | Zn Z iua - e | ) + |Φ (v) - Φ (v)|. iuy Zn iua Z Soient ε > 0, η > 0 tel que [ |y-a| < η ⇒ |e - e | < ε ], et N ∈N tel que n ≥N entraîne p( |Yn-a|≥η) < ε (convergence en probabilité de (Yn) vers a) et |Φ (v) - Φ (v)| < ε (convergence Zn en loi de (Zn) vers Z). Pour n ≥N, on obtient: | Φ (u,v) - Φ (Yn,Zn) Z (u,v) | ≤ ε + 2.p( |Yn-a| ≥ η) + ε ≤ 4ε. (a,Z) Le théorème de Levy prouve le résultat. σ (cvps vers 1, Zn = Tn et ψ(y,z) = yz. τn Rappel: si µ[m,σ] = N(m,σ), on se reportera aux résultats plus précis du paragraphe 6. Il suffit alors d'appliquer ce qui précède à Yn = Applications : a) Approximation d'une loi binomiale par une loi normale. Soit (Xn) un N -échantillon de la loi de Bernoulli B(p) (et q = 1-p). Sn-np converge en loi vers une VNCR. La v.a. Sn suit la loi B(n,p), et le TCL indique que npq En d'autres termes: pour n assez grand, une v.a. Sn suivant la loi B(n,p) suit approximativement la loi N(np, npq ). Pour p et q non voisins de zéro et n ≥15, le polygone des fréquences de la loi B(n,p) est fortement symétrique et son enveloppe évoque une courbe gaussienne. On obtient en pratique des résultats acceptables lorsque l'on approxime B(n,p) par N(np, npq) pour [n ≥ 15, p et q non voisins de 0] with(stats): > n:= 20:p:=0.4: >gr1:=plot(statevalf[pdf,normald[n*p,sqrt(n*p*(1-p))]], 0..20,colour=blue): > gr2:=plot([seq([k,statevalf[pf,binomiald[n,p]](k)],k=0..20)]): > plots[display]({gr1,gr2}); (si p ou q est voisin de 0, on se reportera à l'approximation par une loi de Poisson vue au paragraphe 5). • Les résultats d'une élection ont donné 45% des voix en faveur d'un candidat. Déterminons rétrospectivement la probabilité qu'un échantillon aléatoire de 200 personnes ait donné la majorité à ce candidat: le nombre S200 de votes favorables de l'échantillon suit la loi B(200;0,45) que l'on approxime par N(200.0,45; 200.0,45.0,55) # N(90; 7,03); il suit: S200 - 90 > 1,42 ) # 0,08. p( S200 > 100 ) = p ( 7,03 (pour n = 1000, on obtient une probabilité de 0,0007). b) Approximation d'une loi de Poisson par une loi normale: Soit (Xn) un N-échantillon de la loi de Poisson P(α) (α> 0); (m = σ² = α); alors Sn-nα converge en loi nα vers une v.n.c.r. Sn suit la loi P(nα). On considérera que, pour λ grand, une v.a. Sn suivant la loi P(λ) suit approximativement la loi N(λ, λ). On obtient en pratique des résultats acceptables lorsque l'on approxime P(λ λ) # N(λ λ, λ ) pour λ > 15 . (cf. remarque déjà faite sur le polygone des fréquences de P(λ)). > with(stats): > lambda:=15: >gr1:=plot(statevalf[pdf,normald[lambda,sqrt(lambda)]], 0..30,colour=blue): > gr2:=plot([seq([k,statevalf[pf,poisson[lambda]](k)],k=0..30)]): > plots[display]({gr1,gr2}) • 0 n nk Sn-n 1 en Avec α = 1, l'égalité lim p( ≤0)= .⌡ ⌠e-x²/2dx fournit : ∑ k! ~ 2 . n 2π n→ +∞ k=0 n→∞ -∞ c) Théorème central limite avec une loi uniforme: Si (Xn) est un N-échantillon de la loi uniforme sur [-a,a] (a > 0 donné : m = 0 , σ = a 3.Sn ), alors 3 a. n converge en loi vers une VNCR. • On décide dans un programme de calcul de travailler avec N chiffres significatifs après la virgule (tous les résultats sont donc arrondis, et on travaille à chaque opération à 0,5.10-N près). Supposons que l'on effectue 106 opérations, les erreurs commises étant indépendantes et suivant la loi uniforme sur [-0,5.10-N; 0,5.10-N]. On considère en outre que les erreurs s'additionnent et sont indépendantes. Appliquons ce qui précède (en considérant que 106 est assez grand) lorsque Xn désigne l'erreur faite à la nème opération: la proba. pour que le résultat final soit connu à 0,5.10-N+3 près est: p( |S | ≤ 0,5.10 106 -N+3 2 3.|S106| )=p( ≤ 10-N+3 3) # 1 . 2π 3 -t²/2 ⌠ ⌡e dt # 0,92. - 3 Sur un million d'opérations, on considérera donc que l'on a perdu au plus trois chiffres significatifs avec une probabilité de 92%. Remarque: ne pas confondre chiffres significatifs et décimales exactes: une valeur xo à N chiffres significatifs d'un réel x peut avoir jusqu'à 2 décimales incorrectes (par exemple, 0,390 est une valeur à trois chiffres significatifs de 0,3897, puisque |0,3897-0,390| = 0,3.10-3 < 0,5.10-3. d) Une preuve probabiliste de la formule de Stirling: Soit (Xn) un N-échantillon de la loi exponentielle E(1) (densité e-x sur R+; m = σ² = 1). n Nous avons vu que pour n ≥1, Sn = ∑ Xk suit la loi de Erlang de paramètres 1, n (cf processus de k=1 xn-1.e-x Sur R+. Poisson), de densité (n-1)! Sn-n Le T.C.L. indique que (Yn) = converge en loi vers une VNCR Y. Un calcul simple fournit d'autre n part: +∞ 1 2nn. n.e-n n-1 -x E( |Yn| ) = .⌠ .e .dx = (1). |x-n|.x n! (n-1)!. n ⌡ 0 +∞ Mais E( |Yn| ) = ⌡ ⌠p( |Yn| > t ).dt (cf paragraphe 4b) , et : ! ! 0 La convergence en loi de (Yn) vers Y entraîne: ∀t ≥0: lim p( |Yn| > t) = p( |Y| > t); n→ +∞ V(Yn) 1 L'inégalité de Bienaymé-Chebychev fournit: ∀n, ∀t ≥ 1: p( |Yn| > t) ≤ 2 = 2 , et la suite t t 1 ( t → p(|Yn| > t) est donc majorée par 1[0,1] + 2.1[1,+∞[ , fonction intégrable sur R+. t Le théorème de convergence dominée fournit: +∞ 1 lim E( |Yn| ) = ⌡ .⌡ ⌠p( |Y| > t).dt = E( |Y| ) = ⌠|x|.e-x²/2.dx = 2π n→ +∞ R 0 En reportant dans (1), on obtient la formule de Stirling. 2 . π e) Prix d'une action en bourse: On modélise la valeur d'une action en bourse en considérant qu'elle passe de l'instant n-1 à l'instant n en augmentant dans une proportion r > 0 (taux d'actualisation) et en variant de façon positive ou négative dans une proportion ν (volatilité); on pose donc: Vo > 0 , et pour n ≥1: Vn = (1 + r + εn.ν).Vn-1 , 1 où la suite (εn) est supposée indépendante et équidistribuée de loi .(δ-1+δ1). 2 On suppose de plus que la volatilité n'est pas trop importante devant le taux d'actualisation: 0 < ν < 1+r. Ainsi, Vn est strictement positif pour tout n, et l'on a: n ln Vn = ln Vo + ∑ ln(1+ r + ν.εk) = ln Vo + Sn (notations du TCL). k=1 1 Les v.a. ln(1+r+νεn) sont indépendantes de loi commune .( δln(1+r-ν) + δln(1+r+ν) ), de moyenne 2 1 m = .ln [(1+r)2-ν2]. 2 1 La loi forte des grands nombres indique donc que .ln Vn converge presque sûrement vers m, d'où: n Si r < ν²+1 - 1 : m < 0 et (Vn) converge presque sûrement vers 0. Si r > ν²+1 - 1 : m > 0 et (Vn) converge presque sûrement vers +∞. La variance commune aux variables centrées ln(1+r+νεn) est 1 1 1 1+r+ν σ2 = .( ln²(1+r+ν) + ln²(1+r-ν) ) - .ln²((1+r)²-ν²) = .ln² 1+r-ν . 2 4 4 Le TCL indique alors que (e-nm.Vn) 1/ n ln Vn - nm converge σ n Vn = en loi vers une VNCR Y, et donc que 1/ n [(1+r)2-σ²] 1/2 n converge en loi vers eσY , dont la densité f sur R+ s'obtient facilement: f(x) = 1 xσ 2π .exp - ln²x 2σ² (loi log-normale centrée). ------------------------------------------------------------------------------------------------------------------------------- 10) JUGEMENT SUR ECHANTILLON; INTERVALLE DE CONFIANCE ET TEST D'HYPOTHESE SUR UNE MOYENNE Considérons une population dans laquelle nous considérerons qu’un caractère quantitatif suit une loi µ de moyenne et d'écart-type théoriques m et σ, connus ou inconnus. On observe dans un n-échantillon supposé représentatif de cette population une moyenne me et un écart-type σe . On peut alors se poser les problèmes suivants: • Estimer m en proposant un « intervalle de confiance » dans lequel cette valeur doit se situer raisonnablement. • Décider s’il faut raisonnablement rejeter ou accepter une hypothèse sur m du type [m = mo], [m ≥ mo], [m ≤ mo] (test d'hypothèse bilatéral, unilatéral gauche ou unilatéral droit). Pour donner un sens mathématique à ce qui sera « raisonnable », on fixe une probabilité d'erreur α a priori , appelée seuil de signification de la réponse que l'on fournira (intervalle; acceptation ou rejet d’une hypothèse concernant m). Considérons un n-échantillon aléatoire (X1,…,Xn) de la loi µ, de moyenne Xn et d'écart-type sn. Population m n-échantillon statistique me n-échantillon théorique Moyenne Ecart-type σ σe sn Xn a) Cas d'une observation gaussienne. Si l'on suppose que les sources d'erreurs dans l'analyse du caractère sont multiples, indépendantes et de faible importance, on est amené à considérer la distribution µ gaussienne: µ = N(m,σ). On sait qu'alors: n T = σ .( Xn - m ) suit la loi N(0,1). Xn -m U = n-1. sn suit la loi de Student t(n-1) (qui converge étroitement vers N(0,1)). En fonction du seuil α que l'on se fixe, les tables des loi normale et de Student (lois symétriques par rapport à l'origine) fournissent respectivement: • Les valeurs tα , t2α ≥ 0 telles que p( |T| > tα ) = p( T > t2α ) = p( T < -t2α ) = α . • Les valeurs tα,n-1 , t2α,n-1 ≥0 telles que : p( |U| > tα,n-1) = p( U > t2α,n-1 ) = p( U < -t2α,n-1 ) = α. En particulier, on a , pour la loi normale et les seuils d'erreur de 1%, 5% et 10%: t0,01 # 2,58 ; t0,05 # 1,96 ; t0,1 # 1,65. Intervalle de confiance pour m: ❶ Si σ est donné et non mis en doute: on utilise T et me. p( |T| > tα ) = α = p( m ∉ [ Xn - tα. σ n , Xn + tα. σ ] n ). On proposera pour m l’intervalle de confiance [me - tα. σ n , me + tα. σ ] n au seuil α. (i.e. : la probabilité pour que m soit extérieure à cet intervalle n’excède pas le seuil α). ❷ Si σ est inconnu et l'échantillon de petite taille (en pratique: n ≤ 30): on utilise U et σe: P( |U| > tα,n-1 ) = α = p( m ∉ [ Xn - tα,n-1. sn n-1 , Xn + tα,n-1. On proposera pour m l’intervalle de confiance [me - tα,n-1. sn ]. n-1 σe n-1 , me + tα,n-1. σe ] n-1 au seuil α. ❸ Si σ est inconnu et l'échantillon de taille assez grande (en pratique: n > 30) on utilise une approximation normale de U, et σe: On considérera que U suit approximativement la loi N(0,1), et on proposera donc pour m l’intervalle de confiance [me - tα. σe n-1 , me + tα. σe ] n-1 au seuil α. (Il revient au même ici d’utiliser T en estimant σ n par 2 dans l'échantillon aléatoire à l'estimateur non biaisé τn ) . σe n-1 , c'est à dire σ2 par n 2 .σ , ce qui correspond n-1 e Test d’hypothèse sur m: • Test bilatéral : Une hypothèse [m=mo] sera rejetée si la valeur mo n’est pas dans l’intervalle de confiance obtenu. Il est commode dans la pratique de calculer la valeur τo à comparer avec les valeurs fournies par les tables : n → cas ❶ : on calcule τo = σ .(me - mo) et on rejette l’hypothèse si |τo| > tα . n-1 → cas ❷ : on calcule τo = σ .(me-mo) et on rejette l’hypothèse si |τo| > tα,n-1 . e n-1 → cas ❸ : on calcule τo = σ .(me-mo) et on rejette l’hypothèse si |τo| > tα . e • Test unilatéral: n n-1 Notons To = σ .( Xn - mo) et Uo = sn .( Xn - mo) les v.a. T et U obtenues pour m = mo . Il vient alors, pour les valeurs τo définies ci-dessus : → cas ❶ : sous l’hypothèse [m ≥ mo] : p( To < - t2α ) ≤ p(T < -t2α ) = α : on rejette l'hypothèse si τo < -t2α . sous l’hypothèse [m ≤ mo] : p( To > t2α ) ≤ p( T > t2α ) = α : on rejette l’hypothèse si τo > t2α. et, pour les mêmes raisons dans les deux autres cas : → cas ❷ : rejet de l’hypothèse [m ≥ mo] si τo < -t2α,n-1 . rejet de l’hypothèse [m ≤ mo] si τo > t2α,n-1 . → cas ❸ : rejet de l’hypothèse [m ≥ mo] si τo < -t2α . rejet de l’hypothèse [m ≤ mo] si τo > t2α . EXEMPLES: • Une étude portant sur 25 voitures identiques indique une consommation moyenne de 8,5 litres aux 100 km avec un écart-type égal à 0,8 litres. Donnons un intervalle de confiance au seuil de 5% pour la consommation moyenne de ce type de véhicule (σ inconnu, n< 30): avec tα,24 # 2,064, on obtient [ 8,5 - 2,064. 0,8 0,8 , 8,5 + 2,064. 24 24 ] # [8,16 ; 8,84]. La précision obtenue est de ± 0,34 litre/100 km. • En état normal de marche, une machine débite, à raison de 1600 à la minute, des cigarettes dont la masse moyenne est de 1,2 gr avec un écart-type de 0,063 gr. A un moment donné, on prélève 16 cigarettes à la sortie de la machine; leur masse moyenne est de 1,23 gr. 16 Testons au seuil α = 5% l'hyptohèse [m = 1,2 gr] (σ connu, test bilatéral): |τo| = 0,063.(1,23-1,2) # 1,905< 1,96. On n'a aucune raison de rejeter l'hyptothèse que la machine fonctionne normalement. Si l'on observe la même moyenne sur un échantillon de 100 cigarettes, on obtiendra |τo| # 4,76 > 1,96: au seuil de 5%, on peut considérer que la machine est déréglée: il y a eu surplus d'information procuré par l'accroissement de la taille de l'échantillon. • En notant les masses en kg de 100 expéditions de pommes, on a relevé une moyenne de 99,56 kg pour un écart-type de 1,85 kg. La masse moyenne annoncée des expéditions est de 100 kg. Testons au seuil α = 5% l'hypothèse [m ≥ 100] , i.e. que la masse moyenne des expéditions n'est pas 100 inférieure à celle annoncée (σ inconnu, n >30, test unilatéral gauche): τo = 1,85 .(99,56-100) # -2,38 < -1,65. L'hypothèse doit être rejetée: on peut considérer, au seuil de 5%, qu'il y a eu fraude. b) Cas général : Lorsque la loi µ[m,σ] n'est plus précisée et que l'on connaît σ (ou qu'on sait le majorer), on utilise le théorème central limite et son corollaire (cf paragraphe 9) en considérant pour n grand que: n T = σ .( Xn - m ) suit approximativement la loi N(0,1). Xn -m U = n-1. sn suit approximativement la loi N(0,1). La méthode est alors la même qu'en [a]: on utilisera T si σ (ou un majorant de σ) est connu, et U sinon. Remarque: si σ est connue, l'inégalité de Bienaymé Chebychev fournit aussi pour m un intervalle de confiance, de diamètre 1 2σ . α n au seuil α; comparativement au diamètre tα. 2σ n fourni dans une observation gaussienne ou par une approximation normale, ce résultat est toutefois nettement moins précis pour α petit. Pour un exemple d'utilisation de ces résultats, voir en annexe: Méthodes de Monte-Carlo pour le calcul d'intégrales c) Un cas particulier: intervalles et tests asymptotiques pour une fréquence Considérons une population dans laquelle la proportion (ou fréquence) d'individus présentant un caractère donné (cas favorables) est une valeur p à estimer ou à tester. La situation se modélise comme ci-dessus, mais avec cette fois une loi µ de Bernoulli de paramètre p: µ = B(p) On considérera alors (théorème central limite) pour n grand que : T= n ( p(1-p) Xn - p) suit approximativement la loi N(0,1). En pratique, on se placera dans les conditions d'approximation de la loi B(n,p) de Sn = n Xn par N(np, np(1-p)), à savoir: n ≥15, p et 1-p non voisins de 0. On suppose prélevé un échantillon statistique de taille n où la proportion (ou fréquence) des cas favorables est pe. Le principe de la méthode pour estimer ou tester p est le même qu'en [a], avec toutefois deux légères différences: • les moyennes qui interviendront seront obligatoirement comprises entre 0 et 1 ; • l'écart-type σ de la population est lié à p par la relation σ = p(1-p). Intervalle de confiance pour p: Nous avons p( |T| > tα ) = p ( p ∉ [ Xn - tα. p(1-p) n p(1-p) n , Xn + tα. ])=α. Sachant que p(1-p) ≤1/4, on obtient pour p l'intervalle de confiance [pe -tα. 1 4n , pe +tα. En acceptant une probabilité d'erreur α, nous considérons toutefois que | Xn -p| = O( Xn (1- Xn ) limité montre que n - p(1-p) 1-2p | Xn -p| ~ 2 . = n n On peut donc négliger l'erreur faite en remplaçant obtient alors l'intervalle de confiance [ pe - tα. 1 n ] au seuil α. ). Un développement 1 O( ). n p(1-p) n pe(1-pe) ; pe n 1 4n - tα. Xn (1- Xn ) par pe(1-pe) n n dans l'intervalle proposé; on ] pour p au seuil α. (La donnée d'un intervalle de confiance pour pe connaissant p ne pose pas de problème) Test d'hypothèse sur p, relatif à une valeur po donnée: Notons To = n ( po(1-po) Xn - po) et τo = On vérifie facilement que ϕ : x → n(a-x) x(1-x) n (pe - po) po(1-po) . est décroissante sur ]0,1[ pour a ∈]0,1[. → Pour un test bilatéral [p = po] : T = To ; p( |To| > tα) = α. On rejettera l'hypothèse si |τo| > tα. → Pour un test unilatéral gauche [p ≥ po] : T ≤ To ; p( To < -t2α) ≤ p( T < -t2α) = α. On rejettera l'hypothèse si τo < -t2α. → Pour un test unilatéral droit [p ≤ po] : T ≥ To ; p( To > t2α) ≤ p( T > t2α) = α. On rejettera l'hypothèse si τo > t2α. EXEMPLES: • On lance une pièce de monnaie 100 fois et on obtient 60 "pile". Notons p la probabilité pour qu'elle tombe sur pile en un lancer. 100 L'hypothèse [p = 1/2] donne τo = (0,6-0,5) = 2 > 1,96 : on peut présumer au seuil α = 5% que la 0,5.0,5 pièce est truquée. • D'après les statistiques de l'état civil, la proportion des nouveaux-nés de sexe masculin est de 51,5%. La proportion des garçons sur l'échantillon des 500 prochaînes naissances est, au seuil de 5%, situé dans l'intervalle de confiance [ 0,515 - 1,96. 0,515.0,485 500 ; 0,515 + 1,96. 0,515.0,485 500 ] # [0,471 ; 0,559], soit donc entre 236 et 279 garçons. Sur un échantillon de 700 naissances après traitement contre la stérilité, on a enregistré 362 garçons et 338 filles. L'hypothèse [p = 0,515] fournit |τo| = 362 700 ( - 0,515) 0,515.0,485 700 # 0,11 < t0,91 : on peut donc considérer que le traitement n'exerce aucune influence sur le sexe des nouveaux-nés (l'écart à la moyenne ne pourrait être significatif que pour un risque d'erreur considérable (91%)). • Dans des conditions normales de fonctionnement, une machine fabrique des pièces défectueuses dans une proportion au plus égale à 0,01. Testons l'hypothèse [p ≤ 0,01] sur un échantillon de 200 pièces: τo = 200 ( p - 0,01) > t2α ⇔ pe 0,01.0,99 e > pα # 0,01 + 0,007.t2α. On peut définir une limite de surveillance (contrôles suivants plus serrés en augmentant la taille des échantillons) au seuil de 5% : pα # 0,0216, soit donc à partir de 5 pièces défectueuses, et une limite d'intervention (interruption de la fabrication et réparation de la machine) au seuil de 1/1000: pα # 0,0317, soit donc à partir de 7 pièces défectueuses. Soit n la taille d'échantillon pour laquelle un écart de 1% seulement entre la fréquence observée et la proportion théorique conduirait à interrompre la fabrication des pièces (seuil 1/1000: 3,092 n ( 0,01) > t0,002 # 3,09 ⇔ n > 0,01.0,99. 0,01.0,99 0,01 # 945. d) Autres résultats • Nous avons vu comment estimer ou tester la moyenne d'une loi inconnue à partir d'un échantillon. On peut sn2 faire de même avec sa variance: dans le cas d'une observation gaussienne, on utilise le fait que n. 2 suit la σ loi ℵ2(n-1). Il existe aussi des tests de comparaison de paramètres de deux échantillons (en vue d'estimer par exemple si une modification apportée à la population a un effet notable sur le caractère étudié). • La compatibilité d'une distribution statistique observée à une distribution théorique donnée se traite selon 2 des méthodes similaires. On consultera en annexe: Le test du ℵ d'ajustement. ANNEXES 1. CORRELATION LINEAIRE Soient deux v.a. réelles X et Y d'ordre 2 sur un espace probabilisé (Ω,T,p). ~ ~ Cherchons une meilleure approximation quadratique Y de Y comme fonction affine de X, i.e. Y = aX+b où les réels a et b rendent minimum l'expression E( [Y-aX-b]2 ): De: on tire: (Y-aX-b)2 = [ (Y- Y ) -a(X- X ) + ( Y -a X -b) ]2 E( [Y-aX-b]2 ) = E( [(Y- Y ) -a(X- X )]2 ) + ( Y -a X -b)2, et il convient donc de choisir a minimisant ϕ(a) = E( [(Y- Y ) -a(X- X )]2 ) , puis b = Y -a X ; Avec l'expression ϕ(a) = V(X).a2 - 2a.E[(X- X )(Y- Y )] + V(Y) = V(X).a2 - 2a.cov(X,Y) + V(Y), où cov(X,Y) = E[(X- X )(Y- Y )] est la covariance de X et Y, cov(X,Y) on obtient finalement, en supposant X non presque sûrement constante: a = V(X) , et la meilleure approximation de Y comme fonction affine de X (qui est d'ailleurs le projeté orthogonal de Y sur Vect(1,X) dans L2(Ω)) est donc: ~ cov(X,Y) Y = Y + a(X - X ) avec a = V(X) . Propriétés de la covariance: pour X, Y, X1, …, Xn réelles d'ordre 2: cov(X,X) = V(X) cov(X,Y) = E(XY) - E(X)E(Y) |cov(X,Y)| ≤ σ(X)σ(Y) (inégalité de Cauchy-Schwarz) n V(X1+…+Xn) = ∑ V(Xk) + ∑ cov(Xi,Xj). k=1 i≠j Dans le plan affine euclidien R2 rapporté au repère orthonormé (O,i,j), la droite (D) : y - Y = a.(x - X ) est appelée droite de régression linéaire de Y en X. cov(X,Y) De même, en posant a' = V(Y) (si V(Y) est non nul): (D') : x - X = a'.(y - Y ) est la droite de régression linéaire de X en Y. On peut remarquer que a et a' sont de même signe, ce qui indique que D et D' sont toutes deux ascendantes ou [cov(X,Y)]2 2 = ρX,Y , où toutes deux descendantes (au sens large). Le produit aa' vaut V(X)V(Y) ρX,Y = cov(X,Y) ∈ [-1,1] est le coefficient de corrélation linéaire de X et Y. σ(X)σ(Y) • |ρX,Y| = 1 si et seulement si X et Y sont affinement dépendantes dans L2(Ω) (cas d'égalité dans l'inégalité de Cauchy-Schwarz). Nous sommes dans le cas où D et D' sont confondues. • ρX,Y = 0 si et seulement si cov(X,Y) = 0. On dit alors que X et Y sont non corrélées. C'est le cas où D et D' sont orthogonales. • Si 0 < |ρX,Y| < 1, D et D' ont pour intersection le point A = ( X , Y ) , sont toutes deux ascendantes ou descendantes selon que ρX,Y est positif ou négatif. Dans le repère (A, σX.i , σY.j ), les équations de D et D' sont respectivement [y = ρx] et [x = ρy]. L'écart angulaire de D et D' (dans ]0,π/2[ ) vaut π/2 - 2.Arctan |ρ| : il décroît de π/2 à 0 lorsque |ρX,Y| croît de 0 à 1. Lorsque l'on étudie un phénomène qui met en cause deux caractères différents au sein d'une même "population" (taille et poids dans un échantillon d'individus, montant des ventes et frais de publicité à diverses périodes dans une entreprise …), on consigne les résultats (xk,yk) obtenus dans un tableau de nombres appelé série statistique à deux variables. En d'autres termes, on définit sur un ensemble Ω = {1,…,N} muni de la probabilité p uniforme les deux variables X : k → X(k) = xk et Y : k → Y(k) = yk. Le nuage de points {Mk(xk,yk) , k ∈Ω} obtenu peut alors prendre diverses formes: il peut sembler dispersé au hasard ou avoir un profil avoisinant une courbe. Ajuster le nuage consiste à déterminer une courbe (C) simple "aussi proche que possible" de l'ensemble {Mk, k∈Ω}. Une forme allongée du nuage justifie de rechercher pour (C) une droite; on dit que l'on procède alors à un ajustement linéaire . En reprenant les notations définies plus haut, et en notant M'k = (xk,yk') ∈ D pour chaque k de Ω , nous avons minimisé avec la droite D l'expression: 1 N 1 N 1 N E( (Y-aX-b)2 ) = . ∑ (yk-a.xk-b)2 = . ∑ (yk - yk' )2 = . ∑ MkM'k 2 , N k=1 N k=1 N k=1 et la même interprétation peut être faite symétriquement avec D'. Si l'écart angulaire de D et D' est faible, on peut procéder à un ajustement linéaire en prenant -suivant ce que l'on veut en faire- D ou D' pour droite d'estimation: c'est la méthode d'ajustement linéaire par les moindres carrés, utilisée lorsqu'il y a forte corrélation entre les variables (en pratique, lorsque 1-ρ2 ≤ 1/2, i.e. ρ2 ≥ 3/4). ______________________________________________________ 2. PRODUIT DENOMBRABLE D'ESPACES PROBABILISES Soit (S,∑,p) un espace probabilisé discret fini, Ω = SN * l'ensemble des suites (xn)n≥1 à valeurs dans S, et pour n ≥ 1, l'application coordonnée Xn : Ω → S , (xi)i≥1 → xn On note T la plus petite tribu sur Ω telle que les Xn soient mesurables de (S,∑) dans (Ω,T). Alors il existe une unique probabilité P sur (Ω,T) qui rend les Xn mutuellement indépendantes et qui vérifie: ∀n ≥ 1, ∀A⊂S: P(Xn∈A) = p(A). Ce résultat permet par exemple de probabiliser les suites infinies de jeu de pile ou face (cf. l'exemple du cours donné pour la loi géométrique), et plus généralement une suite illimitée de répétitions d'expériences indépendantes de même loi (cf. échantillons d'une loi). Démonstration: +∞ X T est la tribu engendrée par ∪ ∑ n ; nous allons la définir toutefois autrement, en faisant apparaître les n=1 événements qui ne font intervenir qu'un nombre fini de coordonnées (événements observables), i.e. de la forme [πn∈A] , pour n ≥ 1 et A ⊂ Sn , où πn = (X1,…,Xn) Notons pour n ≥1: Un = {[πn∈A], A⊂Sn} (c'est la tribu P(Sn) πn , plus petite tribu rendant πnmesurable) +∞ U = ∪ Un , et To la tribu engendrée par U (la plus petite tribu rendant toutes les πn mesurables). n=1 On se convaincra sans peine que: → (Un) est croissante (pour m>n, [πn∈A] = [πm∈A×Sm-n] ) → U est une algèbre , i.e. contient ∅, est stable par réunion finie et complémentarité. U n'est toutefois +∞ pas une tribu, puisque si x ∈ Ω est donnée: ∩ [πn = πn(x)] = {x} ∉ U. n=1 → T ⊂ To ( [Xn∈A] = [πn∈Sn-1×A] ) → To ⊂ T ( [πn∈A] = n ∩ [Xk= xk] ). ∪ (x1,…,xn)∈A k=1 +∞ X Ainsi on a bien To = T, sous une forme plus manipulable ( ∪ ∑ n n'est pas une algèbre). n=1 La propriété suivante va nous servir: +∞ Prop: soit (Cm)m≥1 une suite décroissante d'éléments de U non vides; alors ∩ Cm est non vide. m=1 Preuve: Pour n donné, (πn(Cm))m≥1 décroît dans l'ensemble fini Sn , et est donc stationnaire à partir d'un certain +∞ rang m(n); on a donc: ∀k ≥ m(n) : πn(Ck) = πn(Cm(n)) , et ∩ πn(Cq) = πn(Cm(n))) ≠ ∅. q=1 Soit s1 ∈ π1(Cm(1)) ; supposons défini, pour un n ≥1: (s1,…,sn) ∈ Sn tel que: ∀k = 1,…,n : (s1,…,sk) ∈ πk(Cm(k)); +∞ (s1,…,sn) ∈ πn(Cm(n)) = ∩ πn(Cm) ⊂ πn(Cm(n+1)) , donc il existe dans Cm(n+1) une suite dont m=1 les n premières coordonnées sont (s1,…,sn), et par conséquent: Alors: ∃sn+1 ∈ S , (s1,…,sn+1) ∈ πn+1(Cm(n+1)). +∞ On définit ainsi une suite s = (sk)k≥1 telle que: πn(s) ∈ πn(Cm(n)) = ∩ πn(Cm) pour tout entier n. m=1 Soit m ≥1; il existe n ≥1 et A ∈ Sn tels que Cm = [πn∈A]; alors: +∞ πn(s) ∈ ∩ πn(Cq) ⊂ πn(Cm) , et donc: s ∈ Cm . q=1 +∞ Ceci étant vrai pour tout m ≥ 1, il en résulte que ∩ Cm est non vide. m=1 Un résultat de théorie de la mesure indique qu'il suffit de définir P sur l'algèbre U (une mesure σ-finie définie sur une algèbre se prolonge de façon unique sur la tribu engendrée par cette algèbre). Pour n≥1 et A⊂Sn, l'expression [πn∈A] = n ∩ [Xk= xk] ∪ (x1,…,xn)∈A k=1 et les propriétés demandées à P imposent de poser: P(πn∈A) = ∑ p(x1)…p(xn) (x1,…,xn)∈A On vérifie alors que P est une mesure sur U : → P(∅) = 0 (P(∅) = P(π1∈∅)) → ∀ E , F disjoints dans U: P(E∪F) =P(E)+P(F) ( écrire E = [πn∈A] et F = [πn∈B] ) → Soit (Cn) une suite d'éléments de U décroissante vers ∅, alors (P(Cn)) décroît vers 0. (on utilise la dernière propriété prouvée en [a]: (Cn) est stationnaire à ∅ , d'où le résultat). Il est alors immédiat que P satisfait aux conditions demandées: → ∀ n ≥1, ∀ A ⊂ S , P(Xn∈A) = p(A); → (Xn) est indépendante dans (Ω,T,P). Remarque: le modèle ainsi construit n'est nécessaire que si l'on veut modéliser une suite infinie d'épreuves indépendantes à valeurs dans S fini et de même loi p. C'est le cas lorsque l'on recherche des résultats asymptotiques sur des variables faisant intervenir les applications coordonnées Xn. ______________________________________________________ 3. THEOREME DE BOREL-CANTELLI (LOI DU TOUT OU RIEN) +∞ Soit (An)n≥0 une suite d'événements. On note ∀n: Bn = ∪ Ak , et A = lim An = ∩ Bn . k≥n n=0 n→+∞ +∞ 1) Si ∑ p(An) < +∞ , alors p(A) = 0. n=0 +∞ 2) Si la suite (An) est indépendante et ∑ p(An) = +∞ , alors p(A) = 1. n=0 Preuve: +∞ +∞ 1) Pour q fixé: p(A) = p( ∩ Bn ) ≤ p(Bq) = p( ∪ Ak ) ≤ ∑ p(Ak) , et ce majorant a une limite nulle n=0 k≥q k=q quand q tend vers +∞; on en déduit : p(A) = 0. 2) p(Ac) = p ∪↑( ∩ Akc ) ( n k≥n ) q ==== lim p( ∩ Akc ) = lim plim ↓ ∩ Akc q k=n n k≥n n Beppolevi q q q indép ==== lim lim p ∩ Akc === lim lim ∏ p(Akc) = lim lim ∏ (1-p(Ak)) n q k=n n q k=n n q k=n Beppolevi or pour n, q donnés, n ≤ q: q q q 0 ≤ ∏ (1-p(Ak)) ≤ ∏ exp( -p(Ak) ) = exp - ∑ p(Ak) , de limite nulle quand q tend vers +∞; k=n k=n k=n il suit: p(Ac) = lim 0 = 0, et donc p(A) = 1. n Le lemme de Borel-Cantelli est un outil efficace pour établir une propriété de convergence presque sûre d'une suite de variables aléatoires. Application: Le singe dactylographe: un singe tape au hasard sur une machine à écrire. Considérons que la machine a N touches a1,…,aN, et que les œuvres complètes de Victor Hugo se composent de la succession des symboles [ε1, …, εm] (lettres, espaces, ponctuations…). Soit S = {a1,…,aN} muni de la probabilité uniforme p (ce qui traduit le fait de taper au hasard), et l'espace probabilisé produit Ω = {a1,…,aN}N* muni de la tribu T et de la probabilité P telles que les applications coordonnées Xk soient mesurables et indépendantes (cf l'annexe 2). Notons pour k ≥1 l'événement: Ak = { X(k-1)m+1 = ε1 , …, Xkm = εm }. L'indépendance de la suite (Xk) fournit celle de la suite (Ak), et, pour k ≥ 1, on a: m 1 1 = m , N N j=1 m P(Ak) = ∏ P(X(k-1)m+j = εj ) = ∏ j=1 de sorte que la série ∑p(Ak) est divergente; le théorème de Borel-Cantelli fournit: p( lim An ) = 1, ce qui signifie n qu'il est quasi-certain que l'on retrouvera une infinité de fois les œuvres complètes de Victor Hugo dans les feuilles tapées par le singe (en considérant qu'il ne s'arrête jamais!) ________________________________________________________ 4. MARCHES ALEATOIRES Considérons une suite de jeux à deux issues (succès, échec) où un joueur gagne 1 point en cas de succès, et perd 1 point en cas d’échec. On s'intéresse au gain algébrique Zn du joueur à l'issue de la nème partie. Comme nous aurons à étudier Zn lorsque n tend vers +∞, modélisons directement une suite infinie de jeux: Soit S = {-1,1} muni de la probabilité p = p.δ1 + (1-p).δ-1 (0 < p < 1) , Ω = SN* muni de la tribu T et de la probabilité P rendant les applications coordonnées Xn mesurables et indépendantes, avec, pour n ≥1: P(Xn=1) = p , P(Xn= -1) = 1-p n Zn = ∑ Xk k=1 (cf. l'annexe 2; rappelons si l'on ne s'intéresse qu'à une suite finie de N parties, il revient au même de prendre Ω = SN muni de la probabilité PN({ω}) = pr(1-p)N-r où r est le nombre de "pile" dans ω; l'avantage de la modélisation d'une suite infinie de parties est qu'elle permet de définir une probabilité P valable pour tout N). Loi de Zn : Pour (n,a) donné, l'événement [Zn = a] correspond à un gain algébrique a à l'issue de n parties; si k ∈{0,…,n} désigne le nombre de parties gagnées, sa valeur est imposée par: n+a k.(+1)+(n-k)(-1) = a, soit donc k = 2 Ceci suppose |a| ≤n et a et n de même parité; le cas échéant, il vient: [Zn = a] = (disjointe) ∪ J⊂{1,…,n} |J|=k ∩ [Xi = 1] ∩ ∩ [Xi = -1] [ i∈J i∉J ] et donc finalement: k n+a P(Zn = a) = Cn. pk.(1-p)n-k , où k = 2 ∈ {0,…,n} q (on conviendra pour la suite de noter Cp = 0 pour q ∉ {0,…,p}). En particulier, pour un gain nul, il en résulte: • Si n est impair: P(Zn = 0) = 0. • Pour n ≥ 1: notons p2n = P(Z2n = 0) = C2n.[p(1-p)]n ; il vient: p2n+2 (2n+1)(2n+2) = (n+1)2 .p(1-p) ~ 4p(1-p). n→∞ p2n Il découle de ceci que si p ≠ 1/2, la série ∑ P(Z2n = 0) converge (car 4p(1-p) < 1). n Dans ces conditions, on obtient (avec Borel-Cantelli): P( lim [Z2n = 0] ) = 0: si p ≠ 1/2, il est quasi-certain que le joueur ne retrouvera sa fortune initiale qu'un nombre fini de fois. Pour un gain algébrique a : • Tous les éléments de [Zn = a] sont équiprobables, de probabilité commune pk(1-p)n-k ( avec k = (n+a)/2); Il en découle: |A| n+a Si k = 2 ∈ {0,…,n} et A ⊂ [Zn = a] : P(A) = |A|. pk(1-p)n-k ; P (A) = k Zn=a Cn Un calcul de ce genre relève donc du dénombrement. Représentation géométrique: Il est commode de représenter le déroulement d'une phase de jeu à l'aide d'une ligne polygonale sur un repère orthonormé, où chaque partie gagnante (resp. perdante) correspond à un segment de pente 1 (resp. -1) et de longueur 2 à partir du point précédent, et où un passage par (n,a) correspond à un gain algébrique a à la partie n: Zn 3 2 1 0 n -1 -2 L'ensemble des lignes polygonales (au sens défini ci-dessus) d'origine (n,a) et d'extrémité (m,b) sera noté [(n,a),(m,b)] (avec a, b, n, m ∈ Z et 0 ≤ n < m). Le symbole "≈" désignant "est en bijection avec", il est clair que: • • • k [(0,0),(n,a)] a pour cardinal Cn avec k = (n+a)/2 et la convention donnée plus haut. [(n,a),(m,b)] ≈ [(0,0),(m-n,b-a)] (par translation). Si a, b ≥ 1 : { L ∈ [(n,a),(m,b)], L touche Ox } ≈ [(n,-a),(m,b)] (principe de réflexion) En effet: à une ligne L du premier ensemble: L = (n,a)…(kL,0)…(m,b) où kL est l'abscisse du premier point de rencontre de L avec Ox, on peut associer la ligne L' = (n,-a)…(kL,0)…(m,b) du second ensemble, dont la partie précédant (kL,0) est la symétrique de la première par rapport à Ox (cf dessin). Il est manifeste que cette correspondance est bijective. Zn 3 2 1 0 n -1 -2 Exemple : Pour a ≥ 1, l’événement [Z1 > 0, Z2 > 0, …,Zn-1 > 0 , Zn = a] , où la valeur 1 est imposée pour Z1 , est est représentable par l’ensemble A Mais: = {lignes de [(1,1),(n,a)] ne touchant pas Ox } k-1 Card [(1,1),(n,a)] = Card [(0,0),(n-1,a-1)] = Cn-1 n+a ( k = 2 ); k Card [(1,1),(n,a)] / A = Card [(1,-1),(n,a)] = Card [(0,0),(n-1,a+1)] = Cn-1 . a k k-1 k Il en découle: |A| = Cn-1 - Cn-1 = .Cn , et finalement: n et n+a Pour a ≥ 1 et k = 2 ∈ {0,…,n}: a k P( Z1 > 0, Zn-1 > 0 , Zn = a] = .Cn. pk(1-p)n-k n ; P Zn=a ( Z1 > 0,…, Zn-1 > 0) = a . n Application: Un scrutin oppose deux candidats C et D qui obtiennent respectivement c et d bulletins. On suppose c > d (C est élu); on cherche la probabilité pour que C soit toujours resté en tête lors du dépouillement. Modélisons la situation avec Xk = 1 ou -1 selon que le kème bulletin ouvert est pour C ou D (on c considère que p vaut ici c+d ); Zk correspond à l'avance algébrique que C a sur D au kème bulletin ouvert. La probabilité demandée est c-d . (Z >0,…,Zc+d-1 > 0) = P Zc+d=c-d 1 c+d Cas p = 1/2 : étude du premier retour à zéro: Nous avons obtenu en [a] le résultat: n P(Z2n = 0) = p2n = C2n 22n p2n+2 2n+1 1 1 = 2n+2 = 1 - 2n + on→∞(n) , on déduit que la série ∑P(Z2n = 0) est divergente (règle de Raabep2n Duhamel); la suite (Zn) n'étant pas indépendante, le lemme de Borel-Cantelli ne permet toutefois pas de conclure De quoi que ce soit en ce qui concerne lim [Z2n = 0]. On peut néanmoins remarquer que la probabilité d'un retour à 0 à la (2n)ème partie décroît en n-1/2 ( la formule de Stirling donne p2n ~ 1 nπ ). Introduisons l'événement A2n correspondant à 2n parties sans aucun retour à zéro: A2n = [Z1 ≠ 0, …, Z2n≠0] (n≥1) A2n correspond aux lignes d'origine (0,0) ne rencontrant pas l'axe des x ailleurs qu'à l'origine. Par symétrie, il vient: n P(A2n) = 2.P(Z1 > 0, Z2 > 0,…, Z2n > 0) = 2. ∑ P(Z1 > 0, …, Z2n-1 > 0, Z2n = 2r) r=1 n 1 n+r-1 n+r = 2. ∑ [ C2n-1 - C2n-1] . 2n (cf. calculs précédents, avec k = n+r) 2 r=1 n n C2n-1 C2n = = . 22n-1 22n Ainsi: Pour n ≥ 1 : P( [Z1≠0, … , Z2n≠0] ) = p2n Notons C2n l'événément correspondant à un premier retour à zéro à la (2n)ème partie: C2 = [Z2=0] , C2n = [Z2 ≠ 0, …, Z2n-2 ≠ 0, Z2n = 0] (n≥2) Il vient, pour n ≥ 1: C2n = A2n-2 - A2n , n ∪ C2k = (A2n)c k=1 ( on posera par convention Ao = Ω et po = 1 ) d'où, avec la décroissance de (An): n P( ∪ C2k ) = 1 - p2n k=1 P(C2n) = p2n-2 - p2n , Un petit calcul fournit finalement: Pour n ≥ 1: P( [Z1≠0, … , Z2n-1≠0, Z2n= 0] ) = p2n 2n-1 +∞ Puisque p2n = o(1), on a p( ∪ C2n ) = 1, ce qui signifie qu'il est quasi-certain que le joueur retrouvera sa fortune n=1 initiale au moins une fois. La pièce étant non truquée, on pouvait intuitivement prévoir ce résultat. D'autre part, P(A2n) = p2n ~ 1 nπ décroît lentement vers 0; on trouve par exemple p2n < 10% pour 2n ≥ 64, et p2n < 1% pour 2n ≥ 6366. Cela signifie qu'il faudra jouer aux environs de 6000 parties pour avoir 99% de chances d'égaliser pertes et gains. Ce résultat indique qu'un joueur peut gagner (ou perdre) une très longue suite de parties consécutives, entraînant ainsi d'importantes fluctuations de gain. ______________________________________________________ 5. NOTIONS SUR LES CHAÎNES DE MARKOV FINIES a) Définition. Soit (Ω,B,p) un espace probabilisé et (Xn)n≥0 une suite de v.a. de Ω dans un ensemble fini ( I, P(I) ). Si les deux conditions suivantes sont vérifiées lorsqu'elles ont un sens: ① ∀x, y ∈ I: p(Xn+1=y/Xn=x) = π(x,y) est une valeur indépendante de n ② ∀n, ∀xo,…xn+1 ∈ I: p(Xn+1= xn+1 / (Xo,…,Xn) = (xo,…,xn) ) = p(Xn+1= xn+1 / Xn = xn) nous dirons que (Xn) est une chaîne de Markov homogène à espace d'états fini I. La première condition traduit l'homogénéité de la chaîne ; la seconde s'interprète par le fait que (Xn) est "sans mémoire" (la loi conditionnelle de Xn+1 sachant (Xo,…,Xn) ne dépend que de Xn ). Le cas échéant: I est l'espace des états, p Xo est la loi initiale et pour x,y ∈ I, π(x,y) est la probabilité de transition de l'état x à l'état y. Remarque: en considérant que I est l'espace des états pouvant effectivement apparaître dans la suite, la condition ① s'entend pour les n ∈Ix = {n≥0, p(Xn = x) > 0} (qui est alors non vide). La condition ② doit être vérifiée pour n et (xo,…,xn) tels que p((Xo,…,Xn)=(xo,…,xn)) ≠ 0. La matrice T = [π(x,y)]x,y∈I est appelée matrice de transition de la chaîne. Elle est stochastique: ses coefficients sont positifs ou nuls et la somme des termes de chacune de ses lignes vaut 1: ∀x ∈ I : ∑ p(Xn+1=y/Xn=x) = ∑ π(x,y) = 1. y∈I y∈I Exemples: La décision de ne plus fumer…: Cf. l'exemple du fumeur au paragraphe 1: notons Xn la v.a. valant 1 si la personne fume le jour n, et 0 sinon: moyennant la condition que la décision de fumer ou non le jour j sachant l'attitude adoptée les jours précédents ne dépend que de l'attitude adoptée le jour j-1 (condition ②), (Xn)n≥0 est une une chaîne 1-α α π(0,0) π(0,1) . de Markov à deux états 0 et 1, de matrice de transition T = ( π(1,0) π(1,1) ) = β 1-β Un modèle de tirage: Trois sacs A1 , A2 , A3 contiennent chacun 100 boules; pour i = 1, 2, 3: Ai contient αi boules numérotées ① , βi boules numérotées ② et γi boules numérotées ③. On tire une boule de A1 , on note son numéro X1 ∈{1,2,3}, puis on remet la boule dans son sac; on tire ensuite une boule de Ax1 , on note son numéro X2 , et ainsi de suite. Modélisons par la condition naturelle ② (le résultat d'un tirage "ne dépend" que du sac dans lequel il est effectué et non à l'histoire de ce sac) et la loi uniforme pour chaque tirage (tirage au hasard): la suite 1 α1 β1 γ1 α3 β3 γ3 (Xn)n≥1 est une chaîne de Markov à trois états 1, 2, 3 et de matrice de transition T = 100. α2 β2 γ2 . Transmission d'un message oui/non: Considérons un message à deux issues -1 ou 1 transmis dans une chaîne d'individus: Xo ∈{-1,1} représente le message initial; le nème individu reçoit Xn ∈ {-1,1}, et p désigne la probabilité pour que le message reçu soit "bien" transmis d'un individu au suivant: p(Xn+1=1/Xn=1) = p(Xn+1= -1/Xn= -1) = p et p(Xn+1=1/Xn= -1) = p(Xn+1= -1/Xn=1) = 1-p. Ajoutons-y la condition naturelle ② ("les intermédiaires sont indépendants"): (Xn)n≥0 est une chaîne de p 1-p π(-1,-1) π(-1,1) Markov à deux états -1, 1 et de matrice de transition T = ( π(1,-1) π(1,1) ) = 1-p p Comment reconnaître une chaîne de Markov? Soit J un ensemble fini et f une application de I×J dans I. Supposons donnés: • Une v.a. Xo de Ω dans I • Une suite (Vn)n≥1 de v.a. équidistribuées de Ω dans J telle que (Xo,V1,…,Vn,…) est indépendante Alors la suite (Xn)n≥0 définie par la formule de récurrence Xn+1 = f (Xn,Vn+1) est une chaîne de Markov. Démonstration: • Pour n ≥0 et x, y ∈ I, on a, si cela a un sens : p(Xn+1=y / Xn = x) = = p(Xn+1=y , Xn=x) p(Xn=x , f(Xn,Vn+1)=y) p(Xn=x , f(x,Vn+1)=y) = = p(Xn=x) p(Xn=x) p(Xn=x) p(Xn=x).p(f(x,Vn+1)=y) p(Xn=x) (Xn est fonction de Xo,V1,…,Vn et est indépte de Vn+1) = p( f(x,Vn+1) = y ) = p( f(x,V1) = y ) (V1 et Vn+1 ont même loi), et cette valeur est bien indépendante de n : ① est vérifiée. • Pour n≥0 et xo,…,xn+1 ∈I, lorsque ceci a un sens, on a aussi: p((Xo,…,Xn+1) = (xo,…,xn+1) ) p(Xn+1=xn+1 / (Xo,…,Xn) = (xo,…,xn)) = p( (Xo,…,Xn) = (xo,…,xn)) = p(Xo=xo , f(xo,V1)=x1 ,…, f(xn-1,Vn)=xn , f(xn,Vn+1)=xn+1) p(Xo=xo , f(xo,V1)=x1 ,…, f(xn-1,Vn)=xn) = p(Xo=xo). p(f(xo,V1)=x1)…p(f(xn-1,Vn)=xn).p(f(xn,Vn+1)=xn+1) (indépendance) p(Xo=xo). p(f(xo,V1)=x1)…p(f(xn-1,Vn)=xn) = p( f(xn,Vn+1) = xn+1 ) = p( Xn+1=xn+1 / Xn=xn) (calcul précédent). on a donc ②. Si µ est la loi commune des Vn , n ≥1: π(x,y) = ∑ µ({k}). k∈J f(x,k)=y Exemple: Dans l’exemple de la transmission d'un message oui/non, notons Vn la v.a. valant 1 ou -1 selon que la transmission du (n-1)ème individu au nème individu s'est faite correctement ou non; la condition d' "indépendance des intermédiaires" peut s'exprimer plus explicitement par la condition que (Xo,V1,…,Vn,…) est indépendante. Alors pour n ≥0, on a: Xn+1 = Xn.Vn+1 , ce qui justifie le fait que (Xn)n≥0 est une chaîne de Markov. b) Chaînes régulières. On note pour n ≥ 0 et x, y ∈ I : avec donc : πn(x,y) = Tn = [πn(x,y)]x,y∈I ∑ π(x,t1).π(t1,t2)…π(tn-1,y), t1,…,tn-1∈I Posons I = {a1,…,ar} et Un = (p(Xn=a1),…,p(Xn=an)) la distribution de Xn pour n entier. La propriété ① s'exprime par la formule matricielle Un+1 = Un.T et l'expression de la distribution de Xn que l'on obtient par récurrence pour tout entier n: Un = Uo.Tn La chaîne est dite régulière si la suite (Xn) converge en loi vers une v.a. fixe X, indépendemment de la loi initiale pXo , c’est à dire si Un tend vers une distribution U* indépendante de Uo lorsque n tend vers +∞. Ceci équivaut donc à dire que (Tn) converge vers une matrice T* à lignes toutes identiques. Le cas échéant, on a T* = Line (U*,…,U*). Preuve: Si la chaîne est régulière, en prenant Uo = ek = (0,…0,1,0,…0) où 1 est placé en kème place (1≤k≤r), on aura pour chaque k: U* = lim Un = lim ek.Tn = lim [kème ligne de Tn], n→ +∞ n→ +∞ n→ +∞ Donc (Tn) converge bien, de limite T* = Line (U*,…,U*). Réciproquement, si Tn converge vers une matrice T* = Line (U*,…,U*), alors: r r lim Un = UoT* = ∑ p(Xo=ak).ek.T* = ∑ p(Xo=ak).U* = U* , et ce indépendemment de k=1 k=1 n→ +∞ la distribution Uo, donc la chaîne est régulière. Exemple: 1-α α π(0,0) π(0,1) avec α, β ∈]0,1[: Cas d'une chaîne à deux états 0 et 1, de matrice T = ( π(1,0) π(1,1) ) = β 1-β T est diagonalisable à valeurs propres 1 et (1-α-β); il existe donc A, B telles que: A+B = I , et ∀n, Tn = A+(1-α-β)n.B. On trouvera A et B avec [A+B=I et A + (1-α-β)B = T] , puis: 1 β α (1-α-β)n α -α . . + , α+β -β β α+β β α 1 β α . lim Tn = β α . α+β n→ +∞ α β La chaîne est donc régulière, et la distribution limite est U* = , . α+β α+β Tn = 1 1 Pour la transmission d'un message oui/non (α = β = 1-p), la distribution limite est U* = , : quel que 2 2 soit le message initial, pour n grand, "oui" et "non" ont presque la même probabilité d'être transmis. Propriétés des matrices stochastiques ; comment reconnaître une chaîne régulière: r On se place dans Mr(C), r ≥1. C est muni de la norme ||v||∞ = max |vi| et G désigne le sous-ensemble de Mr(C) i r des matrices stochastiques de taille (r,r): G = { T = [tij] ∈ Mr(C), ∀i,j : tij ≥0 ; ∀i : ∑ tij = 1 }. j=1 Les propriétés suivantes sont immédiates : • G est un semi-groupe (Ir est dans G , et le produit de deux éléments de G est dans G}. • ∀T ∈G, ∀v ∈ C : ||Tv||∞ ≤ ||v||∞ ; (Tnv) n≥0 est bornée (par ||v||∞ , puisque Tn ∈ G pour tout entier n) ; les valeurs propres de T sont toutes de module ≤ 1. • ∀ T ∈G : 1 est valeur propre de T , un vecteur propre associé étant e = .. . r 1 1 Précisons : soit T ∈G, et λ ∈ Spec(T) de multiplicité α dans le polynôme caractéristique de T et β dans son polynôme minimal ( 1 ≤ β ≤ α) ; notons Nλ = Ker(T-λI)α = Ker(T-λI)β le sous-espace caractéristique associé. Pour v ∈ Nλ et n ≥ β , il vient: Tn v = [ λI + (T-λI) ]n.v = β-1 [ λn + nλn-1(T-λI) + … + Cn λn-β+1(T-λI)β-1 ].v [1] Soit vo ∈ Nλ tel que (T-λI)β-1vo ≠ 0 (il y en a), et i ∈ {1,…,r} tel que [(T-λI)β-1vo]i ≠ 0; on obtient: (Tnvo)i ~ n→+∞ β-1 λn-β+1 . Cn .[(T-λI)β-1vo]i ~ n→+∞ Cte. λn.nβ-1. On déduit de ceci que: • Si |λ| = 1 : β = 1 (par [2], puisque la suite (Tnvo) est bornée) → si λ = 1 : N1 = Ker (T-I) , et : ∀ v ∈ N1 : lim Tnv = v. n→ +∞ → si λ ≠ 1 : (Tnvo) n'a pas de limite (par [2], puisque (λn) n'en a pas) [2] • Si |λ| < 1 : ∀ v ∈ Nλ : → lim Tnv = 0 (par [1]). n→ +∞ En conséquence: • Si (Tn) a une limite T* : 1 est la seule vp de module 1 de T et T* = Po , projecteur sur Ker(T-I) ⊕ Nλ . Si de plus T* est de rang 1 (lignes identiques), alors dim Ker(T-I) =1, et 1 parallèlement à λ ∈ Sp(T) λ≠1 est ainsi valeur propre simple de T. • Réciproquement: si 1 est la seule vp de module 1 de T et est simple: Tn a pour limite Po; Ker (T-I) est 1 1 la droite vectorielle engendrée par e = .. , donc Po est de rang 1, de la forme Col( p1e,…, pre) , i.e. à lignes toutes identiques (p1,…,pr). En conclusion: La chaîne (Xn) est régulière si et seulement si : 1 est valeur propre simple de T et les autres valeurs propres de T sont de modules strictement inférieurs à 1. Dans ces conditions, en faisant tendre n vers +∞ dans Un+1 = Un.T, on obtient: U* = U*T, ce qui indique que tU* est vecteur propre de tT associé à la valeur propre simple 1: Si (Xn) est régulière, alors la distribution limite est U* = tuo , où uo est l'unique vecteur propre à composantes positives de somme 1 associé à la valeur propre 1 de tT. En particulier, si la chaîne est régulière avec T bistochastique ( i.e. tT stochastique), alors sa distribution 1 1 limite est la distribution uniforme , … , . r r c) Autres propriétés. Les propriétés suivantes s'obtiennent facilement à partir de ① et ② : Pour n, m ∈ N , xo, x1,…, yo, y1,…, x, y ∈I , Ao, A1,…, Bo, B1,…∈ P(I): ③ p[(Xo,…,Xn)=(xo,…,xn)] = p(Xo=xo).π(xo,x1)….π(xn-1,xn) = p((Xo,…,Xk) = (xo,…,xk)) π(xk,xk+1)…π(xn-1,xn) (k≤n). ④ p(Xn=y / Xo=x) = πn(x,y). ⑤ p[(Xm+1,…,Xm+n) = (y1,…,yn) / (Xo,…,Xm-1,Xm) = (xo,…,xm-1,x) ] = p[(Xm+1,…,Xm+n) = (y1,…,yn) / Xm= x ] = π(x,y1).π(y1,y2)…π(yn-1,yn) ⑥ p[Xm+n = y / (Xo,…,Xm) = (xo,…,xm-1, x )] = p(Xm+n = y / Xm = x) = πn(x,y) ⑦ p[(Xm+1,…,Xm+n) ∈ B1×…×Bn / (Xo,…,Xm-1,Xm) ∈ Ao×…×Am-1×{x}] = p[(Xm+1,…,Xm+n) ∈ B1×…×Bn) / Xm = x ] = p[(X1,…,Xn) ∈ B1×…×Bn / Xo = x] (la formule 3 se prouve par récurrence, et les formules 4 à 7 en sont des conséquences immédiates. On notera que dans la formule 7, la valeur de Xm doit être fixée. Si (Xn) est une chaîne de Markov, toute sous-suite constituée de termes consécutifs de (Xn) est encore une chaîne de Markov. En particulier, les propriétés qui précèdent sont encore valables par translation sur les indices de la chaîne. d) Classification des états. Soient x , y ∈I deux états de la chaîne. On écrit "x→y" s'il existe une possibilité de passage de x à y de probabilité non nulle: [x → y] ⇔ [∃n ≥0, p(Xn=y /Xo = x) = πn(x,y) > 0] Un état x est dit récurrent si, lorsqu'un passage de x à un état y est envisageable, alors le passage de y à x l'est aussi; dans le cas contraire, x est dit transitoire: x est récurrent ⇔ [∀y∈ I: (x → y) ⇒ (y → x)] x est transitoire ⇔ x n'est pas récurrent On vérifie immédiatement que "→" définit une relation d'équivalence sur l'ensemble R des états récurrents. les classes d'équivalences de cette relation dans R sont appelées classes de récurrence pour la chaîne (Xn)n≥0. Exemples: • • • 1-α α , 0 < α, β < 1: β 1-β une classe de récurrence: {1,2}; pas d'état transitoire. 0 1 Avec I = {1,2} et T = 0 1: l'état 1 est transitoire; l'état 2 est récurrent. Avec I = {1,2} et T = Avec I = {1,2} et T = 1/2 1/2 : 1 0 l'état 1 est transitoire; l'état 2 est récurrent. • Avec I = {1,2,3,4,5,6} et T = 1/2 1/2 0 0 0 0 1/3 2/3 0 0 0 0 0 0 1/8 0 7/8 0 1/4 1/4 0 0 0 1/4 1/4 0 3/4 0 1/4 0 0 1/5 0 1/5 1/5 2/5 : Deux classes de récurrence: {1,2} et {3,5}; les états 4 et 6 sont transitoires. Une chaîne telle que tous les états communiquent entre eux est dite récurrente irréductible: (Xn)n≥0est récurrente irréductible ⇔ [∀x, y ∈I : x→y] ⇔ [Il y a une unique classe de récurrence et aucun état transitoire]. Pour x ∈I tel que p(Xo=x) >0, notons px = p la probabilité conditionnelle sachant (Xo=x), et N(x) le nombre Xo=x de passages après l'indice 0 de la chaîne en x: • Si x est récurrent, la chaîne restera sur x ou rencontrera un autre état y qui lui permettra de revenir à x, et ainsi de suite; on peut raisonnablement penser que px(N(x) = +∞) = 1. • Si x est transitoire, la chaîne rencontrera un état y ≠x sans possibilité de revenir à x; on peut penser dans ce cas que px(N(x)=+∞) = 0. Montrons en effet que px(N(x)=+∞) ne peut prendre que les valeurs 0 ou 1: Définissons par récurrence les indices successifs de passage de la chaîne en x après 0 (avec inf ∅ = +∞): T1 = T(x) = inf { n > 0, Xn = x} et pour k ≥ 1: Tk+1 = inf { n > Tk , Xn = x} +∞ On a ainsi: [N(x)=+∞] = ∩ ↓ [Tk < +∞] , et donc: k=1 px( N(x) = +∞) = lim px(Tk < +∞) k→ +∞ Soient k ≥1 et n1,…,nk ≥ 1; notons Nj = n1+…+nj pour j = 1,…,k ; il vient, pour k ≥2: px [(T1,…,Tk) = (N1,…, Nk)] = px [(T1,…,Tk-1) = (N1,…,Nk-1) ; XNk-1+1 ≠ x ; …; XNk-1 ≠ x ; XNk = x ] = px [(XNk-1+1≠x; …;XNk-1 ≠ x; XNk = x) / (T1,…,Tk-1) = (N1,…,Nk-1)]. px ((T1,…,Tk-1) = (N1, …,Nk-1)) = p [(XNk-1+1≠x; …;XNk-1 ≠ x; XNk = x) / XNk-1 = x]. px ((T1,…,Tk-1) = (N1,…,Nk-1)) = p [ (X1 ≠ x ; … Xnk-1 ≠ x ; Xnk = x) / Xo = x]. px((T1,…,Tk-1) = (N1,…,Nk-1)) (a) = px(T1 = nk). px((T1,…,Tk-1) = (N1,…,Nk-1)) Nous pouvons donc écrire: 1)] (a) ∑ px(T1= n1, …,Tk = n1+…+nk) = ∑ px(T1 = nk). px[(T1,…,Tk-1) = (N1,…,Nkn1,…,nk n1,…,nk ∑ px[(T1,…,Tk-1) = (n1,n1+n2…,n1+..+nk-1)] = px(T1 < ∞).px(Tk-1 < ∞). = ∑ px(T1 = nk). nk n1,…,nk-1 px(Tk < ∞) = Par récurrence, il suit: px(Tk < ∞) = [px(T(x)<∞)]k Le résultat annoncé est donc prouvé, puisque nous avons seulement les deux cas possibles suivants: 1) Si px(T(x) < ∞) = 1 : px(N(x) = ∞) = 1: il est quasi-certain que la chaîne repassera une infinité de fois en x. 2) Si px(T(x) < ∞) < 1; alors px(N(x) = ∞) = 0 : il est quasi-certain que la chaîne ne repassera qu'un nombre fini de fois en x. On peut aussi remarquer que [N(x)=+∞] = lim sup (Xn = x), et donc : si la série ∑ px(Xn = x) = ∑ πn(x,x) n≥1 n≥1 converge, nous sommes dans le second cas (Borel-Cantelli) ; par contraposée, le premier cas correspond au cas où la série diverge . On peut démontrer que ces deux situations correspondent respectivement au cas où x est récurrent et au cas où x est transitoire. +∞ +∞ Remarque : la somme de la série précédente a une signification : avec N(x) = ∑ 1 = ∑ 1 , [X =x] n=1 n k=1 [Tk<∞] l'espérance Ex(N(x)) de N(x) dans (Ω,B,px) vaut: +∞ +∞ +∞ px(T(x)<∞) Ex(N(x)) = ∑ px(Xn=x) = ∑ πn(x,x) = ∑ px(Tk < ∞) = ∈ [0,+∞]. 1 - px(T(x)<∞) n=1 n=1 k=1 e) Compléments. Une probabilité µ sur I = {a1,…,ar}, assimilée à sa distribution en ligne : µ = (µ(a1),…,µ(ar)) est dite invariante (ou stationnaire) pour la chaîne (Xn)n≥0 de matrice de transition T si µT = µ. Il est immédiat de constater qu'il existe au moins une probabilité invariante, et qu'elle est unique si et seulement si 1 est valeur propre d'ordre 1 de T. On peut démontrer que le nombre de classes de récurrence de la chaîne coïncide avec la dimension de Ker(T-I). Ainsi: la chaîne (à espace d'états fini) possède une unique probabilité invariante U* si et seulement si elle admet une unique classe de récurrence. Les chaînes régulières introduites en [b] en sont un cas particulier, pour lesquelles la loi de Xn converge étroitement vers U*. On peut enfin prouver que si la chaîne est récurrente irréductible de probabilité invariante U*, on a l'équivalence: p converge étroitement vers U* ⇔ 1 est la seule valeur propre de module 1 de T Xn ______________________________________________________ 6. PROCESSUS DE POISSON L'origine des temps étant fixée à 0, on considère une succession d'événements, à laquelle on associe: Pour n ∈N* : • La date Sn ∈ [0,+∞[ d'observation du nème événement (par convention, on posera So = 0). n La durée Xn = Sn-Sn-1 qui sépare le (n-1)ème événement du nème événement (on a donc Sn = ∑ Xk ). k=1 Pour t ∈ R+: • Le nombre Nt des événements qui ont lieu dans l'intervalle de temps [0,t]: +∞ (No = 0). Nt = max {n ≥ 0, Sn ≤ t} = ∑ 1 n=1 [Sn≤ t] • (la famille N = (Nt)t≥0 est appelée fonction de comptage du modèle) De nombreuses situations concrètes peuvent se modéliser ainsi: arrivée de clients à un guichet, réceptions d'appels téléphoniques à un standard, accidents survenant sur une route, … On supposera que la suite (Xn) est indépendante et équidistribuée de loi exponentielle E(λ), λ > 0 (on se reportera à l'exemple de [4b], où la loi exponentielle est caractérisée par le fait qu'elle n'a pas de mémoire). a) Loi de (Sm,…,Sn) (1≤ m ≤ n) et conséquences Par indépendance, le vecteur (X1,…,Xn) est à densité (x1,…,xn) → λn.exp[-λ(x1+…+xn)] sur (R+)n. Pour tm , … , tn ≥ 0 , il vient: p(Sm≤ tm,…,Sn≤ tn) = p( X1 +…+Xm ≤ tm , … , X1+…+Xn ≤ tn) = ⌠ ⌡exp[-λ(x1+…+xn)]dx1…dxn , A où A = {(x1,…,xn) ∈ (R+)n , x1+…+xm ≤ tm , … , x1+…+xn ≤ tn) est transformé par (x1,…,xn) → (u1,…,un) = (x1 , x1+x2 , … , x1+…+xn) en B = {(u1,…,un), 0 ≤ u1 ≤ … ≤ un ; um ≤ tm , …, un ≤ tn }; il suit: p(Sm≤ tm,…,Sn≤ tn) = ⌠ ⌡λ .exp(-λun).10≤ u1≤…≤un(u1,..,un)du1…dun n séparons les variables : n Rm-1× ∏ ]-∞,tk] k=m = ⌠λ .exp(-λun).10≤ u1≤…≤um-1≤um(u1,..,um-1).10≤ um≤ …≤ un(um,…,un).du1…dun ⌡ n n Rm-1× ∏ ]-∞,tk] k=m = n ⌠ ⌠ ⌡du1…dum-1λ .exp(-λun).10≤ um ≤…≤ un(um,…,un)dum…dun ⌡0≤u1≤…≤um-1≤um n ∏ ]-∞,tk] k=m m-1 um L'intégrale entre parenthèses se calcule par récurrence et vaut ; il en découle que: (m-1)! m-1 • • • um . exp(-λun).1 (u ,…,un) sur Rn-m+1. (Sm,…,Sn) suit la loi à densité (um,…,un) → λ . 0≤um≤…≤un m (m-1)! λn.xn-1 -λx Avec m = n : Sn suit la loi à densité x → .e sur R+ (loi de Erlang de paramètres λ,n). (n-1)! Avec m = 1 : (S1,…,Sn) suit la loi à densité (u1,…,un) → λn.exp(-λun).1 (u ,…,un) sur Rn. 0≤u1≤…≤un 1 b) Loi de Nt-Ns (0 ≤ s < t) et conséquences n Nt - Ns désigne le nombre d'événements ayant lieu dans l'intervalle de temps ]s,t] ; il vient, pour k ∈N : [Nt-Ns = k ] = +∞ ∪ [ Sm ≤ s < Sm+1 ≤ …. ≤ Sm+k ≤ t < Sm+k+1 ] m=0 (réunion disjointe) et donc, en reprenant la densité de la loi de (Sm,…,Sm+k+1): p( Nt-Ns = k) = = +∞ ∑ m=0 +∞ ∑ m=0 ⌠ m+k+1 um λ .(m-1)!.exp[-λum+k+1].dum…dum+k+1 ⌡ m-1 0≤ um≤ s < um+1≤…≤ um+k≤ t <um+k+1 ⌠ m+k+1 um λ .(m-1)!.exp[-λum+k+1].dum…dum+k+1 ⌡ m-1 (les variables sont ainsi séparées) 0 ≤ um ≤ s s < um+1≤…≤ um+k≤ t t < um+k+1 s +∞ +∞ m+k+1 xm-1 ⌠ . .dx. ⌠e-λx.dx. = ∑ λ ⌠ ⌡ dx1…dxk ⌡(m-1)! ⌡ m=0 t s < x1 ≤ … ≤ xk ≤ t 0 = = +∞ sm -λt ∑ λm+k. .e . m! m=0 ⌠ dy1…dyk ⌡ 0 < y1 ≤ … ≤ yk ≤ t-s = +∞ sm -λt (t-s)k ∑ λm+k . .e . m! k! m=0 [λ(t-s)]k .exp[-λ(t-s)]. k! (pour ne pas alourdir, le terme obtenu pour m = 0 n'a pas été séparé; on se convaincra qu'il vaut bien ce (t-s)k ) qu'il faut, avec p(So ≤ s < S1 ≤ … ≤ t < Sk+1) = p(s < S1 ≤ … ≤ t < Sk+1) = λk.e-λt. k! En conclusion: • Pour 0 ≤ s < t : Nt-Ns suit la loi de Poisson P(λ(t-s)). • Pour t ≥0 : Nt suit la loi de Poisson P(λt) • Nt-Ns et Nt-s ont même loi: le nombre d'événements ayant lieu dans un intervalle de temps donné ne dépend donc pas de l'origine de l'intervalle considéré. (avec s = 0). On peut démontrer enfin que pour toute suite 0 = to ≤ t1 ≤ … tn ≤ …, la suite (Ntk- Ntk-1) est indépendante. (reprendre le schéma ci-dessus avec un peu de patience). c) Temps passé et temps d'attente Pour t ≥ 0, notons: • Zt = t - S • Wt = S Nt Nt+1 le temps écoulé depuis le dernier événement arrivé ( Zt = t ⇔ Nt = 0 ⇔ 0 ≤ t < S1) -t le temps d'attente avant l'arrivée du prochain événement. Les v.a. Zt et Wt sont à valeurs respectivement dans [0,t] et [0,+∞[ . Pour 0 ≤ z < t et ω ≥ 0, il vient: [Zt ≥ z , Wt > ω] = [aucun événement n'a lieu dans l'intervalle de temps ]t-z,t+ω] ] = [Nt+ω - Nt-z = 0]. Il en découle: p( Zt ≥ z , Wt > ω ) = p( Nt+ω - Nt-z = 0 ) = e-λ(ω+z). Donnons la loi de Wt : Pour ω ≥0, on en déduit: p(Wt > ω) = p(Zt ≥ 0 , Wt >ω) = e ω -λω ; p(Wt ≤ ω) = 1 - e -λω = -λt ⌠ ⌡λ.e .dt , -∞ et Wt suit la loi E(λ) sur R+ . Passons à la loi de Zt : • p(Zt = t) • Pour 0 ≤ z < t : p(Zt = z) = p(Nt = 0) = e-λt . = p lim ↓ ( z ≤ Zt < z + n ) = lim p( z ≤ Zt < z + n ) = 1 n→+∞ 1 n→ +∞ lim [ p(Zt ≥z ) - p(Zt ≥ z n→ +∞ 1 +n ) ] = 1 lim [ p(Zt ≥z , Wt > 0) - p(Zt ≥ z + n , Wt > 0) ] = n→ +∞ lim [ e-λz - e-λz - λ/n ] n→ +∞ = 0. = 1 - p(Zt ≥ z) = 1 - p(Zt ≥ z , Wt > 0) p(Zt ≤ z) = 1 - e-λz . La fonction de répartition F de Zt est donc définie par: Zt si z < 0 F (z) = 0 Zt 1-exp(-λz) si z ∈ [0,t[ 1 si z ≥ t. On notera que Zt ne suit pas une loi à densité (sa fonction de répartition présente un saut de e-λt en t ). Application: le paradoxe de l'autobus: 1 Supposons qu'à un arrêt de bus, le temps moyen d'attente entre deux passages soit E(Xn) = λ = 20 mn; une 1 personne arrivant à un instant t donné attendra son bus pendant une durée moyenne de E(Wt) = λ = 20mn, et non 1 pas 2λ = 10mn , comme ce que l'intuition aurait pu laisser espérer… ______________________________________________________ 7. FORMULE D'INVERSION POUR X REELLE et ΦX INTEGRABLE X désigne une v.a. réelle et Φ sa fonction caractéristique. T 1 lim .⌡ 1) Calcul pour a ∈R de ⌠e-iax.Φ(x).dx. 2T T→ +∞ -T T 1 ⌠e-iax - e-ibx . .Φ(x)dx. Conséquence: Φ caractérise la loi de X. 2) Calcul pour a < b de lim ix T→ +∞ 2π ⌡ -T +∞ 1 . ⌠e-itx.Φ(t)dt . 3) On suppose Φ intégrable; alors X est à densité f donnée par: f(x) = 2π ⌡ -∞ ------------------------------------------------------------------------------------------------------------------------------------T T 1 T Fubini ⌠ 1 1 -iax ix(t-a) . ⌠eix(t-a).dxdpX(t) = ⌠g(T,t).dpX(t) ⌠ 1) Pour T > 0: e .⌡ .Φ(x).dx = . e dp (t) dx === ⌠ ⌠ X ⌡ ⌡ ⌡ 2T 2T 2T -T -T R R ⌡ ⌡ R -T sin T(t-a) si t ≠ a, et g(T,a) = 1. g est majorée par 1, fonction constante intégrable sur R par avec g(T,t) = T(t-a) rapport à la mesure finie pX, et pour tout t réel: lim g(T,t) = 1{a}(t) . Un corollaire du théorème de T→ +∞ convergence dominée permet d'écrire: T 1 lim . ⌠e-iax.Φ(x).dx = T→ +∞ 2T ⌡ -T ⌠ ⌡1{a}(t).dpX(t) = p(X= a). R T T 1 2) Pour T > 0: . 2π -iax -ibx ⌠e -e .Φ(x).dx = 1 . 2π ⌡ ix -T -iax -ibx ⌠e -e .⌠eixt.dpX(t).dx , et le théorème de Fubini s'applique ix ⌡ R ⌡ -T T 1 . encore: 2π -iax -ibx ⌠e -e .Φ(x).dx = ⌡ ix -T ⌠ ⌠ e ⌡ ⌡-T T i(t-a)x -ei(t-b)x .dx dpX(t) = ⌡ ⌠h(T,t).dpX(t) 2iπx R R T avec h(t,T) = ⌠sin(t-a)x - sin (t-b)x.dx (la partie imaginaire de l'intégrande est impaire, donc d'intégrale 2πx ⌡ -T 1 nulle). Ainsi: h(t,T) = . 2π (t-b)T (t-a)T sin u ⌠ ⌠sin udu (formule valable pour tout t réel). du ⌡u ⌡ u -(t-a)T -(t-b)T u La fonction u → ⌠sin xdx est définie continue sur R et admet des limites finies en +∞ et -∞; elle est donc ⌡ x -u bornée (par une constante M) sur R, et h est donc bornée (par M ). π En outre, en distinguant suivant la position de t par rapport à a et b, on voit que h(.,T) converge simplement 1 vers .(1{a}+1{b}) + 1]a,b[ ) sur R quand T tend vers +∞. Le théorème de convergence dominée permet alors 2 d'écrire: T 1 1 1 ⌠e-iax - e-ibx . .Φ(x)dx = ⌠ .(1{a}+1{b}) + 1]a,b[.dpX(x) = [ p(X=a) + p(X=b) ] + p(a<X<b). lim ix 2 2 2π ⌡ ⌡ T→ +∞ -T R La fonction de répartition F de X est ainsi entièrement déterminée à partir de ΦX (avec [1] et [2] ), donc Φ caractérise la loi de X. La dernière expression trouvée vaut exactement F(b)+F(b-) F(a)+F(a-) (avec F(x)-F(x-)= p(X=x) ). 2 2 3) Si Φ est intégrable, la formule trouvée en [1] permet d'obtenir p(X=a) = 0 pour tout réel a, puis [2] fournit alors, pour a, b réels tels que a < b: T T b 1 ⌠e-iax - e-ibx 1 ⌠ e-itx.dt.Φ(x)dx F(b)-F(a) = lim . .Φ(x)dx = lim . ⌡ ⌠ ix T→ +∞ 2π ⌡ T→ +∞ 2π ⌡ a -T -T +∞ b 1 ⌠ -itx .Φ(x)dx (l'intégrabilité de Φ fournit la convergence de l'intégrale). e = . ⌠ .dt 2π ⌡ ⌡ a -∞ 1 La fonction (t,x) → . e-itx.Φ(x) étant intégrable sur [a,b]×R , il en découle (par Fubini): 2π b ⌠ 1 +∞ -itx F(b)-F(a) = . ⌡ e .Φ(x).dxdt , d'où la densité f annoncée. ⌠ 2π ⌡ -∞ a Le résultat n'est pas étonnant: si l'on savait a priori que X était à densité f , la formule d'inversion de Fourier s'appliquait directement à f, et l'on obtenait le résultat sans calculs. On a ici démontré que sous la seule hypothèse que Φ soit intégrable, X est à densité f donnée par la formule d'inversion de Fourier. On trouvera la généralisation de la formule dans le cas où X est à valeurs dans notions fondamentales de la théorie des probabilités; p169]. ______________________________________________________ Rd dans [Métivier; 8. DEUX LOIS FORTES DES GRANDS NOMBRES La première loi donne un résultat pour des variables d'ordre 2, non nécessairement équidistribuées; la seconde (dont la démonstration utilise le résultat de la première) donne un résultat pour des variables intégrables équidistribuées. Nous aurons besoin de quelques lemmes. ♦ Pour la première loi: lemmes 1 à 3. ♦ Pour la seconde loi: lemmes 1 à 5 (première loi + lemmes 4 et 5) et théorème de Borel-Cantelli. 1. un 1 n Thm de Kronecker: si (un) est une suite réelle telle que ∑ converge, alors lim . ∑ uk= 0. n n→ +∞ n k=1 n uk On effectue une transformation d'Abel à l'aide des sommes partielles sn = ∑ (so = 0): pour n ≥2: k=1 k 1 n 1 n 1 n-1 . ∑ u = . ∑ k.(s -s ) = sn - . ∑ sk ; n k=1 k n k=1 k k-1 n k=1 (sn) étant convergente, la suite de ses moyennes de Cesaro converge aussi vers la même limite, d'où le résultat annoncé. 2. Inégalité de Kolmogorov: si X1,…, Xn sont des v.a. réelles centrées indépendantes d'ordre 2, alors: 1 n ∀a > 0 : p( max |X1+…+Xk| ≥ a ) ≤ 2 . ∑ Var (Xk). a 1≤k≤n k=1 On note Sn = X1+…+ Xn , et An = { |S1| < a ; … ; |Sn-1| < a ; |Sn| ≥ a }, de sorte que: . n A = { max |X1+…+Xk| ≥ a } = ∪ Ak , et cette réunion est disjointe. 1≤k≤n k=1 Il suit: n ∑ Var (Xk) k=1 = Var(Sn) = E(Sn2) ≥ ≥ = = n n E( 1A.Sn2 ) = ∑ E(1 .Sn2) = ∑ E( 1 .[Sk2 + 2Sk(Sn-Sk) + (Sn-Sk)2] ) A Ak k k=1 k=1 n n ∑ E( 1 .[Sk2 + 2Sk(Sn-Sk)] ) ≥ ∑ [ a2.p(Ak) + 2E(1 .Sk.(Sn-Sk) )] A Ak k k=1 k=1 n n * a2.p(A) + 2. ∑ E[1 .Sk.(Sn-Sk)] == a2.p(A) + 2. ∑ E(1 .Sk).E(Sn-Sk) A k k=1 k=1 Ak 2 a .p(A) puisque les Sn-Sk sont centrées. L'égalité (*) provient de l'indépendance de 1 .Sk et Sn-Sk pour k donné; en effet: Ak • 1 .S = (1[a,+∞[ o |Sk| ).( 1[0,a[ o |S1| )….( 1[0,a[ o |Sk-1| ).Sk = f (X1,…,Xk) avec: Ak k k-1 f : (x1,…,xk) → (x1+…+xk).1[a,+∞[(x1+…+xk). ∏ 1[0,a[(x1+…+xj), mesurable. j=1 • Sn-Sk = Xk+1+…+Xn = g(Xk+1,…,Xn) avec g mesurable. D'après le théorème des coalitionss, l'indépendance de (Xi) entraîne celle de 1 Ceci valide (*). .S et Sn-Sk. Ak k 3. Condition suffisante de convergence presque sûre: si (Xn) est une suite indépendante de v.a. réelles centrées d'ordre 2, telle que ∑ V(Xn) converge, alors ∑ Xn converge presque sûrement. Si (un) est une suite numérique, le critère de Cauchy fournit: (un) converge ⇔ lim sup |un+p-un| = 0 ⇔ inf sup |un+p-un| = 0 . n→ +∞ p≥1 n≥0 p≥1 Il en résulte, en notant (Sn) la suite des sommes partielles de (Xn): [∑Xn converge] = [∑Xn diverge] = = [ (Sn) converge] = [ inf sup |Sn+p-Sn| = 0 ] , puis: n≥0 p≥1 +∞ +∞ +∞ ∪ [ inf sup |Sn+p-Sn| ≥ 1/m ] = ∪ ∩ [ sup |Sn+p-Sn| ≥ 1/m] m=1 n≥0 p≥1 m=1 n=0 p≥1 +∞ +∞ ∪ ∩ lim ↑ ( max |Sn+p-Sn| ≥ 1/m) . m=1 n=0 q→ ∞ 1≤p≤q Par suite (avec Beppo-Levi): +∞ ∑ inf lim ↑ p( max |Sn+p-Sn| ≥ 1/m) m=1 n≥0 q→ ∞ 1≤p≤q n+q +∞ 2 ∑ m . inf lim ↑ ∑ Var(Xk) (Kolmogorov) ≤ m=1 n≥0 q→ ∞ k=n+1 +∞ 2 +∞ +∞ ∑ m . inf ∑ Var(Xk) = ∑ m2.0 = 0 = (hypothèse). m=1 m=1 n≥0 k=n+1 +∞ Soit X une v.a. réelle intégrable ≥0 ; alors ∑ p( X > n) ≤ E(X). n=1 +∞ +∞ +∞ +∞ +∞ k ∑ p(X > n) = ∑ ∑ p(k< X ≤ k+1) = ∑ ∑ p(k< X ≤ k+1) = ∑ k.p(k< X ≤ k+1) k=1 n=1 n=1 k=n k=1 n=1 p( ∑Xn diverge) 4. = 5. +∞ ∑ k. k=1 ≤ +∞ ∑ ⌠ ⌡dpX(t) ≤ k=1 ]k,k+1] ⌠ ⌡t.dpX(t) = E(X). ]k,k+1] n +∞ 1 t2.dpX(t) < +∞. Soit X une v.a. réelle intégrable; alors ∑ 2.⌠ n=1 n ⌡ -n n -n+1 +∞ ∑ an = E( |X| ) < +∞. Pour n ≥1, posons an = ⌠ ⌡t.dpX(t) + ⌠ ⌡| t |.dpX(t) : an ≥ 0 et n=1 n-1 -n n De -n+1 n -n+1 2 ⌠ ⌡t .dpX(t) + ⌠ ⌡t .dpX(t) = ⌠ ⌡t.t.dpX(t) + ⌠ ⌡(-t).| t |.dpX(t) ≤ n.an , 2 n-1 -n n-1 -n on tire (calculs a priori dans [0,+∞]: n k -k+1 +∞ 1 n 2 +∞ 1 2 ⌠t .dpX(t) + ⌠t2.dpX(t) ∑ ∑ ∑ 2. ⌠ t .dp (t) = . 2 X ⌡ n=1 n k=1 ⌡ n=1n ⌡ -n -k k-1 +∞ +∞ +∞ 1 +∞ 1 n ≤ ∑ 2 . ∑ kak = ∑ k.ak. ∑ 2 = ∑ uk , où uk ~ ak . k→∞ n n k=1 k=1 k=1 n=k n=1 ∑uk converge, et on a donc le résultat THM 1 Soit (Xn) une suite indépendante de v.a. réelles d'ordre 2 telles que +∞ Var Xn X1+…+Xn lim E(Xn) = m et ∑ <+∞ . Alors converge presque sûrement vers m. 2 n n→ +∞ n=1 n Démonstration: +∞ +∞ Var Xn Xn-mn Notons mn la moyenne de Xn ; de ∑ Var ( )= ∑ < +∞, on déduit avec le lemme 3 que n n=1 n=1 n² Xn-mn 1 n la série ∑ converge presque sûrement, puis, avec le lemme 1, que . ∑ (Xk-mk) tend presque n n k=1 n≥1 sûrement vers 0 quand n tend vers +∞, ce qui permet de conclure. THM 2 Soit (Xn) une suite indépendante de v.a. réelles intégrables et équidistribuées, d'espérance commune m; alors X1+…+Xn converge presque sûrement vers m. n Démonstration: Pour n ≥0, notons Un = Xn-m et Vn = 0 si |Xn-m| ≤ n Un = 0 et Vn = Xn-m si |Xn-m| > n, de sorte que Xn-m = Un+Vn et X1+…+Xn U1+..Un V1+..+Vn -m = + . n n n Soit X une v.a. réelle de même loi que les Xn. ! D'après la définition de (Vn), il vient: +∞ [(Vn) ne converge pas vers 0] ⊂ ∩ ∪ { |Xn-m| > n} = lim { |Xn-m| > n }. k=0 n=k +∞ +∞ Or le lemme 4 fournit: ∑ p( |Xn-m| > n ) = ∑ p ( |X-m| > n ) ≤ E ( |X-m| ) < +∞ . n=1 n=1 D'après le lemme de Borel-Cantelli (partie facile), on déduit: p( lim { |Xn-m| > n }) = 0, et par conséquent (Vn) converge presque sûrement vers 0. Il en est donc de même de ! V1+..+Vn . n La suite (Un) est indépendante puisque (Xn) l'est; de plus, nous avons: n +∞ (t-m)dp -m)dp = (t) → (X ! E(Un) = ⌠ ⌠ ⌠(t-m)dpX(t) = E(X-m) = 0 . n X ⌡ ⌡ n → +∞ ⌡ -n |Xn-m|≤n -∞ n 2 +∞ Var(Un) +∞ E(Un ) +∞ 1 (t-m)2dpX(t) < +∞ en vertu du ! (a priori dans [0,+∞]): ∑ ≤ ∑ = ∑ 2.⌠ 2 2 n n=1 n=1 n n=1 n ⌡ -n U1+..Un converge presque sûrement vers 0. lemme 5. Enfin, le théorème 1 s'applique à (Un) et n X1+…+Xn On conclut finalement que converge presque sûrement vers 0. n ______________________________________________________ 9. UNE AMELIORATION DE L'INEGALITE DE BIENAYME-CHEBYCHEV On se place dans les conditions de la loi faible des grands nombres énoncée en 5.1: (Xn) désigne une suite de v.a. réelles d'ordre 2 indépendantes et équidistribuées d'espérance m et d'écart-type σ. Sn Sn = X1+ …. + Xn , Xn = n On suppose en outre connues deux constantes A, B > 0 telles que: |X1| ≤ A p.s. et σ² ≤ B. Alors pour 0 ≤ β ≤ β²A²n B et n ≥1, on a : p( | Xn -m| ≥ βA ) ≤ 2.expA² 4B . Preuve: Notons εn = Xn - m. Pour α, β réels positifs et n ∈N*, il vient: eαβA.p( εn ≥ βA) = αβA ⌠ ⌡e .dp ≤ ⌠ ⌡exp (αεn).dp = E( exp(αεn) ). εn≥βA n α Mais exp (αεn ) = ∏ exp ( .(Xk-m)) , et l'indépendance des Xk permet donc décrire: n k=1 n α eαβA.p( εn ≥ βA) ≤ E( exp ( .(X1-m) )) . n Utilisons la majoration et ≤ 1+t+t² , valable pour |t| ≤ 1: de si α ≤ n : 2A α² α²σ² α²B α α E(exp ( .(X1-m))) ≤ E( 1 + .(X1-m) + .(X1-m)2 ) = 1 + ≤1+ . n n n² n² n² On obtient alors, avec 1+ si α ≤ n : 2A 2Aα α .|X -m| ≤ , on tire : n 1 n t n t ≤ e (valable pour t ≥0): n eαβA.p( εn ≥ βA) ≤ exp α²B α²B , et donc: p( εn ≥ βA) ≤ exp n n - αβA. Le minimum de la fonction majorante est obtenu pour α = condition imposée à α, on en déduit: si β ≤ B : A² β²A²n βAn , et vaut exp2B 4B . Moyennant la β²A²n 4B . p( εn ≥ βA) ≤ exp- En procédant de même avec eαβA.p( εn ≤ -βA), on obtiendra le même majorant pour p( εn ≤ -βA), avec la même condition sur β. ______________________________________________________ 10. TEST DU ℵ2 D'AJUSTEMENT a) Espérance et variance d'un vecteur aléatoire: Soit V un espace vectoriel réel de dimension finie, et X une variable aléatoire à valeurs dans V. V* désigne le dual de V. ! Si u ∈ V*, uoX = u(X) est une v.a. réelle. Si u(X) admet une espérance pour tout u ∈ V*, [u → E(u(X))] est élément de V**. L'isomorphisme canonique entre V et V** (dimension finie) permet alors de définir un (unique) vecteur de V, appelé espérance de X, et noté E(X), tel que: ∀ u ∈ V* : E(u(X)) = u(E(X)). Si B = (e1,…,en) est une base de V, et si X a pour composantes (X1,…,Xn) dans B, on en déduit, en appliquant ceci aux ei*, que X admet une espérance si et seulement si X1,…,Xn admettent des espérances, et que, le cas échéant, E(X) a pour composantes (E(X1),…,E(Xn)) dans B. Si ϕ ∈ L(V), on a pour tout u∈V*: E(u(ϕ(X))) = E((uoϕ)(X)) = (uoϕ)(E(X)) = u( ϕ(E(X)) ). Il découle de ceci (unicité): ∀ ϕ ∈ L(V) : E(ϕ(X)) = ϕ(E(X)). Dans le cas V = R , on retrouve bien sûr l'espérance connue. ! Si pour tout u ∈ V*, u(X) admet une variance, on appelle variance de X l'application VarX : u → E ( [u(X) - E(u(X))]2 ) = E( u(X)2 ) - [E(u(X))]2. n Soit B = (e1,…,en) une base de V, et X = ∑ Xk.ek . En appliquant ceci aux ek* , on constate que X a une k=1 n variance si et seulement si les Xk en ont. Le cas échéant, il vient, pour u = ∑ uk.ek* : k=1 n VarX (u) = E ( [ ∑ uk(Xk - E(Xk) ]2 ) = ∑ uiuj.cov(Xi,Xj). k=1 i,j VarX est donc une forme quadratique positive sur E*, et sa matrice dans B, appelée matrice de dispersion de X relativement à B, est [cov(Xi,Xj)]i,j . Ses termes diagonaux sont les variances des Xk. Dans le cas V = R , on retrouve la variance déjà introduite. Dans le cas qui nous intéresse, à savoir V = Rd, la variance de X est assimilée par abus à la matrice de dispersion de X relativement à la base canonique. b) Vecteurs gaussiens: Rd est muni de sa structure euclidienne usuelle; le produit scalaire de x et y est noté x.y , et ||x||2 = x.x. X1 m1 d un vecteur aléatoire à valeurs dans R , admettant une espérance m= .. et une variance Γ= [cij], Xd md Soit X = .. à termes diagonaux ckk = σk2. Alors pour t ∈ Rd, la v.a. réelle t.X admet une espérance et une variance, données par les formules: E( t.X ) = t.m ; V( t.X ) = E( [t.(X-m)]2 ) = t.Γt = ttΓt. Le vecteur X est dit gaussien si pour tout t ∈ Rd, t.X est gaussienne (i.e. suit une loi normale). Si X est gaussien, on déduit des deux formules précédentes que: ! ∀k = 1,…,d : Xk suit la loi N(mk,σk). ! ΦX(t) = E ( ei.t.X ) = Φt.X (1) = exp ( i.t.m ).exp ( - t tΓt ). 2 (si une v.a. réelle Z suit la loi N(m,σ), alors: ΦZ(x) = eimx.e-σ²x²/2). La deuxième formule montre que la loi d'un vecteur gaussien est donc caractérisée par son espérance et sa Γ) la loi d'un vecteur gaussien d'espérance m et de variance Γ. variance. On note N(d)(m,Γ Le cas le plus simple de vecteur gaussien a été introduit dans le cours: un vecteur (X1,…,Xd) suivant la loi normale N(d)(m,σ) est un vecteur gaussien de variance la matrice diagonale Γ = σ2.Id. Si A ∈ Md(R) et si X suit la loi N(d)(m,Γ), alors AX suit la loi N(d)(Am, A.Γ.tA) (il suffit d'écrire ΦAX(t) = ΦX( tA.t) pour t ∈ Rp). En particulier, la loi N(d)(0,AtA) est donc la loi de AX avec X suivant la loi N(d)(0,1). En adaptant la démonstration du théorème central limite énoncé pour les variables réelles on déduit enfin le: Théorème central limite pour les vecteurs aléatoires: Si (Xn) est une suite indépendante de vecteurs aléatoires à valeurs dans Rd , de moyenne commune X1+…+Xn - n.m m et de variance commune Γ, alors converge en loi vers N(d)(0,Γ Γ). n c) Test du ℵ2 d'ajustement. d Soit X une v.a. réelle de loi µ à valeurs dans A = ∪ Ak (réunion disjointe), et pk = p(X∈Ak) pour chaque k. k=1 n Soit un n-échantillon (X1,…,Xn) de µ. On veut comparer le nombre Nk = ∑ 1 des éléments de j=1 Xj∈Ak l'échantillon qui arraivent dans Ak au nombre npk théorique que l'on peut espérer. Pour q = 1,…,n, on vérifie par un calcul simple que Zq = t1X ∈A - p1 q 1 p1 1 , …, Xq∈Ad pd t variance la matrice Γ = Id - [ pipj ]i,j = Id - e.te , où e désigne le vecteur unitaire ( - pd est un vecteur centré de p1;…; pd ) . Les Xk étant indépendants, les Zk le sont aussi; on déduit du théorème central limite énoncé ci-dessus que Tn = Z1+…+Zn t N1-np1 Nd-npd = ,.., converge en loi vers un vecteur T suivant la loi N(d)(0,Γ). n npd np1 Par continuité de la norme, il en résulte que ||Tn||2 converge en loi vers ||T||2 Γ est la matrice du projecteur orthogonal sur H = e⊥. Par idempotence, T suit la loi N(d)(0,ΓtΓ), loi d'un vecteur ΓY où Y suit la loi N(d)(0,1). Le théorème de Cochran montre alors que ||T||2 = ||ΓY||2 suit la loi ℵ2(d-1). En conclusion: d Nk-npk2 converge en loi vers une v.a. de loi ℵ2(d-1). Y= ∑ k=1 npk En pratique, on considérera que pour n ≥ 30 et des valeurs attendues npk supérieures à 5, Y suit la loi ℵ2(d-1) (on regroupera éventuellement des catégories pour réaliser la seconde condition). Concrètement, nous disposons d'une distribution statistique sous forme d'une table d'effectifs (ou de fréquences) d'un caractère étudié dans une population, et nous désirons savoir si ces résultats sont compatibles avec une distribution théorique donnée µ: d Avec un effectif total n = ∑ nk : k=1 Catégorie A1 … Ak … Ad Nombre nk de caractères observés dans la catégorie n1 … nk … nd Nombre ek = npk de caractères attendus dans la catégorie np1 … npk … npd La table du ℵ2 fournit la valeur uα,d-1 telle que p( Y > uα,d-1 ) = α (seuil de signification) d nk-ek2 ; on rejette l'hypothèse si τo > uα,d-1. Dans les conditions ci-dessus, on calcule τo = ∑ k=1 ek • En lançant successivement 60 fois un dé, un joueur obtient les résultats suivants: Faces xk Effectifs nk 1 15 2 7 3 4 4 11 5 6 6 17 En comparaison avec les effectifs théoriques attendus si le dé n'est pas truqué: Effectifs ek = npk 10 10 10 10 10 10 Nous sommes en mesure d'appliquer le test du ℵ2 d'ajustement. On obtient τo = 13,6; pour α = 5%, on relève dans la table du ℵ2 la valeur u0,05;5 # 11,07. Nous pouvons donc considérer à ce seuil que le dé est truqué (ou que le joueur triche). Si l'on doit ajuster certains paramètres (moyenne m , variance σ2) de la loi d'ajustement à partir de l'échantillon n 2 (moyenne me , variance σ2 ), on utilisera les estimateurs sans biais m = me , σ2 = .σ . On peut démontrer que, n-1 e sous réserve que les conditions d'approximation soient vérifiées, Y suit approximativement la loi ℵ2 (d-1-k) où k désigne le nombre de paramètres estimés de cette manière. • Une enquête sur les chiffres d'affaires mensuels de 103 magasins de détail a donné les résultats suivants (en milliers de francs): Classe Ak de chiffre d'affaires 5,5-6,5 6,5-7,5 7,5-8,5 8,5-9,5 9,5-10,5 10,5-11,5 11,5-12,5 12,5-13,5 13,5-14,5 14,5-15,5 Centre de classe xk 6 7 8 9 10 11 12 13 14 15 Effectifs observés nk 2 3 12 27 23 15 12 5 2 2 Relativement aux centres de classes, la moyenne de l'échantillon est me = (∑nkxk)/103 # 10,038, et son écart2 2 type est σe = ∑ nkxk - me # 1,773. Posons l'hypothèse: "la distribution T des chiffres d'affaires mensuels des magasins est régie par une loi normale N(m,σ)". Nous estimons m et σ par les valeurs m # me # 10,038 et σ # n .σ n-1 e # 1,78. Dressons un nouveau tableau dans lequel les classes extrêmes sont étendues de sorte à pouvoir appliquer à l'échantillon l'ensemble de la distribution proposée: Classe Ak de chiffre d'affaires < 6,5 6,5-7,5 7,5-8,5 8,5-9,5 9,5-10,5 10,5-11,5 11,5-12,5 12,5-13,5 13,5-14,5 > 14,5 Effectifs observés nk 2 3 12 27 23 15 12 5 2 2 19,704 12,597 5,932 2,081 0,618 Effectifs attendus ek = n.p((T-m)/σ ∈ C) 2,399 5,469 12,205 19,282 22,711 Regroupons les classes extrêmes de sorte à pouvoir appliquer le test du ℵ2 d'ajustement (conditions ek > 5): Classe Ak de chiffre d'affaires < 7,5 7,5-8,5 8,5-9,5 9,5-10,5 10,5-11,5 11,5-12,5 Effectifs observés nk 5 12 27 23 15 12 19,704 12,597 Effectifs attendus ek = n.p((T-m)/σ ∈ C) 7,868 12,205 19,282 22,711 (nk-ek)2/ek 1,045 0,003 3,090 0,004 1,123 0,028 > 12,5 9 8,631 0,016 On obtient maintenant τo # 5,282. Pour un ℵ2(7-1-2)= ℵ2(4) (2 paramètres estimés), au seuil de signification α = 5%, on a u0,05;4 # 9,488 > τo : nous pouvons considérer que les chiffres d'affaires sont normalement distribués. ______________________________________________________ 11. METHODES DE MONTE CARLO POUR LE CALCUL D'INTEGRALES Les méthodes de Monte-Carlo ont pris une importance croissante depuis leur mise en œuvre à la fin de la seconde guerre mondiale dans les calculs concernant les réactions nucléaires. Leur propriété essentielle est de pouvoir simuler des distributions de grandeurs aléatoires. Elles sont employées dans le calcul d'intégrales simples ou multiples dont la valeur est impossible ou très difficile à obtenir par les méthodes déterministes, et fournissent des approximations satisfaisantes (dans un sens à définir). L'avantage réside dans le fait qu'il n'y a aucune hypothèse de régularité à faire sur la fonction intégrée, et que la méthode converge aussi vite pour les intégrales simples que pour les intégrales multiples. 1) Exemple historique: En 1777, Buffon propose pour le calcul approché de π l'expérience suivante: on lance un très grand nombre N de fois une aiguille de longueur L sur un plan strié de droites parallèles distantes les unes des autres de la longueur d (on suppose L < d). La proportion pN des lancers pour lesquels l'aiguille a une intersection avec une des droites fournit une approximation de la probabilité p pour que l'aiguille rencontre une des droites lors d'un lancer. On modélise l'expérience en considérant que le couple (x,θ), où x est la position du centre de l'aiguille par rapport à deux droites voisines et θ l'angle que fait l'aiguille avec la direction des droites, suit la loi uniforme sur [0,d]×[0,π], de sorte que la condition s'écrit: [a≤ L L ou b ≤ ] , soit donc: 2 2 d L L (x,θ) ∈ A = {0≤x≤ .sin θ}∪{d- .sin θ≤x≤d} 2 2 a x θ 0 b On obtient ainsi (pour une raison de symétrie): π 2 ⌠ P N = . πd ⌡ L(sin θ)/2 2π ⌠ ⌡dxdθ = d.L , et on obtient ainsi une valeur approchée de π. 0 0 En d'autres termes, la génération par l'expérience de couples aléatoires (x,θ) dans [0,d]×[0,π] a permis de fournir une valeur approchée de l'intégrale double ⌠ 1A(x,θ)dxdθ. ⌡ [0,d]×[0,π] 2) Simulation d'une loi uniforme: Avec l'ordinateur et des logiciels comme Matlab ou Maple, il existe des fonctions génératrices de nombres pseudo-aléatoires (lorsque le ou les premiers nombres sont arbitrairement choisis, toute la suite est entièrement déterminée). Bien qu'on ne puisse le prouver, leurs propriétés sont identiques à celles des nombres aléatoires: on peut soumettre les nombres pseudo-aléatoires aux mêmes tests que les nombres aléatoires, et les utiliser si les tests sont satisfaits. Une méthode de génération est par exemple celle des congruences linéaires: on initialise une suite avec no entier nk sont pseudoentre 0 et N, et nk+1= ank+b mod. N , où a, b et N sont des entiers fixés. Les nombres εk = N-1 aléatoires dans [0,1], et pour a < b: les nombres a + (b-a)εk sont pseudo aléatoires dans [a,b]. Remarque: La suite obtenue est périodique (nk+1 est le reste de la division par N de ank+b et ne peut prendre qu'un nombre fini de valeurs). On a donc intérêt à ce que la période soit la plus longue possible. Le cas le plus fréquent est [ N=2m, m entre 30 et 40; a puissance impaire de 5; b=0; no impair] pour lequel on peut vérifier que l'on a une période de longueur 2m-2. Sedgewick (1987) préconise N=108, a =31415821 et b = 1. En initialisant la suite avec des valeurs distinctes de no , on est alors en mesure de simuler par des d-uplets de nombres pseudo-aléatoires la loi uniforme sur [0,1]d ou sur un pavé quelconque de Rd. 3) Application: calcul d'une intégrale sur un pavé de R d : 1 3a) Cas d'une intégrale simple A = ⌠ ⌡f(t)dt 0 Soit U une v.a. de loi uniforme sur [0,1]; alors X = f(U) est une v.a. de paramètres 1 E(X)=⌡ ⌠f.dpU =⌠ ⌡f(x)dx = A 1 2 et σ2 = V(X) = ⌡ ⌠f2.dpU - A2 = B -A2 , où B = ⌠ ⌡f (x)dx (si cela a un sens) 0 0 Pour une intégrale sur un segment [a,a+t], on posera X =t.f(a+tU); on a alors b b E(X) = ⌡ ⌠f(t)dt = A et V(X) = t. ⌡ ⌠f2(t)dt - A2 = tB-A2 . a • a L'échantillonnage simple: Si (U1,…,Un) est un n-échantillon de la loi uniforme sur [0,1], alors en posant Xk = f(Uk) pour chaque k: (X1,…,Xn) est un n-échantillon d'une loi de paramètres A et σ. La loi forte des grands nombres indique que Xn cvps vers A, et le TCL ajoute que, pour n grand: n n-1 T = σ .( Xn - A) et U = sn .( Xn - A ) suivent approximativement la loi N(0,1). On obtiendra ainsi, pour un seuil de signification α donné, un intervalle de confiance pour A avec T dans le cas où l'on dispose d'une majorant de σ, et avec U dans le cas contraire (cf cours). En pratique , on tire donc un échantillon (u1,…,un) de nombres aléatoires dans [0,1]; on applique alors les résultats ci-dessus à l'échantillon (x1,…,xn) où xk = f(uk), de moyenne me et d'écart-type σe que l'on aura calculés. Un intervalle de confiance pour A au seuil α pour n grand sera donc: si σ ≤ M connu: [me - tα. M n ; me + tα. M n ] ; sinon: [ me - tα. σe n-1 ; me - tα. σe n-1 ]. La méthode est d'autant plus efficace que la dispersion (connue ou estimée) σ2 et le temps τ de calcul sont 1 petits. On définit couramment l'efficacité de la méthode par la valeur 2 , en donnant par convention τσ l'efficacité 1 à cette méthode de base. Pour améliorer l'efficacité (réduire la dispersion), on peut envisager des méthodes plus performantes: • L'utilisation de variables antithétiques: L'idée repose sur le fait que, si U suit la loi uniforme sur [0,1], alors il en est de même de 1-U; en outre, les variations de ces deux variables se compensent partiellement: En posant alors Z = f(U)+f(1-U) , on constate en effet (avec Cauchy-Schwarz) que: 2 V(Z) = V(f(U)) + V(f(1-U)) + 2cov(f(U),f(1-U)) ≤ V(X) 4 Il y a donc beaucoup de chances pour que l'on réduise ainsi la variance (il y a égalité si et seulement si les fonctions x → f(x) et x → f(1-x) sont presque partout liées sur [0,1] ; dans les cas où f est par exemple de classe C2 , ceci ne peut arriver que pour une fonction affine). Uk+j pour j = 0,…,m-1, On peut aussi utiliser non plus 2 variables mais un nombre m donné, en posant Ukj = m 1 m-1 et en posant Xk = . ∑ f(Ukj). m j=0 • L'échantillonnage stratifié: On découpe le segment [0,1] en N tranches T1,…,TN de longueurs t1,…,tN. L'intégrale de f sur Ti est notée Ai. et celle de f2 sur Ti est notée Bi. N Dans chaque Ti , on procède à un échantillonnage simple de taille ni , avec n = ∑ ni . On reconstitue alors un i=1 i estimateur SN de A en additionnant les estimateurs Xni des Ai obtenus. En considérant que les vecteurs introduits dans chaque Ti sont mutuellement indépendants, la variance de l'estimateur s'exprime alors par: 2 N N σi i V( X ∑ ∑ , V(SN) = ni ) = i=1 i=1 ni 2 2 où σi = ti.Bi - Ai désigne la variance d'une variable de l'échantillon considéré à la tranche i . En utilisant l'inégalité de Cauchy-Schwarz, on remarque alors que: N 1 N σi N . ∑ n ≥ 1. ∑ σi , avec égalité si et seulement si ∀i: ni = n. Nσi . V(SN) = . ∑ n i=1 ni i=1 i n i=1 ∑ σi 2 i=1 Dans le but de réduire la variance, on peut alors, en pratique: se donner un découpage de l'intervalle en N 1 n segments (par exemple: t1 = … = tN = ), effectuer la simulation avec n1 = … = nN = (supposé entier), et N N obtenir une première évaluation des estimateurs τi des σi dans ces conditions; on procède alors à une τi nouvelle simulation avec ni # n. N (entiers). ∑ τi i=1 En ce qui concerne le choix des Ti , on peut montrer que, pour N donné, la dispersion est plus faible si on les choisit de sorte que f ait la même variation dans chaque intervalle. On peut enfin combiner cette méthode avec l'utilisation de variables antithétiques; l'efficacité devient alors très grande. • L'utilisation d'une variable de contrôle: On introduit une variable Y dont l'espérance E(Y) est calculable analytiquement et telle que la variance de X-Y est plus petite que celle de X. En pratique, on cherche une fonction g voisine de f dont l'intégrale se calcule (par exemple une fonction affine), et on applique les méthodes précédentes à l'intégrale de f-g : si la dispersion obtenue sur ce dernier calcul est plus petite que la dispersion initiale avec l'intégrale de f, on gagne ainsi en efficacité. d 3b) Cas d'une intégrale multiple I = ⌡ ⌠f(t1,…,td)dt1…dtd où P = ∏ [ai,bi] i=1 P Le principe reste le même: soit ε = (ε1,…,εd) un vecteur de loi uniforme sur [0,1]d ; en posant Ui = ai+(bi-ai)εi , U = (U1,…,Ud) et X = vol(P). f(U), on voit que X suit une loi de moyenne I. En pratique, pour un échantillonnage simple et k = 1…n: on tire d nombres aléatoires (εk1,…,εkd), on calcule les valeurs uki = ai + (bi-ai)εki et on travaille ensuite avec l'échantillon (x1,…,xn) où xk = vol(P).f(uk1,…,ukd). Il est important de remarquer qu'à chacune des n épreuves, le calcul de f (ce qui demande en général le plus de temps) n'est fait qu'une seule fois, tout comme dans le cas d'une intégrale simple. On peut montrer que, pour une précision demandée fixée, si le calcul d'une intégrale simple requiert un temps τ par la méthode probabiliste de base, celui d'une intégrale multiple d'ordre d nécessite en général un temps d'ordre nτ par la même méthode, alors que si une méthode déterministe requiert un temps t pour une intégrale simple, le temps requis par la même méthode sur une intégrale multiple d'ordre d est en général de l'ordre de τd. Ceci explique que les méthodes de Monte-Carlo, qui sont peu compétitives par rapport aux méthodes classiques pour le calcul d'intégrales simples, deviennent très compétitives pour les intégrales multiples, d'autant plus que leur ordre est élevé. Dans ce paragraphe, nous avons proposé une méthode de calcul par échantillonnage simple. Les méthodes de réduction de la dispersion exposées dans le cas des intégrales simples (stratification, transformations antithétiques) sont d'une application délicate dans le cas des intégrales multiples. Pour réduire la variance dans le cas général, il s'avère pratique de savoir simuler des lois non uniformes. C'est l'objet du paragraphe suivant. 4) Simulation de lois non uniformes: Supposons que la loi µ à simuler est à densité f sur (a,b) (a, b finis ou infinis) et que sa fonction de répartition F réalise un homéomorphisme de (a,b) dans (0,1). La donnée d'une v.a. uniforme u sur (0,1) permet alors de définir la v.a. r = F-1(u), qui suit la loi µ. ( p(r ≤ x) = p(u ≤ F(x)) = F(x) ). Exemples: • • 1 Simulation d'une loi exponentielle E(λ) sur R+: F(x) = 1-e-λx ; on prendra r = - .ln(1-u), λ 1 ou r = - .ln u, puisque 1-u suit aussi une loi uniforme sur (0,1). λ Simulation d'une loi normale N(0,σ): la fonction de répartition n'ayant pas d'expression analytique, s²+t² 1 .exp sur R2 . on passe en dimension 2: soit (x,y) suivant la loi à densité f(s,t) = 2πσ2 2σ2 Le passage en polaires Φ : R2 - R+×{0} → ]0,∞[×]0,2π[ , (x,y) → (r,θ) , x = r.cos θ, y = r.sin θ définit presque partout un couple de v.a. (r,θ). Avec la formule: p((x,y)∈A) = p((r,θ)∈Φ(A)) = 1 ρ² ⌠ 2πσ 2.exp ( - 2σ2) .ρ.dρ.dθ , on voit facilement que ⌡ Φ(A) x² θ suit une loi uniforme sur (0,2π), et que r a pour fonction de répartition F(x) = 1 - exp- sur 2σ² R+. Partant d'un couple (u1,u2) de loi uniforme sur [0,1], on obtient une simulation de (r,θ) avec: θ = 2πu1 , r = σ. -2.ln u2 , puis deux nombres x et y à distributions gaussiennes, donnés par: x = σ. -2.ln u2 . cos 2πu1 , y = σ. -2.ln u2.sin 2πu1. 5) Application à la réduction de la variance; cadre général: Soit f ∈ L1(Rd), et l'intégrale A = ⌡ ⌠f(x)dx à évaluer. Supposons que A se mette sous la forme Rd A=⌠ ⌡f1(x).g(x).dx , f = f1.g Rd d où g est la densité sur R d'une loi µ que l'on sait simuler. Soit U un vecteur aléatoire de loi µ ; alors X = f1(U) est une variable aléatoire réelle de paramètres f2(x) .dx - A2 ⌡ g(x) 2 2 E(X) = A , et σ2 = V(X) = ⌠ ⌡[f1(x)] .g(x)dx - A = ⌠ d R si cela a un sens d (le cas traité en [3a] correspond à d = 1, f1 = (b-a)f et g = R 1 .1 , b-a [a,b] densité de la loi uniforme sur [a,b] ) Si (X1,…,Xn) désigne un n-échantillon de la loi pX, la loi forte des grands nombres et le TCL s'appliquent ici comme en [3a]. Pour réduire la variance (ou commencer par obtenir un modèle de variance finie), on cherchera donc à écrire f = f1.g de sorte que le schéma ci-dessus s'applique et que la variance soit la plus petite possible, tout en gardant 1 à l'esprit que g doit être une densité, que A est inconnue ( le choix optimal g = .f est doublement irréaliste), et A que l'on sache simuler la loi de densité g. Exemples: ! 3 π Soit à calculer A = Γ = 2 2 = +∞ -t ⌠ ⌡f(x)dx avec f(t) = e . t . 0 Utilisons une loi exponentielle µ = E(λ) de densité g(t) = λ.e-λt sur +∞ intégrable sur f2(t) t R+ (λ > 0): t → g(t) = λ.e-(2-λ)t est 2 1 f (t) 2 2 R si et seulement si λ < 2; on obtient σ = ⌠ ⌡ g(t) .dt - A = λ(2-λ)2 - A , expression dont la + 2 0 2 valeur est minimale pour λ = ; on obtient σ2 # 0,06 (contre 0,21 pour λ = 1). 3 3 -t/3 2 On pourra donc calculer A = ⌠ ⌡f1(t)dµ(t) avec f1(t) = 2.e . t et µ = E3. R 1 ! Soit à calculer π =A=⌡ ⌠f(x)dx avec f(x) = 4 1-x² . 0 1 Par la méthode de base, on obtient σ² = ⌡ ⌠(1-x²)dx - A2 = 2 - A2 3 ( # 0,05). 0 1 Avec A = 1 f(x) ⌠ ⌡g(x).g(x)dx 0 , g densité de U sur [0,1] et X = f (U), g on a σ = ⌠ g(x) .dx - A². ⌡ [f(x)]² 2 0 1 Prenons g(x) = C.(1-βx²), β ≤ 1, C = 1-β/3 (pour avoir une densité); il vient: 1 σ = 2 1-x² ⌠ ⌡C(1-βx²).dx = 1 1 (3-β)(1-β).ln β - β 3 2β. β , et une recherche numérique du minimum de cette expression 0 donne une variance minimale de 0,0029 (au lieu de 0,05 pour l'estimateur simple) lorsque β = 0,74. ______________________________________________________ 12. ENTROPIE D'UN SYSTEME ALEATOIRE DISCRET (Examen de passage 1999 de première en seconde année de préparation à l'agrégation de mathématiques). Dans ce problème, (Ω,p) désigne un espace probabilisé discret (ou système aléatoire discret). On note par abus p({ω}) = p(ω) pour ω ∈ Ω. On appelle entropie du système (Ω,p) l'élément de [0,+∞]: H(p) = - ∑ p(ω).log p(ω) ω∈Ω où log désigne le logarithme de base 2, avec la convention 0.log 0 = 0, soit encore: H(p) = - ∑ p(ω).log p(ω), ω∈Ωp avec Ωp = {ω ∈ Ω, p(ω) > 0}. L'unité d'entropie est le bit. 1) a) Donner un système simple d'entropie égale à 1 bit ; à n bits (n∈N*). b) Que dire d'un système d'entropie nulle? c) Donner un système d'entropie égale à +∞ (on pourra par exemple utiliser une série de Bertrand convergente). On suppose dans toute la suite que p charge tous les points de Ω, i.e. que Ω = Ωp. 2) a) Soit q une autre loi sur Ω. Prouver l'inégalité: H(q) ≤ - ∑ q(ω).log p(ω), et montrer qu'il y a égalité si et ω∈Ω seulement si q = p. b) On prend Ω = {1,…,n}. Montrer que la loi sur Ω d'entropie maximale est la loi uniforme (on donnera son entropie). c) On prend Ω = N* et pour p la loi géométrique de paramètre µ ∈ ]0,1[, définie par p(k) = µ(1-µ)k-1 pour k ≥1. Calculer H(p), m=E(p), et montrer que p est la loi d'entropie maximum parmi les lois sur Ω de moyenne au plus égale à m. Si X désigne une variable aléatoire sur Ω, on appelle entropie de X, et on note H(X), l'entropie du système ( X(Ω), pX ) où pX est la loi de X: H(X) = - ∑ p(X=x).log p(X=x). x∈X(Ω) Soient X et Y deux variables aléatoire sur Ω. 3) Montrer que si X et Y sont indépendantes, alors on a: H(X,Y) = H(X) + H(Y). Pour x∈X(Ω), on note H(Y|X=x) l'entropie de la loi de Y sachant X=x, et on définit l'entropie de Y conditionnellement à X par: H(Y|X) = ∑ p(X=x).H(Y|X=x) x∈X(Ω) 4) a) Etablir l'égalité H(X,Y) = H(X) + H(Y|X). b) Prouver la majoration H(X,Y) ≤ H(X) + H(Y), et en déduire l'encadrement: 0 ≤ H(Y|X) ≤ H(Y). c) Montrer que H(Y|X) est nul si et seulement si Y est fonction de X, et que, le cas échéant, on a H(Y) ≤ H(X). d) Donner de même une condition nécessaire et suffisante pour que H(Y|X) = H(Y). Quelle interprétation peut-on faire de H(Y|X) ∈ [0;H(Y)] lorsque l'on connaît X ? Applications 5) Abdelkarim choisit un nombre entier Y au hasard dans {0,…,N-1} (N ∈ N*). Taoufiq (qui connaît N) doit trouver Y le plus vite possible en posant des questions à condition que la réponse soit "oui" ou "non". a) Montrer que, même s'il est très malin, Taoufiq ne peut être sûr de déterminer Y avant d'avoir posé un nombre de questions supérieur ou égal à log N. b) Dans le cas N = 2k , k∈N*, quelles questions poseriez-vous? (On pourra décomposer Y en base 2). 6) Abdelkarim tire des flêches sur une cible, les tirs étant supposés indépendants, avec à chaque tir la probabilité µ ∈ ]0,1[ d'atteindre le centre. Y désigne la variable donnant l'ordre du premier tir réussi. Après le nème tir, Taoufiq examine la cible pour savoir si le centre a été atteint ou non, et note Xn la variable à valeurs dans {oui,non} associée. a) Que dire de H(Xn|Y)? En déduire que H(Y|Xn) est minimal lorsque H(Xn) est maximal. Quelle valeur de n choisiriez-pour cela? b) Peut-on avoir H(Y|Xn) = 0? __________________________________________________________________________________________ Solution. 1a) Un système à deux états a et b équiprobables (p(a) = p(b) = 1/2) a une entropie de 1 bit. Un système à 2n états équiprobables a une entropie de n bits. 1b) H(p) = 0 si et seulement si p est concentrée en un point (tous les termes de la somme sont nuls): lorsque l'état du système est connu d'avance, son entropie est nulle. +∞ 1 1 Soit Ω = N-{0,1}, et p définie par p({n}) = , où S = ∑ > 0; il vient, pour n ≥2: S.n.log²n n=2 n.log²n 1 2log log n log S 1 log S + + ≥ + , terme général d'une série -p({n}).log p({n}) = n.log²n S.n.log²n n.log n S.n.log²n n.log n divergente, donc H(p) = +∞. 1c) 2a) On utilise la concavité puis la croissance de log: p(ω) ∑ q(ω).log p(ω) + H(q) = ∑ q(ω).log p(ω) - ∑ q(ω).log q(ω) = ∑ q(ω).log q(ω) ω∈Ω ω∈Ωq ω∈Ωq ω∈Ωq (1) ≤ log (2) ∑ p(ω) ≤ log 1 = 0, d'où l'égalité demandée. ω∈Ωq p(ω) S'il y a égalité, alors (2) est une égalité, donc Ωq = Ω, et (1) aussi, donc les sont égaux entre eux q(ω) (stricte concavité du log): ∃a, ∀ω ∈ Ω, q(ω) = a.p(ω) , ce qui entraîne a = 1 et q = p. La réciproque est évidente. Remarque: pour être parfaitement rigoureux dans le calcul précédent, on pourra distinguer deux cas, suivant que la somme de droite dans l'inégalité à prouver est finie ou non. 2b) 2c) n On obtient H(p) = log n. Si q ≠ p: H(q) < - ∑ qk.log pk = log n = H(p). k=1 L'entropie d'un système est donc maximale lorsque tous ses états sont équiprobables. 1-µ 1-µ .log (1-µ) = log - m.log(1-µ). µ µ +∞ 1-µ Si q ≠ p et E(q) ≤ m: H(q) < - ∑ qk.log pk = log - E(q).log(1-µ) ≤ H(p). µ k=1 On obtient m = 1/µ et H(p) = - log µ - 3) On note px = p(X=x) pour x ∈ X(Ω) (idem pour Y). Si X et Y sont indépendantes: H(X,Y) =- ∑ p(X=x,Y=y).log p(X=x,Y=y) (x,y)∈(X,Y)(Ω) =- ∑ p(X=x,Y=y).log p(X=x,Y=y) x∈X(Ω) y∈Y(Ω) (0.log 0 = 0: les termes ajoutés sont nuls) indép === - ∑ px.py.log (px.py) = - ∑ px.py.log px - ∑ px.py.log py = H(X) + H(Y). x∈X(Ω) x∈X(Ω) x∈X(Ω) y∈Y(Ω) y∈Y(Ω) y∈Y(Ω) Par généralisation: lorsque plusieurs systèmes indépendants se trouvent réunis en un seul, leurs entropies s'ajoutent . 4a) Avec les notations naturelles px = p(X=x), py = p(Y=y), px,y = p(X=x,Y=y), py|x = p(Y=y|X=x) : H(X,Y) 4b) =- ∑ px,y.log px,y (x,y)∈(X,Y)(Ω) =- ∑ py|x.px.[log py|x + log px] (x,y)∈(X,Y)(Ω) =- ∑ py|x.px.log py|x ∑ py|x.px.log px (x,y)∈(X,Y)(Ω) (x,y)∈(X,Y)(Ω) =- ∑ py|x.px.log py|x ∑ py|x.px.log px (termes ajoutés nuls) x∈X(Ω) x∈X(Ω) y∈Y(Ω) y∈Y(Ω) =- ∑ px. ∑ py|x.log py|x ∑ px.log px. ∑ py|x x∈X(Ω) y∈Y(Ω) x∈X(Ω) y∈Y(Ω) = ∑ px.H(Y|X=x) + H(X). x∈X(Ω) On reprend le calcul, les sommes portant sur les (x,y) ∈ (X,Y)(Ω): px,y H(X,Y) - H(X) = - ∑ px,y.log py|x = - ∑ px,y.log px.py.py px,y px,y = - ∑ px,y.log - ∑ px,y.log py = -∑ px,y.log - ∑ px|y.py.log py px.py px.py px,y = - ∑ px,y.log + H(Y) (idem qu'au calcul précédent) soit donc: px.py H(X,Y) - H(X) - H(Y) = px.py (1) ≤ log ∑ px.py ∑ px,y.log px,y (x,y)∈(X,Y)(Ω) (x,y)∈(X,Y)(Ω) (2) ≤ log ∑ px.py = log 1 = 0. x∈X(Ω) y∈Y(Ω) (on a utilisé la concavité et la croissance de log). H(Y|X) est somme de termes ≥ 0, donc H(Y|X) ≥ 0. H(X) + H(Y|X) = H(X,Y) ≤ H(X) + H(Y), donc H(Y|X) ≤ H(Y). 4c) Si H(Y|X) = 0, alors pour tout x ∈ X(Ω), on a H(Y|X=x) = 0, d'où par (1b): ∀x ∈ X(Ω), ∃! yx ∈ Y(Ω), p(Y=yx|X=x) = 1, i.e. (p chargeant tous ses points): X(ω) = x ⇒ Y(ω) = yx. La réciproque est claire. Si H(Y|X) = 0, alors H(X,Y) = H(X) = H(Y) + H(X|Y) ≥ H(Y). 4d) Si H(Y|X) = H(Y), alors H(X,Y) = H(X)+H(Y) et dans les calculs de [4b], (2) est une égalité, donc (X,Y)(Ω) = X(Ω)×Y(Ω), et (1) aussi, ce qui donne (stricte concavité de log): ∃ a , ∀x,y : px,y = a.px.py , puis en reportant, on obtient a = 1, ce qui indique que X et Y sont indépendantes. La réciproque a été établie en [3]. Lorsqu'on connaît X, H(Y|X) mesure donc l'incertitude qui reste sur Y: H(Y|X) = 0 : Y connue; H(Y|X) = H(Y): incertitude totale (Y indépendante de X). 5a) 5b) 6a) H(Y) = log N; mettons que Taoufiq pose n questions: on obtient une v.a. X à valeurs dans {oui,non}n, dont l'entropie maximale est celle de la loi uniforme sur {oui,non}n, à savoir n (2b). les questions posées permettront à coup sûr de déterminer Y ssi Y est fonction de X, i.e. ssi H(Y|X) = 0, ce qui nécessite H(X) ≥ H(Y), i.e. n ≥ log N. k-1 Si N = 2k , Taoufiq demandera (aimablement) à Abdelkarim d'écrire Y sous la forme ∑ aj.2j , les ak j=0 valant 0 ou 1. Il ne lui restera plus qu'à poser les k questions: "ao = 0 ?" ,…., "ak-1 = 0 ?". Y suit la loi géométrique de paramètre µ (voir 2c) et Xn suit une loi de Bernoulli: p(Xn = non) = (1-µ)n ; p(Xn = oui) = 1-(1-µ)n. Xn est fonction de Y (Y = k ⇒ Xn = oui si k ≤ n, non sinon), donc H(Xn|Y) = 0, d'où: H(Xn,Y) = H(Y), et H(Y|Xn) = H(Y) - H(Xn) sera minimal pour H(Xn) maximal. L'incertitude H(Xn) sera maximale si ses deux états sont équiprobables, soit donc pour -1 . (1-µ)n = 1 - (1-µ)n , i.e. n = log (1-µ) On prendra l'entier le plus proche de cette valeur. 6b) Il est clair que Y n'est pas fonction de l'observation Xn (il faudrait n = +∞). On peut le retrouver avec les résultats établis précédemment: H(Xn) ≤ 1 bit par (2b), et H(Y) > 1 bit par (2c): en effet, 1 bit est l'entropie de la loi de la v.a. Z sur N * chargeant 1 et 2 avec les probabilités respectives 1-α et α, où 1-µ α= , de moyenne E(Z) = 1/µ. µ Par suite H(Y|Xn) = H(Y)-H(Xn) > 0. ______________________________________________________ 13. SOMMES ALEATOIRES DE VARIABLES ALEATOIRES (Examen de passage 2000 de première en seconde année de préparation à l'agrégation de mathématiques). Les variables aléatoires (en abrégé: v.a.) intervenant dans les questions 1 et 2 sont toutes définies sur un même espace probabilisé (Ω,B,p) fixé. +∞ 1) Soit X une v.a. à valeurs dans N. On définit sa fonction génératrice GX : t → E(tX) = ∑ p(X=k).tk. k=0 a) Montrer que GX est définie et continue sur [0,1] , de classe C∞ sur [0,1[ , et caractérise la loi de X. b) Montrer que X est d'ordre 1 (i.e.: a une espérance finie) si et seulement si GX est de classe C1 sur [0,1], et exprimer le cas échéant son espérance E(X) à l'aide de GX. c) Montrer que X est d'ordre 2 (i.e.: a une variance finie) si et seulement si GX est de classe C2 sur [0,1], et exprimer le cas échéant sa variance V(X) à l'aide de GX. 2) Soit X une v.a. d'ordre 2 à valeurs dans N, (Xk)k≥1 une suite indépendante de v.a. de même loi que X et N une v.a. d'ordre 2 à valeurs dans N, indépendante de la suite (Xk)k≥1. n On note Sn = ∑ Xk pour n ≥1, et on définit sur Ω la v.a. S = SN par: k=1 N(ω) S(ω) = a) ∑ Xk(ω) , avec la convention S(ω) = 0 si N(ω) = 0. k=1 Que vaut GSn pour n ∈ N* ? b) Prouver l'égalité: GS = GN o GX . c) En déduire que S est d'ordre 2, et exprimer E(S) et V(S) à l'aide des espérances et variances de X et N. Applications: on demande dans les questions suivantes de modéliser les situations en définissant de façon claire des variables aléatoires et en indiquant en particulier les hypothèses d'indépendances que l'on fera éventuellement sur elles. 3) On lance un dé non truqué, puis une pièce de monnaie non truquée le nombre de fois indiqué par le dé. Calculer la moyenne du nombre de "pile" obtenu. 4) Le nombre N de clients arrivant dans un magasin pendant une journée de vente est supposé suivre une loi de λk Poisson de paramètre λ > 0 ( ∀k∈N : p(N=k) = e-λ. ). Chaque client achète avec la probabilité p un k! article A du magasin (il en achète au plus un). Le stock d'articles A à l'ouverture du magasin est de s articles (s≥ 1). a) Calculer la probabilité pour qu'il y ait rupture de stock de l'article A durant cette journée. b) Pour λ = 10 et p = 1/10, évaluer le nombre s minimum d'articles A pour que la probabilité de rupture de stock soit inférieure à 1%. 5) Pour recueillir une certaine information A sur les conditions à la surface d'une planète, des stations d'observation sont lancées successivement vers la région en question, jusqu'à obtention de l'information désirée. a) On considère que chaque station arrivant dans la région à étudier a la probabilité p d'obtenir l'information A. On demande la loi et la moyenne du nombre de stations à lancer pour obtenir l'information: i) si chaque station lancée arrive avec certitude dans la région. ii) si chaque station lancée atteint la région avec une probabilité τ. b) On considère maintenant que les stations communiquent entre elles, et que la probabilité d'obtention de l'information A augmente avec le nombre de stations présentes sur place: si n-1 stations sont présentes, la probabilité d'obtention de A à l'arrivée de la nème station vaut pn. On demande la moyenne du nombre de stations à lancer pour obtenir l'information: i) ii) c) si chaque station lancée arrive avec certitude dans la région. si chaque station lancée atteint la région avec une probabilité τ. Dans le modèle de [5b.ii], évaluer le coût moyen de l'opération lorsqu'une station ne peut s'acquitter de la tâche, deux stations le feront avec une probabilité égale à 0,4 , trois stations avec une probabilité égale à 0,7 , et quatre stations à coup sûr, le prix de l'envoi d'une station quelconque étant évalué à 50.109 DH. 6) Dans une réaction nucléaire, une particule élémentaire provoque l'apparition de Z1 particules de même nature, dites de première génération. La ième particule de la première génération (i = 1,…,Z1) engendre Xi,1 nouvelles particules. Le nombre de particules de la deuxième génération est donc Z2 = X1,1+…+XZ1,1. Les variables aléatoires Zn et Xi,n sont définies par récurrence de la même façon: la taille de la nème génération est Zn , et Xi,n désigne le nombre de descendants de la ième particule. On suppose que les Xi,n sont indépendantes et équidistribuées d'ordre 2, de fonction génératrice G, de moyenne E et de variance V. a) Exprimer Gn = GZn , En = E(Zn) et Vn = V(Zn) à l'aide des données. b) Etudier la suite (xn = Gn(0)) et interpréter les résultats. c) Appliquer les résultats lorsque les Xi,n suivent une loi de Bernoulli de paramètre p. __________________________________________________________________________________________ Solution. 1) ' Questions de cours: si X est d'ordre 1: E(X) = GX(1) . ' 2a) 2b) " ' Si X est d'ordre 2: V(X) = GX(1) + GX(1) - [GX(1)]2. Question de cours: L'indépendance de etX1, …, etXn fournit GSn = [GX]n. Pour t ∈ [0,1]: +∞ +∞ +∞ +∞ +∞ GS(t) = ∑ p(S=n).tn = ∑ ∑ p(S=n,N=k).tn = ∑ ∑ p(S=n,N=k).tn (termes positifs) n=0 n=0 k=0 k=0 n=0 +∞ +∞ = p(S=0,N=0) + ∑ ∑ p(Sk=n,N=k).tn k=1 n=0 +∞ +∞ = p(N=0) + ∑ ∑ p(Sk=n)p(N=k).tn (indépendance de N et Sk) k=1 n=0 +∞ +∞ +∞ = p(N=0) + ∑ p(N=k). ∑ p(Sk=n).tn = p(N=0) + ∑ p(N=k).GSk(t) k=1 n=0 k=1 +∞ = p(N=0) + ∑ p(N=k).[GX(t)]k (équation précédente) k=1 = GN(GX(t)). 2c) Calculs: E(S) = E(N).E(X) ; V(S) = E(X)2.V(N) + E(N).V(X). 3) Soit N la v.a. donnant le chiffre indiqué par le dé, et Xn la v.a. valant 1 si le nème lancer de la pièce fournit "pile", et 0 sinon. N suit la loi uniforme sur {1,..,6}, et les Xn sont équidistribuées de loi B(1/2). E(X) = 1/2 ; E(N) = 7/2 . En supposant les Xi et N indépendantes; le nombre de "pile" obtenu est S = X1+…+XN , et 2c) fournit: E(S) = 7/4 . 4a) 4b) 5a.i) On pose Xk = 1 si le kème client achète l'article A, 0 sinon. Les Xk sont équidistribuées de loi B(p) et de fonction génératrice G(t) = 1-p+pt. Le nombre d'articles A achetés est S = X1+…+XN. Avec GN(t) = exp(λ(t-1)), et en supposant les Xk et N indépendantes, on obtient: GS(t) = exp(λp(t-1)): S suit la loi P(λp). La probabilité qu'il y ait rupture de stock est: s-1 (λp)k p(S ≥ s) = 1 - ∑ e-λp. . k! k=0 s-1 (λp)k (λp)s p(S≥s) = e-λp.( eλp - ∑ )≤ par l'inégalité de Taylor-Lagrange. Une condition suffisante est s! k=0 k! s-1 1 99e ici: s! ≥ 100: 5 articles suffiront. (la condition exacte est: ∑ ≥ # 2,69, et s = 4 ne convient pas). k=0 k! 100 Pour un lancer: X = 1 si l'information est obtenue au nème lancer, 0 sinon. Si les stations lancées arrivent: X suit la loi B(p); q = 1-p. On considère une suite non limitée de lancers, et une suite (Xn) de copies indépendantes de X. N désigne le rang de la première station qui obtient l'information A. Pour n ≥ 1: p(N=n) = p(X1 = 0,…,Xn-1 =0,Xn=1) = qn-1.p : N suit la loi géométrique G(p) sur N*. E(N) = 1/p . 5a.ii) Si chaque station arrive avec la probabilité τ, le schéma est le même, mais avec cette fois: p(X=1) = p(X=1/lancer réussi).p(lancer réussi) = pτ. X suit ici la loi B(pτ), et N suit la loi G(pτ) sur N*. E(N) = 1/(pτ). 5b.i) On considère une suite non limitée de lancers, et une suite (Xn) de v.a. indépendantes: Xn = 1 si le nème lancer est nécessaire, 0 sinon (info déjà obtenue). +∞ +∞ Alors le nombre de stations à lancer est N = ∑ Xn , et E(N) = ∑ E(Xn). n=1 n=1 Pour n fixé: p(Xn = 1) = p(info non obtenue avec la (n-1)ème station) = 1-pn-1 (avec po = 0), donc: +∞ +∞ E(N) = ∑ (1-pn-1) = ∑ (1-pn) (po = 0). n=1 n=0 +∞ (Si le coût d'envoi de la station n est an : le coût moyen de l'opération sera S = ∑ an.(1-pn). n=0 Exemple: si 1 station non, 2 stations avec proba 0,4 , 3 stations avec 0,7 et 4 stations à coup sûr: E(N) = 1+(1-0)+(1-0,4)+(1-0,7)+(1-1)… = 3,3 stations. 5b.ii) 5c) Définissons Yn = 1 si la nème station lancée arrive à destination, et 0 sinon. Les Yn sont indépendantes et équidistribuées de loi B(τ), de moyenne τ. Si Y est le nombre de stations nécessaires sur place pour obtenir l'information A, et N le nombre de stations à envoyer pour obtenir A, on a Y = Y1+…YN , et, moyennant les conditions d'indépendance nécessaires pour appliquer 2b) : E(Y) = E(N).E(Y1) = τ.E(N). +∞ 1 +∞ Compte tenu de a): E(Y) = ∑ (1-pn) , d'où: E(N) = . ∑ (1-pn). τ n=0 n=0 3,3 # 4,72. Exemple: avec τ = 0,7 : E(N) = 0,7 Dans ce dernier cas, le coût moyen de l'opération sera donc C # 4,72.50.109 = 236.109 DH. 6a) Zn+1 = X1,n + … + XZn,n ; Zn est fonction des Xi,k , k ≤ n-1, donc indépendante des Xi,n . On pose Zo = 1, Go = Id ( Z1 = X1,0 ); alors Gn+1 = GnoG , de sorte que Gn = Go…oG (composée n fois). En = En ; Vn+1 = E2.Vn + En.V fournit, en faisant intervenir (V/E)n : Vn = V.En-1.( 1+E +…En-1). 6b) xo = 0; xn = Gn(0) = p(Zn = 0) est la probabilité que la nème génération soit vide; posant po = p(X=0): G(0) = po , G(1) = 1 , G'(1) = E ; G est croissante et convexe; il en découle que: - si po= 0 : xn = 0 pour tout n (clair). si po > 0 et E > 1: (xn) croît vers l'unique point fixe a de G dans ]0,1[ (et En croît vers +∞). si po > 0 et E ≤ 1: (xn) croît vers 1, extinction certaine (et En décroît vers 0 pour E < 1). ______________________________________________________ 14. LOIS DU MIN ET DU MAX. ETUDE ASYMPTOTIQUE (Examen de passage 2001 de première en seconde année de préparation à l'agrégation de mathématiques). Les variables aléatoires intervenant dans ce problème sont toutes définies sur un même espace probabilisé (Ω,B,p) fixé et à valeurs réelles (en abrégé : v.a.r.). ∀ t ∈ R : FT(t) = p(T ≤ t). Si T est une v.a.r., sa fonction de répartition FT est définie par : Une v.a.r. T est dite intégrable si elle admet une espérance E(T) < +∞. On dit qu’une suite (Tn)n≥1 de v.a.r. converge en loi vers une v.a.r. T si l’on a, pour tout réel t où F est continue: T lim F (t) = F (t) T n→ +∞ Tn On appellera ici v.a.r. discrète une v.a. à valeurs dans N, et v.a.r. absolument continue une v.a.r. T admettant une densité f que l’on supposera localement continue par morceaux sur R. Dans ce dernier cas, la fonction de x répartition de T est définie sur R par : FT(x) = ⌠ ⌡f(t)dt -∞ La fonction caractéristique d’une partie A de R est notée χ ( χ (x) = 1 si x ∈ A ; χ (x) = 0 si x ∉ A). A 1) Soit T une v.a.r. positive et intégrable. Prouver la formule : A A +∞ E(T) = ⌠(1- F (t))dt. ⌡ T 0 On pourra se limiter aux cas où T est discrète ou absolument continue. Dans le cas discret, on exprimera E(T) sous forme d’une somme de série. 2) a) Soient T1 , … , Tn , … , T des v.a.r. discrètes. Montrer que (Tn)n≥1 converge en loi vers T si et seulement si on a : ∀ k ∈ N : lim p( Tn = k ) = p( T = k ). n→ +∞ b) Soit pour n ∈ N* la v.a. Tn de fonction de répartition Fn définie par : (t) + χ (t). ∀ t ∈R : Fn(t) = ( t - 2πn ) .χ [0,1] ]1,+∞[ Montrer que les Tn sont absolument continues et que (Tn)n≥1 converge en loi vers une v.a.r. absolument continue que l’on reconnaîtra. Que dire de la suite (fn)n≥1 des densités des Tn ? sin 2πnt On considère maintenant une suite (Xn)n≥1 de v.a.r. positives, intégrables, indépendantes et équidistribuées de loi µ et de fonction de répartition F. Un = min (X1 , … , Xn) ; Vn = max (X1 , … , Xn). Pour n ∈ N*, on note : 3) Pour n ≥1 : exprimer les fonctions de répartition F Un et F Vn de Un et Vn en fonction de F et n ; Montrer que Un et Vn sont intégrables et exprimer E(Un) et E(Vn) en fonction de F et de n. 4) Montrer que (Un)n≥1 converge en loi vers une v.a.r. U que l’on reconnaîtra. 5) On note B = { t ∈ R , F(t) = 1}. a) On suppose B non vide ; montrer que (Vn)n≥1 converge en loi vers une v.a.r. V que l’on reconnaîtra. b) Que dire de (Vn)n≥1 lorsque B est vide ? Que vaut alors lim E(Vn) ? n→ +∞ k 6) On suppose ici que µ est une loi discrète ; on note, pour k ∈N : pk = p(X1=k) , sk = ∑ pj . Exprimer E(Un) j=0 et E(Vn) sous forme de sommes de séries pour n ∈N*. 7) On suppose ici que µ est une loi à densité f sur R . Pour n ≥1, montrer que Un et Vn sont absolument continues, et exprimer leurs densités en fonction de n , f et F. Applications : 8) µ désigne ici la loi uniforme sur {1,…,N} (N≥2). a) Exprimer E(Un) et E(Vn) sous forme de sommes finies. b) On lance trois dés équilibrés. Quelle est la moyenne du plus grand chiffre obtenu ? 9) Soit p ∈ ]0,1[, q = 1-p , et µ la loi géométrique G(p) sur N* (définie par pk = qk-1p pour k ≥1). a) Calculer E(Un) et E(Vn) ; on exprimera E(Vn) sous la forme d’une somme finie. b) Trois joueurs lancent à tour de rôle une pièce de monnaie équilibrée jusqu’à ce que chacun d’eux ait obtenu un pile. Quelle est la moyenne du nombre de lancers effectués par le joueur ayant obtenu pile en dernier ? 10) µ est ici la loi uniforme sur [0,1] (de densité f = χ ). [0,1] a) Calculer E(Un) et E(Vn). b) Montrer que (nUn)n≥1 et (n(1-Vn))n≥1 convergent en loi vers des v.a.r. que l’on reconnaîtra. 11) µ est maintenant la loi exponentielle de paramètre λ > 0 (de densité f : t → λ.e-λt. a) χ[0,+∞[(t)). Reconnaître la loi de Un . ln n b) Montrer que ( Vn - λ )n≥1 converge en loi vers une v.a.r. dont on donnera la fonction de répartition. __________________________________________________________________________________________ Solution. 1) Cas discret: 1-FT(t) E(T) +∞ = p(T≥k) sur [k-1,k[ pour k ∈N* .Il s’agit donc de prouver : E(T) = ∑ p(T≥k) : k=1 +∞ +∞ +∞ +∞ = ∑ k.p(T=k) = ∑ k.[p(T≥k) – p(T≥k+1)] = ∑ k.p(T≥k) - ∑ k.p(T≥k+1) k=1 k=1 k=1 k=1 +∞ +∞ +∞ = ∑ k.p(T≥k) - ∑ (k-1).p(T≥k) = p(T≥1) + ∑ p(T≥k) , d’où le résultat. k=1 k=2 k=2 Cas où T est à densité f : +∞ +∞ +∞ x +∞ ⌠+∞ ⌠ ⌠dt.f(x)dx =* ⌠f(x)dxdt = ⌠(1- F (t))dt E(X) = ⌠ x.f(x)dx = ⌡ ⌡ ⌡ 0 ⌡ 0 ⌡ t 0 0 ⌡ T ( * : Tonelli). 0 Cas général: La démonstration est la même que dans le cas précédent, en remplaçant f(x)dx par dpX(x). On notera que {t ≥0, p(X=t)} est au plus dénombrable. 2) a) (Tn)n≥1 converge en loi vers T ⇔ ∀ a ∈R\N : lim p( Tn ≤ a) = p(T ≤ a) n→ +∞ ⇔ ∀ a ∈ R+\N : lim p( Tn ≤ [a] ) = p( T ≤ [a] ) (partie entière) n→ +∞ ⇔ ∀ k ∈N : lim p( Tn ≤ k ) = p( T ≤ k ) n→ +∞ ⇔ ∀ k ∈ N ; lim p( Tn = k ) = p( T = k ) (par différences). n→ +∞ b) Tn est absolument continue de densité fn : t → 1-cos 2πnx sur [0,1]. (Tn)n≥1 converge en loi vers la v.a.r. T uniformément distribuée sur [0,1], de densité f = 1 sur [0,1], mais (fn) ne converge pas vers f, puisque x → cos(2πnx) n’a pas de limite quand n tend vers +∞. 3) Grâce à l’indépendance : F Un = 1 – (1-F)n et F Vn = Fn . 0 ≤ Un ≤ X1 , et 0 ≤ Vn ≤ X1 + … + Xn ; l’intégrabilité des Xk entraîne celle de Un et Vn. Par 1) : E(Un) = +∞ +∞ n n dt et E(V ) = (1-F(t)) ⌠ ⌠ n ⌡ ⌡(1 - F(t) )dt . 0 4) F Un 0 converge simplement vers χ où A = { t , F(t) >0 } est de la forme [a,+∞[ ou ]a,+∞[ (croissance). Il y a convergence vers χ A [a,+∞[ sur R\{a}, et donc : (Un)n≥1 converge en loi vers U = a = Inf {t ≥ 0, F(t) >0} . 5) F converge simplement vers χ . Vn a) B Si B est non vide, il est de la forme [b,+∞[ (croissance et continuité à droite) , d’où: Si ∃t , F(t) = 1, alors (Vn)n≥1 converge en loi vers U = b = Inf {t ≥ 0 , F(t) = 1} b) Si B = ∅ : F converge simplement vers la fonction nulle, et ne peut pas converger sur le Vn complémentaire d’un ensemble dénombrable vers une fonction G de répartition (car il existerait un réel α tel que : t > α ⇒ G(t) ≥ ½) : Si ∀ t : F(t) < 1, alors (Vn)n≥1 ne converge pas en loi . Soit A > 0 ; le thm de convergence dominée indique que 2A lim ⌡ ⌠(1-F(t)n)dt = 2A ; par suite : n→ +∞ 0 2A n ∃ N ∈N*, n ≥N ⇒ E(Vn) ≥ ⌠ ⌡(1-F(t) )dt ≥ A : Si ∀ t : F(t) < 1, alors 0 6) Pour k ≥0 : lim E(Vn) = +∞ . n→ +∞ indép p(Un≥k) = p(X1≥k,…,Xn≥k) === [p(X1≥k)]n = (1-sk-1)n (avec la convention s-1 = 0). indép n p(Vn≥k) = 1 – p(Vn<k) = 1 – p(X1< k,…,Xn< k) === 1 – [p(X1<k)]n = 1 - sk-1. +∞ +∞ +∞ +∞ n Avec 1) : ∑ p(Un≥k) = E(Un) = ∑ (1-sk)n . ∑ p(Vn≥k) = E(Vn) = ∑ (1- sk ) . k=1 k=0 k=1 k=0 7) x * F (x) = 1 – (1-F(x))n = ⌡ ⌠n(1-F(t))n-1f(t)dt : Un Un est à densité n(1-F)n-1.f . 0 x F (x) = F(x)n = ⌡ ⌠nF(t)n-1f(t)dt : Vn est à densité nFn-1.f Vn 8) 0 ( 1 – (1-F)n est continue et admet, sauf peut-être sur un ensemble dénombrable, une dérivée égale à n(1-F)n-1f : c’est une primitive généralisée de n(1-F)n-1f, et la formule (*) est bien correcte. Idem pour le cas de Vn). k Ici : sk = pour k = 0,…,N-1 ; sk = 1 pour k ≥N. N a) N-1 +∞ k n 1 N-1 1 N ∑ (1-sk)n = ∑ 1 - = n . ∑ (N-k)n = E(Un) = n . ∑ kn . N N N k=0 k=0 k=1 k=0 N-1 +∞ kn n ∑ (1-sk ) = E(Vn) = ∑ 1 - n = N + 1 - E(Un) k=0 N k=0 b) N = 6 ; n = 3. E(V3) = 9) 119 # 4,96 . 24 k 1-qk = 1-qk , formule valable aussi pour k = 0. Ici : so = po = 0 ; pour k ≥1 : sk = ∑ qj-1p = p. 1-q j=1 a) +∞ +∞ 1 ∑ (1-sk)n = ∑ qkn = E(Un) = n . 1-q k=0 k=0 +∞ +∞ +∞ n j n +∞ n * ∑ Cj .(-1)j+1. ∑ qkj ∑ (1-sk ) = ∑ [ 1 – (1-qk)n ] = ∑ ∑ Cn .(-1)j+1.qkj == n k=0 k=0 k=0 j=1 j=1 k=0 j n Cn .(-1) = E(Vn) = ∑ j j=1 1-q b) 10) n=3;q= j+1 ( * : la finitude des sommes sur k justifie l’interversion). 3 3 1 1 ; E(V3) = + : 1-q 1-q² 1-q3 2 E(V3) = 22 # 3,14 . 7 Ici : F(x) = x sur [0,1] (0 avant et 1 après). 1 a) n F (x) = 1 – (1-x) sur [0,1] ; E(Un) = ⌠ ⌡(1-x) dx : E(Un) = n Un 1 . n+1 0 1 n F (x) = xn sur [0,1] ; E(Vn) = ⌠ ⌡(1-x )dx : E(Vn) = Vn n . n+1 0 x x n b) Pour x ∈[0,n] : p( nUn ≤ x ) = p( Un ≤ ) = 1 - 1 - → 1 – e-x quand n tend vers +∞ . n n x x n p( n(1-Vn) ≤ x) = 1 – p( Vn < ) = 1 - 1 - : n n (nUn)n≥1 et (n(1-Vn))n≥1 convergent en loi vers une v.a. W de loi Exp[1] 11) Ici : F(x) = 1 – e-λx sur [0,+∞[. a) F (x) = 1 – e-nλx sur [0,+∞[ : Un Un suit la loi Exp(nλ) . -λx n b) F (x) = (1 – e ) sur [0,+∞[ ; Vn e-λxn ln n ln n -λx Pour x > - λ : p( Vn - λ ≤ x ) = 1 n → G(x) = exp ( - e ) quand n tend vers +∞. On vérifie que G est bien une fonction de répartition sur R : ln n ( Vn - λ )n≥1 converge en loi vers une v.a.r. de fonction de répartition G(x) = exp ( - e-λx) sur R 15. LOIS CLASSIQUES : RECAPITULATIF Une v.a. X suivant la loi citée, GX désigne la fonction génératrice (lois discrètes) ; FX désigne la fonction de répartition, ΦX désigne la fonction caractéristique et fX la densité. Loi uniforme U(n) sur {1,…,n} ( n ≥1 ) 1 n+1 n²-1 p(X=k) = ( 1 ≤ k ≤ n ) ; E(X) = ; V(X) = . n 2 6 1 n 1 n 1 n GX(t) = . ∑ tk ; FX(t) = . ∑ 1[k,+∞[(t) ; ΦX(t) = . ∑ eikt. n k=1 n k=1 n k=1 Loi de Bernoulli B(p) (0 < p < 1) p(X=0) = 1-p ; p(X=1) = p ; E(X) = p ; V(X) = p(1-p). FX(t) = (1-p).1[0,1[(t) + p.1[1,+∞[(t) ; ΦX(t) = 1-p+p.eit. GX(t) = 1-p + pt ; Loi binomiale B(n,p) (n ≥ 1 ; 0 < p < 1) k p(X=k) = Cn.pk.(1-p)n-k ( 0 ≤ k ≤ n ) ; E(X) = np ; V(X) = np(1-p) ; n k FX(t) = ∑ Cn.pk.(1-p)n-k .1[k,+∞[(t) ; ΦX(t) = (1-p+peit)n. k=0 GX(t) = (1-p+pt)n ; Loi de Poisson P(λ) ( λ > 0) λk p(X=k) = e-λ. (k≥0); k! E(X) = V(X) = λ ; +∞ λk FX(t) = ∑ e-λ. .1[k,+∞[(t) ; ΦX(t) = exp( λ(eit-1) ). k! k=0 GX(t) = eλ(t-1) ; Loi géométrique G(p) ( 0 < p < 1) 1 1-p ; V(X) = ; p p² +∞ peit FX(t) = ∑ p(1-p)k-1.1[k,+∞[(t) ; ΦX(t) = . 1-eit+peit k=1 p(X=k) = p(1-p)k-1 ( k ≥ 1 ) ; GX(t) = E(X) = pt ; 1-t+pt Loi hypergéométrique H(N ;n ;p) ( 1 ≤ n ≤ N ; 0 < p < 1 ; q = 1-p ) p(X=k) = k n-k CNp.CNq n CN ( 0 ≤ k ≤ n ); E(X) = np ; V(X) = Npq. N-n . N-1 Loi multinomiale B(n ; p1 , …, pr ) ( n ≥1 , r ≥1 ; 0 < p1 , …, pr < 1 ) p(X = (k1,…,kr) ) = r n! k k k .p11.p22…pr r , (k1,…,kr) ∈N r, ∑ ki = n. k1!k2!…kr! i=1 Loi uniforme U(a,b) sur [a,b] ( a < b ) 1 fX(t) = .1 (t) ; b-a [a,b] t-a FX(t) = .1 (t) + 1[b,+∞[(t) ; b-a [a,b[ E(X) = a+b (b-a)2 ; V(X) = ; 12 2 itb ita e -e ΦX(t) = . it(b-a) Loi exponentielle E(λ) (λ > 0) fX(t) = λ.e-λt.1[0,+∞[(t) ; FX(t) = (1-e-λt).1[0,+∞[(t) ; E(X) = ΦX(t) = λ . λ-it 1 1 ; V(X) = ; λ λ² Loi normale N(1)(m,σ) (σ > 0) 1 (t-m)² fX(t) = .exp; 2σ² σ 2π ΦX(t) = eimt.e-σ²t²/2. E(X) = m ; V(X) = σ2 ; Loi normale N(n)(0,1) ||t||² fX(t) = (2π)-n/2.exp - . 2 Loi de Cauchy C(a) ( a > 0 ) 1 a fX(t) = . ; π a²+t² FX(t) = 1 1 t + .Arctan ; 2 π a ΦX(t) = e-a.|t|. Loi de Student à n degrés de liberté t(n) (n≥2) 1 fX(t) = . nπ Γ( n+1 2 ) Γ( n 2) n+1 t² - 2 .( 1+ ) . n Loi du Chi-deux à n degrés de liberté χ2(n) ( n ≥2) fX(t) = 1 .t (n/2)-1.e-t/2.1[0,+∞[(t) ; 2n/2.Γ(n/2) E(X) = n ; V(X) = 2n ; χ2(2) = E(1/2). Loi gamma Γ(p) ( p > 0 ) 1 p-1 -t .t .e .1]0,+∞[(t) ; E(X) = V(X) = p ; Γ(1) = E(1). Γ(p) ΦX(t) = (1-it)-p. fX(t) = Loi de Erlang E(λ,n) ( n ≥ 1 , λ > 0 ) fX(t) = λn.tn-1.e-λt .1 (t) . (n-1)! [0,+∞[ Loi Log-normale LN(m,σ) ( σ > 0 ) fX(t) = 1 (ln t - m)² .exp .1 (t) ; 2σ² [0,+∞[ tσ 2π E(X) = exp ( m + σ² ) ; V(X) = (eσ²-1).e2m+σ². 2 BIBLIOGRAPHIE _______________________________________________________________________________________ ! Probabilités et statistiques. 1. Problèmes à temps fixe. D. Dacunha-Castelle. M. Duflo MASSON ! Exercices de probabilités et statistiques. 1. Problèmes à temps fixe. D. Dacunha-Castelle. M. Duflo MASSON ! Exercices corrigés en théorie des probabilités. 2ème cycle universitaire. J.P. Ansel. Y. Ducel ELLIPSES ! Exercices de probabilités. J. Guégand. M.A. Maingueneau ELLIPSES ! Théorie des probabilités (cours et exercices avec solutions). K. V. Khac ELLIPSES ! Notions fondamentales de la théorie des probabilités. M. Métivier DUNOD ! Exercices de probabilités avec rappels de cours. M. Cottrel. V. Genon-Catalot. C. Duhamel. T. Meyre CASSINI ! Probabilités (Mathématiques pour l'ingénieur. N. Boccara ELLIPSES ! Probabilités: dix leçons d'introduction. M. Métivier ELLIPSES ! Probabilités. Combinatoire-Statistiques. P. Louquet. A.Vogt ! Thèmes de probabilités et statistiques P.S. Toulouse ! Probabilités et statistiques J.P. Réau; G. Chauvat ! Calcul des probabilités D. Foata ; A. Fuchs DUNOD ! Probabilités capes, agrégation J.Y. Ouvrard CASSINI ! Probabilités discrètes. C. Vigneron. E. Logak PAVAGES ! Probabilités continues. PAVAGES ARMAND COLIN MASSON ARMAND COLIN C. Vigneron. E. Logak _______________________________________________________________________________________