Paul-Antoine Chevalier et Hugo Harari-Kermadec 7 décembre 2009 Statistiques TD 5 : Intervalles de confiance L3, ENS-Cachan, 2009-2010 1 Intervalle de confiance pour un sondage Nous avons des données issues d’une enquête demandant aux Américains s’ils approuvent la politique menée par le président Bush. Il y a 1500 répondants contactés par un sondage aléatoire. On obtient que 35% des répondants soutiennent la politique de Bush. Construisez un intervalle de confiance à 95 % autour de la valeur estimée. Corrigé: IC95 = [p̂ − q975 ∗ σ̂, p̂ + q975 ∗ σ̂] – Comme la taille de l’échantillon (N) est grande, on peut approximer la loi des erreurs par une loi normale (Théorème central limite) On prend donc le quantile à 97,5 % de la loi normale q975 = 1.96 (voir table de quantiles). – On veut estimer l’écart-type de l’estimateur d’une proportion. – La variance d’une Bernouilli de paramètre p vaut p(1 − p). – On obtient donc r r p̂(1 − p̂) .35(1 − .35) σ̂ = = N 1500 – sqrt((.35 * (1 - .35)) / 1 500) = 0.0123153021 – La borne inférieure vaut .35 - (1.96 * sqrt((.35 * (1 - .35)) / 1 500)) = 0.325862008 – La borne supérieure vaut .35 + (1.96 * sqrt((.35 * (1 - .35)) / 1 500)) = 0.374137992 2 Combien de parisiens portent des lunettes ? (d’après P. Ardilly et Y. Tillé, Exercices corrigés de méthodes de sondage) Quelle taille d’échantillon faut-il retenir pour connaı̂tre à deux points de pourcentage près (au plus) et avec 95 chances sur 100, la proportion de Parisiens qui portent des lunettes ? On suppose que chaque Parisien a la même probabilité d’être sondé, et que les individus sont tirés avec remise. Corrigé: L’objectif est de déterminer la taille d’échantillon minimale (notée n0 ) telle que l’intervalle de confiance sur p, proportion de Parisiens portant des lunettes, soit de longueur inférieure à 0,04. Rappelons qu’un intervalle de confiance à 100(1−α)% est un segment [U1 , U2 ] tel que P ([U1 , U2 ] 3 p) = 1 − α (c’est l’intervalle qui est aléatoire ici, d’où la notation). L’intervalle est souvent asymptotique dans le sens que cette égalité n’est vraie que lorsque n → +∞ (où n est le nombre d’individus sondés). Pour construire l’intervalle de confiance, on s’appuie sur les données de l’enquête. Soit Yi la variable valant 1 si le ième individu sondé porte des lunettes, 0 sinon. On note également, pour le kième Parisien (qu’il soit interrogé ou non) xk l’indicatrice de port de lunettes. Enfin le nombre de Parisiens est noté N . On a : P (Yi = 1) = N X P (k est sondé) xk = k=1 N 1 X xk = p N k=1 puisque chaque individu a la même probabilité d’être sondé. Donc Yi ∼ B(p). De plus les (Yi )1≤i≤n sont indépendants puisque le tirage est avec remise. Le principe de construction d’un intervalle de confiance est proche (quoique légèrement différent) de celui d’une statistique de test. Puisque les (Yi )1≤i≤n sont i.i.d., on peut appliquer le théorème central limite : √ Loi n(Y − p) −→ N (0, p(1 − p)) Soit encore √ Y −p Loi np −→ N (0, 1) p(1 − p) Maintenant, d’après la loi des grands nombres et puisque x 7→ x(1 − x) est continue, P roba Y (1 − Y ) −→ p(1 − p). Par conséquent, d’après le théorème de Slutsky, √ En d’autres termes : P qα/2 ≤ √ Y −p Loi nq −→ N (0, 1) Y (1 − Y ) Y −p n→+∞ nq ≤ q1−α/2 −→ 1 − α Y (1 − Y ) où qx est le quantile d’ordre x d’une N (0, 1). Par symétrie, on a qα/2 = −q1−α/2 donc : s s Y (1 − Y ) Y (1 − Y ) n→+∞ probaY − q1−α/2 ≤ p ≤ Y + q1−α/2 −→ 1 − α n n q ) La longueur de l’intervalle vaut donc 2q1−α/2 Y (1−Y . Donc il s’agit de déterminer n0 n minimal tel que s q1−α/2 Y (1 − Y ) ≤ 0, 02 n0 Cependant, nous sommes confrontés à une difficulté : Y n’est pas observable ex ante. Cependant x 7→ x(1 − x) est une parabole maximale en x = 1/2, de valeur 1/4 en ce point. Si l’on se place dans la situation la moins avantageuse, on doit donc déterminer le n0 minimal satisfaisant à : q1−α/2 ≤ 0, 02 √ 2 n0 Ce qui s’écrit encore, pour α = 0, 05 " n0 = q0.975 0, 04 2 # +1 où [.] est la partie entière. On obtient finalement n0 = 2401. 3 Les loyers à Paris Désireux de louer un studio pour vous loger, vous avez collecté des informations sur les loyers de studios mis en location. Vous cherchez θ0 , l’espérance (ou plutôt la désespérance) du loyer à Paris. Vous consultez donc les petites annonces et recueillez les 6 loyers suivants : 390, 460, 650, 410, 270 et 780 euros. Un de vos camarades, plus malin que vous, a collecté 300 annonces sur internet. Il obtient un loyer moyen de 550 euros et un écart-type de 300 euros. A partir de deux échantillons supposés constitués d’observations indépendantes vous avez obtenu deux estimations du loyer moyen, correspondant aux moyennes empiriques des loyers sur chacun de ces échantillons. + Q1 Déterminez l’estimateur du maximum de vraisemblance de θ0 pour chaque échantillon. Quelle hypothèse supplémentaire devez-vous faire pour obtenir cet estimateur ? Qu’observezvous ? Qu’en concluez-vous quant aux propriétés à distance finie (i.e. avec un échantillon de taille finie) et quant aux propriétés asymptotiques de cet estimateur ? Donnez en particuliers leur espérance, leur variance, leur distribution à distance finie et leur distribution asymptotique, en prédisant à chaque fois les hypothèses nécessaires. Corrigé: On fait l’hypothèse que la distribution des loyers peut être représentée par une loi Normale d’espérance m et de variance σ 2 , identiques pour les deux échantillons. Par ailleurs, on suppose les observations des loyers de l’échantillon indépendantes. La densité d’une observation yi s’écrit donc : 1 1 f (yi ; σ 2 ; m) = √ exp[− 2 (yi − m)2 ] 2σ 2Πσ La fonction de vraisemblance de l’échantillon est donc : L(m; σ 2 ; y1 ; y2 ; ...; yn ) = n Y i=1 √ 1 1 exp[− 2 (yi − m)2 ] 2σ 2Πσ Pour des raisons pratiques, on va utiliser la log-vraisemblance : log[L(.)] = = n X i=1 n X log 1 1 √ exp[− 2 (yi − m)2 ] 2σ 2Πσ 1 log[(2Πσ 2 )− 2 ] + i=1 n X i=1 − 1 (yi − m)2 2σ 2 n n n 1 X = − log(2Π) − log(σ 2 ) − 2 (yi − m)2 . 2 2 2σ i=1 La condition du second ordre étant vérifiée, on va annuler la dérivée de log[L(.)] par rapport à m : n n 1 X 1X ∂ log[L(.)] = 0 ⇐⇒ 2 (yi − m) = 0 ⇐⇒ m̂ = yi . ∂m σ n i=1 i=1 Pour chaque échantillon, l’estimateur de l’espérance est donc la moyenne empirique. Les estimateurs ont donc les propriétés suivantes : – Absence de biais (si toutes les observations ont la même espérance). 2 – Variance égale à σn (si toutes les observations sont indépendantes et ont la même variance σ 2 ). – Convergence presque sûre, en moyenne quadratique et en probabilité (si les observations sont indépendantes et identiquement distribuées). – Efficacité (sous l’hypothèse de normalité). – Distribution asymptotiquement normale (si les observation sont iid). – Efficacité asymptotique (sous l’hypothèse de normalité). + Q2 Votre professeur de Statistique vous dit qu’il y a un moyen d’améliorer encore la précision de l’estimation de θ0 en combinant votre estimation et celle de votre camarade. Il vous propose de calculer la moyenne arithmétique des deux estimations en les pondérant donc chacune par 0.5 : θ̂∗ = 0.5θ̂1 + 0.5θ̂2 , où θ̂1 et θ̂1 représentent respectivement votre estimation de θ0 et celle de votre camarade. Calculer la variance de cette nouvelle estimation du loyer moyen. Corrigé: On a : θ̂∗ = 0.5θ̂1 + 0.5θ̂2 = 397. La variance vaut : V ar(θ̂∗ ) = 0, 25V ar(θ̂1 ) + 0, 25V ar(θ̂2 ) + 0, 252̇Ċov(θ̂1 ; θ̂2 ) Si les échantillons sont indépendants, les estimateurs (qui sont des statistiques, c’est-à-dire des fonctions des données) sont indépendants, donc Cov(θ̂1 ; θ̂2 ) = 0. C’est-à-dire que les deux estimations sont indépendantes, ce qui est raisonnable dès lors que les annonces utilisées sont différentes. ˙ V (θ̂∗ ) = 0, 25(5844 + 300) = 1 536. Remarque : cette variance est supérieure à celle de l’échantillon 2 seul (300) ! On a en fait perdu de l’information en utilisant les deux estimateurs sans prendre en compte la taille des échantillons. + Q3 Votre chargé de TD vous fait remarquer que votre professeur de statistique pourrait être plus malin et qu’en choisissant mieux la pondération de ces deux estimations, on peut encore améliorer la précision du résultat. Soient a et 1 − a les pondérations “ optimales ” recherchées : θ̂∗∗ = aθ̂1 + (1 − a)θ̂2 . Quelle est la variance de ce nouvel estimateur du loyer moyen ? Quelle est la valeur de a qui minimise cette variance ? Corrigé: Soit a∗∗ et (1 − a∗∗ ) les pondérations optimales qui permettent d’améliorer la précision du résultat : θ̂∗∗ = a∗∗ θ̂1 + (1 − a∗∗ )θ̂2 . D’après l’indépendance montrée pour la question précédente, il vient : V ar(θ̂∗∗ ) = a2∗∗ V ar(θ̂1 ) + (1 − a∗∗ )2 V ar(θ̂2 ) Minimisons cette variance par rapport à a en annulant ∂V ar(θ̂∗∗ ) ∂a a=a : ∗∗ ∂V ar(θ̂∗∗ ) ∂a = 2a∗∗ ·V ar(θ̂1 )−2(1−a∗∗ )·V ar(θ̂2 ) = 0 ⇐⇒ a∗∗ = a=a∗∗ Or, V ar(θ̂1 ) = σ12 n1 et V ar(θ̂2 ) = σ22 n2 . V ar(θ̂2 ) V ar(θ̂1 ) + V ar(θ̂2 ) On suppose σ12 = σ22 = σ 2 donc a∗∗ = n2 . n1 + n2 Le poids à accorder à la première estimation est donc a∗∗ = 0, 02 et celui à accorder à la seconde 1−a∗∗ = 0, 98. Il est logique d’accorder davantage de poids à la seconde estimation qui est plus précise. En appliquant ces pondérations, on obtient V ar(θ̂∗∗ ) = 290, 6. La précision est donc améliorée par rapport à Q3 mais aussi par rapport à l’échantillon 2 seul. On peut, à titre indicatif, appliquer ces pondérations pour calculer la nouvelle moyenne empirique des deux échantillons réunis : θ̂∗∗ = a∗∗ θ̂1 + (1 − a∗∗ )θ̂2 = 0, 02 · 493 + 0, 98 · 550 = 549. + Q4 Montrez comment on peut retrouver ce résultat par la méthode du maximum de vraisemblance (idée : calculez l’estimateur à partir de l’échantillon complet qui regroupe les deux échantillons initiaux et exprimez l’estimateur obtenu en fonction de ceux calculés à partir de chaque sous-échantillon). A quelle(s) condition(s) avez-vous le droit de procéder à une telle procédure de “ regroupement ” des observations des deux échantillons ? . Corrigé: En décomposant, on obtient la fonction de log-vraisemblance : n1 n2 n1 n1 1 X n2 1 X 2 2 n2 2 log[L(.)] = − log(2Π)− log(σ )− 2 (yi −m) − log(2Π)− log(σ )− 2 (yj −m)2 2 2 2σ 2 2 2σ i=1 j=1 La condition du premier ordre s’écrit donc : n1 X (yi − m) + i=1 n1 X yi − n1 m + i=1 n1 n1 1 X yi n1 ! i=1 n2 X (yj − m) = 0 j=1 n 2 X yj − n2 m = 0 j=1 nj X 1 − n1 m + n2 yj − n 2 m = 0 n2 j=1 m(n1 + n2 ) = n1 θ̂1 + n2 θ̂2 ⇐⇒ m̂ = n2 n1 θ̂1 + θ̂2 . n1 + n2 n1 + n2 On peut combiner des estimateurs comme nous l’avons fait ici si les deux échantillons ont la même espérance, la même variance et sont indépendants. + Q5 Construisez un intervalle de confiance à 95% pour le loyer moyen à partir des deux échantillons initiaux (avec n=6 pour l’un et n=300 pour l’autre) ainsi qu’à partir de l’échantillon complet regroupant les deux. Qu’observez-vous ? Corrigé: Méthode générale On choisit ici α = 0, 05 Soit ȳ notre estimateur du loyer moyen m. 1 − α = P [ȳ − a < m < ȳ + a] ⇐⇒ 1 − α = P [−a < ȳ − m < a]. On va maintenant utiliser l’estimation de l’écart type de ȳ pour réduire la variable aléatoire : −a ȳ − m a √ < √ ] ⇐⇒ 1 − α = P [ √ < σ/ n σ/ n σ/ n √ Avec σ/ n l’écart-type de l’estimation du loyer moyen. Comme on suppose que le loyer moyen suit une loi Normale, on sait que la variable ȳ−m √ suit une loi Normale centrée réduite. σ/ n Si on connait σ, on introduit alors Φ(.) la fonction de répartition de la loi Normale centrée réduite et ⇐⇒ 1 − α = Φ( a −a a √ ) − Φ( √ ) = 2Φ( √ ) − 1 σ/ n σ/ n σ/ n Connaissant α, n et σ (ou au moins un estimateur de σ), on va chercher a qui satisfasse l’expression précédente. Échantillon 1 Ici, n1 = 6 est trop petit pour utiliser l’approximation normale, on utilise donc la loi de Student à n − 1 degrés de liberté. Soit FT (k) (.)la fonction de répartition de la loi de Student à k degrés de liberté. √ On a pour le premier échantillon, ȳ = 493 et σȳ = 5 844 ≈ 76. 0, 95 = 2 ∗ FT (5) ( a a 1, 95 ) − 1 ⇐⇒ FT (5) ( ) = = 0, 975 76 76 2 En cherchant 0,975 dans la table de la loi de Student à 5 degrés de liberté, on en déduit : a = 2, 571 ⇐⇒ a = 2, 571 ∗ 76 = 195, 4 76 D’où l’intervalle suivant obtenu à partir de l’echantillon 1 : 0, 95 = P [297, 6 < m < 688, 4] , ce qui signifie que la moyenne des loyers est compris avec 95% de certitude dans cet intervalle. √ Échantillon 2 Pour le second échantillon, on a n2 = 300 , ȳ = 550 et σȳ = 300 ≈ a 17. On peut cette fois utiliser l’approximation normale, Φ( 17 ) = 0, 975. En lisant dans la table de la loi Normale centrée réduite, on en déduit : a = 1, 96 ⇐⇒ a = 1, 96 ∗ 17 = 33, 32 17 D’où l’intervalle suivant obtenu à partir de l’échantillon 2 : 0, 95 = P [516, 68 < m < 583, 32] Ce résultat illustre le fait qu’en prenant davantage d’observations on a accru la précision de l’estimation. Plus le nombre d’obsrevations est important, plus on se rapproche de la vraie valeur du paramètre à estimer. + Q6 Même question en supposant que vous connaissez la vraie valeur de la variance des loyers et que celle-ci est égale à la valeur estimée de la variance utilisée dans la question précédente. Qu’observez vous ? Corrigé: Si l’on considère que l’on connaı̂t réellement la variance, alors le raisonnement ne change pas pour le second échantillon, par contre on sait maintenant que l’estimateur du loyer moyen calculé à partir du premier échantillon suit bien une loi a Normale. On en déduit : Φ( 76 ) = 1,95 2 = 0, 975. D’où : a = 1, 96 ⇐⇒ a = 1, 96 ∗ 76 = 148, 96 76 Il vient alors : 0, 95 = P [344, 04 < m < 641, 96] En supposant qu’on connaisse la variance de l’échantillon, on a réduit l’intervalle de confiance, la précision est donc plus importante pour un échantillon de petite taille. En revanche, pour le second échantillon, de taille plus importante, il n’y a aucune modification. Ceci vient du fait que l’estimation est convergente : pour un grand échantillon, il est équivalent de disposer de la vraie valeur ou d’une estimation de cette valeur.