Introduction à la Statistique et à l’Économétrie 2013 Exercices Série 1 Exercice 1 On transmet un signal périodique f (t), t ∈ [0, T ] échantillonné à une certaine fréquence N . Chaque donnée f (k/N ), k = 1, . . . , N T , est corrompue lors de la transmission par une erreur ek , de sorte que l’on capte Yk = f (k/N ) + ek , k = 1, . . . , N T. On a n = N T observations. On postule que les erreurs sont indépendantes les unes des autres, identiquement distribuées, nulles en moyenne, et de variance finie. On suppose pour simplifier que la loi des ek admet une densité b connue par rapport à la mesure de Lebesgue. Le paramètre inconnu est le signal f pris dans un ensemble de signaux F. 1. Décrire le modèle statistique engendré par cette observation. 2. Montrer que le modèle statistique engendré par cette observation est dominé et exhiber sa vraisemblance. Exercice 2 On cherche – en laboratoire – à tester la fiabilité d’un appareil industriel. On fait fonctionner en parallèle n appareils jusqu’à ce qu’ils tombent tous en panne. On note X1 , . . . , Xn les instants de panne observés. On dispose donc de n observations. On suppose que les temps de panne suivent une loi exponentielle de paramètre λ > 0. 1. Décrire l’observation associée à cette expérience et le modèle statistique engendré par cette observation. 2. Montrer que le modèle statistique engendré par cette observation est identifiable, dominé et exhiber sa vraisemblance. 3. Si les appareils sont fiables, ce qui est réaliste en pratique, la quantité maxi=1,...,n Xi sera souvent hors d’atteinte pour le statisticien. On stoppe l’expérience après un temps terminal T et on observe plutôt Xi? = min{Xi , T }, i = 1, . . . n. Reprendre les deux questions précédentes dans ce contexte. Exercice 3 (Modèle probit et contre-exemple à l’identifiabilité) Nous disposons d’une information relative au comportement de remboursement ou de nonremboursement d’emprunteurs : 1 si l’emprunteur rembourse Y = 0 si l’emprunteur est défaillant Afin de modéliser ce phénomène, on suppose l’existence d’une variable aléatoire Y ? gaussienne, d’espérance m et de variance σ 2 , que l’on appellera « capacité de remboursement de l’individu » de sorte que : 1 si Y ? > 0 Y = 0 si Y ? ≤ 0 1 On note Φ la fonction de répartition de la normale centrée réduite N (0, 1). 1. Exprimer la loi de Y en fonction de Φ. 2. On observe un n-échantillon (Y1 , . . . , Yn ) de même loi que Y . Ecrire le modèle statistique engendré par l’observation (Y1 , . . . , Yn ). Est-il identifiable ? Exercice 4 Soit ε1 , . . . , ε4 quatre variables aléatoires indépendantes de loi N (0, 1). On suppose que l’on observe Y1 = µ1 + σε1 , Y3 = µ2 + σε3 , σ Y2 = µ2 + √ ε2 , 3 σ Y4 = µ3 + √ ε4 , 2 oùσ > 0 est connu. Ecrire la représentation linéaire du modèle, c’est-à-dire écrire l’observation sous la forme Xθ + σε, oùε ∼ N (0, IR4 ) et X est une matrice – la matrice explicative – que l’on déterminera. 1. Etudier l’estimateur µ̂2 := 21 (Y2 + Y3 ). 2. Comparer µ̂2 à la famille d’estimateurs (α) µ̂2 := αY2 + (1 − α)Y3 , 0 ≤ α ≤ 1. Exercice 5 (Loi normale et estimation de la variance) Soient X1 , . . . , Xn des échantillons i.i.d. de loi N (µ, σ 2 ) avec µ ∈ R et σ 2 ∈ R+ 1. Déterminer la fonction de vraisemblance associée à cette expérience. c2 ) du maximum de vraisemblance de (µ, σ 2 ). 2. Calculer l’estimateur (b µ, σ c2 ? En déduitre qu’il existe γn indépendant de µ et σ 2 tel que 3. Quelle est le biais de σ f c 2 2 σ = γn σ soit sans biais. 4. Comparer ces deux estimateurs en terme de risque quadratique. Exercice 6 (Théorème de Slutsky) Soient (Xn ), (Yn ) deux suites de variables aléatoires vectorielles, X et Y des variables aléatoires vectorielles, telles que 1. (Xn ) converge en loi vers X 2. (Yn ) converge en probabilité vers Y 3. Y est indépendante de (Xn ) et X. Montrer que le couple (Xn , Yn ) converge en loi vers (X, Y ). 2 Introduction à la Statistique et à l’Économétrie 2013 Exercices Série 2 Exercice 7 (Maximum de vraisemblance et loi uniforme) On observe X1 , · · · , Xn indépendantes et de même loi uniforme sur [0, b] où b > 0 est le paramètre d’intérêt. On note µ l’espérance commune des Xi . 1. Ecrire le modèle statistique associé et calculer sa vraisemblance L(b, X1 , . . . , Xn ). 2. Déterminer l’estimateur bb1 du maximum de vraisemblance de b (c’est-à-dire la quantité bb1 = bb1 (X1 , . . . , Xn ) qui maximise la fonction b L(b, X1 , . . . , Xn ). 3. Déterminer bb2 l’estimateur par méthode des moments de b, en se basant que le premier moment. 4. On opère un changement de paramètre : désormais, le paramètre d’intérêt est µ. Déterminer µ b1 , l’estimateur du maximum de vraisemblance pour le paramètre µ. (On écrira au préalable la vraisemblance du n-échantillon pour le paramètre µ). 5. Exprimer µ b2 , l’estimateur plug-in de µ, obtenu par méthode de moment. 6. Calculer le risque quadratique de µ b2 . 7. Etudier le risque quadratique de µ b1 . 8. Comparer les estimateurs µ b1 et µ b2 : lequel est préférable ? Exercice 8 (Marqueur d’une infection) N agents infectieux agressent simultanément un organisme, lequel est muni de Q agents de défense. La réponse immunitaire est modélisée de la façon suivante : chaque agent de défense choisit au hasard un agent infectieux (et un seul) parmi les N agresseurs, indépendamment des autres défenseurs. Un agent de défense a une probabilité ϑ ∈ (0, 1) d’annihiler l’agent infectieux choisi pour cible Pour que l’organisme soit infecté, il suffit qu’un seul agent infectieux ait échappé au système de défense de l’organisme. 1. Montrer que la probabilité qu’un agent infectieux donné contamine l’organisme est ϑ Q pQ,N (ϑ) = 1 − . N On répète en laboratoire n scénarios indépendants d’aggression de l’organisme. Dans chaque expérience, on marque un agent infectieux donné. Pour l’expérience i, on note Xi = 1 si l’agent infectieux a contaminé l’organisme et 0 sinon. 2. On considère l’observation de (X1 , . . . , Xn ), où ϑ est le paramètre inconnu et Q et N sont connus. Montrer que la vraisemblance s’écrit Pn n−Pn Xi Xi i=1 i=1 ϑ pQ,N (ϑ) 1 − pQ,N (ϑ) . 3. Montrer que l’estimateur du maximum de vraisemblance de ϑ est bien défini, qu’il est asymptotiquement normal et calculer sa variance limite. (On pourra commencer par montrer que c’est le cas pour l’estimateur de pQ,N (ϑ).) 3 4. En déduire un intervalle de confiance asymptotiquement de niveau α ∈ (0, 1) pour ϑ. On suppose désormais les paramètres N et Q inconnus, et on se place dans la limite N ≈ +∞ en supposant Q = QN ∼ κN pour un κ > 0 (donc inconnu). 5. En passant à la limite en N dans le modèle précédent, montrer que l’observation de (X1 , . . . , Xn ) permet d’estimer le paramètre ϑe = κϑ et calculer l’estimateur du maximum e de vraisemblance de ϑ. Exercice 9 (Régression (introduction)) Une quantité aléatoire Y est en relation avec une quantité fixée x selon le modèle Y = a + bx + ξ où a et b sont deux nombre réels inconnus et ξ est une variable aléatoire réelle, centrée de variance σ 2 (inconnue). On observe n fois de manière indépendante et dans les mêmes conditions expérimentales (c’est-à-dire supposées non-évolutives selon l’indice i) des réalisation du même phénomène (Yi = a + bxi + ξi , xi ) pour i = 1, · · · , n pour des conditions xi fixées. 1. Décrire le modèle statistique, de manière matricielle, en précisant lorsque c’est possible les espérances et les matrices de covariance de chacun des vecteurs aléatoires ainsi exprimés. Préciser si le modèle est paramétrique, semi-paramétrique ou non-paramétrique. 2. On supposera dans la suite que les ξi sont gaussiennes (donc centrées et de varaince σ 2 ). 3. Déterminer la vraisemblance de l’échantillon pour le paramètre ϑ = (a, b, σ 2 ). c2 du maximum de vraisemblance du modèle. 4. Calculer les estimateurs b a, bb, σ 5. Ces estimateurs sont-ils sans biais ? 6. Ces estimateurs sont-ils consistants ? Exercice 10 (Mélange 1) On observe les variables aléatoires Y1 , . . . , Yn avec : (1) Yi = δi Zi (2) + (1 − δi )Zi (1) où les δi sont connus, fixes et appartiennent à {0, 1}, les Zij sont tous indépendants et on a : (1) Zi (2) ∼ N (µ1 , 1) Zi ∼ N (µ2 , 1) 1. Calculer l’espérance et la variance de Yi . Quelle est sa loi ? 2. Ecrire le modèle sous la forme d’un modèle linéaire, dans lequel on précisera la matrice M , les paramètres β et σ 2 . 3. Sous quelles conditions ce modèle est-il identifiable ? En déduire dans ce cas une estimation de β. 4. Proposer un intervalle de confiance de niveau α ∈]0, 1[ pour la quantité δ(θ) = µ1 − µ2 . 4 Introduction à la Statistique et à l’Économétrie 2013 Exercices Série 3 Exercice 11 Soit X un vecteur gaussien sur Rd centré, de matrice de covariance inversible K. Quelle est la loi de d X (K −1 )ij Xi Xj ? i,j=1 (Indication : on pourra traiter d’abord le cas où K est diagonale.) Exercice 12 On considère le modèle de régression linéaire Yi = b0 + b1 xi + εi , i = 1, . . . , n où les εi sont des variables aléatoires indépendantes N (0, σ 2 ). b0 , b1 et σ 2 sont inconnus. 1. Quels sont les estimateurs des moindres carrés ordinaires b̂0 , b̂1 et σ̂ 2 de ces paramètres ? Quelle est la loi du couple ((b̂0 , b̂1 ), σ̂ 2 ) ? 2. On dispose d’une observation y0 sur une unité statistique pour laquelle la valeur de x0 de la variable explicative est inconnue et on cherche un intervalle de confiance pour x0 . On suppose que y0 est l’observation d’une variable Y0 s’écrivant Y0 = b0 + b1 x0 + η, où η est une variable al’eatoire N (0, σ 2 ) indépendante du vecteur (ε1 , . . . , εn ). (a) Quelle est la loi de Y0 − b̂0 − b̂1 x0 ? (b) En utilisant l’estimateur σ̂ de σ, déterminer un intervalle de confiance I1 de niveau α pour x0 . 3. On dispose maintenant de m observations y01 , . . . , y0m correspondant à la valeur x0 inconnue ; ce sont des observations de m variables aléatoires telles que Y0j = b0 + b1 x0 + ηj , où (η1 , . . . , ηm ) et (ε1 , . . . , εn ) sont indépendantes, et ηj suit la loi N (0, σ 2 ). (a) Montrer que σ̃ 2 = où Y¯0 = 1 m Pm j=1 (n − 2)σ̂ 2 + Pm j=1 (Y0j n+m−3 − Y¯0 )2 , Y0j , est un autre estimateur sans biais de σ 2 . Quelle est sa loi ? (b) Quelle est la loi de Y¯0 − b̂0 − b̂1 x0 ? (c) A l’aide de σ̃ 2 et de Y¯0 donner un intervalle de confiance I2 pour x0 de niveau α. (d) Aurait-on pu construire un intervalle de confiance I3 pour x0 à l’aide de σ̂ 2 et de Y¯0 ? 5 Exercice 13 (Test d’appartenance à un sous-espace linéaire.) On traitera ce problème sur un exemple. On considère le modèle linéaire gaussien Yi = β0 + β1 Xi + σi , i = 1, . . . , n avec les notations habituelles. Le paramètre inconnu est β = (β0 , β1 ). Vectoriellement, le modèle s’ écrit Y = Xβ + σ, avec des notations évidentes. On veut tester l’hypothèse β1 = 0, ce qui s’écrit β ∈ V1 = {Xβ, Cβ = 0} où C = (0 1) . Alors, si V = vect{Xt, t ∈ R2 }, en définissant W1 par la relation V = V1 ⊕ W1 , sous l’hypothèse, la statistique Tn = kPW1 Y k2 l kPQ Y k2 n−p est distribuée selon une loi de Fisher à (l, n − p) degrés de liberté ; Q := I − PV et PZ désigne la projection orthogonale sur Z lorsque cela a un sens. Ici, l’indice p − l désigne la dimension de V1 qui est aussi la dimension du noyau de C et l le rang de la matrice C. 1. Calculer β̂ par la méthode des moindres carrés. En utilisant le fait que PW1 = (PV −PV1 )Y = X β̂ − PV1 Y , calculer la statistique Tn . 2. Construire un test de l’hypothèse β1 = 0 dont l’erreur de première espèce soit inférieure à un niveau de risque α donné. Exercice 14 (Modèle de régression et variance inhomogène) On observe la variable aléatoire Z = (X, Y ) définie par X Y = µ1 µ2 +σ 1 2 , où (1 , 2 ) est un vecteur gaussien centré de matrice de covariance K = 2 1 1 2 . Le paramètre inconnu est µ = (µ1 , µ2 ) et σ > 0 est connu. 1. Décrire le modèle statistique associé à l’observation Z. Est-il identifiable, dominé ? Si oui, préciser. 2 2 2. Montrer qu’il existe une transformation linéaire A de R dans R telle que AZ soit un µ1 vecteur gaussien de moyenne A et de matrice de covariance l’identité sur R2 . Ecrire µ2 le modèle linéaire correspondant à l’observation de AZ. 3. Calculer l’estimateur des moindres carrés pour µ. Exercice 15 (Student ?) Une usine produit des paquets de 500g de farine. Elle utilise pour cela une machine précise à 10g près. La direction des fraudes suspecte le fabricant de systématiquement sous remplir les paquets de quelques grammes. Elle teste son hypothèse en pesant 100 paquets : le résultat est un poids moyen de 497g. 1. Que penser de l’approche ? 6 2. Comment modéliser ce problème ? 3. On suppose que la machine est “gaussienne” : elle remplit les paquets selon une loi gaussien de moyenne spécifiée et d’écart type connu. Comment choisir cet écart type pour qu’il corresponde à celui du cas “uniforme” ? Qu’en conclure ? 4. Que devient cette réponse si l’on suppose la machine “uniforme” ? On pourra utiliser le théorèmePde Berry-Essen qui dit que si X1 , . . . , Xn sont iid de moyenne µ, de variance σ 2 n et Sn = i=1 Xi , alors Sn − nµ C E{|X1 − µ|3 } √ , sup P ≤ x − Φ(x) ≤ √ σ3 σ n n x Rx 2 et C est une constante absolue, inférieure à 0.8. où Φ(x) = −∞ e−u /2 √du 2π Exercice 16 (Tests gaussiens) On observe un n-échantillon de variables aléatoires gaussiennes, de moyenne inconnue m et de variance connue σ 2 . 1. Soient m0 , m1 ∈ R tels que m0 6= m1 . Construire un test d’hypothèse T = Tn (α) de niveau de confiance 1 − α ∈ (0, 1) de l’hypothèse : H0 : “m = m0 ” contre l’alternative H1 : “m = m1 .” 2. Calculer l’erreur de seconde espèce de ce test. Quelle est l’erreur (de seconde espèce) minimale parmi les tests de niveau 1 − α ? 3. Soit β ∈]0, 1[. Déterminer c0 > 0 de sorte que l’on puisse construire un test d’hypothèse T = Tn (α, β) de niveau de confiance 1 − α ∈ (0, 1) de l’hypothèse H0 : “m = m0 ” contre l’alternative H1 : “|m − m0 | ≥ c0 ”, dont l’erreur de seconde espèce soit inférieure ou égale à β. On autorise désormais c0 à dépendre de n, de α et de β. On appelle vitesse de la famille de tests {Tn (α, β), α, β ∈ (0, 1)} toute suite c0 = c0 (n) → 0 quand n → ∞ telle que pour tout α, β ∈ (0, 1) : n lim sup Pm {Tn (α, β) = 1} ≤ α, 0 n→∞ lim sup sup n→∞ m : |m−m0 |≥c0 (n) n Pm {Tn (α, β) = 0} ≤ β. 4. Quelle vitesse maximale (i.e. qui tend le plus vite vers 0) pouvez-vous obtenir dans ce problème ? Le résultat est-il surprenant ? 5. Reprendre les questions ci-dessus lorsque σ est inconnu. Exercice 17 (Test d’appartenance à un sous-espace affine) On considère le modèle linéaire gaussien X = M β + σE avec les notations habituelles. Les paramètres inconnus sont β ∈ Rp et σ 2 > 0. M est une matrice n × p de rang p et on suppose aussi que p < n. On notera β̂ et σ̂ 2 les estimateurs des moindres carrés. On se donne β0 ∈ Rp et un sous-espace vectoriel F de Rp tel que 0 < dim F < p. On veut faire le test de l’hypothèse nulle H0 : β ∈ β0 + F contre H1 : β ∈ / β0 + F . 7 1. En notant projG la projection orthogonale sur un sous-espace affine G, on définit la statistique 2 (p − dim F ) M β̂ − projM (β0 +F ) (X) T = . σ̂ 2 Montrer que sous H0 la statistique T suit une loi de Fisher de paramètre (p − dim F, n − p). En déduire la construction d’un test de niveau α. 2. Dans le cas où F est un hyperplan montrer que si u 6= 0 et est orthogonal à F on a T = 2 u∗ (β̂ − β0 ) σ̂ 2 u∗ (M ∗ M )−1 u . 3. On considère deux échantillons gaussiens indépendants (X1 , . . . , xn ) et (Y1 , . . . , Ym ) tels que Xi ∼ N (µ1 , σ 2 ) et Yi ∼ N (µ2 , σ 2 ). Mettre en place le test de µ1 = µ2 . 4. Mettre en place le test de l’égalité des moyennes de trois échantillons gaussiens indépendants et de même variance. Exercice 18 (Analyse de la variance) (ANOVA) On souhaite tester, pour une chaîne de magasins, les politiques de publicité suivantes : A B C aucune publicité tracts distribués dans le voisinage tracts distribués et annonces dans les journaux On sélectionne 18 magasins divisés au hasard en 3 groupes de 6, et chaque groupe applique l’une des politiques de publicité. On enregistre ensuite les ventes cumulées sur un mois pour chaque magasin, et l’on obtient les moyennes et écart-types empiriques suivants (en milliers d’euros) : X̄ S A 130.17 8.57 B 139.5 14.71 C 169.17 18.23 où, par exemple, pour le groupe A d’effectif nA , nA nA X 2 1 X 1 X̄A = XA,j et SA = XA,j − X̄A nA j=1 nA − 1 j=1 On suppose que les observations pour chaque groupe sont gaussiennes, de moyennes mA , mB et mC , et de même variance σ 2 . 1. Quelle est l’estimateur naturel de σ 2 ? 2. Proposer un test de niveau 5% pour l’hypothèse nulle H0 = {il n’existe aucune différence entre les politiques de publicité} 3. Tester l’hypothèse {mA = mC } contre {mA < mC } au niveau 5%. Quelle est la p-valeur du test ? 8 Introduction à la Statistique et à l’Économétrie 2013 TP Série 1 Exercice 1 (Modèle de Bernoulli) Soit (X1 , ..., Xn ) un n-échantillon de loi de Bernouilli de paramètre ϑ. 1. Analyse théorique : (a) Calculer l’estimateur du maximum de vraisemblance ϑbn . (b) Montrer qu’il s’agit d’un estimateur non biaisé qui converge vers ϑ. On précisera bein en quels sens. (c) Montrer que √ n(ϑbn − ϑ) −→ N 0, ϑ(1 − ϑ) en loi lorsque n → ∞ (d) En déduire que √ n q (ϑbn − ϑ) −→ N (0, 1) b − ϑ) b ϑ(1 (e) Proposer des intervalles de confiance asymptotiques basés sur le TCL et non asymptotiques basés sur l’inégalité de Chernof pour ϑ. 2. Illustration numérique de la convergence : (a) Implémenter un algorithme permettant de simuler un n-échantillon de variables de Bernoulli de paramètre ϑ. (b) Implémenter l’estimateur du maximum de vraisemblance pour un n-échnatillon. (c) Tracer un histogrammes des estimées obtenues en répétant N fois l’expérience (on pourra choisir N = 500). (d) Comparer ces histogrammes à leurs lois limites pour différentes valeurs de n et ϑ (On pourra prendre n = 10, 100, 1000 et ϑ = .5, .1, .001) Qu’observe-t-on ? (e) Comment illustrer la convergence quadratique et la convergence en probabilité ? (f) Simuler un n0 -échantillon avec n0 grand (par exemple n0 = 105 ) et calculer toutes les estimées ϑbn pour les n-échantillons correspondant aux n premières réalisations pour n <= n0 . Comment évolue ϑbn en fonction de n ? Quelle convergence observe-t-on ? 3. Intervalle de confiance numérique : (a) Implémenter un algorithme donnant les intervalles de confiances asymptotiques et non asymptotiques pour un niveau 1 − α donné (on pourra prendre α = .05) (b) On souhaite estimer le niveau réel de nos intervalles de confiances. Pour cela, on répète N fois l’expérience et on estime la probabilité que ϑ soit dans l’intervalle par sa proportion empirique. Justifier cette approche et évaluer numériquement le niveau pour différentes valeurs de n et ϑ. Qu’observe-t-on ? Exercice 2 (Loi uniforme) Soit (X1 , . . . , Xn ) un n-échantillon de loi uniforme sur [0, θ] avec θ > 0. 9 1. Analyse théorique : (a) Déterminer l’estimateur θbn du maximum de vraisemblance de θ. (b) Montrer que 0 n o b P θn < t ≤ (t/θ)n 1 si t < 0 si 0 ≤ t ≤ θ si t > θ (c) En déduire que n o P n(θ − θbn ) > λθ → e−λ (d) Comment interprétez ce résultat en terme de convergence en loi ? (e) Déterminer un intervalle de confiance asymptotique à l’aide de cette convergence en loi et proposer éventuellement un intervalle non asymptotique. 2. Illustration numérique : (a) Simulez un n-échantillon de loi uniforme sur [0, θ] et calculer l’estimateur de maximum de vraisemblance correspondant. (b) En répétant N fois l’expérience, déterminer le comportement empirique de l’estimateur pour différentes valeurs de n. (c) Comment illustrer la convergence en loi obtenue dans l’analyse théorique. (d) Vérifier la validité des intervalles de confiance proposés dans l’analyse théorique. 10