ECE 2 - Mathématiques Mr Dunstetter - ENC-Bessières 2014\2015 Estimation ponctuelle Chapitre 11 Estimation ponctuelle I Introduction Dans tout ce chapitre, on se place dans la situation suivante : On considère une expérience aléatoire et une variable aléatoire réelle X associée, dont on ne connaît pas complètement la loi. Plus précisément, on sait que la loi PX de X appartient à une famille (Pθ )θ∈R de lois, dépendant d'un paramètre θ. Exemple : loi binomiale B(n, p) avec p inconnu, loi de Poisson P(λ) avec λ inconnu, etc. . . Le but est de déterminer, par l'étude d'expériences répétées, la valeur de θ. Exemple fondamental : le sondage. Dans une population, un certain caractère est présent dans une proportion p, que l'on veut déterminer. On pose l'expérience aléatoire suivante : on choisit une personne au hasard, et on vérie si elle a le paramètre ou non. ( 0 si elle n'a pas le caractère. On pose alors X = . 1 si elle l'a. Alors X ,→ B(p) ; le sondage est une estimation du paramètre p d'une loi de Bernouilli. II Quelques propriétés sur les variables aléatoires quelconques Ce chapitre de probabilités/statistiques est le premier de l'année visant à donner une application pratique "avancée" des probabilités. Les variables aléatoires rencontrées pouvant être, comme dans la pratique, aussi bien discrètes qu'à densité (et même un peu des deux même si ce n'est pas au programme), nous allons généraliser quelques propriétés vues et démontrées sur les variables discrètes au cas de variables quelconques : 1 Indépendance Dénition 1 Deux variables aléatoires réelles quelconques X et Y sont dites indépendantes si pour tous intervalles I et J de R, on a : P ([X ∈ I] ∩ [Y ∈ J]) = P (X ∈ I)P (Y ∈ J) Généralisation : Une suite (Xn )n∈N de variables aléatoires quelconques sont dites indépendantes si pour tout sous-ensemble A = {i1 ; . . . ; in } ⊂ N ni et tous intervalles I1 , . . . , In de R, on a : P n \ k=1 ! Xik ∈ Ik = n Y P (Xik ∈ Ik ). k=1 1 ECE 2 - Mathématiques Mr Dunstetter - ENC-Bessières 2014\2015 Estimation ponctuelle Remarque On ne demandera jamais de démontrer l'indépendance de variables aléatoires quelconques : on se contentera de l'utiliser lorsque l'énoncé a précisé l'indépendance, ou de prouver la non indépendance en mettant en défaut la dénition avec un contre-exemple, ou bien les propriétés de nullité de la covariance ou de la valeur de la variance de la somme. Propriété 1 : Lemme des coalitions. Soient (X1 , X2 , . . . , Xn ) des variables aléatoires indépendantes. Alors toute variable aléatoire fonction des variables X1 , . . . Xp est indépendante de toute variable aléatoire fonction des variables Xp+1 , . . . , Xn . Remarque De même si (X1 , X2 , X3 , X4 , X5 , X6 ) sont indépendantes, les variables Y1 = X1 +X4 , Y2 = X2 +X5 et Y3 = X3 +X6 sont indépendantes. Nous n'écrirons pas de formule générale regroupant tous les cas d'applications de ce type, mais il ne faut pas hésiter à utiliser le lemme des coalitions à chaque fois qu'on reconnaît une situation intuitive d'indépendance. 2 Espérance Propriété 2 : Linéarité de l'espérance. Soit X une variable aléatoire réelle quelconque admettant une espérance et λ un réel. Alors la variable aléatoire λX admet une espérance et : E(λX) = λE(X). Soient X1 , . . . , Xn des variables aléatoires quelconques, admettant toutes une espérance. Alors la van P riable aléatoire Xi admet une espérance et : i=1 E n X i=1 ! Xi = n X E(Xi ). i=1 Propriété 3 : Croissance de l'espérance. Soient X et Y deux variables aléatoires réelles quelconques admettant une espérance, telles que X ≤ Y . Alors : E(X) ≤ E(Y ). Propriété 4 : Espérance d'un produit de variables indépendantes. Soient X et Y deux variables aléatoires réelles quelconques, indépendantes et admettant une espérance. Alors la variable aléatoire XY admet une espérance et de plus : E(XY ) = E(X)E(Y ). 3 Variance Propriété 5 : Variance d'une somme de variables indépendantes. Soient X et Y deux variables aléatoires réelles quelconques, indépendantes et admettant une variance. Alors la variable aléatoire X + Y admet une espérance et de plus : V (X + Y ) = V (X) + V (Y ). Remarque Bien entendu, cette propriété se généralise comme dans le cas discret au cas de la somme de n variables aléatoires quelconques indépendantes et admettant une variance. 2 ECE 2 - Mathématiques Mr Dunstetter - ENC-Bessières 2014\2015 III 1 Estimation ponctuelle Estimation ponctuelle Echantillon Dénition 2 On se place dans les conditions énoncées dans l'introduction. Un n-échantillon de la loi PX de X est une suite de n réalisations de la loi de X , observées en réalisant l'expérience. Les variables aléatoires associées, toutes identiquement distribuées (de même loi que X ) et indépendantes, sont notées X1 , . . . , Xn . Leurs réalisations eectives (c'est-à-dire les valeurs obtenues en réalisant l'expérience) sont elles notées x1 , . . . , xn . 2 Estimateur a) Dénition Dénition 3 Un estimateur de θ est une variable aléatoire de la forme Tn = ϕ(X1 , X2 , . . . , Xn ), où ϕ est une fonction qui ne dépend pas de θ (mais qui peut dépendre de n). La réalisation tn = ϕ(x1 , . . . , xn ) de Tn pour une expérience est appelée estimation de θ et ne dépend que de l'échantillon (x1 , . . . , xn ) observé. Remarques 1. Une variable Tn peut donc être appelée estimateur de θ même si elle donne des valeurs très éloignées de θ. Pour qu'un estimateur donne bien une estimation cohérente du paramètre θ, on va dénir certains indicateurs permettant de s'assurer que Tn est assez proche de θ, et de comparer la qualité de plusieurs estimateurs. 2. Dans la quasi-totalité des cas, un estimateur Tn dépend de n (le nombre d'expériences réalisées) qui est quelconque dans N∗ (on doit faire au moins une expérience). On peut alors considérer la suite d'estimateurs (Tn )n≥1 et éventuellement regarder son comportement lorsque n est grand : l'estimateur doit être de plus en plus précis quand le nombre d'expériences n augmente et si possible devenir inniment précis à l'inni (qui ne sera jamais réalisé dans la pratique, mais c'est un gage de cohérence de notre estimateur). b) Biais Dénition 4 On appelle biais de Tn la quantité, lorsqu'elle existe, bθ (Tn ) = E(Tn ) − θ. Cela correspond à l'écart entre l'espérance de (Tn ) (qui est censé estimer θ !) et la valeur de θ elle-même. Lorsque bθ (Tn ) = 0, ce qui équivaut à E(Tn ) = θ (qui est bien sûr souhaitable), on dit que Tn est un estimateur sans biais de θ. Lorsque le biais de Tn tend vers 0 lorsque n tend vers +∞ (condition moins forte mais qui assure aussi que l'estimateur est centré autour de θ), on dit que Tn est asymptotiquement sans biais. c) Risque quadratique Dénition 5 On appelle risque quadratique de Tn la quantité, lorsqu'elle existe, Rθ (Tn ) = V (Tn − θ)2 . C'est la moyenne des carrés des écarts de Tn (qui estime θ) à θ. Propriété 6 : Décomposition biais-variance du risque quadratique. Soit Tn un estimateur admettant une variance. Alors Tn admet un risque quadratique et on a : 2 Rθ (Tn ) = bθ (Tn ) + V (Tn ) 3 ECE 2 - Mathématiques Mr Dunstetter - ENC-Bessières 2014\2015 Estimation ponctuelle Preuve Tn : = E (Tn − θ)2 = E ([Tn − E(Tn )] + [E(Tn ) − θ])2 2 2 = E [Tn − E(Tn )] + [E(Tn ) − θ] + 2[Tn − E(Tn )][E(Tn ) − θ] 2 = E V (Tn ) + [bθ (Tn )] + 2bθ (Tn )[Tn − E(Tn )] = V (Tn ) + [bθ (Tn )]2 + 2bθ (Tn )E [Tn − E(Tn )] = V (Tn ) + [bθ (Tn )]2 + 2bθ (Tn )[E(Tn ) − E(Tn )] = V (Tn ) + [bθ (Tn )]2 . On fait apparaître la variance de Rθ Rθ Rθ Rθ Rθ Rθ On aurait aussi pu développer complètement les expressions du risque quadratique,de la variance et du biais pour montrer l'égalité cherchée. Remarques 1. Le risque quadratique permet de comparer deux estimateurs de θ : celui ayant le plus faible risque quadratique sera plus précis, donc meilleur. 2. Par contre on n'a aucune mesure intrinsèque de la précision d'un estimateur : on peut seulement comparer diérents estimateurs les uns aux autres. C'est ce manque qui sera comblé par l'estimation par intervalle de conance. d) Estimateur convergent Dénition 6 Une suite (Tn )n≥1 d'estimateurs de θ est dite convergente si pour toute valeur deθ xée et pour tout ε > 0 (epsilon) xé on a : lim P |Tn − θ| > ε = 0. n→+∞ Par abus de langage on dit aussi que l'estimateur Tn est convergent. Remarque On ne cherchera pas à donner du sens à cette dénition qui, comme la loi faible des grands nombres qui sera vue dans le chapitre suivant, met en jeu une notion qui n'est pas au programme : la convergence en probabilité d'une suite de variables aléatoires. Nous verrons deux manières de prouver ce résultat : la première consistera à utiliser une des deux propriétés qui sera vue au chapitre suivant et qui permettent de donner une majoration de ce type de probabilités (Inégalité de Markov et inégalité de Bienaymé-Chebychev). La seconde consiste à utiliser la propriété qui suit (et qui est une conséquence de l'inégalité de Markov....) Propriété 7 : Condition susante d'estimateur convergent. Soit (Tn )n≥1 une d'estimateurs de θ telle que pour tout θ xé, lim Rθ (Tn ) = 0. n→+∞ Alors la suite d'estimateurs (Tn )n≥1 est convergente. 4 ECE 2 - Mathématiques Mr Dunstetter - ENC-Bessières 2014\2015 3 Estimation ponctuelle Exemples a) Paramètre p d'une loi de Bernouilli On revient au cas du sondage vu au début. On pose alors : 1 n Tn = n P En eet la variable i=1 variance np(1 − p). n P i=1 Xi est un estimateur sans biais et convergent de p. Xi suit une loi binomiale de paramètres n et p et admet pour espérance np et pour n P − p = n1 × np − p = 0. n P 1 D'autre part Rp (Tn ) = n2 V Xi = np(1−p) = p(1−p) −−−−−→ 0. n2 n D'où bp (Tn ) = E 1 n Xi i=1 n→+∞ i=1 L'estimateur Tn est donc de plus en plus précis quand le nombre d'expériences augmente (ce qui est naturel), et surtout devient aussi précis qu'on le souhaite à condition de faire susamment d'expériences (ce qui est indiqué par la convergence de l'estimateur). b) Paramètre λ d'une loi de Poisson On sait que la somme de deux variables indépendantes suivant des lois de Poisson suit une loi de Poisson. On pose X ,→ P(λ) ; On pose alors : Tn = En eet la variable variance nλ. D'où bλ (Tn ) = E n P i=1 1 n n P i=1 Xi est un estimateur sans biais et convergent de λ. Xi suit une loi de Poisson de paramètre nλ et admet pour espérance nλ et pour n P − λ = n1 × nλ − λ = 0. n P λ 1 −−−−→ 0. D'autre part Rλ (Tn ) = n2 V Xi = nλ n2 = n − 1 n Xi i=1 n→+∞ i=1 L'estimateur Tn est donc de plus en plus précis quand le nombre d'expériences augmente (ce qui est naturel), et surtout devient aussi précis qu'on le souhaite à condition de faire susamment d'expériences (ce qui est indiqué par la convergence de l'estimateur). 4 Généralisation : estimation de l'espérance d'une variable aléatoire réelle Soit X une variable aléatoire admettant une espérance, mais dont on ne sait rien d'autre sur la loi. On souhaite estimer son espérance m : on pose alors sa moyenne empirique : Tn = 1 n n P i=1 Xi est un estimateur sans biais de m. En eet par linéarité de l'espérance on a : bm (Tn ) = E 1 n n P i=1 Xi −m= 1 n n P i=1 E (Xi ) − m = 1 n n P i=1 m−m= 1 n × nm − m = 0. Par contre dans le cas général on ne peut pas préciser le risque quadratique, car il vaut V n(X) 2 , qui dépend de la variance de X qui n'est pas connue (et pourrait même ne pas exister). Cependant on peut remarquer que si X admet une variance, la moyenne empirique est un estimateur convergent de l'espérance. 5 ECE 2 - Mathématiques Mr Dunstetter - ENC-Bessières 2014\2015 IV Estimation ponctuelle Recherche d'un indicateur intrinsèque de la précision d'un estimateur. La notion de risque quadratique permet (à peu près) de comparer deux estimateurs, et surtout de vérier qu'un estimateur n'est pas "hors sujet" : s'il n'est pas convergent, a priori, cela signie qu'il ne se rapproche pas susamment de θ lorsque le nombre d'expériences augmente. S'il est convergent, il est a priori cohérent. Cependant cette notion est beaucoup trop vague, car elle ne permet pas de connaître la précision réelle de notre estimateur pour une taille d'échantillon donnée : or c'est de cela qu'on a besoin dans la pratique, pour savoir, à une certaine précision recherchée, combien il faut faire d'expériences pour l'obtenir. Pour cela on va s'intéresser à la probabilité de s'écarter de θ à un écartement donné α près : P (Tn ∈ [θ − α; θ + α]) = P (θ − α ≤ Tn ≤ θ + α) et se donner un niveau de risque que l'on juge acceptable (en général 5%) : on dira alors que l'estimateur Tn donne une valeur de θ avec une précision α, avec un risque de 5%, si la probabilité écrite ci-dessus est supérieure à 0,95 (ce qui signie bien que la valeur qu'on obtient a la précision souhaitée dans plus de 95% des cas, donc avec un risque d'erreur inférieur à 5%). Le problème est que ce type de probabilité est en général très dicile à calculer : en eet la loi de l'estimateur, qui est une somme de n variables aléatoires, est en général impossible à obtenir (seules son espérance et sa variance, en raison de la linéarité de l'espérance et de la propriété sur la variance d'une somme de variables indépendantes, s'obtiennent facilement), et même quand c'est le cas (loi binomiale ou de Poisson vues précédemment), il est dicile d'en donner une valeur simple (personne ne connaît simplement les valeurs de nk quand n et k sont grands !). L'objet du chapitre suivant sera de donner des moyens, soit de majorer, soit de donner une valeur approchée simple de probabilités s'écrivant sous la forme ci-dessus : les inégalités de Markov et Bienaymé-Chebychev déjà citées, la notion de convergence en loi et le théorème central limite, et enn leur conséquence majeure pour notre cours : l'approximation de variables parfois compliquées par des variables suivant une loi normale pour pouvoir calculer des probabilités. Enn après avoir étudiés ces diérents résultats, le dernier chapitre de probabilités/statistiques étudiera avec des dénitions précises ce qu'on a introduit rapidement ici : l'estimation par intervalle de conance. 6