Chapitre X : ESTIMATION I – Introduction Les statisticiens connaissent en général le type de loi qui décrit un phénomène (grâce à des observations) mais souvent, ils ne connaissent pas tous les paramètres de la dite loi. Ils doivent donc les estimer : c’est ce que l’on appelle la statistique inférentielle. L’objectif de ce chapitre est d’introduire le vocabulaire et la démarche de la statistique inférentielle en abordant, sur quelques cas simples, le problème de l’estimation, ponctuelle ou par intervalle de confiance. On considère un phénomène aléatoire et on s’intéresse à une variable aléatoire réelle qui lui est liée, dont on suppose que la loi de probabilité n’est pas complètement spécifiée et appartient à une famille de lois dépendant d’un paramètre θ décrivant un sous-ensemble Θ de ℝ (éventuellement de ℝ ). Exemple 1 : 1. suit une loi de Bernoulli de paramètre : θ = et Θ =]0; 1[ ; 2. suit la loi de Poisson (ou la loi exponentielle) de paramètre : θ = et Θ =]0; +∞[ ; 3. suit la loi normale de paramètres et où est connu et inconnu : θ = et Θ = ℝ. Le paramètre θ est une quantité inconnue, fixée dans toute l’étude, que l’on cherche à déterminer ou pour laquelle on cherche une information partielle. Le problème de l’estimation consiste alors à estimer la vraie valeur du paramètre θ ou de (θ) (fonction à valeurs réelles du paramètre θ), à partir d’un échantillon de données , , . . . , obtenues en observant fois le phénomène. On supposera que cet échantillon est la réalisation de variables aléatoires , , . . . , où les sont des variables aléatoires réelles de même loi que . On supposera de plus que ces variables aléatoires sont mutuellement indépendantes. On appellera estimateur de θ ou de (θ) toute variable aléatoire réelle de la forme ( , , . . . , ) où est une fonction de ℝ dansℝ, éventuellement dépendante de , et indépendante de θ, dont la réalisation après expérience est envisagée comme estimation de θ ou de (θ). Un estimateur se définit donc dans l’intention de fournir une estimation. Si est un estimateur, on notera, lorsque ces valeurs existent, θ ( ) l’espérance de et θ ( ) la variance de , pour la probabilité θ . II – Estimation ponctuelle 1) Définitions Définition 1 : On appelle -échantillon de la loi tout -uplet ( , , . . . , ) de variables aléatoires réelles définies sur le même espace probabilisé (Ω, !, ), mutuellement indépendantes et suivant toutes la même loi que . Remarque 1 : On parle d’échantillon iid (pour indépendant et identiquement distribué) Définition 2 : Si ( , , . . . , ) est un échantillon de la loi , on appelle réalisation de cet échantillon ou échantillon observé, tout -uplet ( , , . . . , ) = ( ("), ("), . . . , (")) où " ∈ Ω. Autrement dit : pour tout $ ∈ %1; &, ' est la valeur prise par la variable aléatoire ' . Remarque 2 : Ne pas confondre l’échantillon ( , , . . . , ) qui est un -uplet de variables aléatoires et l’échantillon observé ( , , . . . , ) qui est un -uplet de réels. 1 Définition 3 : Si ( , , . . . , ) est un échantillon de la loi , on appelle estimateur de θ toute variable aléatoire réelle de la forme = ( , , . . . , ) où est une fonction de ℝ dansℝ indépendante de θ. Remarque 3 : Un estimateur est une variable aléatoire dépendant de ( , , . . . , ). Comme les lois suivent toutes la même loi que , l’estimateur est une variable aléatoire dont la loi dépend de θ. Définition 4 : Soit = ( , , . . . , ) un estimateur de θ. Une estimation de θ est une réalisation ( = ( , , . . . , ) de où ( , , . . . , ) est une réalisation de l’échantillon ( , , . . . , ). Remarque 4 : L’estimation ( , , . . . , ) ne dépend que de l’échantillon observé ( , , . . . , ), il ne dépend pas de θ. C’est la valeur que le statisticien accordera à θ. Définition 5 : Exemple fondamental d’estimateur Si ( , , . . . , ) est un échantillon de la loi , on appelle moyenne empirique associée à l’échantillon ( , , . . . , ), la variable aléatoire notée et définie par : 1 = ) * Théorème 1 : On considère une variable aléatoire admettant une espérance et une variance et un échantillon ( , , . . . , ) de la loi . La moyenne empirique , associée à l’échantillon ( , , . . . , ), admet une variance et une espérance et : + , = et+ , = Remarque 5 : Ce résultat est immédiat par linéarité (pour l’espérance) et indépendance (pour la variance) : 1 1 1 + , = ) ( ) = ) = × = * * 1 1 1 + , = 0 1 ) ( ) = ) = × = * * 2) Biais d’un estimateur Pour construire un estimateur permettant d’obtenir une bonne évaluation du paramètre θ étudié, il faut se donner des critères de qualité pour cet estimateur. Si l’on veut estimer θ par les valeurs prises par la variable aléatoire , il faut que ces valeurs ne s’éloignent pas trop de θ. Définition 6 : Soit un estimateur de θ. Si admet une espérance, alors on appelle biais de le réel noté 23 ( ) et défini par 23 ( ) = 3 ( ) − θ. 2 Remarque 6 : On rappelle que l’estimateur est une variable aléatoire dont la loi dépend de θ, par conséquent son espérance dépend également de θ. La notation 3 ( ) est donc logique. S’il n’y a pas d’ambigüité, le biais sera plus simplement noté 2. 3) Estimateur sans biais ou asymptotiquement sans biais Définition 7 : Soit un estimateur de θ. On dit que est un estimateur sans biais de θ si 23 ( ) = 0 c’est-à-dire si 3 ( ) = θ. Exemple 2 : Comme + , = , la moyenne empirique est un estimateur sans biais de l’espérance de . Remarque 7 : Si ( , , . . . , ) est un échantillon observé, une estimation de est la moyenne observée 1 ( + + ⋯ + ). Définition 8 : On dit qu’une suite ( )∈ℕ∗ d’estimateurs de θ est asymptotiquement sans biais si lim 3 ( ) = θ →=> Remarque 8 : Par abus de langage, on dit plus simplement que l’estimateur est asymptotiquement sans biais. 4) Risque quadratique Définition 9 : Soit un estimateur de θ. Si admet une variance (ou un moment d’ordre 2, ce qui revient au même), alors on appelle risque quadratique de le réel noté ?3 ( ) et défini par ?3 ( ) = 3 (( − θ) ). Théorème 2 : Soit un estimateur de θ. Si admet un moment d’ordre 2, et si 2 est le biais de alors on a ?3 ( ) = 2 + 3 ( ). Remarque 9 : C’est une conséquence de la linéarité de l’espérance : ?3 ( ) = 3 (( − θ) ) = 3 ( − 2θ + θ ) = 3 ( ) − 2θ3 ( ) + θ Or 2 + 3 ( ) = (3 ( ) − θ) + 3 ( ) − +3 ( ), = 3 ( ) − 2θ3 ( ) + θ D’où l’égalité. Remarque 10 : Si est un estimateur sans biais et admet un moment d’ordre 2 alors on a : ?3 ( ) = 3 ( ). Exemple 3 : Comme la moyenne empirique est un estimateur sans biais de l’espérance de , alors son risque quadratique est égal à sa variance : ?+ , = + , = 3 5) Estimateur convergent Définition 10 : On dit qu’une suite ( )∈ℕ∗ d’estimateurs de θ est convergente si ∀B > 0, lim (| − θ| > B) = 0 →=> Remarque 11 : Par abus de langage, on dit plus simplement que l’estimateur est convergent. Théorème 3 : Si lim ?3 ( ) = 0alorslasuite( )∈ℕ∗ d’estimateursdeθestconvergente. →=> Ou plus simplement, l’estimateur est convergent. Remarque 12 : Ce résultat s’obtient en appliquant l’inégalité de Markov à la variable aléatoire − θ et en remplaçant Q par B : (( − θ) ) ?3 ( ) ) ) ∀B > 0,(( − θ) ≥ B ≤ ⇔ ∀B > 0,(( − θ) ≥ B ≤ B B Or, − θ ≥ B ⇔ | − θ| > B et une probabilité est positive dons : ?3 ( ) ∀B > 0,0 ≤ (| − θ| > B) ≤ B Si lim ?3 ( ) = 0alors, dU aprèslethéorèmedesgendarmes ∶ lim (| − θ| > B) = 0 →=> →=> L’estimateur est donc bien convergent. Remarque 13 : Si estsansbiais, laconditionduthéorème3s’écrit lim ] ( ) = 0 →=> Si estasymptotiquementsansbiais, laconditionduthéorème3s’écritaussi lim ] ( ) = 0 en utilisant de plus le théorème 2. →=> Exemple 4 : Comme la moyenne empirique est un estimateur sans biais de l’espérance de , alors on sait, d’après l’exemple 3 que + , = `a . Or lim = 0donc, dU aprèslethéorème3,lamoyenneempiriqueestunestimateurconvergent. →=> Remarque 14 : De deux estimateurs de θ, on choisit celui qui a le plus petit risque quadratique (ou mieux, celui qui a le risque quadratique qui tend le plus vite vers 0) car ainsi, avec l’inégalité de Markov ou de Bienaymé-Tchebychev, on minimise plus vite la probabilité que l’estimateur s’écarte de θ de plus de B. III – Estimation par intervalles de confiance Le résultat d’une estimation est une valeur approchée du paramètre que l’on cherche à évaluer. Si l’on effectue une autre estimation, on n’obtiendra en général pas le même résultat. C’est pourquoi, plutôt que de donner une (ou plusieurs) estimation numérique, on peut chercher à déterminer un intervalle qui contienne, avec une probabilité donnée, la valeur du paramètre que l’on cherche à évaluer. 4 1) Intervalle de confiance, niveau de confiance Définition 11 : Soit , , . . . , un échantillon de la loi . Pour tout réel c ∈ 0; 1, on appelle intervalle de confiance pour le paramètre θ, au risque c (ou au niveau de confiance 1 − c), tout intervalle de la forme d , où d et sont des estimateurs de θ tels que d ≤ θ ≤ ≥ 1 − c Remarque 15 : • Un intervalle de confiance est un intervalle dont les bornes sont aléatoires et qui contient, avec une probabilité donnée, la valeur de θ que l’on cherche à évaluer. • Soit , , . . . , un échantillon observé et e et f les réalisations correspondantes de d et . L’intervalle e , f est appelé intervalle de confiance réalisé ou encore fourchette. Le nombre c est le risque qu’à l’issue d’une expérience, la réalisation de l’intervalle de confiance ne contienne pas la valeur de θ que l’on cherche à évaluer. Remarque 16 : Concrètement, pour déterminer un intervalle de confiance, on part d’un estimateur et, à l’aide de l’inégalité de Bienaymé-Tchebychev, on cherche à déterminer un intervalle contenant qui donne l’intervalle de confiance au niveau souhaité. Exemple 5 : Soit une variable aléatoire qui suit la loi de Bernoulli de paramètre θ ∈ 0; 1. 1 Considéronsunéchantillon( , , . . . , )delaloide. Notons = ) etposonsc ∈ ]0; 1[. * () θ(1 − θ) Onadéjàmontréque+ , = () = θet+ , = = Appliquons l’inégalité de Bienaymé-Tchebychev à : + , θ(1 − θ) ∀B > 0,+k − + ,k ≥ B, ≤ ⇔ ∀B > 0,+k − θk ≥ B, ≤ B B En passant à l’événement contraire : θ(1 − θ) θ(1 − θ) ∀B > 0,1 − +k − θk < B, ≤ etdonc+k − θk < B, ≥ 1 − B B Or +k − θk ≤ B, ≥ +k − θk < B, θ(1 − θ) Ainsi:∀B > 0,+k − θk ≤ B, ≥ 1 − B θ(1 − θ) IlfautdéterminerBtelque1 − = 1 − c B qθ(1 − θ) θ(1 − θ) θ(1 − θ) θ(1 − θ) 1− = 1 − c ⇔ = c ⇔ B = ⇔ B = B B c √c qθ(1 − θ) qθ(1 − θ) qθ(1 − θ) Ainsi, sk − θk ≤ t ≥ 1 − c ⇔ s − ≤ θ ≤ + t≥1−c √c √c √c L’intervalle obtenu n’est pas très pertinent car il dépend du paramètre que l’on cherche à évaluer … Un étude rapide de la fonction ↦ 1 − montre qu’elle est majorée par sur 0; 1. Ainsi: w − qθ(1 − θ) qθ(1 − θ) 1 1 v ; + x ⊂ z − ; + { 2√c 2√c √c √c Et par croissance de la probabilité : qθ1 − θ qθ1 − θ 1 1 0θ ∈ z − ; + {1 ≥ sθ ∈ w − ; + xt ≥ 1 − c 2√c 2√c √c √c 5 Finalement, on en déduit que | − confiance au moins égale à 1 − c. √} ; + √} ~ est un intervalle de confiance de θ à un niveau de 2) Intervalle de confiance asymptotique Définition 12 : Soit , , . . . , un échantillon de la loi , c ∈ 0; 1 et d et deux estimateurs de θ. La suite d’intervalle d , ∈ℕ∗ est un intervalle de confiance asymptotique pour le paramètre θ, au risque c (ou au niveau de confiance 1 − c) s’il existe une suite de réels c , de limite c, telle que, pour tout entier , on a : d ≤ θ ≤ ≥ 1 − c Autrement dit, d , ∈ℕ∗ est un intervalle de confiance asymptotique pour le paramètre θ, au niveau de confiance 1 − c si l’on a : lim d ≤ θ ≤ ≥ 1 − c →=> Remarque 17 : Par abus de langage, on dit aussi que l’intervalle d , est un intervalle de confiance asymptotique. Exemple 6 : Soit une variable aléatoire d’espérance et de variance et soit , , . . . , un échantillon de la loi de . Posonsc ∈ ]0; 1[. () Onatoujours+ , = () = et+ , = = − + , − ∗ = √ estlavariablecentréeréduiteassociéeà . Rappelonsque = + , Les variables , , . . . , étant indépendantes, de même loi et admettant chacune une espérance ∗ et une variance ,appliquons le théorème central limite à : 1 a ∗ ∀ > 0, lim − ≤ ≤ = ( = − − = 2 − 1 →=> √2 c Cherchonslavaleurde > 0telleque2() − 1 = 1 − c ⇔ () = 1 − 2 1 Lafonctionestcontinueetstrictementcroissantesur]0; +∞[,(0) = et lim () = 1 →=> 2 Donc la fonction réalise une bijection de 0; +∞ vers ~ ; 1|. c 1 c c ∈ 0; 1 ⇔ 1 − ∈ { ; 1z ∶ il existe alors un unique (} > 0 tel que (} = 1 − 2 2 2 ∗ Onobtientalors: lim (−(} ≤ ≤ (} ) = 2((} ) − 1 = 1 − c →=> Etdonc: lim (−(} ≤ √ →=> − ≤ (} ) = 1 − c Cequiéquivaut,aprèsmanipulations,à lim ( − Finalement, onendéduitque z − auniveaudeconiance1 − c. (} √ →=> ; + (} √ (} √ ≤ ≤ + (} √ )=1−c { estunintervalledeconianceasymptotiquede 6 Remarque 18 : Les valeurs usuelles de c sont 0,1 (niveau de confiance 0,9), 0,05 (niveau de confiance 0,95) et 0,01 (niveau de confiance 0,99). } • Pour c = 0,1, 1 − = 0,95 : on lit dans la table 1,64 ≈ 0,9495 et 1,65 ≈ 0,9505, ce qui donne (, = 0,95 ≈ 1,645 } • Pour c = 0,05, 1 − = 0,975 : on lit dans la table 1,96 ≈ 0,9750, ce qui donne (, = 0,975 ≈ 1,96 } • Pour c = 0,01, 1 − = 0,995 : on lit dans la table 2,57 ≈ 0,9949 et 2,58 ≈ 0,9951, ce qui donne (, = 0,995 ≈ 2.575 Exemple 7 : La variable suit une loi normale d’écart-type 0,5. Pour = 100 et une réalisation de égale à 1,56, on obtient les intervalles de confiance asymptotiques réalisés suivants : ` ,×,v • Pour c = 0,1 : 1,47; 1,65, en effet − = 1,56 − = 1,47approchépardéfaut et + • √ = 1,56 + ,×,v √ = 1,65approchéparexcès. Pour c = 0,05 : 1,46; 1,66, en effet − et + • ` ` √ = 1,56 + ,×, et + √ = 1,56 + ,×, √ = 1,56 − ,×, = 1,46approchépardéfaut = 1,66approchéparexcès. Pour c = 0,01 : 1,43; 1,69, en effet − ` ` ` √ = 1,56 − ,×, = 1,43approchépardéfaut = 1,69approchéparexcès. Pour = 400 et une réalisation de toujours égale à 1,56, on obtient les intervalles de confiance asymptotiques réalisés suivants : • Pour c = 0,1 : 1,518; 1,602 • Pour c = 0,05 : 1,511; 1,609 • Pour c = 0,01 : 1,495; 1,625 Remarque 19 : La différence est sensible lorsque la taille de l’échantillon augmente, ce qui n’est pas très surprenant. Pour conclure, ces estimations par intervalles ne donnent des résultats corrects que pour de grands échantillons. Exemple 8 : Application à un cas concret Une machine remplit des boîtes de sucre de 500g. On admet que la distribution a un écart-type de 6g. On effectue un sondage sur 400 paquets : le poids moyen observé est 500,85g. Peut-on estimer au risque de 5 % que la machine est bien réglée ? On a = 500,85 (moyenne observée), c = 0,05, (} = 1,96, = 6 et = 400. (} Onobtient ≈ 0,59etdoncpourintervalledeconiance500,26; 501,44 √ Il ne contient pas la valeur 500. On estime donc au risque de 0,05 que la machine n’est pas bien réglée. E affirmant cela, on a 95 % de chances de ne pas se tromper. 7