UEVE Estimation par intervalles de confiance 1 Un exemple introductif Soient X1 , · · · , Xn n variables aléatoires i.i.d. de loi B(p∗ ) avec p∗ inconnue et soient x1 , · · · , xn les n observations associées. Nous avons vu qu’une estimation naturelle est x, la proportion observée de 1 parmi les x1 , · · · , xn . Nous avons également vu que X est un bon estimateur de p∗ puisqu’il est sans biais (E(X) = p∗ ) et qu’il converge en moyenne quadratique (EQM(X) = Var(X) = p∗ (1 − p∗ )/n −→ 0.). Nous avons donc ainsi une bonne estimation n→∞ ponctuelle de p. On va maintenant chercher à encadrer p∗ , c’est-à-dire à trouver un intervalle (aléatoire) qui contienne p∗ avec grande probabilité. Soit α = 5%. On va chercher Iα tel que IP(p∗ ∈ Iα ) = 1 − α = 95%. Nous allons utiliser trois outils, l’inégalité de Bienaymé-Tchebichev, l’inégalité de Hoedding et le théorème central limite. Intervalle de confiance avec l’inégalité de Bienaymé-Tchebichev. On cherche [An ; Bn ] tel que IP(p∗ ∈ [An ; Bn ]) ≥ 1 − α. D’après l’inégalité de Bienaymé-Tchebichev, IP(|X − p∗ | ≥ λ) ≤ p∗ (1 − p∗ ) . nλ2 Comme p∗ (1 − p∗ ) ≤ 1/4 pour p∗ ∈ [0, 1], nous avons aussi IP(|X − p∗ | ≥ λ) ≤ 1 . 4nλ2 Autrement dit IP(X − λ ≤ p∗ ≤ X + λ) ≥ 1 − 1 . 4nλ2 Par conséquent si λ est tel que 1 ≤α 4nλ2 alors IP(X − λ ≤ p∗ ≤ X + λ) ≥ 1 − α. On choisit donc √ √ I1 = [An ; Bn ] = [X − 1/ 4nα; X + 1/ 4nα]. Intervalle de confiance avec l’inégalité de Hoeffding. On cherche [An ; Bn ] tel que IP(p∗ ∈ [An ; Bn ]) ≥ 1 − α. D’après l’inégalité de Hoeffding, IP(|X − p∗ | ≥ λ) ≤ 2 exp(−2nλ2 ). Autrement dit IP(X − λ ≤ p∗ ≤ X + λ) ≥ 1 − 2 exp(−2nλ2 ). Par conséquent si λ est tel que 2 exp(−2nλ2 ) ≤ α alors IP(X − λ ≤ p∗ ≤ X + λ) ≥ 1 − α. On choisit donc I2 = [X − p − ln(α/2)/(2n); X + p − ln(α/2)/(2n)]. Intervalle de confiance avec le théorème central limite. On cherche [An ; Bn ] tel que IP(p ∈ [An ; Bn ]) ≥ 1 − α. D’après le théorème central limite, √ n(X − p∗ ) L p −→ N (0, 1). p∗ (1 − p∗ ) n→∞ Ici Var(X1 ) = p∗ (1 − p∗ ) est inconnue et peut être estimée de manière consistante par Tn = X(1 − X)(= Se2 ). Outil On utilise donc que √ n(X − p∗ ) L q −→ N (0, 1) . n→∞ X(1 − X) Ceci implique que pour n assez grand, si Z ∼ N (0, 1), alors pour tous a et b réels, la probabilité √ ∗ n(X − p ) ≤ b est proche de la probabilité IP(a ≤ Z ≤ b). IP a ≤ q X(1 − X) Soit uα tel que si Z ∼ N (0, 1), alors IP(−uα ≤ Z ≤ uα ) = 1 − α, ou aussi tel que IP(Z ≥ uα ) = IP(Z ≤ −uα ) = α/2. Pour ce uα , lu dans la table de la loi N (0, 1), la probabilité √ ∗ n(X − p ) ≤ uα est proche de 1 − α. IP −uα ≤ q X(1 − X) On en déduit que la probabilité IP X − uα q q X(1 − X) uα X(1 − X) est proche de 1 − α. √ √ ≤ p∗ ≤ X + n n On choisit donc I3 = [An ; Bn ] = X − uα q uα X(1 − X) √ ; X+ n q X(1 − X) , √ n avec uα tel que IP(N (0, 1) ≤ uα ) = 1 − α/2. C’est un intervalle de confiance bilatéral symétrique théorique pour p∗ de niveau de confiance 1 − α. Remarques : - Parmi les trois intervalles de confiance construits, l’intervalle construit à l’aide du théorème central limite est le plus précis, c’est-à dire celui d’amplitude la plus petite à niveau de confiance fixé et pour une taille d’échantillon fixée. - Quand n augmente, l’amplitude de l’intervalle de confiance diminue, à niveau de confiance fixé. - Quand α augmente, le niveau de confiance diminue, et l’amplitude de l’intervalle de confiance diminue, à taille d’échantillon fixée. - Quand α diminue, le niveau de confiance augmente, et l’amplitude de l’intervalle de confiance augmente, à taille d’échantillon fixée. 2 Le problème statistique général Soit (X1 , X2 , · · · , Xn ), un n-échantillon de n variables aléatoires de loi Pθ∗ , dépendant d’un paramètre θ∗ inconnu. Nous avons vu comment, à partir de l’échantillon X1 , · · · , Xn , construire un estimateur Tn de θ∗ et en déduire une estimation ponctuelle de θ∗ , tn basée sur la réalisation (x1 , x2 , · · · , xn ), tn étant la réalisation de l’estimateur Tn . Nous avons par ailleurs décrit les propriétés mathématiques demandées à un estimateur (consistance, vitesse de convergence...). Le problème que l’on se pose maintenant est de savoir quelle confiance on peut accorder à cette unique valeur observée. On va chercher à encadrer θ∗ pour être sur de n’avoir que, par exemple, α = 5% (ou 1%, · · · ) de chances de se tromper, ou encore encadrer θ∗ en ayant 95% de chances de ne pas se tromper, ie avec un niveau de confiance de 1 − α = 95%. On construit ainsi un intervalle de confiance de θ∗ . On va donc chercher un intervalle Iα = [A, B], où A et B sont deux variables aléatoires (fonctions de X1 , · · · , Xn ) telles que IP(θ∗ ∈ [A; B]) = IP(θ∗ ∈ Iα ) = 1 − α. 2.1 Définition Soit α ∈]0, 1[. On appelle intervalle de confiance du paramètre θ∗ de niveau de confiance 1 − α (ou de risque α) un intervalle (aléatoire) Iα tel que IP(θ∗ ∈ Iα ) = 1 − α. Un tel intervalle va être construit à partir d’un estimateur Tn de θ∗ et de sa loi (éventuellement asymptotique). Pour simplifier, nous allons distinguer ici deux cas : les échantillons gaussiens et les échantillons de loi quelconque de taille suffisamment grande (pour pouvoir appliquer le Théorème Central Limite). Plus le niveau de confiance 1 − α est grand (plus le niveau α est petit), plus l’intervalle de confiance sera de grande amplitude. Autrement dit, si on ne s’autorise que peu d’erreurs, l’intervalle de confiance sera moins précis. Par ailleurs, plus la taille de l’échantillon augmente, plus l’observation contient de l’information, plus l’amplitude de l’intervalle de confiance sera faible (à niveau de confiance égal). 3 Intervalle de confiance de l’espérance et de la variance pour les échantillons gaussiens Soit (X1 , · · · , Xn ) un n-échantillon de loi N (µ, σ 2 ) pour lequel on dispose des réalisations (observations) (x1 , · · · , xn ). 3.1 Intervalle de confiance pour µ quand σ 2 connue On cherche un intervalle Iµ,α = [A; B], où A et B sont deux variables aléatoires, fonctions de X1 , · · · , Xn telles que IP(µ ∈ Iµ,α ) = 1 − α. L’espérance µ est naturellement estimée par l’estimateur sans biais et consistant, X = Pn n−1 i=1 Xi . Comme moyenne de n variables aléatoires, indépendantes de loi N (µ, σ 2 ), X∼N σ2 µ, n √ et donc n(X − µ) ∼ N (0, 1). σ Considérons uα tel que si Z ∼ N (0, 1), alors IP(−uα ≤ Z ≤ uα ) = 1 − α, ou aussi tel que IP(N (0, 1) ≥ uα ) = IP(N (0, 1) ≤ −uα ) = α . 2 Pour ce uα , lu dans la table de la loi N (0, 1), on a √ n(X − µ) ≤ uα = 1 − α. IP −uα ≤ σ On en déduit que uα σ uα σ √ √ IP X − ≤µ≤X+ = 1 − α. n n L’intervalle de confiance bilatéral symétrique théorique pour µ de niveau de confiance 1 − α est donc Iµ,α uα σ uα σ = X− √ ; X+ √ , n n où uα est tel que IP(N (0, 1) ≤ uα ) = 1 − α/2. Le paramètre µ appartient à l’intervalle aléatoire Iµ,α avec une probabilité fixe de 1 − α, c’est-à-dire que si l’on répétait un grand nombre de fois l’expérience consistant à prendre un échantillon de taille n et à lui faire correspondre un intervalle de confiance pour µ, dans (1−α)100% des cas, l’intervalle de confiance couvrirait la vraie valeur de µ. Pour un échantillon de taille n donné pour lequel on calcule X, l’intervalle uα σ uα σ de confiance calculé associé de niveau de confiance 1 − α est X − √ ; X + √ (qui contiendra ou non µ). n n Au lieu de construire un intervalle de confiance bilatère symétrique, nous aurions pu en construire un intervalle bilatère non symétrique en considérant cα et dα tels que IP(cα ≤ Z ≤ dα ) = 1 − α, avec par exemple IP(Z ≤ cα ) = α/4 et IP(Z ≤ dα ) = 1 − 3α/4. L’intervalle de confiance bilatère non symétrique théorique aurait été cα σ dα σ Iµ,α = X + √ ; X + √ . n n De la même façon, on peut décider de construire un intervalle de confiance unilatère à droite. On considère cα tel que IP(Z ≤ cα ) = α. On en déduit alors l’intervalle de confiance unilatère à droite théorique cα σ Iµ,α = X + √ ; +∞ . n De façon analogue, on peut décider de construire un intervalle de confiance unilatère à gauche. On considère dα tel que IP(Z ≤ dα ) = 1 − α. On en déduit alors l’intervalle de confiance unilatère à gauche théorique cα σ Iµ,α = −∞ ; X + √ . n 3.2 Intervalle de confiance pour σ 2 quand µ est connue On cherche Iσ2 ,α = [A; B], fonction de X1 , · · · , Xn tel que IP(σ 2 ∈ Iσ2 ,α ) = 1−α. Lorsque µ est connue, l’estimateur Pn (sans biais et consistant) de σ 2 est σ b2 = n−1 i=1 (Xi − µ)2 . n X Yi2 ∼ X 2 (n) (Loi du chi deux à n degrés de liberté). Outil : Soient Y1 , · · · , Yn , n v.a. i.i.d. de loi N (0, 1), alors i=1 Les variables les (Xi − µ)/σ étant indépendantes de loi N (0, 1), on en déduit donc que n X (Xi − µ)2 nb σ2 = ∼ X 2 (n). 2 2 σ σ i=1 Soient cα et dα , lus dans la table du X 2 (n), tels que si Xn ∼ X 2 (n), alors IP (cα ≤ Xn ≤ dα ) = 1 − α, par exemple, tels que α α IP X 2 (n) ≤ cα = et IP X 2 (n) ≥ dα = . 2 2 Pour ce cα et ce dα , on a Pn (Xi − µ)2 IP cα ≤ i=1 2 ≤ dα = 1 − α. σ On déduit que Pn i=1 (Xi IP dα − µ)2 2 ≤σ ≤ Pn i=1 (Xi − µ)2 cα = 1 − α, et l’intervalle de confiance de σ 2 théorique de niveau de confiance 1 − α est Pn Pn 2 2 2 nb σ nb σ2 i=1 (Xi − µ) i=1 (Xi − µ) Iσ2 ,α = ; = ; , dα cα dα cα où cα et dα sont tels que IP(X 2 (n) ≤ cα ) = α/2 et IP(X (n) ≤ dα ) = 1 − α/2. 3.3 Intervalles de confiance pour µ et σ 2 L’espérance µ est estimée par l’estimateur sans biais et consistant X et la variance σ 2 est estimée par, l’estimateur Pn sans biais et consistant S 2 = (n − 1)−1 i=1 (Xi − X)2 . 3.3.1 Théorème n n 1X 1 X Soit (X1 , · · · , Xn ) un n-échantillon de loi N (µ, σ ). Notons X = Xi et S 2 = (Xi − X)2 . n i=1 n − 1 i=1 Alors √ X −µ n(X − µ) (n − 1)S 2 q = ∼ St(n − 1) et ∼ X 2 (n − 1), S σ2 S2 2 n où St(n − 1) désigne la loi de Student à (n − 1) degrés de liberté. Ce théorème découle en partie du résultat suivant. Résultat : Si Y et Z sont 2 v.a. indépendantes telles que Y ∼ N (0, 1) et Z ∼ X 2 (n), alors Y q ∼ St(n) (loi de Student à n degrés de liberté) . Z 3.3.2 Intervalle de confiance pour µ de niveau de confiance 1 − α On cherche Iµ,α = [A; B], fonction de X1 , · · · , Xn tel que IP(µ ∈ Iµ,α ) = 1 − α. √ n(X − µ) Outil On utilise que ∼ St(n − 1). S Soit tα , tel que si Tn−1 ∼ St(n − 1), alors IP(−tα ≤ Tn−1 ≤ tα ) = 1 − α, ou aussi tel que IP (Tn−1 ≤ −tα ) = IP (Tn−1 ≥ tα ) = α/2. Pour ce tα on a IP −tα ≤ √ n(X − µ) ≤ tα S = 1 − α. On en déduit que tα S tα S IP X − √ ≤ µ ≤ X + √ n n = 1 − α, et l’intervalle de confiance bilatère symétrique théorique pour µ de niveau de confiance 1 − α est donc tα S tα S Iα = X − √ ; X + √ , où tα est tel que IP(|St(n − 1)| ≤ tα ) = 1 − α. n n 3.3.3 Intervalle de confiance pour σ 2 de niveau de confiance 1 − α On cherche Iσ2 ,α = [A; B], fonction de X1 , · · · , Xn tel que IP(σ 2 ∈ Iσ2 ,α ) = 1 − α. (n − 1)S 2 ∼ X 2 (n − 1). Outil On utilise que σ2 Soient cα et dα , tels que si Xn−1 ∼ X 2 (n − 1) alors IP(cα ≤ Xn−1 ≤ dα ) = 1 − α, par exemple, tels que α α IP X 2 (n − 1) ≤ cα = et IP X 2 (n − 1) ≥ dα = . 2 2 Pour ces cα et dα , on a (n − 1)S 2 IP cα ≤ ≤ dα σ2 = 1 − α. On en déduit que IP (n − 1)S 2 (n − 1)S 2 ≤ σ2 ≤ dα cα = 1 − α, et l’intervalle de confiance bilatère théorique pour σ 2 de niveau de confiance 1 − α est Pn Pn 2 2 (n − 1)S 2 (n − 1)S 2 i=1 (Xi − X) i=1 (Xi − X) 2 ; = ; , Iσ ,α = dα cα dα cα où cα et dα sont tels que IP(X 2 (n − 1) ≤ cα ) = α/2 et IP(X 2 (n − 1) ≤ dα ) = 1 − α/2. 4 Intervalle de confiance d’une espérance pour les grands échantillons de loi quelconque Soit (X1 , · · · , Xn ) un n-échantillon de loi d’espérance µ = IE(X1 ) et de variance σ 2 = Var(X1 ). L’estimateur (sans Pn biais et consistant) de µ est X = n−1 i=1 Xi . On suppose que n est grand de sorte que le théorème central limite s’applique. On a alors √ √ n(X − IE(X1 )) L n(X − µ) L p −→ N (0, 1) autrement dit −→ N (0, 1). n→∞ n→∞ σ V ar(X1 ) Ceci implique que pour n assez grand, si Z ∼ N (0, 1), alors pour tous a et b réels, la probabilité √ n(X − µ) IP a ≤ ≤ b est proche de la probabilité IP(a ≤ Z ≤ b). σ 4.1 4.1.1 Intervalle de confiance pour µ de niveau de confiance 1 − α Cas Var(X1 ) = σ 2 connue On cherche un intervalle Iµ,α = [A; B], où A et B sont deux variables aléatoires , fonctions de X1 , · · · , Xn telles que IP(µ ∈ Iµ,α ) = 1 − α. Soit uα tel que si Z ∼ N (0, 1), alors IP(−uα ≤ Z ≤ uα ) = 1 − α, ou aussi tel que IP(Z ≥ uα ) = IP(Z ≤ −uα ) = α/2. Pour ce uα , lu dans la table de la loi N (0, 1), la probabilité √ n(X − µ) IP −uα ≤ ≤ uα est proche de 1 − α. σ On en déduit que la probabilité uα σ uα σ √ √ IP X − ≤µ≤X+ est proche de 1 − α. n n L’intervalle de confiance bilatéral symétrique théorique pour µ de niveau de confiance 1 − α est donc uα σ uα σ Iµ,α = X − √ ; X + √ , où uα est tel que IP(N (0, 1) ≤ uα ) = 1 − α/2. n n 4.1.2 Cas Var(X1 ) = σ 2 inconnue On cherche un intervalle Iµ,α = [A; B], où A et B sont deux variables aléatoires , fonctions de X1 , · · · , Xn telles que IP(µ ∈ Iµ,α ) = 1 − α. Soit Tn un estimateur consistant de Var(X1 ) = σ 2 . On peut alors remplacer Var(X1 ) par Tn dans le Théorème Central Limite , et on obtient √ n X −µ L √ −→ N (0, 1) n→∞ Tn Ceci implique que pour n assez grand, si Z ∼ N (0, 1), alors pour tous a et b réels, la probabilité √ n(X − µ) √ IP a ≤ ≤ b est proche de la probabilité IP(a ≤ Z ≤ b). Tn Soit uα tel que si Z ∼ N (0, 1), alors IP(−uα ≤ Z ≤ uα ) = 1 − α, ou aussi tel que IP(Z ≥ uα ) = IP(Z ≤ −uα ) = α/2. Pour ce uα , lu dans la table de la loi N (0, 1), la probabilité √ n(X − µ) √ ≤ uα est proche de 1 − α. IP −uα ≤ Tn On en déduit que la probabilité √ √ uα Tn uα Tn ≤µ≤X+ √ est proche de 1 − α. IP X − √ n n L’intervalle de confiance bilatéral symétrique théorique pour µ de niveau de confiance 1 − α est donc √ √ uα Tn uα Tn Iµ,α = X − √ ; X+ √ , où uα est tel que IP(N (0, 1) ≤ uα ) = 1 − α/2. n n En général, on choisit comme estimateur de σ 2 , Tn = S 2 = (n − 1)−1 Tn = Se2 = n−1 n X n X (Xi − X)2 . Mais on peut aussi choisir i=1 (Xi − X)2 , ou tout autre estimateur consistant de Var(X1 ) = σ 2 . i=1 5 Intervalle de confiance pour une probabilité Soit (X1 , · · · , Xn ) un n-échantillon de loi B(p) où p est inconnue. On cherche un intervalle Ip,α = [A; B], où A et B sont deux variables aléatoires, fonctions de X1 , · · · , Xn telles que IP(p ∈ Ip,α ) = 1 − α. Comme IE(X1 ) = p, c’est un cas particulier de l’estimation par intervalle d’une espérance. La probabilité p est estimée par l’estimateur sans biais et consistant X. D’après le Théoème Central Limite, √ n(X − p) L p −→ N (0, 1). p(1 − p) n→∞ Ici Var(X1 ) = p(1 − p) est inconnue et peut être estimée de manière consistante par Tn = X(1 − X)(= Se2 ). Outil On utilise donc que √ n(X − p) L q −→ N (0, 1) n→∞ X(1 − X) Soit uα tel que si Z ∼ N (0, 1), alors IP(−uα ≤ Z ≤ uα ) = 1 − α, ou aussi tel que IP(Z ≥ uα ) = IP(Z ≤ −uα ) = α/2. Pour ce uα , lu dans la table de la loi N (0, 1), la probabilité √ n(X − p) IP −uα ≤ q ≤ uα est proche de 1 − α. X(1 − X) On en déduit que la probabilité IP X − uα q q X(1 − X) uα X(1 − X) est proche de 1 − α. √ √ ≤p≤X+ n n L’intervalle de confiance bilatéral symétrique théorique pour p de niveau de confiance 1 − α est donc q q uα X(1 − X) uα X(1 − X) , où uα est tel que IP(N (0, 1) ≤ uα ) = 1 − α/2. √ √ Ip,α = X − ; X+ n n 5.1 Un autre exemple Soient X1 , · · · , Xn un échantillon de loi U[0,θ] , avec θ inconnu. Nous avons 2 estimateurs de θ possibles. Le premier est l’estimateur obtenu par la méthode des moments et vaut θb(1) = 2X. Il est sans biais et il converge en moyenne quadratique vers θ. On a de plus √ 3n(θb(1) − θ) L −→ N (0, 1). (1) n→∞ θ Le deuxième, obtenu par la méthode du maximum de vraisemblance est θb(2) = max1≤i≤n Xi . Il est biaisé, mais il converge plus rapidement en moyenne quadratique vers θ que θb(1) . On a de plus n(θ − θb(2) ) L −→ E(1). n→∞ θ Des deux résultats (??) et (??), on peut déduire deux intervalles de confiances pour θ. Soit α ∈ [0, 1] et soit uα tel que IP(|N (0, 1)| ≤ uα ) = 1 − α. Pour ce uα , si n est grand, d’après (??), ! √ 3n(θb(1) − θ) IP −uα ≤ ≤ uα proche de 1 − α, θ soit aussi IP √ √ ! −uα + 3n 1 uα + 3n ≤ ≤ √ proche de 1 − α. √ θ 3nθb(1) 3nθb(1) On en déduit une premier intervalle de confiance théorique au niveau de confiance 1 − α " √ # √ 3nθb(1) 3nθb(1) √ ; √ I1 (θ) = , où uα est tel que IP(N (0, 1) ≤ uα ) = 1 − α/2. uα + 3n −uα + 3n (2) Soit α ∈ [0, 1] et soit cα et dα tels que IP(cα ≤ E(1) ≤ dα ) = 1 − α, par exemple IP(E(1) ≤ cα ) = α/2 et IP(E(1) ≤ dα ) = 1 − α/2. Pour ces deux valeurs cα et dα , si n est grand, d’après (??), ! n(θ − θb(2) ) IP cα ≤ ≤ dα proche de 1 − α, θ soit aussi 1 −cα + n −dα + n ≤ ≤ proche de 1 − α. θ nθb(2) nθb(2) On en déduit une premier intervalle de confiance théorique au niveau de confiance 1 − α " # nθb(2) nθb(2) I2 (θ) = ; , où cα et sont tels que IP(E(1) ≤ cα ) = α/2 et IP(E(1) ≤ dα ) = 1 − α/2. n − cα n − dα IP En pratique le calculs de cα et dα se fait en utilisant que IP(E(1) ≥ t) = e−t . Par conséquent cα et dα sont tels que cα = − ln(1 − α/2) et dα = − ln(α/2).