Estimation Chapitre 1 Table des matières 1 Echantillonage 1 2 Estimation ponctuelle 2.1 Estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Propriétés d’un estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 3 3 3 Estimation par intervalles de confiance 3.1 Intervalle de confiance de la moyenne . . . . . . . . . . . . . . . . 3.1.1 Cas où la variance est connue . . . . . . . . . . . . . . . . 3.1.2 Cas où la variance n’est pas connue . . . . . . . . . . . . 3.2 Intervalle de confiance d’une proportion . . . . . . . . . . . . . . 3.3 Méthode pour déterminer l’intervalle de confiance d’une moyenne 3 4 4 4 5 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ou d’une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Au sein de l’aléatoire, on distingue deux domaines : la statistique et les probabilités. La statistique est la branche qui consiste à étudier des données tandis que les probabilités fournissent le cadre théorique pour étudier ces données. Au sein de la statistique, on distingue à nouveau deux branches. La première est la statistique descriptive dont le but est de décrire les données (moyenne,variance, régression linéaire) : elle nécessite peu de mathématiques. La seconde, appelée statistique inférentielle, ou statistique mathématique, est un procédé inductif, i.e. une démarche qui consiste à partir d’une obeservation pour reconstituer le tout (par exemple, avoir une idée de la proportion d’individus qui vont voter pour un candidat à partir d’un sondage, d’une observation, de seulement un petit nombre de personnes). Pour l’histoire, remarquons que le mot statistique vient du mot "état" car celle-ci se limitait, jusqu’au 19me siècle à présenter des données (statistique descriptive) concernant les effectifs militaires, effectifs de la population. . . . C’est seulement à partir du 19ème siècle que s’est développée la statistique inférentielle, en particulier lorsqu’est apparu le cadre théorique apporté par les probabilités (début du 20ème siecle). 1 Echantillonage But : donner une valeur approchée d’une quantité associée à N données à partir d’une observation de seulement n N données. Par exemple : — une entreprise produit N = 1000000 pièces cylindriques d’un certain diamètre. On veut avoir une valeur approchée de la moyenne de ces diamètres. Au lieu de contrôler toutes les pièces, on n’en prélève que n = 1000 ; — parmi une population de N = 35 millions d’individus, une certaine proportion souhaite voter pour un certain candidat. On souhaite avoir une estimation de cette proportion. Au lieu d’interroger tous les individus, on effectue un sondage auprès de seulement n = 900 d’entre eux. Plus formellement, on considère une population mère constituée de N valeurs (inconnues pour la plupart d’entre elles) et notées x1 , . . . , xN . On suppose que ces valeurs ont toutes été générées par des variables aléatoires (en 1 pratique supposées indépendantes) de même loi. On désigne par X la variable aléatoire qui a généré ces valeurs et par θ un paramètre inconnu de X dont on cherche à donner une valeur approchée. Par exemple : — estimation d’une moyenne : θ = µ , pour le contrôle statistique d’un ensemble de pièces issues d’une fabrication ; — estimation d’une variance : θ = σ 2 , pour mesurer la dispersion issue du contrôle ; — estimation d’une proportion : θ = p, pour avoir une estimation, issue d’un sondage, d’une proportion d’individus votant pour un certain candidat. On se contente d’observer seulement n données engendrées par X et notées x1 , . . . , xn . Définition 1. On appelle : 1. échantillon de taille n tout n-uplet de variables aléatoires (X1 , . . . , Xn ) ayant la même loi que X ; 2. n-échantillon tout n-uplet de variables aléatoires (X1 , . . . , Xn ) indépendantes et de même loi que X ; 3. échantillon de valeurs de X de taille n toute réalisation (x1 , . . . , xn ) = (X1 (ω), . . . , Xn (ω)) où (X1 , . . . , Xn ) est un échantillon de taille n possédant la même loi que X. Définition 2. Un prélévement d’échantillons s’appelle un échantillonnage. On dit que l’échantillonnage est exhaustif (respectivement non-exhaustif) s’il s’agit d’un tirage sans remise (respectivement avec remise). 2 Estimation ponctuelle 2.1 Estimateurs Définition 3. On appelle statistique toute variable aléatoire de la forme φ(X1 , . . . , Xn ) où (X1 , . . . , Xn ) est un échantillon de taille n. Définition 4. Désignons par θ un paramètre inconnu d’une variable aléatoire X. On appelle estimateur de θ toute statistique Tn = φ(X1 , . . . , Xn ), indépendante de θ, et telle que θ ∈ Tn (Ω). Exemple. Soit X une variable aléatoire de moyenne µ et de variance σ 2 inconnues. On cherche à estimer ces deux quantités. Pour cela, on considère un n-échantillon issu de X et noté (X1 , . . . , Xn ). 1. La variable aléatoire Xn = X1 + . . . + Xn n est un estimateur de θ = µ. 2. Les variables aléatoires Sn2 = (X1 − Xn )2 + . . . + (Xn − Xn )2 n 2 et S 0 n = S2 n n−1 n sont des estimateurs de θ = σ 2 . Exemple. Soit X = B(p) une variable aléatoire de Bernoulli de paramètre p (i.e. P ( X = 1 ) = p et P ( X = 0 ) = 1 − p) inconnu. On cherche à estimer p. On désigne, à nouveau, par (X1 , . . . , Xn ) un n-échantillon issu de X. Posons Kn = B(n, p) le nombre de succès dans (X1 , . . . , Xn ). Alors, la variable aléatoire Pn = Kn n est un estimateur de p. 2 2.2 Propriétés d’un estimateur Définition 5. Un estimateur Tn = φ(X1 , . . . , Xn ) de θ est dit : — sans biais si E [ Tn ] = θ ; — consistant si P ( limn→∞ Tn = θ ) = 1, i.e. Tn ' θ. Exemple. 1. L’estimateur Xn de µ est sans biais et consistant. 2. L’estimateur Sn2 de σ 2 est biaisé mais consistant. 2 3. L’estimateur Sn0 de σ 2 est sans biais et consistant. 4. L’estimateur Pn de p est sans biais et consistant. 2.3 Estimation Définition 6. Toute donnée de la forme φ(x1 , . . . , xn ) = φ(X1 (ω), . . . , Xn (ω)) = Tn (ω) s’appelle une estimation de θ. On note plus simplement cette estimation θ̂. Il s’agit donc, à partir de diverses valeurs prises par X, d’associer une valeur θ̂ unique estimant θ. En général, θ̂ 6= θ. Paramètres Moyenne µ Variance σ 2 Proportion p 2 S0n Estimateurs Pn Xn = n1 i=1 Xi Pn 1 2 = n−1 i=1 (Xi − Xn ) Pn = Estimations Pn µ̂ = n1 i=1 xi Pn 1 2 σˆ2 = n−1 i=1 (xi − µ̂) Kn n p̂ = k̂ n Figure 1 – Tableau synthétique Exercice 1. Une usine fabrique de grandes quantités d’un certain type de pièces mécaniques. On mesure la longueur de chacune des 50 pièces d’un échantillon choisi au hasard et avec remise dans une grosse commande. On constate que les valeurs approchées arrondies à 10−3 près de la moyenne x et de l’écart-type σ des longueurs en millimètres, de cet échantillon sont : x = 64.715 et σ = 0.095. Donner une estimation ponctuelle de la moyenne µ et de l’écart-type σ de la longueur des pièces de l’ensemble de la commande. Exercice 2. Un groupe d’étudiants en statistique réalise une enquête auprès d’une population d’étudiants en sociologie en interrogeant un échantillon de n = 135 individus. Ils désirent connaître la proportion p d’étudiants ayant suivi des études secondaires scientifiques. Pour accélérer le traitement, ils partagent le dépouillement en deux : un demi-groupe constate que, sur 60 des étudiants interrogés, 24 ont suivi des études secondaires scientifiques, tandis que l’autre demi-groupe constate que, sur les 75 étudiants interrogés restants, 33 ont suivi des études secondaires scientifiques. Calculer trois estimations ponctuelles de p. 3 Estimation par intervalles de confiance Motivation : l’estimation ponctuelle fournit une approximation d’un certain paramètre inconnu θ. Cependant, cette estimation (parce que ponctuelle) fournit, en général, une valeur différente de la valeur réelle. Il est alors plus raisonnable de compléter l’estimation ponctuelle par un intervalle contenant (avec grande probabilité) la valeur réelle. On désigne toujours par X une variable aléatoire possédant un paramètre θ inconnu et par (x1 , . . . , xn ) = (X1 (ω), . . . , Xn (ω)) un échantillon de valeurs issues de X. 3 Définition 7. On appelle intervalle de confiance au seuil 1−α issu de l’échantillon de valeurs x1 , . . . , xn un intervalle (en général non unique) noté Iα (x1 , . . . , xn ) tel que P ( Iα (X1 , . . . , Xn ) 3 θ ) = 1 − α. Remarque. 1. Dans la probabilité ci-dessus, l’aléa porte sur l’intervalle et non le paramètre (déterministe) θ. 2. Il ne faut pas confondre l’intervalle de confiance Iα (x1 , . . . , xn ), calculée à partir des valeurs données, et l’intervalle Iα (X1 , . . . , Xn ) aléatoire qui permet de calculer l’intervalle de confiance. 3. Lorsque n ≥ 30 et lorsqu’on a seulement P ( Iα (X1 , . . . , Xn ) 3 θ ) ' 1 − α (i.e. un "à peu près égal" au lieu d’une "égalité"), on parle d’intervalle de confiance asymptotique. 3.1 3.1.1 Intervalle de confiance de la moyenne Cas où la variance est connue Cas d’une loi normale Proposition 8. Supposons que X = N (µ, σ 2 ) où σ 2 est connue. Alors, pour tout n-échantillon de valeurs x1 , . . . , xn issues de X, l’intervalle de confiance au seuil α est : σ σ (1) Iα (x1 , . . . , xn ) = µ̂ − u1−α/2 √ , µ̂ + u1−α/2 √ , n n où u1−α/2 est le quantile d’ordre 1 − α/2 de la loi normale centrée réduite (i.e. P U ≤ u1−α/2 = 1 − α/2). Exercice 3. Une machine produit en grande série des objets de masse théorique 180g. On admet que la variable aléatoire X qui associe, à un échantillon de taille 100 (issu de la production de cette machine), sa masse moyenne en grammes suit une loi normale de moyenne µ et d’écart-type σ = 0.092. La valeur exacte de la masse moyenne µ des objets étant inconnue, on prélève au hasard un échantillon de 100 objets dont on constate que la masse moyenne est 179.93g. Déterminer un intervalle de confiance, au seuil de 10%, de la valeur de µ. Remarque. La longueur de l’intervalle de confiance est d’autant plus petite que la variance σ 2 est petite et que le nombre de données n est grand (ce qui est intuitif). Généralisation à une loi non normale Remarque. Lorsque X ne suit pas la loi normale et lorsque n ≥ 30, on peut obtenir également un intervalle de confiance en appliquant, cette fois-ci, le théorème central limite. Cet intervalle de confiance (asymptotique, car n doit être suffisamment grand) est en fait exactement le même que dans (1). 3.1.2 Cas où la variance n’est pas connue Cas d’une loi normale Proposition 9. Supposons que X = N (µ, σ 2 ) où σ 2 n’est pas connue. Alors, pour tout n-échantillon de valeurs x1 , . . . , xn issues de X, l’intervalle de confiance au seuil α est : σ̂ σ̂ Iα (x1 , . . . , xn ) = µ̂ − t1−α/2;n−1 √ , µ̂ + t1−α/2;n−1 √ , (2) n n où t1−α/2;n−1 est le quantile d’ordre 1−α/2 de la loi de Student à n−1 degrés de liberté (i.e. P Tn−1 ≤ t1−α/2;n−1 = 1 − α/2). 4 Généralisation à une loi non normale Remarque. 1. Lorsque X ne suit pas la loi normale et lorsque n ≥ 30, on peut obtenir également un intervalle de confiance en appliquant, comme dans la section précédente, le théorème central limite. Cet intervalle de confiance (asymptotique) est donné par : σ̂ σ̂ Iα (x1 , . . . , xn ) = µ̂ − u1−α/2 √ , µ̂ + u1−α/2 √ . (3) n n 2. Lorsque X suit la loi normale, et lorsque n < 30, il faut utiliser l’intervalle de confiance (exact) donné dans (2). 3. Lorsque X suit la loi normale, et lorsque n ≥ 30, il est préférable de considérer l’intervalle de confiance (exact) donné dans (2) plutôt que celui (asymptotique) donné dans (3). En fait (toujours dans le cas où n est suffisamment grand), ces deux intervalles sont presque identiques car t1−α/2;n−1 ' u1−α/2 . Loi normale Loi quelconque (n ≥ 30) σ 2 connue intervalle (1) intervalle (1) σ 2 non connue intervalle (2) intervalle (3) Nature de l’intervalle intervalle exact intervalle asymptotique Figure 2 – Tableau synthétique 3.2 Intervalle de confiance d’une proportion Proposition 10. Supposons que X = B(p). Désignons par p̂ = nk̂ l’estimation ponctuelle de p. Alors l’intervalle de confiance au seuil α est : " # r r p̂(1 − p̂) p̂(1 − p̂) Iα (x1 , . . . , xn ) = p̂ − u1−α/2 , p̂ + u1−α/2 , (4) n n où u1−α/2 est le quantile d’ordre 1 − α/2 de la loi normale centrée réduite (i.e. P U ≤ u1−α/2 = 1 − α/2). Remarque. En particulier, l’estimation par intervalle de confiance de p se situe dans le même contexte que l’estimation d’une moyenne pour une variable aléatoire de variance non connue (Section 3.1.2). Dans le cas où n ≥ 30, l’intervalle de confiance (exact) donné dans (4) est presque identique à l’intervalle de confiance (asymptotique) donné dans (3) (remarquer que σ 2 = p(1 − p) pour une variable de Bernoulli). Exercice 4. Dans le contexte de l’exercice 2, donner trois intervalles de confiance pour p au seuil 1 − α = 95%. Commenter les résultats. 3.3 Méthode pour déterminer l’intervalle de confiance d’une moyenne ou d’une proportion Pour déterminer l’intervalle de confiance (exact ou asymptotique) d’une moyenne ou d’une proportion, procéder comme suit : 5 1. Calculer l’estimation ponctuelle θ̂. 2. Déterminer l’intervalle de confiance à utiliser (parmi ceux qui sont donnés dans (1), (2), (3) et (4)). 3. Déterminer le quantile associé. 4. En déduire l’intervalle de confiance. L’essentiel — Donner une estimation ponctuelle d’une moyenne, variance ou proportion. — Appliquer les formules (1), (2), (3) et (4) pour déterminer un intervalle de confiance pour le paramètre à estimer. — Savoir retrouver les intervalles de confiance donnés dans les formules (1), (2), (3) et (4). 6