Notes du cours de statistique L3 Maths et L3 Maths-info Année 2009-2010 P. Ailliot, N. Raillard 29 mars 2010 1 Introduction La statistique est l'activité qui consiste à recueillir, traiter et interpréter des données. La démarche statistique consiste généralement en 3 étapes : Le recueil des données (non abordé dans ce cours). Comment recueillir les données pour qu'elles apportent le plus d'information possible par rapport à la question posée ? La partie exploratoire ou descriptive (non abordée dans ce cours mais quelques exemples seront traités en exercices). L'objectif de cette étape est de synthétiser l'information contenue dans les données an de mettre en évidence certaines propriétés et de suggérer des hypothèses. Cela peut être réalisé en calculant des valeurs numériques (moyennes, écart types, proportions, ...), ou sous la forme de graphiques (histogrammes, camenberts...) et de tableaux. Statistique inférentielle. Son but est de valider ou d'inrmer les hypothèses faites dans la phase exploratoire. Quelques exemples qui serviront à illustrer ce cours : Exemple 1 : contrôle de qualité. Un client commande à son fournisseur un lot de 10000 thermomètres. An de tester la qualité des thermomètres, le client en choisit 20 au hasard et les plonge dans un liquide à 20 degrés. Il obtient les résultats suivants : 20.2, 20.4, 20.1, 19.9, 19.7, 20, 20.5, 19.9, 19.9, 20.1, 20.4, 20.6, 20, 19.8, 20.3, 19.6, 19.8, 20.1, 20.3, 20 Que peut-on en déduire sur la qualité des thermomètres ? Est-ce qu'ils donnent la bonne température en moyenne ? Avec quelle précision ? Exemple 2 : sondage. An d'estimer les intentions de vote lors du deuxième tour d'une election présidentielle, un institut réalise un sondage. Sur 1000 personnes interrogées au hasard, 520 pensent voter pour le candidat A et 480 pour le candidat B. Que peut-on en déduire sur les intentions de vote dans la population Française ? Avec quelle précision le sondage eectué permet t'il d'estimer le pourcentage d'intention de vote en faveur du candidat A ? Peut on déduire de ce sondage, avec une certaine conance, que à la date du sondage le candidat A est en tête ? Exemple 3 : ecacité d'un médicament en médecine. An d'étudier l'eet d'un nouveau médicament en vue de réduire la tension artérielle, on a mesuré la tension (en mm de Hg) sur 12 patients avant et après traitement. Les valeurs suivantes ont été obtenues : Avant 200 174 198 170 179 182 193 209 185 155 169 210 Après 191 170 177 167 159 151 176 183 159 145 146 177 Peut-on conclure que ce médicament réduit la tension artérielle ? 1 Autres exemples d'application : Peut-on prévoir le cours d'une action ? Dans quelle mesure le fait de fumer des cigarettes augmente-t-il les risques de cancer du poumon ? Comment estimer les stocks de poissons dans une zone maritime donnée ? Quelle est la probabilité d'avoir une température inférieur à 0 deg à Brest au mois de Janvier ? Cette probabilité a t'elle évolué au cours des dernières décennies ? Comment "cibler" de manière optimale les clients lors d'une campagne de publicité ? 2 Introduction à l'estimation ponctuelle 2.1 Introduction On dispose de n observations notées (x1 , ..., xn ) ∈ Rn (cf exemples ci-dessus). On va supposer tout d'abord que ces observations sont une réalisation d'une expérience aléatoire, c'est à dire qu'il existe un espace probabilisé espace probabilisé (Ω, F , P) (Ω, F , P) et des variables aléatoires réelles telles que (x1 , ..., xn ) = (X1 (ω), ..., Xn (ω)) (X1 , ..., Xn ) dénies avec ω ∈ Ω. sur un Ceci permet de modéliser l'aléatoire qui est généralement présente dans le recueil des données. Par exemple, dans les exemples introduits ci-dessus : Exemples 1,2 et 3 : dans ces 3 exemples, les individus considérés sont choisis au hasard parmi un grand nombre d'individus. Si on recommence l'expérience, il y a de fortes chances qu'on choisisse d'autres individus et qu'on obtienne des résultats diérents : le résultat de l'expérience est donc bien "aléatoire" ! Exemples 1 et 3 : après avoir choisi les individus, on réalise des mesures qui peuvent être sujettes à des erreurs expérimentales. Ceci rajoute de l'incertitude aux résultats obtenus ! On fait ensuite des hypothèses sur la loi de probabilité du n-uplet (X1 , ..., Xn ). Dans le cadre de ce cours, on supposera que ce sont des variables aléatoires indépendantes et identiquement distribuées (i.i.d). Il s'agit du cadre le plus simple, mais cette hypothèse n'est pas toujours réaliste : Lorsqu'on considère des phénomènes indexés par le temps (séries temporelles), l'hypothèse d'indépendance n'est généralement pas vériée. Exemple : Si (X1 , X2 , ..., Xn ) désigne les températures observées pendant n jours successifs, alors l'hypothèse d'indépendance n'est pas vériée puisque la température du jour généralement proche de celle du jour i est i − 1. La loi dépend de variables explicatives et l'hypothèse "identiquement distribuée" n'est pas vériée. Exemple : si (X1 , X2 , ..., Xn) désigne la taille de n individus pris au hasard, hommes et femmes mélangés, alors la loi des variables aléatoires dépend du sexe (les hommes sont généralement plus grands que les femmes) et on ne peut pas supposer que les observations proviennent d'un échantillon "identiquement distribué". Dénition On appelle n-échantillon qui suivent le loi de probabilité P. P X1 , ..., Xn ∼iid P d'une loi de probabilité On notera une suite (X1 , ..., Xn ) de v.a. i.i.d. On suppose ensuite que la loi de probabilité commune de X1 , X2 , ..., Xn est un loi de probabilité k qui dépend d'un paramètre inconnu θ ∈ Θ avec Θ ⊂ R et on cherche alors à estimer le paramètre inconnu souvent que θ à partir des observations disponibles Xi ∼iid N (m, σ 2 ) 2 (x1 , ..., xn ). Par exemple, on supposera pour i ∈ {1...n}. Le paramètre inconnu est alors θ = (m, σ) ∈ R ∗ R+∗ . Dénition Soit (X1 , ..., Xn ) un n-échantillon d'une loi Pθ . Un estimateur θ est une variable aléatoire T = g(X1 , ..., Xn ) qui s'exprime en fonction de θ est alors la valeur numérique prise par cette statistique (x1 , ..., xn ), c'est à dire la quantité t = g(x1 , ..., xn ). estimation de particulière du paramètre inconnu (X1 , ..., Xn ). Une sur une réalisation Retour sur l'exemple 1 et dénition : on suppose que les températures observées sont une réalisation d'un échantillon (X1 , ..., Xn ) avec n = 20. Diérents paramètres inconnus peuvent être utilisés pour mesurer la qualité des thermomètres, par exemple : µ = E[Xi ] qui décrit la température moyenne d'un thermomètre pris au hasard. Si les µ ≈ 20. (NB : comme l'échantillon est i.d., E[Xi ] est indépendant de i) σ 2 = var(Xi ) = E[Xi2 ] − E[Xi ]2 = E[(Xi − E[Xi ])2 ] qui décrit la dispersion des températures mesurées par les thermomètres (si les thermomètres sont bons, on devrait avoir σ faible) . thermomètres sont bien calibrés, on devrait avoir Ces quantités sont inconnus, et on cherche à les estimer à partir des observations disponibles. espérance mathématique µ est alors la moyenne empirique L'estimateur usuel de l' n X̄ = X1 +...+X n Un estimateur usuel de la variance mathématique σ2 S2 = n i=1 n Xi2 − X̄ 2 = est la variance empirique 1 2 (X − X̄)2 n i=1 i n écart-type empirique S est appelé . n 2 x +...+xn 2 n i=1 xi et s = − x̄2 . x̄ = x1 +...+x est Les estimations correspondantes sont notées x̄ = 1 n n n 2 la moyenne observations et s une mesure de la dispersion des observations autour de la valeur 2 moyenne. Pour notre exemple, on obtient les valeurs numériques x̄ = 20.075 degré, s = 0.072875 2 degré et s = 0.26995 degré. Retour sur l'exemple 2 et dénition : Prenons l'exemple d'un sondage sur les intentions de vote lors d'une élection avec deux candidats (notés A et B). Le paramètre inconnu est la proportion π d'intentions de vote en faveur de B dans la population totale. Pour estimer cette quantité, on sonde n = 1000 personnes choisies au hasard, et on code les résultats de la manière suivante : xi = 0 xi = 1 si la ième personne sondée pense voter pour A si la ième personne sondée pense voter pour B (x1 , ..., xn ) est une réalisation d'un échantillon (X1 , ..., Xn ) d'une loi de Bernoulli θ = π = P [Xi = 1] est le paramètre de cette loi de Bernoulli. Un estimateur "naturel" de π est alors la fréquence empirique F de 1 dans la séquence (X1 , ..., Xn ), c'est à dire : n Xi card{i ∈ {1...n}|Xi = 1} = i=1 F = n n On suppose que et le paramètre inconnu En remarquant que π = E[Xi ] et F = X̄ , on peut remarquer qu'on retrouve l'estimateur précédent de l'espérance. Supposons que lors du sondage, on trouve que 480 personnes pensent voter en faveur du candidat B (i.e. 480 "1" dans la série (x1 , ..., xn )). f= π n Une estimation de card{i ∈ {1...n}|xi = 1} = n 3 est alors i=1 n xi = 0.48 Remarque : Dans la suite du cours, les variables aléatoires (Xi , X̄ , F , S ) sont notées avec des lettres majuscules, les observations (xi ) et les estimations (f , x̄, s) avec µ, σ ). des lettres minuscules. Les paramètres inconnus sont notés avec des lettres grecques (π , 2.2 La méthode du maximum de vraisemblance La fonction de vraisemblance dénie ci-dessous joue un rôle fondamental en statistique. Dénition On appelle fonction de vraisemblance de l'échantillon (X1 , ..., Xn ) la loi de probabilité de ce n-uplet, c'est à dire la quantité : L(θ; x1 , ..., xn ) = P (X1 = x1 , ..., Xn = xn ; θ) = discrètes i=1 P (Xi = xi ; θ) lorsque les n Xi i=1 f (xi ; θ) lorsque les Xi sont des v.a. continues de densité On appelle fonction de log-vraisemblance la quantité : L(θ; x1 , ..., xn ) = n sont des v.a. f (xi , θ) l(θ; x1 , ..., xn ) = ln(L(θ; x1 , ..., xn )) La méthode du maximum de vraisemblance consiste alors, étant donnée une réalisation (x1 , ..., xn ) d'une loi Pθ , à prendre comme estimation t de θ une valeur de θ qui rend maximale (si ce maximum existe...) la fonction de vraisemblance θ → L(θ; x1 , ..., xn ) On notera t = argmaxθ L(θ; x1 , ..., xn ). Remarques : 1. Dans le cas discret, L(θ; x1 , ..., xn ) s'interprète directement comme la probabilité ou (x1 , ..., xn ) lorsque θ est la vraie valeur du paramètre. Une "vraisemblance" d'observer interprétation similaire est valable dans le cas continu par passage à la limite. L'EMV est donc la valeur des paramètres qui rend les observations le plus vraisemblable. 2. En pratique, on travaille souvent avec la fonction de log-vraisemblance, car elle est plus simple à étudier (transformation du produit en somme). Exemple : Si (X1 , ..., Xn ) est un échantillon d'une loi de Bernoulli de paramètre θ = π, alors 1 − π si xi = 0 Pθ (Xi = xi ) = π si xi = 1 avec θ = π. Ceci se réécrit sous la forme Pθ (Xi = xi ) = π xi (1 − π)1−xi pour xi ∈ {0, 1} On en déduit que si (x1 , ..., xn ) ∈ {0, 1}n alors la vraisemblance est donnée par L(π; x1 , ..., xn ) = = = n i=1 n Pθ (Xi = xi ) π xi (1 − π)1−xi i=1 n π 4 i=1 xi (1 − π)n− n i=1 xi On en déduit que l(π; x1 , ..., xn ) = ln(π) n xi + ln(1 − π)(n − i=1 puis que Donc n i=1 xi n ∂l(π;x1 ,...,xn ) ∂π >0 . L'EMV est donc ∂l(π; x1 , ..., xn ) ∂π n ssi F = i=1 xi n n i=1 >π Xi n n xi ) i=1 n = n i=1 xi − π(1 − π) 1 − π et la fonction de vraisemblance atteint son maximum en . On retrouve l'estimateur introduit ci-dessus. Exemple/exercice : On considère les données de l'exemple 1. 1. Réaliser un histogramme de ces observations. 2. On suppose dans la suite de l'exercice que ces observations sont une réalisation de n 2 variables aléatoires (X1 , ..., Xn ) i.i.d. de loi N (µ, σ ). Cette hypothèse vous semble-t-elle réaliste ? 3. Donner la fonction de vraisemblance. Quel est l'estimateur du maximum de vraisemblance de 4. θ = (µ, σ) ? Application numérique. Calculer les estimations correspondantes sur les données de température journalière à Brest, puis représenter sur la gure de la question 1. la densité correspondante. Commentez. Solution partielle : Graphique : l'hypothèse de normalité semble douteuse (cf Figure 1). (X1 , ..., Xn ) est un échantillon d'une loi normale Xi est donnée, pour xi ∈ R, par : (xi − µ)2 1 exp − fθ (xi ) = √ 2σ 2 2πσ Calcul de la fonction de vraisemblance : si moyenne avec µ et écart-type θ = (µ, σ). σ, alors la densité de la v.a. Donc, la fonction de vraisemblance est donnée pour L(θ; x1 , ..., xn ) = n (x1 , ..., xn ) ∈ Rn par fθ (xi ) i=1 n (xi − µ)2 1 √ exp − 2σ 2 2πσ i=1 n 2 1 i=1 (xi − µ) = exp − 2σ 2 (2π)n/2 σ n = L'étude des points critiques montre que cette fonction atteint son maximum pour σ=s Application numérique : x̄ = 15.9679 et s = 1.7846. 5 µ = x̄ et de 1.5 1 0.5 0 19 19.5 20 20.5 21 Fig. 1 Histogramme des températures et densité de la loi normale ajustée 2.3 Propriétés des estimateurs On peut toujours dénir une innité d'estimateurs pour un paramètre inconnu donné, et en pratique on cherchera à utiliser le "meilleur" de ces estimateurs. Ceci nécessite de dénir ce qu'est un bon estimateur.... 2.3.1 Biais d'un estimateur Dénition : On appelle biais de l'estimateur T la quantité biais(T ) = E(T ) − θ On dit que l'estimateur T est sans biais lorsque biais(T ) = 0, c'est à dire lorsque E[T ] = θ. Le biais représente "l'erreur moyenne" qui est faite lorsqu'on utilise T pour estimer θ. Proposition Soit (X1 , ..., Xn ) est un n-échantillon d'une loi de moyenne E[Xi ] = µ. X1 +...+Xn est un estimateur sans biais de µ. En particulier, si (X1 , ..., Xn ) est un n X1 +...+Xn est un estimateur sans biais de n-échantillon de Bernoulli de paramètre π alors F = n X̄ = π. n−1 2 2 2 Si on suppose en outre que σ < ∞ alors E[S ] = n σ . 2 2 S est donc un estimateur biaisé de σ , et on préfère parfois utilisé l'estimateur corrigé 2 Scorr = qui est un estimateur sans biais de n 1 S2 = (Xi − X̄)2 n−1 n − 1 i=1 n σ2 . Preuve Si (X1 , ..., Xn ) est un échantillon d'une loi de moyenne E[X̄] = = = µ alors X1 + ... + Xn ] n E[X1 ] + ... + E[Xn ] n µ E[ 6 On suppose que σ 2 < ∞. Par dénition, S2 = et de la décomposition S2 1 (Xi − X̄)2 n i=1 n (Xi − X̄) = (Xi − µ) − (X̄ − µ), on déduit que : 1 (Xi − µ)2 − 2(X̄ − µ)(Xi − µ) + (X̄ − µ)2 n i=1 n = = 1 1 (Xi − µ)2 − 2(X̄ − µ) (Xi − µ) + (X̄ − µ)2 n i=1 n i=1 = 1 (Xi − µ)2 − (X̄ − µ)2 n i=1 n n n Donc E[S 2 ] = 1 (Xi − µ)2 − (X̄ − µ)2 ] n i=1 n E[ = 1 E[(Xi − µ)2 ] − E[(X̄ − µ)2 ] n i=1 = σ 2 − E[(X̄ − µ)2 ] n Il reste à calculer E[(X̄ − µ)2 ] = var(X̄) n 1 = var( Xi ) n i=1 = n 1 var( Xi ) n2 i=1 = n 1 var(Xi ) n2 i=1 = σ2 n Finalement, E[S 2 ] = n−1 2 σ n ♦ 2.3.2 Erreur quadratique d'un estimateur On mesure généralement la précision d'un estimateur par son erreur quadratique moyenne. Dénition L'erreur quadratique moyenne de l'estimateur T dénie par EQM (T ) = E[(T − θ)2 ] 7 L'EQM représente l'espérance du carré de l'écart entre l'estimateur et le paramètre inconnu : plus l'EQM est faible, plus l'estimateur est précis. Remarque On montre facilement que E[(T − θ)2 ] = var(T ) + E[(T − θ)]2 c'est à dire que l'erreur quadratique moyenne est égale à la variance de l'estimateur plus le biais de l'estimateur au carré. Lorsque l'estimateur est non-biaisé, l'EQM coincide avec la variance : parmi deux estimateurs sans biais, le plus précis est donc celui de variance minimale. Proposition Soit (X1 , ..., Xn ) est un échantillon d'une loi de moyenne µ et variance σ2 < ∞. 2 EQM (X̄) = var(X̄) = σn . En particulier, si (X1 , ..., Xn ) p(1−p) de paramètre π alors EQM (F ) = var(F ) = n On a alors Bernoulli Si de plus µ4 = E[(Xi − µ)4 ] < ∞, est un échantillon de alors 2 2 EQM (Scorr ) = var(Scorr )= n−3 4 µ4 − σ n n(n − 1) Preuve partielle Si (X1 , ..., Xn ) est un échantillon d'une loi de moyenne estimateur sans biais de µ, EQM (X̄) Le calcul de 2 var(Scorr ) µ et de variance σ<∞ alors X̄ est un donc (cf preuve du paragraphe précédent) = var(X̄) X1 + ... + Xn ) = var( n var(X1 ) + ... + var(Xn ) = n2 2 σ = n est plus délicat...♦ 2.3.3 Propriétés asymptotiques On notera dans ce paragraphe (X1 , ..., Xn ). Tn un estimateur de θ basé sur un échantillon de taille n Un bon estimateur doit avoir de bonnes "propriétés asymptotiques", c'est à dire des propriétés de convergence lorsque n → ∞. En particulier, on préférera des estimateurs qui sont convergents (ou consistants). Dénition Tn est un estimateur convergent de θ lorsque Tn ∀& > 0, P [|Tn − θ| > &] → 0 quand n → +∞. converge en probabilité vers θ c'est à dire Proposition Soit (X1 , ..., Xn ) est un échantillon d'une loi de moyenne µ et de variance σ2 < ∞. X1 +...+Xn est un estimateur convergent de n échantillon de Bernoulli de paramètre π alors Fn X̄n = π. 8 µ. En particulier, si (X1 , ..., Xn ) est un n = X1 +...+X est un estimateur convergent n de 1.5 1.5 1.5 1 0.5 0 β1 2 β1 2 β1 2 1 0.5 0 1 β 0 2 1 0.5 0 1 β 2 0 0 1 β 2 Fig. 2 Plusieurs réalisations de trois estimateurs diérents. La vraie valeur du paramètre est le centre de la cible (point de coordonnés (1, 1)). Le premier estimateur (gure de gauche) est biaisé (on vise systématiquement trop en bas et à gauche du centre), alors que les deuxième (gure du milieu) et troisième estimateurs (gure de droite) sont non-biaisés. La variance du deuxième estimateur est plus forte que celle du troisième estimateur. 2 X12 +...+Xn 4 2 Si de plus µ4 = E[(Xi − µ) ] < ∞ alors Sn = − X̄ 2 et n n n 1 2 2 2 Sn,corr = n−1 S = n−1 i=1 (Xi − X̄) sont des estimateurs convergents de σ2 . Preuve Application directe de la loi des grands nombres (LGN). ♦ De nombreux estimateurs vérient un TCL, c'est à dire sont tels que √ L n(Tn − θ) → N (0, σ 2 (θ)) lorsque n est grand. Ce type de comportement asymptotique est couramment utilisé pour construire des intervalles de conance ou réaliser des tests (cf paragraphes suivants) et est donc particulièrement souhaitable. Proposition Soit (X1 , ..., Xn ) est un échantillon d'une loi de moyenne µ et de variance σ2 < ∞ alors En particulier, si √ L n(X̄n − µ) → N (0, σ 2 ) (X1 , ..., Xn ) est un échantillon de Bernoulli de paramètre alors π et Fn = X1 +...+Xn , n √ L n(Fn − π) → N (0, π(1 − π)) Preuve utilisation directe du théorème central limite (TCL). ♦ Sn = g(Tn ) avec Tn un estimateur dont les g : R → R une fonction. On peut alors déduire de Tn en utilisant la proposition ci-dessous. Certains estimateurs s'écrivent sous la forme propriétés asymptotiques sont connues et propriétés asymptotiques de Sn de celles 9 les Proposition (delta méthode) : Si Tn est un estimateur convergent de θ et g est continue en θ alors g(Tn ) est un estimateur convergent de g(θ). Si de plus √ L n(Tn − θ) → N (0, σ 2 ) et g est dérivable en θ alors √ L n(g(Tn ) − g(θ)) → N (0, (g (θ))2 σ 2 ) Preuve : Convergence : cf cours proba Normalité asymptotique (idée de la preuve) : comme g est dérivable en θ , on peut écrire un développement limité de la forme g(Tn ) = g(θ) + g (θ)(Tn − θ) + Rn . On a donc √ √ n(g(Tn ) − g(θ)) ≈ ng (θ)(Tn − θ) avec √ L ng (θ)(Tn − θ) → N (0, (g (θ))2 σ 2 ) Exemple d'utilisation : Soit (X1 , ..., Xn ) un n-échantillon d'une loi exponentielle de paramètre λ > 0. La densité de Xi est alors fλ (x) = λexp(−λx)1lR+ (x) On peut montrer que l'estimateur du maximum de vraisemblance est Tn = nn Tn = X̄1n et d'après les propositions précédentes 1 X̄n est un estimateur convergent de E[Xi ] = λ √ L n(X̄n − λ1 ) → N (0, σ 2 ) avec σ 2 = var(Xi ) = λ12 . En utilisant la delta méthode avec g(x) = 1/x, on en déduit que Tn est un estimateur convergent √ L n(T̄n − λ) → N (0, λ2 ) de i=1 Xi . On a donc λ 3 Estimation par intervalles de conance Dans les paragraphes précédents, des méthodes permettant d'estimer la valeur d'un paramètre inconnu θ à partir d'observations ont été proposées. Ces méthodes fournissent seulement une valeur ("estimation ponctuelle"), mais ne permettent pas de quantier la précision de cette estimation. Pour cela, on utilise généralement des intervalles de conance qui peuvent s'interpréter comme des marges d'erreur. 3.1 Construction d'intervalles de conance pour la moyenne d'un échantillon Gaussien lorsque la variance est connue On suppose dans ce paragraphe que cherche à estimer µ, X1 , ..., Xn est un n-échantillon d'une loi supposé inconnu, mais on suppose que l'écart-type σ N (µ, σ 2 ). On est connu. Ceci est rarement le cas en pratique, et ce cas particulier a donc principalement un objectif pédagogique. Nous reviendrons sur la construction d'intervalles de conance la moyenne d'un échantillon sous des hypothèses plus réalistes dans la suite de ce cours. √ X̄−µ σ2 n σ On peut alors montrer que X̄ ∼ N (µ, n ) puis que P [uα/2 ≤ ∼ N (0, 1) √ X̄ − µ ≤ u1−α/2 ] = 1 − α n σ 10 et donc avec uα le quantile d'ordre α de la loi N (0, 1), ce qui se récrit σ σ P [X̄ + uα/2 √ ≤ µ ≤ X̄ + u1−α/2 √ ] = 1 − α n n [X̄ + uα/2 √σn ; X̄ + u1−α/2 √σn ] est un intervalle aléatoire (puisque les bornes dépendent des variables aléatoires X1 , ..., Xn ) qui contient la vraie valeur du paramètre µ avec une probabilité 1 − α. Un tel intervalle est appelé intervalle de conance au niveau de conance 1 − α pour µ. En pratique les quantiles de la loi N (0, 1) peuvent être obtenus en utilisant des tables statistiques L'intervalle ou des logiciels adaptés (R, Matlab, SAS, Excel...) Dénition : l'intervalle aléatoire au niveau de conance 1−α pour [a(X1 , ..., Xn ); b(X1 , ..., Xn )] est appelé intervalle de θ si P [a(X1 , ..., Xn ) ≤ θ ≤ b(X1 , ..., Xn )]] = 1 − α. conance 3.2 Construction d'intervalles de conance pour un échantillon quelconque n est susamment grande, on peut construire des intervalles de µ en utilisant les propriétés asymptotiques de X̄ et S 2 . (X1 , ..., Xn ) un n-échantillon d'une loi vériant var(Xi ) = σ 2 < +∞. Pour Lorsque la taille de l'échantillon conance pour la moyenne Plus précisément, soit "n grand", d'après le TCL, on a : √ X̄ − µ ≈ N (0, 1) n σ Cette approximation est valable même si l'échantillon n'est pas gaussien et permet de faire des σ est connu. 2 de σ , et donc σ intervalles de conance lorsque Lorsque est un estimateur convergent pour "n grand", on a est inconnu, on peut utiliser le fait que S2 S≈σ Finalement, on en déduit que pour "n grand" : √ X̄ − µ ≈ N (0, 1) n S (Une démonstration rigoureuse de ce résultat peut être obtenue en utilisant le lemne de Slutsky : √ X̄−µ n S converge en loi vers une on peut montrer que, sous les conditions d'application du TCL, loi N (0, 1)) En pratique, on suppose généralement que cette approximation est valide dès que n ≥ 30 ( !). On a alors : P [uα/2 ≤ √ X̄ − µ ≤ u1−α/2 ] ≈ 1 − α n S puis S S P [X̄ + uα/2 √ ≤ µ ≤ X̄ + u1−α/2 √ ] ≈ 1 − α n n [X̄ + uα/2 √Sn ; X̄ + u1−α/2 √Sn ] conance 1 − α pour µ. L'intervalle niveau de est appelé "intervalle de conance asymptotique" au Exemple/exercice : Quelle est la température moyenne donnée par les thermomètres ? On donnera un intervalle de conance à 95% et on discutera la validité des hypothèses permettant la construction de cet intervalle. 11 3.2.1 Construction d'intervalles de conance pour une proportion Il est également possible de construire des intervalles de conance pour une proportion lorsque n est grand. Soit X1 , ..., Xn un n-échantillon d'une loi de Bernoulli de paramètre π. D'après le TCL, on sait que pour n grand, on a : √ F −π n ≈ N (0, 1) π(1 − π) F est un estimateur convergent de π , pour F (1 − F ) (lemme de Studsky), et on a alors : Comme par n grand, on peut remplacer le dénominateur √ F −π ≈ N (0, 1) n F (1 − F ) puis P [uα/2 ≤ √ F −π n ≤ u1−α/2 ] ≈ 1 − α F (1 − F ) F (1 − F ) F (1 − F ) √ √ P [F + uα/2 ≤ π ≤ F + u1−α/2 ]≈1−α n n √ √ F (1−F ) F (1−F ) √ √ Donc [F + uα/2 ; F + u ] est un intervalle de conance asymptotique au 1−α/2 n n niveau de conance 1 − α pour π . En pratique, on suppose généralement que cette approximation est valable dès que nπ ≥ 5 et n(1 − π) ≥ 5. Comme π est inconnu en pratique, on vérie a et enn posteriori si les conditions sont vériées pour les bornes de l'intervalle de conance, c'est à dire n(F − uα/2 √ F (1−F ) √ ) n ≥5 et n(1 − F − u1−α/2 √ F (1−F ) √ ) n ≥5 Exemple/exercice : An d'estimer les intentions de vote lors du deuxième tour d'une élection présidentielle, un institut réalise un sondage. Sur 1000 personnes interrogées au hasard, 520 pensent voter pour le candidat A et 480 pour le candidat B. Donner une estimation de la proportion d'intention de vote en faveur du candidat A dans la population totale, ainsi qu'un intervalle de conance à 95%. Combien de personne faudrait-il sonder pour être certain d'obtenir un intervalle de conance à 95% dont la largeur est inférieur à 0.1% ? 4 Tests statistiques 4.1 Généralité sur les tests Un test statistique permet de vérier si certaines hypothèses faites sur la valeur des paramètres sont réalistes ou non. Plus précisément, dans le cadre de ce cours, nous nous intéresserons à tester des hypothèses de la forme H0 : θ ∈ Θ 0 avec contre l'hypothèse alternative H1 : θ ∈ / Θ0 Θ0 ⊂ Θ. On distingue usuellement deux types d'erreurs : erreur de première espèce qui consiste à rejeter H0 alors que H0 est vraie. On appelle risque de première espèce α la probabilité de choisir H1 alors que H0 est vraie. L'erreur de deuxième espèce qui consiste à accepter H0 alors que H0 est fausse. On appelle risque de deuxième espèce β la probabilité de choisir H0 alors que H0 est fausse. L' En pratique, on xe généralement important que H1 . 1 − β α (valeurs courantes : 5%, 1%) et H0 joue donc un rôle plus est appelé la puissance du test : pour un risque de première espèce xé, on cherche à construire le test dont la puissance est la plus grande ! 12 α 4.2 Tests basés sur la loi normale 4.2.1 Tests pour une moyenne On dispose d'un n-échantillon (X1 , ..., Xn ) d'une loi d'espérance inconnue µ = E[Xi ] et on veut tester l'hypothèse simple H0 : µ = µ0 avec µ0 contre l'hypothèse alternative H1 : µ = µ0 une valeur xée. Premier cas : supposons que (X1 , ..., Xn ) ∼iid N (µ, σ2 ) avec σ connue (cf paragraphe sur les intervalles de conance). On a alors : √ X̄ − µ ∼ N (0, 1) n σ Donc, si H0 est vraie, on a µ = µ0 et PH0 [uα/2 ≤ On adopte alors la √ X̄ − µ0 ≤ u1−α /2] = 1 − α n σ règle de décision suivante : √ 0 H0 si n X̄−µ ∈ [uα/2 , u1−α/2 ]. σ H0 sinon. On accepte On refuse Remarque : On accepte donc H0 lorsque , σ σ X̄ ∈ [µ0 + uα/2 √ , µ0 + u1−α/2 √ ] n n c'est à dire lorsque X̄ est susamment proche de que le risque de première espèce soit bien égal à µ0 . La règle de décision est construite pour α. Deuxième cas : on ne suppose plus que l'échantillon est gaussien ni que la variance σ2 connue. Par contre, on suppose que l'approximation soit valable. Alors, si H0 est vraie, n est susamment grand (n ≥ 30 ?) est pour que √ X̄ − µ ≈ N (0, 1) n S on a µ = µ0 et PH0 [uα/2 ≤ √ X̄ − µ0 ≤ u1−α/2 ] = 1 − α n S On adopte alors la règle de décision suivante : √ X̄−µ0 On accepte H0 si n S ∈ [uα/2 , u1−α/2 ]. On refuse H0 sinon. Exemple/exercice : Avec les données de l'exemple 1 peut-on armer que les thermomètres mesurent bien une température de 20o C avec un risque de 5% ? 4.2.2 Test pour une proportion On dispose d'un n-échantillon (X1 , ..., Xn ) d'une loi de Bernoulli de paramètre veut tester l'hypothèse simple H0 : π = π0 contre l'hypothèse alternative 13 H1 : π = π0 π inconnu, et on On a vu que pour n "grand" (cf paragraphe sur les intervalles de conance), on a √ F −π n ≈ N (0, 1) π(1 − π) Donc, si H0 π = π0 est vraie, on a et PH0 [uα/2 ≤ √ F − π0 ≤ u1−α/2 ] ≈ 1 − α n π0 (1 − π0 ) nπ ≥ 5 On suppose généralement que cette approximation est valable lorsque et n(1 − π) ≥ 5. On adopte alors la règle de décision suivante : √ On accepte H0 si n √ F −π0 ∈ [uα/2 , u1−α/2 ]. π0 (1−π0 ) On refuse H0 sinon. Exemple/exercice : An d'estimer les intentions de vote lors du deuxième tour d'une élection présidentielle, un institut réalise un sondage. Sur 1000 personnes interrogées au hasard, 520 pensent voter pour le candidat A et 480 pour le candidat B. Etant donnés les résultats de ce sondage, peut-on supposer que les intentions de vote dans la population totale sont identiques en faveur des deux candidats ? 4.3 Tests basés sur la loi du χ2 4.3.1 Rappels sur la loi du La loi du χ2 χ2 (khi-deux) est une loi très utile en pratique car de nombreuses statistiques suivent cette loi ou convergent vers cette loi. Nous nous contenterons d'énoncer certaine de ses propriétés les plus utiles pour la suite. Denition : Soient U1 , . . . , Un , n variables N (0, 1) indépendantes. La loi de la variable aléatoire n 2 2 i=1 Ui est appelée loi du khi-deux à n degrés de libertés. On note X ∼ χn 2 + Il est relativement clair que la loi du χ est une loi de probabilité sur R , admettant une densité. X= Cette dernière est défnie par : g(t) = n t 1 t 2 −1 e− 2 1lR+ (t) n 2 2 Γ( n2 ) On peut montrer de plus les propriétés suivantes de cette loi : 2 2 Soient X ∼ χn et Y ∼ χm , indépendantes. On a alors : 2 X + Y ∼ χ(n+m) Propriétés : E(X) = n V (X) = 2n Exercice : Montrer les propriétés précédentes. 4.3.2 Tests sur la variance d'une loi normale On dispose d'un n-échantillon (X1 , ..., Xn ) d'une loi normale de paramètres µ et σ. On souhaite alors tester l'hypothèse simple H0 : σ = σ0 avec σ0 et σ1 contre l'hypothèse alternative H1 : σ = σ1 deux valeurs xées. avec σ1 > σ0 Premier cas : supposons que (X1 , ..., Xn ) ∼iid N (µ, σ2 ) avec µ connu. On a alors : n i=1 (Xi σ2 − µ)2 14 ∼ χ2n Donc, si H0 est vraie, on a σ = σ0 PH0 [ , où kn,alpha i=1 (Xi σ02 est le quantile d'ordre de décision suivante : n (X −µ)2 H0 si i=1 σ2 i 0 H0 sinon. On accepte On refuse et n α d'une − µ)2 χ2 à > kn,alpha ] = α n degrés de libertés. On adopte alors la règle < kn,alpha Remarques : On accepte donc H0 lorsque , 1 σ 2 kn,alpha (Xi − µ)2 > 0 n i=1 n n D= c'est à dire lorsque D l'estimation de la variance est susamment petite. La règle de décision est construite pour que le risque de première espèce soit bien égal à α. 2 La loi du χ permet de construire des intervalles de conance de manière similaire à celle développée dans la partie correspondante. 2 Deuxième cas : supposons que (X1 , ..., Xn ) ∼iid N (µ, σ ) avec µ inconnu, mais estimé par X̄ = 1 n n i=1 Donc, si H0 Xi . On a alors : n i=1 (Xi σ2 est vraie, on a σ = σ0 PH0 [ On adopte alors la ∼ χ2n−1 et n i=1 (Xi σ02 − X̄)2 > kn−1,α ] = α règle de décision suivante : n (X −X̄)2 H0 si i=1 σ2i 0 H0 sinon. On accepte On refuse − X̄)2 < kn−1,α Remarque importante : Les deux tests présentés ici utilisant la loi du χ2 ne sont valables que dans le cas où les observations suivent une loi normale. Exemple/exercice : Le fabriquant de thermomètres pris dans l'exemple 1 arme que ses thermomètres donnent la bonne température à 0.1o C près. Au risque de 5%, pouvez-vous conrmer ou non cette armation ? 4.3.3 Test du rapport de vraisemblance Nous allons maintenant construire un test ne se basant pas sur un type de loi particulier, mais valable du moment où l'on sait calculer la vraisemblance du modèle. p Supposons que l'on souhaite tester H0 : θ = θ0 où θ ∈ R est un paramètre, caractérisant complètement le modèle par le biais de la vraisemblance. Posons alors : λn = L(θ0 ; x1 , . . . , xn ) supL(θ; x1 , . . . , xn ) θ Notons déjà que Intuitivement, θ0 λn λn se situe entre 0 et 1. sera d'autant plus proche de 1 que l'hypothèse H0 est proche de la valeur qui réalise le maximum de vraisemblance, acceptera H0 si λn < k , avec k est vraisemblable car alors θ̂. On en déduit que l'on une valeur à déterminer pour contrôler le risque associé au test. Ce point est réglé grâce le théorème suivant, donc nous ferons la démonstration dans le cas où est un paramètre scalaire. 15 θ L Théorème : Sous l'hypothèse H0 , −2 ln λn n→∞ → χ2p Preuve : La preuve sera faite en cours, nous ne donnerons ici que les idées de base. Nous nous plaçons dans le cas où le paramètre θ̂, au voisinage de θ est scalaire. Ensuite, un développement en série de Taylor point où la dérivé s'annule (car c'est un maximum), puis la loi des grand nombre, nous donnent le résultat attendu. ♦ 4.3.4 Test d'adéquation à une loi Nous présenterons ici un test classique d'adéquation à une loi discrète, ou à une loi discrétisée. Ce test est couramment utilisé en pratique, par exemple pour tester l'équilibre d'un dé sur la base d'un échantillon de lancer obtenue avec ce dé. On voit si cet exemple que l'on se situe dans un cadre plus général que lorsque que l'on cherche à tester l'équilibre d'une pièce. Supposons que l'on se donne une variable aléatoire réelle X, dont la loi est discrète, c'est-à-dire qu'elle prend k modalités distinctes, chacune avec une probabilité pi , pour i = 1, . . . , k . Soit encore un échantillon de cette variable aléatoire de taille n, c'est-à-dire que pour chaque modalité k on observe un eectif Ni , avec n = i=1 Ni . On peut noter que l'on a E(Ni ) = npi . Formons alors la statistique D dénie par : D= k (Ni − npi )2 (4.1) npi i=1 Intuitivement, cette quantité représente la distance entre ce que l'on observe (les quantité espéré, observée de D npi . On se rend alors compte que si les (pi ) Ni ) et la sont ceux de la vraie loi, la valeur sur un échantillon sera faible. D suit asymptotiquement une loi du χ2 à k-1 degrés de liberté : on remarque en eet que k termes interviennent dans la somme, mais qu'il ne sont pas tous k indépendants : on a déjà noté que i=1 Ni = n, il y sut donc de connaitre k − 1 termes. On peut montrer que Il est alors facile d'en déduire le test des hypothèses suivantes : On rejettera alors Remarque : H0 si D>s avec H0 : ∀i, pi = pi0 H1 : ∃i pi = pi0 P (χ2k−1 > s) = α. On peut aussi étendre ce test à la comparaison de plusieurs échantillons décrits par une variable qualitative. Cette extension sera traitée à titre d'exercice. Exemple/exercice : On réalise plusieurs lancers succecifs d'un même dé, les résultats étant reportés dans le tableau ci-dessous. En se xant un risque de 5%, eut-on considérer que le dé est équilibré ? Face 1 2 3 4 5 6 Eectifs 9 16 23 10 13 19 16