Estimations METHODE STATISTIQUES POUR L’INFORMATIQUE CHAPITRE 3 LICENCE INFORMATIQUE – UNIVERSITE BORDEAUX 1 – SEMESTRE 5 – ANNEE SCOLAIRE 2004/2005 1 INFERENCES STATISTIQUES Le calcul des probabilités permet, à partir d’un modèle théorique, d’associer à un évènements une probabilité qui mesure la fréquence de son apparition dans une suite d’épreuves identiques. La construction du modèle même est une autre investigation qui reste à faire. Les techniques statistiques vont nous aider à reconstruire le modèle ou nous autoriser à nous poser un certain nombre de questions sur le modèle à partir d’un bon nombre d’observations (un échantillon) de réalisations de l’événement étudié. Ces inférences sont fondées sur des critères tels que la vraisemblance des valeurs observées, l’absence de biais ou la convergence des prévisions suggérées par l’échantillon lorsque la taille de celui ci augmente. 1.1 ESTIMATION La théorie de l’estimation est une problématique importante en statistique théorique. Disposant d’un échantillon x1,…, xn de réalisations d’une v.a. X d’une loi donnée, ou un ou plusieurs paramètres sont inconnus, quelles valeurs peut on proposer pour les paramètres inconnus ? Nous appelons dans la suite la v.a. X variable aléatoire parente. Pour l’évaluation d’un paramètre (ou un vecteur paramètre) inconnu dont dépend la loi de X, considérons l’application : ^n=^n(X1, …, Xn), qui est une v.a. prenant une valeur possible de . L’application ^n doit être mesurable. Elle sera applée un estimateur de ; i.e. pour une réalisation (x1, …, xn), la valeur de est évaluée par ^(x1,…,xn). Il faut noter que le nombre d’arguments d’un estimateur n’est pas fixé et varie avec n, qui est la taille de l’échantillon. 1.2 QUALITES SOUHAITEES Jusqu’ici, un estimateur est défini de façon arbitraire. Il est évident qu’une telle introduction ne présente un intérêt que si on l’enrichit de certaines qualités ou de certaines mesures de performances. Nous énumérons dans la suite quatre propriétés souhaitées. Elles ne sont pas nécessairement compatibles. De plus, la recherche d’un estimateur possédant une performance souhaitée peut ne pas être une tache facile. 1.2.1 Maximum de vraisemblance 1.2.1.1 Définition On peut justifier le choix d’un estimateur par le fait qu’il maximise la vraisemblance de la réalisation de l’échantillon (x1, …, xn) : Si la loi est discrète, la fonction de vraisemblance est la probabilité pour que (X1, …, Xn) = (x1, …, xn) . Si la loi admet une densité f, la fonction de vraisemblance est le produit f(x 1)…f(xn) . Dans les deux cas la fonction de vraisemblance, notée Ln() dépend de n, de (x1, …, xn) et de . L’estimateur ^(x1,…,xn) est appelé un estimateur de maximum de vraisemblance, s’il maximise la fonction de vraisemblance. 1.2.1.2 Exemple On dispose d’un échantillon (x1, …, xn) d’une v.a. X suivant une loi de Poisson de paramètre inconnu. Trouver un estimateur du maximum de vraisemblance . 1.2.1.3 Solution La fonction de vraisemblance vaut suffit de maximiser e n x ... x 1 n Ln ( ) e n x ... x 1 n x1!...xn ! . Pour maximiser cette expression par rapport à , il , ou, de façon équivalente, son logarithme. Un calcul simple, passant par la dérivation du logarithme, aboutit à l’estimateur du maximum de vraisemblance : ̂ n 1 n xi . On en déduit n i 1 que l’estimation du paramètre d’une loi de Poisson par la méthode de vraisemblance nous conduit à identifier le paramètre par la moyenne arithmétique de l’échantillon. 1 1.2.2 Biais d’un estimateur Un estimateur ^n de est dit sans biais si son espérance vaut pour tout n N* ; sinon on dit qu’il est biaisé. Si l’espérance de ^n converge vers , il est alors appelé asymptotiquement sans biais. L’estimateur ̂ n 1 n xi est un estimateur sans biais du paramètre de la loi de Poisson. n i 1 1.2.3 Convergence d’un estimateur Un estimateur ^n de est dit convergent s’il tend en probabilité vers , lorsque n. 1.2.4 Efficacité absolue d’un estimateur Un estimateur ^n de est absolument efficace si, étant convergent et sans biais, il possède la plus petite variance parmi tous les estimateurs partageant les deux premières propriétés. 1.3 QUELQUES ESTIMATEURS STANDARD 1.3.1 Estimateur standard de l’espérance Soit (x1, …, xn) un échantillon d’une v.a. possédant une espérance inconnu µ. Son estimateur standard est la ˆ n ( x1 ,..., x n ) moyenne de l’échantillon : µ 1 n xi . Cet estimateur est sans biais. Il est de plus convergent n i 1 lorsque la v.a. parente admet une variance (la loi des grands nombres). Dans la suite, pour alléger la notation, nous supprimons la référence de l’estimateur à l’indice n et aux arguments x1, …, xn lorsqu’il n’y a pas de danger de confusion. 1.3.2 Estimateur standard d’une distribution de probabilité finie Soit (x1, …, xn) un échantillon d’une v.a. X prenant une des valeurs 1,…, k avec les probabilités inconnues p1, …, pk respectivement. L’estimateur standard du vecteur p=(p1, …, pk) est défini par : pˆ i 1 n 1 ( x j ) , n j 1 i i=1…k. Autrement dit, l’estimateur standard de chaque pi est la fréquence relative d’occurrences de i dans l’échantillon. C’est un estimateur sans biais. On peut aussi démontrer que cet estimateur maximise la fonction de vraisemblance. 1.3.3 Estimateur standard de la variance Soit X une v.a. admettant une espérance µ et une variance V, toutes deux inconnues. Soit (x1, …, xn) un ˆ , Vˆ ) est donné par : échantillon de X. L’estimateur standard joint ( µ µˆ 1 n xi n i 1 1 n Vˆ ( xi µˆ )² . n 1 i 1 Cet estimateur de la variance est convergent et sans biais. On notera qu’il vaut la variance empirique multipliée par le facteur n/(n-1). On démontre en effet que l’espérance de cette dernière vaut (n-1)/nV et il faut donc la multiplier par n/(n-1) pour la dé-biaiser. Dans le cas ou l’espérance µ est connue, l’estimateur standard de la variance devient : n 1 Vˆ ( xi µ)² et cet estimateur de la variance est convergent et sans biais. n 1 i 1 2 1.3.4 Estimateur standard de l’écart type Il est donné par ˆ section précédente. Vˆ , ou Vˆ est l’estimateur standard de V, donné par l’une des deux formules de la 1.3.5 Estimateurs standard de la covariance et du coefficient de corrélation Etant donné un échantillon ((x1, y1),…,(xn, yn)) du couple (X, Y) de v.a. réelles admettant chacune une espérance et une variance inconnues. L’estimateur standard côv de cov(X, Y) est donné par : côv 1 n ( xi µˆ )( yi ˆ) n 1 i 1 Ou µ̂ et ˆ sont les estimateurs standard de l’espérance de X et de celle de Y respectivement. De même, l’estimateur standard coˆrr de corr(X, Y) est donné par : coˆrr côv ou ̂ et ˆ sont les ˆ .ˆ estimateurs standard de l’écart type de X et de celui de Y respectivement. Ces deux estimateurs sont sans biais. 1.4 INTERVALLE DE CONFIANCE (J. ISTAS) Etant donné un estimateur ^n d’un paramètre inconnu , quelle confiance peut-on lui accorder ? Prenons un intervalle centré de rayon autour de ^ et cherchons à déterminer si appartient ou non à cet intervalle. Evidemment, sauf dans des cas très particuliers, on ne peut répondre avec certitude à la question [^n +/- ] ? On peut toutefois confirmer, du moins en principe, qu’avec une certaine probabilité , la vraie valeur du paramètre se trouve dans cet intervalle. Nous dirons alors que l’intervalle [^n +/- ] est un intervalle de confiance de niveau . 1.4.1 Exemple Soit (x1, …, xn) un échantillon d’une v.a. normale réduite d’espérance µ inconnue (i.e. N(µ, 1)). Trouver un intervalle de confiance de niveau pour l’estimateur standard de l’espérance. 1.4.2 Solution ˆ n ( x1 ,..., x n ) L’estimateur standard de l’espérance étant défini par : µ 1 n xi , on démontre facilement que n i 1 c’est une v.a. normale d’espérance µ et de variance 1/n. On en déduit que la v.a. n (µˆ n µ) est une v.a. normale centrée réduite. Nous avons alors, pour tout > 0 : Pr µˆ n µ n 1 2 e x² 2 x dx . Pour un niveau donné, choisissons de sorte que : appartient à l’intervalle 1 2 e x² 2 x dx . On peut alors affirmer que µ , µˆ µˆ avec la probabilité . n n Il s’agit donc d’un intervalle de confiance de niveau pour l’estimateur. 1.5 INTERVALLE DE CONFIANCE ASYMPTOTIQUE Il arrive souvent que le calcul exact d’un intervalle de confiance soit difficile, alors que le calcul d’un intervalle de confiance approché, lorsque la taille de l’échantillon tend vers l’infini, soit accessible. On parle alors d’intervalle de confiance asymptotique. 3 1.5.1 Exemple Soit X une v.a. quelconque d’espérance µ inconnue et de variance 1. Soit (x 1, …, xn) un échantillon de X. On ˆ n ( x1 ,..., x n ) considère l’estimateur standard µ asymptotique de niveau pour 1 n xi n i 1 de µ. Trouver un intervalle de confiance µ̂n . 1.5.2 Solution µ̂n . Nous savons en revanche que, lorsque n, Nous ne connaissons pas la loi de la v.a. n (µˆ n µ) converge en loi vers une v.a. normale centrée et de variance 1. Nous avons donc asymptotiquement : 1 Pr µˆ n µ n 2 Choisissons alors de sorte que e x² 2 x 1 2 dx . e x² 2 x dx . Nous pouvons confirmer que la probabilité pour que le paramètre inconnu µ se trouve dans l’intervalle , µˆ µˆ vaut asymptotiquement . Par n n conséquent, cet intervalle est un intervalle de confiance asymptotique de niveau pour l’estimateur proposé. 2 TESTS D’HYPOTHESES La problématique des tests statistiques se distingue de celle de l’estimation par le fait qu’elle ne s’intéresse pas à la valeur exacte du paramètre inconnu. Elle cherche à déterminer si le paramètre satisfait ou non certaines hypothèses données. A titre d’exemple, on peut considérer le cas d’un institut de sondage qui, disposant d’un échantillon, souhaite faire certaines prévisions sur la probabilité qu’un candidat à l’élection batte les autres sans se préoccuper dans un premier temps du chiffre exact de la cote de popularité. 2.1 EXEMPLE Soit X une v.a. uniformément répartie dans l’intervalle [a, 1], où a est inconnu, mais on sait que 0 a <1. Disposant d’un échantillon (x1, …xn), on souhaite établir une règle qui, en fonction de celui ci, décide : Soit H0 : a = 0 Soit H1 : a > 1 Une stratégie serait de se fixer un seuil s et d’accepter H0 si le minimum de l’échantillon est inférieur à s. Si le minimum le dépasse on rejette H0 en faveur de H1. Quelque soit la décision, elle peut comporter deux risques : Rejeter H0, alors qu’elle est vraie (risque de première espèce) Accepter H0, alors qu’elle est fausse (risque de deuxième espèce). Il n’est pas possible de minimiser ces deux risques simultanément. La méthode classique consiste à favoriser H0 en fixant une borne à ne pas dépasser pour l’erreur de première espèce : la probabilité du rejet H0, lorsqu’elle est vraie ne doit pas dépasser un certain seuil . On peut, de façon tout à fait équivalente, considérer ϐ = 1 - , ce qui est la probabilité d’accepter H0 lorsqu’elle est vraie. C’est donc le seuil de confiance que l’on accorde à H 0. Traditionnellement, la valeur de est choisie dans l’intervalle [0.01, 0.1]. 4 2.2 DEFINITIONS Soit X une v.a. dont la loi dépend d’un paramètre inconnu . Soit l’ensemble des valeurs possibles que peut prendre (en général un sous ensemble de Rk), appelé espace du paramètre. Il est divisé en deux sous-ensembles disjoints et non vides : = 1 U 2. On associe alors à ces deux régions les hypothèses : H0 : 0 ; H1 : 1 . Lorsque 0 se réduit à un seul élément, l’hypothèses H0 est appelée hypothèse nulle. Un test statistiques dans ce contexte, est une stratégie associant à un échantillon (x 1, …xn) une des hypothèses H0 ou H1. C’est donc une famille d’applications de Rn dans l’ensemble {H0, H1}. Le risque de première espèce et le risque de deuxième espèce se définissent, dans le cas général, par les deux probabilités données ci-dessus. Un seuil à ne pas franchir pour le premier risque est imposé : c’est la probabilités maximale du rejet de H0 lorsqu’elle est vraie. La puissance d’un test, respectant le seuil , est mesurée en termes de probabilité du rejet de H 0 lorsqu’elle fausse. On peut remplacer la donnée de par celle de ϐ = 1 - , appelé niveau de confiance de H0. 2.2.1 Un test pour l’exemple précédent Etant donné un seuil à ne pas dépasser pour le risque de première espèce, cherchons une frontière s pour le minimum de l’échantillon. Rappelons que la stratégie consistait à retenir H0 si le minimum de l’échantillon ne dépassait pas s et la rejeter sinon. Calculons alors la probabilité de son rejet, lorsqu’elle est vraie. Celle ci n’est que la probabilité pour que le minimum, dans un n-échantillon de v.a. uniformément répartie sur l’intervalle [0, 1] dépasse s ; ce qui vaut (1 – s)n. On en déduit que le risque de première espèce est majoré par , si (1 – s)n . Et pour cela, le choix de s= 1-1/n convient. 2.2.2 Quelques tests standards Nous n’entrons pas ici dans une théorie des tests statistiques, et nous nous suffirons dans la suite de l’introduction de quelques tests courants fréquemment sollicités dans les inférences statistiques (et donc à connaître !). Les théorèmes, justifiant leur application, sont admis sans démonstration. 2.2.2.1 Test du Khi-deux d’ajustement Soit X une v.a. prenant valeur dans l’ensemble {a1, …ak}/ Nous voulons tester l’hypothèse nulle : H0 : la distribution de probabilité est le vecteur p = ( p(1), …, p(k) ) contre l’alternative : H1 : elle est différente du vecteur p. n Etant donné un échantillon (x1, …, xn), définissons la fréquence observée de ai par : N (i) 1ai ( x j ) pour j 1 tout i = 1, …, k. C’est la fréquence d’observations de ai dans l’échantillon. Définissons, par ailleurs, la fréquence relative de a i par f n (i ) N (i ) pour tout i = 1, …, k. n Nous avons déjà utilisé le vecteur fn comme estimateur standard du vecteur de p de distribution. Introduisons maintenant une mesure d’écart entre les fréquences théoriques et les fréquences observées, appelée Khi-deux d’ajustement par : [ p(i ) f n (i )]² . Nous avons alors : p(i ) i 1 k n2 ( p, f n ) n 5 2.2.2.1.1 Théorème Sous l’hypothèse nulle H0, la suite n2 ( p, f n ) converge en loi, lorsque n vers une v.a. du Khi-deux à k-1 degrés de liberté. 2.2.2.1.2 Exemple On a procédé à 120 lancers d’un même dé. Les résultats sont donnés dans le tableau suivant : Face 1 2 3 4 5 6 Fréquence 14 16 28 30 18 14 Ce dé est-il pipé ? (on donnera la réponse avec un niveau de confiance ϐ = 0.95). 2.2.2.1.3 Solution Dans ce problème, la v.a. prend valeurs dans {1, 2, 3, 4, 5, 6} et l’hypothèse nulle H 0 est celle de la distribution p1 =p2 = … = p6 = 1/6. On calcule le Khi-deux d’ajustement n2 ( p, f n ) =12.8. Or, la table de la loi du Khi-deux indique que pour le ² à 5=6 – 1 degrés de liberté, on ne doit pas dépasser la valeur de 11.1 au niveau de confiance 0.95. On rejette donc l’hypothèse d’uniformité du dé, en retenant qu’il est pipé. 2.2.2.1.4 Remarque Dans l’application du test d’ajustement du khi-deux, il faut veiller toutefois à ce que les fréquences théoriques np(i) ne soient pas trop faibles, 5 étant considéré comme la limite inférieure traditionnelle. Si besoin est, on peut regrouper plusieurs valeurs dans une seule classe afin de réaliser cette exigence. Cette technique permet d’appliquer ce test à toutes les v.a. discrètes prenant valeurs dans un ensemble fini ou infini. 2.2.2.2 Test du Khi-deux d’indépendance Soient X et Y deux v.a. prenant valeurs dans les ensembles {a 1, …, ak} et {b1, …,bl} respectivement, où k et l sont deux entiers positifs quelconques (distincts ou égaux). En dehors de cette confirmation, rien n’est connu sur ces v.a. Nous souhaitons tester l’hypothèse : H0 : X et Y sont indépendantes contre l’alternative H1 : elle ne sont pas indépendantes. Disposant d’un échantillon d’observations du couple (X, Y) : ( (x1, y1), (x2, y2), …, (xn, yn) ), on définit les fréquences observées conjointes et marginales dans l’échantillon par : n Nij 1( ai ,b j ) ( x h , y h ) ; c’est la fréquence d’observations du couple (ai, bj). h 1 n Mi 1ai ( x h ) ; c’est la fréquence d’observations de ai. h 1 n Li 1b j ( yh ) ; c’est la fréquence d’observations de bj. h 1 2.2.2.2.1 Exemple (J. Istas) 300 conducteurs sont classifiés suivant leur âge et le nombre d’accidents qu’ils ont subits pendant les deux dernières années. Les résultats sont donnés dans le tableau suivant : Age/Nombre d’accidents 0 1 ou 2 3 ou plus 21 8 23 14 [22, 26] 21 42 12 27 71 90 19 6 L’âge des conducteurs et le nombre d’accidents subis sont-ils indépendants ? (on donnera la résponse avec un niveau de confiance ϐ = 0.95). 2.2.2.2.2 Solution Il s’agit de tester l’indépendance de deux v.a. (l’age et le nombre d’accidents). Le théorème précédent s’applique avec k = l = 3. On calcule alors le Khi-deux d’indépendance. Il vient n2 ( N ' , M ' L' ) 16.51 . Nous sommes donc ramenés à rejeter l’hypothèse d’indépendance H0 au niveau de confiance 0.95. En effet la table de la loi du Khi-deux indique que pour le ² de 4 = (3 – 1)*(3 – 1) degrés de liberté, on dépasse la valeur 9.48 avec une probabilité 0.05. 2.2.2.3 Test de Student Le problème de décider si l’espérance d’une v.a. normale est égale ou non à une grandeur donnée se pose souvent en statistique. Dans la suite, nous considérons une v.a. X normale d’espérance µ et de variance toutes deux inconnues. On se donne une valeur a. Nous voulons tester : H0 : µ = a contre l’alternative H1 : µ a. Désignons par /Xn et Sn les estimateurs standard de µ et de respectivement. Posons Zn n Xn a . Nous Sn avons alors : 2.2.2.3.1 Théorème Sous l’hypothèse H0, on a Zn n Xn µ et Zn suit une loi de Student à n degrés de liberté. Sn Sous l’hypothèse H1, on a Zn n Xn µ µa et Zn croît en valeur absolue avec n. n Sn Sn On en déduit alors la règle de décision suivante. Soit le seuil de risque de première espèce à ne pas dépasser. Alors on calcule Zn. Soit t/2(n-1) la valeur dont la probabilité de dépassement dans la loi de Student à n degrés de liberté vaut /2. Alors : Si |Zn| ne dépasse pas t/2(n) , alors on choisit H0. Sinon on choisit H1. 2.2.2.3.2 Remarques Le test précédent n’est pas un test asymptotique et peut s’appliquer aussi pour des valeurs relativement peu élevées de n. Si n tend vers l’infini, la loi de Student tend vers une normale centrée réduite. Traditionnellement, lorsque n 30, on remplace l’écart dans la loi de Student par celui dans la loi normale. Si nous voulons tester H0 : µ a contre l’alternative H1 : µ > a, la région d’acceptation de H0 sera S X n , a t / 2 (n 1) n . De façon similaire, on peut tester H0 : µ a contre l’alternative H1 : µ < a. n 2.2.2.3.3 Exemple Un fabriquant de piles électriques affirme que la durée moyenne du matériel qu’il produit est de 170h. On prélève un échantillon de 30 piles et on observe une durée de vie moyenne de 155h et une variance empirique S=30h². Que peut on penser de la confirmation du fabriquant (en supposant que la durée de vie est une v.a. normale d’espérance et de variance inconnues ?) 2.2.2.3.4 Solution 7 Soit µ l’espérance de la durée de vie d’une pile. D’après le théorème précédent, 30 X µ suit une loi de S Student t(29). Un calcul simple donne la valeur approximative –2.74 à et écart. Or, suivant une table de la loi de Student, pour un seuil А=0.02, t(29) ne doit pas dépasser en valeur absolue 2.518. Il y a donc une bonne raison pour rejeter l’affirmation du fabriquant. 8