LA STATISTIQUE, DE LA PRATIQUE A LA THÉORIE1 Préparation à l’agrégation externe de Mathématiques - ENS Cachan Bretagne Compléments de cours Année 2009/2010 1. Un problème pour le statisticien L’interlocuteur du statisticien est un industriel, responsable d’une machine qui produit des pièces classées soit "bonnes", codé par 0, soit "défectueuses", codé par 1. Le nombre de pièces fabriquées étant gigantesque et l’examen de chaque pièce étant relativement coûteux, il ne peut évaluer la qualité de sa production que sur un lot de taille n faible au regard de la production, par exemple n = 100. Soit x = (x1 , · · · , xn ) la suite de 0 et de 1 observée, et x̄n = 0.22 la moyenne observée. Pour l’industriel, l’enjeu est de déterminer la proportion de pièces défectueuses. Si cette proportion est trop importante, il décidera d’arrêter la production pour réparer ou changer la machine. Cependant, une telle opération est très coûteuse, et il ne veut en arriver à une telle extrémité qu’en cas de nécessité absolue. Avant de rentrer dans la modélisation à proprement parler, il est d’usage de formuler cette question : Y a-t-il lieu de considérer qu’est intervenue une part d’aléatoire ? Si oui, où se situe cette intervention du hasard ? De manière stéréotypée, on peut considérer en général que l’aléa peut avoir 2 types de provenances : 1 : Variabilité intrinsèque du phénomène. Dans notre exemple, on peut imaginer que de petites variations dans la fabrication (par exemple dans la position de la pièce dans la machine qui la fabrique) influent sur la qualité. Ces variations ne sont ni maîtrisables, ni descriptibles en détail, et seule la notion de probabilité de sortie d’une pièce défectueuse peut en rendre compte. 2 : Echantillonnage. Un échantillon est tiré au hasard dans la population des pièces fabriquées, et seule la qualité des pièces ainsi extraites est examinée. Pour être délibérement provocateur, on peut donc considérer que le statisticien met dans le mot "aléa" la somme de ses ignorances. La représentation probabiliste la plus simple que puisse proposer le statisticien consiste à supposer que (x1 , · · · , xn ) ∈ {0, 1}n est la réalisation d’une v.a. canonique (X1 , · · · , Xn ) définie sur l’espace probabilisé ({0, 1}n , B(p)⊗n ). Ainsi, pour y = (y1 , · · · , yn ) ∈ {0, 1}n : B(p)⊗n (X1 = y1 , · · · , Xn = yn ) = ps(y) (1 − p)n−s(y) , s(y) = y1 + · · · + yn représentant le nombre de pièces défectueuses. Le statisticien a donc supposé que les v.a. X1 , · · · , Xn sont indépendantes et de même loi. Ces hypothèses peuvent se justifier dans les conditions expérimentales suivantes, qui correspondent chacune à l’un des 2 types d’aléa que nous venons d’évoquer. 1 : Il a examiné n pièces produites pendant un certain laps de temps. Il admet que la production a été stable durant cette période, cette stabilité étant caractérisée par la constance de la probabilité pour chaque pièce produite d’être défectueuse. Il découle de ce postulat que les Xi ont même loi. Il admet aussi que les petites variations aléatoires pouvant influer sur la qualité de la pièce ne se répercutent pas d’une pièce à celles qui suivent, ce qui plaide en faveur de l’indépendance des v.a. 2 : Le statisticien a procédé à un tirage avec remise des n pièces dans la production qui en compte N (un tirage sans remise n’aurait pas donné un échantillon de v.a. indépendantes). Ce type de tirage lui a rendu un échantillon issu de v.a. indépendantes et de même loi. En effet : a. Pour réaliser son tirage, il a généré n v.a. S1 , · · · , Sn indépendantes et de loi uniforme sur {1, · · · , N }. Les pièces de l’échantillon sont les pièces numéros S1 , · · · , Sn , et les codes de ces pièces (0 ou 1) sont donc des v.a. indépendantes et de même loi. b. Il a pris la précaution d’utiliser un générateur aléatoire de période beaucoup plus grande que N (et donc n) afin de s’assurer que les individus de l’échantillon puissent raisonnablement être considérés comme indépendants et de loi U{1, · · · , N }. Remarquons enfin que la probabilité p qu’une pièce soit défectueuse serait atteignable si le statisticien pouvait faire un recensement de la production. En général, le fait d’extraire un échantillon est dû à la volonté de ne pas faire un tel recensement (trop long, trop coûteux, ou parfois même irréalisable). 1 Benoît Cadre - ENS Cachan Bretagne 1 2. Un modèle L’espace des observations est {0, 1}n et l’ensemble des lois possibles pour (X1 , · · · , Xn ) est l’ensemble des lois de Bernoulli {B(p)⊗n , p ∈]0, 1[}, car la seule information dont dispose le statisticien sur la vraie valeur de p est que c’est un point de ]0, 1[. Définition 2.1 1. Un modèle statistique est un triplet (E n , T , Q), où E n est l’espace des n observations (supposé probabilisable), T est une tribu de parties de E n et Q est une famille de lois de probabilités sur (E n , T ). On note plus simplement Q le modèle, s’il n’y a pas d’ambiguïté possible. 2. Le modèle statistique Q est paramétré par Θ si Q = {Pθ }θ∈Θ . Il est alors identifiable si l’application θ #→ Pθ définie sur Θ est injective. 3. Le modèle statistique Q = {Pθ }θ∈Θ paramétré par Θ est dit paramétrique si il existe d ∈ IN tel que Θ ⊂ IRd . Sinon, il est dit non paramétrique. 4. Dans le modèle statistique {Pθ }θ∈Θ , un échantillon de loi Pθ est une v.a. (souvent canonique) (Z1 , · · · , Zn ) de loi Pθ . Le modèle statistique considéré est P = {Pp , p ∈]0, 1[} avec Pp = B(p)⊗n , sur l’espace des observations X = {0, 1}n , de sorte qu’un échantillon (X1 , · · · , Xn ) de la loi Pp est une suite i.i.d. de v.a. de loi B(p). Ce modèle est paramétrique et identifiable. Il est important de comprendre la démarche adoptée par le statisticien : la seule information dont il dispose est apportée par l’observation (x1 , · · · , xn ). En étudiant les propriétés générales du modèle, i.e. les propriétés d’un échantillon de chaque loi Pp , il sera en mesure de décider quelle est la valeur de p qui correspond le mieux à l’observation. La démarche peut être résumée ainsi : le statisticien construit le modèle en examinant le phénomène, puis il ajuste la loi du modèle à l’aide des observations. Une caractéristique commune à toutes les lois de P est qu’elles sont absolument continues par rapport à ν ⊗n , où ν est la mesure de comptage sur {0, 1}. Définition 2.2 Un modèle statistique Q est dit dominé, si il existe une mesure µ telle que pour chaque P ∈ Q : P & µ. La mesure µ est la mesure dominante du modèle. Le modèle statistique P est dominé par ν ⊗n . Une fois le modèle construit, il est temps de s’interroger sur ses possiblités : quel type d’information le statisticien peut-il fournir à l’industriel ? Quelle procédure de décision le statisticien peut-il envisager ? Nous examinerons les notions suivantes : 1. Le statisticien peut proposer une valeur pour p, appelée estimation ponctuelle du paramètre. Cependant, partant d’une réalité floue car aléatoire, il ne peut espérer une réponse exacte. Il faut alors fournir un ordre de grandeur de l’imprécision de la réponse. 2. Cet ordre de grandeur est fourni par un intervalle de confiance sur p. Un intervalle de confiance peut servir à étayer une décision : par exemple d’arrêter la production si l’intervalle contient 0.2. 3. Les procédures de décision dépendent des questions posées. Pour des raisons de qualité, l’industriel doit arrêter sa production s’il apparaît que la probabilité de produire des pièces défectueuses est montée au dessus d’un seuil, par exemple 0.2. Mais un arrêt coûte cher, et il ne le fera que si le statisticien arrive à le convaincre de la nécessité d’y procéder. Tout ce qui intéresse l’industriel, c’est donc de savoir si il doit considérer que p ≤ 0.2 (et continuer à produire) ou que p > 0.2 (et se résoudre à arrêter). Une méthode pour répondre à cette question est appelée test statistique. 3. Estimation ponctuelle 3.1 La notion d’estimateur Pour le statisticien, la première tâche est de construire une fonction des observations x1 , · · · , xn , dont la valeur est proche de la vraie valeur du paramètre. Le cadre probabiliste envisagé lui fournit en prime la possibilité de dégager une marge de confiance pour son approximation. Afin d’exploiter au mieux les propriétés de son modèle, il considère donc plutôt une fonction des v.a.r. X1 , · · · , Xn . 2 Définition 3.1 Soit {Pθ }θ∈Θ un modèle statistique, (Z1 , · · · , Zn ) un échantillon de loi Pθ et g une fonction borélienne définie sur Θ et à valeurs dans IRd . Un estimateur Ĝn de g(θ) est une statistique à valeurs dans IRd , i.e. une fonction borélienne de Z1 , · · · , Zn à valeurs dans IRd indépendante de θ. N’importe quelle !n fonction de X1 , · · · , Xn est un estimateur de p. Par exemple, 0.2, X1 et la moyenne empirique X̄n = (1/n) i=1 Xi sont des estimateurs de p. Les observations x1 , · · · , xn étant issues de v.a. de loi commune B(p), il est vraisemblable que sous la loi Pp , la probabilité que les v.a. X1 , · · · , Xn prennent les valeurs x1 , · · · , xn soit maximale pour la vraie valeur du paramètre p. Cette remarque donne une indication pour construire des estimateurs. Définition 3.2 Soit {Pθ }θ∈Θ un modèle statistique dominé par µ, (Z1 , · · · , Zn ) un échantillon de loi Pθ et Ln (.; θ) la densité de Pθ par rapport à µ. 1. La vraisemblance de l’observation (z1 , · · · , zn ) est la fonction définie sur Θ par : θ #→ Ln (z1 , · · · , zn ; θ). 2. Supposons que pour toute observation (z1 , · · · , zn ) : arg max Ln (z1 , · · · , zn ; θ) = {θ̂n (z1 , · · · , zn )}. θ∈Θ La v.a. θ̂n (Z1 , · · · , Zn ) à valeurs dans Θ est appelée estimateur du maximum de vraisemblance (EMV) de θ. L’un des estimateurs défini plus haut est-il l’EMV de p ? Relativement à la mesure dominante ν ⊗n , la vraisemblance de l’observation y = (y1 , · · · , yn ) ∈ X est, pour tout p ∈]0, 1[ : Ln (y1 , · · · , yn ; p) = ps(y) (1 − p)n−s(y) . Le maximum de cette fonction est atteint en s(y)/n (dériver le logarithme de la vraisemblance), et l’EMV est donc X̄n . 3.2 Qualité des estimateurs D’après la loi faible des grands nombres, si (X1 , · · · , Xn ) est un échantillon de la loi Pp , alors X̄n → p en Pp probabilité. Il est légitime de considérer que l’éventualité x ∈ X telle que xi = Xi (x) pour chaque i = 1, · · · , n fait partie !n de l’ensemble de probabilité proche de 1 sur laquelle la moyenne empirique est proche de p. L’approximation i=1 xi /n ≈ p est ainsi justifiée. Définition 3.3 Soient {Pθ }θ∈Θ un modèle statistique, (Z1 , · · · , Zn ) un échantillon de loi Pθ , g une fonction borélienne définie sur Θ et à valeurs dans IRd , et Ĝn un estimateur de g(θ) construit avec Z1 , · · · , Zn . 1. Si Ĝn ∈ L1 (Pθ ) pour chaque θ ∈ Θ, on dit que Ĝn est sans biais lorsque pour chaque θ ∈ Θ, IEθ Ĝn = g(θ). De plus, Ĝn est dit asymptotiquement sans biais si IEθ Ĝn → g(θ) lorsque n → ∞. 2. On dit que Ĝn est consistant si pour tout θ ∈ Θ, Ĝn → g(θ) en Pθ -probabilité, lorsque n → ∞. L’estimateur X̄n est consistant (loi faible des grands nombres). La question de la convergence presque sûre est soigneusement évitée ... Une approximation n’a d’intérêt que si on peut lui ajouter des informations sur sa précision. Compte tenu du caractère aléatoire de cette approximation, les questions qui se soulèvent ici sont : quelle est la variabilité de l’estimateur par rapport au paramètre ? Quelle est la distance entre l’estimateur et le paramètre ? Définition 3.4 Soient {Pθ }θ∈Θ un modèle statistique, g une fonction borélienne définie sur Θ et à valeurs dans IRd , et Ĝn un estimateur de g(θ). On note IEθ et varθ l’espérance et la variance sous Pθ . 1. Si Ĝn ∈ L2 (Pθ ), le risque quadratique de Ĝn sous Pθ est R(θ; Ĝn ) := IEθ *Ĝn − g(θ)*2 = *IEθ Ĝn − g(θ)*2 + varθ (Ĝn ), *.* désignant la norme euclidienne. 3 ! ! ! 2. Soit Ĝn un estimateur. Si Ĝn , Ĝn ∈ L2 (Pθ ) pour chaque θ ∈ Θ, on dit que Ĝn est préférable à Ĝn ! lorsque pour chaque θ ∈ Θ, R(θ; Ĝn ) ≤ R(θ; Ĝn ). 3. On dit que Ĝn est de vitesse (vn )n (resp. asymptotiquement normal) si il existe une suite vn + ∞ telle que pour chaque θ ∈ Θ, vn (Ĝn − g(θ)) converge en loi (resp. converge vers une loi normale) sous Pθ , lorsque n → ∞. Les estimateurs X̄n et X1 de p sont sans biais. De plus, X̄n est préférable à l’estimateur X1 , car son risque quadratique est plus faible. En effet, pour tout p ∈]0, 1[ : R(p; X1 ) = p(1 − p), alors que R(p; X̄n ) = p(1 − p)/n. D’autre part, le théorème de la limite centrale nous montre aussi que X̄n est asymptotiquement normal, car pour √ chaque p ∈]0, 1[ : n(X̄n − p) → N (0, p(1 − p)) en loi pour la loi Pp . Parmi les estimateurs proposés, X̄n est celui qui possède les propriétés les plus intéressantes. Néanmoins, peut-on trouver un estimateur plus performant ? Théorème 3.1 (Rao-Blackwell) Soient {Pθ }θ∈Θ un modèle statistique, g une fonction borélienne définie ! ! sur Θ et à valeurs dans IRd , et Ĝn , Ĝn deux estimateurs de g(θ) tels que pour chaque θ ∈ Θ, Ĝn , Ĝn ∈ L2 (Pθ ). Si la statistique Ĝn est exhaustive, i.e. la loi sous Pθ de l’échantillon sachant Ĝn ne dépend ! ! pas de θ, alors IEθ (Ĝn |Ĝn ) est un estimateur préférable à Ĝn . L’idée contenue dans la notion d’exhaustivité d’une statistique est la suivante : l’échantillon ne contient pas plus d’information sur la valeur du paramètre qu’une statistique exhaustive. Dans notre exemple, l’ordre dans lequel sont observées les pièces bonnes ou défectueuses n’apporte aucune information supplémentaire sur le paramètre inconnu. Du coup, on peut résumer la suite des observations par la somme x1 +· · ·+xn , ce qui indique que l’estimateur X̄n est exhaustif. Faisons le calcul pour étayer cette intuition. Soit p ∈]0, 1[. Pour chaque y1 , · · · , yn ∈ {0, 1} et z ∈ {0, · · · , n} tels que y1 + · · · + yn = z, on a : " $ # " $ X = y , · · · , X = y P p 1 1 n n # Pp X1 = y1 , · · · , Xn = yn #nX̄n = z = Pp (nX̄n = z) z p (1 − p)n−z 1 = = z. Cnz pz (1 − p)n−z Cn La loi de (X1 , · · · , Xn ) sachant nX̄n est donc la loi uniforme sur {y ∈ X : y1 + · · · + yn = nX̄n }. Cette loi ne dépend pas du paramètre p, donc X̄n est une statistique exhaustive : toute l’information sur p contenue dans X1 , · · · , Xn est en fait contenue dans X̄n . Par ailleurs, X1 étant un estimateur de p, on sait avec le théorème de Rao-Blackwell que IEp (X1 |X̄n ) est un estimateur préférable à X1 . Comme IEp (X1 |X̄n ) = X̄n , on retombe sur l’inévitable moyenne empirique ! 4