UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2014 – 2015 L2 Économie Cours de B. Desgraupes Méthodes Statistiques Séance 02: Échantillonnage Table des matières 1 Modèles statistiques 1 2 Caractéristiques d’un échantillon 2.1 Estimateurs . . . . . . . . . . . . 2.2 La moyenne empirique . . . . . . 2.3 La fréquence empirique . . . . . 2.4 La variance empirique . . . . . . . . . . 2 2 4 5 5 3 Comportement asymptotique 3.1 Comportement de X̄n . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Comportement de Sn2 . . . . . . . . . . . . . . . . . . . . . . . . . 7 8 12 4 Échantillons issus d’une variable normale 12 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Modèles statistiques On considère dans cette séance un échantillon de taille n extrait d’une population de taille N et on s’intéresse à un caractère X associé aux éléments de la population (les “individus statistiques”). L’échantillon d’individus résulte d’un tirage avec remise dans la population. À cet échantillon correspond un échantillon de valeurs prises par la caractère X. Le caractère X est considéré comme une variable aléatoire et l’échantillon de valeurs est consitué de n réalisations de cette variable. C’est sur cet échantillon que se font les calculs. On représente cette situation au moyen d’un modèle statistique qui comporte en particulier une famille de lois de probabilité parmi lesquelles se trouve la loi suivie par la variable X. Ces lois de probabilité dépendent en général d’un ou plusieurs paramètres notés θ. Dans ce cas, on dit qu’on a un modèle statistique paramétrique. Par exemple : • pour une loi normale, les paramètres sont la moyenne m et l’écart-type σ ; 1 • pour une loi de Bernoulli ou une loi binomiale, c’est la probablilité p. Un des problèmes les plus courants en statistique consiste à trouver la valeur du ou des paramètres pour la population. Mais comme on ne peut pas en général avoir l’information nécessaire, on doit ce contenter des valeurs fournies par l’échantillon. À partir de l’échantillon de valeurs, on essaie de résoudre divers types de problèmes : 1. les problèmes de test : choix entre deux éventualités dont une seule est vraie. 2. les problèmes d’estimation ponctuelle : choisir une valeur du paramètre θ. À partir des données de l’échantillon, il faut définir une fonction (appelée aussi une statistique) dont la valeur estime θ. 3. les problèmes d’estimation ensembliste : déterminer un sous-ensemble de l’ensemble des paramètres représentant un ensemble d’éventualités. Cela conduit à la détermination d’intervalles de confiance. L’expérience aléatoire consiste en n expériences élémentaires identiques et indépendantes. On considère que chaque Xi est une variable aléatoire et on suppose qu’elles sont indépendantes entre elles. D’autre part, elles sont identiquement distribuées (puisque distribuées comme X elle-même). En abrégé, on dit que les Xi sont i.i.d. qui est l’abréviation de indépendantes et identiquement distribuées. On a donc : E(Xi ) = m et Var(Xi ) = σ 2 2 ∀i = 1, . . . , n Caractéristiques d’un échantillon 2.1 Estimateurs On notera (X1 , . . . , Xn ) l’échantillon de valeurs. Les statistiques calculées à partir de cet échantillon dépendent évidemment de l’échantillon qui a été tiré. On dit qu’il s’agit de quantités empiriques puisqu’elles résultent de l’expérience (tirage, observation, mesure, etc.). On va voir en particulier les quantités empiriques les plus couramment utilisées : 1. la moyenne empirique ; 2. la variance empirique ; 3. la fréquence empirique. 2 Si on avait tiré un autre échantillon, la statistique empirique aurait certainement une autre valeur. Il s’agit donc d’une valeur aléatoire et on s’intéressera à son espérance et à sa variance. Exemple Comment estimer la taille moyenne d’un étudiant de l’université Paris-Ouest ? On peut procéder en prenant 10 étudiants au hasard et en mesurant la taille moyenne parmi ces dix étudiants. Notre estimateur serait ici la moyenne de l’échantillon. Deux questions viennent à l’esprit : 1. la taille de l’échantillon est-elle importante ? Intuitivement, on sent bien que plus l’échantillon sera grand et meilleure sera l’estimation. 2. le nombre d’échantillons tirés est-il important ? Intuitivement encore, on se dit que si on arrive à accumuler beaucoup de valeurs de la statistique qui sert d’estimateur (en tirant beaucoup d’échantillons), à la fin, en moyenne, on aura une “bonne” estimation de la vraie valeur du paramètre qui nous intéresse. On verra plus loin, à travers les propriétés asymptotiques, dans quelle mesure la théorie vient confirmer ces intuitions. On peut construire beaucoup d’estimateurs différents pour estimer un paramètre donné. Certains seront considérés comme meilleurs que d’autres selon différents critères. Une bonne manière de quantifier cette propriété est de calculer l’espérance de l’estimateur (c’est-à-dire sa valeur moyenne compte-tenu de sa distribution probabiliste) et de voir si elle fournit la vraie valeur. Si on appelle T l’estimateur et θ le paramètre, on se demande si : ? E(T ) = θ Ce n’est pas nécessairement le cas. Définition 2.1. On dit que l’estimateur T est sans biais lorsque E(T ) = θ. La quantité b(θ) = E(T ) − θ s’appelle le biais de l’estimateur. Si b(θ) 6= 0, on dit que l’estimateur est biaisé. Un estimateur est donc sans biais lorsque son espérance est égale à ce qu’il estime. 3 2.2 La moyenne empirique Définition 2.2. La moyenne empirique de l’échantillon est n X̄n = 1X Xi n i=1 Cette moyenne empirique est utilisée comme estimateur de la moyenne véritable de la population. • Espérance de X̄n n E X̄n = E 1X Xi n i=1 ! n = 1X E Xi n i=1 = 1X m n i=1 n 1 × nm n =m = L’espérance de la moyenne empirique est la moyenne véritable dans la population. On peut aussi dire que X̄n est un estimateur sans biais de m. • Variance de X̄n Les variables étant indépendantes, on sait que la variance de la somme est égale à la somme des variances. On écrit : ! n 1X Xi Var X̄n = Var n i=1 = n 1 X Var Xi 2 n i=1 = n 1 X 2 σ n2 i=1 1 × n σ2 n2 σ2 = n = Autrement dit, plus la taille de l’échantillon est grande plus la variance de l’estimateur X̄n est faible. 4 Si on prend la racine carrée, on voit que l’écart-type de la moyenne empirique σ est égal à √ : pour diviser l’écart-type par 2, il faut multiplier la taille de n l’échantillon par 4. 2.3 La fréquence empirique Dans le cas particulier d’une expérience de Bernoulli, c’est-à-dire d’une variable aléatoire X qui peut prendre seulement les valeurs 0 ou 1, la moyenne empirique est appelée fréquence empirique. On la note Fn plutôt que X̄n . Puisque les valeurs de l’échantillon prennent la valeur 0 ou 1, leur somme est le nombre de fois où la valeur est 1. En divisant par n, on obtient donc la proportion des variables qui prennent la valeur 1. Supposons que X ∼ B(p). On prend la fréquence empirique comme estimateur du paramètre p. Rappel L’espérance d’une loi de Bernoulli B(p) est égale à p et la variance à p(1 − p). On déduit donc des calculs sur la moyenne empirique que : E Fn =p p(1 − p) Var Fn = n On peut donc dire que Fn est un estimateur sans biais de la proportion p dans la population. 2.4 La variance empirique Définition 2.3. On appelle variance empirique d’une échantillon (X1 , . . . , Xn ) la quantité n 1X (Xi − X̄)2 Sn2 = n i=1 C’est la somme des carrés des écarts à la moyenne empirique (qu’on note ici simplement X̄ au lieu de X̄n ). La variance est une quantité au carré. Cela signifie que si les valeurs Xi sont, par exemple, mesurées en mètres, alors la variance est en mètres carrés. La racine Sn s’appelle l’écart-type empirique. Il est mesuré dans la même unité que les Xi . Lorsque la variance σ 2 de la population est inconnue, on peut utiliser Sn2 comme estimateur mais on va voir que c’est un estimateur biaisé. Il existe une autre formule (dite formule développée) pour calculer la variance d’un échantillon : n 1X 2 X − X̄ 2 Var(x) = n i=1 i 5 On interprète cette formule en disant que la variance est égale à la moyenne des carrés moins le carré de la moyenne. Démonstration de la formule développée n Var(x) = 1X (Xi − X̄)2 n i=1 n = 1X 2 (X − 2Xi X̄ + X̄ 2 ) n i=1 i = 1X 2 1X 1X 2 Xi − 2Xi X̄ + X̄ n i=1 n i=1 n i=1 = 1X 1 1X 2 Xi − 2X̄ Xi + nX̄ 2 n i=1 n i=1 n = 1X 2 X − 2X̄ 2 + X̄ 2 n i=1 i = 1X 2 X − X̄ 2 n i=1 i n n n n n n n • Espérance de Sn2 On va commencer par calculer : n X (Xi − X̄)2 = i=1 n X 2 (Xi − m) − (X̄ − m) i=1 = n X (Xi − m)2 − 2(Xi − m)(X̄ − m) + (X̄ − m)2 i=1 n n n X X X (X̄ − m)2 (Xi − m) + (Xi − m)2 − 2(X̄ − m) = i=1 i=1 i=1 n X = (Xi − m)2 − 2n(X̄ − m)2 + n(X̄ − m)2 i=1 n X = (Xi − m)2 − n(X̄ − m)2 i=1 6 On peut maintenant calculer l’espérance : n E Sn2 =E 1X (Xi − X̄)2 n i=1 ! n X 1 = E (Xi − m)2 − n(X̄ − m)2 n i=1 ! n = 1X E (Xi − m)2 − E (X̄ − m)2 n i=1 1 n σ 2 − V ar(X̄) n σ2 = σ2 − n n−1 2 = σ n L’espérance de la variance empirique n’est pas égale à la variance véritable n−1 . dans la population. C’est une valeur un peu plus petite à cause du terme n C’est donc un estimateur biaisé. Pour cette raison, on définit la variance empirique modifiée comme ceci : = n s2n = n 1 X Sn2 = (Xi − X̄)2 n−1 n − 1 i=1 La variance empirique modifiée est un estimateur non biaisé de la variance de la population : E s2n = σ 2 • Variance de Sn2 Le calcul de la variance de Sn2 se fait sans difficulté. On donne ici directement le résultat : n − 1 Var(Sn2 ) = (n − 1)µ4 − (n − 3)µ22 3 n où µ2 et µ4 désignent respectivement les moments centrés d’ordre 2 et 4 de l’échantillon. 1 C’est une quantité qui est globalement en , autrement dit qui tend vers 0 n µ4 − µ22 lorsque n → +∞ : Var(Sn2 ) ∼ . n 3 Comportement asymptotique L’étude du comportement asymptotique est celui des propriétés probabilistes des estimateurs lorsque la taille des échantillons n augmente et tend vers l’infini. On cherche à savoir s’il existe une limite et comment sont distribuées les valeurs empiriques calculées. 7 3.1 Comportement de X̄n Il y a deux résultats importants qui précisent le comportement asymptotique de la moyenne empirique lorsque n → +∞ : • la loi des grands nombres justifie l’intuition selon laquelle plus l’échantillon est grand, plus la moyenne empirique se rapproche de l’espérance ; • le théorème central limite indique comment sont réparties les valeurs obtenues à partir de différents échantillons. • Loi des grands nombres Théorème 3.1. Si {Xi }i≥1 est une suite de variables aléatoires réelles indépendantes et identiquement distribuées, alors la moyenne empirique X̄n tend presque sûrement vers la moyenne m lorsque n → +∞. Ce théorème stipule donc que plus l’échantillon est grand et plus (il est probable que) la moyenne empirique se rapproche de la moyenne de la population. • Remarques : • La moyenne m est l’espérance des variables aléatoires Xi : elles ont toutes la même puisqu’elles sont identiquement distribuées. • La notion de “convergence presque sûre” évoquée par ce théorème sera expliquée dans le Cours de Probabilités. Elle signifie que ce résultat est probabiliste : il veut dire qu’il y a une probabilité 100% que la limite de X̄n soit m lorsque n → +∞. • Théorème central limite Théorème 3.2. Si {Xi }i≥1 est une suite de variables aléatoires réelles indépendantes et identiquement distribuées avec E(X √ i ) = m etVar(Xi ) = σ pour tout n X̄n − m i, alors la loi de probabilité de la quantité se rapproche de la loi σ normale N (0, 1) lorsque n → +∞. √ n X̄n − m . Une autre Ce théorème renseigne donc sur la distribution de σ manière d’utiliser cet énoncé consiste à dire que “si n est assez grand” alors la σ moyenne empirique suit “approximativement” une loi normale N (m, √ ). n • Remarques : σ • On a vu précédemment que E Xn = m et Var Xn = √ . L’expression n √ n X̄n − m Xn − E Xn représente donc , autrement dit c’est la variσ σ Xn able aléatoire X̄n qui est centrée et réduite. 8 • La notion de “convergence en loi ” évoquée par ce théorème sera expliquée dans le Cours de Elle signifie que la fonction de répartition √ Probabilités. n X̄n − m tend (en tant que fonction) vers la fonction de la variable σ de répartition de la loi normale N (0, 1). • Le théorème central limite renseigne aussi sur√la vitesse de convergence : on dit qu’on a une vitesse de convergence en n. Le théorème central limite est souvent énoncé de la manière suivante : √ n X̄n − m L −→ N (0, 1) lorsque n → +∞ σ L La notation “ −→” signifie “convergence en loi”. Le point le plus remarquable dans ce théorème est qu’il est valable quelle que soit la loi de probabilité suivie par les variables Xi , la seule condition étant qu’elles aient la même loi avec une espérance et une variance finies. Exemple On cherche à connaître la répartition de la taille moyenne en centimètres des étudiants de l’université Paris-Ouest. On a donc sélectionné 200 groupes de 10 étudiants et pour chacun d’eux on a calculé la moyenne des tailles. Voici l’histogramme des 200 moyennes obtenues (centrées et réduites comme dans le théorème) : 0.0 0.1 0.2 0.3 0.4 n=10 −3 −2 −1 0 9 1 2 3 Sur la figure suivante, on a ajouté en surimpression la densité de la loi normale N (0, 1) : 0.0 0.1 0.2 0.3 0.4 n=10 −3 −2 −1 0 1 2 3 On a ensuite recommencé l’expérience en prenant des échantillons de tailles de plus en plus grandes : n = 100, puis n = 200, puis n = 500. On obtient les histogrammes suivants et on observe l’adéquation de plus en plus grande entre la densité empirique représentée par l’histogramme et la densité réelle de la loi N (0, 1). 10 0.0 0.1 0.2 0.3 0.4 0.0 0.1 0.2 0.3 0.4 n=100 −2 −3 0 −2 2 −1 0 11 4 n=200 1 2 3 0.0 0.1 0.2 0.3 0.4 n=500 −3 3.2 −2 −1 0 1 2 3 Comportement de Sn2 Les deux théorèmes précédents (LGN et TCL) décrivent le comportement asymtotique de la moyenne empirique X̄n en montrant que celle-ci tend presque sûrement vers m et en précisant la manière dont elle est dispersée autour de m. On peut de même trouver le comportement asymptotique de la variance empirique Sn2 et de la variance empirique modifiée s2n . On a les deux résultats suivants : Théorème 3.3. Si X est telle que E(X 2 ) est finie, alors Sn2 et s2n tendent presque sûrement vers Var(X) lorsque n tend vers l’infini. Théorème 3.4. Si X est telle que E(X 4 ) est finie, alors la quantité converge en loi vers la loi normale N (0, 1). 4 √ S 2 − µ2 n pn µ4 − µ22 Échantillons issus d’une variable normale Dans certains cas, on dispose d’informations exactes concernant les estimateurs : c’est en particulier le cas, si l’échantillon est extrait d’une population gaussienne. Cela se produit lorsque toutes les variables Xi suivent une loi normale N (m, σ). On dit que ce sont des variables gaussiennes. 12 On obtient alors des propriétés précises sur la distribution des moyennes et des variances empiriques et des propriétés intéressantes concernant l’indépendance. Rappel Si X1 et X2 sont des variables aléatoires gaussiennes, alors on a l’équivalence suivante : X1 et X2 sont indépendantes ⇐⇒ Cov(X1 , X2 ) = 0 L’implication de gauche à droite est toujours vraie (résultat connu du Cours de Probabilités). Ce résultat stipule que la réciproque est vraie dans le cas gaussien. • Loi de X̄n On sait que toute combinaison linéaire de lois normales est normale. On en déduit que X̄n suit une loi normale lorsque toutes les Xi sont gaussiennes. On a calculé précédemment l’espérance et la variance de X̄n . On a donc : σ X̄n ∼ N m, √ n On peut aussi écrire ce résultat sous la forme : √ n(X̄n − m) ∼ N (0, 1) σ Ce dernier résultat ressemble beaucoup au théorème central limite mais la grance différence ici est qu’il est valable pour tout n et non pas seulement lorsque n → +∞. On montre aussi que, dans le cas gaussien, les variables X̄n et Xi − X̄n sont indépendantes (voir exercice en TD). On en déduit le résultat important suivant : Théorème 4.1. Dans le cas d’un échantillon gaussien, la moyenne empirique X̄n et la variance empirique s2n sont des variables aléatoires indépendantes. • Loi de s2n La loi de la variance empirique est aussi connue dans le cas d’un échantillon issu d’une variable normale. On a le résultat suivant : Théorème 4.2 (de Fisher). Si (X1 , . . . , Xn ) est un √ échantillon de variables n(X̄n − m) s2 gaussiennes i.i.d. de loi N (m, σ), alors les variables et (n − 1) n2 σ σ suivent indépendamment une loi N (0, 1) et une loi du χ2 à n − 1 degrés de liberté. 13 S2 S2 s2 Comme on a (n − 1) n2 = n n2 , la propriété est vraie aussi pour n n2 . σ σ σ Une conséquence de ce théorème est de donner une expression simple de la variance de s2n dans le cas d’un échantillon gaussien. s2 En effet, puisque (n − 1) n2 suit une loi du χ2 à n − 1 degrés de liberté, on σ a (sachant que la variance de la loi du χ2 vaut deux fois le nombre de degrés de liberté) : s2n Var (n − 1) 2 = 2(n − 1) σ 2 (n − 1) ⇐⇒ Var(s2n ) = 2(n − 1) σ4 ⇐⇒ Var(s2n ) = 14 2σ 4 n−1