Introduction à la statistique inférentielle Jonathan Lenoir (MCU), [email protected] Unité ”Écologie et Dynamique des Systèmes Anthropisés” http://www.u-picardie.fr/edysan/ Plan du cours Introduction à la statistique inférentielle 1. Notions de population et d’échantillon 2. Notion d’estimation 3. Estimations de la moyenne et de la variance 4. Ecart type et erreur standard 5. Intervalle de confiance de la moyenne 5.1. Définition 5.2. Grands échantillons (n > 30) et loi quelquonque 5.3. Petits échantillons (n 30) et loi Normale ou presque 5.4. À partir de n’importe quoi Plan du cours Introduction à la statistique inférentielle 1. Notions de population et d’échantillon 2. Notion d’estimation 3. Estimations de la moyenne et de la variance 4. Ecart type et erreur standard 5. Intervalle de confiance de la moyenne 5.1. Définition 5.2. Grands échantillons (n > 30) et loi quelquonque 5.3. Petits échantillons (n 30) et loi Normale ou presque 5.4. À partir de n’importe quoi Distinguer échantillon de population La population, pour un statisticien, est l’ensemble quasi exhaustif des individus ayant quelque chose en commun permettant de définir l’appartenance à la population et pour lesquels on étudie une ou plusieurs variable (ex : la taille des Français adultes) Population PB : Dans la plupart des cas, on ne peut pas mesurer tous les individus de la population, pour des raisons pratiques L’échantillon, pour un statisticien, est un sous ensemble de la population étudiée pourlequel on effectue une série de mesures sur la ou les variables étudiées Echantillon Statistiques descriptive et inférentielle La statistique descriptive ne s’intéresse qu’à la sous-population formée par l’échantillon avec comme objectif de décrire et résumer la variabilité de l’échantillon Population La statistique inférentielle s’intéresse à la population dont est issus l’échantillon avec comme objectif d’inférer, à partir des seules caractéristiques de l’échantillon, des propriétés plus générales concernant la population La statistique inférentielle s’appuie sur la théorie des probabilités mais correspond à la démarche inverse en quelque sorte Echantillon Statistique inférentielle et probabilités Statistique inférentielle Echantillon Théorie des probabilités Population Echantillon Connaissant la distribution d’une variable dans une population, la théorie des probabilités permet de tirer aléatoirement un échantillon Connaissant les valeurs prises par une variable sur un échantillon, la statistique inférentielle essaie de préciser la distribution de la variable dans la population Plan du cours Introduction à la statistique inférentielle 1. Notions de population et d’échantillon 2. Notion d’estimation 3. Estimations de la moyenne et de la variance 4. Ecart type et erreur standard 5. Intervalle de confiance de la moyenne 5.1. Définition 5.2. Grands échantillons (n > 30) et loi quelquonque 5.3. Petits échantillons (n 30) et loi Normale ou presque 5.4. À partir de n’importe quoi Estimation Echantillonnage aléatoire Population N Caractéristiques de la population 𝜇, 𝜎 2 Statistique descriptive Echantillon n Caractéristiques de l’échantillon 𝑥, 𝑠 2 Peut-on utiliser les caractéristiques de l’échantillon comme estimateurs des caractéristiques de la population ? Créons une population connue En 2012, la taille (cm) de l’homme adulte en France suit une loi Normale de moyenne 175 cm et d’écart type 6 cm et la population d’homme (>18 ans) est de 24,4 millions : > THpop2012 <- rnorm(24400000, m=175, sd=6) > str(THpop2012) num [1:24400000] 183 170 182 164 180 ... > hist(THpop2012) Tirons un échantillon : calcul de la moyenne Tirons aléatoirement 10 individus dans la population ”THpop2012” : > THech2012 <- sample(THpop2012, size=10, replace=TRUE) > THech2012 [1] 166.1977 171.1953 176.3641 175.9884 174.5392 168.5511 [7] 170.8548 176.0439 180.2083 164.9668 Moyenne de l’échantillon ”THech2012” : > mean(THech2012) [1] 172.491 Moyenne de la population ”THpop2012” : > mean(THpop2012) [1] 174.9984 𝑥 = 172 μ = 175 𝑥≈μ Calcul de la variance de l’échantillon Variance de l’échantillon ”THech2012” : > sum((THech2012-mean(THech2012))^2)/10 [1] 21.97042 Variance de la population ”THpop2012” : > sum((THpop2012-mean(THpop2012))^2)/length(THpop2012) [1] 35.98994 > 6^2 [1] 36 𝑠 2 = 22 𝜎 2 = 36 𝑠2 < 𝜎 2 Les caractères d’un bon estimateur 1. La précision : c’est l’erreur inévitable faite en substituant au paramètre (moyenne ou variance) son estimation à partir de l’échantillon 2. l’absence de biais : c’est l’erreur systématique faite toujours dans le même sens et sur-estimant ou sous-estimant, selon les cas, le paramètre (moyenne ou variance) La moyenne de l’échantillon est un estimateur non biaisé de la moyenne de la population sans tendance à sur-estimer ou sousestimer la moyenne de la population La variance de l’échantillon est un estimateur biaisé de la variance de la population et elle aura tendance à sous-estimer la variance de la population Plan du cours Introduction à la statistique inférentielle 1. Notions de population et d’échantillon 2. Notion d’estimation 3. Estimations de la moyenne et de la variance 4. Ecart type et erreur standard 5. Intervalle de confiance de la moyenne 5.1. Définition 5.2. Grands échantillons (n > 30) et loi quelquonque 5.3. Petits échantillons (n 30) et loi Normale ou presque 5.4. À partir de n’importe quoi Preuve par la répétition Prouvons que la moyenne de l’échantillon est un estimateur non biaisé de la moyenne de la population mais que la variance de l’échantillon est un estimateur biaisé de la variance de la population, en : 1. Tirant aléatoirement 1000 échantillons tous constitués de 10 individus issus de la population francaise d’homme adulte 2. Calculant les 1000 tailles moyennes des 1000 échantillons et en comparant la distribution des ces valeurs à la valeur réelle 3. Calculant les 1000 variances de la variable taille dans les 1000 échantillons et en comparant la distribution des ces valeurs à la valeur réelle Tirage de k échantillons à n individus Echantillon 1 𝑥1,1 ⋮ 𝑥𝑘,1 ⋯ 𝑥1,𝑛 ⋱ ⋮ ⋯ 𝑥𝑘,𝑛 𝑥1,0 ⋮ 𝑥𝑘,0 𝑋 Population Echantillon 2 𝑥1,1 ⋮ 𝑥𝑘,1 ⋯ 𝑥1,𝑛 ⋱ ⋮ ⋯ 𝑥𝑘,𝑛 2 𝑠1,0 ⋮ 2 𝑠𝑘,0 𝑆2 [...] Pour notre exemple : n = 10 k = 1000 Echantillon k Exercice A l’aide de la fonction ”rnorm()” commencez par créer la population ”THpop2012” de 24,4 millions d’homme adulte observée en France en 2012 et dont la taille (cm) suit une loi Normale de moyenne 175 cm et d’écart type 6 cm : > THpop2012 <- rnorm(24400000, m=175, sd=6) > str(THpop2012) num [1:24400000] 183 170 182 164 180 ... Exercice Créez une matrice nulle de taille 1000*10 à l’aide de la fonction ”matrix()” : > MILLE <- matrix(data=0, ncol=10, nrow=1000) > str(MILLE) num [1:1000, 1:10] 0 0 0 0 0 0 0 0 0 0 ... Remplissez ensuite votre matrice des 1000 échantillons de 10 individus issus de la population ”THpop2012” à l’aide d’une boucle for et de la fonction ”sample()” : > for (i in 1:1000) { MILLE[i, ] <- sample(THpop2012, size=10, replace=TRUE) } > str(MILLE) num [1:1000, 1:10] 169 182 166 181 173 ... Exercice A l’aide de la fonction ”apply()”, calculez les 1000 moyennes des 1000 échantillons et stockez le résultat dans un objet de classe ”numeric” : > M <- apply(MILLE, 1, mean) > str(M) num [1:1000] 179 178 175 176 174 ... > mean(M) [1] 175.0526 A l’aide de la fonction ”hist()”, tracez l’histogramme de la distribution des 1000 moyennes : > hist(M) A l’aide de la fonction ”abline()”, ajouter une droite verticale de couleur bleue représentant la position de la moyenne de la population : > abline(v=175, col="blue", lwd=2, lty=2) Exercice Que pensez vous de la moyenne de l’échantillon en tant qu’estimateur de la moyenne de la population ? Moyenne de la population Moyennes des échantillons La moyenne de l’échantillon est un estimateur non biaisé de la moyenne de la population Exercice À partir de la formule de la variance utilisée en statistique descriptive, calculez les 1000 variances des 1000 échantillons et stockez le résultat dans un objet de classe ”numeric” : > V1 <- apply(MILLE, 1, function(x) sum((x-mean(x))^2)/10) > str(V1) num [1:1000] 50.13 8.74 20.84 42.93 31.29 ... > mean(V1) [1] 31.70267 Utilisez maintenant la fonction ”var()” de R (cf. statistique inférentielle) pour calculer les 1000 variances des 1000 échantillons et stockez le résultat dans un nouvel objet de classe ”numeric” : > V2 <- apply(MILLE, 1, var) > str(V2) num [1:1000] 55.7 9.71 23.16 47.7 34.76 ... > mean(V2) [1] 35.22519 Exercice Tracez l’histogramme de la distribution des 1000 variances calculées à partir de la formule utilisée en statistique descriptive et positionnez la variance de la population dans la distribution : > hist(V1, breaks=c(seq(0, 130, 10)), ylim=c(0, 350)) > abline(v=36, col="blue", lwd=2, lty=2) Tracez l’histogramme de la distribution des 1000 variances issues de la fonction ”var()” de R (cf. statistique inférentielle) et positionner la variance de la population dans la distribution : > hist(V2, breaks=c(seq(0, 130, 10)), ylim=c(0, 350)) > abline(v=36, col="blue", lwd=2, lty=2) Exercice Comparez les distributions de V1 et V2 autour de la valeur de la variance de la population ? Qu’en pensez-vous ? Statistique descriptive Statistique inférentielle Variance de la population Variances des échantillons V2 est un meilleur estimateur de la variance de la population que V1 car V1 tend à sous-estimer la variance de la population dans 66% des cas contre 56% des cas pour V2 Un meilleur estimateur de la variance La variance de l’échantillon est donc une estimation biaisée de la variance dans la population : 𝑠2 < 𝜎 2 𝑠2 = 𝜎2 = 1 𝑛 𝑛 𝑥𝑖 − 𝑥 2 𝑖=1 1 𝑁 𝑁 𝑥𝑖 − 𝜇 2 𝑖=1 Pour corriger ce biais il suffit de multiplier la variance de l’échantillon par n/(n-1) pour obtenir une estimation sans biais : 𝜎2 = 𝑛 1 2 𝑠 = 𝑛−1 𝑛−1 𝑛 𝑥𝑖 − 𝑥 2 𝑖=1 C’est la formule utilisée par le logiciel R Pourquoi diviser par n-1 plutôt que par n ? L’idée derrière cette correction de la formule de la variance est liée à la notion de degré de liberté ”ddl” ou nombre d’éléments indépendants : Dans un échantillon de taille n, on dispose de n individus indépendants (tirage aléatoire avec remise) constituants n ddl A partir de la moyenne de l’échantillon, nous n’avons besoin que de n-1 individus pour pouvoir retrouver la valeur de la variable aléatoire du dernier individus constituants ainsi n-1 ddl Exemple Soit un échantillon de 3 individus dont la taille moyenne est 175 cm Deux individus mesurent 170 et 175 cm Quel est la taille du troisième individus? Démonstration par les maths Est-ce vraiment nécessaire de se faire du mal ? Bilan de l’estimation Statistique inférentielle : 𝜎2 = 1 𝑁 𝑁 𝑥𝑖 − 𝜇 2 𝑖=1 1 𝜇= 𝑁 𝑠2 < 𝜎 2 ≈ 𝜎 2 𝜎2 = 𝑠2 = 1 𝑛−1 1 𝑛 𝑥𝑖 − 𝑥 2 𝑖=1 𝑛 𝑥𝑖 𝑖=1 −𝑥 2 𝑥𝑖 𝑖=1 Population N 𝑥≈μ Vrai si n > 30 𝑛 𝑁 𝑥= 1 𝑛 1 𝑥= 𝑛 𝑛 𝑥𝑖 𝑖=1 𝑛 𝑥𝑖 𝑖=1 Statistique descriptive : Echantillon n Plan du cours Introduction à la statistique inférentielle 1. Notions de population et d’échantillon 2. Notion d’estimation 3. Estimations de la moyenne et de la variance 4. Ecart type et erreur standard 5. Intervalle de confiance de la moyenne 5.1. Définition 5.2. Grands échantillons (n > 30) et loi quelquonque 5.3. Petits échantillons (n 30) et loi Normale ou presque 5.4. À partir de n’importe quoi Ecart type C’est simplement la racine carrée de la variance : 𝜎= 𝜎2 𝜎= 𝜎2 Erreur standard Attention, ne pas confondre erreur standard et écart type : On parle d’écart type des données autour de leur moyenne ce qui n’est autre que la variance exprimée dans la même unité que la variable mesurée (NB: gros avantage par rapport à la variance) On parle d’erreur standard lorsque l’on s’intéresse à l’écart type d’un estimateur comme la moyenne de l’échantillon par exemple Formule de l’erreur standard de la moyenne : 𝑒. 𝑠. = 𝜎 𝑛 𝜎 𝑒. 𝑠 = 𝑛 Si n > 30, alors on peut remplacer la variance réelle par son approximation qui n’est pas biasée Concrétement, qu’est-ce que c’est ? Taille (cm) de 24,4 millions Moyennes des tailles (cm) de d’hommes adulte en France 1000 échantillons de 10 (population) individus chacun Moyenne de la population Ecart type des données autour de la moyenne Erreur standard de la moyenne = ecart type Exercice A l’aide de la fonction ”sd()”, calculez l’écart type des 1000 moyennes stockées dans l’objet ”M” : > sd(M) [1] 1.900075 Sachant que l’écart type de la population est de 6 cm et que la taille de l’échantillon est de 10, calculez l’erreur standard à partir de la formule : > 6/sqrt(10) [1] 1.897367 > sd(THpop2012)/sqrt(10) [1] 1.897102 Valeur proche de sd(M) Calculez l’erreur standard de la moyenne à partir d’un échantillon : > sd(THech2012)/sqrt(10) [1] 1.562426 Exercice Créez une seconde matrice nulle de taille 1000*3 et remplissez la de 1000 échantillons de taille 3 : > MILLE2 <- matrix(data=0, ncol=3, nrow=1000) > for (i in 1:1000) { MILLE2[i, ] <- sample(THpop2012, size=3, replace=TRUE) } Calculez les 1000 moyennes des 1000 échantillons et stockez le résultat dans un nouvel objet : > M2 <- apply(MILLE2, 1, mean) Tracez deux histogrammes de la distribution des 1000 moyennes, l’un correspondant aux 1000 échantillons de taille 10 et l’autre aux 1000 échantillons de taille 3 : > par(mfrow=c(1,2)) > hist(M, breaks=c(seq(160, 190, 1)), ylim=c(0, 250)) > hist(M2, breaks=c(seq(160, 190, 1)), ylim=c(0, 250)) Exercice Comparez les deux distributions de moyenne ? Qu’en pensez-vous ? Moyennes de 1000 échantillons de taille 10 Moyennes de 1000 échantillons de taille 3 6 6 𝑒. 𝑠. = 10 𝑒. 𝑠. = 1.9 𝑒. 𝑠. = 3 𝑒. 𝑠. = 3.5 L’erreur standard de la moyenne permet d’apprécier la précision de la moyenne et cette précision augmente avec la taille de l’échantillon Exercice A l’aide de la fonction ”rpois()” créez une nouvelle population de 100000 observations dont la variable nombre d’individus suit une loi de Poisson de paramètre = 3 et tracez en l’histogramme : > popPOIS <- rpois(100000, lambda=3) > str(popPOIS) num [1:100000] 0 2 4 3 4 1 6 1 4 1 ... > hist(popPOIS) Exercice Créez trois matrices nulle de taille 1000*3, 1000*10 et 1000*30 respectivement et remplissez chacune d’elle de 1000 échantillons de taille 3, 10 et 30 respectivement tous issus de la population dont la distribution suit une loi de poisson de paramètre = 3 : > MILLEpois3 <- matrix(data=0, ncol=3, nrow=1000) > MILLEpois10 <- matrix(data=0, ncol=10, nrow=1000) > MILLEpois30 <- matrix(data=0, ncol=30, nrow=1000) > for (i in 1:1000) { MILLEpois3[i, ] <- sample(popPOIS, size=3, replace=TRUE) MILLEpois10[i, ] <- sample(popPOIS, size=10, replace=TRUE) MILLEpois30[i, ] <- sample(popPOIS, size=30, replace=TRUE) } Exercice Calculez les 1000 moyennes des 1000 échantillons pour chacune des trois matrices et stockez les résultats dans un objet de classe ”list” : > Mlist <- list() > Mlist[[1]] <- apply(MILLEpois3, 1, mean) > Mlist[[2]] <- apply(MILLEpois10, 1, mean) > Mlist[[3]] <- apply(MILLEpois30, 1, mean) > str(Mlist) List of 3 $ : num [1:1000] 4.33 3 4 2.67 2.33 ... $ : num [1:1000] 3.3 1.6 2.4 2.8 2.2 1.8 3.2 3.5 2.7 3.3 ... $ : num [1:1000] 2.97 2.77 2.8 3.57 3.2 ... Exercice Tracez l’histogramme de la distribution de la population d’origine ainsi que les 3 histogrammes de la distribution des 1000 moyennes issues des 3 échantillonnages de taille 3, 10 et 30 : > par(mfrow=c(2, 2)) > hist(popPOIS, breaks=c(seq(0, 15, 1))) > hist(Mlist[[1]], breaks=c(seq(0, 10, 0.25)), ylim=c(0, 350)) > hist(Mlist[[2]], breaks=c(seq(0, 10, 0.25)), ylim=c(0, 350)) > hist(Mlist[[3]], breaks=c(seq(0, 10, 0.25)), ylim=c(0, 350)) Exercice Que pensez-vous de l’effet de la distribution de la population sur la distribution d’échantillonnage de la moyenne ? Population d’origine de taille 100000 Moyennes de 1000 échantillons de taille 3 Moyennes de 1000 échantillons de taille 10 Moyennes de 1000 échantillons de taille 30 La distribution d’échantillonnage de la moyenne tend vers une loi Normale lorsque la taille de l’échantillon grandit (n > 30) et ce quelle que soit la distribution de la population d’origine Plan du cours Introduction à la statistique inférentielle 1. Notions de population et d’échantillon 2. Notion d’estimation 3. Estimations de la moyenne et de la variance 4. Ecart type et erreur standard 5. Intervalle de confiance de la moyenne 5.1. Définition 5.2. Grands échantillons (n > 30) et loi quelquonque 5.3. Petits échantillons (n 30) et loi Normale ou presque 5.4. À partir de n’importe quoi Intervalle de confiance L’idée de base de l’intervalle de confiance est de donner la précision d’une estimation (avec un risque d’erreur ) comme la précision de la moyenne de l’échantillon par exemple : Le calcul de l’erreur standard est une première façon d’apprécier la précision de la moyenne de l’échantillon Mais il est plus juste de fournir un intervalle dont on puisse dire sans grand risque () de se tromper qu’il contient la vraie valeur de la moyenne C’est la zone dans laquelle se trouve ”trés probablement”, mais sans certitude aucune, la véritable valeur de la moyenne Le risque d’erreur est fixé par l’utilisateur, strictement compris entre 0 et 1 et généralement proche de 0 (0.05, 0.01, 0.001) NB: On peut calculer un intervalle de confiance à 1- pour n’importe quel paramètre (moyenne, variance, pourcentage, différence, coefficient de correlation, pente de régression, etc.) Intervalle de confiance de la moyenne Plusieurs cas de figures peuvent se présenter pour le calcul de l’intervalle de confiance de la moyenne au risque d’erreur : Grand échantillon (n > 30) et distribution quelconque : 𝐼𝐶1−𝛼 [𝜇] = 𝑥 ± 𝑢1−𝛼 2 Comme nous venons de le voir dans ce cas précis, la distribution de la moyenne tend vers une loi Normale 𝜎2 𝑛 Petit échantillon (10 n 30) et distribution symétrique ou très petit échantillon (n <10) et distribution Normale : 𝐼𝐶1−𝛼 [𝜇] = 𝑥 ± 𝑡𝑛−1,1−𝛼 2 𝜎2 𝑛 Dans ce cas, on a recours aux lois de Student et on peut se référer aux tables ”t” de Student Très petit échantillon (n < 10) et distribution quelconque : Pas de recours paramétrique mais un recours aux méthodes non paramétrique de ré-échantillonnage type ”bootstrap” Plan du cours Introduction à la statistique inférentielle 1. Notions de population et d’échantillon 2. Notion d’estimation 3. Estimations de la moyenne et de la variance 4. Ecart type et erreur standard 5. Intervalle de confiance de la moyenne 5.1. Définition 5.2. Grands échantillons (n > 30) et loi quelquonque 5.3. Petits échantillons (n 30) et loi Normale ou presque 5.4. À partir de n’importe quoi La magie de la distribution de la moyenne Attention, ne pas confondre : Distribution de la population d’origine (quelconque ici) Distribution de la moyenne d’échantillonnage qui tend vers la loi Normale pour des échantillons de grande taille (n > 30) : c’est MAGIQUE Quelles sont les ”super pouvoirs” de sa divinité la loi Normale ? Francis Galton (1822-1911) Rappels sur les propriétés de la loi Normale Soit U une variable aléatoire qui suit une loi Normale de moyenne et d’écart type et dont la densité de probabilité est notée fX et la fonction de répartition est notée FX : 𝑋~𝑁(𝜇, σ) 𝑓𝑈 𝑧 = 1 𝜎 2𝜋 1 𝑧−𝜇 2 − 𝑒 2 𝜎 𝑃(𝑈 = 𝑢) = 0 𝑢 𝑃 𝑈 < 𝑢 = 𝑃 𝑈 ≤ 𝑢 = 𝐹𝑈 (𝑢) = 𝑓𝑈 𝑧 𝑑𝑧 −∞ 𝜇 𝑓𝑈 𝑧 𝑑𝑧 = 0.5 −∞ +∞ 𝑓𝑈 𝑧 𝑑𝑧 = 1 −∞ Fonction de répartition de la loi Normale 𝑈~𝑁(𝜇, σ) 𝑈 ∗ ~𝑁(0,1) 𝑈−𝜇 𝜎 1 −1𝑧 2 𝑓𝑈 ∗ 𝑧 = 𝑒 2 2𝜋 𝑈∗ = 𝑢 𝐹𝑈 ∗ (𝑢) = 𝑓𝑈 ∗ 𝑧 𝑑𝑧 −∞ 𝐹𝑈 ∗ (1.96) = 0.975 Calculez : 𝐹𝑈 ∗ (−1.96) 𝐹𝑈 ∗ −1.96 = 1 − 0.975 Intervalle de confiance à 95% Représentations graphique et numérique du calcul de l’IC à 95% : 2.5% 97.5% 95% 1.96 1 𝐹𝑈 ∗ 1.96 = 2𝜋 −∞ 𝐹 𝑈∗ 1 − 𝑧2 𝑒 2 𝑑𝑧 = 0.975 −1.96 1 −∞ 2𝜋 −1.96 = 1.96 = 1 − 𝑧2 𝑒 2 𝑑𝑧 = 0.025 1.96 𝑓𝑈 ∗ 𝑧 𝑑𝑧 = −1.96 𝐼𝐶95% 𝜇 = 𝑥 ± 1.96 ∗ 𝜎 −1.96 𝑓𝑈 ∗ 𝑧 𝑑𝑧 − −∞ 𝐼𝐶95% 0 = 0 ± 1.96 ∗ 1 𝑓𝑈 ∗ 𝑧 𝑑𝑧 = 0.95 −∞ Intervalle de confiance à 99% Représentations graphique et numérique du calcul de l’IC à 99% : 0.5% 99.5% 99% 2.576 𝐹𝑈 ∗ 2.576 = 2𝜋 −∞ 𝐹 𝑈∗ 1 1 −∞ 2𝜋 2.576 𝐼𝐶99% 𝜇 = 𝑥 ± 2.576 ∗ 𝜎 −2.576 𝑓𝑈 ∗ 𝑧 𝑑𝑧 − −∞ 𝐼𝐶99% 0 = 0 ± 2.576 ∗ 1 1 − 𝑧2 𝑒 2 𝑑𝑧 = 0.005 2.576 𝑓𝑈 ∗ 𝑧 𝑑𝑧 = −2.576 1 − 𝑧2 𝑒 2 𝑑𝑧 = 0.995 −2.576 −2.576 = = 𝑓𝑈 ∗ 𝑧 𝑑𝑧 = 0.99 −∞ Exercice Calculez la proportion d’aire sous la courbe pour 1 écart type () : - = Table de la fonction de répartition 𝐼𝐶??% 0 = 0 ± 1 ∗ 1 𝐹𝑈 ∗ 1 = 0.8413 𝐼𝐶??% 𝜇 = 𝑥 ± 1 ∗ 𝜎 𝐹𝑈 ∗ −1 = 1 − 𝐹𝑈 ∗ 1 = 1 − 0.8413 = 0.1587 1 𝑓𝑈 ∗ 𝑧 𝑑𝑧 = 𝐹𝑈 ∗ 1 − 𝐹𝑈 ∗ −1 = 0.8413 − 0.1587 = 0.6826 −1 Exercice Quel est donc le risque d’erreur que la vraie valeur de la moyenne tombe en dehors de l’IC à 68% ? /2 /2 Conclusion : donner l’erreur standard équivaut à prendre un risque de 32% que la vraie valeur de la moyenne tombe en dehors de l’intevalle associé et on préferera l’IC à 95% Quel fractile pour un risque donné ? 𝑈~𝑁(𝜇, σ) 𝑈 ∗ ~𝑁(0,1) 𝑈−𝜇 𝜎 1 −1𝑧 2 𝑓𝑈 ∗ 𝑧 = 𝑒 2 2𝜋 𝛼 −1 𝐹𝑈 ∗ 1 − = 𝑢1−𝛼 2 2 −1 𝛼 𝐹𝑈 ∗ = −𝑢1−𝛼 2 2 𝑈∗ = Pour un risque de 5% : 𝐹𝑈−1 ∗ (0.975) = 1.96 𝐹𝑈−1 ∗ 0.025 = −1.96 Autre exemple de table des fractiles 𝑈~𝑁(𝜇, σ) /2 𝑈 ∗ ~𝑁(0,1) 𝑈∗ = 𝑈−𝜇 𝜎 𝛼 𝐹𝑈−1 ∗ 𝛼 = ±𝑢 1− 2 Pour un risque de 5% : 𝐹𝑈−1 ∗ (0.05) = ±1.96 /2 Vous n’avez pas de table ? R est là ! La fonction ”qnorm()” permet de trouver le fractile de la loi Normale pour un risque d’erreur : > qnorm(1-(0.05/2)) [1] 1.959964 > qnorm(0.05/2) [1] -1.959964 La fonction ”pnorm()” permet à l’inverse de trouver le pourcentage de l’aire sous la courbe de Gauss pour un fractile donné : > pnorm(1.959964) [1] 0.975 > pnorm(-1.959964) [1] 0.025 Quel est le fractile associé au risque d’erreur de 0.1% ? Retournons à nos moutons Comme nous venons de le voir, pour un grand échantillon (n > 30) et quelle que soit la distribution de la population d’origine de moyenne et de variance 2, la moyenne M calculée sur cet échantillon suivra une loi approximativement Normale de moyenne et d’écart type égal à l’erreur standard de la moyenne : 𝜎2 𝑀~𝑁(𝜇, ) 𝑛 Comme l’échantillon est de grande taille (n > 30), on peut remplacer la variance 2 par son estimation : 𝜎2 𝑀~𝑁(𝜇, ) 𝑛 𝑀−𝜇 𝜎2 𝑛 ~𝑁(0, 1) Invoquer le ”pouvoir” de la loi Normale On sait désormais que pour une variable dont la distribution tend vers une loi Normale, comme la distribution d’échantillonnage de la moyenne, alors l’intervalle de confiance au risque d’erreur est paramétré par la formule suivante : 𝑀−𝜇 𝜎2 𝑛 ~𝑁(0, 1) 𝜎2 𝑀~𝑁(𝜇, ) 𝑛 𝐼𝐶1−𝛼 0 = 0 ± 𝑢1−𝛼 ∗ 1 2 𝜎2 𝐼𝐶1−𝛼 𝜇 = 𝑥 ± 𝑢1−𝛼 ∗ 𝑛 2 Pour un risque d’erreur à 5% : 𝜎2 𝑀~𝑁(𝜇, ) 𝑛 𝜎2 𝐼𝐶95% 𝜇 = 𝑥 ± 1.96 ∗ 𝑛 /2 /2 Plan du cours Introduction à la statistique inférentielle 1. Notions de population et d’échantillon 2. Notion d’estimation 3. Estimations de la moyenne et de la variance 4. Ecart type et erreur standard 5. Intervalle de confiance de la moyenne 5.1. Définition 5.2. Grands échantillons (n > 30) et loi quelquonque 5.3. Petits échantillons (n 30) et loi Normale ou presque 5.4. À partir de n’importe quoi Les petits tracas des petits échantillons Attention pour n 30 : La distribution de la moyenne d’échantillonnage présente un étalement des valeurs avec un aplatissement de l’histogramme : ca DEGRINGOLE Les ”super pouvoirs” de sa divinité la loi Normale sont inefficaces mais heureusement William Gosset alias ”Student” était là ! William Gosset (1876-1937) Pourquoi 30 ? Faisons une petite expérience sous R afin de représenter la relation entre la taille de l’échantillon n variant de 3 à 50 et l’estimation de la moyenne à partir des valeurs de l’échantillon, on répète l’opération 100 fois : > plot(c(3, 50), c(5, 15), type="n", cex.axis=1.5, cex.lab=1.5, xlab="Taille de l'échantillon", ylab="Moyenne estimée") > for(n in seq(3, 50, 1)) { for(i in 1:100) { x <- rnorm(n, mean=10, sd=2) points(n, mean(x)) } } > abline(v=30, lty=2, lwd=2, col="blue") Pourquoi 30 ? Qu’en pensez-vous ? Pourquoi 30 ? Faites de même avec l’estimation de la variance 2 de l’échantillon : Pourquoi la loi Normale est inadapté ? Si le nombre d’observations, donc l’effectif n de l’échantillon, tombe en dessous de 30 l’erreur standard de la moyenne augmente fortement et donc l’intervalle de confiance pour le même risque d’erreur est imprécis Le hic survient au moment de remplacer 2 (inconnu) par son estimation basée sur l’échantillon : La sous-estimation de 2 (cf. biais de l’estimateur de la variance) risque d’être ici trop importante D’où un risque de sous-estimer l’étendue réelle de l'intervalle de confiance à partir de la formule (c'est a dire que l'estimation de au risque d’erreur va apparaitre plus précise qu'elle ne l'est en réalité) 𝐼𝐶1−𝛼 [𝜇] = 𝑥 ± 𝑢1−𝛼 2 𝜎2 𝑛 Les lois de Student Les lois de Student corrigent le phénomène d’applatissement de la distribution d’échantillonnage de la moyenne lorsque les échantillons sont de petite taille (n 30) en appliquant un facteur k (k = n-1 ddl) d’applatissement à la loi Normale : k=2 k=4 k=9 k = 19 k = 29 Table t de Student 𝑡 𝑃 𝑇 ≤ 𝑡 = 𝐹𝑇 (𝑡) = 𝑓𝑇 𝑧 𝑑𝑧 −∞ 𝐹𝑇−1 𝛼 = ±𝑡𝑛−1,1−𝛼 2 𝐼𝐶1−𝛼 [𝜇] = 𝑥 ± 𝑡𝑛−1,1−𝛼 2 𝜎2 𝑛 𝜎2 𝑛 = 10, 𝐼𝐶95% 𝜇 = 𝑥 ± 2.26 ∗ 𝑛 𝜎2 𝑛 > 30, 𝐼𝐶95% 𝜇 = 𝑥 ± 1.96 ∗ 𝑛 Pour un risque de 5% et un échantillon de taille 10, k vaut 9 et : 𝐹𝑈−1 ∗ (0.05) = ±2.26 C’est dans l’R La fonction ”qt()” permet de trouver le fractile des lois de Student pour un risque d’erreur et pour un ddl k donné : > qt(1-(0.05/2), df=9) [1] 2.262157 > qt((0.05/2), df=9) [1] -2.262157 > qt(1-(0.05/2), df=999) [1] 1.962341 > qt((0.05/2), df=999) [1] -1.962341 Pour des échantillons de grande taille, le fractile est le même que celui de la loi Normale La fonction ”pt()” permet à l’inverse de trouver le pourcentage de l’aire sous les courbes de Student pour un fractile t et pour un ddl k donné : > pt(2.262157, df=9) [1] 0.975 > pt(-2.262157, df=9) [1] 0.025 Attention À noter toutefois que pour des échantillons de petite taille, l’utilisation des lois de Student dans le calcul de l’intervalle de confiance de la moyenne nécessite que la variable aléatoire mesurée dans la population d’origine soit distribuée de manière Normale : Pour cela il est recommandé de vérifier la forme de la distribution des données dans l’échantillon Si la distribution des données dans l’échantillon est Normale ou tout au moins symétrique alors on peut avoir recours aux lois de Student Sinon, si les données dans l’échantillon suivent une distribution en ”L”, en ”J” ou bien en ”U”, alors il faut recourir aux méthodes non paramétrique Exercice Soit la longueur (mm) de 32 feuilles issues d’un Merisier : > FM <- c(180, 165, 175, 182, 177, 180, 184, 205, 206, 200, 191, 193, 201, 182, 177, 184, 193, 185, 199, 203, 200, 195, 206, 207, 185, 204, 199, 198, 180, 177, 175, 180) 1. À partir de cet échantillon, estimez la moyenne et l’écart type de la population de feuilles issues du Merisier échantillonné 2. Calculez l’erreur standard de la moyenne 3. Calculez l’intervalle de confiance de la moyenne au risque d’erreur = 5% 3. Tirez 15 valeurs au hasard dans la série de valeurs et recalculez l’intervalle de confiance de la moyenne au risque d’erreur = 5% Prunus avium Solutions 1. Moyenne et écart type : > mu <- mean(FM) > mu [1] 189.625 > sigma <- sd(FM) [1] 11.65291 2. Erreur standard de la moyenne : > n <- length(FM) > sem <- sigma/sqrt(n) > sem [1] 2.059963 3. Intervalle de confiance de la moyenne au risque d’erreur = 5% : > IC95 <- c(mu-1.96*sem, mu+1.96*sem) > IC95 [1] 185.5875 193.6625 Solutions 4. Sous-échantillon de FM : > FM <- sample(FM, 15, replace=FALSE) > FM [1] 195 182 200 165 177 198 185 184 182 193 199 206 180 177 204 > mu <- mean(FM) > sigma <- sd(FM) > n <- length(FM) > sem <- sigma/sqrt(n) > hist(FM) > t <- qt(1-(0.05/2), df=n-1) > IC95 <- c(mu-t*sem, mu+t*sem) [1] 181.9348 194.9986 Vérifier la Normalité d’une distribution Pour comparer la distribution des valeurs d’un échantillon de taille n par rapport à la loi Normale, il suffit de tracer un graphique quantilequantile qui représente les n quantiles calculés à partir de l’échantillon contre les n quantiles issues d’une distribution Normale : > qqnorm(FM) > qqline(FM, lty=2) Plan du cours Introduction à la statistique inférentielle 1. Notions de population et d’échantillon 2. Notion d’estimation 3. Estimations de la moyenne et de la variance 4. Ecart type et erreur standard 5. Intervalle de confiance de la moyenne 5.1. Définition 5.2. Grands échantillons (n > 30) et loi quelquonque 5.3. Petits échantillons (n 30) et loi Normale ou presque 5.4. À partir de n’importe quoi La technique du bootstrap Késako ? À quoi cela peut bien servir ? A enfiler des bottes ! Ouais mais pas seulement ! D’aprés nos amis anglais, cela permettrai aussi de se tirer d’affaire tout seul avec les moyens du bord : Vient de l’expression anglo-saxonne ”se soulever du sol en tirant sur ses bootstraps” Right buddy but watch out! Reservir la ”même” sauce ? Imaginez, vous êtes au restaurant et vous êtes mécontent de la soupe qu’on vient juste de vous servir, que faites-vous ? 1. Vous renvoyez la soupe bien sûr ! 2. Le chef vous resert une nouvelle soupe qu’il a concocté avec les mêmes ingrédients que la soupe précédente et pourtant vous la trouvez subtilement différente et à votre goût cette fois 3. Vous venez d’être victime d’une pure opération ”bootstrap” sans même vous en rendre compte et cela ne vous a pas gêné le moins du monde… Notion de ré-échantillonnage En statistique, le bootstrap c’est la même blague : C’est l’art et la manière de créer de nouveaux échantillons à partir des moyens du bord par ré-échantillonnage avec remise de l’échantillon d’origine On peut ainsi calculer un intervalle de confiance de la moyenne à partir des données de l’échantillon de départ quelque soit la distribution des données et ceci même pour un échantillon de petite taille Attention, la précision de l’intervalle de confiance de la moyenne ainsi obtenue dépend fortement de la taille de l’échantillon Pour des échantillons de petite taille la précision de cette technique est trés faible Tirage avec remise http://www.geogebratube.org/student/m773 Revenons à nos merises Tirons 5 valeurs au hasard dans la série ”FM” de mesure des longueurs de feuille du Merisier : > FM <- sample(FM, 5, replace=FALSE) > FM [1] 199 175 180 185 205 > hist(FM) Que pensez vous de la distribution des données issues de cet échantillon ? Normale ? Symétrique ? C’est le moment de sortir ses bootstraps Attention à la manoeuvre ! Le jeu va consister à tirer aléatoirement avec remise 5 valeurs parmi les 5 valeurs de l’échantillon disponible : > sample(FM, 5, replace=TRUE) [1] 199 185 205 199 199 > FM [1] 199 175 180 185 205 De répéter l’opération au minimum 100 fois : > CENT <- matrix(data=0, ncol=5, nrow=100) > for (i in 1:100) { CENT[i, ] <- sample(FM, size=5, replace=TRUE) } Et de calculer les 100 moyennes des 100 ”nouveaux” échantillons : > CENTmoy <- apply(CENT, 1, mean) C’est le gâteau sur la merise... La dernière étape consiste à observer la distribution des moyennes issues de l’opération bootstrap et d’identifier les moyennes situées aux fractiles 2.5% et 97.5% de la distribution pour calculer l’intervalle de confiance de la moyenne au risque d’erreur = 5% : > hist(CENTmoy) /2 /2 Moyenne de l’échantillon d’origine Moyennes des 100 ”nouveaux” échantillons Intervalle de confiance de la moyenne à 95% 178 197 Calcul des fractiles Il faut tout simplement diviser le gradient de valeurs en tranches de 0.5% : > quantile(CENTmoy, probs=seq(0, 1, 0.005)) 0.0% 0.5% 1.0% 1.5% 2.0% 2.5% 3.0% 3.5% 177.000 177.000 177.000 177.485 177.980 178.475 178.970 179.000 [...] 96.5% 97.0% 97.5% 98.0% 98.5% 99.0% 99.5% 100.0% 196.721 197.000 197.000 197.008 197.206 197.402 197.501 197.600 Intervalles de confiance de la moyenne Récapitulons les résultats obtenus pour le calcul de l’intervalle de confiance de la moyenne des longueurs de feuille du Merisier au risque d’erreur = 5% : Grand échantillon (n = 32) et distribution quelconque : 𝐼𝐶95% 𝜇 = 186 : 194 = 8 𝑐𝑚 Petit échantillon (n = 15) et distribution symétrique : 𝐼𝐶95% 𝜇 = 182 : 195 = 13 𝑐𝑚 Très petit échantillon (n = 5) et distribution quelconque : 𝐼𝐶95% 𝜇 = 178 : 197 = 19 𝑐𝑚 Conclusion : L’étendue des valeurs possibles pour trouver la véritable moyenne dans l’intervalle de confiance à 95% augmente fortement quand la taille de l’échantillon diminue Références utiles pour les statophobes http://perso.univ-rennes1.fr/denis.poinsot/