Telechargé par Wawo Santa

statistique-inferentielle-intro

Introduction à la
statistique
inférentielle
Jonathan Lenoir (MCU), [email protected]
Unité ”Écologie et Dynamique des Systèmes Anthropisés”
http://www.u-picardie.fr/edysan/
Plan du cours
Introduction à la statistique inférentielle
1. Notions de population et d’échantillon
2. Notion d’estimation
3. Estimations de la moyenne et de la variance
4. Ecart type et erreur standard
5. Intervalle de confiance de la moyenne
5.1. Définition
5.2. Grands échantillons (n > 30) et loi quelquonque
5.3. Petits échantillons (n  30) et loi Normale ou presque
5.4. À partir de n’importe quoi
Plan du cours
Introduction à la statistique inférentielle
1. Notions de population et d’échantillon
2. Notion d’estimation
3. Estimations de la moyenne et de la variance
4. Ecart type et erreur standard
5. Intervalle de confiance de la moyenne
5.1. Définition
5.2. Grands échantillons (n > 30) et loi quelquonque
5.3. Petits échantillons (n  30) et loi Normale ou presque
5.4. À partir de n’importe quoi
Distinguer échantillon de population
La population, pour un statisticien, est
l’ensemble quasi exhaustif des individus
ayant quelque chose en commun
permettant de définir l’appartenance à la
population et pour lesquels on étudie une
ou plusieurs variable (ex : la taille des
Français adultes)
Population
PB : Dans la plupart des cas, on ne peut
pas mesurer tous les individus de la
population, pour des raisons pratiques
L’échantillon, pour un statisticien, est un
sous ensemble de la population étudiée
pourlequel on effectue une série de
mesures sur la ou les variables étudiées
Echantillon
Statistiques descriptive et inférentielle
La statistique descriptive ne s’intéresse
qu’à la sous-population formée par
l’échantillon avec comme objectif de
décrire et résumer la variabilité de
l’échantillon
Population
La statistique inférentielle s’intéresse à
la population dont est issus l’échantillon
avec comme objectif d’inférer, à partir des
seules caractéristiques de l’échantillon,
des propriétés plus générales concernant
la population
La statistique inférentielle s’appuie sur
la théorie des probabilités mais
correspond à la démarche inverse en
quelque sorte
Echantillon
Statistique inférentielle et probabilités
Statistique
inférentielle
Echantillon
Théorie des
probabilités
Population
Echantillon
Connaissant la distribution d’une variable dans une population, la
théorie des probabilités permet de tirer aléatoirement un échantillon
Connaissant les valeurs prises par une variable sur un échantillon,
la statistique inférentielle essaie de préciser la distribution de la
variable dans la population
Plan du cours
Introduction à la statistique inférentielle
1. Notions de population et d’échantillon
2. Notion d’estimation
3. Estimations de la moyenne et de la variance
4. Ecart type et erreur standard
5. Intervalle de confiance de la moyenne
5.1. Définition
5.2. Grands échantillons (n > 30) et loi quelquonque
5.3. Petits échantillons (n  30) et loi Normale ou presque
5.4. À partir de n’importe quoi
Estimation
Echantillonnage
aléatoire
Population
N
Caractéristiques
de la population
𝜇, 𝜎 2
Statistique
descriptive
Echantillon
n
Caractéristiques
de l’échantillon
𝑥, 𝑠 2
Peut-on utiliser les
caractéristiques de
l’échantillon comme
estimateurs des
caractéristiques de la
population ?
Créons une population connue
En 2012, la taille (cm) de l’homme adulte en France suit une loi
Normale de moyenne 175 cm et d’écart type 6 cm et la population
d’homme (>18 ans) est de 24,4 millions :
> THpop2012 <- rnorm(24400000, m=175, sd=6)
> str(THpop2012)
num [1:24400000] 183 170 182 164 180 ...
> hist(THpop2012)
Tirons un échantillon : calcul de la moyenne
Tirons aléatoirement 10 individus dans la population ”THpop2012” :
> THech2012 <- sample(THpop2012, size=10, replace=TRUE)
> THech2012
[1] 166.1977 171.1953 176.3641 175.9884 174.5392 168.5511
[7] 170.8548 176.0439 180.2083 164.9668
Moyenne de l’échantillon ”THech2012” :
> mean(THech2012)
[1] 172.491
Moyenne de la population ”THpop2012” :
> mean(THpop2012)
[1] 174.9984
𝑥 = 172
μ = 175
𝑥≈μ
Calcul de la variance de l’échantillon
Variance de l’échantillon ”THech2012” :
> sum((THech2012-mean(THech2012))^2)/10
[1] 21.97042
Variance de la population ”THpop2012” :
> sum((THpop2012-mean(THpop2012))^2)/length(THpop2012)
[1] 35.98994
> 6^2
[1] 36
𝑠 2 = 22
𝜎 2 = 36
𝑠2 < 𝜎 2
Les caractères d’un bon estimateur
1. La précision : c’est l’erreur inévitable faite en substituant au
paramètre (moyenne ou variance) son estimation à partir de
l’échantillon
2. l’absence de biais : c’est l’erreur systématique faite toujours dans le
même sens et sur-estimant ou sous-estimant, selon les cas, le
paramètre (moyenne ou variance)
 La moyenne de l’échantillon est un estimateur non biaisé de la
moyenne de la population sans tendance à sur-estimer ou sousestimer la moyenne de la population
 La variance de l’échantillon est un estimateur biaisé de la variance
de la population et elle aura tendance à sous-estimer la variance de la
population
Plan du cours
Introduction à la statistique inférentielle
1. Notions de population et d’échantillon
2. Notion d’estimation
3. Estimations de la moyenne et de la variance
4. Ecart type et erreur standard
5. Intervalle de confiance de la moyenne
5.1. Définition
5.2. Grands échantillons (n > 30) et loi quelquonque
5.3. Petits échantillons (n  30) et loi Normale ou presque
5.4. À partir de n’importe quoi
Preuve par la répétition
Prouvons que la moyenne de l’échantillon est un estimateur non biaisé
de la moyenne de la population mais que la variance de l’échantillon
est un estimateur biaisé de la variance de la population, en :
1. Tirant aléatoirement 1000 échantillons tous constitués de 10 individus
issus de la population francaise d’homme adulte
2. Calculant les 1000 tailles moyennes des 1000 échantillons et en
comparant la distribution des ces valeurs à la valeur réelle
3. Calculant les 1000 variances de la variable taille dans les 1000
échantillons et en comparant la distribution des ces valeurs à la valeur réelle
Tirage de k échantillons à n individus
Echantillon 1
𝑥1,1
⋮
𝑥𝑘,1
⋯ 𝑥1,𝑛
⋱
⋮
⋯ 𝑥𝑘,𝑛
𝑥1,0
⋮
𝑥𝑘,0
𝑋
Population
Echantillon 2
𝑥1,1
⋮
𝑥𝑘,1
⋯ 𝑥1,𝑛
⋱
⋮
⋯ 𝑥𝑘,𝑛
2
𝑠1,0
⋮
2
𝑠𝑘,0
𝑆2
[...]
Pour notre exemple :
n = 10
k = 1000
Echantillon k
Exercice
A l’aide de la fonction ”rnorm()” commencez par créer la population
”THpop2012” de 24,4 millions d’homme adulte observée en France en
2012 et dont la taille (cm) suit une loi Normale de moyenne 175 cm et
d’écart type 6 cm :
> THpop2012 <- rnorm(24400000, m=175, sd=6)
> str(THpop2012)
num [1:24400000] 183 170 182 164 180 ...
Exercice
Créez une matrice nulle de taille 1000*10 à l’aide de la fonction
”matrix()” :
> MILLE <- matrix(data=0, ncol=10, nrow=1000)
> str(MILLE)
num [1:1000, 1:10] 0 0 0 0 0 0 0 0 0 0 ...
Remplissez ensuite votre matrice des 1000 échantillons de 10
individus issus de la population ”THpop2012” à l’aide d’une boucle for
et de la fonction ”sample()” :
> for (i in 1:1000)
{
MILLE[i, ] <- sample(THpop2012, size=10, replace=TRUE)
}
> str(MILLE)
num [1:1000, 1:10] 169 182 166 181 173 ...
Exercice
A l’aide de la fonction ”apply()”, calculez les 1000 moyennes des 1000
échantillons et stockez le résultat dans un objet de classe ”numeric” :
> M <- apply(MILLE, 1, mean)
> str(M)
num [1:1000] 179 178 175 176 174 ...
> mean(M)
[1] 175.0526
A l’aide de la fonction ”hist()”, tracez l’histogramme de la distribution
des 1000 moyennes :
> hist(M)
A l’aide de la fonction ”abline()”, ajouter une droite verticale de couleur
bleue représentant la position de la moyenne de la population :
> abline(v=175, col="blue", lwd=2, lty=2)
Exercice
Que pensez vous de la moyenne de l’échantillon en tant qu’estimateur
de la moyenne de la population ?
Moyenne de la
population
Moyennes des
échantillons
La moyenne de l’échantillon est un estimateur non biaisé de la
moyenne de la population
Exercice
À partir de la formule de la variance utilisée en statistique descriptive,
calculez les 1000 variances des 1000 échantillons et stockez le résultat
dans un objet de classe ”numeric” :
> V1 <- apply(MILLE, 1, function(x) sum((x-mean(x))^2)/10)
> str(V1)
num [1:1000] 50.13 8.74 20.84 42.93 31.29 ...
> mean(V1)
[1] 31.70267
Utilisez maintenant la fonction ”var()” de R (cf. statistique inférentielle)
pour calculer les 1000 variances des 1000 échantillons et stockez le
résultat dans un nouvel objet de classe ”numeric” :
> V2 <- apply(MILLE, 1, var)
> str(V2)
num [1:1000] 55.7 9.71 23.16 47.7 34.76 ...
> mean(V2)
[1] 35.22519
Exercice
Tracez l’histogramme de la distribution des 1000 variances calculées à
partir de la formule utilisée en statistique descriptive et positionnez la
variance de la population dans la distribution :
> hist(V1, breaks=c(seq(0, 130, 10)), ylim=c(0, 350))
> abline(v=36, col="blue", lwd=2, lty=2)
Tracez l’histogramme de la distribution des 1000 variances issues de la
fonction ”var()” de R (cf. statistique inférentielle) et positionner la
variance de la population dans la distribution :
> hist(V2, breaks=c(seq(0, 130, 10)), ylim=c(0, 350))
> abline(v=36, col="blue", lwd=2, lty=2)
Exercice
Comparez les distributions de V1 et V2 autour de la valeur de la
variance de la population ? Qu’en pensez-vous ?
Statistique descriptive
Statistique inférentielle
Variance de la
population
Variances des
échantillons
V2 est un meilleur estimateur de la variance de la population
que V1 car V1 tend à sous-estimer la variance de la population
dans 66% des cas contre 56% des cas pour V2
Un meilleur estimateur de la variance
La variance de l’échantillon est donc une estimation biaisée de la
variance dans la population :
𝑠2 < 𝜎 2
𝑠2 =
𝜎2 =
1
𝑛
𝑛
𝑥𝑖 − 𝑥 2
𝑖=1
1
𝑁
𝑁
𝑥𝑖 − 𝜇 2
𝑖=1
Pour corriger ce biais il suffit de multiplier la variance de l’échantillon
par n/(n-1) pour obtenir une estimation sans biais :
𝜎2 =
𝑛
1
2
𝑠 =
𝑛−1
𝑛−1
𝑛
𝑥𝑖 − 𝑥 2
𝑖=1
C’est la
formule
utilisée
par le
logiciel R
Pourquoi diviser par n-1 plutôt que par n ?
L’idée derrière cette correction de la formule de la variance est liée à la
notion de degré de liberté ”ddl” ou nombre d’éléments indépendants :
 Dans un échantillon de taille n, on dispose de n individus indépendants
(tirage aléatoire avec remise) constituants n ddl
 A partir de la moyenne de l’échantillon, nous n’avons besoin que de n-1
individus pour pouvoir retrouver la valeur de la variable aléatoire du
dernier individus constituants ainsi n-1 ddl
Exemple
Soit un échantillon de 3 individus dont la taille moyenne est 175 cm
Deux individus mesurent 170 et 175 cm
Quel est la taille du troisième individus?
Démonstration par les maths
Est-ce vraiment nécessaire de se faire du mal ?
Bilan de l’estimation
Statistique inférentielle :
𝜎2 =
1
𝑁
𝑁
𝑥𝑖 − 𝜇 2
𝑖=1
1
𝜇=
𝑁
𝑠2 < 𝜎 2 ≈ 𝜎 2
𝜎2 =
𝑠2 =
1
𝑛−1
1
𝑛
𝑥𝑖 − 𝑥 2
𝑖=1
𝑛
𝑥𝑖
𝑖=1
−𝑥 2
𝑥𝑖
𝑖=1
Population
N
𝑥≈μ
Vrai si
n > 30
𝑛
𝑁
𝑥=
1
𝑛
1
𝑥=
𝑛
𝑛
𝑥𝑖
𝑖=1
𝑛
𝑥𝑖
𝑖=1
Statistique descriptive :
Echantillon
n
Plan du cours
Introduction à la statistique inférentielle
1. Notions de population et d’échantillon
2. Notion d’estimation
3. Estimations de la moyenne et de la variance
4. Ecart type et erreur standard
5. Intervalle de confiance de la moyenne
5.1. Définition
5.2. Grands échantillons (n > 30) et loi quelquonque
5.3. Petits échantillons (n  30) et loi Normale ou presque
5.4. À partir de n’importe quoi
Ecart type
C’est simplement la racine carrée de la variance :
𝜎=
𝜎2
𝜎=
𝜎2
Erreur standard
Attention, ne pas confondre erreur standard et écart type :
 On parle d’écart type des données autour de leur moyenne ce qui n’est
autre que la variance exprimée dans la même unité que la variable
mesurée (NB: gros avantage par rapport à la variance)
 On parle d’erreur standard lorsque l’on s’intéresse à l’écart type d’un
estimateur comme la moyenne de l’échantillon par exemple
Formule de l’erreur standard de la moyenne :
𝑒. 𝑠. =
𝜎
𝑛
𝜎
𝑒. 𝑠 =
𝑛
Si n > 30, alors on peut
remplacer la variance réelle
par son approximation qui
n’est pas biasée
Concrétement, qu’est-ce que c’est ?
Taille (cm) de 24,4 millions
Moyennes des tailles (cm) de
d’hommes adulte en France
1000 échantillons de 10
(population)
individus chacun
Moyenne de la
population
Ecart type des données
autour de la moyenne
Erreur standard de la
moyenne = ecart type
Exercice
A l’aide de la fonction ”sd()”, calculez l’écart type des 1000 moyennes
stockées dans l’objet ”M” :
> sd(M)
[1] 1.900075
Sachant que l’écart type de la population est de 6 cm et que la taille de
l’échantillon est de 10, calculez l’erreur standard à partir de la formule :
> 6/sqrt(10)
[1] 1.897367
> sd(THpop2012)/sqrt(10)
[1] 1.897102
Valeur
proche
de sd(M)
Calculez l’erreur standard de la moyenne à partir d’un échantillon :
> sd(THech2012)/sqrt(10)
[1] 1.562426
Exercice
Créez une seconde matrice nulle de taille 1000*3 et remplissez la de
1000 échantillons de taille 3 :
> MILLE2 <- matrix(data=0, ncol=3, nrow=1000)
> for (i in 1:1000)
{
MILLE2[i, ] <- sample(THpop2012, size=3, replace=TRUE)
}
Calculez les 1000 moyennes des 1000 échantillons et stockez le
résultat dans un nouvel objet :
> M2 <- apply(MILLE2, 1, mean)
Tracez deux histogrammes de la distribution des 1000 moyennes, l’un
correspondant aux 1000 échantillons de taille 10 et l’autre aux 1000
échantillons de taille 3 :
> par(mfrow=c(1,2))
> hist(M, breaks=c(seq(160, 190, 1)), ylim=c(0, 250))
> hist(M2, breaks=c(seq(160, 190, 1)), ylim=c(0, 250))
Exercice
Comparez les deux distributions de moyenne ? Qu’en pensez-vous ?
Moyennes de 1000
échantillons de taille 10
Moyennes de 1000
échantillons de taille 3
6
6
𝑒. 𝑠. =
10
𝑒. 𝑠. = 1.9
𝑒. 𝑠. =
3
𝑒. 𝑠. = 3.5
L’erreur standard de la moyenne permet d’apprécier la
précision de la moyenne et cette précision augmente avec la
taille de l’échantillon
Exercice
A l’aide de la fonction ”rpois()” créez une nouvelle population de
100000 observations dont la variable nombre d’individus suit une loi
de Poisson de paramètre  = 3 et tracez en l’histogramme :
> popPOIS <- rpois(100000, lambda=3)
> str(popPOIS)
num [1:100000] 0 2 4 3 4 1 6 1 4 1 ...
> hist(popPOIS)
Exercice
Créez trois matrices nulle de taille 1000*3, 1000*10 et 1000*30
respectivement et remplissez chacune d’elle de 1000 échantillons de
taille 3, 10 et 30 respectivement tous issus de la population dont la
distribution suit une loi de poisson de paramètre  = 3 :
> MILLEpois3 <- matrix(data=0, ncol=3, nrow=1000)
> MILLEpois10 <- matrix(data=0, ncol=10, nrow=1000)
> MILLEpois30 <- matrix(data=0, ncol=30, nrow=1000)
> for (i in 1:1000)
{
MILLEpois3[i, ] <- sample(popPOIS, size=3, replace=TRUE)
MILLEpois10[i, ] <- sample(popPOIS, size=10, replace=TRUE)
MILLEpois30[i, ] <- sample(popPOIS, size=30, replace=TRUE)
}
Exercice
Calculez les 1000 moyennes des 1000 échantillons pour chacune des
trois matrices et stockez les résultats dans un objet de classe ”list” :
> Mlist <- list()
> Mlist[[1]] <- apply(MILLEpois3, 1, mean)
> Mlist[[2]] <- apply(MILLEpois10, 1, mean)
> Mlist[[3]] <- apply(MILLEpois30, 1, mean)
> str(Mlist)
List of 3
$ : num [1:1000] 4.33 3 4 2.67 2.33 ...
$ : num [1:1000] 3.3 1.6 2.4 2.8 2.2 1.8 3.2 3.5 2.7 3.3 ...
$ : num [1:1000] 2.97 2.77 2.8 3.57 3.2 ...
Exercice
Tracez l’histogramme de la distribution de la population d’origine ainsi
que les 3 histogrammes de la distribution des 1000 moyennes issues
des 3 échantillonnages de taille 3, 10 et 30 :
> par(mfrow=c(2, 2))
> hist(popPOIS, breaks=c(seq(0, 15, 1)))
> hist(Mlist[[1]], breaks=c(seq(0, 10, 0.25)), ylim=c(0, 350))
> hist(Mlist[[2]], breaks=c(seq(0, 10, 0.25)), ylim=c(0, 350))
> hist(Mlist[[3]], breaks=c(seq(0, 10, 0.25)), ylim=c(0, 350))
Exercice
Que pensez-vous de l’effet de la distribution de la population sur la
distribution d’échantillonnage de la moyenne ?
Population d’origine de
taille 100000
Moyennes de 1000
échantillons de taille 3
Moyennes de 1000
échantillons de taille 10
Moyennes de 1000
échantillons de taille 30
La distribution d’échantillonnage de la moyenne tend vers une
loi Normale lorsque la taille de l’échantillon grandit (n > 30) et
ce quelle que soit la distribution de la population d’origine
Plan du cours
Introduction à la statistique inférentielle
1. Notions de population et d’échantillon
2. Notion d’estimation
3. Estimations de la moyenne et de la variance
4. Ecart type et erreur standard
5. Intervalle de confiance de la moyenne
5.1. Définition
5.2. Grands échantillons (n > 30) et loi quelquonque
5.3. Petits échantillons (n  30) et loi Normale ou presque
5.4. À partir de n’importe quoi
Intervalle de confiance
L’idée de base de l’intervalle de confiance est de donner la précision
d’une estimation (avec un risque d’erreur ) comme la précision de la
moyenne de l’échantillon par exemple :
 Le calcul de l’erreur standard est une première façon d’apprécier la
précision de la moyenne de l’échantillon
 Mais il est plus juste de fournir un intervalle dont on puisse dire sans
grand risque () de se tromper qu’il contient la vraie valeur  de la
moyenne
 C’est la zone dans laquelle se trouve ”trés probablement”, mais sans
certitude aucune, la véritable valeur de la moyenne
 Le risque d’erreur  est fixé par l’utilisateur, strictement compris entre 0
et 1 et généralement proche de 0 (0.05, 0.01, 0.001)
NB: On peut calculer un intervalle de confiance à 1- pour
n’importe quel paramètre (moyenne, variance, pourcentage,
différence, coefficient de correlation, pente de régression, etc.)
Intervalle de confiance de la moyenne
Plusieurs cas de figures peuvent se présenter pour le calcul de
l’intervalle de confiance de la moyenne au risque d’erreur  :
 Grand échantillon (n > 30) et distribution quelconque :
𝐼𝐶1−𝛼 [𝜇] = 𝑥 ± 𝑢1−𝛼
2
Comme nous venons de le voir dans
ce cas précis, la distribution de la
moyenne tend vers une loi Normale
𝜎2
𝑛
 Petit échantillon (10  n  30) et distribution symétrique ou très petit
échantillon (n <10) et distribution Normale :
𝐼𝐶1−𝛼 [𝜇] = 𝑥 ± 𝑡𝑛−1,1−𝛼
2
𝜎2
𝑛
Dans ce cas, on a recours aux
lois de Student et on peut se
référer aux tables ”t” de Student
 Très petit échantillon (n < 10) et distribution quelconque :
Pas de recours paramétrique mais un recours aux méthodes non
paramétrique de ré-échantillonnage type ”bootstrap”
Plan du cours
Introduction à la statistique inférentielle
1. Notions de population et d’échantillon
2. Notion d’estimation
3. Estimations de la moyenne et de la variance
4. Ecart type et erreur standard
5. Intervalle de confiance de la moyenne
5.1. Définition
5.2. Grands échantillons (n > 30) et loi quelquonque
5.3. Petits échantillons (n  30) et loi Normale ou presque
5.4. À partir de n’importe quoi
La magie de la distribution de la moyenne
Attention, ne pas confondre :
 Distribution de la population d’origine (quelconque ici)
 Distribution de la moyenne d’échantillonnage qui tend vers la loi Normale
pour des échantillons de grande taille (n > 30) : c’est MAGIQUE
Quelles sont les ”super pouvoirs” de sa divinité la loi Normale ?
Francis Galton
(1822-1911)
Rappels sur les propriétés de la loi Normale
Soit U une variable aléatoire qui suit une loi Normale de moyenne  et
d’écart type  et dont la densité de probabilité est notée fX et la
fonction de répartition est notée FX :
𝑋~𝑁(𝜇, σ)
𝑓𝑈 𝑧 =
1
𝜎 2𝜋
1 𝑧−𝜇 2
−
𝑒 2 𝜎
𝑃(𝑈 = 𝑢) = 0
𝑢
𝑃 𝑈 < 𝑢 = 𝑃 𝑈 ≤ 𝑢 = 𝐹𝑈 (𝑢) =
𝑓𝑈 𝑧 𝑑𝑧
−∞
𝜇
𝑓𝑈 𝑧 𝑑𝑧 = 0.5
−∞
+∞
𝑓𝑈 𝑧 𝑑𝑧 = 1
−∞
Fonction de répartition de la loi Normale
𝑈~𝑁(𝜇, σ)
𝑈 ∗ ~𝑁(0,1)
𝑈−𝜇
𝜎
1 −1𝑧 2
𝑓𝑈 ∗ 𝑧 =
𝑒 2
2𝜋
𝑈∗ =
𝑢
𝐹𝑈 ∗ (𝑢) =
𝑓𝑈 ∗ 𝑧 𝑑𝑧
−∞
𝐹𝑈 ∗ (1.96) = 0.975
Calculez :
𝐹𝑈 ∗ (−1.96)
𝐹𝑈 ∗ −1.96 = 1 − 0.975
Intervalle de confiance à 95%
Représentations graphique et numérique du calcul de l’IC à 95% :
2.5%
97.5%
95%
1.96
1
𝐹𝑈 ∗ 1.96 =
2𝜋
−∞
𝐹
𝑈∗
1
− 𝑧2
𝑒 2 𝑑𝑧 = 0.975
−1.96
1
−∞
2𝜋
−1.96 =
1.96
=
1
− 𝑧2
𝑒 2 𝑑𝑧 = 0.025
1.96
𝑓𝑈 ∗ 𝑧 𝑑𝑧 =
−1.96
𝐼𝐶95% 𝜇 = 𝑥 ± 1.96 ∗ 𝜎
−1.96
𝑓𝑈 ∗ 𝑧 𝑑𝑧 −
−∞
𝐼𝐶95% 0 = 0 ± 1.96 ∗ 1
𝑓𝑈 ∗ 𝑧 𝑑𝑧 = 0.95
−∞
Intervalle de confiance à 99%
Représentations graphique et numérique du calcul de l’IC à 99% :
0.5%
99.5%
99%
2.576
𝐹𝑈 ∗ 2.576 =
2𝜋
−∞
𝐹
𝑈∗
1
1
−∞
2𝜋
2.576
𝐼𝐶99% 𝜇 = 𝑥 ± 2.576 ∗ 𝜎
−2.576
𝑓𝑈 ∗ 𝑧 𝑑𝑧 −
−∞
𝐼𝐶99% 0 = 0 ± 2.576 ∗ 1
1
− 𝑧2
𝑒 2 𝑑𝑧 = 0.005
2.576
𝑓𝑈 ∗ 𝑧 𝑑𝑧 =
−2.576
1
− 𝑧2
𝑒 2 𝑑𝑧 = 0.995
−2.576
−2.576 =
=
𝑓𝑈 ∗ 𝑧 𝑑𝑧 = 0.99
−∞
Exercice
Calculez la proportion d’aire sous la courbe pour  1 écart type () :
-
=
Table de la fonction de répartition
𝐼𝐶??% 0 = 0 ± 1 ∗ 1
𝐹𝑈 ∗ 1 = 0.8413
𝐼𝐶??% 𝜇 = 𝑥 ± 1 ∗ 𝜎
𝐹𝑈 ∗ −1 = 1 − 𝐹𝑈 ∗ 1 = 1 − 0.8413 = 0.1587
1
𝑓𝑈 ∗ 𝑧 𝑑𝑧 = 𝐹𝑈 ∗ 1 − 𝐹𝑈 ∗ −1 = 0.8413 − 0.1587 = 0.6826
−1
Exercice
Quel est donc le risque d’erreur  que la vraie valeur de la moyenne
tombe en dehors de l’IC à 68% ?
/2
/2
Conclusion : donner l’erreur standard équivaut à prendre un
risque de 32% que la vraie valeur de la moyenne tombe en
dehors de l’intevalle associé et on préferera l’IC à 95%
Quel fractile pour un risque  donné ?
𝑈~𝑁(𝜇, σ)
𝑈 ∗ ~𝑁(0,1)
𝑈−𝜇
𝜎
1 −1𝑧 2
𝑓𝑈 ∗ 𝑧 =
𝑒 2
2𝜋
𝛼
−1
𝐹𝑈 ∗ 1 −
= 𝑢1−𝛼
2
2
−1 𝛼
𝐹𝑈 ∗
= −𝑢1−𝛼
2
2
𝑈∗ =
Pour un risque  de 5% :
𝐹𝑈−1
∗ (0.975) = 1.96
𝐹𝑈−1
∗ 0.025 = −1.96
Autre exemple de table des fractiles
𝑈~𝑁(𝜇, σ)
/2
𝑈 ∗ ~𝑁(0,1)
𝑈∗ =
𝑈−𝜇
𝜎
𝛼
𝐹𝑈−1
∗ 𝛼 = ±𝑢
1−
2
Pour un risque  de 5% :
𝐹𝑈−1
∗ (0.05) = ±1.96
/2
Vous n’avez pas de table ? R est là !
La fonction ”qnorm()” permet de trouver le fractile de la loi Normale
pour un risque d’erreur  :
> qnorm(1-(0.05/2))
[1] 1.959964
> qnorm(0.05/2)
[1] -1.959964
La fonction ”pnorm()” permet à l’inverse de trouver le pourcentage de
l’aire sous la courbe de Gauss pour un fractile donné :
> pnorm(1.959964)
[1] 0.975
> pnorm(-1.959964)
[1] 0.025
Quel est le fractile associé au risque d’erreur de 0.1% ?
Retournons à nos moutons
Comme nous venons de le voir, pour un grand échantillon (n > 30) et
quelle que soit la distribution de la population d’origine de moyenne 
et de variance 2, la moyenne M calculée sur cet échantillon suivra une
loi approximativement Normale de moyenne  et d’écart type égal à
l’erreur standard de la moyenne :
𝜎2
𝑀~𝑁(𝜇,
)
𝑛
Comme l’échantillon est de grande taille (n > 30), on peut remplacer la
variance 2 par son estimation :
𝜎2
𝑀~𝑁(𝜇,
)
𝑛
𝑀−𝜇
𝜎2
𝑛
~𝑁(0, 1)
Invoquer le ”pouvoir” de la loi Normale
On sait désormais que pour une variable dont la distribution tend vers
une loi Normale, comme la distribution d’échantillonnage de la
moyenne, alors l’intervalle de confiance au risque d’erreur  est
paramétré par la formule suivante :
𝑀−𝜇
𝜎2
𝑛
~𝑁(0, 1)
𝜎2
𝑀~𝑁(𝜇,
)
𝑛
𝐼𝐶1−𝛼 0 = 0 ± 𝑢1−𝛼 ∗ 1
2
𝜎2
𝐼𝐶1−𝛼 𝜇 = 𝑥 ± 𝑢1−𝛼 ∗
𝑛
2
Pour un risque d’erreur à 5% :
𝜎2
𝑀~𝑁(𝜇,
)
𝑛
𝜎2
𝐼𝐶95% 𝜇 = 𝑥 ± 1.96 ∗
𝑛
/2
/2
Plan du cours
Introduction à la statistique inférentielle
1. Notions de population et d’échantillon
2. Notion d’estimation
3. Estimations de la moyenne et de la variance
4. Ecart type et erreur standard
5. Intervalle de confiance de la moyenne
5.1. Définition
5.2. Grands échantillons (n > 30) et loi quelquonque
5.3. Petits échantillons (n  30) et loi Normale ou presque
5.4. À partir de n’importe quoi
Les petits tracas des petits échantillons
Attention pour n  30 :
 La distribution de la moyenne d’échantillonnage présente un étalement
des valeurs avec un aplatissement de l’histogramme : ca DEGRINGOLE
Les ”super pouvoirs” de sa divinité la loi Normale sont inefficaces
mais heureusement William Gosset alias ”Student” était là !
William Gosset
(1876-1937)
Pourquoi 30 ?
Faisons une petite expérience sous R afin de représenter la relation
entre la taille de l’échantillon n variant de 3 à 50 et l’estimation de la
moyenne  à partir des valeurs de l’échantillon, on répète l’opération
100 fois :
> plot(c(3, 50), c(5, 15), type="n", cex.axis=1.5, cex.lab=1.5,
xlab="Taille de l'échantillon", ylab="Moyenne estimée")
> for(n in seq(3, 50, 1))
{
for(i in 1:100)
{
x <- rnorm(n, mean=10, sd=2)
points(n, mean(x))
}
}
> abline(v=30, lty=2, lwd=2, col="blue")
Pourquoi 30 ?
Qu’en pensez-vous ?
Pourquoi 30 ?
Faites de même avec l’estimation de la variance 2 de l’échantillon :
Pourquoi la loi Normale est inadapté ?
Si le nombre d’observations, donc l’effectif n de l’échantillon, tombe en
dessous de 30 l’erreur standard de la moyenne augmente fortement et
donc l’intervalle de confiance pour le même risque d’erreur  est
imprécis
Le hic survient au moment de remplacer 2 (inconnu) par son
estimation basée sur l’échantillon :
 La sous-estimation de 2 (cf. biais de l’estimateur de la variance) risque
d’être ici trop importante
 D’où un risque de sous-estimer l’étendue réelle de l'intervalle de
confiance à partir de la formule (c'est a dire que l'estimation de  au
risque d’erreur  va apparaitre plus précise qu'elle ne l'est en réalité)
𝐼𝐶1−𝛼 [𝜇] = 𝑥 ± 𝑢1−𝛼
2
𝜎2
𝑛
Les lois de Student
Les lois de Student corrigent le phénomène d’applatissement de la
distribution d’échantillonnage de la moyenne lorsque les échantillons
sont de petite taille (n  30) en appliquant un facteur k (k = n-1 ddl)
d’applatissement à la loi Normale :
k=2
k=4
k=9
k = 19
k = 29
Table t de Student
𝑡
𝑃 𝑇 ≤ 𝑡 = 𝐹𝑇 (𝑡) =
𝑓𝑇 𝑧 𝑑𝑧
−∞
𝐹𝑇−1 𝛼 = ±𝑡𝑛−1,1−𝛼
2
𝐼𝐶1−𝛼 [𝜇] = 𝑥 ± 𝑡𝑛−1,1−𝛼
2
𝜎2
𝑛
𝜎2
𝑛 = 10, 𝐼𝐶95% 𝜇 = 𝑥 ± 2.26 ∗
𝑛
𝜎2
𝑛 > 30, 𝐼𝐶95% 𝜇 = 𝑥 ± 1.96 ∗
𝑛
Pour un risque  de 5% et un échantillon de taille 10, k vaut 9 et :
𝐹𝑈−1
∗ (0.05) = ±2.26
C’est dans l’R
La fonction ”qt()” permet de trouver le fractile des lois de Student pour
un risque d’erreur  et pour un ddl k donné :
> qt(1-(0.05/2), df=9)
[1] 2.262157
> qt((0.05/2), df=9)
[1] -2.262157
> qt(1-(0.05/2), df=999)
[1] 1.962341
> qt((0.05/2), df=999)
[1] -1.962341
Pour des
échantillons de
grande taille, le
fractile est le même
que celui de la loi
Normale
La fonction ”pt()” permet à l’inverse de trouver le pourcentage de l’aire
sous les courbes de Student pour un fractile t et pour un ddl k donné :
> pt(2.262157, df=9)
[1] 0.975
> pt(-2.262157, df=9)
[1] 0.025
Attention
À noter toutefois que pour des échantillons de petite taille, l’utilisation
des lois de Student dans le calcul de l’intervalle de confiance de la
moyenne nécessite que la variable aléatoire mesurée dans la
population d’origine soit distribuée de manière Normale :
 Pour cela il est recommandé de vérifier la forme de la distribution des
données dans l’échantillon
 Si la distribution des données dans l’échantillon est Normale ou tout au
moins symétrique alors on peut avoir recours aux lois de Student
 Sinon, si les données dans l’échantillon suivent une distribution en ”L”, en
”J” ou bien en ”U”, alors il faut recourir aux méthodes non paramétrique
Exercice
Soit la longueur (mm) de 32 feuilles issues d’un Merisier :
> FM <- c(180, 165, 175, 182, 177, 180, 184, 205, 206, 200,
191, 193, 201, 182, 177, 184, 193, 185, 199, 203, 200, 195,
206, 207, 185, 204, 199, 198, 180, 177, 175, 180)
1. À partir de cet échantillon, estimez la
moyenne  et l’écart type  de la population de
feuilles issues du Merisier échantillonné
2. Calculez l’erreur standard de la moyenne 
3. Calculez l’intervalle de confiance de la
moyenne  au risque d’erreur  = 5%
3. Tirez 15 valeurs au hasard dans la série de
valeurs et recalculez l’intervalle de confiance de
la moyenne  au risque d’erreur  = 5%
Prunus avium
Solutions
1. Moyenne  et écart type  :
> mu <- mean(FM)
> mu
[1] 189.625
> sigma <- sd(FM)
[1] 11.65291
2. Erreur standard de la moyenne  :
> n <- length(FM)
> sem <- sigma/sqrt(n)
> sem
[1] 2.059963
3. Intervalle de confiance de la moyenne  au risque d’erreur  = 5% :
> IC95 <- c(mu-1.96*sem, mu+1.96*sem)
> IC95
[1] 185.5875 193.6625
Solutions
4. Sous-échantillon de FM :
> FM <- sample(FM, 15, replace=FALSE)
> FM
[1] 195 182 200 165 177 198 185 184 182 193 199 206 180 177 204
> mu <- mean(FM)
> sigma <- sd(FM)
> n <- length(FM)
> sem <- sigma/sqrt(n)
> hist(FM)
> t <- qt(1-(0.05/2), df=n-1)
> IC95 <- c(mu-t*sem, mu+t*sem)
[1] 181.9348 194.9986
Vérifier la Normalité d’une distribution
Pour comparer la distribution des valeurs d’un échantillon de taille n
par rapport à la loi Normale, il suffit de tracer un graphique quantilequantile qui représente les n quantiles calculés à partir de l’échantillon
contre les n quantiles issues d’une distribution Normale :
> qqnorm(FM)
> qqline(FM, lty=2)
Plan du cours
Introduction à la statistique inférentielle
1. Notions de population et d’échantillon
2. Notion d’estimation
3. Estimations de la moyenne et de la variance
4. Ecart type et erreur standard
5. Intervalle de confiance de la moyenne
5.1. Définition
5.2. Grands échantillons (n > 30) et loi quelquonque
5.3. Petits échantillons (n  30) et loi Normale ou presque
5.4. À partir de n’importe quoi
La technique du bootstrap
Késako ? À quoi cela peut bien servir ?
 A enfiler des bottes !
Ouais mais pas seulement !
D’aprés nos amis anglais, cela permettrai aussi de se tirer d’affaire tout
seul avec les moyens du bord :
 Vient de l’expression anglo-saxonne ”se soulever du sol en tirant sur ses
bootstraps”
Right
buddy
but
watch
out!
Reservir la ”même” sauce ?
Imaginez, vous êtes au restaurant et vous êtes mécontent de la soupe
qu’on vient juste de vous servir, que faites-vous ?
1. Vous renvoyez la soupe bien sûr !
2. Le chef vous resert une nouvelle soupe
qu’il a concocté avec les mêmes
ingrédients que la soupe précédente et
pourtant vous la trouvez subtilement
différente et à votre goût cette fois
3. Vous venez d’être victime d’une pure
opération ”bootstrap” sans même vous en
rendre compte et cela ne vous a pas gêné
le moins du monde…
Notion de ré-échantillonnage
En statistique, le bootstrap c’est la même blague :
 C’est l’art et la manière de créer de nouveaux échantillons à partir des
moyens du bord par ré-échantillonnage avec remise de l’échantillon
d’origine
On peut ainsi calculer un intervalle de confiance de la moyenne à partir
des données de l’échantillon de départ quelque soit la distribution des
données et ceci même pour un échantillon de petite taille
 Attention, la précision de l’intervalle de confiance de la moyenne ainsi
obtenue dépend fortement de la taille de l’échantillon
 Pour des échantillons de petite taille la précision de cette technique est
trés faible
Tirage avec remise
http://www.geogebratube.org/student/m773
Revenons à nos merises
Tirons 5 valeurs au hasard dans la série ”FM” de mesure des
longueurs de feuille du Merisier :
> FM <- sample(FM, 5, replace=FALSE)
> FM
[1] 199 175 180 185 205
> hist(FM)
Que pensez vous de la
distribution des données
issues de cet échantillon ?
Normale ? Symétrique ?
C’est le moment de sortir ses bootstraps 
Attention à la manoeuvre !
Le jeu va consister à tirer aléatoirement avec remise 5 valeurs parmi
les 5 valeurs de l’échantillon disponible :
> sample(FM, 5, replace=TRUE)
[1] 199 185 205 199 199
> FM
[1] 199 175 180 185 205
De répéter l’opération au minimum 100 fois :
> CENT <- matrix(data=0, ncol=5, nrow=100)
> for (i in 1:100)
{
CENT[i, ] <- sample(FM, size=5, replace=TRUE)
}
Et de calculer les 100 moyennes des 100 ”nouveaux” échantillons :
> CENTmoy <- apply(CENT, 1, mean)
C’est le gâteau sur la merise...
La dernière étape consiste à observer la distribution des moyennes
issues de l’opération bootstrap et d’identifier les moyennes situées
aux fractiles 2.5% et 97.5% de la distribution pour calculer l’intervalle
de confiance de la moyenne au risque d’erreur  = 5% :
> hist(CENTmoy)
/2
/2
Moyenne de
l’échantillon d’origine
Moyennes des 100
”nouveaux” échantillons
Intervalle de confiance
de la moyenne à 95%
178
197
Calcul des fractiles
Il faut tout simplement diviser le gradient de valeurs en tranches de
0.5% :
> quantile(CENTmoy, probs=seq(0, 1, 0.005))
0.0%
0.5%
1.0%
1.5%
2.0%
2.5%
3.0%
3.5%
177.000 177.000 177.000 177.485 177.980 178.475 178.970 179.000
[...]
96.5%
97.0%
97.5%
98.0%
98.5%
99.0%
99.5%
100.0%
196.721 197.000 197.000 197.008 197.206 197.402 197.501 197.600
Intervalles de confiance de la moyenne
Récapitulons les résultats obtenus pour le calcul de l’intervalle de
confiance de la moyenne des longueurs de feuille du Merisier au
risque d’erreur  = 5% :
 Grand échantillon (n = 32) et distribution quelconque :
𝐼𝐶95% 𝜇 = 186 : 194 = 8 𝑐𝑚
 Petit échantillon (n = 15) et distribution symétrique :
𝐼𝐶95% 𝜇 = 182 : 195 = 13 𝑐𝑚
 Très petit échantillon (n = 5) et distribution quelconque :
𝐼𝐶95% 𝜇 = 178 : 197 = 19 𝑐𝑚
Conclusion : L’étendue des valeurs possibles pour trouver la
véritable moyenne  dans l’intervalle de confiance à 95%
augmente fortement quand la taille de l’échantillon diminue
Références utiles pour les statophobes 
http://perso.univ-rennes1.fr/denis.poinsot/