Telechargé par TOUJANI.AHMED

Cours de statistique (partie 2)

publicité
Notes de cours de statistique
Hammadi Achour
ISPT
17 février 2020
Hammadi Achour (ISPT)
Statistique
17 février 2020
1 / 30
Table des matières
1
Propriétés de la loi normale
2
Les tests statistiques
Hammadi Achour (ISPT)
Statistique
17 février 2020
2 / 30
La loi normale
Plan
1. Représentation graphique de la distribution d’une variable
continue
2. Densité de probabilité
3. La distribution normale
4. Propriétés d’une distribution normale
5. La loi normale centrée réduite
Prérequis
Variable quantitative continue
Graphique de représentation de données
Paramètres descriptifs d’une série (position, dispersion etc.)
Hammadi Achour (ISPT)
Statistique
17 février 2020
3 / 30
Variable quantitative continue
Exemple introductif : une série statistique de taille (N=30) ;variable
mesurée : diamètre en cm.
rnorm(30, mean=30, sd=2)
34.0
32.1
29.4
32.7
35.8
34.6
31.4
31.4
34.7
31.9
30.3
30.7
Classe de diamètres (cm)
27.5 - 29.2
29.2 - 30.8
30.8 - 32.5
32.5 - 34.2
34.2 - 35.9
Total
Hammadi Achour (ISPT)
30.2
35.4
29.1
ni
3
6
12
3
6
30
34.4
30.9
32.8
fi (%)
10
20
40
10
20
100
Statistique
30.2
34.8
34.9
31.6
34.7
34.9
33.7
35.1
36.7
31.5
34.7
32.4
Pour résumer une telle
distribution, il fallait
regrouper les valeurs en
classes (discrétisation).
17 février 2020
4 / 30
0.20
0.15
p(x)=0.17
0.10
Fréquence relative (px)
26
28
0.25
0.00
0.05
4
0
2
Fréquence (f )
6
0.25
8
p(x) fréquence relative de chaque classe = surface d’un rectangle
Total de la surface de l’histogramme = 1
30
32
34
0.20
densité de probabilité
f(x)=0.17
0.00
26
Hammadi Achour (ISPT)
28
34
B
P(a<X<b)
P(X>b)
a
a
32
x
P(X>b) la probabilité qu’un individu X présente une valeur >b
est mesurée par la surface B
P(a<X<b) la probabilité qu’un individu X préqsente une valeur
comprise entre a et b est mesurée par la surface C
la surface C
0.15
P(X<a)
30
P(X<a) la probabilité qu’un individu X présente une valeur <a
est mesurée par la surface A
0.10
A
28
f(x)=p(x)/a
C
0.05
Densité de fréque,ce relative (f(x)
26
x
30
b
32
Statistique
34
17 février 2020
5 / 30
Distribution normale
densité de probabilité de X
densité de probabilité de X
2.5%
2.5%
-2 sigma
50%
50%
u
u=moyenne
Hammadi Achour (ISPT)
2 sigma X
95% des valeurs sont comprises entre
-2 sigma et +2 sigma
2.5% des valeurs sont >u +2sigma
2.5% des valeurs sint <u-2 sigma
X
Statistique
17 février 2020
6 / 30
Loi normale centrée-réduite
Exemple
Soit la série statistique X suivante : (14.1, 15.8, 17.5, 8.1, 16,2, 17.3). Le
centrage réduction de cette série consiste à calculer :
Z=
Xi − µ
σ
ce qui donne la série X’ suivante : (-0.87, 1.0, -0.3, 0.05, 1.3, -1.2) avec
ν = 0 et σ = 1
Hammadi Achour (ISPT)
Statistique
17 février 2020
7 / 30
Propriétés de la distribution normale
centrée réduite Z
il y a une probabilté de 2.5%
que la valeur de Z est >2
2.5%
-2
2.5%
-1.96
-1
0
1
1.96
2
95% des valeurs de Z sont comprises entre -2 et +2
Loi normale centrée réduite : Z
N(0,1)
la variable centrée réduite Z=(X-µ)/σ
courbe symétrique par rapport à Z=0
P(Z≤ 0)=P(Z>0)=0.5
P(-1≤Z≤1)=0.68
P(-1.96≤Z≤1.96)=0.95
Hammadi Achour (ISPT)
Statistique
17 février 2020
8 / 30
La table de Z (α unilatéral)
Z
α
0.84
20%
1.28
10%
1.64
5%
1.96
2.5%
2.33
1%
2.58
0.5%
3.09
0.1%
3.72
0.01%
La probabilité que Z > 1.96 = 2.5%
La probabilité que Z > 3.72 = 0.01%
Plus les valeurs de Z sont élevées plus la probabilité de trouver une
valeur supérieure est faible.
La table de |Z| ( α bilatéral)
|Z|
α
0.84
40%
1.28
20%
1.64
10%
1.96
5%
2.33
2%
2.58
1%
3.09
0.2%
3.72
0.02%
La probabilité que la valeur absolue de Z > 1.96 = 5%
La probabilité que la valeur absolue de Z > 3.72 = 0.02%
Hammadi Achour (ISPT)
Statistique
17 février 2020
9 / 30
Exemple
On suppose qu’une certaine variable X
N (11, 2). Chercher P(X ≤
14) ?
X − 11
X=
2
On centre et on réduit
P (X ≤ 14) = P (
X − 11
14 − 11
≤
)
2
2
= P(Z≤ 1.5)
Commandes R
pnorm(1.5, mean = 0, sd = 1, lower.tail = TRUE)
La probabilité que Z soit < à 1.5 = 0.9331928
pnorm(1.5, mean = 0, sd = 1, lower.tail = FALSE) La probabilité que
Z soit > à 1.5 = 0.0668072
2 * pnorm(1.5, lower.tail = FALSE)
La probabilité que la |Z| soit > à 1.65 = 0.1336144
Hammadi Achour (ISPT)
Statistique
17 février 2020
10 / 30
Les tests statistiques
Plan
1. Principe des tests statistiques
Exemples introductifs
Étapes de formulation d’un test d’hypothèse
2. Comparaison de 2 moyennes (grands échantillons n ≥ 30)
Comparaison d’une moyenne observée à une moyenne théorique
Comparaison de deux moyennes / Échantillons indépendants
Comparaison de deux moyennes / Échantillons appariés
Hammadi Achour (ISPT)
Statistique
17 février 2020
11 / 30
Exemples introductifs
Exemple 1. On souhaite tester l’efficacité d’un nouveau traitement biologique par un rapport un traitement chimique couramment utilisé, et ce pour
éradiquer la chenille processionnaire du
pin Thaumetopoea pityocampa .
On dispose d’un échantillon de 70 arbres divisé en 2 groupes :
Groupe A (35 individus) : nouveau traitement (biologique)
Groupe B (35 individus) : traitement classique (chimique)
3 mois plus tard, nous avons observé la guérison des arbres infectés :
Groupe A : 76 % de guérison
Groupe B : Groupe B : 62 % de guérison
Hammadi Achour (ISPT)
Statistique
17 février 2020
12 / 30
Exemples introductifs
Le nouveau traitement est-il plus efficace que le traitement classique ?
D’un point de vue descriptif → OUI
Si on tire un autre échantillon, retrouve-t-on la même différence
d’efficacité ? (fluctuations d’échantillonnage)
Peut-on extrapoler cette différence d’efficacité à la population ?
Les tests statistiques permettent de fixer une règle de décision objective.
Hammadi Achour (ISPT)
Statistique
17 février 2020
13 / 30
Exemples introductifs
Exemple 2. Un technicien forestier a mesuré
les hauteurs de 60 arbres par un dendromètre.
Pour vérifier la qualité de cette méthode, les
mêmes arbres ont été abattus et mesurés au
sol.
Méthode A : Arbres debouts :
dendroromètre
Méthode B : Arbres abattus : décamètre
ruban
Existe-t-il une différence significative de hauteur entre les arbres mesurés
debout ou après abattage ?
Hammadi Achour (ISPT)
Statistique
17 février 2020
14 / 30
Étapes de formulation d’un test d’hypothèse
Les tests d’hypothèse, quels que soient leurs types, se formulent de la même
façon :
On se pose une question
Le nouveau traitement est-il plus efficace que le traitement
classique ?
On pose l’hypothèse nulle H0 et l’hypothèse alternative H1
H0 : Le traitement classique et le nouveau traitement ont la même
efficacité.
H1 : Les deux traitements ont des efficacités différentes.
On fixe un seuil de signification α à ne pas dépasser pour rejeter
l’hypothèse nulle (le risque standard est égal à 5%).
Hammadi Achour (ISPT)
Statistique
17 février 2020
15 / 30
Étapes de formulation d’un test d’hypothèse
Apha = 5%
2.5%
2.5%
-1.96
Rejet de H0
0
Non rejet de H0
X
1.96
Rejet de H0
On collecte des données d’un échantillon que l’on suppose tiré au
hasard de la population étudiée.
On détermine la statistique de test et sa loi de probabilité.
Hammadi Achour (ISPT)
Statistique
17 février 2020
16 / 30
Étapes de formulation d’un test d’hypothèse
On calcule la probabilité d’obtenir les écarts observées en utilisant
la loi suivie par la statistique de test. Cette probabilité est appelée
p-value (degré de signification).
On conclue au rejet ou non rejet de l’hypothèse nulle en fonction
du résultat de la comparaison de la valeur de la probabilité p-value
au risque seuil α :
Si p-value ≤ α on rejette H0 en faveur de H1.
S p-value > on accepte H0 et H1 sera rejetée.
Hammadi Achour (ISPT)
Statistique
17 février 2020
17 / 30
Comparaison de 2 moyennes
Il existe trois types de tests pour comparer 2 moyennes :
Les tests de conformité. Comparaison d’une moyenne observée x̄ d’un
(échantillon) à une moyenne exacte ν d’une population de référence.
La moyenne x̄ est-elle conforme à la valeur ν ?
La différence entre x̄ et ν est significative sous l’hypothèse H0 : m=
ν
Les tests d’homogénéité. Comparaison d’une moyenne d’échantillon 1
(x¯1 ) avec celle d’un deuxième échantillon (x¯2 ). Les 2 échantillons sont
indépendants.
On se demande si les 2 moyennes observées proviennent de
populations caractérisées par des moyennes identiques.
La différence entre x¯1 et x¯2 est significative sous l’hypothèse H0 :
ν1= ν2.
Les tests sur une série appariée. Comparaison de 2 séries du même
échantillon.
La moyenne des différences d¯ des valeurs de 2 séries est
significativement différente de 0 sous H0 : νd =0.
Hammadi Achour (ISPT)
Statistique
17 février 2020
18 / 30
Le test-t de Student
Le test T de student n’est applicable que si et seulement si la série de valeurs
X suit une loi normale ! X
N (µ, σ)
Il existe plusieurs variants du test-t de Student :
1. Le test-t de Student pour échantillon unique (test de conformité).
2. Le test-t de Student comparant deux groupes d’échantillons dépendants
(on parle de test de Student apparié).
3. Le test-t de Student comparant deux groupes d’échantillons
indépendants (test d’homogénéité ; test de Student non apparié).
Hammadi Achour (ISPT)
Statistique
17 février 2020
19 / 30
Test de Student pour échantillon unique
Soit X une série de valeurs de taille n, de moyenne x̄ et d’écart-type (s). La
comparaison de la moyenne observée x̄ à une valeur théorique µ est donnée par
par la formule :
t=
x̄ − µ
√s
n
Pour savoir si la différence est significative, il faut tout d’abord lire dans la
table t, la valeur critique correspondant au risque alpha = 5% pour un degré
de liberté : d.d.l = n − 1.
Si la valeur absolue de t (|t|) est > à la valeur critique W , alors la différence est
significative. Dans le cas contraire, elle ne l’est pas.
Hammadi Achour (ISPT)
Statistique
17 février 2020
20 / 30
Test de Student pour échantillon unique
Exemple. Soit un échantillon de 10 arbres choisi au hasard d’une population
distribuée selon une loi normale de moyenne de diamètres : µ = 22.5 cm et
d’écart-type σ. La moyenne empirique des diamètres de l’échantillon x̄ = 15.8
cm et l’écart-type empirique s = 6 cm.
1. Choix des hypothèses
H0 : le diamètre moyen des arbres est identique à celui de la
population (H0 : x̄ = µ)
H1 : le diamètre moyen des arbres est différent à celui de la
population (H1 : x̄ 6= µ)
2. Choix du risque α=5%
3. Détermination de la région critique (W =2.26 ; lecture à partir de la
table t)
4. Calcul de T sur l’échantillon
x̄ − µ
15.8 − 22.5
t= s =
= −3.53
6
√
n
√
10
5. Conclusion : | − 3.53| > 2.26 → La moyenne observée sur l’échantillon
est significativement différente de la moyenne théorique.
Hammadi Achour (ISPT)
Statistique
17 février 2020
21 / 30
Test de Student pour échantillon unique
Exemple. Calcul du test de Student avec R
Lancer R et générer une série aléatoire n=15, de moyenne x̄ = 10.6 et
d’écart-type s = 2.3.
Vérifier la normalité de cette série.
Vérifier si la moyenne x̄ de cette série est significativement différente de
µ = 8.9
x<-rnorm(15, mean=10.6, sd=2.3)# série aléatoire
qqnorm(x) # comparer la distribution d’un échantillon avec une distribution
normale.
shapiro.test(x) # test permettant de savoir si une série de données suit une
loi normale.
abline(mean(x),sd(x)),col=”red”)
t.test(x,mu=8.9)# test-t de Student
La p-value du test est de 0.01736. Ce qui est < à 0.05. On rejette l’hypothèse 0 et
on conclut que x̄ est significativement différent de µ avec une p-value = 0.01736.
Hammadi Achour (ISPT)
Statistique
17 février 2020
22 / 30
Test de Student pour séries appariées
Pour comparer les moyennes de deux séries appariées, on calcule la différence
(d) des deux mesures pour chaque paire.
La moyenne de la différence d est comparée à la valeur 0. S’il y a une
différence significative entre les deux séries appariées, la moyenne de d
devrait être très éloignée de la valeur 0.
La valeur t de Student est donnée par :
t=
m
√s
n
m et s représentent la moyenne et l’écart-type de la différence d. n
est la taille de la série d.
Pour savoir si la différence est significative, il faut tout d’abord lire
dans la table t, la valeur critique correspondant au risque alpha =
5% pour un degré de liberté : d.d.l = n − 1.
Si la valeur absolue de t (|t|) est > à la valeur critique W , alors la différence est
significative. Dans le cas contraire, elle ne l’est pas.
Hammadi Achour (ISPT)
Statistique
17 février 2020
23 / 30
Test de Student pour séries appariées
Exemple. Calcul du test de Student avec R
On a mesuré la hauteur (en m) de 12 arbres selon deux méthodes différentes
(dendromètre vs. décamètre ruban), avant et après la coupe de l’arbre.
Lancer R et saisir les mesures relatives à chaque méthode.
Vérifier graphiquement/statistiquement la normalité des mesures de
chaque méthode.
Vérifier si la différence entre les deux méthodes de mesure est significative.
debout
abattu
20.4
21.7
25.4
26.3
25.6
26.8
25.6
28.1
26.6
26.2
28.6
27.3
28.7
29.5
29.0
32.0
29.8
30.9
30.5
32.3
30.9
32.3
Solution
debout <- c(20.4,25.4,25.6,25.6,26.6,28.6,28.7,29.0,29.8,30.5,30.9)
abattu <- c(21.7,26.3,26.8,28.1,26.2,27.3,29.5,32.0,30.9,32.3,32.3)
shapiro.test(debout)# vérification de la normalité
W = 0.89693, p-value = 0.169 # p-value>0.05 ; distribution normale
shapiro.test(abattu)# vérification de la normalité
W = 0.91728, p-value = 0.2966 # p-value>0.05 ; distribution normale
Hammadi Achour (ISPT)
Statistique
17 février 2020
24 / 30
Test de Student pour séries appariées
par(mfrow=c(2,1))# découper la fenêtre graphique en 2 lignes et 1 colonne
qqnorm(debout,pch=16,col=”blue”)# diagramme Quantile-Quantile permettant de
comparer la pertinence de l’ajustement de données à un modèle théorique gaussien.
qqline(debout,col=”red”,lwd=2)# droite de Henry ; dans le cas d’une distribution
normale les points sont alignés sur la droite.
legend(bottomright, legend=c(”debout”))#légende du graphique
qqnorm(abattu,pch=16,col=”blue”)
qqline(abattu,col=”red”,lwd=2)
legend(bottomright, legend=c(”abattu”))
t.test(debout, abattu, paired=TRUE)#test t sur une série appariée
t = -3.0973, df = 10, p-value = 0.0113 # | − 3.0973| > 2.228 | p-value<0.05 ;la
différence entre les deux méthodes est statistiquement significative.
Hammadi Achour (ISPT)
Statistique
17 février 2020
25 / 30
Test de Student pour échantillons appariés
28
24
debout
20
Sample Quantiles
Normal Q−Q Plot
−1.5
−1.0
−0.5
0.0
0.5
1.0
1.5
Theoretical Quantiles
30
26
abattu
22
Sample Quantiles
Normal Q−Q Plot
−1.5
Hammadi Achour (ISPT)
−1.0
−0.5
0.0
Statistique
0.5
1.0
1.5
17 février 2020
26 / 30
Test de Student pour échantillons indépendants
Soit A et B deux groupes différents à comparer.
Soit mA et mB la moyenne du groupe A et celui du groupe B,
respectivement.
La valeur t de Student est donnée par la formule suivante :
mA − mB
t= q
S2
S2
nA + nB
S 2 est la variance commune des 2 groupes. Elle est calculée par la formule
suivante :
P
P
(x − mA )2 + (x − mB )2
2
S =
nA + nB − 2
Pour savoir si la différence est significative, il faut lire dans la table t, la
valeur critique correspondant au risque alpha = 5% pour un degré de
liberté : d.d.l = nA + nB − 2.
Si la valeur absolue de t (|t|) est > à la valeur critique W , alors la différence est
significative. Dans le cas contraire, elle ne l’est pas.
Hammadi Achour (ISPT)
Statistique
17 février 2020
27 / 30
Test de Student pour échantillons indépendants
Exemple. Calcul du test de Student avec R
Des mesures sont effectuées sur la longueur de la mâchoire inférieure (en mm)
de 10 chacals mâles et 10 chacals femelles.
mâle
femelle
120
110
107
111
110
107
116
108
114
110
111
105
113
107
117
106
114
111
112
111
La variable mesurée diffère-t-elle entre les sexes dans cette espèce ?
Solution
mâle <- c(120, 107, 110, 116, 114, 111, 113, 117, 114, 112)
femelle <- c(110, 111, 107, 108, 110, 105, 107, 106, 111, 111)
On range les données dans le tableau chac et on ajoute une variable qualitative
binaire pour noter le sexe des individus.
mâch <- c(mâle, femelle)
chac <- data.frame(mâch)
chac$plan <- gl(n = 2, k = 10, lab = c(”mâle”, ”femelle”))
head(chac)
moy <- with(chac, tapply(mâch, plan, mean))
par(mfrow = c(1, 2))
Hammadi Achour (ISPT)
Statistique
17 février 2020
28 / 30
Test de Student pour échantillons indépendants
with(chac, dotchart(mâch, groups = plan, gdata = moy, gpch = 19, xlab = ”Mâchoire
[mm]”))
boxplot(mâch∼plan, chac,col = c(”lightblue”, ”pink”), notch = TRUE, las = 1,ylab
= ”Mâchoire [mm]”)
120
mâle
Mâchoire [mm]
115
femelle
110
105
105
110
115
120
mâle
femelle
Mâchoire [mm]
On constate que la mâchoire des mâles est en moyenne plus longue que celle des
femelles. Les encoches des boites à moustaches nous indiquent que l’on est à la limite
de la significativité. Un test d’hypothèse serait le bienvenu.
Hammadi Achour (ISPT)
Statistique
17 février 2020
29 / 30
Test de Student pour échantillons indépendants
with(chac, tapply(mâch, plan, shapiro.test))
W = 0.88085, p-value = 0.1335 ; p-value>0.05 ; on accepte l’hypothèse de normalité.
var.test(mâch∼ plan, data = chac)
p-value = 0.1579 ; p-value>0.05 ; on accepte l’hypothèse nulle d’égalité des variances
t.test(mâch∼plan, var.equal = TRUE, data = chac)
p-value = 0.002647
Conclusion : La longueur de la mâchoire inférieure des chacals diffère selon le sexe
puisque p-value<0.05.
Hammadi Achour (ISPT)
Statistique
17 février 2020
30 / 30
Téléchargement