Notes de cours de statistique Hammadi Achour ISPT 17 février 2020 Hammadi Achour (ISPT) Statistique 17 février 2020 1 / 30 Table des matières 1 Propriétés de la loi normale 2 Les tests statistiques Hammadi Achour (ISPT) Statistique 17 février 2020 2 / 30 La loi normale Plan 1. Représentation graphique de la distribution d’une variable continue 2. Densité de probabilité 3. La distribution normale 4. Propriétés d’une distribution normale 5. La loi normale centrée réduite Prérequis Variable quantitative continue Graphique de représentation de données Paramètres descriptifs d’une série (position, dispersion etc.) Hammadi Achour (ISPT) Statistique 17 février 2020 3 / 30 Variable quantitative continue Exemple introductif : une série statistique de taille (N=30) ;variable mesurée : diamètre en cm. rnorm(30, mean=30, sd=2) 34.0 32.1 29.4 32.7 35.8 34.6 31.4 31.4 34.7 31.9 30.3 30.7 Classe de diamètres (cm) 27.5 - 29.2 29.2 - 30.8 30.8 - 32.5 32.5 - 34.2 34.2 - 35.9 Total Hammadi Achour (ISPT) 30.2 35.4 29.1 ni 3 6 12 3 6 30 34.4 30.9 32.8 fi (%) 10 20 40 10 20 100 Statistique 30.2 34.8 34.9 31.6 34.7 34.9 33.7 35.1 36.7 31.5 34.7 32.4 Pour résumer une telle distribution, il fallait regrouper les valeurs en classes (discrétisation). 17 février 2020 4 / 30 0.20 0.15 p(x)=0.17 0.10 Fréquence relative (px) 26 28 0.25 0.00 0.05 4 0 2 Fréquence (f ) 6 0.25 8 p(x) fréquence relative de chaque classe = surface d’un rectangle Total de la surface de l’histogramme = 1 30 32 34 0.20 densité de probabilité f(x)=0.17 0.00 26 Hammadi Achour (ISPT) 28 34 B P(a<X<b) P(X>b) a a 32 x P(X>b) la probabilité qu’un individu X présente une valeur >b est mesurée par la surface B P(a<X<b) la probabilité qu’un individu X préqsente une valeur comprise entre a et b est mesurée par la surface C la surface C 0.15 P(X<a) 30 P(X<a) la probabilité qu’un individu X présente une valeur <a est mesurée par la surface A 0.10 A 28 f(x)=p(x)/a C 0.05 Densité de fréque,ce relative (f(x) 26 x 30 b 32 Statistique 34 17 février 2020 5 / 30 Distribution normale densité de probabilité de X densité de probabilité de X 2.5% 2.5% -2 sigma 50% 50% u u=moyenne Hammadi Achour (ISPT) 2 sigma X 95% des valeurs sont comprises entre -2 sigma et +2 sigma 2.5% des valeurs sont >u +2sigma 2.5% des valeurs sint <u-2 sigma X Statistique 17 février 2020 6 / 30 Loi normale centrée-réduite Exemple Soit la série statistique X suivante : (14.1, 15.8, 17.5, 8.1, 16,2, 17.3). Le centrage réduction de cette série consiste à calculer : Z= Xi − µ σ ce qui donne la série X’ suivante : (-0.87, 1.0, -0.3, 0.05, 1.3, -1.2) avec ν = 0 et σ = 1 Hammadi Achour (ISPT) Statistique 17 février 2020 7 / 30 Propriétés de la distribution normale centrée réduite Z il y a une probabilté de 2.5% que la valeur de Z est >2 2.5% -2 2.5% -1.96 -1 0 1 1.96 2 95% des valeurs de Z sont comprises entre -2 et +2 Loi normale centrée réduite : Z N(0,1) la variable centrée réduite Z=(X-µ)/σ courbe symétrique par rapport à Z=0 P(Z≤ 0)=P(Z>0)=0.5 P(-1≤Z≤1)=0.68 P(-1.96≤Z≤1.96)=0.95 Hammadi Achour (ISPT) Statistique 17 février 2020 8 / 30 La table de Z (α unilatéral) Z α 0.84 20% 1.28 10% 1.64 5% 1.96 2.5% 2.33 1% 2.58 0.5% 3.09 0.1% 3.72 0.01% La probabilité que Z > 1.96 = 2.5% La probabilité que Z > 3.72 = 0.01% Plus les valeurs de Z sont élevées plus la probabilité de trouver une valeur supérieure est faible. La table de |Z| ( α bilatéral) |Z| α 0.84 40% 1.28 20% 1.64 10% 1.96 5% 2.33 2% 2.58 1% 3.09 0.2% 3.72 0.02% La probabilité que la valeur absolue de Z > 1.96 = 5% La probabilité que la valeur absolue de Z > 3.72 = 0.02% Hammadi Achour (ISPT) Statistique 17 février 2020 9 / 30 Exemple On suppose qu’une certaine variable X N (11, 2). Chercher P(X ≤ 14) ? X − 11 X= 2 On centre et on réduit P (X ≤ 14) = P ( X − 11 14 − 11 ≤ ) 2 2 = P(Z≤ 1.5) Commandes R pnorm(1.5, mean = 0, sd = 1, lower.tail = TRUE) La probabilité que Z soit < à 1.5 = 0.9331928 pnorm(1.5, mean = 0, sd = 1, lower.tail = FALSE) La probabilité que Z soit > à 1.5 = 0.0668072 2 * pnorm(1.5, lower.tail = FALSE) La probabilité que la |Z| soit > à 1.65 = 0.1336144 Hammadi Achour (ISPT) Statistique 17 février 2020 10 / 30 Les tests statistiques Plan 1. Principe des tests statistiques Exemples introductifs Étapes de formulation d’un test d’hypothèse 2. Comparaison de 2 moyennes (grands échantillons n ≥ 30) Comparaison d’une moyenne observée à une moyenne théorique Comparaison de deux moyennes / Échantillons indépendants Comparaison de deux moyennes / Échantillons appariés Hammadi Achour (ISPT) Statistique 17 février 2020 11 / 30 Exemples introductifs Exemple 1. On souhaite tester l’efficacité d’un nouveau traitement biologique par un rapport un traitement chimique couramment utilisé, et ce pour éradiquer la chenille processionnaire du pin Thaumetopoea pityocampa . On dispose d’un échantillon de 70 arbres divisé en 2 groupes : Groupe A (35 individus) : nouveau traitement (biologique) Groupe B (35 individus) : traitement classique (chimique) 3 mois plus tard, nous avons observé la guérison des arbres infectés : Groupe A : 76 % de guérison Groupe B : Groupe B : 62 % de guérison Hammadi Achour (ISPT) Statistique 17 février 2020 12 / 30 Exemples introductifs Le nouveau traitement est-il plus efficace que le traitement classique ? D’un point de vue descriptif → OUI Si on tire un autre échantillon, retrouve-t-on la même différence d’efficacité ? (fluctuations d’échantillonnage) Peut-on extrapoler cette différence d’efficacité à la population ? Les tests statistiques permettent de fixer une règle de décision objective. Hammadi Achour (ISPT) Statistique 17 février 2020 13 / 30 Exemples introductifs Exemple 2. Un technicien forestier a mesuré les hauteurs de 60 arbres par un dendromètre. Pour vérifier la qualité de cette méthode, les mêmes arbres ont été abattus et mesurés au sol. Méthode A : Arbres debouts : dendroromètre Méthode B : Arbres abattus : décamètre ruban Existe-t-il une différence significative de hauteur entre les arbres mesurés debout ou après abattage ? Hammadi Achour (ISPT) Statistique 17 février 2020 14 / 30 Étapes de formulation d’un test d’hypothèse Les tests d’hypothèse, quels que soient leurs types, se formulent de la même façon : On se pose une question Le nouveau traitement est-il plus efficace que le traitement classique ? On pose l’hypothèse nulle H0 et l’hypothèse alternative H1 H0 : Le traitement classique et le nouveau traitement ont la même efficacité. H1 : Les deux traitements ont des efficacités différentes. On fixe un seuil de signification α à ne pas dépasser pour rejeter l’hypothèse nulle (le risque standard est égal à 5%). Hammadi Achour (ISPT) Statistique 17 février 2020 15 / 30 Étapes de formulation d’un test d’hypothèse Apha = 5% 2.5% 2.5% -1.96 Rejet de H0 0 Non rejet de H0 X 1.96 Rejet de H0 On collecte des données d’un échantillon que l’on suppose tiré au hasard de la population étudiée. On détermine la statistique de test et sa loi de probabilité. Hammadi Achour (ISPT) Statistique 17 février 2020 16 / 30 Étapes de formulation d’un test d’hypothèse On calcule la probabilité d’obtenir les écarts observées en utilisant la loi suivie par la statistique de test. Cette probabilité est appelée p-value (degré de signification). On conclue au rejet ou non rejet de l’hypothèse nulle en fonction du résultat de la comparaison de la valeur de la probabilité p-value au risque seuil α : Si p-value ≤ α on rejette H0 en faveur de H1. S p-value > on accepte H0 et H1 sera rejetée. Hammadi Achour (ISPT) Statistique 17 février 2020 17 / 30 Comparaison de 2 moyennes Il existe trois types de tests pour comparer 2 moyennes : Les tests de conformité. Comparaison d’une moyenne observée x̄ d’un (échantillon) à une moyenne exacte ν d’une population de référence. La moyenne x̄ est-elle conforme à la valeur ν ? La différence entre x̄ et ν est significative sous l’hypothèse H0 : m= ν Les tests d’homogénéité. Comparaison d’une moyenne d’échantillon 1 (x¯1 ) avec celle d’un deuxième échantillon (x¯2 ). Les 2 échantillons sont indépendants. On se demande si les 2 moyennes observées proviennent de populations caractérisées par des moyennes identiques. La différence entre x¯1 et x¯2 est significative sous l’hypothèse H0 : ν1= ν2. Les tests sur une série appariée. Comparaison de 2 séries du même échantillon. La moyenne des différences d¯ des valeurs de 2 séries est significativement différente de 0 sous H0 : νd =0. Hammadi Achour (ISPT) Statistique 17 février 2020 18 / 30 Le test-t de Student Le test T de student n’est applicable que si et seulement si la série de valeurs X suit une loi normale ! X N (µ, σ) Il existe plusieurs variants du test-t de Student : 1. Le test-t de Student pour échantillon unique (test de conformité). 2. Le test-t de Student comparant deux groupes d’échantillons dépendants (on parle de test de Student apparié). 3. Le test-t de Student comparant deux groupes d’échantillons indépendants (test d’homogénéité ; test de Student non apparié). Hammadi Achour (ISPT) Statistique 17 février 2020 19 / 30 Test de Student pour échantillon unique Soit X une série de valeurs de taille n, de moyenne x̄ et d’écart-type (s). La comparaison de la moyenne observée x̄ à une valeur théorique µ est donnée par par la formule : t= x̄ − µ √s n Pour savoir si la différence est significative, il faut tout d’abord lire dans la table t, la valeur critique correspondant au risque alpha = 5% pour un degré de liberté : d.d.l = n − 1. Si la valeur absolue de t (|t|) est > à la valeur critique W , alors la différence est significative. Dans le cas contraire, elle ne l’est pas. Hammadi Achour (ISPT) Statistique 17 février 2020 20 / 30 Test de Student pour échantillon unique Exemple. Soit un échantillon de 10 arbres choisi au hasard d’une population distribuée selon une loi normale de moyenne de diamètres : µ = 22.5 cm et d’écart-type σ. La moyenne empirique des diamètres de l’échantillon x̄ = 15.8 cm et l’écart-type empirique s = 6 cm. 1. Choix des hypothèses H0 : le diamètre moyen des arbres est identique à celui de la population (H0 : x̄ = µ) H1 : le diamètre moyen des arbres est différent à celui de la population (H1 : x̄ 6= µ) 2. Choix du risque α=5% 3. Détermination de la région critique (W =2.26 ; lecture à partir de la table t) 4. Calcul de T sur l’échantillon x̄ − µ 15.8 − 22.5 t= s = = −3.53 6 √ n √ 10 5. Conclusion : | − 3.53| > 2.26 → La moyenne observée sur l’échantillon est significativement différente de la moyenne théorique. Hammadi Achour (ISPT) Statistique 17 février 2020 21 / 30 Test de Student pour échantillon unique Exemple. Calcul du test de Student avec R Lancer R et générer une série aléatoire n=15, de moyenne x̄ = 10.6 et d’écart-type s = 2.3. Vérifier la normalité de cette série. Vérifier si la moyenne x̄ de cette série est significativement différente de µ = 8.9 x<-rnorm(15, mean=10.6, sd=2.3)# série aléatoire qqnorm(x) # comparer la distribution d’un échantillon avec une distribution normale. shapiro.test(x) # test permettant de savoir si une série de données suit une loi normale. abline(mean(x),sd(x)),col=”red”) t.test(x,mu=8.9)# test-t de Student La p-value du test est de 0.01736. Ce qui est < à 0.05. On rejette l’hypothèse 0 et on conclut que x̄ est significativement différent de µ avec une p-value = 0.01736. Hammadi Achour (ISPT) Statistique 17 février 2020 22 / 30 Test de Student pour séries appariées Pour comparer les moyennes de deux séries appariées, on calcule la différence (d) des deux mesures pour chaque paire. La moyenne de la différence d est comparée à la valeur 0. S’il y a une différence significative entre les deux séries appariées, la moyenne de d devrait être très éloignée de la valeur 0. La valeur t de Student est donnée par : t= m √s n m et s représentent la moyenne et l’écart-type de la différence d. n est la taille de la série d. Pour savoir si la différence est significative, il faut tout d’abord lire dans la table t, la valeur critique correspondant au risque alpha = 5% pour un degré de liberté : d.d.l = n − 1. Si la valeur absolue de t (|t|) est > à la valeur critique W , alors la différence est significative. Dans le cas contraire, elle ne l’est pas. Hammadi Achour (ISPT) Statistique 17 février 2020 23 / 30 Test de Student pour séries appariées Exemple. Calcul du test de Student avec R On a mesuré la hauteur (en m) de 12 arbres selon deux méthodes différentes (dendromètre vs. décamètre ruban), avant et après la coupe de l’arbre. Lancer R et saisir les mesures relatives à chaque méthode. Vérifier graphiquement/statistiquement la normalité des mesures de chaque méthode. Vérifier si la différence entre les deux méthodes de mesure est significative. debout abattu 20.4 21.7 25.4 26.3 25.6 26.8 25.6 28.1 26.6 26.2 28.6 27.3 28.7 29.5 29.0 32.0 29.8 30.9 30.5 32.3 30.9 32.3 Solution debout <- c(20.4,25.4,25.6,25.6,26.6,28.6,28.7,29.0,29.8,30.5,30.9) abattu <- c(21.7,26.3,26.8,28.1,26.2,27.3,29.5,32.0,30.9,32.3,32.3) shapiro.test(debout)# vérification de la normalité W = 0.89693, p-value = 0.169 # p-value>0.05 ; distribution normale shapiro.test(abattu)# vérification de la normalité W = 0.91728, p-value = 0.2966 # p-value>0.05 ; distribution normale Hammadi Achour (ISPT) Statistique 17 février 2020 24 / 30 Test de Student pour séries appariées par(mfrow=c(2,1))# découper la fenêtre graphique en 2 lignes et 1 colonne qqnorm(debout,pch=16,col=”blue”)# diagramme Quantile-Quantile permettant de comparer la pertinence de l’ajustement de données à un modèle théorique gaussien. qqline(debout,col=”red”,lwd=2)# droite de Henry ; dans le cas d’une distribution normale les points sont alignés sur la droite. legend(bottomright, legend=c(”debout”))#légende du graphique qqnorm(abattu,pch=16,col=”blue”) qqline(abattu,col=”red”,lwd=2) legend(bottomright, legend=c(”abattu”)) t.test(debout, abattu, paired=TRUE)#test t sur une série appariée t = -3.0973, df = 10, p-value = 0.0113 # | − 3.0973| > 2.228 | p-value<0.05 ;la différence entre les deux méthodes est statistiquement significative. Hammadi Achour (ISPT) Statistique 17 février 2020 25 / 30 Test de Student pour échantillons appariés 28 24 debout 20 Sample Quantiles Normal Q−Q Plot −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 Theoretical Quantiles 30 26 abattu 22 Sample Quantiles Normal Q−Q Plot −1.5 Hammadi Achour (ISPT) −1.0 −0.5 0.0 Statistique 0.5 1.0 1.5 17 février 2020 26 / 30 Test de Student pour échantillons indépendants Soit A et B deux groupes différents à comparer. Soit mA et mB la moyenne du groupe A et celui du groupe B, respectivement. La valeur t de Student est donnée par la formule suivante : mA − mB t= q S2 S2 nA + nB S 2 est la variance commune des 2 groupes. Elle est calculée par la formule suivante : P P (x − mA )2 + (x − mB )2 2 S = nA + nB − 2 Pour savoir si la différence est significative, il faut lire dans la table t, la valeur critique correspondant au risque alpha = 5% pour un degré de liberté : d.d.l = nA + nB − 2. Si la valeur absolue de t (|t|) est > à la valeur critique W , alors la différence est significative. Dans le cas contraire, elle ne l’est pas. Hammadi Achour (ISPT) Statistique 17 février 2020 27 / 30 Test de Student pour échantillons indépendants Exemple. Calcul du test de Student avec R Des mesures sont effectuées sur la longueur de la mâchoire inférieure (en mm) de 10 chacals mâles et 10 chacals femelles. mâle femelle 120 110 107 111 110 107 116 108 114 110 111 105 113 107 117 106 114 111 112 111 La variable mesurée diffère-t-elle entre les sexes dans cette espèce ? Solution mâle <- c(120, 107, 110, 116, 114, 111, 113, 117, 114, 112) femelle <- c(110, 111, 107, 108, 110, 105, 107, 106, 111, 111) On range les données dans le tableau chac et on ajoute une variable qualitative binaire pour noter le sexe des individus. mâch <- c(mâle, femelle) chac <- data.frame(mâch) chac$plan <- gl(n = 2, k = 10, lab = c(”mâle”, ”femelle”)) head(chac) moy <- with(chac, tapply(mâch, plan, mean)) par(mfrow = c(1, 2)) Hammadi Achour (ISPT) Statistique 17 février 2020 28 / 30 Test de Student pour échantillons indépendants with(chac, dotchart(mâch, groups = plan, gdata = moy, gpch = 19, xlab = ”Mâchoire [mm]”)) boxplot(mâch∼plan, chac,col = c(”lightblue”, ”pink”), notch = TRUE, las = 1,ylab = ”Mâchoire [mm]”) 120 mâle Mâchoire [mm] 115 femelle 110 105 105 110 115 120 mâle femelle Mâchoire [mm] On constate que la mâchoire des mâles est en moyenne plus longue que celle des femelles. Les encoches des boites à moustaches nous indiquent que l’on est à la limite de la significativité. Un test d’hypothèse serait le bienvenu. Hammadi Achour (ISPT) Statistique 17 février 2020 29 / 30 Test de Student pour échantillons indépendants with(chac, tapply(mâch, plan, shapiro.test)) W = 0.88085, p-value = 0.1335 ; p-value>0.05 ; on accepte l’hypothèse de normalité. var.test(mâch∼ plan, data = chac) p-value = 0.1579 ; p-value>0.05 ; on accepte l’hypothèse nulle d’égalité des variances t.test(mâch∼plan, var.equal = TRUE, data = chac) p-value = 0.002647 Conclusion : La longueur de la mâchoire inférieure des chacals diffère selon le sexe puisque p-value<0.05. Hammadi Achour (ISPT) Statistique 17 février 2020 30 / 30