Biostatistiques et Bioinformatique Cours de Biostatistiques ⇒ Statistiques descriptives ⇒ Estimation ponctuelle et par intervalle ⇒Tests de comparaison de moyennes (formules uniquement) David Fouchet (inspiré de Dominique Mouchiroud) [email protected] Bât. Gregor Mendel La Doua Lyon I 1 Introduction La statistique est une méthode de raisonnement permettant d’interpréter des données dont la caractéristique fondamentale est la variabilité. – Statistique descriptive : représentation graphique et résumé des données observées sur un échantillon à l’aide d’indices statistiques. – Statistique inductive ou inférentielle : à partir des observations faites sur un échantillon, on induit des propositions sur la population en faisant appel aux calculs des probabilités. 2 POPULATION p, µ, σ2 ? Estimation des paramètres Tests d’hypothèses Echantillonnage ECHANTILLON n individus Inférence statistique Statistique descriptive k , x , s2 n 3 Exemples de questions qui peuvent faire l’objet d’une étude statistique ♦ Est-ce que la masse corporelle des chevreuils à la naissance est influencée par la nature de l’habitat ? Comparaison de deux moyennes observées ♦ Est-ce que le taux de survie à l’hibernation des marmottons est lié au fait qu’ils aient été parasités ou non parasités par les poux. Comparaison de deux fréquences observées ♦ Est-ce que la composition en base C+G des gènes codants dépend du niveau d’expression du gène ? Analyse de Variance à un facteur « niveau d’expression » ♦ Est-ce qu’il existe une relation entre le niveau d’ensoleillement et le degré alcool du raisin ? Régression linéaire 4 Plan général Cours 1 : Cours 2 : Cours 3 : Cours 4 : Cours 5 : Cours 6 : Cours 7 : Révisions : Statistiques descriptives, Intervalle de confiance Révisions : Tests d’hypothèses Révisions : Tests du Chi-deux Analyse de variance à un facteur Analyse de variance à deux facteurs Analyse bivariée Modèle linéaire 5 Plan général Cours 1 : Cours 2 : Cours 3 : Cours 4 : Cours 5 : Cours 6 : Cours 7 : Révisions : Statistiques descriptives, Intervalle de confiance Révisions : Tests d’hypothèses Révisions : Tests du Chi-deux Analyse de variance à un facteur Analyse de variance à deux facteurs Analyse bivariée Modèle linéaire 6 Chapitre 5 Révisions I. Statistiques descriptives I.1 I.2 I.3 I.4 Echantillonnage Caractères (Variables) aléatoires Indices statistiques Exemples 7 I. Statistiques descriptives Echantillonnage Echantillonnage aléatoire simple POPULATION ECHANTILLON Prélèvement de n individus - aléatoire: chaque individu à une probabilité connue et non nulle d’être tiré. - simple : les individus sont tirés indépendamment les uns des autres avec une même probabilité n individus = Taille de l’échantillon 8 I. Statistiques descriptives Caractères ou Variables aléatoires Le caractère désigne une grandeur observable sur un individu, susceptible de varier et prenant différents états appelés modalités. La notion de caractère se confond avec la notion probabiliste de variable aléatoire 9 I. Statistiques descriptives Caractères ou Variables aléatoires ♦Variables qualitatives : modalités non mesurables • nominale : modalités exprimables par des noms et non hiérarchisées. (dichotomique = 2 modalités). Couleur des yeux, sexe, présence/absence d ’une maladie • ordinale : traduit le degré d’un état sans que ce degré ne puisse être défini par un nombre. Modalités hiérarchisées. Stade d’une maladie +, ++, +++, niveau A+,A,A- 10 I. Statistiques descriptives Caractères ou Variables aléatoires ♦Variables quantitatives : modalités mesurables discrète si elle ne prend que des valeurs discontinues dans un intervalle donné : dénombrement ou numération. Nbre d’enfants dans une famille, nbre de petits par portée, nbre de fumeurs continue si elle peut prendre toutes les valeurs dans un intervalle donné : mesure de type continu. Taille, poids, longueur, etc. 11 I. Statistiques descriptives Indices statistiques Si on appelle X, la variable mesurée et xi la mesure de la variable X pour l’individu i, alors pour un échantillon de n individus, nous aurons une série statistique de la forme : {x1, x2, x3,………, xi,………,xn} Position : fixe l’ordre de grandeur de l’ensemble des données Moyenne arithmétique x Dispersion : fixe la variabilité des mesures par rapport à un paramètre de position. Variance observée: s2 Ecart-type (standard deviation: s.d) : ( standard error : s.e. ) : s s2 n−1 12 I. Statistiques descriptives Indices statistiques Moyenne arithmétique : Données non groupées 1 n x = ∑ xi n i =1 avec n taille de l’échantillon 13 Climatologie Exemple Hauteurs des précipitations annuelles (en mm) à Genève sur 16 années de suivi : 583 890 777 958 875 926 524 756 619 730 688 528 901 884 969 1258 n =16 Moyenne : 1 n 12866 x = ∑ xi = = 804,13 mm n i =1 16 14 Climatologie Exemple Hauteurs des précipitations annuelles (en mm) à Genève sur 16 années de suivi : 583 890 777 958 875 926 524 756 619 730 688 528 901 884 969 1258 n =16 Moyenne : 1 n 12866 x = ∑ xi = = 804,13 mm n i =1 16 La moyenne appartient à l’intervalle des données. 15 I. Statistiques descriptives Indices statistiques Moyenne arithmétique : Données non groupées Données groupées en classes 1 n x = ∑ xi n i =1 1 k x = ∑ ni xi ‘ n i =1 avec n taille de l’échantillon k avec n = ∑ ni et k : nbre de classes i =1 xi‘représente la moyenne de la modalité i de la variable X (valeur médiane de la classe): présente chez ni individus de l’échantillon. La variable X présente k modalités différentes. 16 Agronomie Exemple Afin d’étudier l’influence du régime alimentaire sur la prise de poids des poulets et sur leur état sanitaire, deux lots de 32 poulets ont été nourris avec respectivement les aliments A et B. Les poulets sont pesés en début d’expérience et au bout de 90 jours. va. continu Poids (en g) au jour 0 des poulets qui suivront le régime A : [790 – 810[ [810 – 830[ [830 – 850[ [850 – 870[ [870 – 890[ [890 – 910[ [910 – 930[ Poids pi 1 0 2 13 9 4 3 Nbre de poulets ni 800 820 840 860 880 900 920 pi' k n = ∑ ni = 32 i =1 k = 7 classes ou modalités 1 k p = ∑ ni pi' = n i =1 27940 = 873,13 g 32 17 I. Statistiques descriptives Indices statistiques Moyenne arithmétique : - Facile à calculer - La somme des écarts à la moyenne est nulle: n ∑ (xi − x ) = 0 i =1 - Fortement influencée par les valeurs extrêmes - Représente mal une population hétérogène (polymodale) 18 I. Statistiques descriptives Indices statistiques Médiane : Valeur pour laquelle 50% des valeurs observées sont supérieures et 50% sont inférieures Si n impair, n = 2m+1 et Me = xm+1 Si n pair, n = 2m et Me = (xm+xm+1)/2 - Meilleure que la moyenne lorsque la distribution des données ne suit pas une distribution normale, - Pas influencée par des valeurs extrêmes comme la moyenne, - Se prête mal aux calculs statistiques. Mode : valeur de la classe de fréquence maximale dans la distribution des fréquences - Se prête mal aux calculs statistiques. 19 Climatologie Exemple Hauteurs des précipitations annuelles (en mm) à Genève sur 16 années de suivi : 583 890 777 958 875 926 524 756 619 730 688 528 901 884 969 1258 Moyenne : n =16 1 n 12866 x = ∑ xi = = 804,13 mm n i =1 16 524 528 583 619 688 730 756 777 875 884 890 901 926 958 969 1258 Médiane : n = 2m d’où m = 8 Me = (x8+x9)/2 = 826 mm Mode : non calculable 20 Agronomie Exemple Afin d’étudier l’influence du régime alimentaire sur la prise de poids des poulets et sur leur état sanitaire, deux lots de 32 poulets ont été nourris avec respectivement les aliments A et B. Les poulets sont pesés en début d’expérience et au bout de 90 jours. va. continu Poids (en g) au jour 0 des poulets qui suivront le régime A : [790 – 810[ [810 – 830[ [830 – 850[ [850 – 870[ [870 – 890[ [890 – 910[ [910 – 930[ Poids pi 1 0 2 13 9 4 3 Nbre de poulets ni 800 820 840 860 880 900 920 pi' 1 1 3 16 25 29 32 k n = ∑ ni = 32 i =1 k = 7 classes ou modalités 1 k p = ∑ ni pi' = n i =1 Médiane 27940 = 873,13 g 32 n = 2m d’où m = 16 Médiane = (x16+x17)/2 = 870 g Mode = 860 g 21 I. Statistiques descriptives Représentation graphique Poids : X [790 – 810[ [810 – 830[ [830 – 850[ [850 – 870[ [870 – 890[ [890 – 910[ [910 – 930[ ni 1 0 2 13 9 4 3 Effectifs ni 15 10 5 Mode : 860g Médiane : 870 g Moyenne : 873,13 g x ≈ Me ≈ Mo 0 X : poids des poulets Histogramme Hypothèse : la distribution de la variable « poids des poulets » suit une loi normale 22 II. Lois de probabilité Lois continues Loi normale ou loi Laplace-Gauss ♦La loi normale est la loi de variables aléatoires continues dépendants d’un grand nombre de causes indépendantes dont les effets s’additionnent et dont aucun n’est prépondérant. Poids, taille, rendement, dosage, etc.. ♦La loi de probabilité d’une v.a. normale notée Ν(µ,σ) est donnée par la densité de probabilité 2 1 x −µ − 2 σ 1 x a f (x) = e σ 2π Espérance : E(X) = µ Variance : V(X) = σ2 23 I. Statistiques descriptives Indices statistiques Variance observée : n 1 1 n 2 2 2 2 ou s = Données non groupées s = ∑ ( xi − x ) x − x ∑ i n n i =1 i =1 k k 1 Données groupées s 2 = ∑ ni ( xi' − x )2 avec n = ∑ ni et k : nbre de classes i =1 n i =1 2 1 k s = ∑ ni x'2i − x 2 n i =1 2 Ecart-type : s = s2 même unité que la moyenne Le coefficient de variation : s cv = x Indice de dispersion absolue sans unité, il peut être comparé d’une variable à l’autre24. Climatologie Exemple Hauteurs des précipitations annuelles (en mm) à Genève sur 16 années de suivi : 583 890 777 958 875 926 524 756 619 730 688 528 901 884 969 1258 Moyenne : x = n 1 12866 x = = 804,13 mm ∑ i 16 n i =1 n =16 n 10905666 1 − (804,13) 2 = 34979, 07 Variance : s 2 = ∑ xi2 − x 2 = 16 n i =1 s = 187,03 mm Une variance est toujours positive . Moyenne ± écart-type donne des valeurs (généralement) comprises dans la série statistique. (attention, quelques exceptions: cf plus loin) 25 Agronomie Exemple Afin d’étudier l’influence du régime alimentaire sur la prise de poids des poulets et sur leur état sanitaire, deux lots de 32 poulets ont été nourris avec respectivement les aliments A et B. Les poulets sont pesés en début d’expérience et au bout de 90 jours. va. continu Poids (en g) au jour 0 des poulets qui suivront le régime A : [790 – 810[ [810 – 830[ [830 – 850[ [850 – 870[ [870 – 890[ [890 – 910[ [910 – 930[ Poids pi 1 0 2 13 9 4 3 Nbre de poulets ni 800 820 840 860 880 900 920 1 1 3 16 25 29 32 k n = ∑ ni = 32 i =1 k = 7 classes ou modalités 1 k p = ∑ ni pi' = 27940 = 873,13 g 32 n i =1 pi' 1 n 24414800 2 2 2 ′ − (873,13) = 606,5 s = n p − p = Variance : ∑ i i 32 n i =1 2 s = 24,63 g 26 I. Statistiques descriptives Cas des Variables aléatoires discrètes Le balanin Curculio elephas est un parasite de la châtaigne. La distribution du nombre de parasites par fruit est la suivante : Variable aléatoire X xi : nombre de parasite ni : nbre de châtaignes ayant xi parasites 0 1 2 3 4 5 6 7 8 9 10 11 1043 172 78 15 10 7 2 1 0 0 0 1 k Taille de l ’échantillon n = ∑ ni = 1329 fruits avec k : nbre de valeurs prises par X i=1 k Moyenne arithmétique Variance observée 1 x = ∑ ni x i n i=1 = 0,36 parasites/fruit 1 k s = ∑ ni x i2 − x 2 n i =1 2 = 0,77 s = 0,88 parasites/fruit 27 I. Statistiques descriptives Cas des variables aléatoires discrètes Nbre de châtaignes 1200 1000 800 600 Série1 400 Mode : 0 parasite/fruit Médiane : 0 parasite/fruit 200 Moyenne : 0,36 parasites/fruit 0 1 0 2 1 3 2 4 3 5 4 6 5 67 8 7 89 10 9 11 12 10 11 Nbre de parasites Diagramme en bâtons Hypothèse : la distribution de la variable « nombre parasites par fruit » suit une loi de Poisson 28 II. Lois de probabilité Lois discrètes Loi de Poisson ♦ On appelle processus poissonnien (ou processus de Poisson), le modèle probabiliste des situations qui voient un flux d’évènements se produire les uns à la suite des autres de façon aléatoire (dans le temps et dans l’espace). ♦ Une variable aléatoire X à valeurs dans Ν suit une loi de Poisson de paramètre λ (λ > 0) notée P(λ) lorsque: P(X = k) = ♦ Espérance de X : E(X) = λ et λke −λ k! Variance de X : V(X) = λ 29 I. Statistiques descriptives Représentation graphique 40 Variable continue : histogramme Variable discrète : bâtons 35 30 25 20 15 Est-elle unimodale? Est-elle symétrique? 10 5 0 1 2 3 4 5 6 7 8 9 10 11 12 13 45 40 35 30 Peut-on la rattacher à une distribution normale? 25 20 15 10 5 0 1 2 3 4 5 6 7 8 30 14 Bilan Variable continue Moyenne 1 n x = ∑ xi n i=1 Données non groupées x= Données groupées Variance Représentation 1 k ni xi′ ∑ n i =1 k 1 x = ∑ ni x i n i=1 1 n 2 s = ∑ xi − x 2 n i =1 2 Données non groupées Données groupées Variable discrète 1 k s = ∑ ni xi′2 − x 2 n i =1 2 Histogramme k 1 2 2 s = ∑ ni x i − x n i =1 2 Diagramme en bâton 31 Plan général Cours 1 : Cours 2 : Cours 3 : Cours 4 : Cours 5 : Cours 6 : Cours 7 : Révisions : Statistiques descriptives, Intervalle de confiance Révisions : Tests d’hypothèses Révisions : Tests du Chi-deux Analyse de variance à un facteur Analyse de variance à deux facteurs Analyse bivariée Modèle linéaire 32 POPULATION p, µ, σ2 ? Estimation des paramètres Tests d’hypothèses Echantillonnage aléatoire ECHANTILLON n individus Inférence statistique Statistique descriptive k , x , s2 n 33 L'inférence statistique traite principalement de deux types de problèmes : • l’estimation de paramètres (espérance, variance, fréquence,..) • les tests d’hypothèses (comparaison de moyenne, de distributions,...) L’inférence statistique ne conduit jamais à une conclusion stricte mais elle associe toujours une probabilité à cette conclusion. Cela provient du fait que l’on tente de tirer des conclusions sur une population (grand nombre d’individus) sur la base des observations réalisées sur un échantillon, représentant une portion restreinte de la population. 34 Révisions Chapitre 6 I. Estimation I.1 Définition et propriétés I.2 Loi de la moyenne et d’une fréquence I.3 Estimation ponctuelle I.4 Estimation par intervalle 35 I. Estimation Définition L’estimation a pour objectif de déterminer les valeurs inconnues des paramètres de la population (p, µ, σ2) à partir des données de l'échantillon (f, x , s2). L'estimateur d’un paramètre théorique θ notée est fonction des observations résultant d’un échantillonnage aléatoire simple de la population. C’est une variable aléatoire dont la distribution de probabilité correspond à la distribution d'échantillonnage du paramètre θ avec une espérance E( ) et une variance V( ). Ex: ̅ est un estimateur de la moyenne Critères: Convergence, Sans biais, Variance Minimale 36 I. Estimation Distribution d’échantillonnage POPULATION X → N ( µ,σ) k échantillons aléatoires simples de n individus xi x1 s 21 s2i d’où est une variable aléatoire dont la loi de probabilité admet comme distribution, la distribution d’échantillonnage de la moyenne associée à une espérance E( ) et une variance V( ). xk s2 k {x } 1 , x 2 , ......, x i , ...... x k x1 ≠ x2 Fluctuation d’échantillonnage Distribution d’échantillonnage de la moyenne Mesurer les fluctuations d’échantillonnage => précision de l’estimation 37 Indépendance statistique Si l’on considère n réalisations indépendantes d’une même épreuve, on obtient une série de v.a. X1,X2,….,Xi,….,Xn définies sur le même espace fondamental et de même loi de probabilité alors : n E(X1 + X2+…+ Xi +. …Xn ) = ∑ E(X ) i i=1 n V(X1 + X2+…+ Xi +. …Xn ) = ∑V (X ) i i=1 38 Le théorème central limite de Laplace-Liapounov Condition : Si l’on considère une série de n v.a. X1,X2,….,Xi,….,Xn indépendantes définies sur le même espace fondamental et de même loi de probabilité {E(Xi ) = µ et V(Xi ) =σ2 }, on construit la variable aléatoire Sn telle que : Sn = X1 + X2 +…+ Xi + ...+ Xn avec E(Sn ) = nµ et V(Sn ) = nσ2 Théorème central limite: Soit la variable aléatoire Sn résultant de la somme de n v.a. indépendantes et de même loi, la variable centrée réduite Z n = Sn − nE ( X i ) suit une loi normale réduite nV ( X i ) Ν(0,1) lorsque n → ∞ quelque soit la loi de probabilité suivie par les variables aléatoires. 39 Loi de probabilité de la moyenne X Soit X une variable aléatoire suivant une loi normale d’espérance µ et de variance σ2 et X1,X2,…,Xi,…,Xn , n variables aléatoires copies indépendantes de X telles que E(Xi) = µ et V(Xi) = σ2 alors la variable aléatoire X X1 + X 2 + ... + X i + ... + X n 1 n = ∑ Xi telle que X = n n i=1 2 σ suit une loi normale d’espérance µ et de variance n 40 Loi de probabilité de la moyenne X Variabilité de Si X v.a. qui suit une loi normale N ( µ , σ ) alors x1 x2 X x3 x4 Variabilité de σ N v.a. qui suit une loi normale µ, n X La variance de la moyenne est toujours plus petite que la variance de la variable aléatoire. X −µ → Ν(0,1) σ n Variable normale centrée réduite si X suit une loi normale, vrai ∀ n si X suit une loi quelconque, vrai pour n ≥ 30 41 Loi de probabilité d’une fréquence POPULATION X →B (n, p) r échantillons n individus n individus X variable aléatoire discrète n individus K nombre de succès k1 { k2 kr k i} k1 k 2 kr , , ......, , ...... n n n n La fréquence K/n est une variable aléatoire Distribution d’échantillonnage de la fréquence 42 Lois discrètes Loi binomiale ♦ La variable binomiale, Sn ,représente le nombre de succès obtenus lors de la répétition de n épreuves, chaque épreuve ne pouvant donner que deux résultats possibles. n Sn = ∑ X i i =1 Xi variable de Bernoulli avec p = P(succès) = P(X=1) et p + q = 1 q = P(echec) = P(X=0) ♦ La loi de probabilité suivie par la somme de n variables de Bernoulli où la probabilité associée au succès est p, est la loi binomiale notée Β(n,p) avec P(Sn = k) = Cnk p k q n−k ♦ Espérance de X : E(X) = np Variance de X : V(X) = npq Hypothèse : le nombre de marmottons femelles dans une portée de 5 petits suit une loi Binomiale Β(5, 0,5) 43 Loi de probabilité d’une fréquence Soit X une variable aléatoire discrète suivant une loi binomiale B(n,p) dans la population et k, le nombre de succès observé sur un échantillon de n individus, alors la variable aléatoire K définie sur tous les échantillons de taille n suit une loi binomiale d’espérance E(K) = np et V(K) =npq Approximation: la variable aléatoire F = K / n suit une loi normale d’espérance E(F)= p et de variance V(F) = pq/n si n est assez grand (n ≥ 30, np ≥ 5, nq ≥ 5). 44 Loi de probabilité d’une fréquence POPULATION X →B (n, p) n individus k1 n individus k2 n individus kp pq K v.a. qui suit une loi normale N p, n n vrai si n ≥ 30, np et nq ≥ 5 K −p n → N(0,1) (théorème central limite) pq n 45 Estimation ponctuelle ♦ estimation de l’espérance µ : 1 n µˆ = X = ∑ X i n i =1 => la moyenne arithmétique ♦ estimation de la variance σ2 : n σˆ 2 = n 2 S = n −1 ∑(X i =1 i − X )2 n −1 => pas exactement la variance observée ♦estimation d’une fréquence : pˆ = observée K Nbre de succès = n Nbre total d ' observations => la fréquence 46 Estimation par intervalle L’estimation par intervalle associe à un échantillon aléatoire, un intervalle [θ1 , θ 2] qui recouvre θ avec une certaine probabilité. Cet intervalle est appelé l’intervalle de confiance du paramètre θ car la probabilité que θ dont la valeur est inconnue se trouve compris entre θ1et θ 2 est égale à 1-α , P(θ1 < θ < θ2 ) = 1 - α Son complément α correspond au coefficient de risque , P( θ ∉ [θ1 , θ2 ]) = α 47 α = 0,01 99 chan ces su r 100 que l a va le ur du pa r am ètr e r eche rché se t rouv e dan s l’i nterv al le de con fi ance m ai s la p r écision autour de la va l eur prédit e est f aible α = 0 ,05 95 chan ces su r 100 que l a va le ur du pa ram ètr e r eche rché se t rouv e dan s l’i nterv al le de con fi ance et p réc is on autour de la va l eur i prédit e cor r ecte. α = 0 ,10 90 chan ces su r 100 que l a va le ur du pa ram ètr e r eche rché se t rouv e dan s l’i nterv al le de con fi ance m ai s p réc isi on autour de la va l eur prédit e élevé e. 48 Formules dans les différents cas de figure Est-ce que n≥30 ? OUI NON On doit supposer la normalité de la variable mesurée (Xi~N(µ,σ)) Connaît-on la variance ? NON Connaît-on la variance ? NON OUI On estime: n σˆ 2 = s2 n −1 σˆ IC α = x ± ε α n OUI On estime: n σˆ 2 = s2 n −1 σ IC α = x ± ε α n n −1 σˆ IC α = x ± tα n σ IC α = x ± ε 49 α n Convergence ta→αa Lorsque n > 30 la loi de student converge vers une loi normale centrée réduite ainsi la valeur de tα (n-1) est égale à εα. Ci-dessous, un exemple pour un risque α = 0,05 Taille de l’échantillon Ecart-réduit Variable de student n = 10 εα = 1,960 tα = 2,228 n =20 εα = 1,960 tα = 2,086 n = 30 εα = 1,960 tα = 2,042 n = 40 εα = 1,960 tα = 1,960 50 Exemple 1. Echantillonnage et statistique descriptive Lors d’une campagne de printemps, 5 mâle chamois ont été capturés et pesés (en kg). 220 – 198 – 251– 214– 211 1 x = n n ∑ xi i =1 = 1094/5 = 218,8 kg 2. Estimation du poids moyen dans la population adulte µ = x = 218 ,8 kg 51 Exemple 3. Estimation au risque 5% du poids moyen des chamois dans la population des Bauges µ = X ± tα ,n −1 S2 = 310,96 S = 17,63 kg σˆ n avec 1 x = n σˆ 2 = n ∑ xi i =1 n 2 S = n −1 = 218,8 kg n 2 ( ) x − x ∑ i i =1 t =variable de student avec n-1 ddl et α = 0,05 n −1 = 388,7 t0,05,4 = 2,776 µ = 218,8 kg ± 24,5 194,3 kg ≤ µ ≤ 243,3 kg 52 Intervalle de confiance d’une fréquence p Estimation ponctuelle: K pˆ = f = n Par intervalle de confiance: K ICα = ± ε α n pˆ qˆ n avec εα valeur d’une variable normale centrée réduite pour la probabilité α et en prenant pour la variance l ’estimateur de p. 53 cette relation est vraie si n≥30, nf≥5et n(1-f)≥5 Exemple Donner une estimation au risque 2% du pourcentage de marmottons parasités dans la population sachant que 212 marmottons sur 400 capturés étaient parasités par les poux. K ICα = ± ε α n pˆ qˆ n avec 212 pˆ = = 0,53 400 qˆ = 400 − 212 = 0 , 47 400 ε =Variable normale réduite avec α = 0,02 ε0,02 = 2,326 p = 0,53 ± 0,058 0,472 ≤ p ≤ 0,588 54 Les tests de comparaison de moyenne (Formules) 55 Comparaison à une moyenne théorique Est-ce que n≥30 ? NON OUI On doit supposer la normalité de la variable mesurée (Xi~N(µ,σ)) Connaît-on la variance ? NON NON OUI On estime: σˆ 2 = z= On estime: n σˆ 2 = s2 n −1 n s2 n −1 On considère x − µ0 σˆ / n Connaît-on la variance ? On considère z= x − µ0 σ/ n Comparé à εα Comparé à εα (Table loi normale) (Table loi normale) On considère t= x − µ0 σˆ / n OUI On considère z= x − µ0 σ/ n Comparé à tαn-1 Comparé 56 à εα (Table loi student n-1 ddl) (Table loi normale) Comparaison de deux moyennes observées Est-ce que n≥30 ? NON OUI On doit supposer la normalité des variables mesurées Connaît-on la variance ? Connaît-on la variance ? NON NON On estime: σˆ 1 2 = σˆ 2 2 = OUI n1 2 s1 n1 − 1 n s + n2 s2 σˆ 2 = 1 1 n1 + n 2 − 2 2 n2 2 s2 n2 − 1 On considère z= On teste σ1=σ2= σ et on estime σ par : x1 − x 2 σˆ 12 n1 + σˆ 22 n2 Comparé à εα (Table loi normale) On considère z= x1 − x 2 σ 12 n1 + σ 22 n2 2 On considère t= x1 − x 2 1 1 σˆ + n1 n 2 OUI On considère z= x1 − x 2 σ 12 n1 + σ 22 n2 Comparé à εα Comparé à tαn1+n2-2 Comparé à εα 57 (Table loi normale) (Table loi student n1+n2-2 ddl) (Table loi normale)