Statistiques L2S3 INTRODUCTION I. VOCABULAIRE Donnée statistique : résultat de l’observation d’une variable pour un individu. Population : totalité des individus sur lesquels portent certaines préoccupations. Echantillon : sous-ensemble/ partie de la population pour lesquelles on collecte les données. Statistiques descriptives : décrire, résumer les données sans se préoccuper du champ de la collecte. Les statistiques inductives (ou informelles) sont un ensemble de méthodes qui font le cheminement : « généraliser quelque chose à une population à partir de l’observation d’un échantillon ». Remarques : Certaines populations sont finies donc observables (étudiant L2 psycho Angers) et d’autres populations sont quasi-infinies, donc inobservables. Travailler avec un échantillon permet une réduction du coût, un gain de temps, une augmentation des possibilités d’études. II. INDICATEURS USUELS EN STATISTIQUES DESCRIPTIVE Nous réutiliserons la moyenne arithmétique et la variance on considère une variable quantitative X pour laquelle on dispose de N observations. Cf. formulaire L1 III. CONSTITUTION DES ECHANTILLONS L’échantillonnage (ou sondage) : ensemble des opérations de prélèvement d’un échantillon. A. METHODE D’ECHANTILLONAGE 1. Echantillonnage raisonné Méthode de quotas : L’échantillon est choisie pour constituer une image fidèle de la population pour certaines variables, appelées variables de contrôle. L’enquêteur choisi les enquêtés avec comme contrainte le respect de certains quotas pour les variables de contrôle (l’âge, le sexe, catégorisation socio-professionnelle…). Les variables de contrôle doivent être corrélées avec le domaine de l’étude. Leur répartition doit être connue de la population. Avantage : Coût très faible, délais très court, cela traite (en les oubliant) les refus de réponse. 2. Echantillonnage aléatoire Echantillonnage aléatoire simple : Méthode dans laquelle chaque échantillon (d’effectif donné) à la même probabilité d’être tiré. Il faut une base de sondage. Cependant, il y a des difficultés de mise en œuvre. Echantillonnage par grappe : On divise la population en grappe, on a une base de sondage de grappes. On tire un échantillon aléatoire de grappe. On interroge tous les individus des grappes tirées. (Ex : immeuble, rue, village, une partie du village…). Ceci augmente la faisabilité d’une enquête car le coût et le délai sont réduits. Règle d’Or : le bon échantillon est celui qui est aléatoire, c’est ce qui fonde la statistique inductive sur le calcul des probabilités, cela donne une base scientifique à l’opération de généralisation. 1 Statistiques L2S3 B. OUTILS ALEATOIRES 1. Tables de nombres aléatoires Outils ancien : c’est une table qui contient des nombres obtenus par des procédés aléatoire (tirages,…). 2. Générateur de nombres pseudo-aléatoire : Outils moderne : un générateur engendre des nombres par un procédé déterministe qui simule le hasard. Méthode de LEHMER : M = diviseur k = multiplicateur Xo = graine Xi + 1 = kXi (module M) c’est-à-dire Xi + 1 est le reste obtenu quand on divise le produit kXi par M. Exemple : calculer X1. X1 est le reste obtenu quand on divise le produit kXo par M. M= 101 k = 89 On calcul kXo = 89 x 23 = 2047 ; On divise le résultat par M : Xo = 253 X1 = 2047/101 = 27,…. X1= 27 X2=80 Ce générateur produit des nombres entiers compris entre 1 et 100 donc entre 1 et M-1. Quand on divise ces nombres obtenus par M on obtient des nombres rationnels compris dans l’intervalle ]0 ;1[ A partir de ces nombres uniformément répartis sur l’intervalle on peut engendrer des nombres répartis selon n’importe quelle loi (binomiale, normale…) 2 Statistiques L2S3 NOTIONS SUR L’ESTIMATION I. INTRODUCTION On dispose d’une population dont on extrait un échantillon, on utilise comme variable le poids et on considère un paramètre défini sur la population : le poids moyen des poissons de l’étang. Il va falloir estimer ce paramètre à l’aide d’un estimateur. Exemple du pisciculteur, il utilise un échantillon d’effectif 5 (0,3; 0,4; 0,4; 0,45; 0,5) et calcule la moyenne : = 0,41 Cependant si on prélève un autre échantillon (0,4; 0,45; 0,45; 0,5; ⁄ 0,5) on obtient une estimation de 0,46 qui est différente. L’estimation varie avec l’échantillon, il y a toujours une incertitude. a. Démarche population => échantillon : Théorie de l’échantillonnage On connait la répartition de la variable dans la population, on cherche à étudier les propriétés de tous les échantillons possibles. C’est une démarche de probabilité, elle fournit les résultats théoriques utilisés dans la démarche inverse. b. Démarche échantillon => population On connait un échantillon et on cherche à généralisée à la population certaines propriétés issus de l’étude de l’échantillon. La méthode d’estimation permet d’estimer la valeur inconnue d’un paramètre de la population. La méthode de tests statistiques permet de tester si une propriété de la population est acceptable ou non par rapport à l’échantillon. En statistique inductive on ne peut jamais avoir de certitude, il faut faire attention au risque de généralisation erronée pour le contrôler car on ne peut pas le supprimer. II. ESTIMATION POUR UNE VARIABLE QUANTITATIVE a. Moyenne arithmétique On s’intéresse à la moyenne de la variable X dans la population : , on cherche donc à l’estimer : Echantillon d’effectif n décrit par n variables statistiques : X1……Xn On utilise l’estimation ̅ ∑ I que l’on applique à un échantillon pour obtenir ̅ appelle la moyenne d’estimation, elle va nous permettre d’estimer . ∑ i c’est ce qu’on b. Variance On s’intéresse à la variance de X dans la population : ², on cherche à l’estimer : ̅ ; On utilise l’estimation S²n = ⁄ ∑ ion obtient la variance descriptive ou de population : s²n = ⁄ ∑ i- ̅ Cette formule à un défaut, elle sous-estime ² donc on la remplace par l’estimateur 3 Statistiques S²n-1 = ⁄ L2S3 ∑ i- ̅ ce qui donne la variance inductive ou d’échantillon s²n-1 = ⁄ ∑ i- ̅ Dans l’exemple du pisciculteur : s²n-1=0,0055 Pour la calculatrice casio l’écart type descriptif est noté xn et l’écart type inductif xn-1 III. ESTIMATION POUR UNE VARIABLE QUALITATIVE estimation d’une proportion On va envisager le cas d’une variable qualitative et se restreindre au cas de 2 modalités notées ̅ . On veut estimer à proportion inconnue d’individus présentant la modalité A dans la population ; on la notera . On extrait un échantillon aléatoire d’effectif n, dans lequel on observe nA individus présentant la modalité A. On choisit l’estimateur naturel et on estime avec p = nA / n ; c’est la proportion d’individus présentant la modalité dans l’échantillon. 4 Statistiques L2S3 INFLUENCE STATISTIQUE ET TESTS D’HYPOTHESES I. PRINCIPES Objet des tests d’hypothèses : prendre une décision relative à la population en situation d’incertitude en contrôlant le risque lié à cette incertitude. Idée ; S’appuyer sur l’expérimentation pour décider (l’expérience fournit les données de l’échantillon) Effectuer un test statistique c’est réaliser 3 opérations : - Enoncer une hypothèse expérimentale à laquelle on s’intéresse afin de la confirmer ou de l’infirmer. Cette hypothèse se rejetter ou non, c’est l’hypothèse nulle notée H0 - On oppose à cette hypothèse, elle joue le rôle d’opposant ou de recours en cas de rejet de H0, on l’appelle l’hypothèse alternative elle est notée H1 - Déterminer une procédure qui conduit à prendre la décision o Rejeter H0 et accepter H1 o Ne pas rejeter H0 A la fin de la procédure on doit comparer la réalité et la décision prise : H0 vraie Ne pas rejeter H0 Rejeter H0 (1-) = 1- : correspond à la probabilité de rejeter H0 alors que H0 est vraie, c’est la probabilité de rejeter à tort H0. C’est le risque d’erreur de 1er espèce (de type I), aussi appelé niveau de signification du test. (1-) correspond à la probabilité de ne pas rejeter H0 quand elle est vraie : correspond à ne pas rejeter H0 quand elle est fausse, c’est le risque d’erreur de 2nd espèce (type II) = 1- : correspond à la probabilité de rejeter H0 quand elle est fausse, c’est la puissance du test. H0 fausse Exercices : 1) H0 : il pleut / H1 il ne pleut pas L’erreur de 1er espèce correspond à dire que l’on rejette H0 , on considère qu’il ne pleut pas alors qu’il pleut dehors, donc on met des tongs, on a les pieds mouillés et on tombe malade. L’erreur de 2nd espèce correspond à dire que l’on ne rejette pas H0, on considère qu’il pleut alors qu’il ne pleut pas donc on prend un parapluie mais on n’en a pas besoin. 2) H0 : catastrophe / H1 :pas de catacstrophe L’erreur de 1er espèce correspond à dire que l’on rejette H0, on considère qu’il n’y a pas de catastrophe alors qu’il y a catastrophe, donc on meurt. L’erreur de 2nd espèce correspond à dire que l’on ne rejette pas H0, on considère qu’il va y a voir une catastrophe alors qu’il n’y en a pas donc on prend pas l’avion et on survis. On veut que la procédure permette de contrôler les valeurs de et , cependant les risques sont antagonistes donc si diminue augmente et inversement, ils ne peuvent pas tendre tous les deux vers 0, il n’y a donc pas de certitude. II. METHODE : polycopié Etape 1 : Enoncer les hypothèses H0 et H1 Etape 2 : Fixer à priori la valeur du risque Etape 3 : Choisir l’indicateur « statistique du test » et déterminer sa loi quand H0 est vraie Etape 4 : Délimiter la zone de rejet de H0 Etape 5 : Calculer la valeur numérique e la statistique du test à partir des données de l’échantillon Etape 6 : Conclure le test 5 Statistiques L2S3 VARIABLES QUALITATIVES TEST DE PROPORTION I. TEST DE COMPARAISON D’UNE PROPORTION ET D’UNE NORME (H1 bidirectionnelle) 3. Méthode exact (loi binomiale) Etape 1 : Une variable quantitative à 2 modalités : A et ̅ = proportion inconnue d’individus A dans la population o = norme (compris entre 0 et 1) Le jeu d’hypothèse revient à comparer la proportion et la norme o, s’écrit : Ho : = o H1 : ≠ o (ici l’hypothèse est bidirectionnelle ou bilatérale) Exemple 1: le pisciculteur élève 2 espèces A et ̅ ; les deux espèces sont-elles ou non aussi résistantes ? Il y a autant de poissons A et ̅, la proportion de poisson A est égale à 0,5 ; = 0,5 donc cette hypothèse correspond à Ho. Il n’y a pas autant de poissons A et ̅, le proportion de poisson A n’est plus égale à 0,5 ; ≠ 0,5 donc cette hypothèse correspond à H1. La norme correspond donc à o = 0,5 Exemple 2 : le pisciculteur prélève un échantillon (avec remise)d’effectif n=14 ; il obtient 11 poisson A. Etape 2 : On fixe la valeur maxi de , ici 5% (max = 0,05) Etape 3-4-5 : Calcul de la probabilité critique On suppose Ho vrai et on calcule ce qui se passe quand on tire un échantillon au hasard : Epreuve de Bernouilli : prélever un poisson, 2 résultats possibles : A (succès) ou ̅ (non succès) Schéma de Bernouilli : prélever 14 poissons, n = 14 X = nombre de poissons A dans l’échantillon ; X Ɓ (14 ; 0,5) NB : la probabilité de succès correspond au cas où Ho est vrai, soit . Selon la table obtenir un échantillon pour lequel X est voisin de np = 7 est un évènement fréquent. Si on obtient un tel échantillon on ne rejette pas Ho. Obtenir un échantillon tel que np ≠ 7 est un évènement rare, on devra donc rejeter Ho. On peut définir un ensemble qui incite à rejeter Ho : E - Seuil 1 définis par la valeur observée, ici 11 - Seuil 2 définis par symétrie du seuil 1 par rapport à np, ici 3 E ={0,1,2,3,11,12,13,14} Calculer p(X € E) =p(X=0) + p(X=1)…….p(X=14) = 0,0576 = probabilité critique du test. Etape 6 : Règle de décision Si pcritique < max on rejette Ho Si pcritique > max on ne peut pas rejeter Ho 6 Statistiques L2S3 Dans notre exemple pcritique > max , on ne peut pas rejeter Ho, on l’accepte par abus : les poissons sont aussi résistants. 4. Méthode approchée (loi normale réduite) CONDITIONS DE VALIDITES Cette méthode approché est valable seulement si no 5 et n(1-o) 5. On choisira la méthode exacte quand c’est possible c’est-à-dire lorsque n Etape 1 : identique Ho : = o H1 : ≠ o Etape 2 : On fixe max. Pour notre exemple max=0.05 Etape 3 : On choisit la statistique √ ; o est la norme, On suppose de Ho est vrai et on approxime c’est la proportion de A. par une loi Normal N (0 ; 1) Etape 4 : On définit la zone de rejet de Ho quand est éloignée de 0, c’est-à-dire quand | | est élevée soit quand | | où S est 1 seuil positif. Pour S on écrit p ( | | ) = max avec U approximé par N (0 ; 1). INSERER SCHEMA On utilise la table pour déterminer S : On obtient le seuil S et la zone de rejet bilatérale : Dans notre exemple la zone de rejet correspond à Etape 5 : Calcule numérique de U à partir des données de l’échantillon. Pour le cas du pisciculteur n = 14 et nA=11 donc U = 2,14 Etape 6 : Règle de décision Si on rejette Ho et on accepte H1 par abus U appartient à notre ensemble de rejet donc on rejette Ho, les deux espèces ne sont pas aussi résistantes. INSERER POLY DES REMARQUES 7 Statistiques II. L2S3 TEST DE COMPARAISON D’UNE PROPORTION ET D’UNE NORME (H1 unidirectionnelle) 1. Méthode exact (>) Etape 1 : On a une variable qualitative à 2 modalités : A et ̅ est la proportion d’individus A dans la population et o est la norme (comprise en 0 et 1) Le jeu d’hypothèse : Ho : = o ou o H1 : > o Dans notre exemple H1 correspond à l’hypothèse selon laquelle l’espèce A est plus résistante que les ̅, cela signifie qu’il y aura plus de poisson A, donc > 0,5, ceci correspond à notre hypothèse H1. Donc Ho correspond à l’hypothèse selon laquelle les poissons A ne sont pas plus résistants. Etape 2 : On fixe max. Pour notre exemple max=0.05 Etape 3-4-5 : On suppose Ho vrai et on calcule ce qui se passe quand on tire un échantillon au hasard : Epreuve de Bernouilli : prélever un poisson, 2 résultats possibles : A (succès) ou ̅ (non succès) Schéma de Bernouilli : prélever 14 poissons, n = 14 X = nombre de poissons A dans l’échantillon ; X Ɓ (14 ; 0,5) NB : la probabilité de succès correspond au cas où Ho est vrai, soit . On détermine l’ensemble de rejet à partir d’un seuil inclus qui correspond à la valeur observé, ici nA=11, puis notre hypothèse étant unidirectionnelle on s’intéresse aux possibilités donc E{11, 12, 13, 14} Calculer p(X € E) =p(X=11) + p(X=12) + p(X=13) +p(X=14) = 0,0288 = probabilité critique du test. Etape 6 : Règle de décision Si pcritique < max on rejette Ho Si pcritique > max on ne peut pas rejeter Ho Dans notre exemple pcritique max , on rejette Ho, on accepte H1 par abus : les poissons A sont plus résistants. 2. Méthode exact (<) Etape 1 : Le jeu d’hypothèse : Ho : = o ou H1 : < o o Etape 3-4-5 : L’ensemble E{0,1,2,3,4,5,6,7,8,9,10,11} 8 Statistiques L2S3 3. Méthode approchée (>) CONDITIONS DE VALIDITES Cette méthode approché est valable seulement si no 5 et n(1-o) 5. On choisira la méthode exacte quand c’est possible c’est-à-dire lorsque n Etape 1 : jeu d’hypothèse : Ho : = o ou H1 : > o o Dans notre exemple H1 correspond à l’hypothèse selon laquelle l’espèce A est plus résistante que les ̅, cela signifie qu’il y aura plus de poisson A, donc > 0,5. Etape 2 : On fixe max. Pour notre exemple max=0.05 Etape 3 : On choisit la statistique √ ; o est la norme, On suppose que Ho est vrai on approxime c’est la proportion de A. par une loi Normal N (0 ; 1) Etape 4 : On définit la zone de rejet de Ho quand est nettement plus grand que 0, c’est-à-dire quand U est nettement plus grand que 0 soit . Pour S on écrit p ( ) = max avec U approximé par N (0 ; 1). On utilise la table pour déterminer S : On obtient le seuil S à la lecture de la table et donc la zone de rejet unilatérale : Dans notre exemple la zone de rejet correspond à Etape 5 : Calcule numérique de U à partir des données de l’échantillon. Pour le cas du pisciculteur n = 14 et nA=11 donc U = 2,14 Etape 6 : Règle de décision Si on rejette Ho et on accepte H1 par abus Dans notre exemple U appartient à l’ensemble de rejet donc on doit rejeter Ho et on accepte H1 par abus. L’espèce A est plus résistante. 9 Statistiques L2S3 4. Méthode approchée (<) Etape 1 : jeu d’hypothèse : Ho : = o ou H1 : < o o Dans notre exemple H1 correspond à l’hypothèse selon laquelle l’espèce A est plus résistante que les ̅, cela signifie qu’il y aura plus de poisson A, donc < 0,5. Etape 2 : On fixe max. Etape 3 : On choisit la statistique √ ; o est la norme, On suppose que Ho est vrai on approxime c’est la proportion de A. par une loi Normal N (0 ; 1) Etape 4 : On définit la zone de rejet de Ho quand est nettement plus grand que 0, c’est-à-dire quand U est nettement plus grand que 0 soit . Pour S on écrit p ( ) = max avec U approximé par N (0 ; 1). On utilise la table pour déterminer S : On obtient le seuil S à la lecture de la table et donc la zone de rejet unilatérale : Etape 5 : Calcule numérique de U à partir des données de l’échantillon. Etape 6 : Règle de décision Si on rejette Ho et on accepte H1 par abus 10 Statistiques III. L2S3 TEST DE COMPARAISON DE 2 PROPORTIONS (Observations indépendantes) Ce test s’effectue aussi par une méthode exacte, il s’appelle alors test exact de Ficher. Situation : On dispose d’une variable qualitative à deux modalités, elle est définis sur une deux populations : Population 1 : 1 est la proportion inconnue de A / Population 2 : 2 est la proportion inconnue de A On extrait 2 échantillons aléatoires, un dans chaque population : ̅ A n11 n22 n.1 Echantillon 1 Echantillon 2 Total n12 n21 n.2 Total n1. n2. n.. Notations : On peut lire les 2 indices : - Le premier i correspond à l’échantillon - Le second j correspond à la modalité On considère les observations indépendantes car les individus qui composent les 2 échantillons sont distincts. 1. Cas d’une hypothèse H1 Bidirectionnelle CONDITIONS DE VALIDITES min(n.j x ni.) > 5n Etape 1 : On veut tester un jeu d’hypothèse : Ho : 1 = 2 / H1 : 1 ≠ 2 On compare 2 réglages sur une machine et on observe la qualité des pièces, la variable qualitative est la qualité et elle a deux modalités, correct ou insuffisante. Les hypothèses sont les suivantes : - Ho : 1 = 2 : la qualité des pièces est la même, elle ne dépend pas des réglages - H1 : 1 ≠ 2 : la qualité des pièces n’est pas la même, elle dépend des réglages Etape 2 : On fixe max. Pour notre exemple max=0.05 Etape 3 : On choisit la statistique √( ) On suppose que Ho est vrai on approxime par une loi Normal N (0 ; 1) Etape 4 : On définit la zone de rejet de Ho quand est éloignée de 0, c’est-à-dire quand | | est élevée soit quand | | où S est 1 seuil positif. Pour S on écrit p ( | | ) = max avec U approximé par N (0 ; 1). On utilise la table pour déterminer S : On obtient le seuil S et la zone de rejet bilatérale : Dans notre exemple la zone de rejet correspond à Etape 5 : Calcul de U Etape 6 : Si Règle de décision on rejette Ho et on accepte H1 par abus Dans notre exemple on ne peut pas rejeter donc on accepte Ho par abus. 11 Statistiques L2S3 2. Cas d’une hypothèse H1 (>) Etape 1 : On veut tester un jeu d’hypothèse : Ho : 1 = 2 / H1 : 1 > 2 On compare 2 réglages sur une machine et on observe la qualité des pièces, la variable qualitative est la qualité et elle a deux modalités, correct ou insuffisante. Les hypothèses sont les suivantes : - Ho : 1 = 2 : la qualité des pièces est la même, elle ne dépend pas des réglages - H1 : 1 > 2 : la qualité des pièces est meilleure avec les réglages 1, elle dépend des réglages Etape 2 : On fixe max. Pour notre exemple max=0.05 Etape 3 : On choisit la statistique √( ) On suppose que Ho est vrai on approxime par une loi Normal N (0 ; 1) Etape 4 : On définit la zone de rejet de Ho quand est nettement plus grand que 0, c’est-à-dire quand U est nettement plus grand que 0 soit . Pour S on écrit p ( ) = max avec U approximé par N (0 ; 1). On utilise la table pour déterminer S : On obtient le seuil S à la lecture de la table et donc la zone de rejet unilatérale : Dans notre exemple la zone de rejet correspond à Etape 5 : Calcule numérique de U à partir des données de l’échantillon. Pour le cas du pisciculteur n = 14 et nA=11 donc U = 2,14 Etape 6 : Règle de décision Si on rejette Ho et on accepte H1 par abus 12 Statistiques L2S3 3. Cas d’une hypothèse H1 (<) Etape 1 : On veut tester un jeu d’hypothèse : Ho : 1 = 2 / H1 : 1 < 2 On compare 2 réglages sur une machine et on observe la qualité des pièces, la variable qualitative est la qualité et elle a deux modalités, correct ou insuffisante. Les hypothèses sont les suivantes : - Ho : 1 = 2 : la qualité des pièces est la même, elle ne dépend pas des réglages - H1 : 1 < 2 : la qualité des pièces est meilleure avec les réglages 2, elle dépend des réglages Etape 2 : On fixe max. Pour notre exemple max=0.05 Etape 3 : On choisit la statistique √( ) On suppose que Ho est vrai on approxime par une loi Normal N (0 ; 1) Etape 4 : On définit la zone de rejet de Ho quand est nettement plus grand que 0, c’est-à-dire quand U est nettement plus grand que 0 soit . Pour S on écrit p ( ) = max avec U approximé par N (0 ; 1). On utilise la table pour déterminer S : On obtient le seuil S à la lecture de la table et donc la zone de rejet unilatérale : Dans notre exemple la zone de rejet correspond à Etape 5 : Calcule numérique de U à partir des données de l’échantillon. Etape 6 : Règle de décision Si on rejette Ho et on accepte H1 par abus 13 Statistiques L2S3 TESTS D’HYPOTHESES VARIABLES QUANTITATIVES I. TEST DE COMPARAISON D’UNE MOYENNE ET D’UNE NORME QUAND LA VARIABLE SUIT UNE LOI NORMALE D’ECART TYPE INCONNU On dispose d’une variable quantitative notée X, on appelle la moyenne inconnue de X dans la population. H0 : = o la moyenne inconnue de X est égale à la norme tirée du contexte. H1 : peut prendre 3 formes : Bidirectionnelle ≠ o Unidirectionnelle > o Unidirectionnelle < o - BIDIRECTIONNELLE Etape 1 : H0 : = o H1 : ≠ o Etape 2 : On fixe Etape 3 : On choisit la statistique ̅ √ n est l’échantillon, ̅ la moyenne et s l’écart type de l’échantillon On suppose Ho vraie et on approxime par une loi de Student à (n-1) degré de liberté. Etape 4 : On rejette Ho pour | | élevé c’est-à-dire dépassant le seuil S pour lequel p(| | la symétrie de la loi de Student p(| | S) = , on obtient S dans la table S) = , soit d’après La zone de rejet E s’écrit Etape 5 : Calcul de t Etape 6 : Règle de décision Si on rejette Ho et on accepte H1 par abus 14 Statistiques L2S3 UNIDIRECTIONNELLE positive Etape 1 : H0 : o H1 : > o Etape 2 : On fixe ̅ Etape 3 : On choisit la statistique √ n est l’échantillon, ̅ la moyenne et s l’écart type de l’échantillon On suppose Ho vraie et on approxime par une loi de Student à (n-1) degré de liberté. Etape 4 : On rejette Ho quand t est trop grand, on cherche donc un seuil S pour lequel p(t S dans la table. La zone de rejet E s’écrit S) = , on obtient Etape 5 : Calcul de t Etape 6 : Règle de décision Si on rejette Ho et on accepte H1 par abus UNIDIRECTIONNELLE négative Etape 1 : H0 : o H1 : < o Etape 2 : On fixe Etape 3 : On choisit la statistique ̅ √ n est l’échantillon, ̅ la moyenne et s l’écart type de l’échantillon On suppose Ho vraie et on approxime par une loi de Student à (n-1) degré de liberté. Etape 4 : On rejette Ho quand t est trop grand, on cherche donc un seuil S négatif pour lequel p(t obtient S dans la table. La zone de rejet E s’écrit S) = , on Etape 5 : Calcul de t Etape 6 : Règle de décision Si on rejette Ho et on accepte H1 par abus 15 Statistiques L2S3 II. TEST DE COMPARAISON DE 2 MOYENNES LORSQUE LES DISTRIBUTIONS SONT NORMALES D’ECART TYPE EGAUX MAIS DE VALEUR INCONNNUE (OBSERVATIONS INDEPENDANTES) On dispose d’une variable quantitative X, on est en présence de 2 populations dont sont extrait 2 échantillons : Population 1 : effectif n1 ; moyenne 1 ; écart type 1 ; observations x11 x12… Population 2 : effectif n2 ; moyenne 2 ; écart type 2 ; observations x21 x22… Le dispositif expérimentale est constitué par 2 échantillons formés d’individus distincts H0 : 1 = 2 H1 : peut prendre 3 formes : Bidirectionnelle 1 ≠ 2 Unidirectionnelle 1 > 2 Unidirectionnelle 1 < 2 - BIDIRECTIONNELLE Etape 1 : H0 : 1 = 2 H1 : 1 ≠ 2 Etape 2 : On fixe ̅̅̅̅ ̅̅̅̅ Etape 3 : On choisit la statistique √ √ On suppose Ho vraie et on approxime par une loi de Student à (n1 + n2 - 2) degré de liberté. Etape 4 : On rejette Ho pour | | élevé c’est-à-dire dépassant le seuil S pour lequel p(| | la symétrie de la loi de Student p(| | S) = , on obtient S dans la table S) = , soit d’après La zone de rejet E s’écrit Etape 5 : Calcul de t Etape 6 : Règle de décision Si on rejette Ho et on accepte H1 par abus 16 Statistiques L2S3 UNIDIRECTIONNELLE positive Etape 1 : H0 : 1 2 H1 : 1 > 2 Etape 2 : On fixe ̅̅̅̅ ̅̅̅̅ Etape 3 : On choisit la statistique √ √ On suppose Ho vraie et on approxime par une loi de Student à (n1 + n2 - 2) degré de liberté. Etape 4 : On rejette Ho quand t est trop grand, on cherche donc un seuil S pour lequel p(t S dans la table. La zone de rejet E s’écrit S) = , on obtient Etape 5 : Calcul de t Etape 6 : Règle de décision Si on rejette Ho et on accepte H1 par abus UNIDIRECTIONNELLE négative Etape 1 : H0 : 1 2 H1 : 1 < 2 Etape 2 : On fixe ̅̅̅̅ ̅̅̅̅ Etape 3 : On choisit la statistique √ √ On suppose Ho vraie et on approxime par une loi de Student à (n1 + n2 - 2) degré de liberté. Etape 4 : On rejette Ho quand t est trop grand, on cherche donc un seuil S négatif pour lequel p(t obtient S dans la table. La zone de rejet E s’écrit S) = , on Etape 5 : Calcul de t Etape 6 : Règle de décision Si on rejette Ho et on accepte H1 par abus 17 Statistiques III. L2S3 TEST DE COMPARAISON DE 2 MOYENNES (OBSERVATIONS APPARIEES) 1. Introduction Ce test est utilisé pour étudier l’effet d’un traitement sur une variable quantitative pour une population, dans ce cas la variable X peut dépendre de facteurs, autres que le traitement, que l’on souhaite contrôler afin d’isoler l’effet du traitement. Les observations sont effectuées par paires entre lesquelles seul le facteur étudié varie. Ce dispositif expérimentale est appelé observations appariées ou appareillées. On a un unique échantillon, chaque individu est soumis à 2 mesures de la variable, une pour chaque modalité de traitement. 2. Principe du test Pour un traitement à 2 modalités notons : - X la mesure de la variable sous la modalité 1, x moyenne de la variable sous la modalité 1 - Y la mesure de la variable sous la modalité 2, y moyenne de la variable sous la modalité 2 Pour un échantillon d’effectif n, on obtient n couples d’obervations (xi , yi). On cherche à comparer les deux moyennes. On introduit la variable différence D= X – Y et di = xi - yi et d = x - y x = y donc d = 0 x ≠ y donc d ≠ 0 x > y donc d > 0 Comparer 2 moyennes revient à comparer la différence d avec 0. On se retrouve donc avec un test classique d’une moyenne à une norme (paragraphe I). Il faut vérifier que D suit une loi Normale d’écart type inconnue. BIDIRECTIONNELLE Etape 1 : H0 : x = y soit d = 0 H1 : x ≠ y soit d ≠ 0 Etape 2 : On fixe Etape 3 : On choisit la statistique ̅ √ n est l’effectif de l’échantillon D, ̅ la moyenne et sd l’écart type On suppose Ho vraie et on approxime par une loi de Student à (n-1) degré de liberté. Etape 4 : On rejette Ho pour | | élevé c’est-à-dire dépassant le seuil S pour lequel p(| | la symétrie de la loi de Student p(| | S) = , on obtient S dans la table S) = , soit d’après La zone de rejet E s’écrit Etape 5 : Calcul de t Etape 6 : Règle de décision Si on rejette Ho et on accepte H1 par abus 18 Statistiques L2S3 UNIDIRECTIONNELLE positive Etape 1 : H0 : x y donc d 0 H1 : x > y donc d > 0 Etape 2 : On fixe Etape 3 : On choisit la statistique ̅ √ n est l’effectif de l’échantillon D, ̅ la moyenne et sd l’écart type On suppose Ho vraie et on approxime par une loi de Student à (n-1) degré de liberté. Etape 4 : On rejette Ho quand t est trop grand, on cherche donc un seuil S pour lequel p(t S dans la table. La zone de rejet E s’écrit S) = , on obtient Etape 5 : Calcul de t Etape 6 : Règle de décision Si on rejette Ho et on accepte H1 par abus UNIDIRECTIONNELLE négative Etape 1 : H0 : o H1 : < o Etape 2 : On fixe Etape 3 : On choisit la statistique ̅ √ n est l’effectif de l’échantillon D, ̅ la moyenne et sd l’écart type On suppose Ho vraie et on approxime par une loi de Student à (n-1) degré de liberté. Etape 4 : On rejette Ho quand t est trop grand, on cherche donc un seuil S négatif pour lequel p(t obtient S dans la table. La zone de rejet E s’écrit S) = , on Etape 5 : Calcul de t Etape 6 : Règle de décision Si on rejette Ho et on accepte H1 par abus 19