Echantillonnage M3 MODULE 3 : Construction d’un test d’hypothèses Unité 1 : aspects méthodologiques L’utilisation des intervalles de confiance comme moyen de décision est possible ; toutefois le décideur, tout en connaissant l’existence des erreurs qu’il peut commettre, n’est pas en mesure dévaluer les risques qui leur sont associés avant la prise de sa décision. La théorie des tests, en ramenant cette dernière au choix entre deux hypothèses antagonistes, notées H0 et H1 , rend la démarche plus rigoureuse. L’hypothèse H0 est privilégiée dans le sens où l’observateur souhaite la retenir tant qu’elle n’est pas infirmée par l’expérience. Dès lors, le test a pour but de mesurer l’adéquation de cette hypothèse à la réalité observable, c’est-à-dire aux résultats fournis par un échantillon. La démarche consiste tout d’abord à exprimer les erreurs en termes d’hypothèses « décider à tort » devient « décider de retenir une hypothèse alors que l’autre est vraie ». Ainsi, il devient possible de définir deux risques d’erreur et de calculer les probabilités qui leur correspondent, les probabilités étant liées au caractère aléatoire de tous les échantillons susceptibles d’être retenus. Dans une deuxième étape, il s’agit de construire le test, c’est-à-dire de mettre au point l’instrument de mesure de l’adéquation recherchée. A cette fin, et dans une formulation ex ante, sont conjointement proposées une statistique d’échantillonage adéquate (appelée conventionnellement fonction discriminante) et une zone de rejet de l’hypothèse H0 (ou région critique) pour un risque d’erreur raisonnable. Une règle de décision est ensuite formulée, mais la décision proprement dite n’est prise qu’ultérieurement au vu de la valeur particulière retenue dans un échantillon particulier. Comme pour tout instrument de mesure, il sera exigé d’un test d’hypothèse d’être performant. La puissance d’un test, c’est-à-dire la probabilité de refuser l’hypothèse H0 quand elle est fausse, est définie pour jouer ce rôle. Ainsi compte tenu de la diversité des situations concrètes envisageables, le critère de choix entre différents tests possibles sera celui correspondant à la puissance la plus élevée. 1. Risque d’erreur Deux grands « cas » se présentent : - X ≡ F(x ) → loi inconnue (1) - X ≡ F(x, θ) → F connue, mais θ inconnu (2) Les hypothèses à tester sont : - H0 : X ≡ F(x ) (1) - H0 : θ = θ0 (2) Soit on conservera l’hypothèse H0 , soit on la rejettera. Les risques d’erreurs encourus par l’observateur peuvent alors être définis par : • α : risque de première espèce : décider à tort que H0 est fausse. Sa probabilité s’écrit : α = Prob[décider que H1 est vraie / H0 vraie] ou α = Prob[rejeter H0 / H0 vraie] α est fixé, souvent à 5%. EchMod3 1/42 Echantillonnage M3 • β : risque de deuxième espèce : décider à tort que H0 est vraie. Sa probabilité s’écrit : β = Prob[décider que H0 est vraie / H1 vraie] Il convient de noter que par un abus de langage, le risque et sa mesure sont confondus dans la pratique courante. Par exemple, l’expression « risque de première espèce » est utilisée à la place de « probabilité du risque de première espèce ». Synthèse : Décision Décider H0 vraie Etat de nature α H0 H1 Décider H1 vraie β 2. Efficacité d’un test Les deux cases vides du tableau précédent correspondent aux prababilités complémentaires à 1 de α et de β, mais ne traduisent pas des risques puisque dans les deux cas il n’y a pas d’erreur de décision. Dans celle de la première ligne, s’inscrirait la probabilité de retenir H0 quand celle-ci est vraie, cette probabilité doit être normalement élevée. En revanche, dans la case vide de la deuxième ligne se trouverait l’expression : 1 - β = 1 – Prob[décider H0 vraie / H1 vraie] = Prob[décider H1 vraie / H1 vraie] c’est-à-dire la probabilité de rejeter l’hypothèse H0 quand elle fausse. Cette dernière probabilité est retenue comme caractéristique de la perfirmande d’un test d’hypothèses. La puissance d’un test, notée η, est la probabilité de rejeter l’hypothèse H0 quand celle-ci n’est pas vraie ; elle est égale à η = 1 - β où β est le risque de deuxième espèce. La puissance d’un test est la mesure de l’efficacité de ce test. Elle est comparable à la précision dans le cas d’un instrument de mesure. Il devient évident qu’un test est considéré d’autant plus précis (par rapport à l’adéquation entre H0 et l’observation) que sa puissance est plus grande. 3. Elaboration d’une règle de décision La démarche qui conduit à la prise de décision s’effectue en deux étapes. La première consiste à définir ex ante (avant tirage de l’échantillon) une statistique d’échantillonnage et une zone de rejet de l’hypothèse H0 pour un risque d’erreur donné, puis à élaborer une règle de décision. La deuxième étape s’accomplit ex post : une déicison est prise au vu d’une valeur particulière de la statistique retenue, conformément à la règle précédemment proposée. 3.1. Fonction discriminante Etant donné un test d’hypothèses, la fonction discriminante ∆ est la statistique d’échantillonnage utilisée pour décider de l’acceptation ou du rejet de l’hypothèse H0 d’un test, celle-ci étant choisie en fonction de la caractéristique objet de ce test. La fonction discriminante retenue pour un test d’hypothèses doit être de loi de probabilité connue, lorsque l’hypothèse H0 d’un test s’exprime à l’aide d’une caractéristique θ d’une loi de probabilité. Par exemple, H0 : « θ prend la valeur θ0 » (θ pouvant être aussi bien une moyenne qu’une variance ou une proportion). La fonction discriminante du test est en général un estimateur de la caractéristique (possédant les principales propriétés requises d’un bon estimateur) et sa loi de probabilité dépend donc de θ. EchMod3 2/42 Echantillonnage M3 3.2. Région critique La région critique R d’un test d’hypothèses de fonction discriminante ∆ est l’ensemble des valeurs de ∆ qui induisent au rejet de l’hypothèse H0 avec un risque d’erreur donné. Cette nouvelle définition permet d’exprimer les décisions en termes de variables aléatoires. Les événements « décider que H1 est vraie » et « décider que H0 est vraie » se traduisent respectivement par les événements : « ∆ n’appartient pas à R » et « ∆ appartient à R’ », R étant un intervalle de la droite des réels dont la forme (fermé, semi ouvert) et les bornes sont à préciser. Le calcul des bornes de la région critique passe par l’expression des risques α et β en fonction de R, c’est-à-dire : α = Pr ob[∆ ≥ C / H0 vraie] β = Pr ob[∆ < C / H1 vraie ] avec C : seuil critique. 3.3. Décision Tous les éléments sont à présent réunis pour mettre au point une règle de décision. Cette dernière peut s’énoncer ex ante (avant tirage de l’échantillon) de la manière suivante : ne pas accepter l’hypothèse H0 au risque d’erreur α, si la valeur particulière de la fonction discriminante ∆ (qui est une variable aléatoire) dans l’échantillon qui sera prélevé ultérieurement appartient à la région critique. Ainsi, il ne reste plus qu’à prendre la décision finale au vu de l’échantillon particulier. L’échantillon en présence conduit à cette conclusion, mais un autre échantillon peut très bien entraîner une décision contraire. On dira : j’accepte ou je refuse l’hypothèse H0 au risque de α% et compte tenu de l’information à ma disposition. 4. Typologie des tests d’hypothèses 4.1. Tests non paramétriques Un test est dit non paramétrique lorsque l’état de nature exprimé par les hypohtèses est formulé en termes qualitatifs. Deux genres de tests non paramétriques seront présentés (appelés aussi tests de concordance). • Test d’adéquation entre la distribution observée ou empirique et la distribution théorique de la population. • Test d’indépendance : ici l’échantillon est assimilé à un tableau d’effectif ou de contingence croisant deux caractères associés à chaque individu observé. 4.2. Tests paramétriques • Tests de signification d’un paramètre : H0 : θ = θ0 (m, σ, p) • Tests de comparaison ou d’égalité de deux paramètres : H0 : θ1 = θ 2 (deux populations) EchMod3 3/42 Echantillonnage M3 5. Synthèse : démarche à suivre pour construire un test d’hypothèses Niveau population Niveau échantillon ex ante • Enoncer les hypothèses H0 et H1 • Préciser les hypothèses de travail : loi de la variable dans la population… • Trouver une forme discriminante et proposer en la justifiant une forme de la région critique. • Spécifier la loi de probabilité de la fonction discriminante dans le cadre de l’hypothèse H0 . • Calculer la frontière de la région critique, étant donné un risque de première espèce α. Niveau échantillon ex post • Décider au vu de la valeur prise par la fonction discriminante dans l’échantillon particulier ⇒ formuler une règle de décision : Si valeur ∈ R, H0 rejetée Si valeur ∉ R, H0 acceptée. Unité 2 : Test du χ2 1. Test d’adéquation 1.1. Données du problème Soit un échantillon aléatoire de taille n prélevé dans une population à laquelle est associée une variable aléatoire X. Un tableau des effectifs (fréquences absolues) est construit en regroupant les observations en k classes qui sont suivant le cas, soit des intervalles de valeurs (des classes), soit des valeurs entières uniques de la variable aléatoire X. Classes [e0 , e1[ Effectifs n1 x1 n1 M [ei −1, ei [ M M M ni xi ni M M M M nk xn nk [ek −1, ek [ n Effectifs n La loi de la variable aléatoire X est soit : - parfaitement déterminée, - non parfaitement déterminée. Les x i sont-elles les images de X ? 1.2. Construction du test La démarche analytique est comparable à celle retenue pour la théorie de l’estimation. Le modèle théorique se situe ex ante, c’est-à-dire avant tirage. Ultérieurement, le prélévement d’un échantillon permettra d’accepter ou de refuser l’hypothèse H0 avec, bien entendu, un risque d’erreur toutefois mesurable. EchMod3 4/42 Echantillonnage M3 1.2.1. La formulation de l’hypothèse H0 Soit une population à laquelle est associée une variable X liée à un paramètre θ et dont la loi de probabilité est notée L(θ). La question que l’on se pose est la suivante : les observations x i sont-elles adéquates au modèle. On fait l’hypothèse H0 selon laquelle X ≡ L(θ) (par exemple X ≡ N(m;6) ou X ≡ P(λ ) avec m, σ, λ calculés sur les échantillons). En posant comme vraie cette hypothèse, on peut calculer les probabilités p i rattachées à chaque classe i de la manière suivante : X : variable aléatoire continue pi = Pr ob[ei −1 < X < ei ] X : variable aléatoire discrète pi = Pr ob[X = x i ] Classes Effectifs Fréquences relatives fi Si H0 vraie [e0 , e1[ n1 f1 p1 M [ei −1, ei [ M M M ni n fi = i n pi M M M M nk n fk = k n pk n ∑ fi = 1 [ek −1, ek [ Fi = pi ∑ pi k i =1 • soit lues dans les tables, dans le cas des variables aléatoires discrètes, • soit calculés, dans le cas des variables aléatoires continues. Il faut centrer et réduire les bornes des classes : X ≡ N(m, σ ) p − m e − m P[e i −1 < X < e i ] = P i −1 <U< i σ σ U ≡ N(0;1) P[ui −1 < U < ui ] = F(ui ) − F(ui −1 ) = Pi 1.2.2. La fonction discriminante Les données en présence sont : - Un échantillon aléatoire de taille n qui sera prélevé, l’effectif total de cet échantillon est réparti au hasard sur les k classes formant ainsi le tableau des effectifs observés notés ni pour la classe i. - Les probabilités p i qui sont calculées sur la base de l’hypothèse H0 (et à la suite d’un découpage de l’intervalle des valeurs possibles conformément aux classes du tableau de l’échantillon). EchMod3 5/42 Echantillonnage M3 L’adéquation entre l’hypothèse H0 ( X ≡ L(θ) ) et l’observation est mesurée par la « distance » entre la distribution empirique et la distribution théorique, c’est-à-dire par une fonction des écarts entre ni et np i . La fonction retenue est la suivante : N.B. L’échantillon à prélever étant de taille n et les individus répartis au hasard entre les classes, l’effectif ni de la classe i est une variable binomiale. ∑ k (ni − npi )2 np i i =1 C’est une statistique d’échantillonnage puisque les ni sont des variables aléatoires associées à l’échantillon qui sera prélevé. Elle est retenue comme fonction discriminante du test de l’adéquation d’une distribution empirique à un modèle théorique. Karl Pearson a demontré, en cherchant la limite de la loi multinomiale, que : ∑ k i =1 (ni − npi )2 si H0→vraie χ 2 (k − r − 1) npi n→ ∞ avec r : nombre de paramètres à estimer, k : nombre de classes, ni : effectifs observés, npi : effectifs théoriques. ( ) f χ2 α fixé (en principe 5%) si aucun paramètre n’est à estimer on a χ 2 (k − 1) , cas où la loi est parfaitement déterminée. α 1− α χ12− α χ 2 (k − 1) 1.2.3. La région critique Dans la relation précédente, la variable du χ 2 mesure la distance « entre les effectifs observés et les effectifs théoriques. Une grande valeur de cette variable est symptomatique de la non concordance entre la distribution observée et le modèle théorique. En conséquent, il existe un seuil c au-delà duquel l’hypothèse H0 ne peut pas être retenue. α = Prob[rejeter H0 / H0 vraie] : risque de première espèce [ ] α = Pr ob χ o2 > χ12− α avec χ o2 = ∑ k i =1 (ni − npi )2 npi 1.2.4. La règle de décision Si χ o2 ≥ χ12− α (k − 2 − 1) rejet de H0 au risque de première espèce α%. Si χ o2 < χ12− α (k − 2 − 1) H0 acceptée au risque de première espèce α%. EchMod3 6/42 Echantillonnage M3 1.3. Considérations pratiques Remarque : ce test s’applique à des données en classes. Il est asymptotique (n → ∞). Si H0 : Fx′ → Fx Classes Effectifs Si H0 vraie np i pi (ni − npi )2 np i [e0 , e1[ n1 p1 M M M ni pi [ei −1, ei [ (ni − npi )2 np1 (n1 − np1 )2 np i (ni − npi )2 (ni − npi )2 np i M [ek −1, ek [ M M nk pk npk n 1 n (nk − npk )2 χ o2 = ∑ k i =1 (ni − npi )2 np i Simplification : χ o2 = ∑ k (ni − npi )2 np i i =1 χ o2 = = ∑ ni2 + n 2pi2 − 2ninpi np i = ∑ npi + ∑ npi − 2∑ ni = ∑ npi − 2n + n ni2 ni2 ∑ npi − n k ni2 i =1 k n2 i − 1 i = 1 n 2 pi ∑ On peut donc calculer χ o2 = n Regroupement des classes : Si on a des classes de très faibles probabilités ( p i petits donc np i petits), on regroupe les classes entre elles : en effet, on rique de voir χ o2 augmenter artificiellement et on risque de rejeter H0 . Pour éviter ce risque, on regroupe les classes lorsque les valeurs de np i et ni sont trop petites. En pratique, si np i est inférieur à 5. S’il y a regroupement de classes, le degré de liberté du χ 2 change et devient s – r – 1, avec s nombre de classes après regroupement. Remarque : Le χ 2 peut être considéré comme une méthode d’estimation : on l’appelle méthode du χ 2 minimum. 2. Test d’indépendance On veut tester l’indépendance éventuelle de deux caractères attachés à chaque individu d’une même population. EchMod3 7/42 Echantillonnage M3 Dans ce cas, les deux distributions d’effectifs sont transcrites sous forme de tableaux à double entrée (ou tableaux de contingence), la distribution empirique résultant de l’observation et la distribution théorique étant déterminée à partir des fréquences… ? 2.1. Données du problème Soit un échantillon aléatoire de taille n issu d’une population dont les individus possèdent deux caractères A et B (qualitatifs ou rendus tels). Le tableau des effectifs qui est construit se présente sous la forme suivante : B B1 Bj Bk ni. A n11 … n1j … n1k n1. ni1 … nij … ni1 ni. Ap n p1 … npj … npk np. n. j n.1 … n. j … n.k n A1 M Ai M nij individus possèdent à la fois les deux modalités A i et B j , ni. individus possèdent la modalité A i (∀ la modalité de B), n. j individus possèdente la modalité B j (∀ la modalité de A). 2.2. Construction du test 2.2.1. Formulation de l’hypothèse La condition d’indépendance entre les deux caractères A et B est exprimée par l’hypothèse : H0 : A et B indépendants A possède p modalités : A 1 … A p B possède k modalités : B1 … B k { Sur chaque individu, on note la valeur du caractère A et celle du caractère B : a i , b j } 2.2.2. Fonction discriminante L’effectif total n de l’échantillon à prélever sera réparti au hasard dans les cellules d’un tableau à double entrée. L’effectif nij des individus possédant la modalité A i et B j est une variable aléatoire quels que soient i et j. On forme la fonction discriminante : χ o2 ∑∑ p = k i =1 j =1 (nij − npij )2 npij nij représente les effectifs observés, EchMod3 8/42 Echantillonnage M3 np ij les effectifs théoriques correspondant au cas de l’indépendance. Sous l’hypothèse H0 , χ o2 suit approximativement une loi du χ 2 χ o2 = (nij − npij )2 si H χ2 (pk − r − 1) avec r nombre de paramètres. ∑∑ npij → p k 0 i =1 j =1 [ pij = Pr ob I ∈ A i ∩ B j ] n →∞ I = ai , b j { } … Bj si H 0 pij = Pi. × p. j B B1 … Bk ni. A A1 p1. M pij = Pi. × p. j Ai p i. M Ap p. j pp. p.1 … p. j … p.k 1 Recherche du nombre de paramètres à estimer : p i. → à estimer p – 1 p. j → à estimer k – 1 p + k -2 Recherche du degré de liberté : (pk – r- 1) = pk – p – k + 2 – 1 = pk – p – k + 1 = k (p - 1) - (p - 1) =(p - 1) (k - 1) n pi. = i. n EchMod3 n p. j = .J n 9/42 Echantillonnage χ o2 = ∑∑ p k M3 (nij − npij )2 i =1 j =1 np ij ∑∑ p k (nij − npi.p. j )2 i =1 j =1 npi.p. j ni. n. j p k nij − n n n = n n .j i =1 j =1 n i. n n 2 p k n p k n n n p k n 2n 2 ij ij i. . j i. . j =n −2 + 2 ni.n. j nni.n. j i =1 j =1 n ni.n. j i =1 j =1 i =1 j =1 2 ∑∑ ∑∑ ( ) ∑∑ ∑∑ p k n2 p k p k 2 1 ij =n − nij + ni. n.j 2 n n n n i =1 j =1 i. . j i =1 j =1 i =1 j =1 p k n2 ij =n − 2 + 1 n n i . . j i =1 j =1 ∑∑ ∑∑ ∑ ∑ ∑∑ χ o2 p k n2 si H0 ij =n − 1 → χ 2 (p − 1)(k − 1) n→ ∞ ni.n. j i =1 j =1 ∑∑ ( ) 2.2.3. Région critique et règle de décision f χ2 α 1− α χ12− α χ 2 (p − 1)(k − 1) Si χ 2o ≥ χ12− α rejet de H0 au risque de première espèce α%. Si χ 2o < χ12− α H0 acceptée au risque de première espèce α%. 2.3. Considérations pratiques Dans les cases du tableau de contingence, mettre : nij2 ni.n. j = c ij p k χ o2 = n c ij − 1 i =1 j =1 ∑∑ χ 2o est toujours positif. EchMod3 10/42 Echantillonnage M3 2.4. Test d’homogénéité On a un ensemble d’échantillons E1 LE 2 LE k relatifs à des observations sur un caractère A. A, caractère observé , possède p modalités. E E1 … Ej … Ek ni. A A1 n1. M Ai ni. nij M Ap np. n. j n n. j nij : nombre d’observations de E j ∈ A i Question : peut-on considérer que tous les échantillons sont issus de la même population ? Si oui, on dira qu’il y a homogénéité dans la population. Si non, on dira qu’il y a hétérogénéité dans la population. Y a-t-il homogénéité entre échantillons vis à vis de A ? H0 : homogénéité entre échantillon. Cette hypothèse revient à teste : H0 : indépendance entre A et l’appartenance à un échantillon. χ o2 p k n2 si H0 ij =n − 1 → χ 2 (p − 1)(k − 1) n→ ∞ n n i. . j i =1 j =1 ∑∑ A E1 A1 n11 n1j n1k n1. ni1 nij nik ni. … Ej … Ek M Ai ∑∑ nij = n p k i=1 j =1 M Ap np1 n.1 EchMod3 npj … n. j … npk np. n.k n 11/42 Echantillonnage M3 ( ) f χ2 α 1− α χ12− α χ 2 (p − 1)(k − 1) Règle de décision : Si χ 2o ≥ χ12− α rejet de H0 au risque de première espèce α%. Si χ 2o < χ12− α H0 acceptée au risque de première espèce α%. α = Pr ob(rejeter H0 / H0 vraie ) accepter H0 / H0 fausse β = Pr ob H1 vraie Unité 3 : Test paramètriques Il existe deux types de tests paramètriques : - les tests de signification des paramètres, - les tests de comparaison des paramètres. 1. Test de signification des paramètres 1.1. Problématique θ paramètre inconnu Population : X ≡ L(θ) ⇓ L loi connue H0 : θ = θ0 hypothèse à tester H1 : θ = θ1 hypothèse alternative ⇓ Echantillons possibles Fonction discriminante Région critique Règle de décision : soit on conserve H0 , soit on la rejette. Echantillon particulier Valeur particulière de θ̂ EchMod3 12/42 Echantillonnage M3 Soit une population dont un paramètre θ est inconnu et un estimateur θ̂ de θ défini à partir de tous les échantillons de taille n. La donnée d’un échantillon particulier et donc d’une valeur particulière de θ̂ permettra de déterminer un intervalle de confiance de θ qui reste malgré tout inconnu. Le test de signification d’un paramètre consiste à poser a priori le entre deux valeurs numériques pour θ ou encore le choix entre une valeur précise et un ensemble du type « plus grand que » ; « plus petit que » ou « différent de ». Dans le premier cas, il s’agit de tester une hypothèse H0 simple contre une hypothèse antagoniste H1 simple aussi ; dans le second, c’est une hypothèse H0 simple qui est opposée à H1 composite. α = Pr ob(rejeter H0 / H0 vraie ) β = Pr ob(accepter H0 / H1 vraie ) 1.2. Test de signification de la moyenne d’une loi normale lorsque la variance est connue σ connu, m ? X ≡ N(m; σ) (x0 L xn ) échantillon de X. • si n est petit, il faut être certain de l’hypothèse de normalité. X ≡ N(m; σ) • si n est grand : utilisation de l’approximation noramle : ∑ Xi ind → N∑ mi; ∑ σi2 H0 : m = m0 / m = m1 On cherche sur l’échantillon un estimateur de m : X X ≡ N(m; σ n X−m ≡ N(0,1) σ n f (u) α1 α2 1− α u α1 EchMod3 u1−α 2 u 13/42 Echantillonnage si H0 vraie M3 X − m0 ≡ N(0,1) σ n X − m0 < u1− α 2 1 − α = Pr ob u α1 < σ n 1 − α = Pr ob m0 + uα1 σ < X < m0 + u1− α 2 σ n n 1 − α = Pr ob X ∈ m0 + uα1 σ ; m0 + u1−α 2 σ n n Règle de décision : σ ;m + u σ H acceptée 0 1−α 2 0 si X ∈ m0 + uα1 n n si X ∉ m + u σ ; m + u σ H rejetée α1 0 1−α 2 0 0 n n α risque de première espèce : α = Pr ob(rejeter H0 / H0 vraie ) H0 : m = m0 β = Pr ob(accepter H0 / H1 vraie ) H1 : m = m1 β = Pr ob X ∈ m0 + uα1 σ ; m0 + u1− α 2 σ / m = m1 n n Si H1 : X ≡ N(m1; σ n X − m1 ≡ N(0,1) σ n [ β = Pr ob a < X < b / m = m1 ] a − m1 X − 1 b − m1 = Pr ob < < σ σ σ n n n b − m1 a − m1 = F − F σ σ n n Rappel : 1 − β = η puissance du test 1 − β = Pr ob[rejeter H0 / H1 vraie] Courbe d’efficacité du test : {β(m1)}, variation de β en fonction de m1 Courbe de puissance : {η(m1)} EchMod3 14/42 Echantillonnage M3 Intervalle bilatéral symétrique : α1 = α 2 = α 2 f (u) α/2 α/2 1− α uα / 2 u1−α / 2 u H0 : m = m0 / H1 : m1 ≠ m0 X − m0 1 − α = Pr ob uα / 2 < < u1− α / 2 σ n Règle de décision : σ H acceptée 0 si X ∈ m0 ± u1− α / 2 n si X ∉ m ± u σ H rejetée 0 1 − α / 2 0 n Intervalle unilatéral à droite : α1 = 0 f (u) α2 = α α 1− α u1−α u H0 : m = m0 / H1 : m1 > m0 EchMod3 15/42 Echantillonnage M3 X − m0 < u1−α 1 − α = Pr ob σ n = Pr ob X < u1−α σ + m0 n Règle de décision : si X < u1− α σ + m0 H0 acceptée n + m0 H0 rejetée si X ≥ u1− α σ n α = Pr ob[rejeter H0 / H0 vraie ] Ici = Pr ob X ≥ u1− α σ + m0 / m = m0 n Intervalle unilatéral à gauche : α1 = α f (u ) α2 = 0 α 1− α uα u H0 : m = m0 / H1 : m1 < m0 X − m0 1 − α = Pr ob > uα σ n = Pr ob X > uα σ + m0 n Règle de décision : si X > uα σ + m0 H0 acceptée n + m0 H0 rejetée si X ≤ uα σ n 1.3. Test de signification de la moyenne d’une loi normale lorsque la variance est inconnue X ≡ N(m; σ) σ inconnu, m ? X ≡ N(m; σ n on prend un échantillon de taille n. EchMod3 16/42 Echantillonnage M3 Utilisation de la loi de Student : X −m X−m ≡ T(n − 1) ≡ s ŝ n −1 n s2 = 1 n ∑ (Xi − X2 ) ŝ2 = 1 n −1 f (T(n − 1)) ns2 2 2 ≡ χ (n − 1) σ ∑ (Xi − X2 ) α1+α2=α α1 α2 1− α t α1 t1− α 2 T(n-1) H0 : m = m0 / m = m1 X − m0 1 − α = Pr ob t α1 < < t1−α 2 s n −1 1 − α = Pr ob m0 + t α1 s < X < m0 + t1− α 2 s n −1 n − 1 Règle de décision : s ; m0 + u1− α 2 s H0 acceptée si X ∈ m0 + t α1 n −1 n − 1 si X ∉ m + t s ; m0 + t1− α 2 s 0 α1 H0 rejetée n − 1 n − 1 β = Pr ob(accepter H0 / H1 vraie ) H1 : m = m1 β = Pr ob X ∈ m0 + t α1 s ;m0 + t1− α 2 s / m = m1 n4 −31 1444244n4−31 144 4244 a b Si H1 : EchMod3 X − m1 ≡ T(n − 1) s n −1 17/42 Echantillonnage M3 a − m1 β = Pr ob < s n −1 b − m1 = F − F s n −1 X − m1 b − m1 < s s n −1 n − 1 a − m1 s n −1 Fonction de répartition de la loi de Student Si n-1>30, T(n-1)≡N(0,1) Si n-1<30, tables de la fonction de répartition de T(n-1). Intervalle bilatéral symétrique : α1 = α 2 = α / 2 f (T ) α/2 α/2 1− α tα / 2 t1− α / 2 T(n-1) H0 : m = m0 / H1 : m1 ≠ m0 X − m0 1 − α = Pr ob t α / 2 < < t1− α / 2 s n −1 = Pr ob m0 + t α / 2 s < X < m0 + t1− α / 2 s n −1 n − 1 Règle de décision : s H0 acceptée si X ∈ m0 ± t α / 2 n − 1 si X ∉ m ± t s H0 rejetée 0 α / 2 n − 1 EchMod3 18/42 Echantillonnage M3 Intervalle unilatéral à droite : α1 = 0 f (T ) α2 = α α 1− α t1− α T(n-1) H0 : m = m0 / H1 : m1 > m0 X − m0 1 − α = Pr ob < t1−α s n −1 = Pr ob X < t1− α s + m0 n −1 Règle de décision : si X < t1−α s + m0 H0 acceptée n −1 + m0 H0 rejetée si X ≥ t1−α s n −1 Intervalle unilatéral à gauche : α1 = α f (T ) α2 = 0 α 1− α tα T(n-1) H0 : m = m0 / H1 : m1 < m0 EchMod3 19/42 Echantillonnage M3 X − m0 > t α 1 − α = Pr ob s n −1 = Pr ob X > t α s + m0 n −1 Règle de décision : si X > t α s + m0 H0 acceptée n −1 + m0 H0 rejetée si X ≤ t α s n −1 1.4. Test de signification de la variance d’une loi normale σ2 ? X ≡ N(m; σ) H0 : σ2 = σ 20 / σ 2 = σ12 On prend un échantillon de taille n. ns2 σ 2 ≡ χ 2 (n − 1) ( ) f χ2 α1+α2=α α1 α2 1− α χ 2α1 ns2 1 − α = Pr ob χ 2α < < χ12−α 2 1 2 σ 2 1 Si H0 : 1 − α = Pr obχ α < χ 21− α 2 χ 2 (n − 1) < χ12−α 2 σ 20 ns2 2 σ2 σ2 0 1 − α = Pr ob χ α < s2 < χ12− α 0 n n 2 1 EchMod3 20/42 Echantillonnage M3 Règle de décision : 2 2 σ2 2 si s ∈ χ α 0 n ; χ1−α 1 2 2 2 σ 20 ; χ2 si s ∉ χ α1 n 1−α 2 H acceptée n 0 σ02 H rejetée n 0 σ02 β = Pr ob(accepter H0 / H1 vraie ) 2 σ02 σ 20 2 2 2 2 β = Pr ob χα < s < χ1− α / σ = σ1 n n 124 2 43 1 4 3 1 42 a b Si H1 : ns2 σ12 ≡ χ 2 (n − 1) n s2n n β = Pr ob a < <b 2 σ12 σ12 σ1 bn − F an = F σ2 σ2 1 1 Fonction de répartition de χ 2 (n − 1) Intervalle bilatéral symétrique : ( ) f χ2 α1+α2=α/2 α/2 α/2 1− α χ 2α1 χ 21− α 2 χ 2 (n − 1) H0 : σ 2 = σ 20 / H1 : σ12 ≠ σ02 2 ns2 1 − α = Pr ob χ α < < χ12−α / 2 /2 σ2 2 Si H0 : 1 − α = Pr ob χ α /2 < < χ12−α / 2 σ 20 ns2 σ2 σ2 1 − α = Pr ob χ 2α / 2 0 < s2 < χ12− α / 2 0 n n EchMod3 21/42 Echantillonnage M3 Règle de décision : 2 2 σ2 σ2 2 si s ∈ χ α / 2 0 n ; χ1− α / 2 0 n 2 2 σ02 σ 20 2 si s ∉ χ α / 2 n ; χ1− α / 2 n H0 acceptée H0 rejetée Intervalle unilatéral à gauche : α1 = α ( ) α2 = 0 f χ2 α 1− α χ 2α χ 2 (n − 1) H0 : σ 2 = σ02 / H1 : σ12 < σ02 [ ] 1 − α = Pr ob χ 2α < χ2 (n − 1) Si H0 : 1 − α = Pr ob χ 2α < ns2 σ02 2 2 σ0 1 − α = Pr ob s2 > χ α n Règle de décision : 2 2 2 σ0 si s > χ H acceptée α n 0 si s2 ≤ χ 2 σ02 H rejetée α n 0 EchMod3 22/42 Echantillonnage M3 Intervalle unilatéral à droite : α1 = 0 ( ) α2 = α f χ2 α 1− α χ12− α χ 2 (n − 1) H0 : σ 2 = σ 20 / H1 : σ12 > σ 20 ns2 < χ12− α 2 σ0 Si H0 : 1 − α = Pr ob σ2 1 − α = Pr ob s2 < χ12− α 0 n Règle de décision : 2 2 2 σ0 si s < χ H acceptée 1−α n 0 si s2 ≥ χ 2 σ 20 H rejetée 1−α n 0 1.5. Test de signification d’une proportion H0 : p = p0 / p = p1 Soit X une variable aléatoire. Soient deux modalités dans une population : A → p( A ) = p A → p( A ) = q = 1 − p Un échantillon est tiré dans la population. La variable X associée au tirage d’un individu est une variable de Bernouilli. La variable Y associée au tirage de n individus est une variable binomiale (nombre de fois où A se produit). L ( Y ≡ B(n, p) → N np, npq f= Y pq → N p, n n ) • Si n est petit, si H0 vraie : Y ≡ B(n,p 0 ) , lecture dans la table de la loi binomiale. ( • Si n est grand, si H0 vraie : Y → N np0 , np0q0 EchMod3 ) 23/42 Echantillonnage M3 f= Si H0 : f − p0 ≡ N(0,1) p0q0 n Y p q → N p0 , 0 0 n n f (u ) α1+α2=α α1 α2 1− α u α1 f − p0 < u1− α 2 1 − α = Pr ob uα1 < p 0q0 n u1−α 2 u p q p0q0 = Pr ob p0 + uα1 0 0 < f < p0 + u1−α 2 n n Règle de décision : p q p0q0 si f ∈ p0 + u α1 0 0 ; p0 + u1− α 2 H0 acceptée n n p 0q0 p0q0 ; p0 + u1− α 2 H0 rejetée si f ∉ p0 + u α1 n n Intervalle bilatéral symétrique : α1 = α 2 = α 2 f (u ) α/2 α/2 1− α uα / 2 EchMod3 u1−α / 2 u 24/42 Echantillonnage M3 H0 : p = p0 / H1 : p1 ≠ p0 f − p0 1 − α = Pr ob uα / 2 < < u1− α / 2 p0 q0 n p q = Pr ob f ∈ p0 ± uα / 2 0 0 n Règle de décision : p q si f ∈ p 0 ± uα / 2 0 0 H0 acceptée n p0q0 H0 rejetée si f ∉ p 0 ± uα / 2 n Intervalle unilatéral à gauche : α1 = α f (u ) α2 = 0 α 1− α uα u H0 : p = p0 / H1 : p1 < p0 f −p 0 >u 1 − α = Pr ob α p 0q0 n p q = Pr ob f > p0 + uα 0 0 n Règle de décision : p0q0 H0 acceptée si f > p0 + uα n p q si f ≤ p0 + uα 0 0 H0 rejetée n EchMod3 25/42 Echantillonnage M3 Intervalle unilatéral à droite : α1 = 0 f (u ) α2 = α α 1− α u1−α u H0 : p = p0 / H1 : p1 > p0 f −p 0 <u 1 − α = Pr ob 1− α p 0q0 n p q = Pr ob f < p 0 + u1−α 0 0 n Règle de décision : p0q0 H0 acceptée si f < p 0 + u1− α n p q si f ≥ p 0 + u1− α 0 0 H0 rejetée n 2. Test de comparaison ou d’égalité des paramètres 2.1. Problématique Soient deux populations : X1 ≡ L(θ1) X 2 ≡ L (θ2 ) avec θ1 et θ2 inconnus. H0 : θ1 = θ2 Fonction discriminante Région critique Décision Echantillons particuliers L’hypothèse θ1 = θ2 peut être formulée sous la forme : θ1 − θ2 = 0 . Le test de comparaison de deux paramètres revient en un test de signification à zéro de la différence entre ces paramètres (ou signification à 1 du rapport des deux paramètres). EchMod3 26/42 Echantillonnage M3 2.2. Test de comparaison des moyennes de deux lois normales lorsque les variances sont connues X1 ≡ N(m1, σ1 ) X2 ≡ N(m2, σ 2 ) On tire deux échantillons de taille n1 et n2 dans ces deux populations. • Si n1,n 2 sont petits, formulation de l’hypothèse de normalité. • Si n1,n 2 sont grands, approximation par la loi normale. H0 : m1 = m2 ⇔ m1 − m2 = 0 H1 : m1 − m2 = λ σ X1 ≡ N m1; 1 n1 σ X 2 ≡ N m2 ; 2 n2 (X1 − X2 ) ≡ N (m1 − m2 ); σ12 σ 22 + n1 n2 (X1 − X2 ) − (m1 − m2 ) ≡ N(0,1) σ12 σ 22 + n1 n2 f (u ) α1+α2=α α1 α2 1− α u α1 u1−α 2 u X1 − X 2 − 0 Si H0 : 1 − α = Pr ob uα1 < < u1− α 2 σ12 σ 22 + n1 n2 ( ) σ12 σ 22 σ12 σ 22 1 − α = Pr ob uα1 + < X1 − X 2 < u1− α 2 + n1 n2 n1 n2 ( EchMod3 ) 27/42 Echantillonnage M3 Règle de décision : si X1 − X 2 ∈ uα 1 si X1 − X 2 ∉ uα1 ( ) ( ) σ12 σ 22 σ12 σ 22 + ; u1− α 2 + H0 acceptée n1 n2 n1 n2 σ12 σ 22 σ12 σ 22 + ; u1− α 2 + H0 rejetée n1 n2 n1 n2 β = Pr ob(accepter H0 / H1 vraie ) [ β = Pr ob a < X1 − X2 < b / m1 − m2 = λ Si H1 vraie (X1 − X2 ) − λ ≡ N(0,1) ] σ12 σ 22 + n1 n 2 a−λ X − X2 − λ β = Pr ob < 1 < 2 2 2 2 σ1 σ 2 σ1 σ2 + n +n n1 n 2 2 1 ( b−λ β = F σ2 σ2 1 + 2 n n2 1 ) a−λ − F σ2 σ2 1 + 2 n n2 1 {β(λ )} courbe d’efficacité {η(λ )} courbe de puissance b−λ σ12 σ 22 + n1 n2 η = 1− β Intervalle bilatéral symétrique: α1 = α 2 = α 2 f (u) α/2 α/2 1− α uα / 2 EchMod3 u1−α / 2 u 28/42 Echantillonnage M3 X1 − X2 − 0 Si H0 : 1 − α = Pr ob uα / 2 < < u1−α / 2 σ12 σ 22 + n1 n 2 ( ) σ2 σ2 σ2 σ2 1 − α = Pr ob uα / 2 1 + 2 < X1 − X 2 < u1− α / 2 1 + 2 n1 n2 n1 n2 ( Règle de décision : si X1 − X 2 ∈ ± uα / 2 ± u α / 2 si X X − ∉ 1 2 ( ) ( ) ) σ12 σ 22 H0 acceptée + n1 n 2 σ12 σ 22 H0 rejetée + n1 n 2 Intervalle unilatéral à gauche : α1 = α f (u ) α2 = 0 α 1− α uα u H0 : m1 = m2 ⇔ m1 − m2 = 0 H1 : m1 − m2 < 0 ⇔ m1 < m2 X1 − X2 Si H0 : 1 − α = Pr ob > uα σ12 σ 22 n +n 2 1 ( ) σ2 σ2 1 − α = Pr ob X1 − X2 > uα 1 + 2 n1 n 2 ( EchMod3 ) 29/42 Echantillonnage M3 Règle de décision : 2 2 si X1 − X2 > uα σ1 + σ 2 H0 acceptée n1 n2 σ12 σ 22 + H0 rejetée si X1 − X2 ≤ u α n1 n 2 ( ) ( ) Intervalle unilatéral à droite : α1 = 0 α2 = α f (u ) α 1− α u1−α u H0 : m1 = m2 ⇔ m1 − m2 = 0 H1 : m1 − m2 > 0 ⇔ m1 > m2 X1 − X 2 Si H0 : 1 − α = Pr ob < u1−α σ12 σ 22 n +n 2 1 ( ) σ2 σ2 1 − α = Pr ob X1 − X 2 < u1− α 1 + 2 n1 n2 ( ) Règle de décision : 2 2 si X1 − X 2 < u1− α σ1 + σ 2 H0 acceptée n1 n2 σ12 σ 22 + H0 rejetée si X1 − X 2 ≥ u1− α n1 n2 ( ) ( ) Interprétation des contre-hypothèses : H1 : m1 ≠ m2 ⇒ la moyenne a-t-elle varié ? H1 : m1 > m2 ⇒ la moyenne a-t-elle diminué ? H1 : m1 < m 2 ⇒ la moyenne a-t-elle augmenté ? EchMod3 30/42 Echantillonnage M3 2.3. Test de comparaison des moyennes de deux lois normales lorsque les variances sont inconnues X1 ≡ N(m1, σ1 ) X 2 ≡ N(m2, σ 2 ) σ1,σ 2 inconnus H0 : m1 = m2 ⇔ m1 − m2 = 0 H1 : m1 − m2 = λ (X1 − X2 ) ≡ N (m1 − m2 ); σ12 σ 22 + n1 n2 σ1,σ 2 inconnus, donc utilisation de la loi de Student. Il faut au préalable tester l’hypothèse σ 2 = σ 2 = σ 2 (Cf. § suivant) 1 2 Remarque : si σ12 ≠ σ 22 , on ne peut pas utiliser le test de Student. On utilise alors les tables statistiques de Darmois. T(n1 + n2 − 2) ≡ (X1 − X2 ) − (m1 − m2 ) n1s12 + n2s22 n1 + n 2 − 2 f (T ) 1 1 + n1 n2 α1+α2=α α1 α2 1− α t α1 Si H0 : 1 − α = Pr obt α < 1 t1− α 2 n1s12 + n2s22 n1 + n 2 − 2 n s2 + n2s22 1 − α = Pr ob t α1 1 1 n1 + n2 − 2 EchMod3 (X1 − X2 ) T −0 < t1− α 2 1 1 + n1 n2 1 1 n s2 + n2s22 + < X1 − X2 < t1− α 2 1 1 n1 n2 n1 + n2 − 2 1 1 + n1 n 2 31/42 Echantillonnage M3 Règle de décision : 2 2 si X1 − X 2 ∈ t α n1s1 + n2s2 1 n1 + n2 − 2 n s2 + n2s22 si X1 − X 2 ∉ t α1 1 1 n1 + n2 − 2 ( ) 1 1 n s2 + n2s22 + ; t1− α 2 1 1 n1 n2 n1 + n2 − 2 ( ) 1 1 n s2 + n2s22 + ; t1− α 2 1 1 n1 n2 n1 + n2 − 2 β = Pr ob(accepter H0 / H1 vraie ) [ β = Pr ob a < X1 − X2 < b / m1 − m2 = λ a−λ β = Pr ob < 2 2 1 n1s1 + n2s2 1 n +n −2 n + n 1 2 1 2 b−λ β = F n s2 + n s2 1 1 2 2 + 1 1 n1 + n2 − 2 n1 n 2 ] (X1 − X2 ) − λ n1s12 + n2s22 n1 + n2 − 2 1 1 + n1 n2 a−λ − F n s2 + n s2 1 1 2 2 + 1 1 n1 + n2 − 2 n1 n2 Fonction de répartition de T(n1 + n2 − 2 ) < 1 1 + H0 acceptée n1 n2 1 1 + H0 rejetée n1 n2 b−λ n1s12 + n2s22 1 1 + n1 + n2 − 2 n1 n2 • Si n1 + n 2 − 2 < 30 → lecture dans les tables de la fonction de répartition de la loi de Student. • Si n1 + n 2 − 2 > 30 → T(n1 + n2 − 2 ) → N(0,1) L Intervalle bilatéral symétrique : α1 = α 2 = α / 2 f (T ) α/2 α/2 1− α tα / 2 t1− α / 2 T(n-1) H0 : m1 = m2 / H1 : m1 ≠ m 2 EchMod3 32/42 Echantillonnage M3 1 − α = Pr ob t α / 2 < X1 − X 2 < t1− α / 2 n1s12 + n2s22 1 1 + n1 + n 2 − 2 n1 n2 Règle de décision : 2 2 si X1 − X 2 ∈ t1− α / 2 n1s1 + n2s2 n1 + n 2 − 2 n s2 + n2s22 si X1 − X 2 ∉ t1− α / 2 1 1 n1 + n 2 − 2 ( ) ( ) Intervalle unilatéral à droite : α1 = 0 f (T ) 1 1 + H0 acceptée n1 n2 1 1 + H0 rejetée n1 n2 α2 = α α 1− α t1− α T H0 : m1 = m2 / H1 : m1 > m2 X1 − X 2 1 − α = Pr ob < t1−α 1 n1s12 + n2s22 1 n +n −2 n + n 1 2 1 2 ( ) Règle de décision : 2 2 si X1 − X2 < t1− α n1s1 + n2s2 n1 + n 2 − 2 n1s12 + n2s22 si X1 − X2 ≥ t1− α n1 + n 2 − 2 ( ) ( ) EchMod3 1 1 + H0 acceptée n1 n2 1 1 + H0 rejetée n1 n2 33/42 Echantillonnage M3 Intervalle unilatéral à gauche : α1 = α f (T ) α2 = 0 α 1− α tα T H0 : m1 = m2 / H1 : m1 < m2 1 − α = Pr ob t α < X1 − X 2 n1s12 + n2s22 1 1 + n1 + n2 − 2 n1 n 2 ( ) Règle de décision : 2 2 si X1 − X 2 > t α n1s1 + n2s2 1 + 1 H0 acceptée n1 + n2 − 2 n1 n2 n1s12 + n2s22 1 1 si X − X ≤ t + H0 rejetée 1 2 α n + n − 2 n n 1 2 1 2 ( ) ( ) 2.4. Test de comparaison des variances de deux lois normales X1 ≡ N(m1, σ1 ) X2 ≡ N(m2, σ 2 ) σ1 = σ 2 ? σ2 H0 : σ12 = σ 22 ⇔ 1 = 1 σ 22 H1 : σ12 − σ 22 = λ On tire dans la population 1 un échantillon de taille n1 , de moyenne X1 et d’écart-type S1 . On tire dans la population 2 un échantillon de taille n2 , de moyenne X 2 et d’écart-type S 2 . n1S12 σ22 n2 − 1 Ŝ12 σ 22 ⋅ ⋅ = ⋅ ≡ F(n1 − 1; n2 − 1) n1 − 1 σ12 n2S 22 Ŝ 22 σ12 Si H0 : EchMod3 Ŝ12 Ŝ 22 ≡ F(n1 − 1;n 2 − 1) 34/42 Echantillonnage M3 f (F) α1+α2=α α1 α2 1− α Fα1 Si H0 : 1 − α = Pr obFα < 1 < F1−α 2 Ŝ22 Ŝ12 Règle de décision : si si Ŝ12 Ŝ22 Ŝ12 Ŝ22 F(n1 − 1, n2 − 1) F1− α 2 [ ] [ ] ∈ Fα1 (n1 − 1;n 2 − 1);F1−α 2 (n1 − 1; n2 − 1) H0 acceptée ∉ Fα1 (n1 − 1;n 2 − 1);F1−α 2 (n1 − 1; n2 − 1) H0 rejetée Intervalle bilatéral symétrique : f (F) α1+α2=α/2 α/2 α/2 1− α Fα1 F1− α 2 σ2 σ2 H0 : 1 = 1/ H1 : 1 ≠ 1 σ 22 σ 22 Si H0 : 1 − α = Pr ob Fα / 2 < EchMod3 F(n1 − 1; n2 − 1) < F1− α / 2 Ŝ22 Ŝ12 35/42 Echantillonnage M3 Règle de décision : si si Ŝ12 Ŝ22 Ŝ12 Ŝ22 ∈ [Fα / 2 (n1 − 1; n2 − 1);F1−α / 2 (n1 − 1;n2 − 1)] H0 acceptée ∉ [Fα / 2 (n1 − 1; n2 − 1);F1−α / 2 (n1 − 1;n2 − 1)] H0 rejetée Attention à la lecture des tables de Fischer : Fα / 2 (n1 − 1; n2 − 1) = 1 F1− α / 2 (n1 − 1;n2 − 1) Intervalle unilatéral à droite : α1 = 0 α2 = α f (F) α 1− α F1− α H0 : Si F(n1 − 1; n2 − 1) σ 21 σ2 = 1/ H1 : 1 > 1 σ 22 σ 22 Ŝ 2 H0 : 1 − α = Pr ob 1 < F1− α (n1 − 1; n 2 − 1) 2 Ŝ 2 Règle de décision : • Si si si • Si Ŝ 22 Ŝ12 Ŝ12 Ŝ 22 Ŝ12 Ŝ 22 Ŝ12 Ŝ 22 Ŝ12 Ŝ 22 >1 < F1− α (n1 − 1;n2 − 1) H0 acceptée ≥ F1− α (n1 − 1;n2 − 1) H0 rejetée < 1⇒ Ŝ 22 Ŝ12 >1 ≡ F1− α (n2 − 1;n1 − 1) EchMod3 36/42 Echantillonnage si si Ŝ 22 Ŝ12 Ŝ 22 Ŝ12 M3 ≥ F1− α (n2 − 1; n1 − 1) H0 rejetée < F1− α (n2 − 1; n1 − 1) H0 acceptée Intervalle unilatéral à gauche : α1 = α f (F) α2 = 0 α 1− α Fα H0 : F(n1 − 1; n2 − 1) σ 21 σ2 = 1/ H1 : 1 < 1 σ 22 σ 22 2 Ŝ Si H0 : 1 − α = Pr ob 1 > Fα (n1 − 1; n2 − 1) 2 Ŝ2 Règle de décision : • Si si si • Si Ŝ22 Ŝ12 si si Ŝ12 Ŝ22 Ŝ12 Ŝ22 Ŝ12 Ŝ22 Ŝ12 Ŝ22 >1 > Fα (n1 − 1;n2 − 1) H0 acceptée ≤ Fα (n1 − 1;n 2 − 1) H0 rejetée < 1⇒ Ŝ22 Ŝ12 >1 ≡ F1− α (n2 − 1;n1 − 1) Ŝ22 Ŝ12 Ŝ22 Ŝ12 EchMod3 ≤ Fα (n2 − 1; n1 − 1) H0 rejetée > Fα (n2 − 1; n1 − 1) H0 acceptée 37/42 Echantillonnage M3 2.5. Test de comparaison de deux proportions Soit X1 une variable aléatoire. Soient deux modalités dans une population : A → p( A ) = p1 A → p( A ) = q1 = 1 − p1 Un échantillon est tiré dans la population. La variable X1 associée au tirage d’un individu est une variable de Bernouilli. La variable Y1 associée au tirage de n1 individus est une variable binomiale (nombre de fois où A se produit). ( L Y1 ≡ B(n1,p1) → N n1p1, n1p1q1 Y pq f = 1 → N p1, 1 1 n1 n1 ) Soit X2 une variable aléatoire. Soient deux modalités dans une population : B → p(B) = p 2 B → p( B ) = q2 = 1 − p 2 Un échantillon est tiré dans la population. La variable X2 associée au tirage d’un individu est une variable de Bernouilli. La variable Y2 associée au tirage de n2 individus est une variable binomiale (nombre de fois où B se produit). L ( Y2 ≡ B(n2 ,p 2 ) → N n2p 2 , n 2p 2q2 Y p q f = 2 → N p 2 , 2 2 n2 n2 ) H0 : p1 = p 2 ⇔ p1 − p2 = 0 H1 : p1 − p 2 = λ pq p q L F1 − F2 → N p1 − p 2 ; 1 1 + 2 2 n1 n2 Si H0 : (F1 − F2 ) − 0 p1q1 p 2q2 + n1 n2 ≡ N(0,1) f (u ) α1+α2=α α1 α2 1− α u α1 EchMod3 u1−α 2 u 38/42 Echantillonnage M3 1 − α = Pr ob uα1 < F1 − F2 < u1− α 2 p1q1 p 2q2 + n1 n2 pq p q pq p q = Pr ob uα1 1 1 + 2 2 < F1 − F2 < u1−α 2 1 1 + 2 2 n1 n2 n1 n2 p1 → p̂1 = F1 p2 → p̂ 2 = F2 q1 → q̂1 = 1 − F1 q2 → q̂2 = 1 − F2 Or ici on teste p1 = p 2 = p ? → p̂ = F q1 = q2 = q ? → q̂ = 1 − F On prend pour variable aléatoire F : Y + Y2 F= 1 n1 + n2 L’estimateur F de p̂ est égal à : n F +n F F= 11 2 2 n1 + n 2 1 1 1 1 < F1 − F2 < u1−α F(1 − F ) + + 2 n1 n2 n1 n2 Si H0 : 1 − α = Pr ob uα1 F(1 − F ) Utilisation de F et non pas de F1 et F2 Règle de décision : si F1 − F2 ∈ uα F(1 − F) 1 + 1 ; u1− α F(1 − F) 1 + 1 H0 acceptée n n 2 1 1 n2 1 n2 1 1 1 1 ; u1− α F(1 − F) + H0 rejetée si F1 − F2 ∉ uα1 F(1 − F) + 2 n1 n2 n1 n2 Interprétation de l’hypothèse H0 : différence non significative entre les fréquences relatives observées. β = Pr ob(accepter H0 / H1 vraie ) H0 : p1 = p 2 ⇔ p1 − p2 = 0 H1 : p1 − p 2 = λ β = Pr ob[a < F1 − F2 < b / p1 − p 2 = λ] ( a − (p1 − p 2 ) F1 − F2 ) − (p1 − p 2 ) ba − (p1 − p 2 ) β = Pr ob < < pq p 2q2 p1q1 p 2q2 p1q1 p 2q2 1 1 + + + n2 n1 n2 n1 n2 n1 EchMod3 39/42 Echantillonnage M3 ba − (p 1 − p 2 ) β = F p 1q1 + p 2 q 2 n n2 1 a − (p 1 − p 2 ) − F p 1q1 + p 2 q 2 n n2 1 p1 → p̂1 = F1 p2 → p̂ 2 = F2 q1 → q̂1 = 1 − F1 q2 → q̂2 = 1 − F2 On remplace p1 et p 2 par leurs estimateurs. Intervalle bilatéral symétrique : α1 = α 2 = α 2 f (u ) α/2 α/2 1− α uα / 2 u1−α / 2 H0 : p1 = p2 / H1 : p1 ≠ p 2 Si H0 : 1 − α = Pr ob uα / 2 < (F1 − F2 ) − 0 1 1 F(1 − F) + n1 n2 u < u1−α / 2 Règle de décision : si (F1 − F2 ) ∈ ± u α / 2 F(1 − F) 1 + 1 H0 acceptée n 1 n2 1 1 H0 rejetée si (F1 − F2 ) ∉ ± u α / 2 F(1 − F) + n1 n2 EchMod3 40/42 Echantillonnage M3 Intervalle unilatéral à droite : α1 = 0 f (u ) α2 = α α 1− α u1−α u H0 : p1 = p2 / H1 : p1 > p 2 ( F1 − F2 ) − 0 1 − α = Pr ob < u1− α 1 1 F(1 − F ) n + n 2 1 1 1 = Pr ob (F1 − F2 ) < u1− α F(1 − F) + n1 n2 Règle de décision : 1 1 si (F1 − F2 ) < u1− α F(1 − F ) + H0 acceptée n1 n2 1 1 H0 rejetée si (F1 − F2 ) ≥ u1− α F(1 − F ) + n n 1 2 Intervalle unilatéral à gauche : α1 = α f (u ) α2 = 0 α 1− α uα u H0 : p1 = p2 / H1 : p1 < p 2 EchMod3 41/42 Echantillonnage M3 ( F1 − F2 ) − 0 1 − α = Pr ob > uα 1 1 F(1 − F ) n + n 2 1 1 1 = Pr ob (F1 − F2 ) > uα F(1 − F ) + n1 n 2 Règle de décision : 1 1 si (F1 − F2 ) > uα F(1 − F) + H0 acceptée n1 n2 1 1 H0 rejetée si (F1 − F2 ) ≤ uα F(1 − F ) + n n 1 2 EchMod3 42/42