lOMoARcPSD|18427511 Analyse quantitative des données Analyse quantitative des données (Université de Paris-Cité) StuDocu is not sponsored or endorsed by any college or university Downloaded by Stephane Pouho ([email protected]) lOMoARcPSD|18427511 Analyse quantitative des données Chapitre 0 : Brève introduction aux méthodes statistiques inférentielles Résume ce que l’on a Statistiques inductives : Vérifier que la décision marche sur toute la population et non pas seulement l’échantillon observé On veut savoir si une certaine hypothèse que je me pose, (par exemple ½ enfant a peur du noir, les filles réussissent mieux que les garçons etc…) que l’on va noter H, est vrai ou non dans une population que je vais noter P. On ne dispose que d’un échantillon extrait (au hasard) de cette population. P Echantillon observé X H? xxx x xxx H1 X x x Si H1 est vraie dans l’échantillon peut-on dire que H1 est vraie dans P ? Ces méthodes que l’on va étudier, associe automatiquement l’hypothèse H1 que l’on veut vérifier/valider, on lui associe toujours une hypothèse qui H0 qui contredit H1 dite « hypothèse nulle ». On veut tester H1 contre H0, laquelle choisir ? è On dispose d’une formule qui est dites statistique du test, laquelle est simplement une formule. C’est une machine qui a un échantillon, qui a un échantillon va associer (calculer) une valeur numérique. Notons, pour l’instant, T cette formule è Cette statistique T a été construite de telle sorte que l’on connaît sa loi des probabilités si H0 était vrai dans la population. (Je peux faire des prévisions avec des probabilités que cette formule T donnera, par exemple, un score inférieur à 3) On peut calculer toutes probabilités (choses) liés aux valeurs possibles de cette formule T. è On construit une zone ou région que l’on va nommer R, c’est une zone ou région de valeurs. (souvent un intervalle ou réuni en intervalles) Cette région a été construite de telle sorte que si H0 était vraie dans la population P alors on aurait peu de chance que les valeurs de T tomberaient dans la région R. (ⱷ=Alpha psk je trouve pas le vrai signe) Proba (T soit dans R) = ⱷ petite proba si H0 était vraie Ou encore que T aura une grande chance de donner une valeur en dehors de cette R. Proba(T soit en dehors de P) = 1-ⱷ =grande proba Downloaded by Stephane Pouho ([email protected]) lOMoARcPSD|18427511 Par exemple : Zone R T serait ici T ne serait pas ici Avant même sondage, on « sait que » si H0 était vraie. - - - On établit alors la règle de décisions suivante : On calcule T sur notre échantillon soit T observé = la valeur calculée Si Tobs dans la zone R on rejette H0 pour accepter H au risque ⱷ de se tromper car notre échantillon contredit/ n’est pas compatible à 100% avec H0 Si Tobs est en dehors de cette région R, on ne peut pas rejet H0 pour accepter H1 car notre échantillon ne contredit pas H0. (Cependant ce n’est pas parce que j’ai vu que H0 n’est pas compatible je n’ai ni la preuve qu’elle est fausse ni qu’elle est vraie) La zone R est dite région de rejet de H0 (cad d’acceptation de H1) Il y a deux façons de prendre la mauvaise décision en utilisant cette technique statistique è Dire que H0 est fausse (cad dire H1 vraie) alors qu’en réalité H0 est vraie è Dire que H0 est vraie alors qu’en réalité H0 est fausse Décision prise/ Etat réel de H0 H0 fausse H0 fausse Bonne décision H0 vraie Mauvaise décision, risque B (Béta) de 2ème espèce H0 vraie Mauvaise décision risque ⱷ de 1ère espèce Bonne décision ⱷ = Proba que notre test statistique nous mène à dire que H0 est fausse (valider H1) alors que H0 vraie (H1 fausse) 1-ⱷ = Proba de dire (avec ce test) que H0 est vraie et il se trouve que H0 est vraie = niveau de confiance du test B = Proba de dire que H0 est vraie alors qu’en réalité H0 est fausse = Erreur ou risque de se tromper de 2ème espèce 1-B = Proba de dire que H0 fausse lorsque H0 est fausse réellement fausse Seul l’erreur ⱷ pourra être calculée et parfaitement contrôlée dans tout ce qu’on va faire. L’erreur B est très souvent difficile (voire impossible) à calculer même si il existe des techniques pour l’estimer ou le majorer (ceci est dû à la structure souvent vague de H1) Pour retenir la notion de ces erreurs ⱷ et B Supposons que pour déceler la présence d’une certaine maladie M, on dispose d’un test médical T qui n’est pas efficace à 100% (comme la majorité des tests médicaux) Ou : - α= Proba que notre test statistique nous mène à dire que H0 est fausse ( valider H1 ) alors que H0 est vraie ( H1 fausse ) = risque de 1ère espèce 1 – α = Proba de dire ( avec ce test ) que H0 est vraie et il se trouve que H0 est vraie = niveau de confiance du test β= Proba de dire que H0 est vraie alors qu’en réalité H0 est fausse = erreur ou risque de 2nd espèce Downloaded by Stephane Pouho ([email protected]) lOMoARcPSD|18427511 - 1 – β = Proba de dire que H0 est fausse lorsque H0 est réellement fausse, seule l’erreur α pourra être calculée est parfaitement contrôlée. L’erreur B est très souvent difficile (voir impossible ) à calculer = la puissance du test utilisé - Même s’il existe des techniques pour l’estimer ou le majorer (ceci est dû à la structure souvent vague de H1 ) Ce test T a été élaboré de telle sorte que : - Le T appliqué à 100 vrais atteint par M (maladie), ce test est positif dans 95% des cas. 5% lui échappe. Le T appliqué testé sur 100 vrais non atteint par M, ce test est négatif sur 90% de cas. 10% Résultat T/ Etat Positif T+ Négatif TTotal M présente 95 5 100 Non M 10 90 100 Notons H1 = présence de M H0 = pas de M Calculer le ⱷ, (1- ⱷ) Le B et le (1-B) pour ce test T ⱷ = Proba (dire qu’un patient est malade alors qu’en réalité il n’est pas malade) = Proba de lire T+ sur un patient qui n’est pas malade. ------------------Ici, dans cet exemple H1 « Présence de la maladie M » H0 : « Absence de Maladie M » ⱷ Proba que mon test dise que M est présent alors qu’en réalité M est absent (M-) ⱷ = 10/100 = 0,10 (10%) = risque de 1ère espèce pour ce test T 1- ⱷ = 90/100 = proba que T dise Absence M lorsque M est réellement absente (M-) = niveau de confiance accordé à ce test T B= Proba que le test dise M absente (T-) alors qu’en réalité M est présente (M+) = 5/100 = 0,05 (5%) = Risque de 2ème espèce (1-B) = Proba que T dise présence M càd T+ lorsque M est présente M+ è Puissance de ce test. = 95/100 = 0,95 (95%) Chapitre 1 : Estimations et intervalles de confiance pour des pourcentages ( proportions) inconnues : 1) Estimation ponctuelle : Downloaded by Stephane Pouho ([email protected]) lOMoARcPSD|18427511 On s’intéresse à un certain caractère C dans une population P donnée On s’intéresse donc à une variable qualitative ( ou nominale ) à 2 modalités : A = { C ; non C } On notera : p = proportion de C dans P p= nombres d’individus de (P) qui ont C / nombre total d’individus dans (P) ( 1-p) = proportion de non C dans (P) La proportion p (et donc (1-p) aussi) est inconnue. On souhaite ainsi avoir des « informations » sur cette proportion inconnue p On ne dispose que d’un échantillon …. ? On observe dans cet échantillon : - K sujet qui ont le caractère C N-k sujets n’ont pas le caractère C On notera F=proportion de C dans notre échantillon F=k/n (1-f) = prop. De nm C dans l’échantillon (1-f) = n-k/n Echantillon KC En prop f n-k non C en pop (1-f) 1/3 = 0,33 On démontre qu’une « bonne façon » d’estimer la valeur exacte de la proportion p inconnue est d’utiliser la proportion f observée dans notre échantillon On dira que f = une estimation ponctuelle de p /!\ Lorsqu’on dit que f est une « bonne estimation » de p ça ne veut pas dire que forcement f est une « bonne approximation » (distingué le sens de approximation et estimation) On ne sait pas, pour l’instant, si f est proche de p, ou si f est très éloignée de p ! « Bonne estimation » veut dire simplement que la proportion f observée dans l’échantillon est la valeur f observée dans l’échantillon est c’est avec cette valeur qu’on aura le plus de chance de s’approcher au mieux de p. En effet… (si l’on imagine avant sondage) Si on note F la proportion du caractère C dans un échantillon de taille n que le hasard va nous donner Downloaded by Stephane Pouho ([email protected]) lOMoARcPSD|18427511 F est une variable aléatoire qui à chaque échantillon de taille n associe la proportion f des caractères C « dans cet échantillon » Tous les échantillons de taille n que peut donner le hasard F E1 à f1 f1=prop de C dans E1 E2 à f2 f2= prop de C dans E2 E3 à f3 On démontre qu’il y aurait beaucoup plus de ces f1 f2 qui seraient « proches » de p que de f1 f2 qui seraient éloignées de p Proba que f sera proche de p est assez grande et cette proba augmente avec la taille n l’échantillon. On démontre par exemple que : Proba (-1,96x1/2√n ≤ F-p < + 1,96/2√n) ≥ 0,95% Ainsi si n=400 à Proba (-1,96/2√400 ≤ + 1,96/2√400) ≥ 0,95% On est sûr avec plus de 95% de certitude que l’écart entre F et p ne dépasse pas 1,96/2√400 ≈ 0,049 0,049 0 +0,049 F-p è Pour un échantillon de taille n=40.00 0,055 0 +0,015 F-p è Avec un échantillon de 4000 on aura plus de 95% de chance d’estimer la valeur de p pour un f proche de p à 0,015 près Les intervalles de confiance permettent de lier l’écart probable (f-p) entre la proportion f de C dans un échantillon que le hasard va nous donner et p avec la probabilité de cet écart 2) Intervalles de confiance pour une proportion inconnue (P) = Population Echantillon f=prop de C dans cet échantillon C (p= ?) Downloaded by Stephane Pouho ([email protected]) lOMoARcPSD|18427511 F=proportion de C Dans un échantillon de taille n que l’on va sonder F= proportion de C dans l’échantillon sondé (précis) Ces intervalles de confiance sont basés sur le fait que l’on connait sous certaines conditions la loi des probabilités de l’écart (dit réduit, normalisé, ou standardisé) que l’on notera ici Ƶ Ƶ = F-p/√px(1-p)/n ou Ƶ = ($%&) (&)(*%&)/, Où n=taille de l’échantillon que l’on va sonder Cette écart réduit Ƶ obéit à une loi des probabilités dite loi normale centrée réduite ou encore loi de Laplace-Gauss à on sait calculer toute proba liée à cet écart Ƶ 2.1) Intervalle centré (bilatéral) pour la proportion p On veut donner 2 bornes (A et B) telles que l’intervalle [A,B] ait une grande probabilité (1- ⱷ) pour contenir p Donc p sera dans l’intervalle [ A , B ] avec une proba de ( 1 – α ) Quelle est la valeur de A ? de B ? P sera là avec une proba de (1-ⱷ) A A= ? B B= ? Dans le cas de « grands » échantillons et si p n’est ni trop petite ni trop grande en pratique lorsque : N ≥ 100 échantillon de taille ≥100 nxf ≥ 5 au moins 5 caractères C dans l’échantillon nx(1-f) ≥ 5 au moins 5 caractères non C dans l’échantillon On a une formule simplifiée pour cette intervalle qui est donnée par I©ⱷ=[f-ƺ(ⱷ/2)x√fx(1-f)/n ; f+ ƺ(ⱷ/2)x √f-1xf/n] (ⱷ/2) à indice C’est l’intervalle de confiance centrée de niveau (1- ⱷ) ou de seuil (risque x) où ƺ(ⱷ/2) est une valeur lue dans la table de la loi normale avec le risque bilatéral ⱷ Downloaded by Stephane Pouho ([email protected]) lOMoARcPSD|18427511 (ⱷ/2) (ⱷ/2) (1- ⱷ) - ƺ(ⱷ/2) 0 + ƺ(ⱷ/2) Par exemple pour ⱷ=5%=0,05 bilatéral la table donne ƺ(ⱷ/2) = 1,96 2.2) Intervalle unilatéral ( illimité à ) droite : ?≤p On se fixe un risque α unilatéral ( confiance 1 – α ) I ( en haut d , en dessous α en exposant ) = [ f – z( indice L’intervalle pour p est alors : α) x √fx(1-f) / n ; 1 ] 2.3) Intervalle de confiance unilatéral ( illimité à ) gauche : (ⱷ/2) (ⱷ/2) (1- ⱷ) - ƺ(ⱷ/2) 0 + ƺ(ⱷ/2) Par exemple pour ⱷ=5%=0,05 bilatéral la table donne ƺ(ⱷ/2) = 1,96 Cet intervalle est donné par : I ( en haut g , en dessous α ) = [ f) / n ] 0 ; f +z(indice α) x √fx(1- Où Z ( indice α) est lu dans la table de la loi normale avec le risque α unilatéral Proba ( Z ≥ z( indice α) = α Proba ( Z ≤ z ( indice α ) = 1 – α Ces formules ne sont valables que lorsque : n ≥ 100 ( taille de l’échantillon grand ) n x f ≥ 5 ( au moins 5 caractère C dans l’échantillon ) n x ( 1 – f ) ≥ 5 ( au moins 5 caractères NON C dans l’échantillon ) Remarques : Lorsque l’une des conditions simplificatrices n’est pas satisfaites , n dispose d’autres formules pour ces intervalles de confiances Downloaded by Stephane Pouho ([email protected]) lOMoARcPSD|18427511 Si 30 ≤ n ≤ 100 N x f ≥ 5 et n x (1-f) ≥ 5 On a les formules suivantes : I ( en haut c , en bas α en exposant ) = [ A – z(indice α/2 ) x B / C /C] ; A + z(indice α/2 ) x B CHAPITRE 2 : Tests d’hypothèses sur des proportions inconnues : 1) Test de comparaison d’une proportion à un nombre donnée : On s’intéresse à la proportion p d’individus de caractère C dans une population (P) donnée p= inconnue On veut comparer cette proportion p à un nombre donné ( un standard ) p ( indice 0) On ne dispose que d’un échantillon de n individus extrait au hasard de P Dans cet échantillon on va observer une proportion f de ce caractère ( C ) 1.1 ) Test bilatéral : On veut tester l’hypothèse ( dîtes alternative ) : H1 (p ≠ p ( indice 0 ) ) è test bilatéral Contre l’hypothèse ( dîtes nulle ) : H0 : ( p = p indice 0 ) èè On se fixe un risque maximal toléré α bilatéral ( on veut une confiance de ( 1 – α ) ) On supposera dans tout ce paragraphe que n ≥ 30 ET n x f ≥ 5 ET n x ( 1-f ) ≥ 5 On calcule la valeur observée dans notre échantillon de la formule Z (si H0 était vraie ) Donc Z = F – P / √(p x (1-p ) / n) où échantillon F = proportion de C que l’on va observer dans notre p= proportion de C dans toute la population Sous ( h0 vraie) , la valeur observée de Z sur notre échantillon est alors : Z obs = f – p0 / √( p0 x (1-p0) / n ) Downloaded by Stephane Pouho ([email protected]) lOMoARcPSD|18427511 Si ( Zobs ≤ - z(α/2) ) α de se tromper ou ( Zobs ≥ + z(α/2) ) alors on peut rejeter H0 pour accepter H1 au risque Si - z(α/2) ≤ Zobs ≤ + z(α/2) ) alors on peut PAS rejeter H0 pour valider H1 !!! Exemple : Dans un pays , un journal J affirme que 42% d’individus sont favorable au président du gouvernement Pour vérifier les affirmations ce journal on réalise un sondage sur 250 individus où l’on observe 85 opinions favorables et 165 défavorables au président Ici : La population = tous les adultes de ce pays Caractère C = « favorable au président » p=proportion de C dans tous ce pays on veut comparer p à p0 = 0,42 on veut donc tester : H1 : « p ≠ 0,42 » Contre H0 : « p = 0,42 » ( ce que le journal dit ) èè on se fixe un risque de se tromper pour notre décision par exemple α = 0,05 ( bilatéral) La table loi normale donne : z(α/2 ) = 1,96 èè On est bien dans le cadre d’utilisation du test Z de la loi normal è n=250 donc ≥ 30 f= 85 / 250 = 0,34 n x f = 85 donc n x ( 1 – f ) = 165 ≥5 donc ≥ 5 èè On calcule Zobs sous H0 vraie ( rappel : Z = F – P / √P x ( 1-P) / n DONC Zobs = 0,34 – 0,42 / √(0,42 x ( 1 – 0,42) / 250) = - 2,56 On voit que Zobs = -2,56 ≤ - z(α/2 ) = -1,96 èèNotre échantillon « contredit H0 vraie » èè on peut donc rejeter H0 pour conclure que ( p ≠ 0,42 ) au risque 5 % de se tromper !! Downloaded by Stephane Pouho ([email protected]) lOMoARcPSD|18427511 Remarque : Ce test H1 ( p≠p0 ) contre H0 ( p=p0) Avec un risque α fixé Revient aussi à rejeter H0 pour accepter H1 Si p0 est en dehors de l’intervalle de confiance bilatéral I©α de p 2) Test unilatéraux : p= proportion inconnue p0 = nombre donné TEST UNILATERAL DROITE : H1 ( p ≥ p0) Contre H0 : ( p = p 0 ) On se fixe un risque unilatéral α èèdans la table on va lire une valeur z(α) èè On calcule : Zobs = f – p0 / (√p0 x ( 1-p0) / n ) è Si H0 était vraie , on “devrait” avoir Zobs ≤ z(α) Règle de décision : Si Zobs ≥ z(α) ON REJETTE H0 !! Si Zobs ≤ z(α) ON REJETTE PAS H0 TEST UNILATERAL GAUCHE : H1 ( p ≤ p0 ) Contre H0 ( p = p0) Downloaded by Stephane Pouho ([email protected]) lOMoARcPSD|18427511 Avec un risque unilatéral α de choisi, la table donne un z(α) Ce z(α) veut dire ( ici ) que si H0 était vraie noté Zobs Si Zobs < - z(α) alors on rejette H0 Si Zobs sup ou = - z(α) alros on ne rejette pas H0 On introduit les effectifs théoriques par : E1 = n x a2 pour C1 E2 = n x a2 pour C2 Ek = n x ak pour Ck Ei = n x ai = effectif théorique attendu ( expected ) dans notre échantillon si H0 était vraie = effectif qui avait le + de chance de sortir dans notre échantillon pour Ci si H0 était vraie On calcule la distance ( ou écart ) du chi-deux , notée x2 entre les effectifs réellement observées Oi et les effectifs théoriques Ei X2obs = (O1 – e1 )2 / e1 + ( O2 – e2)2 / e2 + …… ( Ok – ek)2 / ek = ∑ki=1 ( Oi – ei )2 / ei Intuitivement : Si X2obs “petit” : ce que l’on observe est proche de ( H0 ) è est conforme à H0 Si X2obs « grand » : ce que l’on observe est loin de (H0 ) è n’est pas conforme à H0 ð On sait que si N ≥ 30 ( échantillon assez grand ) Chaque ei ≥ 5 ( i = 1, 2 …. K ) Downloaded by Stephane Pouho ([email protected]) lOMoARcPSD|18427511 Alors la distance du x2 obéit à une loi des probabilités dite du chi-deux de Pearson avec V ( nu ) = k -1 degrés de libertés On se fixe un risque x toléré de se tromper ð La table du X2 donne une valeur critique xx = X2lu Si H0 était vraie , notre X2obs « devrait » être : entre 0 et X2lu Décision : Si notre X2obs > X2lu è on rejette H0 èNotre population n’est pas répartie selon ce modèle H0 au risque α de se tromper Si notre X2obs ≤ X2lu è notre échantillon est conforme à H0 èOn ne peut pas rejeter H0 Exemple : Prenons C = { C1 , C2 , C3 ,C4 } = couleur préférées pour les enfants H0 = « les enfants préfèrent de façon égales ces 4 couleurs » Ainsi , dans la population des enfants , selon ce H0 , la proportions de préférence pour ces 4 couleurs seraient : COULEUR Proportions théoriques C1 0,25 C2 0,25 C3 0,25 C4 0,25 TOTAL 1 Pour vérifier cette hypothèse , on extrait au hasard un échantillon de 200 enfants où l’on observe les effectifs : COULEUR C1 C2 C3 C4 Downloaded by Stephane Pouho ([email protected]) TOTAL lOMoARcPSD|18427511 Effectifs observées 28 64 70 38 N = 200 On calcule les effectifs théoriques attendus si H0 était vraie : Pour : C1 = e1 = 200 x 0,25 = 50 C2 = e2 = 200 x 0,25 = 50 C3 = e3 = 200 x 0,25 = 50 C4b = e4 = 200 x 0,25 = 50 On calcule la distance du X2 : X2obs = (28 – 50 )2 / 50 + (64 – 50)2 / 50 + (70 – 50)2 / 50 + (38 – 50)2 / 50 X2obs = 24,48 Degrés de le liberté : V ( nu ) = 4 – 1 = 3 ==>On veut prendre une décision avec une confiance ( minimale ) de 95% è un risque toléré α = 0,05 èLa table de X2 de Pearson donne X2lu = 7 , 815 Conclusion : Notre X2obs = 24, 48 > X2lu èNotre échantillon n’est pas conforme à ce H0 èLes 4 couleurs ne sont pas également préférée ! èNotions de répulsion , attraction et indifférence Pour chaque catégorie Ci on calcule les différences : Di = Oi - ei (effectifs observé ) - ( effectif théorique ) Downloaded by Stephane Pouho ([email protected]) lOMoARcPSD|18427511 Si di > 0 è la catégorie Ci est attractive Si di < 0 è la catégorie Ci est répulsive Si di = 0 è la catégorie Ci est indifférente Dans notre exemple : COULEUR Effectif observée Oi Effective théorique ei Différences di C1 28 C2 64 C3 70 C4 38 TOTAL N =200 50 50 50 50 N = 200 + 14 +20 - 22 - 12 0 èLes couleurs C2 et C3 sont attractives , C3 est plus attractive que C2 èLes couleurs C1 et C4 sont répulsives , C1 est plus répulsives que C4 3) TEST DU X2 pour l’homogénéité ou pour l’indépendance : Exemple : On s’intéresse à la préférence de la couleur d’ un jouet chez les enfants , parmi 4 couleurs è variable qualitative C = {C1 , C2,C3,C4} Et veut savoir si la préférence des couleurs est de même type chez les filles que chez les garçons è variable qualitative G = genre {f , g} èOn veut tester l’hypothèse : H1 : « Il y a un lien entre le choix de la couleur C et le genre G » « Les filles ( f) et les garçons (g) n’ont pas les mêmes préférences C » Contre l’hypothèse nulle H0 : « Pas de lien entre G et C » « Les filles et les garçons ont le même type de préférence » Downloaded by Stephane Pouho ([email protected]) lOMoARcPSD|18427511 H0 : Les 2 populations p1 = filles et p2 = garçons sont homogènes relativement à la répartition selon le choix de la couleur C Dans un échantillon de 500 sujets (200 filles et 300 garçons) , on observe : Couleur / Genre FILLES GARCON Total C1 C2 C3 C4 Total 60 25 85 55 30 85 28 85 113 57 160 217 200 300 N = 500 Downloaded by Stephane Pouho ([email protected])