Telechargé par ninssemondstephane

analyse-quantitative-des-donnees

publicité
lOMoARcPSD|18427511
Analyse quantitative des données
Analyse quantitative des données (Université de Paris-Cité)
StuDocu is not sponsored or endorsed by any college or university
Downloaded by Stephane Pouho ([email protected])
lOMoARcPSD|18427511
Analyse quantitative des données
Chapitre 0 : Brève introduction aux méthodes statistiques inférentielles
Résume ce que l’on a
Statistiques inductives : Vérifier que la décision marche sur toute la population et non pas seulement
l’échantillon observé
On veut savoir si une certaine hypothèse que je me pose, (par exemple ½ enfant a peur du noir, les
filles réussissent mieux que les garçons etc…) que l’on va noter H, est vrai ou non dans une
population que je vais noter P. On ne dispose que d’un échantillon extrait (au hasard) de cette
population.
P
Echantillon observé
X
H?
xxx
x
xxx
H1
X
x
x
Si H1 est vraie dans l’échantillon peut-on dire que H1 est vraie dans P ?
Ces méthodes que l’on va étudier, associe automatiquement l’hypothèse H1 que l’on veut
vérifier/valider, on lui associe toujours une hypothèse qui H0 qui contredit H1 dite « hypothèse
nulle ». On veut tester H1 contre H0, laquelle choisir ?
è On dispose d’une formule qui est dites statistique du test, laquelle est simplement une
formule. C’est une machine qui a un échantillon, qui a un échantillon va associer (calculer)
une valeur numérique.
Notons, pour l’instant, T cette formule
è Cette statistique T a été construite de telle sorte que l’on connaît sa loi des probabilités si H0
était vrai dans la population. (Je peux faire des prévisions avec des probabilités que cette
formule T donnera, par exemple, un score inférieur à 3)
On peut calculer toutes probabilités (choses) liés aux valeurs possibles de cette formule T.
è On construit une zone ou région que l’on va nommer R, c’est une zone ou région de valeurs.
(souvent un intervalle ou réuni en intervalles) Cette région a été construite de telle sorte que
si H0 était vraie dans la population P alors on aurait peu de chance que les valeurs de T
tomberaient dans la région R.
(ⱷ=Alpha psk je trouve pas le vrai signe)
Proba (T soit dans R) = ⱷ petite proba si H0 était vraie
Ou encore que T aura une grande chance de donner une valeur en dehors de cette R.
Proba(T soit en dehors de P) = 1-ⱷ =grande proba
Downloaded by Stephane Pouho ([email protected])
lOMoARcPSD|18427511
Par exemple :
Zone R
T serait ici
T ne serait pas ici
Avant même sondage, on « sait que » si H0 était vraie.
-
-
-
On établit alors la règle de décisions suivante :
On calcule T sur notre échantillon soit T observé = la valeur calculée
Si Tobs dans la zone R on rejette H0 pour accepter H au risque ⱷ de se tromper car notre
échantillon contredit/ n’est pas compatible à 100% avec H0
Si Tobs est en dehors de cette région R, on ne peut pas rejet H0 pour accepter H1 car notre
échantillon ne contredit pas H0. (Cependant ce n’est pas parce que j’ai vu que H0 n’est pas
compatible je n’ai ni la preuve qu’elle est fausse ni qu’elle est vraie)
La zone R est dite région de rejet de H0 (cad d’acceptation de H1)
Il y a deux façons de prendre la mauvaise décision en utilisant cette technique statistique
è Dire que H0 est fausse (cad dire H1 vraie) alors qu’en réalité H0 est vraie
è Dire que H0 est vraie alors qu’en réalité H0 est fausse
Décision prise/ Etat réel de H0
H0 fausse
H0 fausse
Bonne décision
H0 vraie
Mauvaise décision, risque B
(Béta) de 2ème espèce
H0 vraie
Mauvaise décision risque ⱷ de
1ère espèce
Bonne décision
ⱷ = Proba que notre test statistique nous mène à dire que H0 est fausse (valider H1) alors que H0
vraie (H1 fausse)
1-ⱷ = Proba de dire (avec ce test) que H0 est vraie et il se trouve que H0 est vraie = niveau de
confiance du test
B = Proba de dire que H0 est vraie alors qu’en réalité H0 est fausse
= Erreur ou risque de se tromper de 2ème espèce
1-B = Proba de dire que H0 fausse lorsque H0 est fausse réellement fausse
Seul l’erreur ⱷ pourra être calculée et parfaitement contrôlée dans tout ce qu’on va faire.
L’erreur B est très souvent difficile (voire impossible) à calculer même si il existe des techniques pour
l’estimer ou le majorer (ceci est dû à la structure souvent vague de H1)
Pour retenir la notion de ces erreurs ⱷ et B
Supposons que pour déceler la présence d’une certaine maladie M, on dispose d’un test médical T
qui n’est pas efficace à 100% (comme la majorité des tests médicaux)
Ou :
-
α= Proba que notre test statistique nous mène à dire que H0 est fausse ( valider H1 )
alors que H0 est vraie ( H1 fausse ) = risque de 1ère espèce
1 – α = Proba de dire ( avec ce test ) que H0 est vraie et il se trouve que H0 est vraie =
niveau de confiance du test
β= Proba de dire que H0 est vraie alors qu’en réalité H0 est fausse = erreur ou risque
de 2nd espèce
Downloaded by Stephane Pouho ([email protected])
lOMoARcPSD|18427511
-
1 – β = Proba de dire que H0 est fausse lorsque H0 est réellement fausse, seule
l’erreur α pourra être calculée est parfaitement contrôlée. L’erreur B est très souvent
difficile (voir impossible ) à calculer = la puissance du test utilisé
-
Même s’il existe des techniques pour l’estimer ou le majorer (ceci est dû à la
structure souvent vague de H1 )
Ce test T a été élaboré de telle sorte que :
-
Le T appliqué à 100 vrais atteint par M (maladie), ce test est positif dans 95% des cas. 5% lui
échappe.
Le T appliqué testé sur 100 vrais non atteint par M, ce test est négatif sur 90% de cas. 10%
Résultat T/ Etat
Positif T+
Négatif TTotal
M présente
95
5
100
Non M
10
90
100
Notons H1 = présence
de M
H0 = pas de M
Calculer le ⱷ, (1- ⱷ)
Le B et le (1-B) pour ce
test T
ⱷ = Proba (dire qu’un patient est malade alors qu’en réalité il n’est pas malade)
= Proba de lire T+ sur un patient qui n’est pas malade.
------------------Ici, dans cet exemple
H1 « Présence de la maladie M » H0 : « Absence de Maladie M »
ⱷ Proba que mon test dise que M est présent alors qu’en réalité M est absent (M-)
ⱷ = 10/100 = 0,10 (10%) = risque de 1ère espèce pour ce test T
1- ⱷ = 90/100 = proba que T dise Absence M lorsque M est réellement absente (M-)
= niveau de confiance accordé à ce test T
B= Proba que le test dise M absente (T-) alors qu’en réalité M est présente (M+)
= 5/100 = 0,05 (5%)
= Risque de 2ème espèce
(1-B) = Proba que T dise présence M càd T+ lorsque M est présente M+
è Puissance de ce test. = 95/100 = 0,95 (95%)
Chapitre 1 : Estimations et intervalles de confiance pour des pourcentages ( proportions)
inconnues :
1) Estimation ponctuelle :
Downloaded by Stephane Pouho ([email protected])
lOMoARcPSD|18427511
On s’intéresse à un certain caractère C dans une population P donnée
On s’intéresse donc à une variable qualitative ( ou nominale ) à 2 modalités : A = { C ; non C }
On notera : p = proportion de C dans P
p= nombres d’individus de (P) qui ont C / nombre total d’individus dans (P)
( 1-p) = proportion de non C dans (P)
La proportion p (et donc (1-p) aussi) est inconnue. On souhaite ainsi avoir des « informations » sur
cette proportion inconnue p
On ne dispose que d’un échantillon …. ?
On observe dans cet échantillon :
-
K sujet qui ont le caractère C
N-k sujets n’ont pas le caractère C
On notera
F=proportion de C dans notre échantillon
F=k/n
(1-f) = prop. De nm C dans l’échantillon
(1-f) = n-k/n
Echantillon
KC
En prop f
n-k non C en pop (1-f)
1/3 = 0,33
On démontre qu’une « bonne façon » d’estimer la valeur exacte de la proportion p inconnue est
d’utiliser la proportion f observée dans notre échantillon
On dira que f = une estimation ponctuelle de p
/!\ Lorsqu’on dit que f est une « bonne estimation » de p ça ne veut pas dire que forcement f est une
« bonne approximation » (distingué le sens de approximation et estimation)
On ne sait pas, pour l’instant, si f est proche de p, ou si f est très éloignée de p !
« Bonne estimation » veut dire simplement que la proportion f observée dans l’échantillon est la
valeur f observée dans l’échantillon est c’est avec cette valeur qu’on aura le plus de chance de
s’approcher au mieux de p.
En effet… (si l’on imagine avant sondage)
Si on note F la proportion du caractère C dans un échantillon de taille n que le hasard va nous donner
Downloaded by Stephane Pouho ([email protected])
lOMoARcPSD|18427511
F est une variable aléatoire qui à chaque échantillon de taille n associe la proportion f des caractères
C « dans cet échantillon »
Tous les échantillons de taille n que peut donner le hasard
F
E1
à f1
f1=prop de C dans E1
E2
à f2
f2= prop de C dans E2
E3
à f3
On démontre qu’il y aurait beaucoup plus de ces f1 f2 qui seraient « proches » de p que de f1 f2 qui
seraient éloignées de p
Proba que f sera proche de p est assez grande et cette proba augmente avec la taille n l’échantillon.
On démontre par exemple que :
Proba (-1,96x1/2√n ≤ F-p < + 1,96/2√n) ≥ 0,95%
Ainsi si n=400 à Proba (-1,96/2√400 ≤ + 1,96/2√400) ≥ 0,95%
On est sûr avec plus de 95% de certitude que l’écart entre F et p ne dépasse pas 1,96/2√400 ≈ 0,049
0,049
0
+0,049
F-p
è Pour un échantillon de taille n=40.00
0,055
0
+0,015
F-p
è Avec un échantillon de 4000 on aura plus de 95% de chance d’estimer la valeur de p pour un
f proche de p à 0,015 près
Les intervalles de confiance permettent de lier l’écart probable (f-p) entre la proportion f de C dans
un échantillon que le hasard va nous donner et p avec la probabilité de cet écart
2) Intervalles de confiance pour une proportion inconnue
(P) = Population
Echantillon f=prop de C dans cet échantillon
C (p= ?)
Downloaded by Stephane Pouho ([email protected])
lOMoARcPSD|18427511
F=proportion de C
Dans un échantillon de taille n que l’on va sonder
F= proportion de C dans l’échantillon sondé (précis)
Ces intervalles de confiance sont basés sur le fait que l’on connait sous certaines conditions la loi des
probabilités de l’écart (dit réduit, normalisé, ou standardisé) que l’on notera ici Ƶ
Ƶ = F-p/√px(1-p)/n ou Ƶ =
($%&)
(&)(*%&)/,
Où n=taille de l’échantillon que l’on va sonder
Cette écart réduit Ƶ obéit à une loi des probabilités dite loi normale centrée réduite ou encore loi de
Laplace-Gauss à on sait calculer toute proba liée à cet écart Ƶ
2.1) Intervalle centré (bilatéral) pour la proportion p
On veut donner 2 bornes (A et B) telles que l’intervalle [A,B] ait une grande probabilité (1- ⱷ) pour
contenir p
Donc p sera dans l’intervalle [ A , B ] avec une proba de ( 1 – α )
Quelle est la valeur de A ? de B ?
P sera là avec une proba de (1-ⱷ)
A
A= ?
B
B= ?
Dans le cas de « grands » échantillons et si p n’est ni trop petite ni trop grande en pratique lorsque :
N ≥ 100 échantillon de taille ≥100
nxf ≥ 5 au moins 5 caractères C dans l’échantillon
nx(1-f) ≥ 5 au moins 5 caractères non C dans l’échantillon
On a une formule simplifiée pour cette intervalle qui est donnée par
I©ⱷ=[f-ƺ(ⱷ/2)x√fx(1-f)/n ; f+ ƺ(ⱷ/2)x √f-1xf/n]
(ⱷ/2) à indice
C’est l’intervalle de confiance centrée de niveau (1- ⱷ) ou de seuil (risque x) où ƺ(ⱷ/2) est une valeur
lue dans la table de la loi normale avec le risque bilatéral ⱷ
Downloaded by Stephane Pouho ([email protected])
lOMoARcPSD|18427511
(ⱷ/2)
(ⱷ/2)
(1- ⱷ)
- ƺ(ⱷ/2)
0
+ ƺ(ⱷ/2)
Par exemple pour ⱷ=5%=0,05 bilatéral la table donne ƺ(ⱷ/2) = 1,96
2.2) Intervalle unilatéral ( illimité à ) droite :
?≤p
On se fixe un risque α unilatéral ( confiance 1 – α )
I ( en haut d , en dessous α en exposant ) = [ f – z( indice
L’intervalle pour p est alors :
α) x √fx(1-f) / n ; 1 ]
2.3) Intervalle de confiance unilatéral ( illimité à ) gauche :
(ⱷ/2)
(ⱷ/2)
(1- ⱷ)
- ƺ(ⱷ/2)
0
+ ƺ(ⱷ/2)
Par exemple pour ⱷ=5%=0,05 bilatéral la table donne ƺ(ⱷ/2) = 1,96
Cet intervalle est donné par : I ( en haut g , en dessous α ) = [
f) / n ]
0
; f +z(indice α) x √fx(1-
Où Z ( indice α) est lu dans la table de la loi normale avec le risque α unilatéral
Proba ( Z ≥ z( indice α) = α
Proba ( Z ≤ z ( indice α ) = 1 – α
Ces formules ne sont valables que lorsque :
n ≥ 100 ( taille de l’échantillon grand )
n x f ≥ 5 ( au moins 5 caractère C dans l’échantillon )
n x ( 1 – f ) ≥ 5 ( au moins 5 caractères NON C dans l’échantillon )
Remarques : Lorsque l’une des conditions simplificatrices n’est pas satisfaites , n dispose
d’autres formules pour ces intervalles de confiances
Downloaded by Stephane Pouho ([email protected])
lOMoARcPSD|18427511
Si 30 ≤ n ≤ 100
N x f ≥ 5 et n x (1-f) ≥ 5
On a les formules suivantes :
I ( en haut c , en bas α en exposant ) = [ A – z(indice α/2 ) x B / C
/C]
;
A + z(indice α/2 ) x B
CHAPITRE 2 : Tests d’hypothèses sur des proportions inconnues :
1) Test de comparaison d’une proportion à un nombre donnée :
On s’intéresse à la proportion p d’individus de caractère C dans une population (P) donnée
p= inconnue
On veut comparer cette proportion p à un nombre donné ( un standard ) p ( indice 0)
On ne dispose que d’un échantillon de n individus extrait au hasard de P
Dans cet échantillon on va observer une proportion f de ce caractère ( C )
1.1 ) Test bilatéral :
On veut tester l’hypothèse ( dîtes alternative ) : H1 (p ≠ p ( indice 0 ) ) è test bilatéral
Contre l’hypothèse ( dîtes nulle ) : H0 : ( p = p indice 0 )
èè On se fixe un risque maximal toléré α bilatéral ( on veut une confiance de ( 1 – α ) )
On supposera dans tout ce paragraphe que n ≥ 30 ET n x f ≥ 5 ET n x ( 1-f ) ≥ 5
On calcule la valeur observée dans notre échantillon de la formule Z (si H0 était vraie )
Donc Z = F – P / √(p x (1-p ) / n) où
échantillon
F = proportion de C que l’on va observer dans notre
p= proportion de C dans toute la population
Sous ( h0 vraie) , la valeur observée de Z sur notre échantillon est alors :
Z obs =
f – p0 / √( p0 x (1-p0) / n )
Downloaded by Stephane Pouho ([email protected])
lOMoARcPSD|18427511
Si ( Zobs ≤ - z(α/2) )
α de se tromper
ou ( Zobs ≥ + z(α/2) ) alors on peut rejeter H0 pour accepter H1 au risque
Si - z(α/2) ≤ Zobs ≤ + z(α/2) ) alors on peut PAS rejeter H0 pour valider H1 !!!
Exemple :
Dans un pays , un journal J affirme que 42% d’individus sont favorable au président du
gouvernement
Pour vérifier les affirmations ce journal on réalise un sondage sur 250 individus où l’on
observe 85 opinions favorables et 165 défavorables au président
Ici : La population = tous les adultes de ce pays
Caractère C = « favorable au président »
p=proportion de C dans tous ce pays
on veut comparer p à p0 = 0,42
on veut donc tester :
H1 : « p ≠ 0,42 »
Contre H0 : « p = 0,42 » ( ce que le journal dit )
èè on se fixe un risque de se tromper pour notre décision par exemple α = 0,05 ( bilatéral)
La table loi normale donne : z(α/2 ) = 1,96
èè On est bien dans le cadre d’utilisation du test Z de la loi normal è
n=250
donc ≥ 30
f= 85 / 250 = 0,34
n x f = 85
donc
n x ( 1 – f ) = 165
≥5
donc ≥ 5
èè On calcule Zobs sous H0 vraie ( rappel : Z = F – P / √P x ( 1-P) / n
DONC
Zobs = 0,34 – 0,42 / √(0,42 x ( 1 – 0,42) / 250) = - 2,56
On voit que Zobs = -2,56 ≤ - z(α/2 ) = -1,96
èèNotre échantillon « contredit H0 vraie »
èè on peut donc rejeter H0 pour conclure que ( p ≠ 0,42 ) au risque 5 % de se tromper !!
Downloaded by Stephane Pouho ([email protected])
lOMoARcPSD|18427511
Remarque : Ce test H1 ( p≠p0 ) contre H0 ( p=p0)
Avec un risque α fixé
Revient aussi à rejeter H0 pour accepter H1
Si p0 est en dehors de l’intervalle de confiance bilatéral I©α de p
2) Test unilatéraux :
p= proportion inconnue
p0 = nombre donné
TEST UNILATERAL DROITE :
H1 ( p ≥ p0)
Contre
H0 : ( p = p 0 )
On se fixe un risque unilatéral α
èèdans la table on va lire une valeur z(α)
èè On calcule :
Zobs = f – p0 / (√p0 x ( 1-p0) / n )
è Si H0 était vraie , on “devrait” avoir Zobs ≤ z(α)
Règle de décision :
Si Zobs ≥ z(α) ON REJETTE H0 !!
Si Zobs ≤ z(α) ON REJETTE PAS H0
TEST UNILATERAL GAUCHE :
H1 ( p ≤ p0 )
Contre H0 ( p = p0)
Downloaded by Stephane Pouho ([email protected])
lOMoARcPSD|18427511
Avec un risque unilatéral α de choisi, la table donne un z(α)
Ce z(α) veut dire ( ici ) que si H0 était vraie noté Zobs
Si Zobs < - z(α) alors on rejette H0
Si Zobs sup ou = - z(α) alros on ne rejette pas H0
On introduit les effectifs théoriques par :
E1 = n x a2 pour C1
E2 = n x a2
pour C2
Ek = n x ak pour Ck
Ei = n x ai = effectif théorique attendu ( expected ) dans notre échantillon si H0 était vraie =
effectif qui avait le + de chance de sortir dans notre échantillon pour Ci si H0 était vraie
On calcule la distance ( ou écart ) du chi-deux , notée x2 entre les effectifs réellement
observées Oi et les effectifs théoriques Ei
X2obs = (O1 – e1 )2 / e1 +
( O2 – e2)2 / e2 + …… ( Ok – ek)2 / ek
= ∑ki=1 ( Oi – ei )2 / ei
Intuitivement :
Si X2obs
“petit” : ce que l’on observe est proche de ( H0 ) è est conforme à H0
Si X2obs « grand » : ce que l’on observe est loin de (H0 ) è n’est pas conforme à H0
ð On sait que si
N ≥ 30 ( échantillon assez grand )
Chaque ei ≥ 5 ( i = 1, 2 …. K )
Downloaded by Stephane Pouho ([email protected])
lOMoARcPSD|18427511
Alors la distance du x2 obéit à une loi des probabilités dite du chi-deux de Pearson avec
V ( nu ) = k -1 degrés de libertés
On se fixe un risque x toléré de se tromper
ð La table du X2 donne une valeur critique xx = X2lu
Si H0 était vraie , notre X2obs « devrait » être :
entre 0 et X2lu
Décision :
Si notre X2obs > X2lu è on rejette H0
èNotre population n’est pas répartie selon ce modèle H0 au risque α
de se tromper
Si notre X2obs ≤ X2lu è notre échantillon est conforme à H0
èOn ne peut pas rejeter H0
Exemple :
Prenons C = { C1 , C2 , C3 ,C4 } = couleur préférées pour les enfants
H0 = « les enfants préfèrent de façon égales ces 4 couleurs »
Ainsi , dans la population des enfants , selon ce H0 , la proportions de préférence pour ces 4
couleurs seraient :
COULEUR
Proportions
théoriques
C1
0,25
C2
0,25
C3
0,25
C4
0,25
TOTAL
1
Pour vérifier cette hypothèse , on extrait au hasard un échantillon de 200 enfants où l’on
observe les effectifs :
COULEUR
C1
C2
C3
C4
Downloaded by Stephane Pouho ([email protected])
TOTAL
lOMoARcPSD|18427511
Effectifs
observées
28
64
70
38
N = 200
On calcule les effectifs théoriques attendus si H0 était vraie :
Pour : C1 =
e1 = 200 x 0,25 = 50
C2 =
e2 = 200 x 0,25 = 50
C3 =
e3 = 200 x 0,25 =
50
C4b = e4 = 200 x 0,25 = 50
On calcule la distance du X2 :
X2obs = (28 – 50 )2 / 50 +
(64 – 50)2 / 50
+
(70 – 50)2 / 50
+
(38 – 50)2 / 50
X2obs = 24,48
Degrés de le liberté
:
V ( nu ) = 4 – 1 = 3
==>On veut prendre une décision avec une confiance ( minimale ) de 95% è un risque
toléré α = 0,05
èLa table de X2 de Pearson donne X2lu = 7 , 815
Conclusion :
Notre X2obs = 24, 48 > X2lu
èNotre échantillon n’est pas conforme à ce H0
èLes 4 couleurs ne sont pas également préférée !
èNotions de répulsion , attraction et indifférence
Pour chaque catégorie Ci on calcule les différences :
Di = Oi - ei
(effectifs observé ) - ( effectif théorique )
Downloaded by Stephane Pouho ([email protected])
lOMoARcPSD|18427511
Si di > 0 è la catégorie Ci est attractive
Si di < 0 è la catégorie Ci est répulsive
Si di = 0 è la catégorie Ci est indifférente
Dans notre exemple :
COULEUR
Effectif
observée Oi
Effective
théorique ei
Différences di
C1
28
C2
64
C3
70
C4
38
TOTAL
N =200
50
50
50
50
N = 200
+ 14
+20
-
22
-
12
0
èLes couleurs C2 et C3 sont attractives , C3 est plus attractive que C2
èLes couleurs C1 et C4 sont répulsives , C1 est plus répulsives que C4
3) TEST DU X2 pour l’homogénéité ou pour l’indépendance :
Exemple :
On s’intéresse à la préférence de la couleur d’ un jouet chez les enfants , parmi 4 couleurs è variable
qualitative C = {C1 , C2,C3,C4}
Et veut savoir si la préférence des couleurs est de même type chez les filles que chez les garçons è
variable qualitative G = genre {f , g}
èOn veut tester l’hypothèse :
H1 : « Il y a un lien entre le choix de la couleur C et le genre G »
« Les filles ( f) et les garçons (g) n’ont pas les mêmes préférences C »
Contre l’hypothèse nulle
H0 : « Pas de lien entre G et C »
« Les filles et les garçons ont le même type de préférence »
Downloaded by Stephane Pouho ([email protected])
lOMoARcPSD|18427511
H0 : Les 2 populations p1 = filles et p2 = garçons sont homogènes relativement à la répartition selon
le choix de la couleur C
Dans un échantillon de 500 sujets (200 filles et 300 garçons) , on observe :
Couleur /
Genre
FILLES
GARCON
Total
C1
C2
C3
C4
Total
60
25
85
55
30
85
28
85
113
57
160
217
200
300
N = 500
Downloaded by Stephane Pouho ([email protected])
Téléchargement