Document

publicité
PSY C3
Eléments de statistique
Responsables :
Amandine Penel & Fabrice Guillaume
Maîtres de conférence en Psychologie Cognitive
Adresse internet pour trouver les cours :
Rubrique “personnel” sur le site du Laboratoire de Psychologie Cognitive
(en bas de page)
Groupes de TD :
Vous devez rester dans votre groupe :
alphabet
groupe
horaire
salle
MAR a PAZ
B2
lundi 8h-10h
A434
PBA a SDZ
B3
lundi 16h-18h
C140
BRA a DAL
A2
mercredi 12h-14h
A434
AAA a BQA
A1
mercredi 14h-16h
C113
FVA a JZZ
A4
mercredi 16h-18h
S1
DAM a FUZ
A3
jeudi 8h-10h
F1
SEA a ZZZ
B4
jeudi 10h-12h
F1
KAA a MAC
B1
jeudi 16h-18h
S2
Exceptions : salariés,
handicapés, redoublants
qui suivent la 1ère et 2ème
années en parallèle.
Avoir une attestation.
Sinon, il faut trouver un
autre étudiant qui veut bien
faire l’échange (constat
signé).
Statistiques descriptives II
1. Variance et écart-type
2. La distribution normale (gaussienne)
3. De l’échantillon à la population
4. Scores z
5. Table de z
6. Intervalle de confiance
1. Variance et écart-type
⇒ Notion de variabilité = dispersion
Histogramme en colonnes → Distribution : continue
Effectifs
m
Variance (rappel) :
Notée ! 2 pour une population, s 2 pour un échantillon.
s2 =
!(X " X )
N
2
=
!X
2
"
(! X ) 2
On trouve aussi :
N
N
s
2
# (X " X)
=
N "1
2
=
#X
2
"
(# X ) 2
N
N "1
(petits échantillons)
Unité = celle de X au carré.
!
Écart-type :
Indice de dispersion dans la même unité que les données.
ecart!t y pe = variance
Noté ! pour une population, s pour un échantillon.
Écart-type : “écart typique des données par rapport à la
moyenne”
s
Note la
+ basse
11,8
Note la
+ haute
s
Note la
+ basse
11,8
Note la
+ haute
⇒ Notion de variabilité = dispersion
Plus s est grand et plus
la courbe est évasée,
plus il est petit, plus elle
est mince
s
11,8
Note
la +
basse
14
Note
la +
haute
s
Note
la +
basse
11,814
Note
la +
haute
2. La distribution normale
Dite aussi gaussienne.
Un type particulier de courbe en cloche, symétrique, dans
laquelle la moitié des observations sont en-dessous de la
moyenne, l’autre moitié au-dessus.
Mode
Médiane
Moyenne
Très souvent, les phénomènes naturels suivent une telle
distribution dite “normale”.
C’est aussi le cas des données en psychologie.
La loi normale de Gauss ou loi des « erreurs »
La loi normale repose sur l'estimation de deux paramètres de la population statistique:
• la moyenne µ
• l'écart type σ
La courbe (appelée "fonction de densité de probabilité") a la formule suivante:
π: pie (3,14159…)
e : base des logarithmes
(2,71828…)
La probabilité qu'une variable x prenne une valeur plus petite ou plus grande
qu'une certaine valeur xi s'obtient en calculant l'aire sous la courbe:
Nombreux phénomènes biologiques et physiques peuvent être représentés
par cette courbe (on trouve la courbe de Gauss et ses dérivés dans tous les
carnets de santé)
Exemple : Jouons à pile ou face
50 / 50
45 / 55
55 / 45
Nombre Pile/Face
40 / 60
60 / 40
(sur 100 jets)
10 / 90
Jouer 100 fois à pile ou face, c’est accumuler 100 petits hasards indépendants
Relation distribution normale / écart-type :
On peut mesurer l’écart d’une donnée à la moyenne en unités
d’écart-type.
Ex. : m = 56, s = 4
Score X = 60 = 1 écart-type au-dessus de la moyenne.
Score X = 64 = 2 écart-types au-dessus de la moyenne.
Si la distribution est normale, on connaît exactement le % de
scores compris entre m et m + s, etc. :
S=4
score = 64 élevé
S = 10
score = 64 - élevé
3. De l’échantillon à la population
Exemple : L’inférence chez l’épicier
L’inférence est nécessaire parce que la plupart du
temps nous étudions la population à partir d’un
échantillon.
Cette estimation s’accompagne d’erreurs
Le rôle de la statistique est de mesurer ce degré
d’erreur
Statistique : science des probabilités
NB : La validité de l’inférence dépend de la représentativité de l’échantillon
Une caractéristique d’une population (µ, σ)
s’appelle un paramètre
On peut estimer un paramètre à partir des données
de l’échantillon (statistique)
4. Scores z
Intérêt :
En calculant la moyenne, la variance et l’écart-type d’une
distribution, on peut situer un score dans cette distribution.
Les scores z permettent de comparer des scores issus de
distributions différentes (m et s différents)
Ex. :
Test 1, score 62, m = 57,11 ; s = 2,47
Test 2, score 67, m = 62,46 ; s = 3,21
Test 3, score 76, m = 68,93 ; s = 4,06
On ne peut pas comparer 62, 67 et 76 directement car issus
de distributions différentes :
Ce serait comme si on comparaît des données obtenues sur des
échelles différentes, des enfants de 4 ans et des enfants de 10 ans…
X !m
z=
s
Score z : on soustrait la moyenne, et
on divise par l’écart-type
Test 1, score 62, m = 57,11 ; s = 2,47
62 ! 57,11
z (test1) =
= 1,98
2,47
Test 2, score 67, m = 62,46 ; s = 3,21
z (test2) = 1,41
Test 3, score 76, m = 68,93 ; s = 4,06
z (test3) = 1,74
Loi normale centrée réduite :
σ=1
m=0
On peut comparer ces scores z entre eux (même échelle),
test1 mieux réussi que test3 que test2 (1,98 > 1,74 > 1,41).
Notez que la comparaison (erronée) des scores bruts aurait
donné test3 (76)> test2 (67)> test1(62).
Relation entre un score z et la distribution normale :
X !m
z=
s
Donne l’écart à la moyenne, en unités
d’écart-type.
z = 2 signifie que le score est 2 s au-dessus de m (élevé).
z = -1 signifie que le score est 1 s en-dessous de m.
⇒ on peut en déduire le % de scores en-dessous & audessus.
5. Table de z
(appelée aussi table de la distribution normale).
Indique pour tout z le % de scores compris sous z et entre ce z
et la moyenne.
50% des
scores endessous de
la moyenne
47,61% des scores
entre z=1,98 et la
moyenne
2,39% des
scores audessus de z
On en déduit :
- le % de scores en-dessous = 50 + 47,61 = 97,61%
- le % de scores au-dessus = 50 - 47,61 = 2,39%
Si z est négatif : même % que si z est positif
34,13% des scores
entre z=-1 et la
moyenne
z = -1
z = +1
On en déduit :
- le % de scores en-dessous = 50 – 34,13 = 15,87%
- le % de scores au-dessus = 34,13 + 50 = 84,13%
Table du z
Aires de la distribution normale : % d’erreur bilatérale
Exemple: z=1.96
Z=
.10
z=1.96 correspond à 5% soit…
.01 (précision de 1%)
Probabilité unilatérale versus bilatérale
Probabilité bilatérale
Probabilité unilatérale
0,95 (95%)
0,975 (97,5%)
0,025 (2,5%)
0,025 (2,5%)
Z = 1,96
Z1 = - 1,96
Z2 = 1,96
Probabilité unilatérale :
Probabilité bilatérale :
0,025 (2,5%)
0,025 + 0,025 = 0,05 (5%)
Attention : la table que vous aurez en TD représente les probabilités bilatérales
Marche dans l’autre sens : si on connaît le % de scores au-dessus ou endessous d’une mesure, on peut en déduire le z correspondant
Exemple : Quel est la valeur de z pour qu’il y ait seulement 1% des scores
au-dessus ?
Attention : 1% des scores unilatérale signifie 2% bilatérale
P = 0,98
P = 0,99
P = 0,01
P = 0,01
P = 0,01
On recherche donc dans la table bilatérale la probabilité 0,02
Si z non listé (ex. : z = 2,825),
Pour z=2,820 Pour z=2,83
On prend les deux valeurs qui l’encadrent et on fait la
moyenne :
0,0048 +0,00465
%=
= 0,004725soit(0,4725%)
2
!
Raymond va à la pêche
Le beau-frère de Raymond a pêché un brochet de 538,9 mm dans le lac. En admettant
que la longueur des brochets de ce lac suit une loi normale N(467 mm, 47,9 mm), quelle
est la probabilité que Raymond pêche un brochet plus long que celui de son beaufrère?
Traduction: P (x > 538,9mm) = ?
Transformons 538,9 mm en z:
Donc: P (x > 538,9 mm) = P (z > 1,501):
P (z > 1,501)
Table du z : probabilité bilatérale associée à z=1,501
Exemple: z=1.501
.01 (précision de 1%)
Z=
.10
z=1.501 correspond à 13,4% de façon bilatérale donc 13,4 / 2 % de façon
unilatérale soit 6,7 %
P(z > 1,501) = 1 – P(z < 1,501) = 0,067
La probabilité que Raymond pêche un brochet plus long que celui de
son beau-frère est donc de 0,067 (soit 6,7 chance sur 100).
6. Intervalle de confiance
On cherche à estimer un paramètre (ex., µ)
à partir de plusieurs échantillons, µM
= meilleure estimation possible de µ.
Cependant, erreur possible (erreur standard de la
moyenne) : σM
Exemples d’intervalles de confiance dans notre vie
quotidienne : température, le prix d’une voiture, etc.
Exemple d’une distribution de scores de satisfaction au
travail dont la moyenne est 50 (des milliers de travailleurs et
de travailleuses ont passé cette épreuve)
Si vous faites passer l’épreuve à un petit groupe de
travailleurs
Probabilité que la moyenne se situe à l’intérieur des intervalles :
Faible
Élevée
Valeurs d’un échantillon ≠ Valeurs population
On va estimer un intervalle qui contient µ (paramètre) :
Au lieu de dire, µ = µM,
(ou µ : paramètre de la population et µM paramètre de l’échantillon)
on dit : minimum < µ < maximum
Si l’intervalle est attaché à un pourcentage (95% ou 99%),
on parle d’intervalle de confiance à 95% (ou 99%)
[minimum ; maximum] qui contient µ avec 5% (ou 1%)
d’erreur possible.
Supposons qu’une distribution de moyennes a les
caractéristiques suivantes :
µM = 75 ; σM = 5
On sait que :
68,26% des scores
entre z=-1 et z=1
z=1
Dans la table
p=31,74
z = -1 µM
- 1 σM
z = +1
+ 1 σM
Donc 68,26% des scores sont entre µM +/- 1 écarttype : [75-5 ; 75+5]
L’intervalle [70 ; 80] a 68,26% de chance de contenir µ
C’est l’intervalle de confiance pour µ à 68,26%.
On s’intéresse en général à des intervalles de confiance pour µ
à 95% (ou 99%) :
La logique est la même.
Il faut déterminer z pour 95%
Consultation table de z :
z = 1,96
95
95%
!
2,5%
2,5%
z = -1,96
z = +1,96
donc intervalle de confiance à 95% :
µM ± z95 " # M
[75 "1,96 # 5 ; 75 + 1,96 # 5] = [65,2 ; 84,8]
Raymond retourne à la pêche!
Si la longueur des brochets du lac suit une loi normale N(moyenne: 467 mm, écarttype: 47,9 mm), entre quelles valeurs se situent 95 % des longueurs des brochets
de ce lac ?
1) Traduction: P (x1 < x < x2) = 0,95
2) Transformons x1 et x2 en z: P (z1 < z < z2) = 0,95
Le problème est donc inverse du précédent: nous avons la probabilité mais pas z
z2 = 1,96
z1 = –1,96 par symétrie
Retransformons z1 et z2 en x par l'opération inverse d'un « centrage-réduction »,
on multiplie z par l'écart type de la variable, puis on ajoute la moyenne au résultat :
X !m
z=
s
X "m=z#s
X = z" s+ m
x1 = (z1 × 47,9 mm) + 467 mm = (–1,96 × 47,9 mm) + 467 mm = 373,12 mm
x2 = (z2 × 47,9 mm) + 467 mm = (1,96 × 47,9 mm) + 467 mm = 560,88 mm
!
Ainsi, 95% des brochets du lac ont une longueur comprise entre
373,12 mm et 560,88 mm. L’intervalle de confiance est : [373,12;560,88].
!
Intervalle de confiance à 95% :
µM ± z95 " # M
Signifie que cet intervalle comprend µ
avec 5% d’erreur
⇒ plus d’information que µ ! µ M = 75
[65,2 ; 84,8]
!
!
Intervalle de confiance à 99% :
µM ± z99 " # M
!
!
z99 = 2,57
Intervalle de confiance à 99% :
µM ± z99 " # M
z99 = 2,57
[75 " 2,57 # 5 ; 75 + 2,57 # 5] = [62,2 ; 87,9]
!
Cet intervalle comprend
!
µ avec 1% d’erreur
!
99%
0,5%
0,5%
z = -2,57
z = +2,57
Téléchargement