PSY C3 Eléments de statistique Responsables : Amandine Penel & Fabrice Guillaume Maîtres de conférence en Psychologie Cognitive Adresse internet pour trouver les cours : Rubrique “personnel” sur le site du Laboratoire de Psychologie Cognitive (en bas de page) Groupes de TD : Vous devez rester dans votre groupe : alphabet groupe horaire salle MAR a PAZ B2 lundi 8h-10h A434 PBA a SDZ B3 lundi 16h-18h C140 BRA a DAL A2 mercredi 12h-14h A434 AAA a BQA A1 mercredi 14h-16h C113 FVA a JZZ A4 mercredi 16h-18h S1 DAM a FUZ A3 jeudi 8h-10h F1 SEA a ZZZ B4 jeudi 10h-12h F1 KAA a MAC B1 jeudi 16h-18h S2 Exceptions : salariés, handicapés, redoublants qui suivent la 1ère et 2ème années en parallèle. Avoir une attestation. Sinon, il faut trouver un autre étudiant qui veut bien faire l’échange (constat signé). Statistiques descriptives II 1. Variance et écart-type 2. La distribution normale (gaussienne) 3. De l’échantillon à la population 4. Scores z 5. Table de z 6. Intervalle de confiance 1. Variance et écart-type ⇒ Notion de variabilité = dispersion Histogramme en colonnes → Distribution : continue Effectifs m Variance (rappel) : Notée ! 2 pour une population, s 2 pour un échantillon. s2 = !(X " X ) N 2 = !X 2 " (! X ) 2 On trouve aussi : N N s 2 # (X " X) = N "1 2 = #X 2 " (# X ) 2 N N "1 (petits échantillons) Unité = celle de X au carré. ! Écart-type : Indice de dispersion dans la même unité que les données. ecart!t y pe = variance Noté ! pour une population, s pour un échantillon. Écart-type : “écart typique des données par rapport à la moyenne” s Note la + basse 11,8 Note la + haute s Note la + basse 11,8 Note la + haute ⇒ Notion de variabilité = dispersion Plus s est grand et plus la courbe est évasée, plus il est petit, plus elle est mince s 11,8 Note la + basse 14 Note la + haute s Note la + basse 11,814 Note la + haute 2. La distribution normale Dite aussi gaussienne. Un type particulier de courbe en cloche, symétrique, dans laquelle la moitié des observations sont en-dessous de la moyenne, l’autre moitié au-dessus. Mode Médiane Moyenne Très souvent, les phénomènes naturels suivent une telle distribution dite “normale”. C’est aussi le cas des données en psychologie. La loi normale de Gauss ou loi des « erreurs » La loi normale repose sur l'estimation de deux paramètres de la population statistique: • la moyenne µ • l'écart type σ La courbe (appelée "fonction de densité de probabilité") a la formule suivante: π: pie (3,14159…) e : base des logarithmes (2,71828…) La probabilité qu'une variable x prenne une valeur plus petite ou plus grande qu'une certaine valeur xi s'obtient en calculant l'aire sous la courbe: Nombreux phénomènes biologiques et physiques peuvent être représentés par cette courbe (on trouve la courbe de Gauss et ses dérivés dans tous les carnets de santé) Exemple : Jouons à pile ou face 50 / 50 45 / 55 55 / 45 Nombre Pile/Face 40 / 60 60 / 40 (sur 100 jets) 10 / 90 Jouer 100 fois à pile ou face, c’est accumuler 100 petits hasards indépendants Relation distribution normale / écart-type : On peut mesurer l’écart d’une donnée à la moyenne en unités d’écart-type. Ex. : m = 56, s = 4 Score X = 60 = 1 écart-type au-dessus de la moyenne. Score X = 64 = 2 écart-types au-dessus de la moyenne. Si la distribution est normale, on connaît exactement le % de scores compris entre m et m + s, etc. : S=4 score = 64 élevé S = 10 score = 64 - élevé 3. De l’échantillon à la population Exemple : L’inférence chez l’épicier L’inférence est nécessaire parce que la plupart du temps nous étudions la population à partir d’un échantillon. Cette estimation s’accompagne d’erreurs Le rôle de la statistique est de mesurer ce degré d’erreur Statistique : science des probabilités NB : La validité de l’inférence dépend de la représentativité de l’échantillon Une caractéristique d’une population (µ, σ) s’appelle un paramètre On peut estimer un paramètre à partir des données de l’échantillon (statistique) 4. Scores z Intérêt : En calculant la moyenne, la variance et l’écart-type d’une distribution, on peut situer un score dans cette distribution. Les scores z permettent de comparer des scores issus de distributions différentes (m et s différents) Ex. : Test 1, score 62, m = 57,11 ; s = 2,47 Test 2, score 67, m = 62,46 ; s = 3,21 Test 3, score 76, m = 68,93 ; s = 4,06 On ne peut pas comparer 62, 67 et 76 directement car issus de distributions différentes : Ce serait comme si on comparaît des données obtenues sur des échelles différentes, des enfants de 4 ans et des enfants de 10 ans… X !m z= s Score z : on soustrait la moyenne, et on divise par l’écart-type Test 1, score 62, m = 57,11 ; s = 2,47 62 ! 57,11 z (test1) = = 1,98 2,47 Test 2, score 67, m = 62,46 ; s = 3,21 z (test2) = 1,41 Test 3, score 76, m = 68,93 ; s = 4,06 z (test3) = 1,74 Loi normale centrée réduite : σ=1 m=0 On peut comparer ces scores z entre eux (même échelle), test1 mieux réussi que test3 que test2 (1,98 > 1,74 > 1,41). Notez que la comparaison (erronée) des scores bruts aurait donné test3 (76)> test2 (67)> test1(62). Relation entre un score z et la distribution normale : X !m z= s Donne l’écart à la moyenne, en unités d’écart-type. z = 2 signifie que le score est 2 s au-dessus de m (élevé). z = -1 signifie que le score est 1 s en-dessous de m. ⇒ on peut en déduire le % de scores en-dessous & audessus. 5. Table de z (appelée aussi table de la distribution normale). Indique pour tout z le % de scores compris sous z et entre ce z et la moyenne. 50% des scores endessous de la moyenne 47,61% des scores entre z=1,98 et la moyenne 2,39% des scores audessus de z On en déduit : - le % de scores en-dessous = 50 + 47,61 = 97,61% - le % de scores au-dessus = 50 - 47,61 = 2,39% Si z est négatif : même % que si z est positif 34,13% des scores entre z=-1 et la moyenne z = -1 z = +1 On en déduit : - le % de scores en-dessous = 50 – 34,13 = 15,87% - le % de scores au-dessus = 34,13 + 50 = 84,13% Table du z Aires de la distribution normale : % d’erreur bilatérale Exemple: z=1.96 Z= .10 z=1.96 correspond à 5% soit… .01 (précision de 1%) Probabilité unilatérale versus bilatérale Probabilité bilatérale Probabilité unilatérale 0,95 (95%) 0,975 (97,5%) 0,025 (2,5%) 0,025 (2,5%) Z = 1,96 Z1 = - 1,96 Z2 = 1,96 Probabilité unilatérale : Probabilité bilatérale : 0,025 (2,5%) 0,025 + 0,025 = 0,05 (5%) Attention : la table que vous aurez en TD représente les probabilités bilatérales Marche dans l’autre sens : si on connaît le % de scores au-dessus ou endessous d’une mesure, on peut en déduire le z correspondant Exemple : Quel est la valeur de z pour qu’il y ait seulement 1% des scores au-dessus ? Attention : 1% des scores unilatérale signifie 2% bilatérale P = 0,98 P = 0,99 P = 0,01 P = 0,01 P = 0,01 On recherche donc dans la table bilatérale la probabilité 0,02 Si z non listé (ex. : z = 2,825), Pour z=2,820 Pour z=2,83 On prend les deux valeurs qui l’encadrent et on fait la moyenne : 0,0048 +0,00465 %= = 0,004725soit(0,4725%) 2 ! Raymond va à la pêche Le beau-frère de Raymond a pêché un brochet de 538,9 mm dans le lac. En admettant que la longueur des brochets de ce lac suit une loi normale N(467 mm, 47,9 mm), quelle est la probabilité que Raymond pêche un brochet plus long que celui de son beaufrère? Traduction: P (x > 538,9mm) = ? Transformons 538,9 mm en z: Donc: P (x > 538,9 mm) = P (z > 1,501): P (z > 1,501) Table du z : probabilité bilatérale associée à z=1,501 Exemple: z=1.501 .01 (précision de 1%) Z= .10 z=1.501 correspond à 13,4% de façon bilatérale donc 13,4 / 2 % de façon unilatérale soit 6,7 % P(z > 1,501) = 1 – P(z < 1,501) = 0,067 La probabilité que Raymond pêche un brochet plus long que celui de son beau-frère est donc de 0,067 (soit 6,7 chance sur 100). 6. Intervalle de confiance On cherche à estimer un paramètre (ex., µ) à partir de plusieurs échantillons, µM = meilleure estimation possible de µ. Cependant, erreur possible (erreur standard de la moyenne) : σM Exemples d’intervalles de confiance dans notre vie quotidienne : température, le prix d’une voiture, etc. Exemple d’une distribution de scores de satisfaction au travail dont la moyenne est 50 (des milliers de travailleurs et de travailleuses ont passé cette épreuve) Si vous faites passer l’épreuve à un petit groupe de travailleurs Probabilité que la moyenne se situe à l’intérieur des intervalles : Faible Élevée Valeurs d’un échantillon ≠ Valeurs population On va estimer un intervalle qui contient µ (paramètre) : Au lieu de dire, µ = µM, (ou µ : paramètre de la population et µM paramètre de l’échantillon) on dit : minimum < µ < maximum Si l’intervalle est attaché à un pourcentage (95% ou 99%), on parle d’intervalle de confiance à 95% (ou 99%) [minimum ; maximum] qui contient µ avec 5% (ou 1%) d’erreur possible. Supposons qu’une distribution de moyennes a les caractéristiques suivantes : µM = 75 ; σM = 5 On sait que : 68,26% des scores entre z=-1 et z=1 z=1 Dans la table p=31,74 z = -1 µM - 1 σM z = +1 + 1 σM Donc 68,26% des scores sont entre µM +/- 1 écarttype : [75-5 ; 75+5] L’intervalle [70 ; 80] a 68,26% de chance de contenir µ C’est l’intervalle de confiance pour µ à 68,26%. On s’intéresse en général à des intervalles de confiance pour µ à 95% (ou 99%) : La logique est la même. Il faut déterminer z pour 95% Consultation table de z : z = 1,96 95 95% ! 2,5% 2,5% z = -1,96 z = +1,96 donc intervalle de confiance à 95% : µM ± z95 " # M [75 "1,96 # 5 ; 75 + 1,96 # 5] = [65,2 ; 84,8] Raymond retourne à la pêche! Si la longueur des brochets du lac suit une loi normale N(moyenne: 467 mm, écarttype: 47,9 mm), entre quelles valeurs se situent 95 % des longueurs des brochets de ce lac ? 1) Traduction: P (x1 < x < x2) = 0,95 2) Transformons x1 et x2 en z: P (z1 < z < z2) = 0,95 Le problème est donc inverse du précédent: nous avons la probabilité mais pas z z2 = 1,96 z1 = –1,96 par symétrie Retransformons z1 et z2 en x par l'opération inverse d'un « centrage-réduction », on multiplie z par l'écart type de la variable, puis on ajoute la moyenne au résultat : X !m z= s X "m=z#s X = z" s+ m x1 = (z1 × 47,9 mm) + 467 mm = (–1,96 × 47,9 mm) + 467 mm = 373,12 mm x2 = (z2 × 47,9 mm) + 467 mm = (1,96 × 47,9 mm) + 467 mm = 560,88 mm ! Ainsi, 95% des brochets du lac ont une longueur comprise entre 373,12 mm et 560,88 mm. L’intervalle de confiance est : [373,12;560,88]. ! Intervalle de confiance à 95% : µM ± z95 " # M Signifie que cet intervalle comprend µ avec 5% d’erreur ⇒ plus d’information que µ ! µ M = 75 [65,2 ; 84,8] ! ! Intervalle de confiance à 99% : µM ± z99 " # M ! ! z99 = 2,57 Intervalle de confiance à 99% : µM ± z99 " # M z99 = 2,57 [75 " 2,57 # 5 ; 75 + 2,57 # 5] = [62,2 ; 87,9] ! Cet intervalle comprend ! µ avec 1% d’erreur ! 99% 0,5% 0,5% z = -2,57 z = +2,57