Statistiques en psychologie. Étude d'une variable. 2 variables possibles : ► variable qualitative : Situation Exemple Org° des données Représ° graphique Détermination possible Variable qualitative nominale Zone d'habitation Tableau d'effectifs Diagramme en barre, Diagramme en secteur, Diagramme unicolonne Mode Variable qualitative ordinale Niveau d’adéquation ( de 1 à 5) Puissance (de Faible à Fort ) Tableau d'effectifs Diagramme en barre, Diagramme en secteur, Diagramme unicolonne Mode, Médiane, Quartile ► variable quantitative : Situation Exemple Org° des données Représ° graphique Détermination possible 1 -Variable quantitative discrète Nombre précis de personne ( {1,2,3...} ) Tableau d'effectifs Diagramme en baton Mode, Médiane, Quartiles, Moyenne, Variance, Écart-type Tableau d'effectifs (modalité = classes) Histogramme Idem AGE 2 -Variable quantitative continue Temps, durée ( toutes les valeurs positives ( ]0, +inf[ ) Mode : Valeur la plus élevé ( modalité avec l'effectif le plus grand ), sur un graphique c'est le pic le plus haut. Médiane : Modalité séparant l'échantillon N en deux parties de même taille. Calcul : 1. On calcule N/2 2. On sélectionne l'effectif cumulé N. Immédiatement supérieur à N/2 Quartiles : Modalités notées Q1, Q2, et Q3 séparant l'échantillon en quatre partie de taille semblable. Calcul : Q1 = N/4 Q2 = médiane = N/2 Q3 = (3xN) /4 Tableau d'effectifs et calculs : Modalité Effectifs Fréquences Pourcentage Notation ( x1, x2, x3.. ) ( n1, n2, n3.. ) ( f1, f2, f3.. ) Calcul Total - f1 = n1/N - f2 = n2/N - f3 = n3/N... N 1 Étude d'un couple de variable. Effectifs cumulés Ni x Xi Ni x (Xi)² ( N1, N2, N3.. ) - f1 x 100 - f2 x 100 - f3 x 100.. 100 - N1 = n1 - n1 x x1 - n1 x (x1)² - N2 = n1+n2 - n2 x x2 - n2 x (x2)² - N3= N2+n3.. - n3 x x3.. - n3 x (x3)² .. S1 S2 Moyenne Variance Écart type X Var (X) Ox S1/N S2/N ( var(x) Situation Exemple Org° des données Représent° graphique Détermination possible Couple de variables X = Statut Tableau des Distribution conjointe, Khi – deux (X,Y) (locataire/propriétaire) effectifs conjoints Distribution marginale, V de Cramér Y = Lieu Distribution conditionnelle Coef phi (zone d'habitat) Explication par exercice (chapitre 3- exercice 15) ● Étape 1 : Faire un tableau de distribution conjointe. Donner la distribution marginale Père né en France Père né à l'étranger Effectif de X n i,. Mère née en France 129 (n 1,1) 17 (n 1/2) 146 Mère née à l'étranger 13 (n 2,1) 30 (n 2,2) 43 Effectif de X n .,i 142 47 N = 189 ▼X Y► ● Étape 2 : Faire un tableau de distribution conditionnelle. ► 2 possibilités : - distribution de X conditionnellement à Y - distribution de Y conditionnellement à X Distribution de X conditionnellement à Y : ▼X Y► Mère née en France Père né en France Père né à l'étranger 129/142 = 91% 17/47 = 36% Mère née à l'étranger 13/142 = 9% 30/47 = 64% Distribution de Y conditionnellement à X : ▼X Y► Mère née en France Père né en France Père né à l'étranger 129/146 = 88% 17/146 = 12% Mère née à l'étranger 13/43 = 30% 30/43 = 70% ● Étape 3 : Faire un tableau d'effectif théorique. ▼X Y► Mère née en France Père né en France Père né à l'étranger (146x142) / 189 = 110 (146x47) / 189 = 36 146 Mère née à l'étranger (142 x 43) / 189 = 32 (47x43) / 189 = 11 43 142 47 N = 189 Marge de Y Marge de X ● Étape 4 : Faire un tableau de contribution. ▼X Y► Mère née en France Mère née à l'étranger Père né en France Père né à l'étranger (129-110) ² /110 = 3,3 (17-36) ² /36 = 10 (13-32) ² /32 = 11,3 (30-11) ² /11 = 32,8 A partir de la, trois calculs possibles : ► Le Khi-deux : (noté X²) somme de toutes les contributions. Calcul : 3,3 + 11,3 + 10 + 32,8 = 57,4 ► Le V de Cramér : X² / N x (min (L,C)-1) Calcul : 57.4 / 189 x (2-1) = 0.3 On en déduit l'intensité du lien entre les variables : 0.0<...<0.3 lien faible 0.3<...<0.5 lien moyen 0.5<...<1.0 lien fort ► Le coefficient de Phi : X² / N _____________________________________________ Cas particulier : Pour les variable quantitatives continues, les modalités sont réunies en classes, appelées « classes modales ». Ainsi nous avons : xi ni ci modalité effectif Centre de la classe ni x ci ni x(ci)² Ni di ai densité amplitude ni/ai Exemple : [1.8;2.5[ 11 (1,8 + 2.5) /2 = 2,5 27,5 68,75 11 7.7 2.5-1.8 = 0,7 [2.5;3[ 25 (2.5+3) /2 = 2,75 68,75 189 36 12.5 3-2.5 = 0.5 [3;3.5[ 32 (3 + 3.5) /2 = 3,25 104 338 68 16 3.5-3 = 0.5 Définitions de notions de vocabulaire technique : • vocabulaire de base : – population : ensemble sur lequel porte l'étude (exemple ici dans l'enquête : résidents en France avec une condition sur l'âge entre 14 et 35 ans=> condition pour faire partie de l'enquête) – individu : élément de la population. (exemple : ici une personne, mais peut être un pays, des animaux... en fonction du contexte) – échantillon : partie de la population pour laquelle on a observé un certain nombre de caractères, ou des variables (âge, sexe...) – taille de l'échantillon : nombre d'individu dans l'échantillon (exemple : ici échantillon 189 personnes, la taille = 189) – variable : le caractère étudié sur l'échantillon, la population (exemple : « nom de ville ») – modalités : ensemble des valeurs observées pour un caractère, une variable (exemple : ici 42 modalités différentes pour 42 villes différentes) • variables : A) variables quantitatives : on va les utiliser le plus souvent. > se qu'on appel variables quantitative, c'est une variable dont les modalités sont des quantités. Pas seulement des chiffres qui codent les réponses. Exemple : âge, nombre de colocataires... > distinction à faire entre 2 sous-types : – variables quantitatives discrètes : ce sont des variables dont l'ensemble des modalités est comptable (dénombrable). Ce n'est pas tout un spectre continu de possibilités. Exemple : tous les « nombre de... » , les notes... – variables quantitatives continues : ce sont les variables dont l'ensemble des modalités n'est pas dénombrable. → si on avait la précision « infinie » deux individus distincts auraient toujours 2 modalités distinctes. Remarque : une variable quantitative est continue si la moyenne de n'importe quel échantillon est une modalité qui aurait pu être prise par un individu. Idée = taux de natalité par exemple, 2,1 enfants /foyer dans un pays=> les femmes mais on peut pas avoir 2,1 enfant ! Par entre l'âge ou la taille c'est possible. En pratique on utilise pour simplifier des classes. Exemple : pour les âges [20,21[ la variable « âge » désigne l'ensemble des âges comprit entre 20 et 21 ans. (Ici 20 inclus, 21 exclus). En général on se ramène à des nombre entiers. B) variables qualitatives : > variables dont les modalités ne sont pas des quantités exemple : « sexe », « nom de ville »... > distinction à faire entre 2 sous-types : – qualitative ordinale : les modalités peut être ordonnées de manière naturelle. – qualitative nominale : les modalités ne sont pas ordonnées. Chapitre 2 : exercices relatifs à la partie 1. • organisation des données : Définition : on appel effectif le nombre de fois où elle apparaît dans les données brutes. A) tableau d'effectifs et fréquences On va se servir de cet effectif pour dresser un tableau qui est « un tableau d'effectifs et de fréquences ». On va partir des données brutes, pour aller vers un tableau qui sera une représentation synthétique. Exemple : ici 189 données brutes, variables. Notation mathématiques : on note x1, x2... xn (nombre de modalités) les différentes modalités apparaissant pour une variable X donnée (ou classe). Pour chaque modalités xk (n'importe laquelle des modalités de la liste), on note Nk l'effectif correspondant. Tableau d'effectifs : « Xi » ce qui code une modalité « Ni » x1 n1 x2 n2 ... ... Xn Nn total N [N= taille de l'échantillon] propriété : la somme des effectifs est égal à la taille de l'échantillon n1+n2+...Nn = N exemple : « quartier idéal » modalités effectifs 1 13 2 24 3 56 4 63 5 33 TOTAL 189 Définition : le fréquence d'une modalité xk c'est la quantité Fk=Nk/N (la fonction Fk) (Nk effectif de xk) propriété : F1+...Fn = 1 définition : l'information contenue dans le tableau d'effectifs ou de fréquences est appelée distribution empirique. B) regroupement de modalités trop de modalités différentes → on fait des classes. >si la variable est quantitative les classes seront des intervalles (exemple : [20,21[ ) >si la variable est qualitative les classes seront les catégories exemple : pour « nom de ville » on peut regrouper les 42 modalités en « Toulouse » et « hors de Toulouse ». Les variables quantitatives continues utilisent nécessairement des classes !!!! exercice 2. TD n°2 de statistiques du 12.02 exercices 3 et 4 Partie 2 : représentations graphiques seulement des variables qualitatives rappel de la dernière fois : on a eu les définitions, 4 types de variables, méthodes pour les reconnaître : série de questions pour les identifier : – peut on ordonner les modalités ? (naturellement) => variable qualitative si NON et donc nominale/ si OUI => peut on calculer une moyenne ? => si NON variable qualitative ordinale/ si OUI => la moyenne est -elle toujours une modalité possible ? => si NON variable quantitative discrète/ si OUI => quantitative continue ! A) Les diagrammes Exemple : X = « mode de logement » xi ni fi Hi li ϴi Cité U 9 0,05 0,5 0,25 17,1 HLM 31 0,16 1,6 0,8 59,1 résidence 73 0,39 3,9 1,95 139 maison 54 0,28 2,8 1,4 102,9 autre 22 0,12 1,2 0,6 41,9 total 189 1 10 L=5 360 1) Diagramme en barres des effectifs 80 70 60 50 ni 40 fi 30 hi 20 10 0 Cité U HLM résidence maison autres hi = fi x (hmax÷fmax) hmax ≈ 5 cm = 50 mm disons 3,9 cm → hmax =3,9 : hi = fi x (hmax÷fmax) = fi x (3,9÷0,39) = fi x 10 → hmax =5 : hi = fi x (5÷0,39) (ou fmax est la plus grande des valeurs des fréquences- cf tableau) 2) Diagramme uni-colonne des fréquences 100% 12% 90% 80% 28% 70% 60% 50% 0.39 40% 30% 20% 0.16 10% 0.05 0% Ligne 1 li =fi x L 3) diagramme en secteurs des pourcentages 16 28 maison 5 résidence autre cité U 12 HLM 39 ϴi = fi x 360 B) notion de mode définition : pour une variable quantitative nominale le mode est la modalité de plus grand effectif. On le note mod(X) exemple : pour X = « mode de logement » mod(X) = « résidence » exercice 5 à refaire seule !! (y manque les images à partir de là >) partie 3 indices de position : médiane et quartiles remarque : uniquement pour X qualitative ordinal ou quantitative 1) tableau d'effectifs cumulés X variables (pas qualitative nominale- seul cas exclus) x1, x2, ...xn les modalités ordonnées : N1, ….Nn effectifs, N taille de l'échelle définition : Nk = N1+N2+...+Nn remarque : N1 = n1 ; N2 = n1+n2+... ; Nn = N Nk+1 = Nk+(nk+1) « Nk / N des gens prennent une modalité inférieure à xk » 2) médiane : med(X) définition : si X est qualitative ordinale ou quantitative discrète med(X) est la modalité dont le rang est immédiatement supérieur à N/2 med(X) = xk <=> Nk-1 ≤ N/2 < Nk exemple : X = « quartier idéale » 1,2,2,3,3,4,4,4,4,5,5 N = 11 dans un premier cas et dans un second cas on retire un 4 donc N = 10 dans le cas 2 : X1 ni Ni 1 1 1 2 2 3 3 2 5 4 3 8 5 2 10 N/2 ≠ Nk si med(X) = xk définition : si X est quantitative continue la classe médiane [xk, xk+1[ est la classe dont le rang est immédiatement supérieur à N/2. La médiane est le centre de la classe médiane : med(X) = (xk + (xk+1)) / 2 exemple : X = « âge » xi ni Ni [14,18[ 3 3 [18,19[ 2 5 [19,20[ 2 7 [20,21[ N2 = 5 ≤ N/2 < 7 =N3 la classe médiane est [19,20[ med(X) = 19+20 / 2 = 19,5 3 10 exercice 7 remarque : la médiane est un indice robuste => si on change un peu les données on va pas forcément changer la médiane. On dit qu'elle est peu sensible aux valeurs extrêmes ou valeurs aberrantes / atypiques). Exemple : o regarde les notes d'une dictée : 5 élèves ont fait 0,1,2,5, et 10 fautes. La médiane est 2. si on remplace le 10 par le 30 la médiane serait encore 2. à part la valeur extrême la médiane rend compte assez bien de l'échantillon. L’intérêt est de comparer ceci avec la moyenne. La moyenne n'est pas un indice robuste ! 3) Quartiles, déciles et centiles. Définition : on définit les 3 quartiles Q1, Q2 et Q3 de la même manière que la médiane en remplaçant N/2 par N/4, N/2 et 3N/4 définition : pour les déciles on remplace D1, D2, … D9 par N/10, 2N/10, 3N/10... 9N/10 définition : pour les centiles on remplace C1, C2... C99 par N/100, 2N/100... 99N/100 exercice 8 TD partie 4 : variables quantitatives : représentation graphiques, indices de centralité et de dispersion. Note : X= variable quantitative ( variable quantitative discrète VQD et variable quantitative continue VQC) x1,x2....., xm modalités n1,.....nm effectifs f1,.....fm fréquences N= n1+.....+nm 1. représentation graphiques A. VQD diagramme en bâtons des effectifs / fréquences / % Exemple : X = « nombre de personne vivant dans le même logement » Xi Ni Ni x Xi Ni x Xi² 1 57 57 57 2 47 94 188 3 40 120 360 4 35 140 560 5 8 40 200 6 1 6 36 7 1 7 49 TOTAL 189 (N) S= 464 Ẍ = S/N = 456/189 = 2,6 Var(X) =(S²/N)-ẍ² =(1450/189)-2,6² = 1,62 (écart type) = racine 1,62 = 1,27 personnes S² = 1450 B. VQC définition : on appel amplitude d'une classe [xk ; xk+1[ la différence Ak= (xk+1)-xk on appel densité d'un effectif / fréquence/ % le rapport nk/ak fk/ak 100fk/ak histogramme : remarque : l'aire (pas forcément des centimètre carrés) du rectangle représente Nk est Ak x Dk= Nk/Ak = Nk donc c'est amplitude x densité = effectif Ci = centre de classe => remplace Xi dans le cas des VQD Exemple : X = « âge » Xi Ni Ai Di Ci Ni x Ci Ni x Ci² [14;17[ 19 3 6,33 15,5 294,5 4564,75 [17;19[ 11 2 5,5 18 198 3564 [19;20[ 22 1 22 19,5 429 8365,5 [20;21[ 39 1 39 20,5 799,5 16389,75 [21;22[ 18 1 18 21,5 387 8320,5 [22;24[ 23 2 11,5 23 529 12167 [24;27[ 24 3 8 25,5 612 15606 [27;31[ 21 4 5,25 29 609 17661 [31;35[ 12 4 3 33 396 13068 TOTAL 189 S = 4254 LA DENSITE SE NOTE Dk = S/N = 4254/189 = 22,5 Var(X)=(99706,5/189)-22,5² = 21,3 2. S² = 99706,5 indices de centralité : moyenne et modes A. VQD définition : soit X une VQD. On appel moyenne (empirique) de X la quantité donc : avec le tableau de l'exemple 1 => X = S/N = 464/189 ≈ 2,46 définition : on dit qu'un diagrammes en bâtons possède un maximum relatif en la modalité Xk, si Nk > Nk+1 et Nk > Nk-1. On appel mode de X toute modalité correspondante à un maximum relatif. Remarque : par convention, on considère qu'on a N0 = Nm+1 = 0 Exemple : Remarque : cette notion de mode est valable pour les VQD B. VQC définition : - le centre de la classe [Xk ; Xk+1[ est la demi-somme de ces bornes : Ck = Xk + (Xk+1)/2 – la moyenne d'une VQC est la quantité – on appel classe modale toute classe correspondante à un maximum relatif dans l'histogramme. Le centre d'un classe modale est le mode 1. indices de dispersion : variance et écart-type ( et étendu) A. étude définition : - si X est une VQD de modalité x1,...xm, son étendue est la différence xm – x1 – si X est VQC de classe [x1 ; x2[,....[xm ; xm+1[, son étendue est (xm+1) – x1 B. variance définition : soit X une VQD de moyenne ẍ. La variance de X est Var (X) = interprétation : - Var (X) = 0 : dans ce cas x1= x2=... xm =ẍ – Var(X) est « petite » : les modalités se concentrent autour de la moyenne ẍ est bon bon résumé – Var(X) est « grande » : ẍ est un mauvais résumé exemple : les notes de français sont plus resserrées au collège contrairement en maths. Propriété : définition : soit X de moyenne ẍ la variance de X est exercice 9 TD 4. interprétation des graphiques. A. Distribution proche de la symétrie commentaires : voir sur feuille Remarque : de manière générale, le fait qu'on ait une distribution symétrique => écart entre moyenne et médiane doit pas être très grande. Si on a une symétrie moyenne et médiane vont rester proches. Petite conclusion : de échantillon 1 à 3, l'hétérogénéité et croissante c'est pourquoi il y a des variances. Échantillon 1 moyenne = 4,53 med(X) = 4,5 var(X) = 0,32 écart type = 0,6 échantillon 2 échantillon 3 = 5,48 = 10,06 = 5,25 = 10,5 = 7,71 = 33,83 = 2,5 = 5,8 B. Distribution plutôt asymétrique Remarque : de manière générale, la dissymétrie => l'écart entre le moyenne et la médiane qui sera pas trop élevée. Échantillon 4 moyenne = 6,15 med(X) = 3,5 var(X) = 25,28 écart type = 5 échantillon 5 = 9,13 = 11 = 42,01 = 6,5 Partie 5 : distribution conjointes, marginales et conditionnelles. On considère ici 2 VqualN surtout. X et Y. modalités X1, …. Xl l= lignes et Y1, ….Yc c= colonne définition : l'effectif conjoint « nlc » est le nombre d'individus qui prennent les modalités xl et xc. A. Tableau des effectifs conjoints (table de contingence) définition : l'effectif marginal nl. est le nombre d'individus prenant la modalité xl. Respectivement pour n.c. nl. = nl1+ nl2+... nlC n.c = n1c+ n2c+... nLc Remarque : les marges de X et de Y = distribution marginale ou amarginale. Remarque 2 : ce qu'on appel distribution marginale de X, formellement c'est les couples (X1 ; n1.), …, (X2 ; n2.) exemple : X = « propriétaire =X2 / locataire =X1 » et Y = « zone d'habitat » (centre ville = Y1, banlieues =Y2, villages =Y3, cités =Y4, autres =Y5) 71 individus sont locataires au centre ville (n11 = 71) 24........................ propriétaires dans un village (n23 = 24) B. représentations graphiques exemple : 1. distribution (X;Y) : un diagramme en barre des effectifs (de X) pour chaque modalités 2. distribution (Y;X) 3. distribution conditionnelles on s'intéresse aux fréquences (%) exemple : distribution de X conditionnellement à Y pour Y1 = « centre ville » pour Y2 = « banlieue » ….. exemple : distribution de Y conditionnellement à X Partie 6 : Mesure d'association entre deux variables. A. Langage des probabilités définition : probabilité empirique qu'un individu prenne la modalité xl est la proportion d'individus qui prennent cette modalité. Prob ({X=xl}) = n.l / N (fréquence associée à xl) On pourra définir de la même manière : Prob ({Y=yc}) = n.c / N Prob ({X=xl}, {Y=yc}) = nlc / N définition : la probabilité empirique qu'une individu prenne la modalité xl sachant qu'il prend la modalité yc est la proportion d'individus prenant parmi ceux qui prennent yc. Prob : {X=yc} ({X=xl}) = nlc/n.c exemple : X = « locataire / propriétaire » Y = « zone d'habitation » X/Y Y1 Y2 Y3 Y4 Y5 Marge de X x1 71 21 8 29 5 134 x2 16 9 24 1 5 55 30 32 30 10 N = 189 Marge de Y 87 Prob ({X=x1}) = n1./N = 134/189 = 0,71 Prob ({X=x3}) = n.3/N = 32/189 = 0,17 Prob ({X=x1}), ({X=x3}) = n.13/N = 8/189 = 0,04 {(X;Y) = (x1;y3)} proportion d'habitants habitant dans les centres villes parmi les locataires : Prob {X=x1} ({Y=y1}) = n11/n1. = 71/134 = 0,53 probabilité d'être locataire sachant qu'on habite au village Prob {Y=y3} ({X=x1}) = n13/n.3 = 8/32 = 0,25 définition : X et Y sont indépendants (n'ont pas de liens entre eux) si on a : Propriété : si X et Y sont indépendants on a Prob ({X = xl}, {Y = yc}) = Prob ({X = xl}) x Prob ({Y = yc}) c'est à dire = B) Explications : en cas d'indépendance on a : (d'où en multipliant par nl.) Ce qui se traduit par : C) Le X² définition : effectif conjoint théorique / observé le nombre (théotique = indépendant) Ecart entre les 2 nombre est mesuré par une contribution Le khi-deux = X² d'indépendance entre X et Y, c'est la somme de toutes les contributions : (L x C terme) Concrètement pour calculer le X² on dresse : 1. Tableau des effectifs conjoints théoriques : Effectifs conjoints théoriques : X² = 1,407+ 0,003+ 9,509+ 2,809+ 0,616+... = 49,29 2. tableau des contributions exemple : X = « locataire / propriétaire » et Y = « zone d'habitation » V de Cramer et coefficient ø => lettre grecque Ψ Propriété : on peut montrer que : 0 ≤ X² ≤ N x [ min (L,C) -1] (positif) c'est à dire : 0 ≤ X², X² ≤ N x (L-&) et X² ≤ N x (C-1) On appelle V de Cramer la quantité Remarque : d'après la propriété précédente 0 ≤ øc ≤ 1 interprétation : 0 ≤ øc ≤ 0,3 on dit que le V de Cramer est petit <=> le lien entre X et Y est faible. Si 0,3 ≤ øc ≤ 0,5 <=> moyen, intensité moyenne. Si 0,5 ≤ øc ≤ 1 <=> lien fort. Exemple : cas particulier si L=C=2 le V de Cramer appelé « coef phi », est égal à exercice 18 X /Y y1 y2 Marge de X x1 129 17 146 x2 13 30 43 Marge de Y 142 47 N= 189 X/Y y1 y2 Marge de X x1 109,7 36,3 146 x2 32,3 10,7 43 Marge de Y 142 47 N= 189 X/Y y1 y2 x1 3,4 10,3 x2 11,5 34,9