NOTIONS ABORDEES EN STATISTIQUE Le protocole Le protocole de base est le tableau Il y a les individus statistiques représentant les éléments de référence sur lesquels portent les statistiques Une modalité représente les éléments de l’ensemble de variation de la variable (une variable est une colonne du tableau associée à la colonne individu) Complément d’information : Une variable est bien une colonne de la table, elle possède plusieurs modalités. Une variable est un ensemble de modalités exclusives les unes des autres. Plusieurs modalités d’une variable, ça peut être par exemple dans la variable type de travail on peut trouver les quatre modalités suivantes : temps partiel ; temps plein ; rémunération parents ; autres. Remarque sur les variables nominales : il n’y a pas de relations entre elles, exemple : filles garçons ; sexe. Remarque sur les observations : c’est ce qui caractérise un individu dans une table, dans le protocole de base. Le plan S’il n’y a pas de caractéristique descriptive c’est un plan non structuré, dans le cas contraire il est dit structuré (Il y a des caractéristiques descriptives qui concernent les individus) la relation d’emboîtement : deux groupes différenciés par leurs caractéristiques (exemple l’âge) donc protocole structuré par : ● les variables indépendantes (dans l’exemple l’âge) ● les variables dépendantes (par exemple le temps de lecture) des variables indépendantes Les sujets sont emboîtés dans les groupes exemple d’écriture schématisée : S5 < G2 > VD1 il s’agit de 5 sujets dits emboîtés dans deux groupes avec une variable dépendante (dont modèle dit univarié). Il y aura donc 5 x 2 x 1 observations la relation de croisement : il s’agit d’associé une variable manipulée VI (donc indépendante) à chaque individu (par exemple chaque individu à droit à deux essais). exemple d’écriture schématisée : S X T on dit que les sujets sont croisés avec les tâches. S10 X T2 X VD1 : on a ici 10 sujets croisés avec deux tâches (les deux essais dans l’exemple) avec une variable dépendante observée. Donc 10 x 2 x 1 observations Attention : même si on a deux tâches, il s’agit d’une variable, on peut donc avoir une relation univariée avec deux tâches ! et non une relation bivariée !! relation de croisement On fait une comparaison entre la variable observée dans une condition et la même variable observée dans une autre condition la relation d’emboîtement On va étudié la liaison entre les deux variables observée Attention : S X T → VD (univarié donc !) est différent, et il ne faut pas confondre, de S → V2 (bivarié donc !) Dans le premier cas on fait varier les variables dans une condition, puis la même variable dans une autre condition. Dans le deuxième cas, on s’intéresse à la liaison entre les deux variables. D:\840910172.doc 1 Recoder une variable numérique exemple : de 26 à 97 secondes on veut un intervalle de 7s (pour avoir une bonne précision) du coup 97-26 (+1 ajout systématique) = 72 qu’on divise par 7, on obtient 11 classes Pour obtenir la valeur centrale de la classe centrale qu’on note Uk (K indique le numéro de la classe) :26 + 72/2 = 62 On part de cette valeur pour trouver sa classe soit 62 - 3 et 62 + 3 donnent {59 (62) 65} Puis on déduit les autres {66 (69) 72} etc... vers les haut et idem vers le bas. Remarque : dans les classes {0 (1) 2} ; {3 (4) 5} ; {6 (7) 8} ; la valeur 2,75 Є à la classe {3 (4) 5} Remarque : il est préférable, mais ce n’est pas obligatoire que les intervalles soient égaux. Pour obtenir les valeurs limites de chaque classe on additionne la val centrale de la classe plus celle de la classe supérieure et on divise par deux. exemple : {21 (23) 25} ; {26 (28) 30} ; {31 (33) 35} donne 23 + 28 / 2 = 25,5 pour la première, 28 + 33 / 2 = 30,5 pour la suivante etc... La note Z La note Z est une transformation d’une variable numérique, elle permet d’exprimer la distance d’une observation par rapport à la moyenne en nombre d’écarts types. Z = (X (valeur observée) - M (valeur moyenne de la distribution)) / S (écart type de la distribution) exemple : notes de 0 à 20 avec une moyenne de 11 et un écart type de 3,2 on obtient pour la note 0 = (0-11)/3,2 = -3,43 pour la note 2 (si on gradue de deux en deux) = (2-11)/3,2 = -2,81 etc... 20 = (20-11)/3,2 =2,81 Distribution C’est dénombrer le nombre d’observations par modalité Faire un distribution transforme un protocole en perdant des informations sur l’identité des individus. Donc regrouper les données. variables nominales On regroupe des individus par appartenance à un même champ (exemple : tous les peintres, tous les enseignants, tous les ferrailleurs etc.), on obtient Ui modalités avec pour chacune d’elle Ni effectifs. Σ Ni donne la totalité des effectifs appelé N exemple : Pour U1 on a N1 effectifs = 4 ; U2 → N2 = 6 ; U3 →N3 = 2 ; N= 4 + 6 + 2 = 12 On transformer l’effectif d’une modalité en fréquence : fk = nk / n exemple pour U2 on a 6 / 12 = 0,5. Σ fk = 1 (exemple f1 : 4/12=0,33 ; f2 : 0,5 ; f3 : 2/12= 0,17 donc le total = 0,33 + 0,5 + 0,17 = 1 On peut multiplier par 100 pour avoir des pourcentages Remarque : écrire dans la colonne des fréquences la valeur de n pour pouvoir retrouver les effectifs. variables ordinales En fait le principe est des créer un tableau dans lequel on répartit les individus par variables. D:\840910172.doc 2 i 1 2 3 4 5 6 7 8 9 rép. a b b c a b b c a n=9 ce qui donne Mod. uk a b c Effectif nk 3 4 2 n=9 Fréq. fk 0,33 0,44 0,22 Σ fk = 1 On pourrait aussi présenter le tableau de cette façon : Mod. uk a a Effectif nk 3 b Fréq. fk 0,33 D:\840910172.doc b 4 0,44 c 2 0,22 n=9 Σ fk = 1 3 variables numériques C’est le même principe sauf qu’on a souvent à faire des regroupement par exemple en 7 classes avec les valeurs centrales (cf. Recoder une variable numérique) distribution bivariée (exemple) n° de classe 1 2 3 4 5 6 échelle de temps 0à5 6 à 11 12 à 17 18 à 23 24 à 29 30 à 35 i 1 2 3 4 5 6 7 8 9 10 11 12 13 n° de cl. tps 1 1 2 5 4 4 5 6 6 6 5 2 2 méth. A A B C C B A A C C C E E rem : on peut imaginer qu’il s’agit de méthode de résolution de problème temps (n° de cl.) méth. 1 2 3 A 2 0 0 B 0 1 0 C 0 0 0 D 0 0 0 E 0 2 0 tot. 2 3 0 tot. gén. n=13 4 0 1 1 0 0 2 5 1 0 2 0 0 3 6 1 0 2 0 0 3 Attention les applications suivantes sont pour les protocoles Les indices de tendance centrale Le mode C’est la seule procédure applicables à tout types de variable y compris nominale. Il faut d’abord avoir réalisé la distribution ! Le mode c’est l’effectif le plus grand cela permet de comparer des distributions. D:\840910172.doc 4 Attention dans l’exemple de la variable 2 qui donne un effectif de 24, c’est 2 le mode et non l’effectif. La médiane reprise du cours sous Excel Elle coupe la distribution en deux parties égales. 1ère méthode on range la distribution par ordre croissant d’effectifs, puis on compte les lignes et on prend la moitié. 2ème méthode modalités a effectifs 5 ef. cum. 5 b 15 20 c 9 29 d 8 37 e 3 40 b 13 20 c 0 20 d 12 32 e 8 40 =20 c 8 24 d 12 36 e 4 40 =16 n=40 40/2=20 modalités a effectifs 7 ef. cum. 7 = 20 l’intervalle bc à cd est médian modalités a effectifs 7 ef. cum. 7 b 9 16 n=40 n=40 =16 40/2=20, 20 se situe dans l’intervalle c La moitié de l’effectif se trouve dans l’échelon c est dit médian modalités a effectifs 1 ef. cum. 1 b c d e 4 21 10 4 n=40 5 26 36 40 1+4 =5 10+4 =14 40/2=20 L’échelon c est dit quasi médian 20 est plus proche de 26 que de 5, la coupure cd est quasi médiane classes 0-2 3-5 6-8 9-11 12-14 15-17 18-20 val. 1 4 7 10 13 16 19 centrale effectif 1 1 4 4 4 3 n=24 7 ef. cum. 1 2 6 17 21 10 24 24/2=12, 12 se trouve dans l’échelon 12-14 qui dit quasi médiane. 12 est plus près de 10 que de 17. La coupure en 9-11 et 12-14 est dite quasi médiane Comme variable numérique on peut calculer par interpolation Lim inf. 10+13/2=11,5 ; il y a 3 valeurs par classe ; Ec inf = Effectif cumulé inf nm = effectif de la classe médiane D:\840910172.doc 5 médiane = L inf + [(n/2 - Ec inf) * a/nm] = 11 + [(12 - 10 ) * 3/7 ] = 12,4 la moyenne la moyenne correspond à la modalité observée s’il n’y avait aucune différence entre les individus statistiques. M = X (bar) = Σ x (appelé T) / n La moyenne est le centre de gravité de l’ensemble des observations. La somme des écarts à la moyenne est nulle Les indices de dispersion le rang C’est la différence entre la valeur la plus grande et la valeur la plus basse, cf. le cours sur livre page 58. Contrairement au mode et au mode secondaire qui se calculent sur les effectifs, celui-ci s’intéresse à l’amplitude de variation de la mesure. le mode secondaire C’est un indice de diversité quand il existe. Il donne une information sur la répartition des observations C’est la deuxième modalité pour laquelle l’effectif est le plus grand modalité A B C D E F G mode mode secondaire Effectif 3 2 10 4 5 4 8 les quantiles variable ordinale ou numérique médiane recoupée en deux donne les quartiles, il y a en trois, et quatre intercartiles même chose avec 10, déciles donne décilage et 100 donne le centilage La procédure est la même que pour la médiane sauf qu’on va couper en 4 notes 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 n eff. 3 2 2 4 8 5 8 10 4 7 15 12 9 11 3 8 6 3 5 2 1 128 eff. 3 5 7 11 19 24 32 42 46 53 68 80 89 100 103 111 117 120 125 127 128 cum. Quartile 1 Quartile 2 Quartile 3 128/4 = 32 ; 128/2=64 plus proche de 68 ; 128*3/4 = 96 plus proche de 100 Quand c’est plus proche ce sont des quasiquartiles (entre 10 et 11 ; 13 et 14) donc le partage en quartiles donne une répartitions en effectifs proche de 32 D:\840910172.doc 6 Si on calcule les fréquences on observe notes eff. eff. cum. 0-6 32 32 7-10 36 68 11-13 32 100 n 128 14-20 28 128 deux classes ne sont pas à 25% du fait des coupures quasiquartiles. On peut calculer un indice de dispersion, l’écart interquartile. C’est l’écart entre le troisième et le premier interquartile. Le quartile 1 est entre 6 et 7 c’est donc 6,5 ; le quartile 3 est entre 13 et 14 c’est donc 13,5 Q3 - Q1 = 13,5 - 6,5 = 7 : la moitié des notes autour de la médiane couvre une étendue de 7 points. l’écart type sur variables numériques Pour calculer l’écart type on calcule d’abord la variance S2 qui est la moyenne des carrés des écarts des observations à la moyenne. s2 = Var = [ Σ ( x - m)2 ] / n attention à l’erreur sur la moyenne arrondie. Pour éviter ces erreurs d’approximation on utilise plutôt la formule suivante : s2 = Var = [ Σ x2 - ( T2 / n ) ] / n ou encore sous la forme : s2 = Var = [ Σ x2 - (Σ x) 2 / n ] / n car T = Σ x s2 = Var = [ Σ x2 - ( T2 / n ) ] / n = ( 2722 - 1762 / 12 ) / 12 = 11,72 L’écart type est donc √ Var = √ 11,72 = 3,42 deuxième méthode : s2 = Var = [ Σ ( x - m)2 ] / n T= Σ x = 176 m= x (bar) =176/12=14,67 s2 = 140,67 / 12 = 11,72 troisième formule de calcul : Var = Moy. des carrés - carré de la moy. s2 = Σ x2 / n - m2 attention utiliser la moyenne avec un grand nombre de chiffres après la virgule = 2722/12-14,666672 = 11,72 D:\840910172.doc i 1 2 3 4 5 6 7 8 9 10 11 12 Σ x 13 15 18 17 16 12 14 18 9 8 17 19 176 x2 169 225 324 289 256 144 196 324 81 64 289 361 2722 (x-m) 2 (13-14,67) 2=2,79 0,11 11,09 5,43 1,77 7,13 0,45 11,09 32,15 44,49 5,43 18,75 140,67 7 Attention les applications suivantes sont pour les distributions l’écart type Tout comme pour le protocole, l’écart type se calcule sur des variables numériques. Remarque : si on a le protocole il vaut mieux le calculer directement. Formule de l’écart type même que pour les protocoles, mais les valeurs sont observées plusieurs fois et donc sont à multiplier ! Rappel de la formule : S2=[ ΣX2 - (ΣX)2 / N] / N nk classes des notes 0-2 3-5 6-8 9-11 12-14 15-17 18-20 valeur effectif centrale 1 4 7 10 13 16 19 1 1 4 4 7 4 3 n = 24 uk 1 4 7 10 13 16 19 Σ = (uk)2 * nk effectif 1 1 4 4 7 4 3 n = 24 x 1*1=1 4*1=4 7*4=28 10*4=40 13*7=91 16*4=64 19*3=57 Σx = 285 x2 = (uk)2 * nk 12*1=1 42*1=16 72*4=196 102*4=400 132*7=1183 162*4=1024 192*3=1083 Σx2 = 3903 S2=[ ΣX2 - (ΣX)2 / N] / N= [3903 - 2852 / 24] /24 = 21,609375 donc S = √ 21,609375 = 4,649 = 4,65 (Σnk * uk)2 / n autre écriture s = √ [ Σnk(uk)2 - (Σnkuk)2 / n] / n La formule de définition de l’écart type s = √ [ Σ(x-m)2 / n] uk m = 285/24=11,875 1 s = √ [ 518,63 / 24] = 4,65 4 7 10 13 16 19 D:\840910172.doc effectif 1 1 4 4 7 4 3 n = 24 x = nk * uk 1*1=1 4*1=4 7*4=28 10*4=40 13*7=91 16*4=64 19*3=57 Σx = 285 nk * (uk-m)2 1(1-11,875)2=118,266 1(4-11,875)2=62,016 4(7-11,875)2=95,063 4(10-11,875)2=14,063 7(13-11,875)2=8,859 4(16-11,875)2=68,063 3(19-11,875)2=152,297 Σx = 518,63 8 3ème définition à partir de la formule des variance s = √ [ Σx2 / n - m2] Var = Moyenne des carrés - carré de la moyenne s = √ [ 3903 / 24 - 11,8752] = √ 21,609375 = 4,65 D:\840910172.doc uk 1 4 7 10 13 16 19 effectif 1 1 4 4 7 4 3 n = 24 x 1*1=1 4*1=4 7*4=28 10*4=40 13*7=91 16*4=64 19*3=57 Σx = 285 x2 12*1=1 42*1=16 72*4=196 102*4=400 132*7=1183 162*4=1024 192*3=1083 Σx2 = 3903 9