NOTIONS ABORDEES EN STATISTIQUE

publicité
NOTIONS ABORDEES EN STATISTIQUE
Le protocole
 Le protocole de base est le tableau
 Il y a les individus statistiques représentant les éléments de référence sur lesquels portent
les statistiques
 Une modalité représente les éléments de l’ensemble de variation de la variable (une
variable est une colonne du tableau associée à la colonne individu)
Complément d’information : Une variable est bien une colonne de la table, elle possède
plusieurs modalités. Une variable est un ensemble de modalités exclusives les unes des autres.
Plusieurs modalités d’une variable, ça peut être par exemple dans la variable type de travail
on peut trouver les quatre modalités suivantes : temps partiel ; temps plein ; rémunération
parents ; autres.
Remarque sur les variables nominales : il n’y a pas de relations entre elles, exemple : filles
garçons ; sexe.
Remarque sur les observations : c’est ce qui caractérise un individu dans une table, dans le
protocole de base.
Le plan
 S’il n’y a pas de caractéristique descriptive c’est un plan non structuré, dans le cas
contraire il est dit structuré (Il y a des caractéristiques descriptives qui concernent les
individus)
 la relation d’emboîtement : deux groupes différenciés par leurs caractéristiques (exemple
l’âge) donc protocole structuré par :
●
les variables indépendantes (dans l’exemple l’âge)
●
les variables dépendantes (par exemple le temps de lecture) des variables
indépendantes
Les sujets sont emboîtés dans les groupes
exemple d’écriture schématisée : S5 < G2 > VD1 il s’agit de 5 sujets dits emboîtés dans deux
groupes avec une variable dépendante (dont modèle dit univarié). Il y aura donc 5 x 2 x 1
observations
 la relation de croisement : il s’agit d’associé une variable manipulée VI (donc
indépendante) à chaque individu (par exemple chaque individu à droit à deux essais).
exemple d’écriture schématisée : S X T on dit que les sujets sont croisés avec les tâches.
S10 X T2 X VD1 : on a ici 10 sujets croisés avec deux tâches (les deux essais dans l’exemple)
avec une variable dépendante observée. Donc 10 x 2 x 1 observations
Attention : même si on a deux tâches, il s’agit d’une variable, on peut donc avoir une relation
univariée avec deux tâches ! et non une relation bivariée !!
relation de croisement
On fait une comparaison entre la variable observée dans une condition et la même variable
observée dans une autre condition
la relation d’emboîtement
On va étudié la liaison entre les deux variables observée
Attention : S X T → VD (univarié donc !) est différent, et il ne faut pas confondre, de
S → V2 (bivarié donc !) Dans le premier cas on fait varier les variables dans une condition,
puis la même variable dans une autre condition. Dans le deuxième cas, on s’intéresse à la
liaison entre les deux variables.
D:\840910172.doc
1
Recoder une variable numérique
exemple : de 26 à 97 secondes on veut un intervalle de 7s (pour avoir une bonne précision) du
coup 97-26 (+1 ajout systématique) = 72 qu’on divise par 7, on obtient 11 classes
Pour obtenir la valeur centrale de la classe centrale qu’on note Uk (K indique le numéro de la
classe) :26 + 72/2 = 62
On part de cette valeur pour trouver sa classe soit 62 - 3 et 62 + 3 donnent {59 (62) 65}
Puis on déduit les autres {66 (69) 72} etc... vers les haut et idem vers le bas.
Remarque : dans les classes {0 (1) 2} ; {3 (4) 5} ; {6 (7) 8} ; la valeur 2,75 Є à la classe {3
(4) 5}
Remarque : il est préférable, mais ce n’est pas obligatoire que les intervalles soient égaux.
Pour obtenir les valeurs limites de chaque classe on additionne la val centrale de la classe
plus celle de la classe supérieure et on divise par deux. exemple : {21 (23) 25} ; {26 (28) 30} ;
{31 (33) 35} donne 23 + 28 / 2 = 25,5 pour la première, 28 + 33 / 2 = 30,5 pour la suivante
etc...
La note Z
La note Z est une transformation d’une variable numérique, elle permet d’exprimer la distance
d’une observation par rapport à la moyenne en nombre d’écarts types.
Z = (X (valeur observée) - M (valeur moyenne de la distribution)) / S (écart type de la
distribution)
exemple : notes de 0 à 20 avec une moyenne de 11 et un écart type de 3,2 on obtient pour la
note 0 = (0-11)/3,2 = -3,43 pour la note 2 (si on gradue de deux en deux) = (2-11)/3,2 = -2,81
etc... 20 = (20-11)/3,2 =2,81
Distribution
C’est dénombrer le nombre d’observations par modalité
Faire un distribution transforme un protocole en perdant des informations sur l’identité des
individus. Donc regrouper les données.
variables nominales
On regroupe des individus par appartenance à un même champ (exemple : tous les peintres,
tous les enseignants, tous les ferrailleurs etc.), on obtient Ui modalités avec pour chacune
d’elle Ni effectifs. Σ Ni donne la totalité des effectifs appelé N
exemple : Pour U1 on a N1 effectifs = 4 ; U2 → N2 = 6 ; U3 →N3 = 2 ; N= 4 + 6 + 2 = 12
On transformer l’effectif d’une modalité en fréquence : fk = nk / n
exemple pour U2 on a 6 / 12 = 0,5.
Σ fk = 1 (exemple f1 : 4/12=0,33 ; f2 : 0,5 ; f3 : 2/12= 0,17
donc le total = 0,33 + 0,5 + 0,17 = 1
On peut multiplier par 100 pour avoir des pourcentages
Remarque : écrire dans la colonne des fréquences la valeur de n pour pouvoir retrouver les
effectifs.
variables ordinales
En fait le principe est des créer un tableau dans lequel on répartit les individus par variables.
D:\840910172.doc
2
i
1
2
3
4
5
6
7
8
9
rép.
a
b
b
c
a
b
b
c
a
n=9
ce qui donne
Mod. uk
a
b
c
Effectif nk
3
4
2
n=9
Fréq. fk
0,33
0,44
0,22
Σ fk = 1
On pourrait aussi présenter le tableau de cette façon :
Mod. uk
a
a Effectif nk 3
b Fréq. fk
0,33
D:\840910172.doc
b
4
0,44
c
2
0,22
n=9
Σ fk = 1
3
variables numériques
C’est le même principe sauf qu’on a souvent à faire des regroupement par exemple en 7
classes avec les valeurs centrales (cf. Recoder une variable numérique)
distribution bivariée (exemple)
n° de classe
1
2
3
4
5
6
échelle de temps
0à5
6 à 11
12 à 17
18 à 23
24 à 29
30 à 35
i
1
2
3
4
5
6
7
8
9
10
11
12
13
n° de
cl. tps
1
1
2
5
4
4
5
6
6
6
5
2
2
méth.
A
A
B
C
C
B
A
A
C
C
C
E
E
rem : on peut imaginer qu’il s’agit de méthode de résolution de problème
temps (n° de cl.)
méth.
1
2
3
A
2
0
0
B
0
1
0
C
0
0
0
D
0
0
0
E
0
2
0
tot.
2
3
0
tot. gén. n=13
4
0
1
1
0
0
2
5
1
0
2
0
0
3
6
1
0
2
0
0
3
Attention les applications suivantes sont pour les
protocoles
Les indices de tendance centrale
Le mode
C’est la seule procédure applicables à tout types de variable y compris nominale. Il faut
d’abord avoir réalisé la distribution !
Le mode c’est l’effectif le plus grand cela permet de comparer des distributions.
D:\840910172.doc
4
Attention dans l’exemple de la variable 2 qui donne un effectif de 24, c’est 2 le mode et non
l’effectif.
La médiane reprise du cours sous Excel
Elle coupe la distribution en deux parties égales.
1ère méthode
on range la distribution par ordre croissant d’effectifs, puis on compte les lignes et on prend la
moitié.
2ème méthode
modalités a
effectifs 5
ef. cum. 5
b
15
20
c
9
29
d
8
37
e
3
40
b
13
20
c
0
20
d
12
32
e
8
40
=20
c
8
24
d
12
36
e
4
40
=16
n=40
40/2=20
modalités a
effectifs 7
ef. cum. 7
= 20
l’intervalle bc à cd est médian
modalités a
effectifs 7
ef. cum. 7
b
9
16
n=40
n=40
=16
40/2=20, 20 se situe dans l’intervalle c
La moitié de l’effectif se trouve dans l’échelon c est dit médian
modalités a
effectifs 1
ef. cum. 1
b
c
d
e
4
21
10
4
n=40
5
26
36
40
1+4 =5
10+4 =14
40/2=20 L’échelon c est dit quasi médian
20 est plus proche de 26 que de 5, la coupure cd est quasi médiane
classes
0-2
3-5
6-8
9-11
12-14 15-17 18-20
val.
1
4
7
10
13
16
19
centrale
effectif
1
1
4
4
4
3
n=24
7
ef. cum. 1
2
6
17
21
10
24
24/2=12, 12 se trouve dans l’échelon 12-14 qui dit quasi médiane. 12 est plus près de 10 que
de 17. La coupure en 9-11 et 12-14 est dite quasi médiane
Comme variable numérique on peut calculer par interpolation
Lim inf. 10+13/2=11,5 ; il y a 3 valeurs par classe ; Ec inf = Effectif cumulé inf
nm = effectif de la classe médiane
D:\840910172.doc
5
médiane = L inf + [(n/2 - Ec inf) * a/nm]
= 11 + [(12 - 10 ) * 3/7 ] = 12,4
la moyenne
la moyenne correspond à la modalité observée s’il n’y avait aucune différence entre les
individus statistiques. M = X (bar) = Σ x (appelé T) / n
La moyenne est le centre de gravité de l’ensemble des observations.
La somme des écarts à la moyenne est nulle
Les indices de dispersion
le rang
C’est la différence entre la valeur la plus grande et la valeur la plus basse, cf. le cours sur livre
page 58. Contrairement au mode et au mode secondaire qui se calculent sur les effectifs,
celui-ci s’intéresse à l’amplitude de variation de la mesure.
le mode secondaire
C’est un indice de diversité quand il existe. Il donne une information sur la répartition des
observations
C’est la deuxième modalité pour laquelle l’effectif est le plus grand
modalité
A
B
C
D
E
F
G
mode
mode secondaire
Effectif
3
2
10
4
5
4
8
les quantiles
variable ordinale ou numérique
médiane recoupée en deux donne les quartiles, il y a en trois, et quatre intercartiles
même chose avec 10, déciles donne décilage et 100 donne le centilage
La procédure est la même que pour la médiane sauf qu’on va couper en 4
notes 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 n
eff. 3 2 2 4 8 5 8 10 4 7 15 12 9 11 3
8
6
3
5
2
1
128
eff. 3 5 7 11 19 24 32 42 46 53 68 80 89 100 103 111 117 120 125 127 128
cum.
Quartile 1
Quartile 2
Quartile 3
128/4 = 32 ; 128/2=64 plus proche de 68 ; 128*3/4 = 96 plus proche de 100
Quand c’est plus proche ce sont des quasiquartiles (entre 10 et 11 ; 13 et 14)
donc le partage en quartiles donne une répartitions en effectifs proche de 32
D:\840910172.doc
6
Si on calcule les fréquences on observe
notes
eff.
eff.
cum.
0-6
32
32
7-10
36
68
11-13
32
100
n
128
14-20
28
128
deux classes ne sont pas à 25% du fait des coupures quasiquartiles.
On peut calculer un indice de dispersion, l’écart interquartile. C’est l’écart entre le troisième
et le premier interquartile.
Le quartile 1 est entre 6 et 7 c’est donc 6,5 ; le quartile 3 est entre 13 et 14 c’est donc 13,5
Q3 - Q1 = 13,5 - 6,5 = 7 : la moitié des notes autour de la médiane couvre une étendue de 7
points.
l’écart type
sur variables numériques
Pour calculer l’écart type on calcule d’abord la variance S2 qui est la moyenne des carrés des
écarts des observations à la moyenne.
s2 = Var = [ Σ ( x - m)2 ] / n
attention à l’erreur sur la moyenne arrondie. Pour éviter ces erreurs d’approximation on utilise
plutôt la formule suivante : s2 = Var = [ Σ x2 - ( T2 / n ) ] / n
ou encore sous la forme : s2 = Var = [ Σ x2 - (Σ x) 2 / n ] / n car T = Σ x
s2 = Var = [ Σ x2 - ( T2 / n ) ] / n
= ( 2722 - 1762 / 12 ) / 12 = 11,72
L’écart type est donc
√ Var = √ 11,72 = 3,42
deuxième méthode :
s2 = Var = [ Σ ( x - m)2 ] / n
T= Σ x = 176
m= x (bar) =176/12=14,67
s2 = 140,67 / 12 = 11,72
troisième formule de calcul :
Var = Moy. des carrés - carré de la moy.
s2 = Σ x2 / n - m2
attention utiliser la moyenne avec un grand nombre de
chiffres après la virgule
= 2722/12-14,666672 = 11,72
D:\840910172.doc
i
1
2
3
4
5
6
7
8
9
10
11
12
Σ
x
13
15
18
17
16
12
14
18
9
8
17
19
176
x2
169
225
324
289
256
144
196
324
81
64
289
361
2722
(x-m) 2
(13-14,67) 2=2,79
0,11
11,09
5,43
1,77
7,13
0,45
11,09
32,15
44,49
5,43
18,75
140,67
7
Attention les applications suivantes sont pour les
distributions
l’écart type
Tout comme pour le protocole, l’écart type se calcule sur des variables numériques.
Remarque : si on a le protocole il vaut mieux le calculer directement.
Formule de l’écart type même que pour les protocoles, mais les valeurs sont observées
plusieurs fois et donc sont à multiplier !
Rappel de la formule : S2=[ ΣX2 - (ΣX)2 / N] / N
nk
classes
des
notes
0-2
3-5
6-8
9-11
12-14
15-17
18-20
valeur effectif
centrale
1
4
7
10
13
16
19
1
1
4
4
7
4
3
n = 24
uk
1
4
7
10
13
16
19
Σ = (uk)2 * nk
effectif
1
1
4
4
7
4
3
n = 24
x
1*1=1
4*1=4
7*4=28
10*4=40
13*7=91
16*4=64
19*3=57
Σx = 285
x2 = (uk)2 * nk
12*1=1
42*1=16
72*4=196
102*4=400
132*7=1183
162*4=1024
192*3=1083
Σx2 = 3903
S2=[ ΣX2 - (ΣX)2 / N] / N= [3903 - 2852 / 24] /24 = 21,609375
donc S = √ 21,609375 = 4,649 = 4,65
(Σnk * uk)2 / n
autre écriture
s = √ [ Σnk(uk)2 - (Σnkuk)2 / n] / n
La formule de définition de l’écart type
s = √ [ Σ(x-m)2 / n]
uk
m = 285/24=11,875
1
s = √ [ 518,63 / 24] = 4,65
4
7
10
13
16
19
D:\840910172.doc
effectif
1
1
4
4
7
4
3
n = 24
x = nk * uk
1*1=1
4*1=4
7*4=28
10*4=40
13*7=91
16*4=64
19*3=57
Σx = 285
nk * (uk-m)2
1(1-11,875)2=118,266
1(4-11,875)2=62,016
4(7-11,875)2=95,063
4(10-11,875)2=14,063
7(13-11,875)2=8,859
4(16-11,875)2=68,063
3(19-11,875)2=152,297
Σx = 518,63
8
3ème définition à partir de la formule des variance
s = √ [ Σx2 / n - m2]
Var = Moyenne des carrés - carré de la moyenne
s = √ [ 3903 / 24 - 11,8752] = √ 21,609375 = 4,65
D:\840910172.doc
uk
1
4
7
10
13
16
19
effectif
1
1
4
4
7
4
3
n = 24
x
1*1=1
4*1=4
7*4=28
10*4=40
13*7=91
16*4=64
19*3=57
Σx = 285
x2
12*1=1
42*1=16
72*4=196
102*4=400
132*7=1183
162*4=1024
192*3=1083
Σx2 = 3903
9
Téléchargement