Tableau d`effectifs et calculs

publicité
Statistiques en psychologie.
Étude d'une variable.
2 variables possibles :
► variable qualitative :
Situation
Exemple
Org° des données
Représ° graphique
Détermination possible
Variable qualitative
nominale
Zone d'habitation
Tableau d'effectifs
Diagramme en barre,
Diagramme en secteur,
Diagramme unicolonne
Mode
Variable qualitative
ordinale
Niveau d’adéquation
( de 1 à 5)
Puissance
(de Faible à Fort )
Tableau d'effectifs
Diagramme en barre,
Diagramme en secteur,
Diagramme unicolonne
Mode,
Médiane,
Quartile
► variable quantitative :
Situation
Exemple
Org° des données
Représ° graphique
Détermination possible
1 -Variable quantitative
discrète
Nombre précis de
personne
( {1,2,3...} )
Tableau d'effectifs
Diagramme en baton
Mode,
Médiane,
Quartiles,
Moyenne,
Variance,
Écart-type
Tableau d'effectifs
(modalité = classes)
Histogramme
Idem
AGE
2 -Variable quantitative
continue
Temps, durée
( toutes les valeurs
positives ( ]0, +inf[ )
Mode : Valeur la plus élevé ( modalité avec l'effectif le plus grand ), sur un graphique c'est le pic le plus haut.
Médiane : Modalité séparant l'échantillon N en deux parties de même taille.
Calcul : 1. On calcule N/2
2. On sélectionne l'effectif cumulé N. Immédiatement supérieur à N/2
Quartiles : Modalités notées Q1, Q2, et Q3 séparant l'échantillon en quatre partie de taille semblable.
Calcul : Q1 = N/4 Q2 = médiane = N/2 Q3 = (3xN) /4
Tableau d'effectifs et calculs :
Modalité
Effectifs
Fréquences Pourcentage
Notation ( x1, x2, x3.. ) ( n1, n2, n3.. ) ( f1, f2, f3.. )
Calcul
Total
- f1 = n1/N
- f2 = n2/N
- f3 =
n3/N...
N
1
Étude d'un couple de variable.
Effectifs
cumulés
Ni x Xi
Ni x (Xi)²
( N1, N2,
N3.. )
- f1 x 100
- f2 x 100
- f3 x 100..
100
- N1 = n1
- n1 x x1 - n1 x (x1)²
- N2 = n1+n2 - n2 x x2 - n2 x (x2)²
- N3= N2+n3.. - n3 x x3.. - n3 x (x3)² ..
S1
S2
Moyenne Variance
Écart type
X
Var (X)
Ox
S1/N
S2/N (
var(x)
Situation
Exemple
Org° des données
Représent° graphique
Détermination
possible
Couple de variables
X = Statut
Tableau des
Distribution conjointe,
Khi – deux
(X,Y)
(locataire/propriétaire) effectifs conjoints Distribution marginale,
V de Cramér
Y = Lieu
Distribution conditionnelle
Coef phi
(zone d'habitat)
Explication par exercice (chapitre 3- exercice 15)
● Étape 1 : Faire un tableau de distribution conjointe.
Donner la distribution marginale
Père né en
France
Père né à
l'étranger
Effectif de X n i,.
Mère née en France
129
(n 1,1)
17
(n 1/2)
146
Mère née à l'étranger
13
(n 2,1)
30
(n 2,2)
43
Effectif de X n .,i
142
47
N = 189
▼X
Y►
● Étape 2 : Faire un tableau de distribution conditionnelle.
► 2 possibilités : - distribution de X conditionnellement à Y
- distribution de Y conditionnellement à X
Distribution de X conditionnellement à Y :
▼X
Y►
Mère née en France
Père né en France
Père né à l'étranger
129/142 = 91%
17/47 = 36%
Mère née à l'étranger
13/142 = 9%
30/47 = 64%
Distribution de Y conditionnellement à X :
▼X
Y►
Mère née en France
Père né en France
Père né à l'étranger
129/146 = 88%
17/146 = 12%
Mère née à l'étranger
13/43 = 30%
30/43 = 70%
● Étape 3 : Faire un tableau d'effectif théorique.
▼X
Y►
Mère née en France
Père né en France
Père né à l'étranger
(146x142) / 189 = 110
(146x47) / 189 = 36
146
Mère née à l'étranger
(142 x 43) / 189 = 32
(47x43) / 189 = 11
43
142
47
N = 189
Marge de Y
Marge de X
● Étape 4 : Faire un tableau de contribution.
▼X
Y►
Mère née en France
Mère née à l'étranger
Père né en France
Père né à l'étranger
(129-110) ² /110 = 3,3
(17-36) ² /36 = 10
(13-32) ² /32 = 11,3
(30-11) ² /11 = 32,8
A partir de la, trois calculs possibles :
► Le Khi-deux : (noté X²) somme de toutes les contributions.
Calcul : 3,3 + 11,3 + 10 + 32,8 = 57,4
► Le V de Cramér : X² / N x (min (L,C)-1)
Calcul : 57.4 / 189 x (2-1) = 0.3
On en déduit l'intensité du lien entre les variables :
0.0<...<0.3 lien faible
0.3<...<0.5 lien moyen
0.5<...<1.0 lien fort
► Le coefficient de Phi : X² / N
_____________________________________________
Cas particulier :
Pour les variable quantitatives continues, les modalités sont réunies en classes, appelées « classes
modales ». Ainsi nous avons :
xi
ni
ci
modalité
effectif
Centre de la classe
ni x ci
ni x(ci)²
Ni
di
ai
densité
amplitude
ni/ai
Exemple :
[1.8;2.5[
11
(1,8 + 2.5) /2 =
2,5
27,5
68,75
11
7.7
2.5-1.8 =
0,7
[2.5;3[
25
(2.5+3) /2 =
2,75
68,75
189
36
12.5
3-2.5 =
0.5
[3;3.5[
32
(3 + 3.5) /2 =
3,25
104
338
68
16
3.5-3 =
0.5
Définitions de notions de vocabulaire technique :
•
vocabulaire de base :
–
population : ensemble sur lequel porte l'étude (exemple ici dans l'enquête : résidents en
France avec une condition sur l'âge entre 14 et 35 ans=> condition pour faire partie de l'enquête)
–
individu : élément de la population. (exemple : ici une personne, mais peut être un pays, des
animaux... en fonction du contexte)
–
échantillon : partie de la population pour laquelle on a observé un certain nombre de
caractères, ou des variables (âge, sexe...)
–
taille de l'échantillon : nombre d'individu dans l'échantillon (exemple : ici échantillon 189
personnes, la taille = 189)
–
variable : le caractère étudié sur l'échantillon, la population (exemple : « nom de ville »)
–
modalités : ensemble des valeurs observées pour un caractère, une variable (exemple : ici 42
modalités différentes pour 42 villes différentes)
•
variables :
A) variables quantitatives : on va les utiliser le plus souvent.
> se qu'on appel variables quantitative, c'est une variable dont les modalités sont des quantités. Pas
seulement des chiffres qui codent les réponses.
Exemple : âge, nombre de colocataires...
> distinction à faire entre 2 sous-types :
–
variables quantitatives discrètes : ce sont des variables dont l'ensemble des modalités est
comptable (dénombrable). Ce n'est pas tout un spectre continu de possibilités.
Exemple : tous les « nombre de... » , les notes...
–
variables quantitatives continues : ce sont les variables dont l'ensemble des modalités n'est
pas dénombrable.
→ si on avait la précision « infinie » deux individus distincts auraient toujours 2 modalités
distinctes.
Remarque : une variable quantitative est continue si la moyenne de n'importe quel échantillon est
une modalité qui aurait pu être prise par un individu. Idée = taux de natalité par exemple, 2,1
enfants /foyer dans un pays=> les femmes mais on peut pas avoir 2,1 enfant ! Par entre l'âge ou la
taille c'est possible.
En pratique on utilise pour simplifier des classes.
Exemple : pour les âges [20,21[ la variable « âge » désigne l'ensemble des âges comprit entre 20 et
21 ans. (Ici 20 inclus, 21 exclus). En général on se ramène à des nombre entiers.
B) variables qualitatives :
> variables dont les modalités ne sont pas des quantités
exemple : « sexe », « nom de ville »...
> distinction à faire entre 2 sous-types :
–
qualitative ordinale : les modalités peut être ordonnées de manière naturelle.
–
qualitative nominale : les modalités ne sont pas ordonnées.
Chapitre 2 : exercices relatifs à la partie 1.
•
organisation des données :
Définition : on appel effectif le nombre de fois où elle apparaît dans les données brutes.
A) tableau d'effectifs et fréquences
On va se servir de cet effectif pour dresser un tableau qui est « un tableau d'effectifs et de
fréquences ».
On va partir des données brutes, pour aller vers un tableau qui sera une représentation synthétique.
Exemple : ici 189 données brutes, variables.
Notation mathématiques : on note x1, x2... xn (nombre de modalités) les différentes
modalités apparaissant pour une variable X donnée (ou classe). Pour chaque modalités xk
(n'importe laquelle des modalités de la liste), on note Nk l'effectif correspondant.
Tableau d'effectifs :
« Xi » ce qui code une modalité
« Ni »
x1
n1
x2
n2
...
...
Xn
Nn
total
N
[N= taille de l'échantillon]
propriété : la somme des effectifs est égal à la taille de l'échantillon n1+n2+...Nn = N
exemple : « quartier idéal »
modalités
effectifs
1
13
2
24
3
56
4
63
5
33
TOTAL
189
Définition : le fréquence d'une modalité xk c'est la quantité Fk=Nk/N (la fonction Fk) (Nk effectif
de xk)
propriété : F1+...Fn = 1
définition : l'information contenue dans le tableau d'effectifs ou de fréquences est appelée
distribution empirique.
B) regroupement de modalités
trop de modalités différentes → on fait des classes.
>si la variable est quantitative les classes seront des intervalles (exemple : [20,21[ )
>si la variable est qualitative les classes seront les catégories
exemple : pour « nom de ville » on peut regrouper les 42 modalités en « Toulouse » et « hors de
Toulouse ».
Les variables quantitatives continues utilisent nécessairement des classes !!!!
exercice 2.
TD n°2 de statistiques du 12.02
exercices 3 et 4
Partie 2 : représentations graphiques seulement des variables qualitatives
rappel de la dernière fois : on a eu les définitions, 4 types de variables, méthodes pour les
reconnaître : série de questions pour les identifier :
–
peut on ordonner les modalités ? (naturellement) => variable qualitative si NON et donc
nominale/ si OUI => peut on calculer une moyenne ? => si NON variable qualitative ordinale/ si
OUI => la moyenne est -elle toujours une modalité possible ? => si NON variable quantitative
discrète/ si OUI => quantitative continue !
A) Les diagrammes
Exemple : X = « mode de logement »
xi
ni
fi
Hi
li
ϴi
Cité U
9
0,05
0,5
0,25
17,1
HLM
31
0,16
1,6
0,8
59,1
résidence
73
0,39
3,9
1,95
139
maison
54
0,28
2,8
1,4
102,9
autre
22
0,12
1,2
0,6
41,9
total
189
1
10
L=5
360
1)
Diagramme en barres des effectifs
80
70
60
50
ni
40
fi
30
hi
20
10
0
Cité U
HLM
résidence
maison
autres
hi = fi x (hmax÷fmax)
hmax ≈ 5 cm = 50 mm disons 3,9 cm
→ hmax =3,9 : hi = fi x (hmax÷fmax) = fi x (3,9÷0,39) = fi x 10
→ hmax =5 : hi = fi x (5÷0,39)
(ou fmax est la plus grande des valeurs des fréquences- cf tableau)
2)
Diagramme uni-colonne des fréquences
100%
12%
90%
80%
28%
70%
60%
50%
0.39
40%
30%
20%
0.16
10%
0.05
0%
Ligne 1
li =fi x L
3)
diagramme en secteurs des pourcentages
16
28
maison
5
résidence
autre
cité U
12
HLM
39
ϴi = fi x 360
B) notion de mode
définition : pour une variable quantitative nominale le mode est la modalité de plus grand effectif.
On le note mod(X)
exemple : pour X = « mode de logement » mod(X) = « résidence »
exercice 5 à refaire seule !!
(y manque les images à partir de là >)
partie 3 indices de position : médiane et quartiles
remarque : uniquement pour X qualitative ordinal ou quantitative
1)
tableau d'effectifs cumulés
X variables (pas qualitative nominale- seul cas exclus) x1, x2, ...xn les modalités
ordonnées : N1, ….Nn effectifs, N taille de l'échelle
définition : Nk = N1+N2+...+Nn
remarque : N1 = n1 ; N2 = n1+n2+... ; Nn = N
Nk+1 = Nk+(nk+1)
« Nk / N des gens prennent une modalité inférieure à xk »
2)
médiane : med(X)
définition : si X est qualitative ordinale ou quantitative discrète med(X) est la modalité dont le rang
est immédiatement supérieur à N/2
med(X) = xk <=> Nk-1 ≤ N/2 < Nk
exemple : X = « quartier idéale » 1,2,2,3,3,4,4,4,4,5,5 N = 11 dans un premier cas et dans un second
cas on retire un 4 donc N = 10
dans le cas 2 :
X1
ni
Ni
1
1
1
2
2
3
3
2
5
4
3
8
5
2
10
N/2 ≠ Nk si med(X) = xk
définition : si X est quantitative continue la classe médiane [xk, xk+1[ est la classe dont le rang est
immédiatement supérieur à N/2. La médiane est le centre de la classe médiane :
med(X) = (xk + (xk+1)) / 2
exemple : X = « âge »
xi
ni
Ni
[14,18[
3
3
[18,19[
2
5
[19,20[
2
7
[20,21[
N2 = 5 ≤ N/2 < 7 =N3
la classe médiane est [19,20[
med(X) = 19+20 / 2 = 19,5
3
10
exercice 7
remarque : la médiane est un indice robuste => si on change un peu les données on va pas
forcément changer la médiane. On dit qu'elle est peu sensible aux valeurs extrêmes ou valeurs
aberrantes / atypiques).
Exemple : o regarde les notes d'une dictée : 5 élèves ont fait 0,1,2,5, et 10 fautes. La médiane est 2.
si on remplace le 10 par le 30 la médiane serait encore 2. à part la valeur extrême la médiane rend
compte assez bien de l'échantillon. L’intérêt est de comparer ceci avec la moyenne.
La moyenne n'est pas un indice robuste !
3)
Quartiles, déciles et centiles.
Définition : on définit les 3 quartiles Q1, Q2 et Q3 de la même manière que la médiane en
remplaçant N/2 par N/4, N/2 et 3N/4
définition : pour les déciles on remplace D1, D2, … D9 par N/10, 2N/10, 3N/10... 9N/10
définition : pour les centiles on remplace C1, C2... C99 par N/100, 2N/100... 99N/100
exercice 8
TD
partie 4 : variables quantitatives : représentation graphiques, indices de
centralité et de dispersion.
Note : X= variable quantitative ( variable quantitative discrète VQD et variable quantitative
continue VQC)
x1,x2....., xm modalités
n1,.....nm effectifs
f1,.....fm fréquences N= n1+.....+nm
1.
représentation graphiques
A. VQD
diagramme en bâtons des effectifs / fréquences / %
Exemple : X = « nombre de personne vivant dans le même logement »
Xi
Ni
Ni x Xi
Ni x Xi²
1
57
57
57
2
47
94
188
3
40
120
360
4
35
140
560
5
8
40
200
6
1
6
36
7
1
7
49
TOTAL
189 (N)
S= 464
Ẍ = S/N = 456/189 = 2,6
Var(X) =(S²/N)-ẍ² =(1450/189)-2,6² = 1,62
(écart type) = racine 1,62 = 1,27 personnes
S² = 1450
B. VQC
définition : on appel amplitude d'une classe [xk ; xk+1[ la différence Ak= (xk+1)-xk
on appel densité d'un effectif / fréquence/ % le rapport nk/ak
fk/ak 100fk/ak
histogramme :
remarque : l'aire (pas forcément des centimètre carrés) du rectangle représente Nk est Ak x Dk=
Nk/Ak = Nk donc c'est amplitude x densité = effectif
Ci = centre de classe => remplace Xi dans le cas des VQD
Exemple : X = « âge »
Xi
Ni
Ai
Di
Ci
Ni x Ci
Ni x Ci²
[14;17[
19
3
6,33
15,5
294,5
4564,75
[17;19[
11
2
5,5
18
198
3564
[19;20[
22
1
22
19,5
429
8365,5
[20;21[
39
1
39
20,5
799,5
16389,75
[21;22[
18
1
18
21,5
387
8320,5
[22;24[
23
2
11,5
23
529
12167
[24;27[
24
3
8
25,5
612
15606
[27;31[
21
4
5,25
29
609
17661
[31;35[
12
4
3
33
396
13068
TOTAL
189
S = 4254
LA DENSITE SE NOTE Dk
 = S/N = 4254/189 = 22,5 Var(X)=(99706,5/189)-22,5² = 21,3
2.
S² = 99706,5
indices de centralité : moyenne et modes
A. VQD
définition : soit X une VQD. On appel moyenne (empirique) de X la quantité
donc : avec le tableau de l'exemple 1 => X = S/N = 464/189 ≈ 2,46
définition : on dit qu'un diagrammes en bâtons possède un maximum relatif en la modalité Xk, si
Nk > Nk+1 et Nk > Nk-1. On appel mode de X toute modalité correspondante à un maximum relatif.
Remarque : par convention, on considère qu'on a N0 = Nm+1 = 0
Exemple :
Remarque : cette notion de mode est valable pour les VQD
B. VQC
définition : - le centre de la classe [Xk ; Xk+1[ est la demi-somme de ces bornes :
Ck = Xk + (Xk+1)/2
–
la moyenne d'une VQC est la quantité
–
on appel classe modale toute classe correspondante à un maximum relatif dans
l'histogramme. Le centre d'un classe modale est le mode
1.
indices de dispersion : variance et écart-type ( et étendu)
A. étude
définition : - si X est une VQD de modalité x1,...xm, son étendue est la différence xm – x1
–
si X est VQC de classe [x1 ; x2[,....[xm ; xm+1[, son étendue est (xm+1) – x1
B. variance
définition : soit X une VQD de moyenne ẍ. La variance de X est
Var (X) =
interprétation : - Var (X) = 0 : dans ce cas x1= x2=... xm =ẍ
–
Var(X) est « petite » : les modalités se concentrent autour de la moyenne ẍ est bon bon
résumé
–
Var(X) est « grande » : ẍ est un mauvais résumé
exemple : les notes de français sont plus resserrées au collège contrairement en maths.
Propriété :
définition : soit X de moyenne ẍ la variance de X est
exercice 9
TD
4.
interprétation des graphiques.
A. Distribution proche de la symétrie
commentaires : voir sur feuille
Remarque : de manière générale, le fait qu'on ait une distribution symétrique => écart entre
moyenne et médiane doit pas être très grande. Si on a une symétrie moyenne et médiane vont
rester proches.
Petite conclusion : de échantillon 1 à 3, l'hétérogénéité et croissante c'est pourquoi il y a des
variances.
Échantillon 1 moyenne = 4,53
med(X) = 4,5
var(X) = 0,32
écart type = 0,6
échantillon 2
échantillon 3
= 5,48
= 10,06
= 5,25
= 10,5
= 7,71
= 33,83
= 2,5
= 5,8
B. Distribution plutôt asymétrique
Remarque : de manière générale, la dissymétrie => l'écart entre le moyenne et la médiane qui
sera pas trop élevée.
Échantillon 4 moyenne = 6,15
med(X) = 3,5
var(X) = 25,28
écart type = 5
échantillon 5
= 9,13
= 11
= 42,01
= 6,5
Partie 5 : distribution conjointes, marginales et conditionnelles.
On considère ici 2 VqualN surtout. X et Y. modalités X1, …. Xl l= lignes et Y1, ….Yc c= colonne
définition : l'effectif conjoint « nlc » est le nombre d'individus qui prennent les modalités xl et xc.
A. Tableau des effectifs conjoints (table de contingence)
définition : l'effectif marginal nl. est le nombre d'individus prenant la modalité xl. Respectivement
pour n.c.
nl. = nl1+ nl2+... nlC
n.c = n1c+ n2c+... nLc
Remarque : les marges de X et de Y = distribution marginale ou amarginale.
Remarque 2 : ce qu'on appel distribution marginale de X, formellement c'est les couples (X1 ;
n1.), …, (X2 ; n2.)
exemple : X = « propriétaire =X2 / locataire =X1 » et Y = « zone d'habitat » (centre ville = Y1,
banlieues =Y2, villages =Y3, cités =Y4, autres =Y5)
71 individus sont locataires au centre ville (n11 = 71)
24........................ propriétaires dans un village (n23 = 24)
B. représentations graphiques
exemple :
1.
distribution (X;Y) : un diagramme en barre des effectifs (de X) pour chaque modalités
2.
distribution (Y;X)
3.
distribution conditionnelles
on s'intéresse aux fréquences (%)
exemple : distribution de X conditionnellement à Y
pour Y1 = « centre ville »
pour Y2 = « banlieue »
…..
exemple : distribution de Y conditionnellement à X
Partie 6 : Mesure d'association entre deux variables.
A. Langage des probabilités
définition : probabilité empirique qu'un individu prenne la modalité xl est la proportion d'individus
qui prennent cette modalité.
Prob ({X=xl}) = n.l / N
(fréquence associée à xl)
On pourra définir de la même manière :
Prob ({Y=yc}) = n.c / N
Prob ({X=xl}, {Y=yc}) = nlc / N
définition : la probabilité empirique qu'une individu prenne la modalité xl sachant qu'il prend la
modalité yc est la proportion d'individus prenant parmi ceux qui prennent yc.
Prob : {X=yc} ({X=xl}) = nlc/n.c
exemple : X = « locataire / propriétaire »
Y = « zone d'habitation »
X/Y
Y1
Y2
Y3
Y4
Y5
Marge de X
x1
71
21
8
29
5
134
x2
16
9
24
1
5
55
30
32
30
10
N = 189
Marge de Y 87
Prob ({X=x1}) = n1./N = 134/189 = 0,71
Prob ({X=x3}) = n.3/N = 32/189 = 0,17
Prob ({X=x1}), ({X=x3}) = n.13/N = 8/189 = 0,04 {(X;Y) = (x1;y3)}
proportion d'habitants habitant dans les centres villes parmi les locataires :
Prob {X=x1} ({Y=y1}) = n11/n1. = 71/134 = 0,53
probabilité d'être locataire sachant qu'on habite au village
Prob {Y=y3} ({X=x1}) = n13/n.3 = 8/32 = 0,25
définition : X et Y sont indépendants (n'ont pas de liens entre eux) si on a :
Propriété : si X et Y sont indépendants on a Prob ({X = xl}, {Y = yc}) = Prob ({X = xl}) x Prob
({Y = yc})
c'est à dire =
B) Explications : en cas d'indépendance on a :
(d'où en multipliant par nl.)
Ce qui se traduit par :
C)
Le X²
définition : effectif conjoint théorique / observé le nombre
(théotique = indépendant)
Ecart entre les 2 nombre est mesuré par une contribution
Le khi-deux = X² d'indépendance entre X et Y, c'est la somme de toutes les contributions :
(L x C terme)
Concrètement pour calculer le X² on dresse :
1.
Tableau des effectifs conjoints théoriques :
Effectifs conjoints théoriques :
X² = 1,407+ 0,003+ 9,509+ 2,809+ 0,616+... = 49,29
2.
tableau des contributions
exemple : X = « locataire / propriétaire » et Y = « zone d'habitation »
V de Cramer et coefficient ø => lettre grecque Ψ
Propriété : on peut montrer que :
0 ≤ X² ≤ N x [ min (L,C) -1] (positif)
c'est à dire : 0 ≤ X², X² ≤ N x (L-&) et X² ≤ N x (C-1)
On appelle V de Cramer la quantité
Remarque : d'après la propriété précédente 0 ≤ øc ≤ 1
interprétation :
0 ≤ øc ≤ 0,3 on dit que le V de Cramer est petit <=> le lien entre X et Y est faible.
Si 0,3 ≤ øc ≤ 0,5 <=> moyen, intensité moyenne.
Si 0,5 ≤ øc ≤ 1 <=> lien fort.
Exemple :
cas particulier si L=C=2
le V de Cramer appelé « coef phi », est égal à
exercice 18
X /Y
y1
y2
Marge de X
x1
129
17
146
x2
13
30
43
Marge de Y
142
47
N= 189
X/Y
y1
y2
Marge de X
x1
109,7
36,3
146
x2
32,3
10,7
43
Marge de Y
142
47
N= 189
X/Y
y1
y2
x1
3,4
10,3
x2
11,5
34,9
Téléchargement