La statistique en sciences sociales

publicité
Analyse de données
quantitatives longitudinale
Bref rappel statistique (1)
Jean-François Bickel
Université de Fribourg
Année académique 2009-2010 (SA09)
1
La statistique en sciences sociales
Un ensemble d’outils et de procédures pour
investiguer le monde empirique
• analyse univariée
• analyse bivariée
• analyse multivariée
2
Utilisation de la statistique
Décrire
• une variable et sa distribution
• les relations entre deux ou plusieurs
variables
3
Utilisation de la statistique (2)
Inférer
• déduire la valeur d’un paramètre
(généralement dans une population) à
partir de la valeur d’une statistique
(généralement dans un échantillon)
• tester des hypothèses
4
Types de variable
Variables discrètes / continues
Variables
• nominales
• ordinales
• intervalles
• ratio
Variables quantitatives / catégorielles
5
Ouvrir le fichier de données
6
Ouvrir le fichier de données
7
Ouvrir le fichier de données
8
Statistique univariée
Décrire une distribution par des nombres
•moyenne
•médiane
•quartiles
9
Statistique univariée (2)
Le « résumé en 5 chiffres » d’une distribution
se compose de:
• minimum
• premier quartile
• médiane
• troisième quartile
• maximum
10
Statistique univariée (3)
L’écart type (s) est une mesure de la distance
moyenne des observations à la moyenne
L’écart type est défini en référence à une
autre mesure de dispersion qui est appelée la
variance (s2)
Celle-ci est la moyenne des distances,
élevées au carré, des observations à la
moyenne
11
Statistique univariée avec SPSS
12
Statistique univariée avec SPSS
13
Statistique univariée avec SPSS
14
Statistique univariée avec SPSS
15
Statistique univariée avec SPSS
16
Décrire une distribution graphiquement
Pour décrire graphiquement une variable
quantitative, deux types de diagrammes sont
plus particulièrement recommandables
1) La boîte à moustache (« boxplot »)
2) L’histogramme (« histogram »)
17
Décrire une distribution graphiquement
Une boîte à moustache est une
représentation du « résumé en 5 chiffres »:
•minimum
•1er quartile (Q1)
•médiane
•3e quartile (Q3)
•maximum
18
Décrire une distribution graphiquement
Un histogramme est un graphique en barres
qui montre l’effectif, ou le pourcentage, des
observations appartenant à un éventail de
valeurs donné (cas des variables
quantitatives) ou à une catégorie (cas des
variables catégorielles)
19
Décrire une distribution graphiquement
20
Décrire une distribution graphiquement
21
Décrire une distribution graphiquement
22
Décrire une distribution graphiquement
23
Décrire une distribution graphiquement
Boîte à moustaches (Boxplot »)
24
Décrire une distribution graphiquement
La boîte centrale représente la distance entre
le 1er et le 3e quartiles
La ligne horizontale à l’intérieur de la boîte
centrale représente la médiane
De part et d’autres de la boîte centrale, on
trouve les « moustaches »
25
Décrire une distribution graphiquement
L’extrémité de chaque moustache se trouve à
1.5 x l’intervalle interquartile (IQR)
Pour calculer l’intervalle interquartile:
IQR = Q3 – Q1
Les valeurs qui se trouvent au-delà des
moustaches sont considérées comme
extrêmes (« outliers »)
26
Décrire une distribution graphiquement
Dans le cas de l’indice de fertilité, on observe
que la médiane est beaucoup plus proche de
Q1 que de Q3 et que la moustache
supérieure est plus longue que celle
inférieure
C’est la « signature » d’une distribution
asymétrique (« skewed ») positivement (ou
« à droite »)
27
Décrire une distribution graphiquement
Histogramme
28
Décrire une distribution graphiquement
Histogramme d’une variable quantitative
SPSS divise automatiquement l’éventail des
valeurs en intervalles de classes d’égale
largeur, puis compte le nombre
d’observations dans chaque classe
Il est aussi possible de recoder soi-même la
variable, puis d’en faire l’histogramme
29
Décrire une distribution graphiquement
En double-cliquant sur
le graphique, on ouvre
« l’éditeur de
diagrammes ».
Ce dernier permet de
modifier l’apparence
du graphique
30
Décrire une distribution graphiquement
Par exemple, en cliquant une fois sur
l’ordonnée (cf. dia précédent), puis en allant
dans le menu contextuel (bouton droit de la
souris) -> propriétés (« properties »), on peut
modifier l’échelle de l’axe (cf. dia suivant)
31
Décrire une distribution graphiquement
32
Décrire une distribution graphiquement
33
Analyse bivariée
Pour décrire la relation entre deux variables
quantitatives, deux outils principaux
•l’un graphique: le diagramme de
dispersion (« scatterplot »)
•l’autre numérique: la corrélation
34
Analyse bivariée
35
Analyse bivariée
36
Analyse bivariée
37
Analyse bivariée
38
Analyse bivariée
39
Analyse bivariée
40
Analyse bivariée
41
Analyse bivariée
Pour comparer deux variables catégorielles:
le tableau croisé
• on peut s’aider de graphiques!
42
Analyse bivariée
43
Analyse bivariée
44
Analyse bivariée
45
Analyse bivariée
100%
10
7
11
19
12
23
80%
18
29
9
30
27
4
46
33
23
9
60%
6
28
7
19
14
13
40%
41
19
59
20%
18
27
25
12
34
13
12
13
2 enf<6
3 enf6-12
4 enf13-19
14
17
0%
1 nprnt<40
1 HptFpt
2 HptFtpl
3 HptFtpc
5 nprnt40+
4 HptFnemp
6 enf20+
7 nidvide
5 Autres
46
Analyse bivariée
Comparer la moyenne (d’une variable
quantitative) entre deux ou plusieurs groupes
(représentés par une variable catégorielle)
47
Familialismes et fécondité
48
Familialismes et fécondité
49
Familialismes et fécondité
Tableau de bord
fertil
familism type
1 optional
2 explicit
3 defamilialism
4 implicit
Total
Moyenne
1.8800
1.4460
1.5980
1.4017
1.5575
N
4
5
5
6
20
Ecart-type
.08042
.27655
.21959
.13333
.25538
50
Familialismes et fécondité
Tableau ANOVA
fertil * familism type
de familialisme
Inter-groupes
Intra-classe
Total
Combiné
Somme
des carrés
.632
.607
1.239
Moyenne
des carrés
.211
.038
df
3
16
19
F
5.553
Signification
.008
Mesures des associations
Eta
fertil * familism type
de familialisme
.714
Eta carré
.510
51
Téléchargement