Analyse de données quantitatives longitudinale Bref rappel statistique (1) Jean-François Bickel Université de Fribourg Année académique 2009-2010 (SA09) 1 La statistique en sciences sociales Un ensemble d’outils et de procédures pour investiguer le monde empirique • analyse univariée • analyse bivariée • analyse multivariée 2 Utilisation de la statistique Décrire • une variable et sa distribution • les relations entre deux ou plusieurs variables 3 Utilisation de la statistique (2) Inférer • déduire la valeur d’un paramètre (généralement dans une population) à partir de la valeur d’une statistique (généralement dans un échantillon) • tester des hypothèses 4 Types de variable Variables discrètes / continues Variables • nominales • ordinales • intervalles • ratio Variables quantitatives / catégorielles 5 Ouvrir le fichier de données 6 Ouvrir le fichier de données 7 Ouvrir le fichier de données 8 Statistique univariée Décrire une distribution par des nombres •moyenne •médiane •quartiles 9 Statistique univariée (2) Le « résumé en 5 chiffres » d’une distribution se compose de: • minimum • premier quartile • médiane • troisième quartile • maximum 10 Statistique univariée (3) L’écart type (s) est une mesure de la distance moyenne des observations à la moyenne L’écart type est défini en référence à une autre mesure de dispersion qui est appelée la variance (s2) Celle-ci est la moyenne des distances, élevées au carré, des observations à la moyenne 11 Statistique univariée avec SPSS 12 Statistique univariée avec SPSS 13 Statistique univariée avec SPSS 14 Statistique univariée avec SPSS 15 Statistique univariée avec SPSS 16 Décrire une distribution graphiquement Pour décrire graphiquement une variable quantitative, deux types de diagrammes sont plus particulièrement recommandables 1) La boîte à moustache (« boxplot ») 2) L’histogramme (« histogram ») 17 Décrire une distribution graphiquement Une boîte à moustache est une représentation du « résumé en 5 chiffres »: •minimum •1er quartile (Q1) •médiane •3e quartile (Q3) •maximum 18 Décrire une distribution graphiquement Un histogramme est un graphique en barres qui montre l’effectif, ou le pourcentage, des observations appartenant à un éventail de valeurs donné (cas des variables quantitatives) ou à une catégorie (cas des variables catégorielles) 19 Décrire une distribution graphiquement 20 Décrire une distribution graphiquement 21 Décrire une distribution graphiquement 22 Décrire une distribution graphiquement 23 Décrire une distribution graphiquement Boîte à moustaches (Boxplot ») 24 Décrire une distribution graphiquement La boîte centrale représente la distance entre le 1er et le 3e quartiles La ligne horizontale à l’intérieur de la boîte centrale représente la médiane De part et d’autres de la boîte centrale, on trouve les « moustaches » 25 Décrire une distribution graphiquement L’extrémité de chaque moustache se trouve à 1.5 x l’intervalle interquartile (IQR) Pour calculer l’intervalle interquartile: IQR = Q3 – Q1 Les valeurs qui se trouvent au-delà des moustaches sont considérées comme extrêmes (« outliers ») 26 Décrire une distribution graphiquement Dans le cas de l’indice de fertilité, on observe que la médiane est beaucoup plus proche de Q1 que de Q3 et que la moustache supérieure est plus longue que celle inférieure C’est la « signature » d’une distribution asymétrique (« skewed ») positivement (ou « à droite ») 27 Décrire une distribution graphiquement Histogramme 28 Décrire une distribution graphiquement Histogramme d’une variable quantitative SPSS divise automatiquement l’éventail des valeurs en intervalles de classes d’égale largeur, puis compte le nombre d’observations dans chaque classe Il est aussi possible de recoder soi-même la variable, puis d’en faire l’histogramme 29 Décrire une distribution graphiquement En double-cliquant sur le graphique, on ouvre « l’éditeur de diagrammes ». Ce dernier permet de modifier l’apparence du graphique 30 Décrire une distribution graphiquement Par exemple, en cliquant une fois sur l’ordonnée (cf. dia précédent), puis en allant dans le menu contextuel (bouton droit de la souris) -> propriétés (« properties »), on peut modifier l’échelle de l’axe (cf. dia suivant) 31 Décrire une distribution graphiquement 32 Décrire une distribution graphiquement 33 Analyse bivariée Pour décrire la relation entre deux variables quantitatives, deux outils principaux •l’un graphique: le diagramme de dispersion (« scatterplot ») •l’autre numérique: la corrélation 34 Analyse bivariée 35 Analyse bivariée 36 Analyse bivariée 37 Analyse bivariée 38 Analyse bivariée 39 Analyse bivariée 40 Analyse bivariée 41 Analyse bivariée Pour comparer deux variables catégorielles: le tableau croisé • on peut s’aider de graphiques! 42 Analyse bivariée 43 Analyse bivariée 44 Analyse bivariée 45 Analyse bivariée 100% 10 7 11 19 12 23 80% 18 29 9 30 27 4 46 33 23 9 60% 6 28 7 19 14 13 40% 41 19 59 20% 18 27 25 12 34 13 12 13 2 enf<6 3 enf6-12 4 enf13-19 14 17 0% 1 nprnt<40 1 HptFpt 2 HptFtpl 3 HptFtpc 5 nprnt40+ 4 HptFnemp 6 enf20+ 7 nidvide 5 Autres 46 Analyse bivariée Comparer la moyenne (d’une variable quantitative) entre deux ou plusieurs groupes (représentés par une variable catégorielle) 47 Familialismes et fécondité 48 Familialismes et fécondité 49 Familialismes et fécondité Tableau de bord fertil familism type 1 optional 2 explicit 3 defamilialism 4 implicit Total Moyenne 1.8800 1.4460 1.5980 1.4017 1.5575 N 4 5 5 6 20 Ecart-type .08042 .27655 .21959 .13333 .25538 50 Familialismes et fécondité Tableau ANOVA fertil * familism type de familialisme Inter-groupes Intra-classe Total Combiné Somme des carrés .632 .607 1.239 Moyenne des carrés .211 .038 df 3 16 19 F 5.553 Signification .008 Mesures des associations Eta fertil * familism type de familialisme .714 Eta carré .510 51