Année universitaire 2009-2010 73 Didier BUSCA & Anastasia MEIDANI UNIVERSITE DE TOULOUSE-LE MIRAIL INSTITUT DE SCIENCES SOCIALES « RAYMONT LEDRUT » [SO0013B] METHODES QUANTITATIVES : UTILISATION DU LOGICIEL SPSS VERSION 14.0 SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 Table des matières 74 I . LES PROCEDURES ELEMENTAIRES SUR LES VARIABLES ET LES DONNEES………………………… 75 1 . PRESENTATION GENERALE........................................................................................... 2 . COMMENT SAISIR LE DICTIONNAIRE DE VARIABLES ?....................................................... 3 . COMMENT SAISIR LE DICTIONNAIRE DE DONNEES ?......................................................... 4 . RECODAGE D’UNE VARIABLE......................................................................................... 4.1. CALCUL D’UNE VARIABLE................................................................................................... 4.2. LES PROCEDURES DE RECODAGE......................................................................................... 5 L’ECHANTILLONNAGE.................................................................................................... 5.1. SELECTION DES INDIVIDUS............................................................................................... 5.2. SELECTION D’UN ECHANTILLON ALEATOIRE............................................................................ 5.3. SELECTION SELON UN INTERVALLE DE TEMPS OU D’OBSERVATIONS.............................................. 6 . SAUVEGARDE ET OUVERTURE D’UN FICHIER AU FORMAT SPSS (.SAV).................................. 75 75 79 80 81 82 87 87 87 88 89 II . LES TRAITEMENTS STATISTIQUES DE DONNEES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 1 . LA FENETRE DE RESULTATS...................................................………………………………. 2 . DESCRIPTIONS DE DONNEES QUALITATIVES ET QUANTITATIVES......................................... 2.1. ANALYSE DESCRIPTIVE DE DONNEES QUALITATIVES................................................................. 2.2. ANALYSE DESCRIPTIVE DE DONNEES QUANTITATIVES............................................................... 3 . MESURE DE LIAISON ENTRE DEUX VARIABLES QUALITATIVES............................................. 3.1. LE TEST D’INDEPENDANCE DU KHI²..................................................................................... 3.2. TABLEAUX CROISES SIMPLES.............................................................................................. 3.3. TABLEAUX CROISES DANS UNE SOUS-POPULATION................................................................... 4 . MESURE DE LIAISON ENTRE DEUX VARIABLES QUANTITATIVES : LE COEFFICIENT DE CORRELATION DE PEARSON................................................................... 4.1. LA REPRESENTATION DU NUAGE DE POINTS........................................................................... 4.2. LA PROCEDURE DE MISE EN ŒUVRE DU CALCUL DU COEFFICIENT DE PEARSON AVEC SPSS................. 90 91 94 96 98 98 99 105 III . LES REPRESENTATIONS GRAPHIQUES 109 .......................................... 105 106 108 1 . RECAPITULATIFS POUR GROUPES D’OBSERVATIONS......................................................... 2 . RECAPITULATIFS POUR VARIABLES DISTINCTES............................................................... 3 . VALEURS DES OBSERVATIONS INDIVIDUELLES................................................................. 4 . GRAPHIQUES A VOCATION STATISTIQUE......................................................................... 4.1. LA BOITE A MOUSTACHES................................................................................................. 4.2. NUAGE DE POINTS AVEC AJUSTEMENT LINEAIRE...................................................................... 110 111 113 114 114 115 IV . EXERCICE D’APPLICATION . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 Avant propos SPSS est un logiciel crée dans les années 70. Il est devenu un standard international dans le traitement quantitatif de données qualitatives et/ou quantitatives. Ce logiciel peut lire la plupart des formats de fichiers : les fichiers SPSS/PC (SPSS version DOS) et les fichiers portables SPSS (.POR) provenant d’un autre environnement que Windows, les données provenant de tableurs et de bases de données (Excel, Lotus, Multiplan, Dbase), les données ASII tabulées. SPSS est très performant pour les traitements statistiques élémentaires (tableau descriptif ou de contingence), les régressions linéaires mais nettement moins efficaces pour les analyses factorielles et les représentations graphiques. 75 I. Les procédures élémentaires sur les variables et les données 1. Présentation générale La fenêtre de l’Editeur de données comprend dix menus déroulant : 5 menus communs à toutes les applications Microsoft : Fichier Edition Outils Fenêtre et Aide. 5 menus spécifiques à SPSS : Affichage Données Transformer Analyses et Graphes Dès que vous êtes sur SPSS, l’affichage des données s’ouvre automatiquement. Pour accéder aux variables (dictionnaire de variables), il suffit de cliquer en bas de la fenêtre sur l’icône : Affichage des variables. Que sont les variables et données ? Les variables sont par exemple les questions directement posées à un individu lors d’une enquête par questionnaire (ou reformulées de façon synthétique), les données sont par exemple les réponses apportées par les individus à ce questionnaire. Exemple : La question "Quel âge avez-vous ?", la variable peut être "age". Si la variable est numérique, la réponse prend la forme "25" (25 ans). Cette donnée peut être saisie directement comme une valeur numérique ou être transformée en classe (se reporter à la partie Recodage du document). 2. Comment saisir le dictionnaire de variables ? La saisie des variables s’opère à partir de "Affichage des variables". A chaque ligne correspond une variable. Le dictionnaire de variables comprend dix colonnes : Nom, Type, SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 Largeur, Décimales, Etiquette, Valeurs, Manquant, Colonnes, Aligner, Mesure. Chacun de ces items va permettre de définir chaque variable. Donner un nom à la variable Trois règles doivent être respectées. Le nom de chaque variable est unique, il doit comporter la question qui peut être formulée directement. Attention cependant, aucun espace, ni caractère spécial tel que &, les accents, « », etc. n’est accepté. De même, aucun chiffre en première position n’est accepté. Définir un type de variable SPSS gère les variables de type quantitatif (numérique), qualitatif (chaîne) et les dates. Cliquez sur "Type" pour sélectionner le format de votre variable. Un exemple de variable quantitative : "Quel est votre âge ?", réponses possibles : 25, 32, 45… Un exemple de variable qualitative : "Quelle est votre nationalité ?", réponses possibles : française, italienne, tunisienne… Rappel général sur les différents types de variables Une variable est dite qualitative ou catégorielle lorsque les modalités de cette variable sont de simples étiquettes descriptives. Si ses modalités sont sans aucun ordre significatif, on parle de variables catégorielle nominale (ou qualitative nominale : sexe, religion, etc.). Lorsqu’elles peuvent être ordonnées, on parle de variable catégorielle ordinale (ou qualitative ordinale : satisfaction, niveau d’étude, etc.). Une variable est dite quantitative lorsque les valeurs de cette variable peuvent être mesurées sur une échelle numérique permettant une comparaison. Si ces valeurs sont exprimées avec des chiffres après la virgule, on dit qu’il s’agit d’une variable quantitative continue (âge, taille, etc.). Dans le cas contraire, on parle de variable quantitative discrète (nombre d’enfants, d’étages). Attention, il est préférable de choisir "Numérique" pour les variables quantitatives et qualitatives. Ainsi, pour une variable qualitative, pour simplifier la saisie des données (ou réponses apportées aux questions), nous vous conseillons de faire le choix suivant : Exemple de variables qualitatives : À la question "Quelle est votre nationalité ?", la variable est "Nationalité". Les réponses peuvent être : 1. française, 2. italienne, 3. tunisienne, etc. Cette variables, dont les modalités de réponses sont codées 1., 2., 3. devient une "fausse variable quantitative (numérique)". Il faut par ailleurs indiquer la largeur en caractère et le nombre de décimales des modalités codées de réponse. Par exemple dans le cas d’une variable qualitative codée : 1, 2, 3, il faut choisir une largeur 1 et une décimale 0. Dans le cas d’une variable quantitative "age", dont les réponses peuvent être : 25, 44, 101, etc., il faut choisir une largeur 3 et une décimale 0. Nous vous conseillons de choisir par défaut pour les variables numériques, une largeur de 20. SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 76 77 N.B. Les formats peuvent également être saisis dans les deux colonnes suivantes "Largeur" et "Décimales". Si vous travaillez avec des variables qualitatives non codées comme le nom, le prénom ou l’adresse, cliquez sur "Chaîne". Vous devrez alors saisir le nombre de caractères maximum de vos réponses. Exemple : Identifiez le nom le plus long, pour la saisie du nom "Martin" : le format largeur est égal à 6. Définir une étiquette (de variable) A chaque variable, il est possible d’attacher une étiquette descriptive afin de rendre son intitulé plus explicite lors des sorties statistiques et graphiques. Les étiquettes de variable peuvent comporter un maximum de 60 caractères. Exemple : A la question "Quelle est votre situation matrimoniale ?", l’intitulé de l’étiquette de variable peut être : "Situation matrimoniale de l’enquêté". SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 Définir des étiquettes de valeurs 78 Les étiquettes de valeurs sont spécifiques aux variables qualitatives. Exemple A la question "Quelle est votre situation matrimoniale ?", les étiquettes de valeurs peuvent être : 1. Célibataire, 2. Marié, 3. Veuf, 4. Divorcé. Mentionner les données manquantes SPSS tient compte des données manquantes dans l’ensemble des procédures statistiques. Il en existe deux types : les valeurs manquantes systèmes définies par un point (procédure automatique). Elles signifient qu’aucune donnée n’a été saisie dans le fichier. Cela signifie par exemple qu’un individu interrogé n’a pas répondu à une question. L’absence de réponse est considérée comme une réponse manquante ; les valeurs manquantes codées par l’utilisateur. Dans ce cas, pour définir vos propres codes de valeurs manquantes, il faut cliquer sur "Manquant" et compléter les cases de "valeur manquante discrète". Par exemple, reprenons notre variable "Quelle est votre nationalité ?". Dans cette variable, trois modalités sont proposées : 1. française, 2. italienne, 3. tunisienne. Si on souhaite faire une analyse uniquement sur les européens, les réponses apportées par les tunisiens au questionnaire doivent être exclues de l’analyse. Pour ce faire, il est possible dans "Manquant" de saisir dans "Valeur manquante discrète", le code 3. correspondant aux tunisiens. Ce choix n’est pas définitif, à tout moment, on peut revenir sur "Valeur manquante discrète" est supprimer le code 3 saisi. SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 79 Préciser la mesure Cette procédure permet de préciser la manière dont la variable sera traitée. Généralement, toutes les variables quantitatives continues devront être traitées en mesure "échelle" ; toutes les variables ordinales devront être traitées en mesure "ordinale" ; toutes les variables qualitatives seront traitées en mesure "nominale". Toutefois, il est conseillé de choisir systématiquement la mesure "échelle". Mettre en forme La procédure Colonne permet de définir la largeur de la colonne. Aligner permet de centrer le texte ou de le décaler à gauche ou à droite. Vous devez recommencer la procédure d’identification des variables, autant de fois qu’il y a de variables dans le questionnaire. Nous vous conseillons d’enregistrer votre fichier. Se reporter à la rubrique Sauvegarde et ouverture d’un fichier au format SPSS (.sav). Remarque : Une fois l’ensemble des variables saisies, il est toujours possible d’ajouter de nouvelles variables ou de nouvelles modalités de réponses aux variables. Il suffit d’aller dans "Affichage des variables" et de faire les modifications souhaitées. 3. Comment saisir le dictionnaire de données ? Après avoir saisi, l’ensemble des variables, vous devez cliquer sur l’icône "Affichage des données". SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 La structure des fichiers de données est similaire à celle d’une table de saisie de données classiques. En ligne, sont saisis les individus et en colonnes, les modalités de réponses aux différentes variables. Si vous avez attribué une valeur (Cf. Définir des étiquettes de valeurs), à chacune des modalités d’une variable qualitative, vous pouvez saisir directement l’étiquette de valeur ou la sélectionner à l’aide du menu déroulant. La saisie est plus rapide et les traitements statistiques mentionneront la valeur attribuée à l’étiquette (Nationalité : 1. française, 2. italienne, 3. tunisienne ; age : 1. moins de 18 ans, 2. 19 à 30 ans, 3. plus de 31 ans). 80 Si vous souhaitez que les étiquettes apparaissent vous pouvez cliquer sur l’icône "étiquettes de valeurs" . Vous devez recommencer la procédure de saisie des données en ligne, autant de fois qu’il y a d’individus ayant répondu au questionnaire. Nous vous conseillons d’enregistrer votre fichier régulièrement pour ne pas perdre vos données. Se reporter à la rubrique : 6. Sauvegarde et ouverture d’un fichier au format SPSS (.sav). 4. Recodage d’une variable Les opérations de recodage sont essentielles pour le traitement d’une enquête. Elles permettent de transformer les variables saisies initialement en variables plus adaptées à la présentation des résultats d’analyse. Prenons le cas d’une étude sur la situation professionnelle des français selon leur âge. Les variables utilisées sont : SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 Variable quantitative (numérique) : "age". Modalités de réponse : 25, 35, 42, 18, 55, 22, etc. Variable quantitative (numérique) : "annee d’experience". Modalités de réponse : 5, 3, 12, 0, 30, 0, etc. Variable qualitative codée (numérique) : "situation professionnelle". Modalités de réponse : 1. En activité, moins de 5 ans d’expérience ; 2. En activité, plus de 5 ans d’expérience ; 3. Inactif. 81 Tableau de données 4.1. Calcul d’une variable Dans notre exemple, nous pouvons faire le choix de créer une nouvelle variable "Age a la 1ère embauche". Pour ce faire il faut calculer une variable (cf. 4.1). En parallèle, nous faisons le choix de recoder la variable "age", en "classes d’ages". De même, nous voulons réduire le nombre de modalités de réponses de la variable "situation professionnelle". Pour ce faire, il faut utiliser la procédure de recodage d’une variable (cf.4.2). Reprenons notre exemple. Nous voulons créer une variable "age a la 1ère embauche". Pour calculer une nouvelle variable, il faut se placer sur "affichage des données" puis aller dans le menu "Transformer" > "Calculer". Dans la case intitulée "Variable de destination", il faut préciser le nom de la nouvelle variable puis, dans "Expression numérique" il suffit de présenter le calcul effectué pour l’obtention de la nouvelle variable. SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 82 Exemple : Vous avez une variable « age » et une variable « Anciennete ». Vous voulez créer une variable « Age1ereEmbauche ». Saisissez l’expression numérique :"age – ancienneté". Vous pouvez sélectionner les variables dans la fenêtre listant les variables. Donnez le nom d’une nouvelle variable de destination : "Age1ereEmbauche" puis cliquer sur OK. La fonction "Types & Etiquette…" permet d’allouer une étiquette plus explicite à votre variable et de mentionner son type (numérique ou chaîne). Dans notre exemple, la variable est numérique. 4.2. Les procédures de recodage Afin de réaliser des transformations sur les variables, il faut utiliser le menu "Transformer" > "Recoder" pour recoder votre information ou de construire de nouvelles variables. Ce menu est parfaitement adapté pour transformer une variable quantitative continue comme la variable âge en une variable qualitative comme la classe d’âges. Deux options sont proposées : le recodage de variables et la création de variables. Le recodage de variables permet de recoder la variable sur la variable initiale tandis que la création de variables amène à créer une nouvelle variable. SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 83 Attention, il est donc obligatoire de choisir la deuxième option "création de variables". Ces nouvelles variables apparaissent dans "Affichage des variables". Elles sont situées à la fin de la liste des variables. Reprenons nos deux exemples. 1) Recoder la variable "age", en "classes d’ages" Exemple : Vous avez une variable quantitative continue "age", vous voulez créer une variable qualitative (Cl.age) comprenant des classes d’âges. Sélectionnez la variable "age" et indiquer le nom de la variable destination "Cl.age". Attention, il faut cliquer sur "Valider" Pour plus de clarté, attribuez une étiquette de variable "Classes d’ages". Cliquez sur "Anciennes et nouvelles valeurs" Indiquez les intervalles des classes d’âge. Nous avons crée 3 classes d’âges : 1. inférieur à 25 ans, 2. entre 25 et 40 ans, 3. supérieur à 40 ans. SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 84 Pour créer "1. Inférieur à 25 ans" : cliquer sur "Intervalle, du MINIMUM à la valeur" et indiquez 25 ; puis indiquez 1 dans "Valeur", puis cliquez sur "Ajouter". Pour créer "2. Entre 25 et 40 ans" : cliquez sur "intervalle" et indiquez 25 à 40 ; puis indiquez 2 dans "Valeur", puis cliquez sur "Ajouter". Pour créer "3. Supérieur à 40 ans" : cliquer sur "intervalle, de la valeur au MAXIMUM" et indiquez 40 ; puis indiquez 3 dans "Valeur", puis cliquez sur "Ajouter". SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 85 Au final, vous devez visualiser la configuration ci-contre, pour valider ce recodage cliquez sur "Poursuivre". Dans la fenêtre "Création de variables" cliquez sur "Ok". 2) Réduire le nombre de modalités de réponses de la variable "situation professionnelle". Exemple : Vous avez une variable qualitative "situation professionnelle", dont les modalités sont "1. En activité, moins de 5 ans d’expérience", "2. En activité, plus de 5 ans d’expérience", "3. Inactif". Vous voulez regrouper les modalités 1. et 2. En une nouvelle modalité "En activité". La nouvelle variable comportera ainsi deux modalités : "1. En activité" et "2. Inactif". SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 Sélectionnez la variable "situation professionnelle" et indiquer le nom de la variable destination "BisSitPro". Attention, il faut cliquer sur "Valider" Pour plus de clarté, attribuez une étiquette de variable "Bis- situation professionnelle" Cliquez sur "Anciennes et nouvelles valeurs" Indiquez les codes de modalités à regrouper. Nous avons deux modalités de réponse : 1. En activité, 2. Inactif. - Pour créer "1. En activité" : a- cliquer sur "Valeur" et indiquer le code la modalité de réponse 1 (qui correspond à "En activité", moins de 5 ans d’ancienneté); puis indiquez 1 dans "Valeur", puis cliquez sur "Ajouter". b- cliquer sur "Valeur" et indiquer le code la modalité de réponse 2 (qui correspond à "En activité", plus de 5 ans d’ancienneté); puis indiquez 1 dans "Valeur", puis cliquez sur "Ajouter". - Pour créer "2. Inactif" : cliquer sur "Valeur" et indiquer le code la modalité de réponse 3 (qui correspond à "Inactif"); puis indiquez 2 dans "Valeur", puis cliquez sur "Ajouter". SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 Au final, vous devez visualiser la configuration ci-contre, pour valider ce recodage cliquez sur "Poursuivre". Puis dans la fenêtre "Création de variables" cliquez sur "Ok". 86 5. L’échantillonnage 87 5.1. Sélection des individus La sélection d’observations permet de choisir et de définir l’échantillon sur lequel vous souhaitez travailler. Pour ce, allez dans le menu Données > Sélectionner les observations. Sélectionnez "selon une condition logique" : certains individus seront sélectionnés selon certains critères comme l’âge, le revenu etc. Dans notre exemple, nous sélectionnons uniquement les individus ayant été embauchés à plus de 20 ans. 5.2. Sélection d’un échantillon aléatoire Sélectionnez "toutes les observations" quand vous voulez annuler la condition logique : tous les individus sont alors sélectionnés. L’échantillon aléatoire peut se spécifier de deux façons différentes. Soit vous décidez de sélectionner n % de vos observations, soit vous choisissez un nombre précis d’individus (qui seront tirés aléatoirement) dans une tranche particulière d’observations. SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 88 Sélectionnez "Par échantillonnage aléatoire" : certains individus seront sélectionnés selon par exemple un % donné. Dans notre exemple, nous sélectionnons de façon aléatoire environ 25% de notre échantillon initial. Sélectionnez "toutes les observations" quand vous voulez annuler la condition logique : tous les individus sont alors sélectionnés. 5.3. Sélection selon un intervalle de temps ou d’observations Il s’agit simplement de préciser l’intervalle d’observations exact sur lequel vous souhaitez travailler. SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 89 Sélectionnez "Dans un intervalle de temps ou d’observations", les x premiers individus seront sélectionnés. Dans notre exemple, nous sélectionnons les 100 premières observations (ou individus). Sélectionnez "toutes les observations" quand vous voulez annuler la condition logique : tous les individus sont alors sélectionnés. 6. Sauvegarde et ouverture d’un fichier au format SPSS (.sav) Pour sauvegarder vos dictionnaires de données et de variables, vous devez enregistrer les données au format SPSS Windows (.sav) en cliquant sur Fichier > Enregistrer sous. Ultérieurement, pour ouvrir ce même fichier vous devrez cliquer sur le menu Fichier > SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 II. Les traitements statistiques de données 90 1. La fenêtre de résultats La fenêtre de résultats ou Navigateur SPSS (.spo) contient l’ensemble des sorties issues des requêtes statistiques et graphiques. Sa particularité provient du fait qu’elle stocke à la fois les sorties graphiques et statistiques. Cette fenêtre se présente de la même façon que l’explorateur de Windows XP. Elle comporte deux parties : dans la partie de gauche, tous les résultats sont représentés sous forme d’icônes en arborescence. dans la partie de droite, les résultats sont présentés sous la forme d’objets qui peuvent être modifiés en double cliquant dessus. Enregistrement des résultats : Cliquez dans Fichier > Enregistrer sous Impression des résultats : L’impression des résultats peut se faire d’une façon sélective ou totale. Positionnez-vous dans la fenêtre correspondante, établissez votre sélection et cliquez dans Fichier > Imprimer. SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 91 Pour obtenir des résultats il faut lancer des procédures de traitement. Les rubriques suivantes vous indiquent les principaux traitements réalisables dans le cadre du programme de l’UE SO0013YB. 2. Descriptions de données qualitatives et quantitatives Un des moyens élémentaires de résumer chaque variable est d’effectuer des tris à plat. Ce type d’analyse donne de solides bases pour des analyses plus complexes. L’appel aux tris à plat se fait par le menu Analyses > Statistiques descriptives > Effectifs. Exemple de tri à plat : Tri à plat sur la variable "sexe" Valide Masculin Féminin Total Fréquence Pour cent 80 80 160 50,0 50,0 100,0 Pourcentage valide 50,0 50,0 100,0 Pourcentage cumulé 50,0 100,0 Exemple de lecture : 160 individus ont été enquêtés. 80 d’entre eux, soit 50% de notre population, sont des hommes. Avant d’aborder les différences de traitement entre variables qualitatives et quantitatives nous vous vous proposons quelques notions élémentaires de statistiques vues en 1ère année (L1). 1- En ce qui concerne les représentations graphiques associés aux traitements statistiques, différents types de diagrammes peuvent être utilisés : Diagramme en bandes : On appelle diagramme en bandes un graphique qui, à chaque modalité de la variable, associe un rectangle (de base constante) dont la hauteur est proportionnelle à l’effectif. Les diagrammes à bandes sont utilisés pour représenter des variables qualitatives. Graphique en secteurs (diagramme circulaire ou camembert) : On appelle graphique en secteurs un graphique qui divise un disque en secteurs angulaires dont les mesures sont proportionnelles aux effectifs de chaque modalité. Les diagrammes circulaires sont utilisés pour représenter des variables qualitatives. Histogramme : On appelle histogramme un diagramme composé d’un ensemble de rectangles contigus d’aire proportionnelle aux effectifs (ou aux fréquences) et SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 de bases déterminés par les extrémités de classe. Les histogrammes sont utilisés pour représenter des variables quantitatives continues. 2- La courbe de Gauss. L’allure de la distribution observée dans cet exemple montre la forme d’une courbe en cloche. Cette forme de la cloche indique donc que la distribution des données de la variable étudiée dans la population suit une loi normale. Mais qu’est-ce que la loi normale ? La loi normale ou loi de Gauss est un modèle mis en place par Carl Gauss, mathématicien allemand (1777-1855). Mais ce modèle n’a été utilisé dans les sciences sociales qu’à partir du début du XXème siècle. De nos jours, ce modèle nommé "distribution normale" est souvent appelé "courbe de Gauss". Il s’applique surtout aux données quantitatives continues et plus rarement aux données quantitatives discrètes. Définition : on dit que la variable X suit une loi normale de moyenne x (en probabilité, on ne parle pas de moyenne mais d’espérance) et d’écart-type, si elle admet une fonction de densité f définie par : Quelques propriétés : la forme de la courbe en cloche de la loi normale est déterminée par deux valeurs : la moyenne et l’écart-type. La courbe de la loi normale est plus ou moins évasée ou aplatie selon la valeur de l’écart-type. La figure suivante montre la forme générale de la loi normale. La loi normale possède de nombreuses propriétés, nous retiendrons les suivantes : la distribution normale est symétrique par rapport à l’axe vertical passant par la moyenne ; la distribution normale est "normalement" aplatie ; environ 68% des valeurs observées sont comprises dans l’intervalle [x − σ ; x + σ [ ; environ 95% des valeurs observées sont comprises dans l’intervalle [x - 2σ; x + 2σ[ ; la moyenne est égale à la médiane et au mode. SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 92 L’étude d’une distribution statistique conduit souvent à vérifier si elle suit approximativement ou non une loi normale en comparant les caractéristiques de la distribution à celle de la loi normale. Tableau récapitulatif des avantages et inconvénients d’indicateurs élémentaires Avantages Moyenne Médiane Mode Répandue. Très bon indice lorsque symétrique unimodale. Peu influencée par extrêmes. Bon indicateur pour asymétriques. Pas affecté par exceptionnelles Inconvénients Sensibilité aux valeurs extrêmes la variable est Représente mal les distributions asymétriques. les valeurs les variables les valeurs Quelques définitions Asymétrie : Le coefficient d’asymétrie de Yule permet de comparer l’étalement de la distribution à gauche et à droite de la médiane. Le coefficient d’asymétrie est compris entre 1 et +1. Aplatissement : Le coefficient d’aplatissement de Kurtosis permet de rendre compte de l’aplatissement de la courbe de répartition par rapport à une courbe idéale dite "normale". Centiles (C1, C2...C98, C99) : Ce sont les 99 valeurs qui partagent la population en cent parties de même effectif (la médiane est un centile C50). Ecart-type : L’écart-type est la racine carrée de la variance. Il s’exprime dans la même unité que la variable. Il est d’autant plus grand que la dispersion des observations autour de la moyenne est importante. Intervalle : Synonyme d’étendue. On appelle étendue la différence entre la plus grande et la plus petite des valeurs observées. Maximum : Il s’agit de la valeur maximale observée. Médiane : La médiane d’une distribution est la valeur de la variable qui partage la population en deux parties d’effectifs égaux. Minimum : Il s’agit de la valeur minimum observée. SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 93 Mode : Le mode est la valeur qui a l’effectif le plus important ou la plus grande fréquence c’est-à-dire la plus forte probabilité d’apparition. Moyenne : La moyenne permet de caractériser la tendance générale d’une population ou d’une sous-population. C’est la valeur de la variable que prendrait chaque individu s’il n’y avait aucune variation, donc aucune différence d’un individu à l’autre. Quartiles ( Q1, Q2, Q3) : Ce sont les trois valeurs qui partagent la population en quatre parties de même effectif (la médiane est un quartile Q2). Variance : La variance est la moyenne des carrés des écarts à la moyenne. Plus la dispersion est importante et plus la variance est élevée. La variance est un indicateur numérique et non une mesure de dispersion. SPSS délivre tout d’abord les tableaux de résumé et de fréquences. Puis, SPSS présente l’histogramme représentant la distribution de variables quantitatives. Ce graphique permet très rapidement de se rendre compte de la distribution de la variable. 2.1. Analyse descriptive de données qualitatives Les variables qualitatives se résument essentiellement à l’aide de tris à plat et de diagrammes. Les tris à plat permettent de connaître précisément les effectifs (et les pourcentages correspondants) de chaque modalité de réponse à la variable. La représentation par des diagrammes en bâtons ou en secteurs (ou camembert) est la représentation la plus utilisée pour visualiser la répartition de la population à l’intérieur de chaque catégorie de variable. SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 94 95 Placez les variables à étudier dans la liste. Puis, cliquez sur "Diagrammes" et spécifiez "Diagrammes en bâtons" et valeurs du diagramme "en pourcentages" Exemple de résultats SPSS délivre, tout d’abord, les tableaux de résumé et de fréquences. Puis, il présente le diagramme représentant la distribution de la variable qualitative. SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 96 2.2. Analyse descriptive de données quantitatives Tri à plat et histogramme sont les moyens les plus simples pour décrire une variable quantitative. Comme l’histogramme se construit à partir du tri à plat, voici comment utiliser ces deux outils avec SPSS. SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 97 Placez les variables à étudier dans la liste. Puis cliquez sur Diagrammes et spécifiez "Histogramme". Vous pouvez cocher "Avec courbe de gaussienne" pour visualiser la courbe de tendance. Vous pouvez également préciser les traitements statistiques complémentaires à effectuer (indicateurs de tendance centrale, fractiles) Exemple de résultats SPSS délivre, tout d’abord, les tableaux de résumé et de fréquences. Puis, il présente l’histogramme représentant la distribution de la variable quantitative. SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 98 3. Mesure de liaison2 entre deux variables qualitatives 3.1. Le test d’indépendance du khi² Dans SPSS, l’appel aux tableaux croisés se fait par le menu Analyses > Statistiques descriptives > Tableaux croisés. Dans un tableau croisé (ou de contingence), la variable dépendante se place toujours en colonne et la variable indépendante en ligne. Le test du khi² est un bon indice de dépendance entre deux variables qualitatives. Comme la plupart des tests, il vise à comparer une situation observée à une situation théorique construite sous une hypothèse donnée. Le plus souvent, on teste l’hypothèse nulle ou d’indépendance (correspondant à une absence de relation) parce que l’on dispose, dans ce 2 Un test statistique se lit toujours de la même façon. Si le seuil de significativité est supérieur à 5%, on accepte l’hypothèse nulle H0 (c’est-à-dire l’hypothèse d’indépendance, d’égalité des moyennes etc.). Si le seuil de significativité est inférieur à 5%, on rejette l’hypothèse nulle (donc on accepte H1). SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 cas, de moyen de formuler mathématiquement la situation. Néanmoins, le travail du sociologue commence après le calcul du khi²… 99 Généralité sur la lecture d’un test statistique avec SPSS Avant d’accepter définitivement l’hypothèse d’indépendance, il est nécessaire de vérifier le respect de deux conditions : aucune cellule ne doit contenir un effectif théorique inférieur à 5 ; les cellules, dont l’effectif théorique est inférieur à 5, doivent représenter moins de 20% de l’ensemble des cellules et le nombre d’observations doit être supérieur à 50. L’une des conditions n’est pas respectée, on ne peut conclure à l’acceptation de l’hypothèse d’indépendance car les effectifs sont trop faibles. D’une façon générale, ce problème est provoqué par un effectif total trop faible ou par la présence de modalités à très faible effectif. Afin de remédier à ce genre de problème, on procède de deux façons : soit on augmente la taille de l’échantillon, soit on regroupe les classes de petit effectif avec d’autres. 3.2. Tableaux croisés simples L’exemple ci-dessous porte sur une étude relative à l’homogamie sociale dans le couple. Il a pour objectif d’établir s’il existe un lien de dépendance entre le "Diplôme du père" et du "Diplôme de la mère". SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 100 Effectif théorique : il s’agit de l’effectif que l’on obtiendrait si les deux variables qualitatives étaient indépendantes. Résidus standardisés ajustés : ces résidus permettent, lorsque l’on construit de grands tableaux, de détecter au plus vite les cellules présentant une grande déviance par rapport à l’hypothèse d’indépendance et contribuant fortement au calcul du khi². Ils sont exprimés en écart à la moyenne de la contribution au Khi². Plus les résidus sont supérieurs en valeur absolue à 2,1, plus la cellule contribue au Khi² total. Par exemple, une valeur négative supérieure à 2,1 marque une contribution négative significativement forte de la cellule, à l’inverse une valeur positive supérieure à 2,1 souligne une contribution positive significative de la cellule au calcul du Khi² total. Les pourcentages en colonne sont calculés pour chaque colonne du tableau de telle façon que leur somme fasse 100%. Il est de même pour les pourcentages en ligne. Si on souhaite mesurer la liaison entre les deux variables, il faut mettre en œuvre la statistique du khi². SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 101 Les indicateurs statistiques suivants peuvent être utilisés : le khi², le coefficient de contingence, le coefficient de Phi et de Cramer. Le coefficient de contingence comme le V de Cramer permet de mesurer l’intensité de la liaison entre deux variables qualitatives pour les tableaux dont le ddl est supérieur à 1. Le calcul de ce coefficient n’a d’intérêt que si les variables sont dépendantes. Sa valeur est toujours comprise entre 0 (aucune dépendance, les effectifs réels sont égaux aux effectifs théoriques) et 1 (dépendance maximale). Plus la valeur du coefficient se rapproche de 0, plus le lien statistique entre les deux variables est nul. Plus la valeur du coefficient se rapproche de 1, plus le lien statistique entre les deux variables est parfait. A titre indicatif, on peut évaluer l’intensité de la dépendance selon les tableaux ci- dessous : Valeur du coefficient noté "C", "φ" ou " V" 0 < coefficient < 0,25 0,25 < coefficient < 0,50 0,50 < coefficient < 0,75 0,75 < coefficient < 0,95 0,95 < coefficient < 1 Force du lien statistique entre deux variables lien statistique très faible voir nul lien statistique faible lien statistique moyen lien statistique fort lien statistique très fort SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 LECTURE ET ANALYSE DES RESULTATS Diplôme du père * Diplôme le plus élevé de la mère 102 Observations Manquante N Pourcent 373 24,9% Valide N Pourcent 1127 75,1% Total N Pourcent 1500 100,0% Sur 1500 enquêtés, 1127 individus font l’objet du traitement statistique soit 75,1% de la population totale. 373 personnes n’ont pas répondu. Tableau croisé : Diplôme du père * Diplôme le plus élevé de la mère 355 199,4 69,3% 139 248,5 27,1% 3 16,4 ,6% 14 36,8 2,7% 1 512 10,9 ,2% 512,0 100,0% 80,9% 25,4% 8,3% 17,3% 4,2% 45,4% 19,1 74 157,4 18,3% -13,1 297 196,1 73,5% -4,5 15 12,9 3,7% -5,3 15 29,0 3,7% -4,1 3 404 8,6 ,7% 1 404,0 00,0% 16,9% 54,3% 41,7% 18,5% 12,5% 35,8% -10.6 1 12,5 13 ,7 5 -3,4 3 -2,4 2 24 Effectif théorique 9,3 11,6 ,8 1,7 ,5 24,0 % dans diplôme du père % dans diplôme le plus élevé de la mère Résidu ajusté Effectif 4,2% 54,2% 20,8% 12,5% 8,3% 100,0% ,2% 2,4% 13,9% 3,7% 8,3% 2,1% -3,5 7 ,6 61 5,0 8 1,0 34 6 2,1 116 Effectif Effectif théorique % dans diplôme du père % dans diplôme le plus élevé de la mère Résidu ajusté Effectif Effectif théorique % dans diplôme du père % dans diplôme le plus élevé de la mère Résidu ajusté Effectif SO0013Y | Didier BUSCA & Anastasia MEIDANI Total Bac + 4-5 Bac + 3 Bac+ 3 Bac + 2 Bac+ 2 Diplôme du père Bac Bac < Bac < Bac Diplôme le plus élevé de la mère Année universitaire 2009-2010 Bac + 4-5 Total Effectif théorique 45,2 56,3 3,7 8,3 2,5 116,0 % dans diplôme du père % dans diplôme le plus élevé de la mère Résidu ajusté Effectif 6,0% 52,6% 6,9% 29,3% 5,2% 100,0% 1,6% 11,2% 22,2% 42,0% 25,0% 10,3% -7,7 2 ,9 37 2,4 5 9,7 15 2,4 12 71 Effectif théorique 27,7 34,5 2,3 5,1 1,5 71,0 % dans diplôme du père % dans diplôme le plus élevé de la mère Résidu ajusté ,5% 6,8% 13,9% 18,5% 50,0% 6,3% ,5% 6,8% 13,9% 18,5% 50,0% 6,3% -6,5 100,0% ,6 100,0% 1,9 100,0% 4,7 100,0% 8,9 100,0% 100,0% 103 Exemple de lecture : 512 enquêtés ont un père ayant un diplôme inférieur au bac (69,3%). 439 enquêtés ont une mère ayant un diplôme inférieur au bac (39%). Parmi ceux qui ont un père ayant un diplôme inférieur au bac, 80,9% ont une mère ayant un diplôme inférieur au bac. Il existerait une proportion plus forte de parents ayant un niveau de diplôme inférieur au bac. Comment mesurer ce lien ? En statistique, pour savoir s’il existe une relation de dépendance entre deux variables qualitatives, il suffit de comparer le khi² calculé au khi² théorique (de la table). Si le khi² calculé est supérieur au khi² théorique, on conclut donc à une dépendance entre les variables. Or, afin d’éviter de manipuler cette table, SPSS donne un moyen simple d’accepter ou de rejeter l’hypothèse d’indépendance par la "significativité asymptotique": si la signification asymptotique est inférieure à 5% (c’est-à-dire 0,05 soit .05), on rejette l’hypothèse d’indépendance au niveau de confiance 95%. si la signification asymptotique est supérieure à 5% (c’est-à-dire 0,05 soit .05), on accepte l’indépendance au niveau de confiance 95%. Les résidus standardisés ajustés supérieurs en valeur absolue à 2,1 rendent compte d’une contribution importante de la cellule au calcul du khi². Par exemple, les enquêtés ayant un père avec un bac ont plus fréquemment une mère avec le bac. SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 104 Mesures symétriques Valeur Nominal par Nominal Coefficient de contingence ,585 Signification approximée ,000 1127 Nombre d'observations valides a. L'hypothèse nulle n'est pas considérée. b. Utilisation de l'erreur standard asymptotique dans l'hypothèse nulle. Tests du Khi-deux Valeur Khi-deux de Pearson Rapport de vraisemblance Association linéaire par linéaire Nombre d'observations valides 587.663a 532,042 351,822 1127 ddl 16 16 1 Signification asymptotique (bilatérale) ,000 ,000 ,094 a.2 cellules (8%) ont un effectif inférieur à 5. L’effectif théorique minimum est de 0,51 La signification asymptotique est inférieure à 5% donc on rejette l’hypothèse d’indépendance entre ces deux variables ce qui signifie que le khi² réel est supérieur au khi² théorique. La valeur du coefficient de contingence indique une intensité moyenne de la dépendance entre ces variables. D’autre part, SPSS présente plusieurs autres tests : Le rapport de vraisemblance du khi² teste la même hypothèse d’indépendance des variables. Il est utilisé pour de grands tableaux ayant plus de dix modalités. Dans la majorité des cas, il fournit les mêmes résultats que le khi² de Pearson. Le test du khi² linéaire par linéaire teste l’hypothèse spécifique d’une association linéaire entre les variables. Ce test est très souvent ignoré. Selon la taille du tableau (ddl=1) les tests suivants sont mis en œuvre : La statistique de correction pour la continuité (qui apparaît uniquement dans un tableau dont le ddl = 1 et dont un des effectifs théoriques est inférieur à 500) permet de calculer une significativité plus "exacte" lorsque le calcul standard du khi² n’approche pas parfaitement la distribution théorique (travaux de Yates). SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 Le test exact de Fisher apparaît pour les tableaux dont le ddl = 1. Ce test est utilisé 105 quand 20% des cases du tableau ont un effectif théorique inférieur à 5 ou lorsque certaines cellules sont vides. 3.3. Tableaux croisés dans une sous-population L’exemple ci-dessous a pour objectif d’établir s’il existe un lien de dépendance entre "l’intégration des agriculteurs" dans un dispositif public et leur localisation géographique (selon le département) en région Aquitaine. Il est possible de spécifier une variable qualitative définissant des strates. Plusieurs tableaux seront construits, un pour chaque strate (ou souspopulation). Exemple : nous pouvons croiser la variable "Intégration des agriculteurs dans un dispositif public" ("PMPOA…") avec la variable "localisation départementale" ("DEP") selon le canton d’appartenance ("PCT"). 4. Mesure de liaison entre deux variables quantitatives : le coefficient de corrélation de Pearson Les variables quantitatives représentent la mesure d’une quantité : elles prennent des valeurs numériques ayant une signification concrète comme la taille, le poids, le revenu. Il existe des variables quantitatives discrètes et continues. Une variable quantitative discrète a un nombre dénombrable de valeurs possibles. La distinction entre une variable quantitative discrète et une variable qualitative ordinale n’est pas toujours facile à faire (et n’est d’ailleurs pas toujours nécessaire en pratique). Une variable quantitative continue a un nombre infini non dénombrable de valeurs possibles. Entre deux valeurs distinctes, il y a toujours une valeur intermédiaire possible. C’est le cas entre autres de toutes les variables qui mesurent des quantités physiques : taille, poids, revenu. SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 Rappel sur le coefficient de Pearson 106 Pour évaluer la liaison entre des variables quantitatives, il existe différents types de coefficient de corrélation : le coefficient de corrélation de Pearson (du nom de son inventeur) est le plus fréquemment. Ce coefficient mesure les relations linéaires entre deux variables X et Y. Sa valeur est toujours comprise entre -1 et +1. Si le coefficient est de signe positif, cela signifie que les deux variables sont corrélées positivement c’est-à-dire que les variables croissent ou décroissent ensemble. Plus r est proche de +1, plus la corrélation est forte et plus la forme du nuage ressemble à une droite. En revanche, si le coefficient de corrélation est de signe négatif, les deux variables sont corrélées négativement c’est-à-dire que les variables varient en sens inverse (c’est-à-dire quand une variable croît, l’autre décroît ou inversement). Plus r est proche de -1, plus la corrélation est forte et plus la forme du nuage ressemble à une droite. Si les variables ne sont pas corrélées entre elles, le coefficient de corrélation est proche de 0 et les points du nuage sont dispersés dans le plan. En cours de statistique, pour savoir s’il existe une relation de corrélation entre deux variables quantitatives, il suffit de comparer le r calculé au r théorique (de la table). Si le r calculé est supérieur au r théorique, on conclut donc à une corrélation significative entre les variables. Pour savoir si la corrélation est significative (c’est-à-dire si elle n’est pas due au hasard), il faut observer la significativité bilatérale. Si la significativité bilatérale est supérieure à 5% (soit 0,05), les variables ne sont donc pas corrélées significativement entre elles. Si la significativité bilatérale est inférieure à 5% (soit 0,05), les variables sont donc significativement corrélées entre elles. La double étoile indiquée en indice près du coefficient de corrélation signifie que la présence de la corrélation est significativement différente de zéro à 99%. 4.1. La représentation du nuage de points SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 107 Pour étudier la corrélation entre deux variables, il faut tout d’abord tracer le nuage de points afin d’avoir une première idée du lien statistique existant entre les deux variables quantitatives. Dans SPSS, le tracé du nuage de points se fait par le menu Graphes > Dispersion/Points. Il est nécessaire de sélectionner ensuite "Dispersion simple". Après avoir sélectionné le graphique diagramme de dispersion simple, il faut sélectionner en abscisse et en ordonnée les variables X et Y. Si on souhaite voir tracer la droite de régression : il suffit d’ouvrir le graphique "Nuage de points" (double-cliquer sur le graphique), de sélectionner l’ensemble du nuage de points (tous les points sont surlignés en bleu) et de cliquer sur l’icône "Ajouter une courbe d’ajustement" Une fenêtre "Propriétés" apparaît, il faut cocher "Linéaire" et fermer la fenêtre. Le R deux apparaît directement dans le graphe. SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 108 4.2. La procédure de mise en œuvre du calcul du coefficient de Pearson avec SPSS Pour évaluer la liaison entre des variables quantitatives, il existe différents types de coefficient de corrélation : le coefficient de corrélation de Pearson (du nom de son inventeur) est le plus fréquemment utilisé. En statistique, pour savoir s’il existe une relation de corrélation entre deux variables quantitatives, il suffit de comparer le r calculé au r théorique (de la table). Si le r calculé est supérieur au r théorique, on conclut donc à une corrélation significative entre les variables. Dans SPSS, le calcul du coefficient de Pearson se fait par le menu Analyse > Corrélation > Bivariée SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 109 Corrélations Age Revenu du foyer Corrélation de Pearson Sig. (bilatérale) N Corrélation de Pearson Sig. (bilatérale) N Salaire actuel Salaire d'embauche 1,000 , 100 ,800(**) ,000 100 ,800(**) ,000 100 1,000 , 100 ** La corrélation est significative au niveau 0.01 (bilatéral). Pour savoir si la corrélation est significative (c’est-à-dire si elle n’est donc pas due au hasard), il faut observer la significativité bilatérale. Si la significativité bilatérale est supérieure à 5% (soit 0,05), les variables ne sont donc pas corrélées significativement entre elles. Si la significativité bilatérale est inférieure à 5% (soit 0,05), les variables sont donc significativement corrélées entre elles. L’étoile double indiquée en indice près du coefficient de corrélation signifie que la présence de la corrélation est significativement différente de zéro à 99% alors que l’étoile simple signifie que la présence de la corrélation est significativement différente de zéro entre 95 et 99%. Dans l’exemple cidessous, le r de Pearson atteint 0,80, nous pouvons établir que la corrélation est forte est croissante, en d’autres termes plus l’âge de l’interviewé est élevé, plus le revenu du foyer est élevé (les deux variables évoluent dans le même sens). III. Les représentations graphiques Les graphiques présents dans SPSS (secteurs, courbes, aires et lignes) comprennent les mêmes options concernant la disposition des données : SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 récapitulatifs pour groupes d’observations ; récapitulatifs pour variables distinctes ; valeurs des observations individuelles0 110 1. Récapitulatifs pour groupes d’observations Dans SPSS, le diagramme en bâtons simples se fait par le menu Graphes > Bâtons > Récapitulatifs pour groupes d’observations. Cette option concerne la représentation graphique simple d’une variable. SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 111 Par exemple, nous faisons le choix de représenter graphiquement la variable "Sexe de l’employé", vous avez la possibilité de choisir les modes de représentation graphique (effectif, % d’observations etc.). Un exemple de résultat. 2. Récapitulatifs pour variables distinctes Dans SPSS, le diagramme en bâtons simples se fait par le menu Graphes > Bâtons > Récapitulatifs pour variables distinctes. Si vous souhaitez obtenir la même répartition, mais en prenant en compte une troisième variable qualitative, vous devez sélectionner soit l’option "Empilé", soit l’option "Juxtaposé". SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 112 Par exemple, quel est en moyenne, le nombre de places de camping et de chambres d’hôtel dans les départements de la région Aquitaine ? En cliquant sur "Changer la fonction", vous décidez des modes de représentation graphique des variables étudiées (effectif, moyenne, médiane…). SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 113 La représentation graphique obtenue est la suivante. Cette option permet de tracer parallèlement la valeur agrégée de plusieurs variables quantitatives. 3. Valeurs des observations individuelles Dans ce cas, les lignes ou les observations de votre fichier vont constituer les segments ou les bâtons de votre graphique. Sa conception est identique à celle d’Excel. SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 4. Graphiques à vocation statistique 114 4.1. La boîte à moustaches La boîte à moustaches (Boxplot) proposée par Tukey en 1977 permet d’étudier la variabilité d’une quantité à l’intérieur d’une sous-population. Dans SPSS, la boîte à moustaches se fait par le menu Graphes > Boîte à moustache. La "Variable" est nécessairement de type quantitatif, mais vous pouvez sélectionner des variables qualitatives pour l’axe des modalités et pour étiqueter les observations. Cette option concerne la représentation graphique simple d’une variable. SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 115 La représentation graphique obtenue est la suivante. 4.2. Nuage de points avec ajustement linéaire Se reporter au chapitre relatif à l’étude de la mesure de liaison entre variables quantitatives. Pour procéder à des modifications sur les graphiques, il suffit de double-cliquer sur le graphique. La feuille graphique est ainsi ouverte et vous pouvez y apporter les modifications souhaitées. IV. Exercice d’application Les exercices mobilisent les fichiers de données "Enquête du comportement des américains en 1993.sav" et "Employés.sav". Ces fichiers se trouvent dans le répertoire C:\program files\SPSS. 1- Le statut matrimonial ("marié") varie-t-il en fonction de l’âge de l’interviewé ("age") ? Fichier : " Enquête du comportement des américains en 1993.sav" La variable "age" est quantitative. Afin de vérifier l’hypothèse d’indépendance entre les deux variables au moyen du test du khi-deux, il est proposé de recoder la variable de la façon suivante (pour la procédure de recodage se reporter au I-4.2 1) : 1234- Inférieur à 32 ans De 33 à 43 ans De 44 à 59 ans Plus de 60 ans SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 Après avoir recodé la variable "age", vous pouvez réaliser un tri à plat. Le tri à plat de la variable recodée est le suivant : 116 Statistiques Quel est l'âge du répondant ? Valide Manquante Inférieur à 32 ans De 33 à 43 ans De 44 à 59 ans Plus de 60 ans Total Système manquant Total Effectifs % % valide % cumulé 374 398 362 361 1500 5 24,9 26,5 24,1 24,1 100,0 ,3 25,0 26,6 24,2 24,1 25,0 51,6 75,9 100,0 1500 100,0 Il est alors possible de croiser les deux variables (pour la procédure se reporter au II-3). Les résultats du traitement croisé sont les suivants : Récapitulatif du traitement des observations N Quel est l'âge répondant ? * Marié ? du 1495 Valide Pourcent 99,7% SO0013Y | Didier BUSCA & Anastasia MEIDANI Observations Manquante N Pourcent 5 ,3% N 1500 Total Pourcent 100,0% Année universitaire 2009-2010 Tableau croisé : Quel est l'âge du répondant ? * Marié ? Marié ? Inférieur à 32 ans non 153 221 374 40,9% 59,1% 100,0% % dans Marié ? 19,3% 31,5% 25,0% Résidu ajusté -5,5 5,5 Effectif 249 149 398 62,6% 37,4% 100,0% % dans Marié ? 31,4% 21,3% 26,6% Résidu ajusté 4,4 -4,4 Effectif 218 144 362 60,2% 39,8% 100,0% % dans Marié ? 27,5% 20,5% 24,2% Résidu ajusté 3,1 -3,1 Effectif 174 187 361 48,2% 51,8% 100,0% % dans Marié ? 21,9% 26,7% 24,1% Résidu ajusté -2,1 2,1 Effectif 794 701 1495 53,1% 46,9% 100,0% 100,0% 100,0% 100,0% Effectif Quel est l'âge du répondant ? % dans Quel répondant ? De 44 à 59 ans % dans Quel répondant ? Plus de 60 ans % dans Quel répondant ? Total Total oui % dans Quel répondant ? De 33 à 43 ans 117 % dans Quel répondant ? est est est est est l'âge l'âge l'âge l'âge l'âge du du du du du % dans Marié ? Tests du Khi-deux Valeur Khi-deux de Pearson Rapport de vraisemblance Association linéaire par linéaire Nombre d'observations valides 47,483(a) 47,743 2,809 1495 ddl 3 3 1 Signification asymptotique (bilatérale) ,000 ,000 ,094 a. 0 cellules (,0%) ont un effectif théorique inférieur à 5. L'effectif théorique minimum est de 169,27. SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 Mesures symétriques Valeur Nominal par Nominal Coefficient de contingence Nombre d'observations valides ,175 118 Signification approximée ,000 1495 a L'hypothèse nulle n'est pas considérée. b Utilisation de l'erreur standard asymptotique dans l'hypothèse nulle. Comment analyser ces résultats et répondre à la question posée ? Sur 1500 enquêtés, 1495 individus ont formulé une réponse aux questions posées soit 99,7% de la population totale. Pour ceci, il est nécessaire dans un premier temps de vérifier le lien statistique entre les deux variables. Le test du khi-deux permet d’établir un lien statistique significatif entre l’âge du répondant et son statut matrimonial. En effet, les conditions de validité du test sont remplies : moins de 20% des cellules du tableau a un effectif théorique inférieur à 5 (dans notre cas 0%), l’effectif théorique minimum est supérieur à 1 (dans notre cas il est égal à 169,27), enfin la signification asymptotique bilatérale est inférieure à .05 (dans notre cas inférieure à .000), elle nous informe que l’hypothèse d’indépendance est rejetée au niveau de confiance de 95%. Avant d’analyser la relation de dépendance, il est nécessaire de décrire les pourcentages marginaux du tableau de données. Les pourcentages marginaux permettent de retracer la distribution des deux variables. Ainsi, la variable "age" se distribue de façon quasi-homogène en d’autres termes en classes d’âge d’effectifs quasi-égaux (environ 25% pour chaque classes). De plus, 53,1% de la population totale déclare être marié contre 46,9% déclarant l’inverse. Ces derniers peuvent être célibataires, séparés ou veufs. Quelle est la nature de la relation entre l’âge et le statut matrimonial ? Il est recommandé d’analyser les résidus standardisés afin de répondre à la question. Rappelons que les résidus supérieurs à 2,1 en valeur absolue identifient les cellules qui contribuent le plus au calcul total du khi-deux. Ainsi, il apparaît que les moins de 32 ans et les plus de 60 ans, en d’autres termes les plus jeunes et les plus âgés de notre échantillon d’enquête, sont dans une plus forte proportion "non mariés". En effet, si plus de 53% de la population totale déclare être marié, ce pourcentage diminue respectivement à 40,9% et 48,2% pour les classes d’âge "Moins de 32 ans" (le résidu est égal à -5,5) et "Plus de 60 ans" (le résidu est égal à -2,1). A l’inverse, les personnes âgées de 33 à 43 ans ainsi que celles âgées de 44 à 59 ans, sont dans une plus forte proportion "mariées". En effet, si plus de 53% de la population totale déclare être marié, ce pourcentage augmente respectivement à 62,6% et 60,2% pour les classes d’âge "De 33 à 43 ans" (le résidu est égal à +4,4) et "De 44 ans à 59 ans" (le résidu est égal à +3,1). SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 119 2- Le salaire actuel varie-t-il en fonction du salaire d’embauche ? Fichier "Employés.sav" Les variables "Salaire actuel" et "Salaire d'embauche" sont des variables quantitatives. Afin de vérifier un lien statistique potentiel entre les deux variables, il est conseillé d’utiliser le r de Bravais-Pearson. La première étape de l’analyse permet de visualiser la relation au moyen d’un graphique (pour la procédure se reporter au II-4). Le graphique produit est le suivant, nous avons tracé la droite de régression. La forme du nuage de point nous indique qu’il existe a priori une relation de corrélation croissante entre les deux variables. Il semble en effet que plus le salaire d’embauche est élevé plus le salaire actuel est important. Il est nécessaire alors de vérifier la valeur du r de Pearson. Les résultats du traitement statistique sont les suivants. SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010 Corrélations 120 Salaire actuel Salaire actuel Salaire d'embauche Corrélation de Pearson Sig. (bilatérale) N Corrélation de Pearson Sig. (bilatérale) N 1 474 ,880(**) ,000 474 Salaire d'embauche ,880(**) ,000 474 1 474 ** La corrélation est significative au niveau 0.01 (bilatéral). Le r de Bravais Pearson est égal à +0,88. La signification asymptotique bilatérale nous indique une corrélation significative au niveau de confiance 99%. Ces informations confirment le lien linéaire statistique entre les deux variables. SO0013Y | Didier BUSCA & Anastasia MEIDANI Année universitaire 2009-2010