so13 b

publicité
Année
universitaire
2009-2010
73
Didier BUSCA & Anastasia MEIDANI
UNIVERSITE DE TOULOUSE-LE MIRAIL
INSTITUT DE SCIENCES SOCIALES
« RAYMONT LEDRUT »
[SO0013B]
METHODES QUANTITATIVES :
UTILISATION DU LOGICIEL SPSS VERSION 14.0
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
Table des matières
74
I . LES PROCEDURES ELEMENTAIRES SUR LES VARIABLES ET LES DONNEES…………………………
75
1 . PRESENTATION GENERALE...........................................................................................
2 . COMMENT SAISIR LE DICTIONNAIRE DE VARIABLES ?.......................................................
3 . COMMENT SAISIR LE DICTIONNAIRE DE DONNEES ?.........................................................
4 . RECODAGE D’UNE VARIABLE.........................................................................................
4.1. CALCUL D’UNE VARIABLE...................................................................................................
4.2. LES PROCEDURES DE RECODAGE.........................................................................................
5 L’ECHANTILLONNAGE....................................................................................................
5.1. SELECTION DES INDIVIDUS...............................................................................................
5.2. SELECTION D’UN ECHANTILLON ALEATOIRE............................................................................
5.3. SELECTION SELON UN INTERVALLE DE TEMPS OU D’OBSERVATIONS..............................................
6 . SAUVEGARDE ET OUVERTURE D’UN FICHIER AU FORMAT SPSS (.SAV)..................................
75
75
79
80
81
82
87
87
87
88
89
II . LES TRAITEMENTS STATISTIQUES DE DONNEES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
90
1 . LA FENETRE DE RESULTATS...................................................……………………………….
2 . DESCRIPTIONS DE DONNEES QUALITATIVES ET QUANTITATIVES.........................................
2.1. ANALYSE DESCRIPTIVE DE DONNEES QUALITATIVES.................................................................
2.2. ANALYSE DESCRIPTIVE DE DONNEES QUANTITATIVES...............................................................
3 . MESURE DE LIAISON ENTRE DEUX VARIABLES QUALITATIVES.............................................
3.1. LE TEST D’INDEPENDANCE DU KHI².....................................................................................
3.2. TABLEAUX CROISES SIMPLES..............................................................................................
3.3. TABLEAUX CROISES DANS UNE SOUS-POPULATION...................................................................
4 . MESURE DE LIAISON ENTRE DEUX VARIABLES QUANTITATIVES :
LE COEFFICIENT DE CORRELATION DE PEARSON...................................................................
4.1. LA REPRESENTATION DU NUAGE DE POINTS...........................................................................
4.2. LA PROCEDURE DE MISE EN ŒUVRE DU CALCUL DU COEFFICIENT DE PEARSON AVEC SPSS.................
90
91
94
96
98
98
99
105
III . LES REPRESENTATIONS GRAPHIQUES
109
..........................................
105
106
108
1 . RECAPITULATIFS POUR GROUPES D’OBSERVATIONS.........................................................
2 . RECAPITULATIFS POUR VARIABLES DISTINCTES...............................................................
3 . VALEURS DES OBSERVATIONS INDIVIDUELLES.................................................................
4 . GRAPHIQUES A VOCATION STATISTIQUE.........................................................................
4.1. LA BOITE A MOUSTACHES.................................................................................................
4.2. NUAGE DE POINTS AVEC AJUSTEMENT LINEAIRE......................................................................
110
111
113
114
114
115
IV . EXERCICE D’APPLICATION . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
115
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
Avant propos
SPSS est un logiciel crée dans les années 70. Il est devenu un standard international dans le
traitement quantitatif de données qualitatives et/ou quantitatives. Ce logiciel peut lire la
plupart des formats de fichiers : les fichiers SPSS/PC (SPSS version DOS) et les fichiers
portables SPSS (.POR) provenant d’un autre environnement que Windows, les données
provenant de tableurs et de bases de données (Excel, Lotus, Multiplan, Dbase), les données
ASII tabulées. SPSS est très performant pour les traitements statistiques élémentaires
(tableau descriptif ou de contingence), les régressions linéaires mais nettement moins
efficaces pour les analyses factorielles et les représentations graphiques.
75
I. Les procédures élémentaires sur les variables et les données
1. Présentation générale
La fenêtre de l’Editeur de données
comprend dix menus déroulant :
5 menus communs à toutes
les applications Microsoft :
Fichier
Edition
Outils
Fenêtre et Aide.
5 menus spécifiques à SPSS :
Affichage
Données
Transformer
Analyses et Graphes
Dès que vous êtes sur SPSS, l’affichage des données s’ouvre automatiquement. Pour accéder
aux variables (dictionnaire de variables), il suffit de cliquer en bas de la fenêtre sur l’icône :
Affichage des variables.
Que sont les variables et données ? Les variables sont par exemple les questions directement
posées à un individu lors d’une enquête par questionnaire (ou reformulées de façon
synthétique), les données sont par exemple les réponses apportées par les individus à ce
questionnaire.
Exemple : La question "Quel âge avez-vous ?", la variable peut être "age". Si la variable est
numérique, la réponse prend la forme "25" (25 ans). Cette donnée peut être saisie
directement comme une valeur numérique ou être transformée en classe (se reporter à la
partie Recodage du document).
2. Comment saisir le dictionnaire de variables ?
La saisie des variables s’opère à partir de "Affichage des variables". A chaque ligne
correspond une variable. Le dictionnaire de variables comprend dix colonnes : Nom, Type,
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
Largeur, Décimales, Etiquette, Valeurs, Manquant, Colonnes, Aligner, Mesure.
Chacun de ces items va permettre de définir chaque variable.
Donner un nom à la variable
Trois règles doivent être respectées. Le nom de chaque variable est unique, il doit comporter
la question qui peut être formulée directement. Attention cependant, aucun espace, ni
caractère spécial tel que &, les accents, « », etc. n’est accepté. De même, aucun chiffre en
première position n’est accepté.
Définir un type de variable
SPSS gère les variables de type quantitatif (numérique), qualitatif (chaîne) et les dates.
Cliquez sur "Type" pour sélectionner le format de votre variable.
Un exemple de variable quantitative : "Quel est votre âge ?", réponses possibles : 25, 32,
45…
Un exemple de variable qualitative : "Quelle est votre nationalité ?", réponses possibles :
française, italienne, tunisienne…
Rappel général sur les différents types de variables
Une variable est dite qualitative ou catégorielle lorsque les modalités de cette variable sont
de simples étiquettes descriptives.
Si ses modalités sont sans aucun ordre significatif, on parle de variables catégorielle
nominale (ou qualitative nominale : sexe, religion, etc.). Lorsqu’elles peuvent être
ordonnées, on parle de variable catégorielle ordinale (ou qualitative ordinale : satisfaction,
niveau d’étude, etc.).
Une variable est dite quantitative lorsque les valeurs de cette variable peuvent être mesurées
sur une échelle numérique permettant une comparaison. Si ces valeurs sont exprimées avec
des chiffres après la virgule, on dit qu’il s’agit d’une variable quantitative continue (âge,
taille, etc.). Dans le cas contraire, on parle de variable quantitative discrète (nombre
d’enfants, d’étages).
Attention, il est préférable de choisir "Numérique" pour les variables quantitatives et
qualitatives. Ainsi, pour une variable qualitative, pour simplifier la saisie des données (ou
réponses apportées aux questions), nous vous conseillons de faire le choix suivant :
Exemple de variables qualitatives : À la question "Quelle est votre nationalité ?", la variable
est "Nationalité". Les réponses peuvent être : 1. française, 2. italienne, 3. tunisienne, etc.
Cette variables, dont les modalités de réponses sont codées 1., 2., 3. devient une "fausse
variable quantitative (numérique)".
Il faut par ailleurs indiquer la largeur en caractère et le nombre de décimales des modalités codées de
réponse. Par exemple dans le cas d’une variable qualitative codée : 1, 2, 3, il faut choisir une largeur 1 et
une décimale 0. Dans le cas d’une variable quantitative "age", dont les réponses peuvent être : 25, 44, 101,
etc., il faut choisir une largeur 3 et une décimale 0.
Nous vous conseillons de choisir par défaut pour les variables numériques, une largeur de 20.
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
76
77
N.B. Les formats peuvent également être saisis dans les deux colonnes suivantes "Largeur"
et "Décimales".
Si vous travaillez avec des variables qualitatives non codées comme le nom, le prénom
ou l’adresse, cliquez sur "Chaîne". Vous devrez alors saisir le nombre de caractères
maximum de vos réponses.
Exemple : Identifiez le nom le plus long, pour la saisie du nom "Martin" : le format largeur
est égal à 6.
Définir une étiquette (de variable)
A chaque variable, il est possible d’attacher une étiquette descriptive afin de rendre son
intitulé plus explicite lors des sorties statistiques et graphiques. Les étiquettes de variable
peuvent comporter un maximum de 60 caractères.
Exemple : A la question "Quelle est votre situation matrimoniale ?", l’intitulé de l’étiquette de
variable peut être : "Situation matrimoniale de l’enquêté".
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
Définir des étiquettes de valeurs
78
Les étiquettes de
valeurs sont spécifiques
aux variables
qualitatives.
Exemple A la question
"Quelle
est
votre
situation matrimoniale ?",
les étiquettes de valeurs
peuvent
être
:
1.
Célibataire, 2. Marié, 3.
Veuf, 4. Divorcé.
Mentionner les données manquantes
SPSS tient compte des données manquantes dans l’ensemble des procédures statistiques. Il
en existe deux types :
les valeurs manquantes systèmes définies par un point (procédure automatique).
Elles signifient qu’aucune donnée n’a été saisie dans le fichier. Cela signifie par
exemple qu’un individu interrogé n’a pas répondu à une question. L’absence de
réponse est considérée comme une réponse manquante ;
les valeurs manquantes codées par l’utilisateur. Dans ce cas, pour définir vos propres
codes de valeurs manquantes, il faut cliquer sur "Manquant" et compléter les cases
de "valeur manquante discrète".
Par exemple, reprenons notre variable "Quelle est votre nationalité ?". Dans cette
variable, trois modalités sont proposées : 1. française, 2. italienne, 3. tunisienne. Si
on souhaite faire une analyse uniquement sur les européens, les réponses apportées
par les tunisiens au questionnaire doivent être exclues de l’analyse. Pour ce faire, il
est possible dans "Manquant" de saisir dans "Valeur manquante discrète", le
code 3. correspondant aux tunisiens. Ce choix n’est pas définitif, à tout moment, on
peut revenir sur "Valeur manquante discrète" est supprimer le code 3 saisi.
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
79
Préciser la mesure
Cette procédure permet de préciser la manière dont la variable sera traitée. Généralement,
toutes les variables quantitatives continues devront être traitées en mesure "échelle" ;
toutes les variables ordinales devront être traitées en mesure "ordinale" ; toutes les
variables qualitatives seront traitées en mesure "nominale".
Toutefois, il est conseillé de choisir systématiquement la mesure "échelle".
Mettre en forme
La procédure Colonne permet de définir la largeur de la colonne. Aligner permet de centrer
le texte ou de le décaler à gauche ou à droite.
Vous devez recommencer la procédure d’identification des variables, autant de fois qu’il y a
de variables dans le questionnaire. Nous vous conseillons d’enregistrer votre fichier. Se
reporter à la rubrique
Sauvegarde et ouverture d’un fichier au format SPSS (.sav).
Remarque :
Une fois l’ensemble des variables saisies, il est toujours possible d’ajouter de nouvelles
variables ou de nouvelles modalités de réponses aux variables. Il suffit d’aller dans
"Affichage des variables" et de faire les modifications souhaitées.
3. Comment saisir le dictionnaire de données ?
Après avoir saisi, l’ensemble des variables, vous devez cliquer sur l’icône "Affichage des
données".
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
La structure des fichiers de données est similaire à celle d’une table de saisie de
données classiques. En ligne, sont saisis les individus et en colonnes, les modalités de
réponses aux différentes variables.
Si vous avez attribué une valeur (Cf. Définir des étiquettes de valeurs), à
chacune des modalités d’une variable qualitative, vous pouvez saisir directement
l’étiquette de valeur ou la sélectionner à l’aide du menu déroulant. La saisie est plus
rapide et les traitements statistiques mentionneront la valeur attribuée à l’étiquette
(Nationalité : 1. française, 2. italienne, 3. tunisienne ; age : 1. moins de 18 ans, 2. 19
à 30 ans, 3. plus de 31 ans).
80
Si vous souhaitez
que les étiquettes
apparaissent vous
pouvez cliquer sur l’icône
"étiquettes de valeurs"
.
Vous devez recommencer la procédure de saisie des données en ligne, autant de fois qu’il y
a d’individus ayant répondu au questionnaire. Nous vous conseillons d’enregistrer votre
fichier régulièrement pour ne pas perdre vos données. Se reporter à la rubrique :
6. Sauvegarde et ouverture d’un fichier au format SPSS (.sav).
4. Recodage d’une variable
Les opérations de recodage sont essentielles pour le traitement d’une enquête. Elles
permettent de transformer les variables saisies initialement en variables plus adaptées à la
présentation des résultats d’analyse. Prenons le cas d’une étude sur la situation
professionnelle des français selon leur âge. Les variables utilisées sont :
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
Variable quantitative (numérique) : "age". Modalités de réponse : 25, 35, 42, 18, 55,
22, etc.
Variable quantitative (numérique) : "annee d’experience". Modalités de réponse : 5,
3, 12, 0, 30, 0, etc.
Variable qualitative codée (numérique) : "situation professionnelle". Modalités de
réponse : 1. En activité, moins de 5 ans d’expérience ; 2. En activité, plus de 5 ans
d’expérience ; 3. Inactif.
81
Tableau de données
4.1. Calcul d’une variable
Dans notre exemple, nous
pouvons faire le choix de créer
une nouvelle variable "Age a la
1ère embauche". Pour ce faire il
faut calculer une variable (cf.
4.1). En parallèle, nous faisons le
choix de recoder la variable
"age", en "classes d’ages". De
même, nous voulons réduire le
nombre
de
modalités
de
réponses de la variable "situation
professionnelle". Pour ce faire, il
faut utiliser la procédure de
recodage d’une variable (cf.4.2).
Reprenons notre exemple. Nous voulons créer une variable "age a la 1ère embauche". Pour
calculer une nouvelle variable, il faut se placer sur "affichage des données" puis aller dans
le menu "Transformer" > "Calculer". Dans la case intitulée "Variable de destination", il
faut préciser le nom de la nouvelle variable puis, dans "Expression numérique" il suffit de
présenter le calcul effectué pour l’obtention de la nouvelle variable.
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
82
Exemple : Vous avez une variable « age » et une variable « Anciennete ». Vous
voulez créer une variable « Age1ereEmbauche ».
Saisissez l’expression numérique :"age – ancienneté". Vous pouvez sélectionner les
variables dans la fenêtre listant les variables.
Donnez le nom d’une nouvelle variable de destination : "Age1ereEmbauche" puis
cliquer sur OK.
La fonction "Types & Etiquette…" permet d’allouer une étiquette plus explicite à votre
variable et de mentionner son type (numérique ou chaîne). Dans notre exemple, la
variable est numérique.
4.2. Les procédures de recodage
Afin de réaliser des transformations sur les variables, il faut utiliser le menu "Transformer"
> "Recoder" pour recoder votre information ou de construire de nouvelles variables. Ce
menu est parfaitement adapté pour transformer une variable quantitative continue comme la
variable âge en une variable qualitative comme la classe d’âges. Deux options sont
proposées : le recodage de variables et la création de variables. Le recodage de
variables permet de recoder la variable sur la variable initiale tandis que la création de
variables amène à créer une nouvelle variable.
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
83
Attention, il est donc obligatoire de choisir la deuxième option "création de
variables". Ces nouvelles variables apparaissent dans "Affichage des variables". Elles sont
situées à la fin de la liste des variables.
Reprenons nos deux exemples.
1) Recoder la variable "age", en "classes d’ages"
Exemple : Vous avez une variable quantitative continue "age", vous voulez créer une
variable qualitative (Cl.age) comprenant des classes d’âges.
Sélectionnez la variable "age" et indiquer le nom de la variable destination "Cl.age".
Attention, il faut cliquer sur "Valider"
Pour plus de clarté, attribuez une étiquette de variable "Classes d’ages".
Cliquez sur "Anciennes et nouvelles valeurs"
Indiquez les intervalles des classes d’âge. Nous avons crée 3 classes d’âges :
1. inférieur à 25 ans, 2. entre 25 et 40 ans, 3. supérieur à 40 ans.
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
84
Pour créer "1. Inférieur à 25 ans" :
cliquer sur "Intervalle, du MINIMUM
à la valeur" et indiquez 25 ; puis
indiquez 1 dans "Valeur", puis cliquez
sur "Ajouter".
Pour créer "2. Entre 25 et 40 ans" : cliquez sur "intervalle" et indiquez 25 à 40 ;
puis indiquez 2 dans "Valeur", puis cliquez sur "Ajouter".
Pour créer "3. Supérieur à 40 ans" : cliquer sur "intervalle, de la valeur au
MAXIMUM" et indiquez 40 ; puis indiquez 3 dans "Valeur", puis cliquez sur
"Ajouter".
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
85
Au
final,
vous
devez
visualiser
la
configuration ci-contre, pour valider ce recodage
cliquez sur "Poursuivre". Dans la fenêtre "Création
de variables" cliquez sur "Ok".
2) Réduire le nombre de modalités de réponses de la variable "situation
professionnelle".
Exemple : Vous avez une variable qualitative "situation professionnelle", dont les modalités
sont "1. En activité, moins de 5 ans d’expérience", "2. En activité, plus de 5 ans
d’expérience", "3. Inactif". Vous voulez regrouper les modalités 1. et 2. En une nouvelle
modalité "En activité". La nouvelle variable comportera ainsi deux modalités : "1. En activité"
et "2. Inactif".
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
Sélectionnez la variable "situation professionnelle" et indiquer le nom de la variable
destination "BisSitPro".
Attention, il faut cliquer sur "Valider"
Pour plus de clarté, attribuez une étiquette de variable "Bis- situation professionnelle"
Cliquez sur "Anciennes et nouvelles valeurs"
Indiquez les codes de modalités à regrouper. Nous avons deux modalités de réponse
: 1. En activité, 2. Inactif.
- Pour créer "1. En activité" :
a- cliquer sur "Valeur" et indiquer le code la modalité de réponse 1 (qui correspond à "En
activité", moins de 5 ans d’ancienneté); puis indiquez 1 dans "Valeur", puis cliquez sur "Ajouter".
b- cliquer sur "Valeur" et indiquer le code la modalité de réponse 2 (qui correspond à "En
activité", plus de 5 ans d’ancienneté); puis indiquez 1 dans "Valeur", puis cliquez sur "Ajouter".
- Pour créer "2. Inactif" : cliquer sur "Valeur" et indiquer le code la modalité de réponse 3 (qui correspond
à "Inactif"); puis indiquez 2 dans "Valeur", puis cliquez sur "Ajouter".
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
Au final, vous devez visualiser la configuration ci-contre, pour valider ce recodage cliquez sur "Poursuivre".
Puis dans la fenêtre "Création de variables" cliquez sur "Ok".
86
5. L’échantillonnage
87
5.1. Sélection des individus
La sélection d’observations permet de choisir et de définir l’échantillon sur lequel vous
souhaitez travailler. Pour ce, allez dans le menu Données > Sélectionner les
observations.
Sélectionnez
"selon
une
condition logique" : certains
individus seront sélectionnés selon
certains critères comme l’âge, le
revenu etc. Dans notre exemple,
nous sélectionnons uniquement les
individus ayant été embauchés à
plus de 20 ans.
5.2. Sélection d’un échantillon aléatoire
Sélectionnez
"toutes
les
observations" quand vous voulez
annuler la condition logique : tous
les
individus
sont
alors
sélectionnés.
L’échantillon aléatoire peut se spécifier de deux façons différentes. Soit vous décidez de
sélectionner n % de vos observations, soit vous choisissez un nombre précis d’individus (qui
seront tirés aléatoirement) dans une tranche particulière d’observations.
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
88
Sélectionnez
"Par
échantillonnage aléatoire" :
certains
individus
seront
sélectionnés selon par exemple un
% donné. Dans notre exemple,
nous sélectionnons de façon
aléatoire environ 25% de notre
échantillon initial.
Sélectionnez
"toutes
les
observations" quand vous voulez
annuler la condition logique : tous
les
individus
sont
alors
sélectionnés.
5.3. Sélection selon un intervalle de temps ou d’observations
Il s’agit simplement de préciser l’intervalle d’observations exact sur lequel vous souhaitez
travailler.
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
89
Sélectionnez
"Dans
un
intervalle
de
temps
ou
d’observations", les x premiers
individus seront sélectionnés. Dans
notre exemple, nous sélectionnons
les 100 premières observations (ou
individus).
Sélectionnez
"toutes
les
observations" quand vous voulez
annuler la condition logique : tous
les
individus
sont
alors
sélectionnés.
6. Sauvegarde et ouverture d’un fichier au format SPSS (.sav)
Pour sauvegarder vos dictionnaires de données et de variables, vous devez enregistrer les
données au format SPSS Windows (.sav) en cliquant sur Fichier > Enregistrer sous.
Ultérieurement, pour ouvrir ce même fichier vous devrez cliquer sur le menu Fichier >
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
II. Les traitements statistiques de données
90
1. La fenêtre de résultats
La fenêtre de résultats ou Navigateur SPSS (.spo) contient l’ensemble des sorties
issues des requêtes statistiques et graphiques. Sa particularité provient du fait qu’elle stocke
à la fois les sorties graphiques et statistiques. Cette fenêtre se présente de la même façon
que l’explorateur de Windows XP. Elle comporte deux parties :
dans la partie de gauche, tous les résultats sont
représentés sous forme d’icônes en arborescence.
dans la partie de droite, les résultats sont
présentés sous la forme d’objets qui peuvent être
modifiés en double cliquant dessus.
Enregistrement des résultats :
Cliquez dans Fichier > Enregistrer sous
Impression des résultats :
L’impression des résultats peut se faire d’une façon
sélective ou totale. Positionnez-vous dans la fenêtre
correspondante, établissez votre sélection et cliquez
dans Fichier > Imprimer.
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
91
Pour obtenir des résultats il faut lancer des procédures de traitement. Les rubriques
suivantes vous indiquent les principaux traitements réalisables dans le cadre du programme
de l’UE SO0013YB.
2. Descriptions de données qualitatives et quantitatives
Un des moyens élémentaires de résumer chaque variable est d’effectuer des tris à plat. Ce
type d’analyse donne de solides bases pour des analyses plus complexes. L’appel aux tris à
plat se fait par le menu Analyses > Statistiques descriptives > Effectifs.
Exemple de tri à plat :
Tri à plat sur la variable "sexe"
Valide
Masculin
Féminin
Total
Fréquence
Pour cent
80
80
160
50,0
50,0
100,0
Pourcentage
valide
50,0
50,0
100,0
Pourcentage
cumulé
50,0
100,0
Exemple de lecture : 160 individus ont été enquêtés. 80 d’entre eux, soit 50% de notre
population, sont des hommes.
Avant d’aborder les différences de traitement entre variables qualitatives et quantitatives
nous vous vous proposons quelques notions élémentaires de statistiques vues en 1ère année
(L1).
1- En ce qui concerne les représentations graphiques associés aux traitements statistiques,
différents types de diagrammes peuvent être utilisés :
Diagramme en bandes : On appelle diagramme en bandes un graphique qui, à
chaque modalité de la variable, associe un rectangle (de base constante) dont la
hauteur est proportionnelle à l’effectif. Les diagrammes à bandes sont utilisés
pour représenter des variables qualitatives.
Graphique en secteurs (diagramme circulaire ou camembert) : On appelle
graphique en secteurs un graphique qui divise un disque en secteurs angulaires
dont les mesures sont proportionnelles aux effectifs de chaque modalité. Les
diagrammes circulaires sont utilisés pour représenter des variables qualitatives.
Histogramme : On appelle histogramme un diagramme composé d’un ensemble
de rectangles contigus d’aire proportionnelle aux effectifs (ou aux fréquences) et
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
de bases déterminés par les extrémités de classe. Les histogrammes sont utilisés
pour représenter des variables quantitatives continues.
2- La courbe de Gauss.
L’allure de la distribution observée dans cet exemple montre la forme d’une courbe en
cloche. Cette forme de la cloche indique donc que la distribution des données de la variable
étudiée dans la population suit une loi normale.
Mais qu’est-ce que la loi normale ? La loi normale ou loi de Gauss est un modèle mis en
place par Carl Gauss, mathématicien allemand (1777-1855). Mais ce modèle n’a été utilisé
dans les sciences sociales qu’à partir du début du XXème siècle. De nos jours, ce modèle
nommé "distribution normale" est souvent appelé "courbe de Gauss". Il s’applique surtout
aux données quantitatives continues et plus rarement aux données quantitatives discrètes.
Définition : on dit que la variable X suit une loi normale de moyenne x (en probabilité, on
ne parle pas de moyenne mais d’espérance) et d’écart-type, si elle admet une fonction de
densité f définie par :
Quelques propriétés : la forme de la courbe en cloche de la loi normale est déterminée
par deux valeurs : la moyenne et l’écart-type. La courbe de la loi normale est plus ou moins
évasée ou aplatie selon la valeur de l’écart-type. La figure suivante montre la forme générale
de la loi normale.
La loi normale possède de nombreuses propriétés, nous retiendrons les suivantes :
la distribution normale est symétrique par rapport à l’axe vertical passant par la
moyenne ;
la distribution normale est "normalement" aplatie ;
environ 68% des valeurs observées sont comprises dans l’intervalle [x − σ ; x + σ [ ;
environ 95% des valeurs observées sont comprises dans l’intervalle [x - 2σ; x + 2σ[ ;
la moyenne est égale à la médiane et au mode.
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
92
L’étude d’une distribution statistique conduit souvent à vérifier si elle suit approximativement
ou non une loi normale en comparant les caractéristiques de la distribution à celle de la loi
normale.
Tableau récapitulatif des avantages et inconvénients d’indicateurs élémentaires
Avantages
Moyenne
Médiane
Mode
Répandue.
Très bon indice lorsque
symétrique unimodale.
Peu influencée par
extrêmes.
Bon indicateur pour
asymétriques.
Pas
affecté
par
exceptionnelles
Inconvénients
Sensibilité aux valeurs extrêmes
la variable est Représente mal les distributions
asymétriques.
les valeurs
les variables
les
valeurs
Quelques définitions
Asymétrie : Le coefficient d’asymétrie de Yule permet de comparer l’étalement de la
distribution à gauche et à droite de la médiane. Le coefficient d’asymétrie est compris entre 1 et +1.
Aplatissement : Le coefficient d’aplatissement de Kurtosis permet de rendre compte de
l’aplatissement de la courbe de répartition par rapport à une courbe idéale dite "normale".
Centiles (C1, C2...C98, C99) : Ce sont les 99 valeurs qui partagent la population en cent
parties de même effectif (la médiane est un centile C50).
Ecart-type : L’écart-type est la racine carrée de la variance. Il s’exprime dans la même
unité que la variable. Il est d’autant plus grand que la dispersion des observations autour de
la moyenne est importante.
Intervalle : Synonyme d’étendue. On appelle étendue la différence entre la plus grande et
la plus petite des valeurs observées.
Maximum : Il s’agit de la valeur maximale observée.
Médiane : La médiane d’une distribution est la valeur de la variable qui partage la
population en deux parties d’effectifs égaux.
Minimum : Il s’agit de la valeur minimum observée.
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
93
Mode : Le mode est la valeur qui a l’effectif le plus important ou la plus grande fréquence
c’est-à-dire la plus forte probabilité d’apparition.
Moyenne : La moyenne permet de caractériser la tendance générale d’une population ou
d’une sous-population. C’est la valeur de la variable que prendrait chaque individu s’il n’y
avait aucune variation, donc aucune différence d’un individu à l’autre.
Quartiles ( Q1, Q2, Q3) : Ce sont les trois valeurs qui partagent la population en quatre
parties de même effectif (la médiane est un quartile Q2).
Variance : La variance est la moyenne des carrés des écarts à la moyenne. Plus la
dispersion est importante et plus la variance est élevée. La variance est un indicateur
numérique et non une mesure de dispersion.
SPSS délivre tout d’abord les tableaux de résumé et de fréquences. Puis, SPSS présente
l’histogramme représentant la distribution de variables quantitatives. Ce graphique permet
très rapidement de se rendre compte de la distribution de la variable.
2.1. Analyse descriptive de données qualitatives
Les variables qualitatives se résument essentiellement à l’aide de tris à plat et de
diagrammes. Les tris à plat permettent de connaître précisément les effectifs (et les
pourcentages correspondants) de chaque modalité de réponse à la variable. La
représentation par des diagrammes en bâtons ou en secteurs (ou camembert) est la
représentation la plus utilisée pour visualiser la répartition de la population à l’intérieur de
chaque catégorie de variable.
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
94
95
Placez les variables à étudier dans la liste.
Puis, cliquez sur "Diagrammes" et spécifiez "Diagrammes en bâtons" et valeurs
du diagramme "en pourcentages"
Exemple de résultats
SPSS délivre, tout d’abord, les tableaux de résumé et de fréquences. Puis, il présente le
diagramme représentant la distribution de la variable qualitative.
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
96
2.2. Analyse descriptive de données quantitatives
Tri à plat et histogramme sont les moyens les plus simples pour décrire une variable
quantitative. Comme l’histogramme se construit à partir du tri à plat, voici comment utiliser
ces deux outils avec SPSS.
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
97
Placez les variables à étudier dans la liste.
Puis cliquez sur Diagrammes et spécifiez "Histogramme". Vous pouvez cocher "Avec
courbe de gaussienne" pour visualiser la courbe de tendance.
Vous pouvez
également préciser les
traitements statistiques
complémentaires à
effectuer (indicateurs
de tendance centrale,
fractiles)
Exemple de résultats
SPSS délivre, tout d’abord, les tableaux de résumé et de fréquences. Puis, il présente
l’histogramme représentant la distribution de la variable quantitative.
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
98
3. Mesure de liaison2 entre deux variables qualitatives
3.1. Le test d’indépendance du khi²
Dans SPSS, l’appel aux tableaux croisés se fait par le menu Analyses > Statistiques
descriptives > Tableaux croisés. Dans un tableau croisé (ou de contingence), la variable
dépendante se place toujours en colonne et la variable indépendante en ligne.
Le test du khi² est un bon indice de dépendance entre deux variables qualitatives. Comme la
plupart des tests, il vise à comparer une situation observée à une situation théorique
construite sous une hypothèse donnée. Le plus souvent, on teste l’hypothèse nulle ou
d’indépendance (correspondant à une absence de relation) parce que l’on dispose, dans ce
2
Un test statistique se lit toujours de la même façon. Si le seuil de significativité est supérieur à 5%, on accepte
l’hypothèse nulle H0 (c’est-à-dire l’hypothèse d’indépendance, d’égalité des moyennes etc.). Si le seuil de
significativité est inférieur à 5%, on rejette l’hypothèse nulle (donc on accepte H1).
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
cas, de moyen de formuler mathématiquement la situation. Néanmoins, le travail du
sociologue commence après le calcul du khi²…
99
Généralité sur la lecture d’un test statistique avec SPSS
Avant d’accepter définitivement l’hypothèse d’indépendance, il est nécessaire de vérifier le respect
de deux conditions :
aucune cellule ne doit contenir un effectif théorique inférieur à 5 ;
les cellules, dont l’effectif théorique est inférieur à 5, doivent représenter moins de 20% de
l’ensemble des cellules et le nombre d’observations doit être supérieur à 50.
L’une des conditions n’est pas respectée, on ne peut conclure à l’acceptation de l’hypothèse
d’indépendance car les effectifs sont trop faibles. D’une façon générale, ce problème est
provoqué par un effectif total trop faible ou par la présence de modalités à très faible
effectif. Afin de remédier à ce genre de problème, on procède de deux façons : soit on
augmente la taille de l’échantillon, soit on regroupe les classes de petit effectif avec d’autres.
3.2. Tableaux croisés simples
L’exemple ci-dessous porte sur une étude relative à l’homogamie sociale dans le couple. Il a
pour objectif d’établir s’il existe un lien de dépendance entre le "Diplôme du père" et du
"Diplôme de la mère".
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
100
Effectif théorique : il s’agit de l’effectif que l’on obtiendrait si les deux variables qualitatives
étaient indépendantes.
Résidus standardisés ajustés : ces résidus permettent, lorsque l’on construit de grands
tableaux, de détecter au plus vite les cellules présentant une grande déviance par rapport à l’hypothèse
d’indépendance et contribuant fortement au calcul du khi². Ils sont exprimés en écart à la moyenne de
la contribution au Khi². Plus les résidus sont supérieurs en valeur absolue à 2,1, plus la cellule contribue
au Khi² total. Par exemple, une valeur négative supérieure à 2,1 marque une contribution négative
significativement forte de la cellule, à l’inverse une valeur positive supérieure à 2,1 souligne une
contribution positive significative de la cellule au calcul du Khi² total.
Les pourcentages en colonne sont calculés pour chaque colonne du tableau de telle façon que
leur somme fasse 100%. Il est de même pour les pourcentages en ligne. Si on souhaite mesurer la
liaison entre les deux variables, il faut mettre en œuvre la statistique du khi².
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
101
Les indicateurs statistiques suivants peuvent être utilisés : le khi², le coefficient de
contingence, le coefficient de Phi et de Cramer.
Le coefficient de contingence comme le V de Cramer permet de mesurer l’intensité de la
liaison entre deux variables qualitatives pour les tableaux dont le ddl est supérieur à 1. Le
calcul de ce coefficient n’a d’intérêt que si les variables sont dépendantes. Sa valeur est
toujours comprise entre 0 (aucune dépendance, les effectifs réels sont égaux aux effectifs
théoriques) et 1 (dépendance maximale). Plus la valeur du coefficient se rapproche de 0,
plus le lien statistique entre les deux variables est nul. Plus la valeur du coefficient se
rapproche de 1, plus le lien statistique entre les deux variables est parfait.
A titre indicatif, on peut évaluer l’intensité de la dépendance selon les tableaux ci-
dessous :
Valeur du coefficient
noté "C", "φ" ou " V"
0 < coefficient < 0,25
0,25 < coefficient < 0,50
0,50 < coefficient < 0,75
0,75 < coefficient < 0,95
0,95 < coefficient < 1
Force du lien
statistique entre deux
variables
lien statistique très faible
voir nul
lien statistique faible
lien statistique moyen
lien statistique fort
lien statistique très fort
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
LECTURE ET ANALYSE DES RESULTATS
Diplôme du père * Diplôme
le plus élevé de la mère
102
Observations
Manquante
N
Pourcent
373
24,9%
Valide
N
Pourcent
1127
75,1%
Total
N
Pourcent
1500
100,0%
Sur 1500 enquêtés, 1127 individus font l’objet du traitement statistique soit 75,1% de la
population totale. 373 personnes n’ont pas répondu.
Tableau croisé : Diplôme du père * Diplôme le plus élevé de la mère
355
199,4
69,3%
139
248,5
27,1%
3
16,4
,6%
14
36,8
2,7%
1 512
10,9
,2%
512,0
100,0%
80,9%
25,4%
8,3%
17,3%
4,2%
45,4%
19,1
74
157,4
18,3%
-13,1
297
196,1
73,5%
-4,5
15
12,9
3,7%
-5,3
15
29,0
3,7%
-4,1
3 404
8,6
,7% 1
404,0
00,0%
16,9%
54,3%
41,7%
18,5%
12,5%
35,8%
-10.6
1
12,5
13
,7
5
-3,4
3
-2,4
2
24
Effectif théorique
9,3
11,6
,8
1,7
,5
24,0
% dans diplôme du
père
% dans diplôme le
plus élevé de la
mère
Résidu ajusté
Effectif
4,2%
54,2%
20,8%
12,5%
8,3%
100,0%
,2%
2,4%
13,9%
3,7%
8,3%
2,1%
-3,5
7
,6
61
5,0
8
1,0
34 6
2,1
116
Effectif
Effectif théorique
% dans diplôme du
père
% dans diplôme le
plus élevé de la
mère
Résidu ajusté
Effectif
Effectif théorique
% dans diplôme du
père
% dans diplôme le
plus élevé de la
mère
Résidu ajusté
Effectif
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Total
Bac + 4-5
Bac + 3
Bac+ 3
Bac + 2
Bac+ 2
Diplôme du père
Bac
Bac
< Bac
< Bac
Diplôme le plus élevé de la mère
Année universitaire 2009-2010
Bac + 4-5
Total
Effectif théorique
45,2
56,3
3,7
8,3
2,5
116,0
% dans diplôme du
père
% dans diplôme le
plus élevé de la
mère
Résidu ajusté
Effectif
6,0%
52,6%
6,9%
29,3%
5,2%
100,0%
1,6%
11,2%
22,2%
42,0%
25,0%
10,3%
-7,7
2
,9
37
2,4
5
9,7
15
2,4
12
71
Effectif théorique
27,7
34,5
2,3
5,1
1,5
71,0
% dans diplôme du
père
% dans diplôme le
plus élevé de la
mère
Résidu ajusté
,5%
6,8%
13,9%
18,5%
50,0%
6,3%
,5%
6,8%
13,9%
18,5%
50,0%
6,3%
-6,5
100,0%
,6
100,0%
1,9
100,0%
4,7
100,0%
8,9
100,0%
100,0%
103
Exemple de lecture : 512 enquêtés ont un père ayant un diplôme inférieur au bac
(69,3%). 439 enquêtés ont une mère ayant un diplôme inférieur au bac (39%). Parmi
ceux qui ont un père ayant un diplôme inférieur au bac, 80,9% ont une mère ayant un
diplôme inférieur au bac. Il existerait une proportion plus forte de parents ayant un
niveau de diplôme inférieur au bac. Comment mesurer ce lien ?
En statistique, pour savoir s’il existe une relation de dépendance entre deux variables
qualitatives, il suffit de comparer le khi² calculé au khi² théorique (de la table). Si le khi²
calculé est supérieur au khi² théorique, on conclut donc à une dépendance entre les
variables. Or, afin d’éviter de manipuler cette table, SPSS donne un moyen simple
d’accepter ou de rejeter l’hypothèse d’indépendance par la "significativité asymptotique":
si la signification asymptotique est inférieure à 5% (c’est-à-dire 0,05 soit .05),
on rejette l’hypothèse d’indépendance au niveau de confiance 95%.
si la signification asymptotique est supérieure à 5% (c’est-à-dire 0,05 soit
.05), on accepte l’indépendance au niveau de confiance 95%.
Les résidus standardisés ajustés supérieurs en valeur absolue à 2,1 rendent compte d’une
contribution importante de la cellule au calcul du khi². Par exemple, les enquêtés ayant un
père avec un bac ont plus fréquemment une mère avec le bac.
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
104
Mesures symétriques
Valeur
Nominal par Nominal
Coefficient de
contingence
,585
Signification
approximée
,000
1127
Nombre d'observations valides
a. L'hypothèse nulle n'est pas considérée.
b. Utilisation de l'erreur standard asymptotique dans l'hypothèse nulle.
Tests du Khi-deux
Valeur
Khi-deux de Pearson
Rapport de vraisemblance
Association linéaire par linéaire
Nombre d'observations valides
587.663a
532,042
351,822
1127
ddl
16
16
1
Signification asymptotique
(bilatérale)
,000
,000
,094
a.2 cellules (8%) ont un effectif inférieur à 5. L’effectif théorique minimum est de 0,51
La signification asymptotique est inférieure à 5% donc on rejette l’hypothèse
d’indépendance entre ces deux variables ce qui signifie que le khi² réel est supérieur
au khi² théorique.
La valeur du coefficient de contingence indique une intensité moyenne de la
dépendance entre ces variables.
D’autre part, SPSS présente plusieurs autres tests :
Le rapport de vraisemblance du khi² teste la même hypothèse d’indépendance des
variables. Il est utilisé pour de grands tableaux ayant plus de dix modalités. Dans la
majorité des cas, il fournit les mêmes résultats que le khi² de Pearson.
Le test du khi² linéaire par linéaire teste l’hypothèse spécifique d’une association
linéaire entre les variables. Ce test est très souvent ignoré.
Selon la taille du tableau (ddl=1) les tests suivants sont mis en œuvre :
La statistique de correction pour la continuité (qui apparaît uniquement dans un
tableau dont le ddl = 1 et dont un des effectifs théoriques est inférieur à 500) permet de
calculer une significativité plus "exacte" lorsque le calcul standard du khi² n’approche pas
parfaitement la distribution théorique (travaux de Yates).
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
Le test exact de Fisher apparaît pour les tableaux dont le ddl = 1. Ce test est utilisé
105
quand 20% des cases du tableau ont un effectif théorique inférieur à 5 ou lorsque
certaines cellules sont vides.
3.3. Tableaux croisés dans une sous-population
L’exemple ci-dessous a pour objectif d’établir s’il existe un lien de dépendance entre
"l’intégration des agriculteurs" dans un dispositif public et leur localisation géographique
(selon le département) en région Aquitaine.
Il
est
possible
de
spécifier
une
variable
qualitative définissant des
strates. Plusieurs tableaux
seront construits, un pour
chaque strate (ou souspopulation).
Exemple : nous pouvons
croiser
la
variable
"Intégration des agriculteurs
dans un dispositif public"
("PMPOA…") avec la variable
"localisation départementale"
("DEP") selon le canton
d’appartenance ("PCT").
4. Mesure de liaison entre deux variables quantitatives :
le coefficient de corrélation de Pearson
Les variables quantitatives représentent la mesure d’une quantité : elles prennent des
valeurs numériques ayant une signification concrète comme la taille, le poids, le revenu. Il
existe des variables quantitatives discrètes et continues. Une variable quantitative discrète a
un nombre dénombrable de valeurs possibles. La distinction entre une variable quantitative
discrète et une variable qualitative ordinale n’est pas toujours facile à faire (et n’est d’ailleurs
pas toujours nécessaire en pratique). Une variable quantitative continue a un nombre infini
non dénombrable de valeurs possibles. Entre deux valeurs distinctes, il y a toujours une
valeur intermédiaire possible. C’est le cas entre autres de toutes les variables qui mesurent
des quantités physiques : taille, poids, revenu.
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
Rappel sur le coefficient de Pearson
106
Pour évaluer la liaison entre des variables quantitatives, il existe différents types de
coefficient de corrélation : le coefficient de corrélation de Pearson (du nom de son inventeur)
est le plus fréquemment. Ce coefficient mesure les relations linéaires entre deux variables X
et Y. Sa valeur est toujours comprise entre -1 et +1. Si le coefficient est de signe positif, cela
signifie que les deux variables sont corrélées positivement c’est-à-dire que les variables
croissent ou décroissent ensemble. Plus r est proche de +1, plus la corrélation est forte et
plus la forme du nuage ressemble à une droite. En revanche, si le coefficient de corrélation
est de signe négatif, les deux variables sont corrélées négativement c’est-à-dire que les
variables varient en sens inverse (c’est-à-dire quand une variable croît, l’autre décroît ou
inversement). Plus r est proche de -1, plus la corrélation est forte et plus la forme du nuage
ressemble à une droite. Si les variables ne sont pas corrélées entre elles, le coefficient de
corrélation est proche de 0 et les points du nuage sont dispersés dans le plan.
En cours de statistique, pour savoir s’il existe une relation de corrélation entre deux variables
quantitatives, il suffit de comparer le r calculé au r théorique (de la table). Si le r calculé est
supérieur au r théorique, on conclut donc à une corrélation significative entre les variables.
Pour savoir si la corrélation est significative (c’est-à-dire si elle n’est pas due au hasard), il
faut observer la significativité bilatérale. Si la significativité bilatérale est supérieure à 5%
(soit 0,05), les variables ne sont donc pas corrélées significativement entre elles. Si la
significativité bilatérale est inférieure à 5% (soit 0,05), les variables sont donc
significativement corrélées entre elles. La double étoile indiquée en indice près du coefficient
de corrélation signifie que la présence de la corrélation est significativement différente de
zéro à 99%.
4.1. La représentation du nuage de points
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
107
Pour étudier la corrélation entre deux variables, il faut tout d’abord tracer le nuage de
points afin d’avoir une première idée du lien statistique existant entre les deux variables
quantitatives. Dans SPSS, le tracé du nuage de points se fait par le menu Graphes >
Dispersion/Points. Il est nécessaire de sélectionner ensuite "Dispersion simple".
Après avoir sélectionné le graphique diagramme de dispersion simple, il faut sélectionner en
abscisse et en ordonnée les variables X et Y.
Si on souhaite voir tracer la droite de régression : il suffit d’ouvrir le graphique "Nuage de
points" (double-cliquer sur le graphique), de sélectionner l’ensemble du nuage de points
(tous les points sont surlignés en bleu) et de cliquer sur l’icône "Ajouter une courbe
d’ajustement"
Une fenêtre "Propriétés" apparaît, il faut cocher "Linéaire" et fermer
la fenêtre. Le R deux apparaît directement dans le graphe.
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
108
4.2. La procédure de mise en œuvre du calcul du coefficient de Pearson
avec SPSS
Pour évaluer la liaison entre des variables quantitatives, il existe différents types de
coefficient de corrélation : le coefficient de corrélation de Pearson (du nom de son inventeur)
est le plus fréquemment utilisé.
En statistique, pour savoir s’il existe une relation de corrélation entre deux variables
quantitatives, il suffit de comparer le r calculé au r théorique (de la table). Si le r calculé est
supérieur au r théorique, on conclut donc à une corrélation significative entre les variables.
Dans SPSS, le calcul du coefficient de Pearson se fait par le menu Analyse >
Corrélation > Bivariée
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
109
Corrélations
Age
Revenu du foyer
Corrélation de Pearson
Sig. (bilatérale)
N
Corrélation de Pearson
Sig. (bilatérale)
N
Salaire actuel
Salaire
d'embauche
1,000
,
100
,800(**)
,000
100
,800(**)
,000
100
1,000
,
100
** La corrélation est significative au niveau 0.01 (bilatéral).
Pour savoir si la corrélation est significative (c’est-à-dire si elle n’est donc pas due au
hasard), il faut observer la significativité bilatérale. Si la significativité bilatérale est
supérieure à 5% (soit 0,05), les variables ne sont donc pas corrélées significativement
entre elles. Si la significativité bilatérale est inférieure à 5% (soit 0,05), les variables sont
donc significativement corrélées entre elles. L’étoile double indiquée en indice près du
coefficient de corrélation signifie que la présence de la corrélation est significativement
différente de zéro à 99% alors que l’étoile simple signifie que la présence de la
corrélation est significativement différente de zéro entre 95 et 99%. Dans l’exemple cidessous, le r de Pearson atteint 0,80, nous pouvons établir que la corrélation est forte
est croissante, en d’autres termes plus l’âge de l’interviewé est élevé, plus le revenu du
foyer est élevé (les deux variables évoluent dans le même sens).
III. Les représentations graphiques
Les graphiques présents dans SPSS (secteurs, courbes, aires et lignes) comprennent les
mêmes options concernant la disposition des données :
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
récapitulatifs pour groupes d’observations ;
récapitulatifs pour variables distinctes ;
valeurs des observations individuelles0
110
1. Récapitulatifs pour groupes d’observations
Dans SPSS, le diagramme en bâtons simples se fait par le menu Graphes > Bâtons >
Récapitulatifs pour groupes d’observations.
Cette
option concerne
la
représentation graphique simple
d’une variable.
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
111
Par exemple, nous faisons le
choix de représenter
graphiquement la variable "Sexe
de l’employé", vous avez la
possibilité de choisir les modes de
représentation graphique
(effectif, % d’observations etc.).
Un exemple de résultat.
2. Récapitulatifs pour variables distinctes
Dans SPSS, le diagramme en bâtons simples se fait par le menu Graphes > Bâtons >
Récapitulatifs pour variables distinctes.
Si vous souhaitez obtenir la même répartition, mais en prenant en compte une troisième
variable qualitative, vous devez sélectionner soit l’option "Empilé", soit l’option
"Juxtaposé".
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
112
Par exemple, quel est en
moyenne, le nombre de places de
camping et de chambres d’hôtel
dans les départements de la
région Aquitaine ?
En cliquant sur "Changer la
fonction", vous décidez des
modes
de
représentation
graphique des variables étudiées
(effectif, moyenne, médiane…).
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
113
La représentation
graphique obtenue est
la suivante.
Cette option permet de tracer parallèlement la valeur agrégée de plusieurs variables
quantitatives.
3. Valeurs des observations individuelles
Dans ce cas, les lignes ou les observations de votre fichier vont constituer les segments ou
les bâtons de votre graphique. Sa conception est identique à celle d’Excel.
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
4. Graphiques à vocation statistique
114
4.1. La boîte à moustaches
La boîte à moustaches (Boxplot) proposée par Tukey en 1977 permet d’étudier la variabilité
d’une quantité à l’intérieur d’une sous-population.
Dans SPSS, la boîte à moustaches se fait par le menu Graphes > Boîte à
moustache.
La "Variable" est nécessairement de type quantitatif, mais vous pouvez sélectionner
des variables qualitatives pour l’axe des modalités et pour étiqueter les observations.
Cette option concerne la
représentation graphique simple
d’une variable.
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
115
La
représentation
graphique
obtenue est la suivante.
4.2. Nuage de points avec ajustement linéaire
Se reporter au chapitre relatif à l’étude de la mesure de liaison entre variables quantitatives.
Pour procéder à des modifications sur les graphiques, il suffit de double-cliquer sur le
graphique. La feuille graphique est ainsi ouverte et vous pouvez y apporter les modifications
souhaitées.
IV. Exercice d’application
Les exercices mobilisent les fichiers de données "Enquête du comportement des américains
en 1993.sav" et "Employés.sav". Ces fichiers se trouvent dans le répertoire C:\program
files\SPSS.
1- Le statut matrimonial ("marié") varie-t-il en fonction de l’âge de
l’interviewé ("age") ?
Fichier : " Enquête du comportement des américains en 1993.sav"
La variable "age" est quantitative. Afin de vérifier l’hypothèse d’indépendance entre les deux
variables au moyen du test du khi-deux, il est proposé de recoder la variable de la façon
suivante (pour la procédure de recodage se reporter au I-4.2 1) :
1234-
Inférieur à 32 ans
De 33 à 43 ans
De 44 à 59 ans
Plus de 60 ans
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
Après avoir recodé la variable "age", vous pouvez réaliser un tri à plat. Le tri à plat de la
variable recodée est le suivant :
116
Statistiques
Quel est l'âge du répondant ?
Valide
Manquante
Inférieur à 32 ans
De 33 à 43 ans
De 44 à 59 ans
Plus de 60 ans
Total
Système
manquant
Total
Effectifs
%
% valide
% cumulé
374
398
362
361
1500
5
24,9
26,5
24,1
24,1
100,0
,3
25,0
26,6
24,2
24,1
25,0
51,6
75,9
100,0
1500
100,0
Il est alors possible de croiser les deux variables (pour la procédure se reporter au II-3). Les
résultats du traitement croisé sont les suivants :
Récapitulatif du traitement des observations
N
Quel
est
l'âge
répondant ? * Marié ?
du 1495
Valide
Pourcent
99,7%
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Observations
Manquante
N
Pourcent
5
,3%
N
1500
Total
Pourcent
100,0%
Année universitaire 2009-2010
Tableau croisé : Quel est l'âge du répondant ? * Marié ?
Marié ?
Inférieur à 32 ans
non
153
221
374
40,9%
59,1%
100,0%
% dans Marié ?
19,3%
31,5%
25,0%
Résidu ajusté
-5,5
5,5
Effectif
249
149
398
62,6%
37,4%
100,0%
% dans Marié ?
31,4%
21,3%
26,6%
Résidu ajusté
4,4
-4,4
Effectif
218
144
362
60,2%
39,8%
100,0%
% dans Marié ?
27,5%
20,5%
24,2%
Résidu ajusté
3,1
-3,1
Effectif
174
187
361
48,2%
51,8%
100,0%
% dans Marié ?
21,9%
26,7%
24,1%
Résidu ajusté
-2,1
2,1
Effectif
794
701
1495
53,1%
46,9%
100,0%
100,0%
100,0%
100,0%
Effectif
Quel est l'âge du répondant ?
% dans Quel
répondant ?
De 44 à 59 ans
% dans Quel
répondant ?
Plus de 60 ans
% dans Quel
répondant ?
Total
Total
oui
% dans Quel
répondant ?
De 33 à 43 ans
117
% dans Quel
répondant ?
est
est
est
est
est
l'âge
l'âge
l'âge
l'âge
l'âge
du
du
du
du
du
% dans Marié ?
Tests du Khi-deux
Valeur
Khi-deux de Pearson
Rapport de vraisemblance
Association linéaire par linéaire
Nombre d'observations valides
47,483(a)
47,743
2,809
1495
ddl
3
3
1
Signification asymptotique
(bilatérale)
,000
,000
,094
a. 0 cellules (,0%) ont un effectif théorique inférieur à 5.
L'effectif théorique minimum est de 169,27.
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
Mesures symétriques
Valeur
Nominal par Nominal
Coefficient de
contingence
Nombre d'observations valides
,175
118
Signification
approximée
,000
1495
a L'hypothèse nulle n'est pas considérée.
b Utilisation de l'erreur standard asymptotique dans l'hypothèse nulle.
Comment analyser ces résultats et répondre à la question posée ?
Sur 1500 enquêtés, 1495 individus ont formulé une réponse aux questions posées soit
99,7% de la population totale. Pour ceci, il est nécessaire dans un premier temps de vérifier
le lien statistique entre les deux variables. Le test du khi-deux permet d’établir un lien
statistique significatif entre l’âge du répondant et son statut matrimonial. En effet, les
conditions de validité du test sont remplies : moins de 20% des cellules du tableau a un
effectif théorique inférieur à 5 (dans notre cas 0%), l’effectif théorique minimum est
supérieur à 1 (dans notre cas il est égal à 169,27), enfin la signification asymptotique
bilatérale est inférieure à .05 (dans notre cas inférieure à .000), elle nous informe que
l’hypothèse d’indépendance est rejetée au niveau de confiance de 95%.
Avant d’analyser la relation de dépendance, il est nécessaire de décrire les pourcentages
marginaux du tableau de données. Les pourcentages marginaux permettent de retracer la
distribution des deux variables. Ainsi, la variable "age" se distribue de façon quasi-homogène
en d’autres termes en classes d’âge d’effectifs quasi-égaux (environ 25% pour chaque
classes). De plus, 53,1% de la population totale déclare être marié contre 46,9% déclarant
l’inverse. Ces derniers peuvent être célibataires, séparés ou veufs.
Quelle est la nature de la relation entre l’âge et le statut matrimonial ? Il est recommandé
d’analyser les résidus standardisés afin de répondre à la question. Rappelons que les résidus
supérieurs à 2,1 en valeur absolue identifient les cellules qui contribuent le plus au calcul
total du khi-deux. Ainsi, il apparaît que les moins de 32 ans et les plus de 60 ans, en d’autres
termes les plus jeunes et les plus âgés de notre échantillon d’enquête, sont dans une plus
forte proportion "non mariés". En effet, si plus de 53% de la population totale déclare être
marié, ce pourcentage diminue respectivement à 40,9% et 48,2% pour les classes d’âge
"Moins de 32 ans" (le résidu est égal à -5,5) et "Plus de 60 ans" (le résidu est égal à -2,1). A
l’inverse, les personnes âgées de 33 à 43 ans ainsi que celles âgées de 44 à 59 ans, sont
dans une plus forte proportion "mariées". En effet, si plus de 53% de la population totale
déclare être marié, ce pourcentage augmente respectivement à 62,6% et 60,2% pour les
classes d’âge "De 33 à 43 ans" (le résidu est égal à +4,4) et "De 44 ans à 59 ans" (le résidu
est égal à +3,1).
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
119
2- Le salaire actuel varie-t-il en fonction du salaire d’embauche ?
Fichier "Employés.sav"
Les variables "Salaire actuel" et "Salaire d'embauche" sont des variables quantitatives. Afin
de vérifier un lien statistique potentiel entre les deux variables, il est conseillé d’utiliser le r
de Bravais-Pearson.
La première étape de l’analyse permet de visualiser la relation au moyen d’un graphique
(pour la procédure se reporter au II-4).
Le graphique produit est le suivant, nous avons tracé la droite de régression.
La forme du nuage de point nous indique qu’il existe a priori une relation de corrélation
croissante entre les deux variables. Il semble en effet que plus le salaire d’embauche est
élevé plus le salaire actuel est important.
Il est nécessaire alors de vérifier la valeur du r de Pearson. Les résultats du traitement
statistique sont les suivants.
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
Corrélations
120
Salaire actuel
Salaire actuel
Salaire
d'embauche
Corrélation de Pearson
Sig. (bilatérale)
N
Corrélation de Pearson
Sig. (bilatérale)
N
1
474
,880(**)
,000
474
Salaire
d'embauche
,880(**)
,000
474
1
474
** La corrélation est significative au niveau 0.01 (bilatéral).
Le r de Bravais Pearson est égal à +0,88. La signification asymptotique bilatérale nous
indique une corrélation significative au niveau de confiance 99%. Ces informations
confirment le lien linéaire statistique entre les deux variables.
SO0013Y | Didier BUSCA & Anastasia MEIDANI
Année universitaire 2009-2010
Téléchargement