Enquêtes quantitatives et statistiques

publicité
Enquêtes quantitatives et statistiques
Plan du cours
I. La production des données par voie d'enquête
1. Quelle est la démarche du Sociologue ?
2. L'enquête par questionnaire
3. La question du codage
4. Comment généraliser un résultats : la question de la marge d'erreur
5. Une autre méthode d'investigation : l'enquête par entretient
II. Initiation au traitement quantitatif des données. Éléments de statistiques descriptives.
1. La statistique à une dimension : la pratique du tri à plat
2. La statistique à deux dimensions : la pratique du tri croisé
Introduction :
•
Situer le cours :
C'est un cours de méthode quantitative qui fait l'intermédiaire entre ce que l'on a fait et ce que
l'on va faire dans les prochaines années.
On entre un peu dans la boite à outils du sociologue, a savoir les enquêtes, et plus
particulièrement les enquêtes par questionnaire. C'est une technique utilisée dans beaucoup de
domaines.
•
Relations entre Sociologie et statistiques :
Comme tout travail scientifique le sociologue récolte des données, généralement par voie
d'enquête. Et son objectif sera de faire apparaître des résultats, des régularités statistiques
(ou des tendances lourdes). Il lui faut donc disposer de techniques statistiques.
Les enquêtes par questionnaires sont des enquêtes dans lesquelles on constitue de gros
échantillons (pour arriver à faire apparaître ces régularités statistiques). Elles portent
généralement sur 5000, 10 000 individus (voire plus), c'est donc de grosses entreprises
comme l'INSEE qui les financent car elles coûtent très cher.
Exemple de l'enquête sur les pratiques culturelles des français (tous les 10ans).
On essaye tout d'abord de faire ressortir les variations : est ce qu'il y a eu une évolution de
l'objet interrogé ? Ce qui intéresse aussi beaucoup le Sociologue c'est de comparer des
variations de comportement entre des groupes. Puis on va chercher des régularités statistiques
pour identifier des groupes, avant l'aboutissement du travail : dans quelles mesures les
comportements sont-ils expliqués à leurs parts de différences d'âge, de sexe, de diplôme
etc … ?
C'est là qu'interviennent les statistiques :
On va essayer d'établir un lien entre des variables explicatives (souvent les caractéristiques
rattachant à des groupes sociaux), et les variables à expliquer (souvent les comportements,
les pratiques).
Il arrive aussi que le Sociologue utilise des statistiques qui ne sont pas les siennes.
•
Ne pas sacraliser les statistiques
Éviter de tomber dans la caricature « C'est chiffré c'est scientifique, ce n'est pas chiffré ce ne
l'est pas ». Il existe aussi les enquêtes par entretien : on enquête 20 ou 30 personnes car c'est
très long, et plus poussé et plus approfondi. On parle alors d'enquêtes qualitatives.
Un chiffre est toujours le produit de toute une série d'hypothèses. Une donnée n'est jamais
donnée, elle est produite, il faut donc toujours vérifier sa construction et les hypothèses l'ayant
produite.
Exemple des statistiques du chômage (tous les ans) : tout d'abord il faut définir le terme de ce
que l'on cherche à étudier. Il va falloir faire une hypothèse sur le nombre d'heure minimale
qu'il faut avoir fait par mois pour être considéré comme travailleur. Pôle emploi et l'INSEE
n'ont pas la même définition de ce nombre d'heure, et donc à la sortie présentent des chiffres
différents.
Les statistiques sont un outil très important, mais ils ne sont pas une fin en soi. Il existe
d'autres techniques non chiffrées, et la production des chiffres peut les faire varier.
I.
La production des données par voie d'enquête
- Comprendre la démarche du sociologue
- Problématique et hypothèses
- Construire un échantillon
- Construire un questionnaire
- Savoir coder des questions et des réponses
- Le problème des marges d'erreur
- Comprendre les différences entre le questionnaire et l'entretien
1. Quelle est la démarche du sociologue ?
•
•
Définir la Sociologie : la question des relations sociales
Rompre avec le sens commun
A. Une tentative de définition de la Sociologie
On dit parfois que la sociologie est une science qui étudie la société. C'est un peu vague, et on
préfère dire que la sociologie est plutôt la discipline qui étudie les relations sociales.
Mais qu'est ce qu'une relation sociale ? La réponse varie en fonction des sociologues.
Les relations sociales ont pour pour de départ :
Durkheim parle de fait social, avec l'idée que les relations sociales ont pour effet d'orienter
les comportements et pratiques des individus sans qu'ils en soient conscients.
Le fait social est contraint, extérieur aux individus, et indépendant de ses manifestations
individuelles.
Les statistiques servent donc à dévoiler des logiques sociales qui échappent à la conscience
des individus.
Weber parle d'action sociale ou d'activité sociale, cette fois-ci on part de l'individu et on
s'interroge sur le sens que donne l'individu à son action, à sa conduite, en lien avec autrui. (on
pourrait presque parler d'individualisme méthodologique)
Georg Simmel (même époque), parle d'interactions sociales. (on pourrait presque parler
d'interactionniste méthodologique). La sociologie serait la science étudiant la structure des
actions réciproques.
Ex de la mode : A la fois on cherche à ressembler à 'autre (imitation) et en même temps
lorsqu'un mode devient trop banale on va essayer de se distinguer de l'autre en même temps
(relançant une la machine de la mode).
La société évolue parce que l'on s'observe en permanence.
Le Sociologue utilise de nombreuses techniques d’investigation :
- Interroge les individus sur leurs pratiques, leurs goûts…
- Observe les manières de faire, de se comporter à la manière des ethnologues.
- Analyse des documents
- Compare des groupes d’individus, des institutions, des pratiques
- Classe les individus, les groupes en fonction de leurs pratiques, de leurs caractéristiques
sociodémographiques
- Analyse des discours
- Utilise des statistiques pour classer, comparer
- Recherche des causes au-delà des simples relations statistiques et met en relation différents
phénomènes ou caractéristiques (ex : Durkheim sur les causes du suicide ou Weber qui établit
un lien entre l’émergence de nouvelles croyances religieuses et l’émergence du capitalisme).
B. La démarche du sociologue
Malgré un objet qui peut différer en fonction des sociologues, ,la démarche de base reste la
même pour tous.
Construction et délimitation d’une problématique, d’un problème sociologique et
élaboration d’hypothèses
Choix de la population et du terrain d’enquête
Choix et élaboration des outils d’investigation ou d’enquête
Réalisation de l’enquête de terrain
Traitement et analyse des matériaux produits par l’enquête de terrain
Production d’une analyse amenant à de nouvelles
hypothèses et à un enrichissement de la théorie
sociologique
- Problématiser c'est presque identifier des concepts qui nous renvoient à des théories, les
problématiques seront donc différentes en fonction de l'objet étudié.
C'est l'étape la plus importante. On entre dans la phase initiale de rupture avec le sens
commun.
Le Sociologue étant membre de la société qu'il observe, il a comme tout le monde des idées
toutes faites influencées par les discours ambiants : les prénotions.
Dans cette étape le Sociologue doit se débarrasser de ces prénotions, de tout ce qu'il croit
savoir.
Lorsqu'on aborde un nouveau thème il faudrait faire comme si l'on pénétrait dans l'inconnu. Il
faut accepter de douter de tout.
Durkheim parle de prendre les faits sociaux comme des choses (comme des molécules
observées par un chimiste par exemple)
Bourdieu parle d'une phase d'objectivation : se débarrasser de tout ce qui est subjectif.
Comment faire pour passer d'un problème social ou d'une question sociale à une
problématisation sociologique ?
Problème social ou question sociale : par exemple la question du handicap en France, la
difficulté d'insertion des jeunes sans qualification, la délinquance juvénile, les pratiques de
lecture des personnes âgées, les modes de vie de la haute bourgeoisie parisienne, etc …
On voit que quasiment tout peut faire l'objet d'une question sociale.
Comment on va problématiser en sociologie ?
On va identifier des concepts.
- Variable en fonction de la problématique
- Variable en fonction de la problématique. Côté Durkheimien plutôt questionnaires, côté
Weberien ou Simmelien plutôt entretien par exemple
- La réalisation de l'enquête dépendra du choix des outils et méthode d'investigation.
- De même les traitements seront différents en fonction des outils utilisés.
- Les résultats qui suscitent de nouvelles questions, qui conduiront à la création de nouvelles
hypothèses et de nouvelles enquêtes.
2. L'enquête par questionnaire.
•
•
Va permettre d'identifier des concepts.
Question de départ, problématique, hypothèses.
A. De la question de départ à la problématisation sociologique
Partir d'une question de départ → problématique + concepts opératoires → hypothèses
vérifiables → questions découlant des hypothèses.
Problématiser consiste à se rattacher à des concepts mis en avant dans des théories.
Concept opératoire : c'est un concept qui doit être vérifiable sur le terrain, il doit permettre
de répondre à la question.
Hypothèse : Questions qu'on va poser et qui mobilisent des concepts identifiés dans la
problématique. Elles doivent être vérifiables, c'est à dire qu'elles doivent pouvoir se décliner
sous forme de questions dans un questionnaire.
Généralement les hypothèses se formulent sous forme de question, immobilisent les concepts,
et généralement la question va établir un lien supposé entre une ou des variables explicatives
et une ou des variables à expliquer.
Très souvent les variables explicatives caractérisent les individus, et les variables à expliquer
son plutôt des comportements, des pratiques.
Exemple : Le délinquance des jeunes de milieu populaire
C. Qui interroger ? Le choix de la population d’enquête.
•
Définir la population
On définit la population à partir de la question « Qu'est ce que j'étudie ? ».
Parfois c'est très simple :
Fréquentation de la bibliothèque par les étudiants de Lyon 2, la population sera les étudiants
de Lyon2.
Parfois les cas sont un peu plus compliqués :
Problématique sur la vie en couple. Il va falloir définir le couple (marié ou non ? Vivant
ensemble ou non ? Hétérosexuels ou homosexuels ? Avec enfants ou sans enfants ? Etc …)
Enquête qui porte sur les jeunes. Mais qu'est ce qu'un jeune ? Age biologique ou
sociologique ?
•
Construire un échantillon
En général, on enquête pas tout la population, mais seulement un échantillon. On procède
donc par échantillonnage (par sondage). Enquêter toute la population est souvent trop long et
trop coûteux.
Alors comment construire un échantillon correct et représentatif de la population ?
Échantillon représentatif : Il doit avoir les même caractéristiques que la population toute
entière mais en plus petit. C'est un décalque fidèle en modèle réduit.
Définitions :
- Population de référence (ou population mère) : ensemble des unités statistiques (les plus
souvent des individus, ce peut être aussi des ménages, des entreprises …) sur lesquelles on
raisonne. Il s'agit donc des unités statistiques concernées par l'enquête.
- Il existes quelques enquêtes qui se produisent sur l'ensemble de la population : enquêtes
exhaustives, ou recensements.
- Base de sondage : liste complète des unités qui composent la population mère (on ne l'a pas
toujours).
- Échantillon : sous ensemble de la population mère qui sera effectivement enquêtée et à
partir duquel les informations seront produites.
Mais est-ce que les résultats obtenus à partir d'un échantillon sont réellement fiables ?
- Échantillon représentatif : Un échantillon est représentatif du point de vue statistique
quand les unités qui le composent ont été choisies de manière à ce que tous les membres de la
population mère aient la même probabilité de faire partie de l'échantillon. En conséquence, cet
échantillon doit être un reflet fidèle en modèle réduit de la population mère. Les différentes
caractéristiques de la population mère 'en terme de sexe, PCS, age …) doivent se retrouver
dans les mêmes proportions au sein de l'échantillon
- Taux de sondage : proportion des individus de la population mère constituant, l'échantillon.
Il est égal à n/N * 100 (avec n = taille de l'échantillon et N = taille de la population mère)
Il existe plusieurs techniques pour effectuer une échantillon, deux en particulier qui ont
des points communs et des différences.
Principes de base de l’échantillonnage :
- Elles sont basées sur des lois de probabilité, en l’occurrence sur ce que l'on appelle la Loi
des Grands Nombres.
Loi des grands nombres : à partir d'un certain nombre d'individus tirés au sort dans une
population mère on obtient une représentation fidèle de cette population, ou suffisamment
approchée pour que les écarts soient négligeables. On commence à considérer que ça
fonctionne à partir de 30.
Le tirage au sort bien fait pourra donc nous permettre de tendre vers la représentativité.
- Les individus ayant les mêmes caractéristiques (sociale) sont équivalents du point de vu
statistique à partir d'un nombre suffisant d'individus.
Méthodes Aléatoires :
•
L'échantillon aléatoire
La méthode la plus recommandée, la plus efficace pour atteindre la représentativité c'est
l'échantillon dit aléatoire (par tirage au sort). La loi des grands nombres permettant de
converger vers la représentativité. C'est une sorte d'idéal statistique (réaliser un tirage au sort
totalement au hasard est assez compliqué).
Sondage à l'aveuglette : On arrête les gens dans la rue « au hasard ». Mais il y a une grande
importance de l'endroit où l'on s'installe, de l'heure de la journée. Ils ne sont donc pas
réellement aléatoires.
Étape 1 : Dans l'idéal on doit disposer d'une base de sondage.
Étape 2 : Puis il faudrait numéroter les individus.
Étape 3 : tirage au sort (par ordinateur ou par tables de nombres aléatoires).
Table de nombres aléatoires
Exemple : 1035, 3368, 8534, 3174, 4264, 6299, 4231, 7986
5234, 0624, 9737, 8156, 4587, 1830, 8818, 4477
Petite variante : échantillonnage aléatoire avec un pas de sondage :
On va calculer ce qu'on appelle le pas de sondage ( = inverse du taux de sondage, N/n ), puis
on prend notre liste de N pour choisir au hasard notre premier sondé, puis on interroge tous
les individus éloignés du pas de sondage (s'il est de 5, et qu'on commence par l'individu 1035,
on passera ensuite au 1040, 1045 etc …)
•
L'échantillonnage par grappe
Comme dans le précédent on opère un tirage au sort, mais ce ne sont pas des individus que
l'on tire au sort, mais des groupes d'individus que l'on appelle des grappes.
On privilégiera ça dans plusieurs conditions :
- Lorsque l'on ne dispose pas d'une base de sondage des individus mais d'une base de sondage
des groupes d'individus.
Par exemple on ne dispose pas de la liste de tous les enfants inscrits dans les écoles primaires de
l'Académie du Rhône (base de sondage des individus) mais on dispose de la liste des écoles primaires
de cette Académie (chaque école constitue donc une grappe)
- Lorsque l'on cherche à minimiser les coûts de transport, de déplacement des enquêteurs.
Une fois les grappes définies, on les numérote, on les tire au sort 'de la même manière que
pour l’échantillonnage aléatoire), puis on enquêtes tous les individus des grappes tirées au
sort.
Petite variante : on se déplace dans l'école, on demande la liste des élèves puis on en tire au
sort dans la liste (faire un tirage au sort à l’intérieur même de la grappe).
On utilise plutôt ce genre de sondage quand on a des raisons de penser que les renseignements
varient beaucoup à l’intérieur de chaque grappe, mais peu d'une grappe à l'autre.
Les
individus sont très différents mais les grappes sont
identiques. Au lieu de se déplacer pour
en voir un de chaque type, autant faire
directement par grappe
L'INSEE fait des sondages dits Aréolaires, qui sont des sondages par grappe. Elle découpe
une ville en îlots (plus petits que des quartiers) et chaque îlot constitue une grappe.
•
Échantillonnage stratifié
Une strate représente un sous ensemble d'unité de la population ayant une ou plusieurs
caractéristiques communes. Par exemple, on va construire la strate des ouvrier, la strate des
personnes âgées entre 14 et 24 ans, la strate des personnes ayant obtenue tel diplôme, etc …
Lorsque l'échantillon est petit, la loi des grands nombres risque de ne pas fonctionner, et c'est
pourquoi il faut procéder par strate.
Ex : Strate des étudiantes de première année en Sociologie.
En général on utilisera cette méthode soit quand l'échantillon est trop petit (plutôt vrai pour
ceux à allocation proportionnelle surtout), soit quand on a des raisons de penser que les
renseignements sont très homogènes à l’intérieur d'une strate, et très hétérogènes d'une strate à
l'autre (plutôt vrai pour les deux types d'échantillons stratifiés).
Ex : Les cadres entre eux sont semblables, les ouvriers entre eux sont semblables, mais les
deux strates sont totalement différentes.
Sondage = échantillonnage
Dans l’échantillonnage stratifié il y a deux variantes :
- Avec allocation proportionnelle :
On définit les strates, on tire au sort les individus au sein des strates à partir d'une base de
sondage.
Exemple de stratification à allocation proportionnelle : Population active des femmes de
la région Rhône-Alpes (recensement 1990)
Si n = 1000 → 1000*(2,38/100)=24 de femmes agricultrices à piocher au sort parmi les 24
900
Le taux de sondage est identique dans chaque strate.
- Avec allocation non proportionnelle :
On dégonfle certaines strates pour regonfler celles qui sont trop peu gonflées (vu que la loi
des grands nombres ne fonctionne qu'à partir de 30). Mais avec cette technique on perd la
représentativité. Le taux de sondage va varier d'une strate à l'autre.
Exemple de stratification à allocation non proportionnelle : population active des
femmes de la région Rhône-Alpes (recensement 1990).
Très souvent en Sociologie, l'échantillon utilisé est celui-ci (stratifiée à allocation non
proportionnelle).
Inconvénients : On perd la représentativité globale, on ne peut donc plus généraliser les
résultats.
Avantage : Chaque strate est mieux représentative d'elle même car il n'y a plus de petits
effectifs.
Souvent en Sociologie on ne cherche pas à généraliser mais plutôt à comparer les strates (en
fonction de l'hypothèse), à la limite il faudrait donc mieux faire ce type d'échantillon.
•
Échantillonnage par quotas
Technique la plus utilisée dans la plupart des sondages.
Il s'agit d'un échantillon stratifié à allocation proportionnelle pour lequel on ne dispose pas de
base de sondage (on n'a donc pas pu faire de tirage au sort).
Vu que l'on a pas utilisé de tirage au sort, les puristes statisticiens considèrent que cette
technique n'est pas représentative de la population (mais on essaye de s'en rapprocher le plus
possible).
On procède donc à l'aveuglette. On donne le quota qu'il doit avoir pour chaque catégorie en
cherchant au hasard (téléphone, dans le rue, etc …)
On va trouver plusieurs critères de stratification, on appelle ça la méthode des quotas croisés
Par exemple on va croiser selon la PCS, selon le sexe, et selon l'âge, ou encore selon le lieu
d'habitation.
On finit donc par avoir des pourcentages pour chaque sous-sous-sous catégories.
Si on fait un échantillon de 5 000 individus (n = 5 000), combien doit-on enquêter de femmes
ouvrières entre 18 et 24 ans ?
(((5000*0,3)*0,35)*0,15) = 79 → On suit simplement l'arborescence.
•
La taille de l'échantillon
Il n'y a pas de réponse absolue. Ça dépend de plusieurs paramètres.
- Il faut une taille suffisante pour permettre à la loi des grands nombres d'opérer.
Plus on a de critères de stratification (plus on fait des sous groupes) plus l'échantillon doit être
grand pour que les sous populations soient assez remplies
Plus les possibilités de réponses à certaines questions sont élevées plus la taille de
l'échantillon doit être grande.
- La taille dépend du degré de précision souhaité.
Deux échantillons réalisés en même temps avec la même technique ne donneront jamais
exactement le même résultat et ce serait un hasard extraordinaire que les résultats obtenus
soient les résultats que l'ont aurait obtenu avec un recensement. C'est ce qu'on appelle les
fluctuations d'échantillonnage. Donc à partir d'un résultat obtenu par un échantillon il y a une
marge d'erreur.
Ces marges d'erreur on peut les calculer, et on peut même calculer la tailler à donner à
l'échantillon pour rester dans une marge d'erreur souhaitée, fixée (et donc du degré de
précision souhaité)
Plus on souhaite une marge d'erreur petite plus la taille d'échantillon sera grande.
Si l'on souhaite généraliser les résultats il faut un échantillon représentatif :
- Plus un échantillon représentatif sera grand, plus il sera précis
- Un échantillon représentatif de 2 000 personnes à Lyon est aussi précis qu'un échantillon de
2 000 personnes à Paris. Ce qui intervient dans la précision c'est le « n » (le nombre de
personnes sondées) et non le taux de sondage.
- La taille dépend également du degré d'homogénéité de la population mère. (Donc le « N »
peut compter).
Plus la population est homogène plus l'échantillon peut être petit, plus elle est hétérogène plus
il devra être grand.
Après il faut aussi gérer le budget donné afin de faire au mieux la représentativité.
D. Comment interroger ? Construire un questionnaire.
On apprend à faire un questionnaire en en faisant, on ne le verra donc que rapidement en CM.
- Chaque question est un bien extrêmement précieux.
Pour chaque question il faut qu'elle réponde à une hypothèse, et il faut savoir comment on va
la traiter par la suite. (est ce que je peux pas l'enlever pour en mettre une autre plus
pertinente?)
- Savoir précisément ce que l'on cherche : bien définir le sujet d'investigation.
- Le problème principal lorsque l'on fait les questions c'est celui du passage entre les questions
hypothétiques (avec des concepts) à des questions concrètes qui ont du sens pour les enquêtés,
mais qui indirectement permettront quand même de répondre aux hypothèses. On ne pose pas
les questions de la manière dont on se les pose.
Ex : Enquête sur les valeurs des français, avec une question sur les valeurs montantes ou déclinantes :
on parle de montée de valeurs en faveur de l'autorité, du rétablissement de règles qui s'opposeraient à
des valeurs plus en faveur du libéralisme culturel des années 60-70.
On ne peut pas répondre à l'hypothèse de l'autorité avec une seule question. On peut poser des
questions autour de la justice, de l'éducation, du travail, etc … pour cerner le profil de la personne.
On pourrait ainsi construire des échelles d'attitudes.
Ex : On ne mettra pas dans une question le concept de capital culturel, mais on pourra poser des
questions sur les pratiques culturelles, le niveau de diplôme, la fréquence, la possession d'objets,
etc …
- On peut aussi poser une question de manière détournée pour en faire un indicateur indirect.
Ex : Conseilleriez-vous ou non a un jeune diplômé de venir travailler dans cette entreprise ?
Question détournée pour poser la question de l'image perçue de l'entreprise.
Lorsque l'on vous parle de nucléaire quels sont les mots qui vous viennent à l'esprit ? Avec
des propositions positives et négatives, afin de voir le résultat final.
•
La forme des questions : questions ouvertes ou questions fermées
Questions ouvertes ; réponse libre, et question fermée : avec propositions.
Types de questions fermées :
- Oui/Non
- Proposer davantage de possibilités de réponses, à réponse unique
- Proposer davantage de possibilités de réponses, à réponses multiples
- A toutes les questions posées on doit ajouter trois items : Autre (voire « Précisez ») / Ne sais
pas / Non réponse
Un questionnaire est un outil standardisé, constitué de questions précises, posé à un grand
nombre de personnes afin de découvrir des régularités statistiques. Donc ce qui se prête le
mieux à tout ça c'est la question fermée.
On peut poser des questions ouvertes lorsque l'on ne connaît pas bien le champ des réponses
possibles (mais peut aussi être rattrapé par le « Autre, Précisez : »
Les questions fermées : ce sont des questions auxquelles on associe une liste de réponses
préétablies parmi lesquelles la personne interrogée doit choisir.
Les questions ouvertes : dans ce cas, l’interlocuteur est libre de sa réponse et on enregistre
l’ensemble de sa réponse.
Les questions ouvertes présentent des avantages :
- On peut découvrir des réponses auxquelles on n'avait pas pensé. Cette option peut s’avérer
utile quand on a une mauvaise connaissance du champ des réponses possibles.
- L'opinion exprimée est peut être plus personnelle
- Les questions ouvertes donnent l’impression d'une plus grande liberté à l'enquêté et peut
favoriser son intérêt pour le questionnaire
- Elles permettent de rompre avec le caractère fastidieux et administratif de certaines
questions fermées
- Elles peuvent permettre différentes options de code. F de Singly cite par exemple une
enquête à propos de la lecture chez les collégiens (Observatoire France-Loisir de la lecture),
on demandait quel était le dernier livre lu 'ou en train d'être lu). Cette question a pu ensuite
être codée de 5 manières différentes débouchant donc sur la création de 6 variables : son
thème, son degré de légitimé scolaire, son niveau de lecture, la date de sa première parution,
la collection. Dans le domaine des pratiques culturelles, il peut ainsi être utile de disposer du
nom des groupes de musique, des chanteurs, des films vus…
Et de nombreux inconvénients :
- Il faut par la suite réduire l'information pour pouvoir la traiter sous forme informatique.
- Il est parfois difficile d'enregistrer fidèlement les réponses (lorsque c'est l’enquêteur qui
remplit)
- Certains enquêtés se situent plus facilement dans des questions fermées et sont plus démunis
face à des questions ouvertes
- Les réponses peuvent être floues et impossible à coder
- Elles vont moins dans le sens de la standardisation du questionnaire.
Ce qui se pratique beaucoup c'est de poser une question fermée, puis faire préciser par une
question ouverte.
Ex : Faites vous des sacrifices pour payer les études supérieures de vos enfants ? Si oui
lesquels ?
- Cours 4 •
Le contenu de la question
Généralement on distingue deux grandes familles de questions, les questions de faits et les
questions d'opinion. On peut cependant avoir un classement un peu plus précis des questions.
- Les questions de comportement ou de faits (que font-ils?)
On va s’intéresser à des pratiques (vote, vacances, loisirs, etc …) dans lesquelles on distingue
deux familles : les pratiques à comportement non gênants (pratiques selon lesquelles les
enquêtés n'hésiteront pas à répondre, et ce sans mentir).
Il faut que ces questions soient précises «en général, combien de soirs sortez vous par
semaine ? » → Problème de la mémoire sélective. On ne spécifie pas particulièrement la
période etc … On préférera la question « Combien de soirs êtes vous sortis la semaine
dernière »
Puis on a les questions à comportements gênants : les questions intimes, les questions du
revenu, comportements socialement attendu (avoir voté à des élections, être un bon citoyen,
se brosser les dents trois fois par jour, le vote FN etc …). Généralement, on ne les mettra pas
au début pour éviter de braquer la personne.
- Les questions d'opinion (que pensent-ils?)
On va s’intéresser à des éléments subjectifs, des représentations, des goûts, des préférences,
des perceptions etc … Dans ces questions les items « oui/non » sont généralement
insuffisants. On évitera dans la mesure du possible des réponses du genre « ni d'accord ni pas
d'accord » ou des réponses très médianes, des « assez d'accord » etc … , les gens ayant
tendance à s'y réfugier. On doit inciter les gens à prendre position (ou à cocher NR ou NSP)
- Les questions d'intention ou d'anticipation (quels projets-ont-ils?)
On va chercher à évaluer des besoins. Par exemple : est ce qu'il faut installer une piscine ou
une bibliothèque dans le quartier. On ne peut pas poser la question directement car
généralement tout le monde va répondre oui même si cela ne sert jamais. Du coup on va
plutôt demander si des gens vont à la piscine, à quelle fréquence etc … pour chercher à
évaluer les besoins (s'il y en a besoin il y a peut être un besoin qui émerge).
On va donc questionner sur des pratiques pour tenter d'apercevoir les besoins.
- Les questions de connaissance (que savent-ils?)
On va chercher à connaître l'impact d'un message médiatique par exemple (campagne de
prévention, etc … est ce que le message est bien passé ou pas?)
Problème de ces questions : on peut mettre mal à l'aise l'enquêté s'il ne sait pas répondre ou
s'il ne s'en rappelle plus. Il faut donc libeller la question de manière à ce que ce ne soit pas
honteux de ne pas savoir.
Exemple : Pourriez vous par hasard vous rappeler … ou encore Sauriez vous par hasard …
Cela insinue que beaucoup de personnes ne savent pas ou ne se rappellent pas et que ça n'a
donc rien de honteux.
- Renseignements signalétiques (qui sont-ils?)
Elles vont servir à catégoriser les individus dans des classes, elles vont permettre de croiser
les informations …
Age, sexe, niveau de diplôme, lieu d'habitation, langue maternelle, PCS, PCS des parents,
etc …
Ne jamais demander aux gens la profession sous forme de question ouverte.
•
Le libellé des questions
La manière dont on rédige une question influence la réponse, notamment, il faut qu'une même
question soit comprise de la même manière par tous. En même temps il faut être attentif à ça,
et en même temps il ne faut pas être parano sinon on ne rédige plus rien.
- Éviter des questions d'ordre trop général : « êtes vous autoritaire ? » ou encore « Les ÉtatsUnis devraient ils faire tout ce qui est en leur possible pour maintenir la paix mondiale ? » ou
« Devrait-on enseigner à l'école comment avoir une alimentation saine et équilibrée ? » qui
ont reçu plus de 95 % de « oui ».
- Poser des questions courtes et simples : éviter les négations et encore plus les doubles
négations. Aller à des formes grammaticales les plus courtes et les plus simples possibles.
- Réfléchir au vocabulaire employé : Il n'existe pas de liste de mots à éviter, il faut donc
toujours se demander si les mots que l'on emploie sont bien compris par tout le monde. Le
vocabulaire doit donc être simple et concret.
Ex : « Comment définiriez vous votre humeur ? » Humeur du jour ou humeur en général ?
Qu'est ce que l'humeur ? Humeur est un mot trop vague. On préférera donc quelque chose du
genre « Ces trois dernières semaines, diriez-vous que vous étiez en général gai ou triste ? »
avec des items proposant une gradation (sans valeur refuge).
Généralement le langage est adapté au groupe que l'on enquête. Il faut éviter des mots
pouvant avoir plusieurs sens selon les personnes.
Exemple : Le mot environnement peut être perçu comme la lutte contre le pollution pour
certain. Pour d'autres c'est la protection de la nature en général, pour d'autres c'est leur
cadre de vie et encore pour d'autres on pense à l'immigration.
Exemple de mots à éviter : résider on préférera habiter, ascendant on préférera parents, on
préférera opinion à attitude, etc …
Il faut toujours préciser tous les adverbes de fréquence. Éviter les mots tels que « souvent,
régulièrement, habituellement, etc ... » et préférer des indications de fréquence.
Pour les lieux, préciser si l'on demande un département, région, pays, etc.
- Les mots ne sont pas neutres socialement : Certains mots dans certains contextes culturels
peuvent influencer la réponse.
François de Singly parle du mot « Interdire » aux États-Unis (contexte culturel très favorable
à la liberté) : La réponse « oui » à la questions « pensez-vous que les États-Unis devraient
interdire les discours publiques contre la démocratie ? » sont nettement moins fréquentes qu'à
la même question avec le mot « autoriser ». Si on pose la question « êtes vous satisfait ? »
contre « êtes vous mécontent ? », on aura une tendance à surévaluer les oui dans la première
et dévaluer les non dans la seconde. C'est ce que l'on appelle le biais d’acquiescement
(tendance à répondre oui lorsque la question est libellée positivement).
Il faudrait essayer de panacher les connotations favorables ou défavorables, ou encore éviter
les libellés à items oui/non, et préférer les items à graduation à la limite.
Il existe aussi des mots malheureux, causés par le contexte historique « Pensez vous que la
France doive continuer à collaborer avec l'Allemagne », on préférera coopérer.
- Éviter deux questions dans la question : «Êtes vous pour ou contre le port des ceintures de
sécurité à l'arrière des véhicules » → Lorsque l'on va traiter la question on ne saura pas si le
sujet à répondu non pour le port de la ceinture en général, ou s'il à répondu non uniquement
pour le port à l'arrière du véhicule. Pour éviter ce genre de problèmes il faut scinder les
questions.
- Éviter de suggérer une réponse
- Veiller à l'équilibre des réponses proposées : Veiller à ce que les propositions qui vont dans
un sens soient équilibrées avec celles qui vont dans l'autre sens.
Exemple de réponses mal choisies : « Oui, très sérieusement, oui mais prudemment, oui mais
de façon ponctuelle, oui mais de façon incohérente, non. » (66 % de oui, contre 23 % contre la
même question posée de manière ouverte)
•
Dans quel ordre poser les questions
- Par quoi commencer, ou par quoi ne pas commencer ? En général l'INSEE commence par
les renseignements signalétiques, ce qui n'est pas conseillé par les sociologues universitaires
car cela pourrait rebuter l'enquêté. (Incompréhension face à la raison de ces questions, ou au
contraire lucidité face au fait que l'on va être rangé dans des cases).
Éviter pour commencer toutes les questions de comportements gênants.
- Attention à l'effet de halo : Lorsque l'on commence à poser une question d'ordre général sur
un thème donné, il y a un risque que les enquêtés répondent toujours dans le même sens aux
autres questions sur le même thème.
Exemple : poser une question d'ordre général sur la libre circulation des travailleurs en
Europe. Une fois que le sujet à prit une proposition de principe sur cette réponse, et qu'il
tombera sur les mêmes questions déclinées en fonction des différents pays, il sera difficile
pour lui de répondre qu'il est favorable à l'un et pas à l'autre à cause de cette prise de
position qu'il a prise au début.
Exemple : Une question sur l'avortement peut être influencée par une question précédente sur
la religion.
Pour remédier à l'effet de halo, on peut éparpiller les questions d'un même thème dans le
questionnaire pour tenter de casser un peu la dynamique.
- Attention à l'effet de segmentation (inverse de l'effet de halo) : si on éparpille dans tout le
questionnaire, on risque d'avoir une suite de questions totalement incohérente, le
questionnaire n'aura plus aucune structure, plus aucun plan, plus aucune organisation, et cela
risquerai de faire perdre de l’intérêt du questionnaire aux yeux des enquêtés.
Tout est une question de dosage.
L'ordre des questions doit avoir un caractère logique.
Pour garder la cohérence d'un questionnaire on peut trouver des petites phrases de transition
entre les thèmes, ce qui permet aussi une meilleure fluidité.
Il ne faut pas oublier de remercier l'enquêté à la fin du questionnaire, d'avoir pris un peu de
son temps pour répondre aux questions.
- L'ordre des modalités : certains items sont systématiquement plus choisis que les autres (le
premier et le dernier).
Si c'est un questionnaire auto-administré, le premier choix de réponse est souvent plus choisi,
si c'est un enquêteur qui le lit, c'est plutôt le dernier qui est sur-choisi, on pourrait donc ne pas
lire les modalités toujours dans le même sens (mais cela brise la standardisation du
questionnaire)
- L'usage des filtres : « Si réponse non à la question machin, passer directement à la question
tant ». cela permet d’alléger le questionnaire à la personne qui ne serait pas concernée par
certaines questions (exemple : avec ou sans enfants).
- La taille du questionnaire : Il ne faut pas que ce soit trop long, mais trop long ça veut dire
quoi ? Si c'est un questionnaire que l'on passe dans la rue, plus de 5minutes ça devient long. Si
c'est au domicile, 30 minutes ça peut aller. Il y a des questionnaire peut être un peu long mais
posés de telle manière qu'ils ne paraissent pas longs, etc …
Il n'y a pas de règles absolues.
Problème des non-réponses (refusé complètement de répondre, questionnaires incomplets) :
on risque de ne plus remplir nos quotas, et les statistiques n'auront donc plus de poids.
•
Le problème des non-réponses
- Il peut arriver que l'échantillon final ne corresponde pas à l'échantillon initialement prévu.
(Absences, déménagements, mauvais taux de retour par voie postale, etc …)
Si la proportion de non répondants est trop importante cela peut nuire à la représentativité de
l'échantillon.
Ex : Un quota sous-représenté dans l'échantillon ou sur-représenté rompent la représentativité.
Il existe des techniques pour prévenir ces choses là : prévoir un échantillon de secours, un
échantillon supplémentaire dans lequel on pourra aller puiser au cas où.
- Autre problème des non réponses : les quotas sont remplis, mais il y a certaines questions
laissées vides. On se trouve face à des questionnaires incomplets.
Technique pour le contrer : avoir de bons enquêteurs, qui limiteront les non réponses grâce à
la relation qu'il va créer avec l'enquêté.
Cependant ce problème va se poser avec plus de force dans les questionnaires autoadministrés (il n'y a pas d'enquêteurs).
Cela va poser un problème de non représentativité. Si les non-réponses se répartissaient au
hasard il n'y aurait pas de problème (chaque enquêté ayant la même probabilité de ne pas
répondre), mais en général ce n'est pas le cas. Il y a certaines populations qui seront plus
concernées par les non réponses que d'autres en fonction des questions.
Ex : Professions indépendantes, libérales seront plus réticentes pour les questions de salaire
(peur de contrôle fiscal etc …). Phénomènes d'auto censure des catégories populaires pour
les questions sur la culture plu précisément la lecture (se jugent incompétentes dans le
domaine, lié à la position sociale). Taux de non réponse plus important chez les femmes sur
les questions de politique.
Il est possible de réparer un échantillon déséquilibré du fait des non réponses : le
redressement. On va essayer de redresser l'échantillon, de le ramener dans ce qui est prévu
initialement. On va utiliser des coefficients de redressement. En gros on va donner plus de
poids aux questionnaires appartenant à des quotas sous représentés, et donner moins de poids
à des questionnaires sur-représentés. C'est une sorte de système de pondération.
On estime cependant que cette technique est viable à condition que les coefficients de
redressement ne soient pas trop élevés. Il est possible de redresser selon plusieurs critères en
même temps.
EXEMPLE/FORMULE SUR FEUILLE
Il est possible de faire du redressement multicritères, mais sur logiciel. De même il ne faut pas
des coefficients trop élevés.
•
La passation du questionnaire
- Le questionnaire auto-administré : il n'y a pas d'enquêteur. Les questionnaires arrivent dans
la boîte aux lettres, ou par distribution.
L'ordre des questions a peut être encore plus d'importance ici, car l'enquêté à tout le loisir de
lire en entier le questionnaire avant de le commencer, et donc d'en avoir une vision globale
avant de répondre. Il faut prévoir des enveloppes pré-affranchies pour que les enquêtés n'aient
pas à payer (ce qui constitue un gros budget pour les enquêteurs).
On a généralement un taux de retour de 10 %, il faut donc faire passer énormément de
questionnaires si l'on veut remplir les quotas, ce qui de nouveau, à un coût.
Il n'y a aucun moyen de contrôler la représentativité, donc la technique du redressement va
être quasi systématique.
- Le questionnaire mobilisant des enquêteurs :
On est dans une relation de face à face et l'enquêté découvre les questions au fur et a mesure
qu'elles soient lues. L'enquêteur va veiller à ce qu'il n'y ait pas de non réponses, c'est
généralement la passation la plus efficace.
Cependant il faut toujours prévoir une formation des enquêteurs pour qu'ils appliquent tous le
même protocole, et leur prévoir un salaire.
3. La question du codage
- Les objectifs du codage
- Les différentes techniques de codage
C'est ce qui permet de passer du langage des enquêtés au langage informatique.
Chaque question posée va devenir une variable statistique., et avec une même question on
peut produire plusieurs variables (car elle peut être codée de différentes manières). Il est
également possible de construire des variables en combinant des questions.
Le codage à priori :
C'est l'enquêteur qui code directement.
Feuille de codage diapo.
V1 Sexe → 1 H, 2 F. L'enquêteur code directement « 1 ou 2 » s'il est avec une femme ou un
homme. (V pour « variable »)
Le codage a posteriori :
Il est obligatoire dans les questionnaires auto-adminitrés, et les questions ouvertes.
Les personnes désignées au codage se verront remettre un dictionnaire des codes leur
permettant de rendre un codage similaire entre chaque codeur ou codeuse.
Exemple du dictionnaire des codes feuille
La variable âge peut être codée de trois manière différentes : Soit l'âge précis comme dans cet
exemple, soit on fait des tranches, soit on donne des noms aux tranches (« jeunes » par
exemple) transformant des chiffres (variables quantitatives) aux noms (variables qualitatives).
Il existe deux manières de faire des tranches d'âge : Soit on fait des classes d'amplitude égale
(avec le risque d'avoir des classes bien plus remplies que d'autres), soit on fait des classes
avec des effectifs équilibrés dans chaque classe (avec des classes d'amplitude différentes).
Une fois que l'on a rentré tous les codes, on va produire le tableau individu-variable. C'est à
partir de ce tableau que l'on posera des questions statistiques.
Exemple du tableau individu-variable feuille.
Trois impératifs :
- Certaines réponses, notamment aux questions ouvertes doivent être re-codées pour être
exploitables d'un point de vue informatique.
Ex : Demandes le dernier film vu par l'enquêté. On peut coder par genre, par nationalité, par
date de sortie etc …
- Il est parfois nécessaire pour utiliser certaines techniques statistiques de réduire le nombre
de modalités par variables ou de transformer des variables quantitatives en variables
qualitatives.
- Certaines modalités de réponse sont rarement choisies, et leurs effectifs trop peu nombreux
doivent être regroupés.
- Il est possible de créer de nouvelles variables, qu'il faudra coder, en combinant des variables
existantes.
Exemple : Le goût pour la lecture chez les collégiens
Tableau diapo
•
Quelques techniques de base en matière de recodage : regrouper des modalités.
« Quelles études avez-vous poursuivies après votre baccalauréat ? »
1. Aucune, arrêt des études
2. Classes prépa
3. IUT
4. BTS
5. Faculté de médecine ou de pharmacie
6. Fac de droit
7. Autre filière universitaires
8. École d'infirmière
9. École d'architecture
10. ...
Le recodage dépendra ici des hypothèses :
Si l'étude s’intéresser à la poursuite ou non des études après le Bac, on peut re-coder en deux
modalités « Arrêt des études (1) », et « Suivi des études (toutes les autres modalités»
Si l’étude s’intéresser à l’opposition études longues études courtes : On re-code en modalités
« Courtes » et « Longues »
On peut également faire études de sciences ou de lettre, ou encore études sélectives ou non,
etc …
•
Simplifier les variables quantitatives en variables qualitatives (ex : âges)
•
Combiner les variables :
Il est possible de combiner plusieurs variables afin d'en créer de nouvelles que l'on pourra
utiliser pour questionner nos hypothèses.
Ex : On pense que le phénomène que l'on étudie est influencé à la fois et de manière combinée
par l'âge et le sexe.
Code 1 : homme de 18 à 34 ans
Code 2 : homme de 35 à 59 ans
Code 3 : hommes de plus de 60 ans
Code 4 : femme de 18 à 34 ans
Code 5 : femme de 35 à 59 ans
Code 6 : femme de plus de 60 ans.
Autre exemple : on peut demander «quelle est votre religion ? » et « êtes vous pratiquant ? »
Code 1 : Sans religion
Code 2 : Catholique non pratiquant
Code 3 : Catholique pratiquant
Etc …
•
Mesurer l'intensité d'une pratique
On va construire une nouvelle variable (variable synthétique, macro variable), qui combine
d'autres variables dans le but de mesurer l'intensité d'une pratique.
Exemple : Les pratiques de lecture
« Au cours du dernier mois avez vous acheté des livres ? » oui/non
« Avez vous emprunté des livres à la bibliothèque ? » oui/non
« Emprunter à des amis, à des proches ? » oui/non
Si on combine les trois on obtient :
1. N'a ni acheté, ni emprunté
2. A acheté mais n'a pas emprunté
3. A acheté et a emprunté à des proches
Etc …
•
Le calcul des variables par calcul de scores
Ex : Les pratiques de lectures.
« Au cours des derniers mois, combien de romans avec vous lus ? » Puis « magazines »,
« journaux », « BD », etc …
On voudrait ensuite avoir une vision synthétique de l'intensité de la pratique de lecture. On
peut créer une « variable score » qui serait la somme des nombres obtenus.
Ex : enquête de l'usage du téléphone portable dans les couples : degré d'individualisme du
téléphone portable.
Q1 « Arrive-t-il que le conjoint réponde à votre place, avec votre portable ? » oui/non
Q2 « Au cours de la dernière semaine, votre conjoint a-t-il emprunté votre portable ? »
oui/non
Q3 « Au cours de la dernière semaine avez-vous reçu des appels sur votre portable pour votre
conjoint ? » oui/non
Q4 « Votre conjoint connaît-il le code PIN de votre portable ? » oui/non
Chaque fois qu'un individu va répondre « non » à une question, il reçoit la note 1. (fort
individualisme). Et chaque fois qu'un individu va répondre « oui » à une question, il reçoit la
note 0. (téléphone plutôt mutualisé).
On additionne les scores obtenus, pour en déduire la variable score :
0-1 : Très faible ou faible individualisme du portable
2 : Individualisme moyen
3 : Individualisme assez fort
4 : Très fort individualisme
Téléchargement