n - Unifr

publicité
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
1. INTRODUCTION
Pour me contacter, du lundi au mercredi et le vendredi :
Eric Crettaz.
Office fédéral de la statistique
Section des analyses socio-économiques
Place de l’Europe 10, 2010 Neuchâtel.
[email protected]
Le jeudi :
PER21, Bureau G304.
Organisation du cours :
Jeudi, semaines paires, de 8h15 à 10h00, PER21, salle G120.
Semestre d’hiver
3 novembre 2005
17 novembre 2005
1er décembre 2005
15 décembre 2005
12 janvier 2006
26 janvier 2006
9 février 2006
Semestre d’été
23 mars 2006
6 avril 2006
27 avril 2006 (remplace le 20 avril 2006 : Pâques)
4 mai 2006
18 mai 2006
1er juin 2006
22 juin 2006 (remplace le15 juin : Fête Dieu)
Bibliographie :
Dodge, Yadolah « Premiers pas en statistiques », Paris : Springer (2003).
2. OBJECTIFS DU COURS ET RÔLE DE LA STATISTIQUE
3. NOTIONS DE
STATISTIQUE
BASE
ET
GRANDS
CHAPITRES
DE
LA
3.1. Population, échantillon et variables
Une des bases de la statistique, appliquée aux sciences de la société ou à bien d’autres
disciplines, c’est qu’on peut étudier une population en se focalisant sur un échantillon, c’està-dire sur un sous-ensemble de cette population.
Les variables (c-à-d. les caractéristiques de la population étudiée) sont indiquées par des
lettres majuscules : souvent dans le cours nous utiliserons les lettres X, Y. Les différentes
valeurs que peut prendre une variable sont les modalités. Pour désigner la valeur de la
Eric Crettaz
-1-
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
réalisation de X pour le ième individu de l’échantillon, on parle aussi d’observation, on utilisera
la notation x i .
Généralement on utilise la notation n pour désigner la taille de l’échantillon et N pour la
taille de la population.
On distingue généralement deux grands types de variables :
A. Les variables qualitatives ou catégorielles, qui elles-mêmes sont partagées en deux sousgroupes :
- Les variables nominales
- Les variables ordinales
B. Les variables quantitatives, elles aussi divisées en deux sous-groupes :
- Les variables intervalles (échelles d’intervalles)
- Les variables quotient (rapports)
Une distinction importante doit encore être signalée : il existe des variables continues qui
peuvent prendre n’importe quelle valeur (salaire p.ex.) et des variables discrètes qui ne
peuvent prendre que des valeurs déterminées, càd dont l’étendu des valeurs possibles est
dénombrable (p.ex. le nombre d’enfants).
3.2. Les grands chapitres de la statistique
La statistique descriptive / exploratoire : décrire et résumer l’information, mettre le doigt sur
des phénomènes potentiellement intéressants.
La statistique inférentielle : postuler un modèle jugé valable pour l’ensemble de la population
et vérifier son adéquation avec les données de l’échantillon.
4.
STATISTIQUE
GRAPHIQUES
DESCRIPTIVE
ET
REPRÉSENTATIONS
4.1. Mesures de tendance centrale
On indique un point autour duquel les observations se concentrent. Les mesures les plus
couramment utilisées sont la moyenne arithmétique, le mode et la médiane.
4.1.1. Moyenne arithmétique
C’est la somme des observations divisée par le nombre d’observations. En langage
mathématique on note :
n
x=
1
xi
∑
n i =1
Eric Crettaz
-2-
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
4.1.2. Le mode
C’est la valeur d’une variable qui a la plus grande fréquence. Notons qu’il existe des cas où
l’on a une distribution bimodale (2 valeurs sortent le plus fréquemment), voire multimodales.
4.1.3. La médiane
Il s’agit du point qui divise la série ordonnée des observations en deux groupes de même
taille. Autrement dit, la moitié des observations sont en dessous de cette valeur, et l’autre
moitié en dessus. Si n, la taille de l’échantillon, est paire, alors la médiane est la moyenne
arithmétique des valeurs centrales. Si n est impaire, alors c’est plus simple puisqu’on a une
valeur centrale.
De manière générale, la moyenne arithmétique est très influencée par les valeurs extrêmes, ce
qui n’est pas le cas de la médiane. Si la répartition des points est symétrique, alors le mode, la
médiane et la moyenne se confondent.
4.2. Quantiles, variance et dispersion des données
En fait on peut généraliser l’idée de la médiane : il existe des points qui divisent l’échantillon
en q groupes de « taille » égale. Ce sont les quantiles.
On parle de quantile d’ordre α , avec α compris entre 0 et 1 (resp. entre 0 et 100%). Il y a
une proportion α des observations en dessous de ce point et une proportion 1- α en dessus.
Les quantiles souvent utilisés en sciences sociales sont les quartiles, les quintiles et les
déciles.
Prenons les quartiles (Définir des groupes contenant ¼ des observations ) :
- q 1 qui est le quantile d’ordre ¼, c’est-à-dire que ¼ des observations sont en dessus et ¾ en
dessous.
- q 2 , c’est-à-dire que 2/4 des observations sont en dessus et 2/4 en dessous: il s’agit en fait de
la médiane.
- q 3 , ¾ des observations sont en dessous, ¼ en dessus.
Les quintiles sont les points qui divisent l’échantillon en groupes de 20% des observations
(soit en 5 groupes), et les déciles en 10 groupes de 10%.
La variance mesure la dispersion des observations Il s’agit de la moyenne arithmétique des
écarts à la moyenne.
1 n
2
s 2 = ∑ ( xi − x )
n i =1
On peut montrer que cela équivaut à :
s
2
1
=(
n
Eric Crettaz
n
∑x
i =1
2
i
) − x2
-3-
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
L’écart-type est la racine carrée de la variance empirique, et on le note s.
D’autres indications de la variation: le maximum, le minimum et l’étendue empirique
(Dodge: empan) soit la différence entre la plus grande et la plus petite observation. Cette
indication est très sensible aux valeurs extrêmes, en toute logique.
Autre élément, l’étendue interquartile, qui est en fait tout simplement l’écart entre q 3 - q 1 .
C’est une indication intéressante que l’on utilise pour faire un graphique assez utile qu’on
appelle un box-plot.
4.3. Forme, asymétrie, aplatissement
Une distribution peut être étirée à droite (et oblique à gauche), ou inversément étirée à gauche
(et oblique à droite).
La base des mesures d’aplatissement et d’asymétrie sont les moments d’ordre r :
1 n
r
, si r=1 il s’agit de la moyenne arithmétique.
∑
n
ix
n i =1
r
1 n
Moment centré d’ordre r = ∑ ni ( x − x )
i
n i =1
Si r=2 c’est la variance empirique
Si r=3 on a la base pour calculer une mesure de l’asymétrie (dans les logiciels en anglais :
skewness).
Si r=4 on a la base pour calculer une mesure de l’aplatissement (dans les logiciels en anglais:
kurtosis).
Moment d’ordre r =
4.4. Les représentations graphiques
Le diagramme en bâton est utilisé pour les variables qualitatives ou quantitatives discrètes.
Chaque bâton est proportionnel au pourcentage / à la fréquence d’une réponse. C’est un type
de diagramme qui est très couramment utilisé en les sciences sociales. On peut aussi y
recourir pour les questions avec plusieurs réponses possibles ou pour toute autre situation où
le total ne fait pas 100%.
L’histogramme repose sur le même principe, il représente la distribution d’une variable
quantitative continue. Il faut ordonner les observations et ensuite déterminer un certain
nombre de classes. On devrait avoir des classes d’une taille égale si l’on utilise des barres de
même largeur ou alors il faut avoir des barres de „taille“ variable (pas pratique à faire sur PC).
En outre, n’oubliez pas que souvent la barre la plus à droite du graphique est souvent une
classe ouverte.
Eric Crettaz
-4-
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
Enfin, un graphique relativement peu utilisé dans la recherche, mais courant dans les
sondages d’opinion est le pie-chart ou diagramme circulaire. C’est un graphique très
simple : chaque tranche du gâteau a une taille proportionnelle au pourcentage qu’il représente.
Ce graphique ne convient pas pour les questions „multiréponses“ !
9%
3%
17%
30%
41%
tout à fait d'accord
plutôt d'accord
plutôt pas d'accord
pas d'accord du tout
ne sait pas
Dans les sondages, on souhaite généralement qu’une majorité se dégage de l’enquête, sur le
modèle du vote. L’essentiel est d’avoir un grand chiffre qui puisse figurer en gros titre de
l’article, s’il le faut on peut regrouper des catégories de réponses.
Le box-plot est un graphique qui a comme qualité de bien résumer l’information. En un
coup d’œil on a des informations sur les mesures de tendance centrale, sur la dispersion des
données, voire sur la symétrie des données et on peut facilement comparer des groupes
d’observations.
Le principe est assez simple :
On dessine une « boîte à moustaches ». La boîte est définie par le quartile supérieur q3 et le
quartile inférieur q1. Dans la boîte on a donc la moitié des observations. A l’intérieur de la
boîte on indique la médiane. Ensuite on dessine les moustaches dont la longueur correspond à
1,5 fois l’étendue interquartile.
Eric Crettaz
-5-
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
o
o
o
Outliers/valeurs atypiques/val.extrêmes
Q3 + 1,5*IQR (valeur la plus proche)
Q3
médiane
Q1
Q1 – 1,5* IQR (valeur la plus
proche)
Dernière remarque : les cercles indiquent des points qu’on appelle « outliers », ou valeurs
atypiques. En outre on parle parfois aussi de valeurs extrêmes.
Le diagramme de dispersion est très utilisé pour comparer deux variables quantitatives. Le
principe est très simple: on représente des couples de points ( xi ; y i ) .
Y
o
o
o
o
o
( xi ; y i )
o
o
o
o
oo
o
o
X
Eric Crettaz
-6-
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
4.5. Pourcentages, proportions et description des évolutions
Jongler avec des pourcentages paraît être quelque chose d’évident. Pourtant beaucoup d’erreurs sont
commises.
On sait aussi que les pourcentages ne sont pas toujours bien compris dans l’ampleur qu’ils
représentent. Souvent il sera plus parlant, dans un rapport, de dire qu’environ un répondant sur trois
est d’accord, plutôt que 32,5%. En outre les pourcentages faibles sont souvent peu intuitifs. Notons
qu’on peut souvent éclairer la lanterne du lecteur, surtout si l’on s’adresse à un public de non
spécialistes, avec des proportions arrondies en termes de tiers, de quarts, et de 1 répondant sur x, etc.
Comment décrire l’évolution de moyennes, de proportions, etc.
On doit d’abord décrire une tendance générale avant même d’entrer dans les détails : hausse, baisse,
stagnation, volatilité ou stabilité, etc.
On peut généraliser à trois principaux types de description des évolutions :
i)
l’évolution en points de pourcentage, c’est la différence arithmétique entre les %.
ii)
l’écart arithmétique : c’est la variation des pourcentages exprimée en %, sur le modèle :
situation initiale - situation finale
situation initiale
iii)
Eric Crettaz
la progression géométrique : qui consiste à diviser la situation finale par la situation
initiale, pour voir de « combien de fois » un taux a augmenté (éventuellement diviser la
situation initiale par la situation finale pour voir de combien de fois le taux a diminué).
-7-
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
5. VARIABLES ET QUESTIONNAIRE
5.1. Généralités et types de variables
Le questionnaire est un outil tout à fait central pour les sciences sociales et beaucoup
d’autres disciplines encore. Le questionnaire est non seulement un outil central, mais
également jouissant d’une certaine légitimité et d’une certaine notoriété, notamment auprès
du grand public.
Un questionnaire est composé d’un certain nombre de questions posées dans un ordre
structuré ayant une justification théorique et pratique.
Concepts / hypothèses -> dimensions -> indicateurs (sur la base des variables contenues dans le
questionnaire).
Il y a quelques règles de base dont il faut tenir compte pour rédiger un questionnaire, au
niveau de l’intitulé des questions et de la succession des questions. Nous les verrons en détail
au cours de méthodologie.
Nous avons déjà évoqué le fait qu’on peut diviser les variables en deux groupes : les variables
quantitatives (intervalles ou quotient) et qualitatives (nominales ou ordinales).
Nominales : il n’y a ni ordre ni distance entre les modalités
Ordinales : il y a un ordre mais pas la distance entre les modalités
Quantitatives (surtout quotient) : ordre et distances.
Parmi les variables qualitatives, le nombre de réponses possibles c.-à-d. de modalités peut
fortement varier. On peut avoir des variables dichotomiques. A l’opposé, on peut avoir un
très grand nombre modalités. P.ex. la profession exercée par le répondant (ESPA). Dans ces
cas-là, on recourt souvent à des nomenclatures.
On peut formuler des questions ouvertes ou fermées.
5.2 Aspects pratiques et mathématiques
En pratique, on attribue en général un code numérique à chaque réponse. Attention lorsque
vous avez une matrice des données, la présence de codes numériques ne signifie pas qu’il
s’agit d’une variable quantitative (p.ex. femme = 1, homme =2, le 1 et le 2 n’ont pas de valeur
mathématique).
Le format d’une variable est également un point important, en particulier pour les variables
quantitatives. Les dates peuvent être des variables difficiles
Autre point très important, il y a toujours un certain nombre de personnes interrogées qui ne
donnent pas une réponse précise à la question. En général on définit des codes spéciaux et
Eric Crettaz
-8-
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
éventuellement un code « autre ». Les valeurs manquantes (ou missing) et aberrantes sont
également très importantes, il faut toujours les analyser.
Tous les points traités ci-dessus le seront de façon beaucoup plus approfondie et à grand
renfort d’exemples au cours de méthodologie, en deuxième année.
6. ECHANTILLONAGE, PONDERATION ET REPRESENTATIVITE
6.1. Population et échantillonnage
6.1.1. Définir la population de référence
Cela constitue une première étape très importante dans l’optique de définir le tirage aléatoire
d’un échantillon et les conclusions de l’étude ne pourront porter que sur cette population de
référence et les unités statistiques qui la composent.
6.1.2. Recensements, dénombrement complet et échantillons
Généralement un dénombrement complet de la population est très compliqué, très onéreux
et très long. Le recensement fédéral de la population a lieu tous les 10 ans. Ceci est
évidemment un exemple extrême ; si la population de référence n’est pas trop grande ou très
hétérogène, cela peut valoir la peine de réaliser un relevé exhaustif. L’avantage d’un
dénombrement complet est bien entendu que les paramètres de la population sont connus,
alors que pour un échantillon il faut faire des estimations qui sont entachées d’une certaine
erreur.
Un échantillonnage aléatoire est basé sur des règles de sélection permettant de savoir a
priori quelle est la probabilité pour un élément de la population de figurer dans l’échantillon.
Eric Crettaz
-9-
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
Une classification possible des divers types d’échantillonnage :
i.
Tous les éléments de la population sont-ils examinés ?
NON : relevé partiel / échantillonnage
OUI : relevé exhaustif
↓
ii.
La sélection est-elle réalisée selon des règles fixes ?
NON : sélection arbitraire
OUI
↓
iii.
Si oui, ces règles reposent-elles sur un processus aléatoire ?
OUI : sélection aléatoire
NON : échant. par choix raisonné
↓
iv.
Le processus se déroule-t-il en une étape ?
OUI
NON
↓
v.
Le processus est-il basé sur une définition de groupes homogènes avant le
tirage dans lesquels on tire au sort des échantillons aléatoires simples ?
NON
OUI : échantillon stratifié
↓
i.
Ou alors en unités spatiales et ensuite on relève l’information de tous les éléments
de ces unités spatiales ?
NON : échantillon aléatoire simple
OUI : échantillon par grappes
La base de la plupart des processus aléatoires d’échantillonnage repose sur le fait d’avoir à
disposition une liste exhaustive des éléments de la population de référence. En outre, l’autre
élément absolument central réside dans le fait d’avoir la même probabilité d’être sélectionné
ou non. Si cette probabilité varie d’une unité à l’autre, on doit généralement effectuer une
pondération. En outre, il se peut que le processus de sélection et la réalisation de l’étude
entraînent des biais, si les non-réponses, les refus, etc ne sont pas répartis de façon homogène.
Il faut donc bien être conscient que l’échantillon obtenu est certes représentatif, mais d’une
population peut-être légèrement différente de celle qu’on souhaiterait étudier.
6.1.2.1. Echantillon aléatoire simple
On effectue un tirage de n éléments qui possèdent tous la même probabilité d’être
sélectionnés. Si on opère à nouveau un tirage au sort à partir de cet échantillon (selon le
modèle ci-dessus), le nouvel échantillon obtenu est également un échantillon aléatoire simple.
Eric Crettaz
- 10 -
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
Les paramètres de la population peuvent être estimés par une mesure réalisée sur
l’échantillon. Cette estimation est entachée d’une erreur que l’on peut estimer. On peut aussi
calculer des intervalles de confiance. Nous y reviendrons.
Les tirages reposent sur l’utilisation de nombres aléatoires. Ceux-ci sont soit disponibles dans
des tables, soit générés par ordinateur. A côté de ces échantillonnages existent d’autres petits
« trucs » utilisés dans la pratique (initiales, jour et mois de la naissance, etc.).
6.1.2.2. Echantillon stratifié
Les éléments de la population sont regroupés en strates de façon à ce que chaque élément
appartienne à une – et une seule – strate. Ensuite pour chaque strate on procède à un
échantillonnage aléatoire.
Deux avantages principaux : d’une part, si les strates se différencient par la dispersion d’une
caractéristique intéressante, alors l’estimation de cette caractéristique est plus précise avec un
échantillon stratifié (réduction de la variance). D’autre part, si les strates constituent en ellesmêmes un élément d’analyse intéressant (p.ex. des zones linguistiques ou des cantons pour la
Suisse), on peut tirer des conclusions pour chaque strate. On peut également définir a priori le
nombres de cas minimal qu’on doit avoir pour une strate donnée afin de pouvoir tirer des
conclusions fiables.
Désavantages : un échantillon stratifié nécessite une connaissance préalable de la population
de base et de la répartition de certaines caractéristiques. D’autre part, la division en strates
peut n’être idéale que par rapport à certaines (ou à une seule) caractéristique(s) et il est parfois
difficile d’établir quelles sont les strates les plus intéressantes.
6.1.2.3. Echantillon par grappes
Dans ce cas, le tirage aléatoire simple ne se base pas sur la population de base, mais sur un
des agrégats, les grappes. On tire au sort un certain nombre de grappes et ensuite on collecte
des données auprès de TOUS les éléments de chaque grappe.
Cette approche a notamment un grand avantage lorsqu’on ne dispose pas d’une liste
exhaustive de la population de référence.
Problème si les grappes sont très différentes les unes des autres. Ainsi les éléments sont plus
semblables à l’intérieur d’une grappe qu’ils ne le seraient dans un échantillon aléatoire et cela
a pour conséquence une fiabilité moindre pour l’échantillon par grappes que celle d’un
échantillon aléatoire simple. L’imprécision surgit donc lorsque les éléments sont très
similaires à l’intérieur des grappes et que les grappes sont très différentes les unes des autres.
La précision dépend également du nombre d’éléments dans chaque grappe : plus la grappe est
homogène et plus elle compte d’éléments, moins l’échantillon par grappe est précis.
Eric Crettaz
- 11 -
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
6.1.2.4. Plan de sondage à plusieurs degrés
Jusqu’ici nous avons vu des procédés avec un seul tirage aléatoire. En général dans la
recherche appliquée on recourt à des échantillonnages plus complexes.
Très souvent, les études auprès de la population résidente sont basées sur des découpages
géographiques. Ensuite on procède à un tirage aléatoire dans ces éléments primaires et on
détermine ainsi des unités secondaires (p.ex. des foyers par le biais d’une base de sondage
téléphonique), puis un autre tirage p.ex. un membre du foyer.
En général le nombre des éléments varie fortement d’une unité primaire à l’autre, surtout
lorsqu’il s’agit d’unités géographiques. Il faut en tenir compte dans l’échantillonnage et la
pondération.
6.1.2.5. Sélection arbitraire
Seuls les échantillons aléatoires garantissent l’utilisation de la statistique inférentielle.
La sélection d’un élément de la population ne suit pas un plan d’échantillonnage précis, tel
qu’on doit le faire pour les études à caractère scientifique.
6.1.2.6. Sélection par choix raisonné
L’échantillon n’est pas sélectionné au hasard. Le cas le plus connu et probablement le plus
utilisé est la méthode dite « des quotas ». Les instituts de sondages y recourent fréquemment.
Les méthodes de la statistique inférentielle ne sont pas applicables.
Quotas : l’échantillon est choisi de manière à ce que certaines caractéristiques aient dans
l’échantillon exactement la même fréquence que dans la population. Cette méthode est
beaucoup utilisée parce qu’elle présente de sérieux avantages en termes de temps, de budget
et lorsque aucune base de sondage n’est disponible, mais n’est guère utilisée dans la recherche
scientifique.
6.1.3. Panels et cohortes
On peut réaliser une étude plusieurs années de suite, en procédant à un nouvel
échantillonnage à chaque fois. Chaque prise d’information est désignée par le terme de
« vague ». On peut ainsi observer l’évolution de phénomènes sociaux dans le temps, pour
autant que l’échantillonnage et les outils de relevé des données restent identiques d’une année
à l’autre. A chaque vague, on peut donc cerner l’évolution générale d’un phénomène, sans
toutefois savoir comment la situation particulière d’un individu, d’un ménage, d’une
entreprise, d’un canton, etc. évolue sur plusieurs années. Pour étudier ce genre de
phénomènes, il faut recourir à des études basées sur des panels ou des cohortes.
Eric Crettaz
- 12 -
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
Panel : on étudie les mêmes variables auprès des mêmes personnes à plusieurs moments dans
le temps. Cela permet de mettre en valeur des processus, comme la volatilité ou la
permanence d’une situation. La question du meilleur espacement entre les vagues est un point
très délicat et très important.
Les défauts des panels :
- Difficile d’assurer la constance des instruments de mesure sur une période de
temps assez longue
- la mortalité du panel
- le coût est généralement très élevé
- les effets de panel : les participants changent de comportement à force d’être
interrogés.
Les cohortes :
On sélectionne des personnes pour qui le même événement est survenu au même moment de
leur existence. L’exemple le plus connu est celui de cohortes basées sur l’année de naissance
(personnes nées la même année).
6.2. Quelques remarques sur la notion de représentativité
Les échantillons aléatoires constituent la seule garantie que l’on puisse tirer des conclusions
sur les paramètres de la population de référence sur la base des caractéristiques de
l’échantillon, du moins dans les limites de certaines erreurs statistiques.
En principe c’est la seule dimension vraiment scientifique du terme « représentativité ». En
pratique, par contre, on utilise ce terme à tort et à travers. Il ne s’agit pas d’un critère de
qualité bien défini.
Pour juger de la qualité d’une procédure d’échantillonnage, il faut au moins disposer
d’informations exactes sur : la population de référence, le processus de sélection, les valeurs
manquantes, les non-réponses, la distribution de certaines valeurs structurelles et les
instruments utilisés
En aucun cas on ne peut se contenter, en sciences sociales, de constater que certaines
caractéristiques de l’échantillon sont réparties de la même manière que dans la population de
référence et d’en déduire que c’est le cas pour toutes les caractéristiques. Il faut donc se
méfier de la méthode des quotas, mais aussi des échantillons aléatoires contenant des nonréponses qui peuvent générer une distorsion.
Eric Crettaz
- 13 -
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
6.3. Non-réponse, valeurs manquantes et valeurs extrêmes : plausibilisation et contrôles
de qualité
Dans chaque étude on trouve des ménages qui ont été sélectionnés mais qui n’aboutissent pas
dans l’échantillon. C’est le problème de la non-réponse. En général, on distingue le cas où on
n’a pas pu récolter la moindre information sur l’unité d’enquête (foyer, personne, entreprise,
commune, etc.) du cas où on a pu contacter l’unité en question mais quelques réponses font
défaut. Dans le premier cas, on parle de non-réponse totale (par unité) et dans le second de
non-réponse partielle (par item).
Les causes de la non-réponse totale :
- mauvaise information de contact : les n° de tél ne sont pas valables, il s’agit de n°
de fax, l’adresse est fausse ou inexistante, etc
- absence du répondant (à l’étranger, en vacances, au service militaire, communes
touristiques, etc.)
- refus de participer, la personne contactée raccroche, claque la porte ou passe son
chemin
- déménagement
- problèmes de langue, notamment pour les personnes ne maîtrisant aucune des
langues officielles suffisamment
- le fardeau du répondant est trop élevé. C’est particulièrement vrai si le
questionnaire est long ou s’il y a plusieurs vagues. Participation obligatoire ou
volontaire ?
- manque d’intérêt du répondant pour le sujet ou manque de temps
Les causes de la non-réponse partielle :
- le répondant n’a pas compris la question
- il refuse de répondre, notamment parce que la question paraît indiscrète, gênante
- ne sait pas la réponse, ne peut pas se prononcer
- l’interviewer a oublié de poser la question
Dans ce cas on peut aussi obtenir des réponses impossibles, incohérentes, inutilisables, ce sont
des problèmes qui s’ajoutent aux valeurs manquantes stricto sensu.
En bref, on recense les 4 cas suivants :
- Non répondants
- Réponses partielles
- Réponses incohérentes, impossibles
- Répondants
Eric Crettaz
- 14 -
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
A chaque étape d’une recherche on peut prévenir en partie la non-réponse :
- Lors de la planification
- Lors de la création de la base de sondage, en la nettoyant le plus possible et en ayant des
informations valables, ainsi que l’information de classification (p.ex. secteur d’activité)
- Lors de l’élaboration du plan de sondage (par expérience)
- Dans la conception du questionnaire, certaines questions ou structures peuvent générer la
non-réponse
- Pendant la collecte des données, par la formation des enquêteurs, par des tests, en envoyant
des courriers avant la collecte, etc. Effectuer un suivi de la non-réponse.
En fait il existe trois mécanismes :
1) uniforme / missing completely at random : la probabilité de réponse ne dépend
d’aucune variable. Peu réaliste.
2) ignorable / missing at random : la variable dépend de certaines variables auxiliaires,
mais pas de la variable d’intérêt (la variable qu’on veut expliquer, la variable centrale
de l’étude)
3) non-ignorable / not missing at random : c’est la cas le plus grave qui peut entraîner de
graves distorsions, parfois très difficiles à corriger.
En outre on peut distinguer les personnes difficilement atteignables, les personnes incapables
de répondre / non-interviewables et les personnes qui refusent.
Ceci implique donc un nécessaire travail de plausibilisation et de contrôle de qualité.
On peut identifier 3 étapes :
1) l’analyse des données manquantes, nous en avons déjà parlé plus haut.
2) l’analyse des valeurs extrêmes pour les variables quantitatives. Rappel : les outliers
sont des valeurs se trouvant soit en dessus de q + 1.5* IQR ou en dessous de q 3
1
1.5* IQR. Parfois on s’intéresse aux valeurs vraiment extrêmes et on peut les définir
au moyen de 3 fois l’écart interquartile au lieu d’une fois et demie. Certains utilisent
parfois la moyenne et 3 fois l’écart-type, càd x ± 3 * σ .
3) L’analyse des réponses incohérentes, incorrectes et douteuses. Les incohérences
surgissent souvent par la combinaison de plusieurs variables.
Eric Crettaz
- 15 -
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
6.4. Probabilité de sélection, non-réponse et pondération
Le calcul repose en général sur l’inverse de la probabilité d’inclusion et / ou sur l’inverse du
taux de réponse, ce qui donne plus de poids aux sous-groupes de la population ayant
davantage de refus, c’est-à-dire étant sous-représentés dans l’échantillon.
Si l’on utilise p.ex. un échantillon stratifié disproportionnel, les diverses strates doivent être
soumises à une pondération, afin de pouvoir tirer des conclusions fiables à partir des données
de l’échantillon. Le principe est simple: les éléments ayant une probabilité élevé d’être
sélectionnés se voient attribuer un faible poids et vice versa. Le principe consiste à multiplier
par l’inverse de la probabilité d’inclusion, c’est-à-dire la probabilité d’être dans l’échantillon.
1
On note souvent : wi =
.
p(inclusion)
En règle générale, la pondération des études ayant un plan d’échantillonnage bien précis se
déroule en plusieurs étapes, ou selon l’une ou l’autre des étapes suivantes :
- la pondération qui tient compte de la probabilité d’inclusion, telle que décrite dans
l’exemple ci-dessus. Le rapport 1/p(inclusion) est le poids de sondage. Dans le cas de strates
nombre d' adresses choisies dans la région i
régionales, la probabilité d’inclusion =
nombres d' adresses de la région i
- la pondération qui tient compte du taux de non-réponse et des facteurs qui influencent le
plus ces non-réponses. Il s’agit l’approche traditionnelle consistant à utiliser le rapport
w , le
pˆ
i
i
numérateur étant le poids de sondage défini ci-dessus et le dénominateur est une estimation du
taux de réponse. P.ex. si on considère les ménages ayant refusé de répondre dans la région i :
nombre de ménages de la région i ayant répondu
la probabilité de réponse =
nombre d' adresses choisies dans la région i
- le calage qui est une approche plus récente. Le but est de pondérer par l’inverse des
~i étant les plus proches possibles de poids
probabilités de réponse, en utilisant des poids w
initiaux
w
i
tout en assurant des totaux et des taux conformes à ceux observés dans les
recensements sur les variables considérées.
Les sondeurs utilisent souvent le redressement, qui consiste à pondérer de telle façon que
certaines caractéristiques de l’échantillon correspondent exactement à celles de la population
(sexe, âge, région, etc). D’un point de vue scientifique on doit dire que le redressement tend
davantage à masquer le problème de la non-réponse plutôt qu’à le résoudre.
Eric Crettaz
- 16 -
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
7. PROBABILITES
7.1. Notions fondamentales des probabilités
L’ensemble fondamental d’une expérience aléatoire se compose de l’ensemble des résultats
possibles. On le note Ω = {a,b,c,d,...} , ces lettres désignant chaque événement élémentaire.
P.ex. on tire un dé, l’ensemble des résultats possibles est Ω = {1,2,3,4,5,6}. Dans ce cas il
s’agit d’une ensemble fini et dénombrable. Cet ensemble peut dans certains cas être
dénombrable mais infini, p.ex. le nombre de fois nécessaire pour obtenir face lorsqu’on lance
une pièce et qu’on joue à pile ou face : Ω = {P, PF, PPF, PPPF, ..., PPPPPPPPPF, ....}.
Il y a même des cas ou les événements possibles ne sont pas dénombrables, car ils sortent de
l’ensemble des nombres entiers naturels, comme par exemple le revenu d’une personne, qui
peut prendre une infinité de valeurs, puisqu’il s’agit d’une variable continue comme nous
l’avons déjà vu.
Un événement est généralement la combinaison de plusieurs résultats possibles. Lorsqu’on
traite de la question des working poor, l’ensemble des événements possible peut être défini
comme: {(non-pauvre, actif), (non-pauvre, non-actif), (pauvre, non-actif), (pauvre, actif)}.
Ceci dit, il existe des événements simples, constitués d’un seul résultat, p.ex. on lance un dé
une fois. Chaque valeur du dé constitue un événement simple.
Il existe des cas particuliers, l’événement impossible que l’on note ∅ (l’ensemble vide), et
l’événement certain que l’on note Ω .
7.2. Théorie des ensembles et probabilités
Ω
A
A est un événement, symbolisé par l’ellipse et le rectangle symbolise l’ensemble fondamental.
On peut de même représenter deux événements d’un ensemble fondamental.
Parfois les ensembles sont disjoints, car il n’y a pas d’intersection, parfois il y en a une. Si A
est l’événement « être pauvre », B « être non pauvre », C « être actif » et D « être working
poor », alors on note A ∩ B = ∅ et A ∩ C = D . Dans la première figure ci-dessous les deux
ensembles ne se recoupent pas, dans le second au contraire il y a une intersection, qui est
l’événement D.
Eric Crettaz
- 17 -
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
pauvre
Non
pauvre
pauvre
Actif
D’ailleurs, on peut formaliser ainsi des problématiques plus complexes de façon très
intelligible :
Pauvres
Popul.active
Chômeurs
ORP
Bas
salaires
Population résidante permanente
Eric Crettaz
- 18 -
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
7.3. Propriétés des probabilités
P est une probabilité si elle satisfait les propriétés suivantes :
1) 0 ≤ P(A) ≤ 1 , avec A un événement et sachant que P( ∅ )=0 et P( Ω )=1. Pour être concret,
la probabilité d’un événement doit être comprise entre 0 et 100%
2) A ∪ B signifie que soit l’événement A se produit, soit l’événement B se produit , soit les
deux simultanément.
3) Il existe un événement complémentaire qu’on note A , qui signifie en fait que A ne se
réalise pas. Exemple : ne pas être pauvre. La probabilité de l’événement complémentaire est
vaut donc P( A )=1-P(A).
Il arrive que tous les événements de l’ensemble fondamental aient la même probabilité, on
parle alors d’équiprobabilité, p.ex. lorsqu’on lance un dé, s’il n’est pas pipé, chaque valeur du
dé a la même probabilité.
La probabilité de n’importe quel événement se calcule de la même façon :
P(A) = nombre de cas favorables
nombre de cas possibles
Une propriété importante est la suivante :
P(A ∪ B) = P(A) + P(B) - P(A ∩ B) .
7.4. Indépendance et probabilités conditionnelles
Soit deux événements A et B. On se demande si la probabilité que A se réalise influence la
probabilité que B se réalise.
On note P(A / B) la probabilité que A se réalise sachant que B est réalisé. Il s’agit d’une
probabilité conditionnelle. Si l’événement B est possible (c’est-à-dire si P(B)>0), on sait que
P(A / B) =
P(A ∩ B)
P(B)
Notons que P(A / B) = 1 - P( A / B)
Souvent se pose la question, notamment en sciences sociales, de savoir si deux variables sont
indépendantes l’une de l’autre. C’est un point crucial, et on définit cette indépendance de la
façon suivante :
Eric Crettaz
- 19 -
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
Deux événements sont indépendants si P(A / B) = P(A), en d’autres termes si la variable B
n’a pas d’influence sur la probabilité que A se réalise.
On peut montrer que si A et B sont des événements indépendants,
P(A ∩ B) = P(A) * P(B),
en effet, compte tenu de la formule de calcul d’une probabilité conditionnelle définie cidessus :
P(A ∩ B) = P(A / B) * P(B) or si A et B sont indépendant P(A / B) = P(A), donc
P(A ∩ B) = P(A) * P(B).
7.5. Analyse combinatoire
Lire pp. 145 à 148 du Dodge.
8. LES VARIABLES
DENSITE
ALEATOIRES :
PROBABILITES,
REPARTITION
ET
Une variable aléatoire est une variable dont les valeurs sont déterminées par une « expérience
aléatoire ». Nous en distinguerons deux types : les variables aléatoires discrètes et continues.
Nous verrons également les principales distributions de v.a. continues et discrètes utilisées en
statistique : la loi binômiale, la loi de Poisson, la loi normale (parfois centrée réduite).
8.1. Les variables aléatoires discrètes
Il s’agit de variables dont chaque valeur a une probabilité strictement positive ou nulle. On
écrit pour la variable aléatoire discrète X ayant ses valeurs dans un ensemble fini { x1 , x 2 ,
...,
x
k
}:
0 ≤ P( X =
x) ≤1
i
Définition : la fonction
F
X
( X ) = P (X ≤
x ) = ∑≤ x P ( X
i
xi
=
x)
i
est appelée la fonction de
répartition, et elle varie entre 0 et 1.
La loi de probabilité est une fonction qui associe à chaque valeur
x de la variable X la
i
probabilité P(X= xi ). On représente la densité de cette variable au moyen d’un graphique
avec des rectangles dont la largeur doit faire une unité, pour que la surface totale des
rectangles soit égale à 1.
Eric Crettaz
- 20 -
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
Densité
0,44
0,45
0,39
0,4
probabilités
0,35
1 enfant
0,3
2 enfants
0,25
3 enfants
0,2
0,14
0,15
4 enfants
0,1
0,03
0,05
0
nombre d'enfants
On peut résumer l’information nécessaire dans un tableau :
X=x
1
2
3
P(X=x)
FX (X)
0.39
0.39
0.44
0.83
0.14
0.97
Et la fonction de répartition est représentée de la manière suivante :
pourcentage
Fonction de répartition
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
0
1
2
3
4
nom bre d'enfants
Eric Crettaz
- 21 -
4 enfants ou
plus
0.03
1
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
Autre exemple, la fonction de répartition du lancer de dé :
Une propriété importante doit être soulignée ici. Soient deux valeurs a et b telles que a<b,
alors P(a < x ≤ b) = F X (b) - F X (a ) .
Dans l’exemple précédent, prenons la probabilité d’avoir plus d’un enfant et au maximum 4
enfants. Il s’agit ici de calculer P( 1 < x ≤ 4) = F X (4) - F X (1) = 1 - 0.39 = 0.61 = 61%
8.2. Les variables aléatoires continues
Il s’agit de variables dont chaque valeur admise a une probabilité nulle. En effet, puisque
cette variable est continue, elle peut prendre une infinité de valeurs. Il faut définir des
probabilités sur un intervalle.
Comme il s’agit de variables continues, la fonction de répartition prend la forme suivante :
Cette fonction remplit le même but que l’ « escalier » pour les v.a. discrètes. Donc cette
fonction de répartition indique, pour chaque valeur x de la variable X, la probabilité d’avoir
des valeurs inférieures à x, c.-à-d. P(X ≤ x).
Eric Crettaz
- 22 -
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
Et la probabilité que la variable X prenne une valeur dans un intervalle [a,b] est la suivante,
c’est-à-dire la probabilité que cette valeur se situe entre a et b se calcule de la façon suivante :
P(a ≤ x ≤ b) = P(x ≤ b) - P(x ≤ a) = F X (b) - F X (a ) .
Pour décrire la variable, on utilise la fonction de densité :
f
X
X
Là où
f
a
b
( X ) est « élevée », les valeurs de X sont plus probables que là où elle est
X
« basse ». Chaque valeur particulière de X est impossible, seuls des intervalles (p.ex. dans la
figure l’intervalle [a,b] ) ont suffisamment de points pour avoir une probabilité non nulle.
La probabilité qu’une valeur x de X se situe entre a et b correspond à l’aire qui se trouve
délimitée par a et b et se trouvant sous la courbe (la zone hachurée de la figure ci-dessus).
Pour calculer cela, il faut en fait calculer la primitive de f X ( X ) . Il s’agit en fait de F X ( X ) ,
et on peut donc écrire :
b
P(a ≤ x ≤ b) =
∫f
a
X
( x ) ⋅ dx = F X (b) -
F
X
(a ) .
8.3. Loi de Bernouilli et loi binômiale
Dans le cas de la loi de Bernouilli, on a une épreuve avec deux résultats possibles, de type
succès/échec. On note qu’une telle v.a. X a une probabilité p de prendre la valeur 1, en cas
de succès, et une probabilité q=1-p de prendre la valeur 0, qui correspond à l’échec.
1 avec une probabilité p (succès)
X=
0 avec une probabilité 1-p=q (échec)
La loi binômiale
Dans ce cas on s’intéresse à la probabilité d’obtenir un certain nombre d’échecs ou de
succès, ou un certain nombre de fois la valeur 1 resp. la valeur 0. Dans ce cas on généralise
à n épreuves successives. Comme précédemment, P(succès) = p et
P(échec) = q = 1-p et il est important de souligner que chaque épreuve est indépendante de
la précédente.
Eric Crettaz
- 23 -
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
Ce qui nous intéresse est de calculer la probabilité d’obtenir k succès parmi n épreuves. On
peut par exemple s’intéresser à la probabilité d’avoir deux filles si l’on a trois enfants. Pour
indiquer que X suit une loi binômiale avec n épreuves et une probabilité de succès p, on note
X ~ B (n, p).
La formule générale pour calculer ce type de probabilités, pour un événement simple avec k
succès et n-k échecs, est la suivante :
k
P(X =k) = C •
pk • qn-k
n
k
C =
n!
.
k!(n − k )!
n
Voici à quoi ressemble la loi binômiale :
(Source : US National Institute of Standards and Technology, Engineering Statistics
Handbook).
Jusqu’à présent, nous avons analysé des distributions de v.a. discrètes. Passons aux
variables continues.
Eric Crettaz
- 24 -
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
8.5. La loi normale
8.5.1. Distribution
La distribution d’une v.a. continue peut prendre p.ex. les formes suivantes :
La densité d’une v.a. suivant une loi normale a la forme d’une cloche symétrique, c’est la
fameuse courbe de Gauss.
2
Toute loi normale se caractérise par 2 paramètres : µ et σ2, et on note X ~ N (µ, σ ), qu’on
estime de la façon suivante
n
n
∑
x
i = 1
pour µ :
n
∑ (x − x )
i
et pour σ2 :
i
i =1
n
La formule de la loi normale est la suivante :
f x ( x) =
⎡ 1 ⎛ x − µ ⎞2 ⎤
exp ⎢ − ⎜
⎟ ⎥
2πσ
⎣⎢ 2 ⎝ σ ⎠ ⎥⎦
1
Cette fonction a l’allure suivante :
Eric Crettaz
- 25 -
2
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
Fonction de Densité de Probabilité Normale
y
_
X
x
Notons quelques propriétés importantes de cette courbe de Gauss :
-
le maximum de la fonction est la moyenne
les points d’inflexion de la courbe se situent à x ± s ( µ ± σ )
en ce qui concerne l’écart-type, on sait aussi que :
P ( x − s ≤ x ≤ x + s ) ≈ 68%
P ( x − 2 s ≤ x ≤ x + 2 s )= 95%
P ( x − 3s ≤ x ≤ x + 3s ) ≈ 99%
Notons en plus qu’une somme ou une transformation linéaire d’une v.a. suivant une loi
normale suit aussi une loi normale.
8.5.2. Loi normale centrée réduite
Il s’agit de la loi normale ayant pour particularité d’avoir une moyenne nulle et un écart-type
valant 1 : X ~ N (0,1). La formule de la fonction est la suivante :
x2
fx (X ) =
⋅ exp(− ) = ϕ ( x) , qui a l’aspect suivant :
2
2π
1
Eric Crettaz
- 26 -
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
et la fonction de répartition est :
x
Fx ( X ) =
∫
−∞
1
2π
⋅e
−
u2
2
⋅ du =
Φ(x)
Ceci n’est pas intégrable de façon analytique, c’est pour cela qu’on recourt à des tables. Ce
qui nous intéresse est donc une variable X ~ N(0,1) et la probabilité P( a ≤ x ≤ b ), ce qui
Φ(b) - Φ(a) , soit l’aire sous la courbe de la densité de probabilité entre les
points a et b. Les valeurs de Φ(b) et Φ(a) se trouvent dans des tables.
revient à calculer
Pour pouvoir utiliser la loi normale centrée réduite pour une variable X ~ N (µ, σ2), il faut la
standardiser, c’est-à-dire transformer cette variable X en une variable Z qui, elle, suit une loi
normale centrée réduite :
X −µ
Z=
σ
~N (0,1)
Cette transformation s’appelle le z-score ou score standardisé.
Il faut en outre ajouter que :
Φ(−x) = 1 - Φ(x)
Avec ces deux propriétés fondamentales, on peut effectuer les calculs au moyen des tables
usuelles.
Eric Crettaz
- 27 -
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
8.5.3. Le théorème central limite TCL
C’est l’un des théorèmes fondamentaux de la statistique. Il dit que si on a une grand nombre
de variables aléatoires x 1 , x 2 , …, x n identiquement distribuées, alors leur somme
x 1 + x 2 +…+ x n suit approximativement une loi normale. On estime que ce théorème est
applicable à partir de n = 30.
Cela signifie notamment que la moyenne d’un échantillon aléatoire suit une loi normale,
c’est-à-dire x ~ N ( µ x , σ x ).
2
Supposons que vous voulez calculer la moyenne d’âge des habitants d’un pays et que vous
tirez aléatoirement 1000 échantillons différents et calculez chaque fois la moyenne. Les
moyennes calculées vont se répartir sur une courbe en forme de cloche, une courbe de
Gauss. Nous y reviendrons lorsque nous parlerons des intervalles de confiance.
8.5.4. Vérifier la normalité des données et transformations
On peut de façon qualitative considérer le Q-Q plot (Quantile-Quantile) qui est un graphique
qui compare les quantiles théoriques de la loi normale et les quantiles observés. Si les points
de ce graphique sont plus ou moins alignés le long d’une droite alors on peut partir du
principe que la variable suit une loi normale.
Un Q-Q plot à l’aspect suivant, en prenant l’exemple des revenus des foyers :
Valeur
gaussienne
théorique
Valeur observée du revenu
Sur cet exemple on constate très clairement que les revenus des foyers ne suivent pas une
distribution normale, car les points (en rouge) s’éloignent de la droite à partir d’un certain
niveau de revenus.
Eric Crettaz
- 28 -
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
En fait beaucoup de tests statistiques sont basés sur l’hypothèse de la normalité des
données. Cette hypothèse mène à des tests qui sont simples et puissants comparés à
certains autres tests n’étant pas basés sur cette hypothèse. Malheureusement, beaucoup de
jeux de données n’ont pas une distribution normale.
C’est pour cela qu’on procède à des transformations de manière à obtenir une variable
transformée suivant à peu près une loi normale.
Il y a beaucoup de possibilités de transformations :
- racine carrée,
- logarithme naturel ln(x)
- transformations de Box-Cox (
X λ −1
λ
)
- etc.
9. VALEURS CARACTERISTIQUES, ESTIMATIONS ET INTERVALLES DE CONFIANCE
En statistique inférentielle, on recourt à deux types d’approches pour cerner un paramètre
d’une population θ : soit on calcule un estimateur (on fait une estimation) en sachant que,
très vraisemblablement le chiffre obtenu (c’est-à-dire l’estimateur θˆ ) n’est pas la valeur
réelle, ou alors on calcule un intervalle ayant une probabilité (dans les sciences sociales
95%) de couvrir la valeur réelle du paramètre qu’on cherche à évaluer.
Commençons par définir quelques valeurs caractéristiques très importantes : l’espérance
mathématique, la variance et l’écart-type.
9.1. L’espérance mathématique
Illustrons par un exemple. On jette 100 fois un dé et on obtient 14 fois un 1, 20 fois un 2, 18
fois un 3, 21 fois un 4, 13 fois un 5 et 14 fois un 6.
Calculons : 14x1 + 20x2 + 18x3 + 21x4 + 13x5 + 14x6 = 14 + 40 + 54 + 84 + 65 + 84 = 341
341/100= 3,41.
Si on lançait un nombre infini de fois le dé, on obtiendrait exactement 3,5. Cette moyenne
théorique est l’espérance mathématique notée E(x) ou µ.
Le calcul de l’espérance mathématique, pour une v.a. discrète dans { x1 , x 2 ,..., x k } et ayant
P(X= x1 ), P(X= x 2 ), …, P( x k ) est le suivant :
k
E(X) =
∑ P( X = x ) ⋅ x
i =1
Eric Crettaz
i
i
- 29 -
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
C’est une mesure de tendance centrale pour une distribution de probabilités.
Remarque : pour une v.a. continue, on a la même définition, mais qui prend la forme d’une
intégrale de la densité de la variable :
E(X) =
∫
+∞
−∞
f x (u ) ⋅ u ⋅ du
Estimation :
Le paramètre θ à estimer est donc l’espérance mathématique E(X) =µ. Son estimateur θˆ
est la moyenne arithmétique x =
1
n
n
∑
x
i=1
i
9.2. La variance
Nous avons déjà étudié la variance empirique, c’est-à-dire celle observée directement sur un
échantillon. Ici on définit une variance théorique, liée aux probabilités d’une v.a. X :
Var (X) =
σ 2 = E [(X – E(X)) 2 ], soit l’espérance mathématique de (X - E(X)) 2 , qu’on
peut également noter Var(X) = E [(X-µ) 2 ], et on peut montrer que cela équivaut à
E(X2) – E(X)2 . L’écart-type est la racine carrée de la variance, c’est-à-dire σ .
Estimation :
Le paramètre θ à estimer est donc la variance Var(X)= σ 2 . Son estimateur θˆ est la
1 n
2
variance empirique s = ∑ ( xi − x ) .
n i =1
2
Notons qu’on peut aussi faire la même estimation mais avec 1/n-1 (estimateur sans biais)
plutôt que 1/n. Faites donc toujours attention quand vous utilisez une calculatrice, vous
pouvez avoir deux touches, l’une notée σn−1 et l’autre σ n .
Une remarque importante : dans le cas de la loi binômiale la variance vaut np(1-p), et
l’espérance mathématique vaut np.
9.3. Les intervalles de confiance (I.C)
9.3.1. Intervalle de confiance pour la moyenne
Selon le TCL, x ~ N ( µ x , σ x ), même si on ne connaît pas la distribution exacte des xi .
Ceci nous permet de calculer le risque d'erreur lié à l'échantillonnage. Notre but n’est pas
seulement de connaître la moyenne dans l’échantillon mais aussi de tirer des conclusions
sur la population de référence. x est un estimateur (sans biais) de µ. Si n > 30 alors les
moyennes calculées suivent approximativement une loi normale, selon le TCL.
2
Eric Crettaz
- 30 -
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
On va donc chercher à calculer un I.C. tel que la probabilité que cet intervalle couvre la
valeur réelle du paramètre de la population s’élève à 95%, cet I.C étant de la forme [ x ± e],
± e étant la marge d'erreur. On trouve notamment ces indications dans les sondages
d’opinions : si vous y prêtez attention, il y a en général un ± e % dans l’article. Notons que
cela présuppose que la façon dont a été conduite le sondage respecte les lois de la
statistique inférentielle basée sur le tirage d’un échantillon aléatoire ; c’est loin d’être toujours
évident.
Posons α le risque d'erreur de notre intervalle de confiance, en règle générale 5% dans les
sciences sociales. Mais on peut se montrer plus exigeant selon l’importance de la précision
de l’I.C., p.ex. 99%.
On écrit: P(µ - e ≤ x ≤ µ + e) = 0.95 = 1 - α
On va recourir à la loi normale centrée réduite pour faire ce calcul. Il faut chercher a et b
t.q. P(Z ≤ b) = 97.5% et P(Z ≤ a) = 2.5% .
⇒ a = -1,96 et
Posons
σ
x
b = 1.96
= l'écart-type de la distribution des moyennes d'échantillon.
x−µ
P(-1,96 ≤
σx
≤ 1,96) = 0,95 ,avec
σx=
σ
n
L’ I.C. pour la moyenne arithmétique vaut :
[
x - 1,96
S
n
;
x + 1,96
S
]
n
Deux remarques fondamentales :
i)
cette formule ne s’applique que pour n≥30
ii)
cette formule n’est valable que pour des échantillons aléatoires simples.
De ce qui précède on déduit que plus la variance est grande, c.-à-d. plus les réponses sont
hétérogènes et dispersées, plus l’intervalle de confiance est grand. On voit aussi que plus la
taille de l’échantillon est grande, plus l’IC est petit. Et surtout que l’IC ne dépend pas de la
taille de la population de référence.
Prudence : n ne désigne pas toujours la taille de l’échantillon dans son entier, il peut s’agir
d’un sous-échantillon sur lequel on estime un paramètre. Donc plus le sous-groupe de
l'échantillon sur lequel est calculé la moyenne est petit, plus l’IC est large.
Eric Crettaz
- 31 -
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
Rappelons aussi que le problème de constitution de l’échantillon reste entier même si on a
une faible marge d’erreur : la base de sondage utilisée, le taux de non-réponse, les biais
dans la collecte des données, etc.
9.3.2. Intervalle de confiance pour une proportion
La formule de l’IC avec un niveau de confiance de 95% (probabilité de couvrir la valeur) pour
une proportion vaut donc :
s2
s2
p − 1,96
≤ π ≤ p + 1,96
n
n
Avec s2 = p(1-p) et n la taille de l’échantillon ou du sous-groupe de l’échantillon considéré,
donc l’IC peut s’écrire :
p ⋅ (1 − p)
, la marge d’erreur maximale vaut : ± 1 . 96 ⋅
n
2500 .
n
C’est la marge d’erreur qui est généralement indiquée dans les sondages d’opinion.
p ± 1.96 ⋅
Notons toutefois que les formules évoquées ci-dessus ne fonctionnent que pour les cas où
l’échantillon n’excède pas 5% de la taille de la population de référence, sinon il faut recourir
à un facteur correctif N − n .
N −1
10. VARIABLES CATÉGORIELLES ET TABLEAUX DE CONTINGENCE
10.1. Généralités
Il s’agit d’un aspect particulièrement important de la statistique appliquée aux sciences
sociales. En effet, les variables nominales ou ordinales jouent un rôle important, et les
tableaux croisés, les tableaux de contingence sont très fréquents dans les publications.
Abordons tout d’abord un point fondamental : l’interprétation de tableaux croisés. Cela paraît
évident, malheureusement des fautes sont commises très fréquemment.
Quand on lit des pourcentages dans un tableau croisé, il faut s’interroger : s’agit-il de
pourcents en ligne, en colonne ou sur le total ? C’est LA question cruciale !
Reste encore les pourcentages sur le total, plus faciles à interpréter. Nous les abordons
dans la section suivante.
Eric Crettaz
- 32 -
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
10.2. Tableaux de contingence
Un tableau de contingence croisant deux variables A et B est un tableau qui a la forme
suivante :
1
1
2
n
n
11
2
i
j
n
n
12
n
ij
1+
n
+1
i+
n
n
n
n
l+
lc
n
n
+2
2+
n
ij
l1
total
n
n
1c
21
i1
n
n
total
n
1j
n
l
c
+j
+c
est l’élément de la ième ligne et de la jème colonne.
c
ème
n
i+
est le nombre d’éléments sur la i
ligne =
∑n
ij
i =1
l
n
+j
est le nombre d’éléments dans la j
ème
colonne =
∑n
j =1
ij
Si les deux variables sont indépendantes, on sait par les lois des probabilités que
P(A ∩ B)=P(A)*P(B), donc :
P(ligne=i et colonne=j)=P(ligne=i)*P(colonne=j) ⇒
Donc la valeur attendue, vaut
n ⋅n
n
i+
+j
n
n
ij
=
n ⋅n
n n
i+
+j
⇒ nij =
n ⋅n
n
i+
+j
,
soit le nombre de personnes de toute la ième ligne multiplié par le nombre de personnes de
toute la jème colonne, divisé par le nombre total d’individus.
10.3. Sur-représentation et sous-représentation
La première façon de mesurer ces écarts entre les effectifs théoriques et les effectifs
observés, c’est de calculer le ratio :
Eric Crettaz
- 33 -
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
Effectifs observés de l' événement conjoint
Effectifs théoriques sous l' hypothèse d' indépendance
La règle est simple : si ce rapport est >1, cela veut dire que le numérateur est plus grand que
le dénominateur, ce qui veut dire que le groupe observé est sur-représenté. Si ce rapport
<1, alors le numérateur est plus petit que le dénominateur et le groupe observé est sousreprésenté.
On utilise généralement plutôt les fréquences que les nombres absolus, mais le principe est
le même. Pour illustrer cela graphiquement, on peut p.ex. marquer en gris les croisements
sur-représentés et utiliser une couleur de plus en plus foncée à mesure que la surreprésentation augmente, par exemple.
1< X <1.5
1.5 < X < 2
2<X<3
X>3
Niveaux de formation croisés du chef de ménage et du partenaire
Niveau de formation du partenaire
Niveau de formation
du chef de ménage
Non actif
Scolarité Formation Maturité
obligatoire
prof.
Form.
Ecole
Université
prof. sup. prof. sup.
autres
form.
Total
Scolarité obligatoire
626
nombre
277
241
93
6
5
0
1
3
10.14
9.22
38.38
5.12
2.76
2.48
0.00
0.58
6.25
%
Formation prof.
3234
1227
66
48
25
16
22
nombre 1542
288
52.40
45.86
67.49
30.41
23.76
30.12
9.25
45.83
% 51.35
Maturité
256
126
14
60
32
4
8
9
3
nombre
4.15
4.20
2.23
3.30
14.75
1.98
9.64
5.20
6.25
%
Form. prof. Sup.
789
389
42
229
26
75
9
9
10
nombre
12.78
6.69
12.60
11.98
37.13
10.84
5.20
20.83
% 12.95
Ecole prof. Sup.
467
255
21
102
29
23
18
16
3
nombre
7.57
8.49
3.34
5.61
13.36
11.39
21.69
9.25
6.25
%
Université
685
357
11
74
56
45
21
121
0
nombre
11.10
1.75
4.07
25.81
22.28
25.30
69.94
0.00
% 11.89
Autres formations
115
57
11
33
2
2
2
1
7
nombre
1.86
1.90
1.75
1.82
0.92
0.99
2.41
0.58
14.58
%
Total
628
1818
217
202
83
173
48
6172
nombre 3003
100
100
100
100
100
100
100
100
100
%
Sources : OFS, Enquête sur les revenus et la consommation des ménages, en 1990, échantillons mensuels non pondérés
Eric Crettaz
- 34 -
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
10.4. Evolution de l’écart entre des fréquences
Prenons l’exemple de l’évolution des sondages avant des élections législatives :
1 mois avant l’élection :
Parti au pouvoir (PP) 41.5% des intentions de vote
Parti d’opposition (PO) 36.5%
2 semaines avant le scrutin :
Parti au pouvoir 40.5%
Parti d’opposition 38%
On constate que, entre le 27 février et le 8 mars, les intentions de vote du parti au pouvoir
sont passées de 41,5% à 40,5%. Comment décrire cette évolution ?
On peut dire que les intentions de vote en faveur du PP ont diminué d’un point de
pourcentage.
On peut également calculer
41.5% − 40.5%
= 0.024 =2,4%, c’est-à-dire que les intentions de
41.5%
vote en faveur du PP ont reculé de 2,4%.
On peut également calculer le ratio 40.5% / 41.5% = 97.6%. Ce dernier résultat n’est pas
très intéressant, car l’évolution a été faible. Mais si on a une augmentation assez marquée,
on peut indiquer de combien de fois le pourcentage a augmenté. Illustrons cela au moyen
d’un exemple fictif : supposons que sur un thème donné on réalise deux sondages à 3 mois
d’intervalles. La première fois, 30% des sondés sont d’accord et la seconde fois ce taux
s’élève à 75%. Si on calcule le ratio 75% / 30% = 2.5, on peut dire que le taux d’accord est
deux fois et demie plus élevé que trois mois auparavant.
Ces trois approches présentées sont :
- l’évolution en points de pourcentage, c’est la différence arithmétique,
- la variation des taux exprimée en %, sur le modèle :
situation initiale - situation finale
situation initiale
- la progression géométrique qui consiste à diviser la situation finale par la situation
initiale, pour voir de « combien de fois » un taux a augmenté (ou diminué).
Eric Crettaz
- 35 -
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
11. LES TESTS STATISTIQUES, TEST D’INDÉPENDANCE DU
χ
2
, TEST DU T SUR
DEUX PROPORTIONS.
11.1. Les tests en statistique inférentielle
Toute démarche strictement scientifique repose sur la formulation d’une hypothèse sur la
population, suivie d’une collecte de données puis du rejet ou du non-rejet de l’hypothèse à
de l’écart existante entre les données observées et les valeurs prédites par l’hypothèse.
Nous avons déjà parlé des estimations (ponctuelles ou par intervalle de confiance) : il
s’agissait d’une démarche de quantification. Dans le cas d’un test d’hypothèse, il s’agit d’une
validation.
On formule une hypothèse de départ, qu’on appelle hypothèse nulle et qu’on note H 0 . La
conclusion du test contient un risque d’erreur. En fait il y en a deux :
α : Probabilité de rejeter l’hypothèse H 0 alors qu’elle est vraie, c’est l’erreur de 1ère espèce
β : Probabilité d’accepter H 0 alors qu’elle est fausse, c’est l’erreur de 2ème espèce.
Les deux autres cas de figures sont bien évidemment ceux qu’on recherche : ne pas rejeter
H 0 quand elle est vraie et rejeter H 0 quand elle est fausse.
La marche à suivre est la suivante :
i)
formuler H 0 et définir son alternative H 1
ii)
définir α , en général 5%
iii)
définir un critère qui nous permet de tirer une conclusion : c’est la statistique
du test dont on devra connaître la distribution (N, t, χ 2 , F, etc.)
iv)
v)
vi)
définir une région de rejet telle que si la statistique du test est plus grande (ou
plus petite) qu’une valeur critique, alors l’hypothèse est rejetée.
prélever un échantillon
calculer la statistique du test sur l’échantillon et tirer une conclusion.
Il existe de nombreux tests en statistique inférentielle : des tests d’indépendance, des tests
d’adéquation, des tests sur des hypothèses techniques d’autres tests, des tests sur les
moyennes, sur la variance, etc.
Une autre approche est possible, qui est celle dite de la « p-valeur » ou valeur p. Plutôt que
de définir une zone de rejet, on calcule la probabilité de trouver une valeur aussi « extrême »
que la statistique du test calculée. Si cette probabilité est petite, on rejette l’hypothèse, c’està-dire si la valeur p est < α , qui vaut généralement 0.05 ou 0.01.
La valeur p n’est pas :
- une indication de l’importance du phénomène qu’on étudie, elle dit seulement s’il y a
ou non un effet
- la probabilité que l’hypothèse soit vraie
Eric Crettaz
- 36 -
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
La valeur p vaut
1− F
0
(x), ou
F
11.2. Le test d’indépendance du
0
, selon le type d’hypothèse à vérifier.
χ
2
Jusqu’à présent, nous avons analysé de façon qualitative la différence existant entre les
effectifs observés et les effectifs attendus. Ici il s’agit d’une approche plus « dure », basée
sur la statistique inférentielle et les tests.
Nous avons vu que, dans le fond, le critère de décision sur l’éventuelle indépendance de ces
deux variables dépend de la différence entre les fréquences observées et les fréquences
attendues. C’est en comparant ces deux grandeurs que nous avons déterminé quelle
couleur attribuer à une case.
Il nous faut déterminer une mesure globale des écarts entre les effectifs observés et les
effectifs attendus, en utilisant les notations :
n
ij pour les fréquences observées
∗
n
ij pour les fréquences attendues (ou théoriques)
T est la statistique du test, qu’on calcule de la manière suivante :
c
T=
l
∑∑
i =1 j =1
∗
(nij − nij ) 2
∗
n
ij
C’est-à-dire la somme de (effectifs observés – effectifs attendus)2 / effectifs attendus,
pour chaque case du tableau de contingence.
On sait que T suit une distribution
χ
2
, on note T ~
χ
2
. C’est une loi dont le calcul est assez
compliqué, mais on dispose de tables, comme pour la loi normale centrée réduite.
On rejette l’hypothèse
H0
si T > k =
χ
2
( l −1)⋅( c −1),α
Cela dépend donc, entre autres, du nombre de lignes et de colonnes du tableau de
contingence, ce qui est logique puisque plus il y a de cases dans le tableau, plus le nombre
de différences possibles est élevé. Ce calcul dépend également de l’erreur de première
espèce, bien entendu.
Cela veut dire que
PH
(T ≤ K) = 1 - α .
PH
(T>K) =
0
PH
(rejeter l’hypothèse) = α et en toute logique
0
0
Eric Crettaz
- 37 -
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
Représentons cela graphiquement :
χ2
← 1−α →
←α →
K
Remarques très importantes :
Pour que le test soit valable, on ne doit pas avoir plus de 20% des cellules avec un effectif
attendu inférieur à 5, et aucune avec un effectif observé nul. Si ces conditions ne sont pas
remplies, on peut regrouper certaines modalités (recoding).
Les résultats de ce test d’indépendance ne doivent pas s’interpréter en termes de causalité !
11.3. Les mesures d’associations
On utilise généralement les grandeurs suivantes, en posant T la statistique du test et n le
nombre de répondants :
Le coefficient de Cramer : V =
T
n ⋅ min(c − 1, l − 1)
Un cas particulier du coefficient de Cramer est le coefficient Φ =
c’est le coefficient de Cramer pour une table de contingence 2x2.
On utilise aussi le coefficient de contingence C =
Eric Crettaz
- 38 -
T
T +n
T
,
n
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
Ces mesures prennent des valeurs entre 0 et 1.
En fait il y a deux logiques :
-
→ mesures d’association
→ test d’indépendance
la relation est-elle forte ?
y a-t-il une relation significative ?
11.4. Test d’adéquation
Sur le même modèle, on peut calculer les effectifs observés d’une variable et les effectifs
attendus selon une distribution. Il suffit de découper les observations en un certain nombre
de classes (k classes qui ne se recoupent pas).
H 0 : la variable étudiée suit une certaine loi
L’hypothèse H 1 : la variable ne suit pas la loi en question.
L’hypothèse
La statistique du test est la même que ci-dessus :
c
T=
l
∑∑
i =1 j =1
C’est-à-dire la
∗
(nij − nij ) 2
∗
n
ij
(observés − attendus) 2
∑∑
attendus
On rejette l’hypothèse
H0
si T > k =
χ
2
k −1,α
11.5. Le test du t sur deux proportions
Il est fréquent, en sciences sociales, de constater que le taux d’individus dans un groupe A
ayant une propriété a et différent du taux d’individus dans un groupe B ayant une propriété b.
On constatera ainsi que les femmes choisissent moins les études scientifiques de type
polytechnique que les hommes, que les personnes sans formation postobligatoire ont un
risque de pauvreté plus élevé que les universitaires, que le taux d’assistance est plus élevé
dans les centres urbains que dans les communes de plus petites tailles, etc.
On peut se contenter du simple constat descriptif. De façon plus intéressante, et pour
pouvoir « trancher » de manière univoque, on peut recourir à un test nous permettant de
savoir si l’écart observé entre ces deux proportions (taux d’hommes et de femmes à l’école
polytechnique, taux de pauvreté des personnes sans formation et taux de pauvreté des
universitaires, etc.) est statistiquement significatif.
L’hypothèse à vérifier, ainsi que l’hypothèse alternative, sont les suivantes :
Eric Crettaz
- 39 -
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
H
H
0
: p1 = p 2
1
: p1 ≠ p 2 (ce qu’on appelle un test bilatéral).
La statistique du test vaut :
pˆ 1 − pˆ 2
pˆ 1 (1 − pˆ 1 ) pˆ 2 (1 − pˆ 2 )
+
n1
n2
Avec n1 , n 2 les deux sous-échantillons sur lesquels on a calculé pˆ 1 , pˆ 2 . Cette formule est
valable pour deux (sous-)échantillons indépendants.
Bien entendu, si on travaille avec des proportions exprimées en pourcents, il faut remplacer
1 par 100 dans la formule ci-dessus.
On sait que cette statistique du test suit une distribution t de Student, et que la valeur critique
est
t
n1+ n 2 − 2 ,α
2
.
Il se trouve que la distribution t, à partir d’une certain nombre de degrés de liberté, c’est-àdire à partir d’une certaine taille d’échantillon, ressemble beaucoup à une loi normale centrée
réduite. Pour être précis, on peut chercher la valeur critique dans une table de la loi normale
à partir de n1 = 30 et n 2 = 30 (ou n1 + n 2 = 40 ).
Donc le seuil pour α = 0,05 est
zα
2 de la loi normale centrée réduite, c’est-à-dire
z
0.75 ,
qui vaut 1,96. Si l’on fixe α = 0,01 , cette valeur critique devient 2,58.
Donc si la statistique ci-dessus est supérieure à 1,96 (ou 2,58), on rejette l’hypothèse nulle,
donc il y a un écart significatif entre les deux proportions.
Il est assez courant de voir des tableaux contenants des pourcentages observés sur deux
échantillons accompagnés d’une étoile si l’écart est significatif pour α = 0,05 et deux étoiles
pour α = 0,01 .
Eric Crettaz
- 40 -
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
12. CORRELATIONS ET REGRESSIONS
Nous retournons maintenant aux variables quantitatives continues. Nous nous intéressons
aux liens linéaires qui peuvent unir deux variables de ce type.
12.1. Covariance et coefficient de corrélation de Pearson
Avant de passer au coefficient de Pearson r, nous devons introduire le concept de
covariance.
La covariance mesure le lien qui peut unir deux variables en tenant compte des écarts à la
moyenne de chaque variable :
Covariance de X et Y (empirique) = Cov (X,Y) =
1 n
⋅ ∑ ( xi − x )( y i − y ) , le paramètre étant
n i =1
E[(X- µ x )(Y- µ x )] . On peut montrer que ce dernier terme équivaut à E(XY) - µ x µ x .
Cette valeur peut varier entre - ∞ et + ∞ .
Si on calcule Cov(X,X), on obtient
1 n
1 n
⋅ ∑ ( xi − x )( xi − x ) = ⋅ ∑ ( xi − x ) 2 , qui est en fait la
n i =1
n i =1
variance de X.
Le coefficient de corrélation de Pearson (ou Bravais-Pearson) vaut :
n
r=
Cov( X , Y )
var( X ) var(Y )
n
n
n ∑ x i ⋅ y i − ( ∑ x i ) ⋅ (∑ y i )
=
i =1
n
i =1
n
i =1
n
n
(n ∑ x − (∑ xi ) ) • (n∑ y − (∑ y i ) 2 )
i =1
2
i
i =1
2
i =1
2
i
i =1
r ∈ [−1;1]
Si les couples de points ( xi , y i ) sont à peu près alignés sur une droite alors r s’approche de
1 ou de -1.
Il vaut 1 si y augmente quand x augmente (p.ex. taille et poids) et vaut -1 si y diminue quand
x augmente.
Lorsque r a une valeur proche de 0, on peut considérer que le lien est très faible voire
inexistant le long d’une droite. Cela ne signifie pas nécessairement qu’il n’existe aucun lien
entre les variables !
En outre il faut dire que si les deux variables sont indépendantes, alors la corrélation sera
nulle, mais la réciproque n’est pas vraie, et on note :
Eric Crettaz
- 41 -
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
X, Y indépendantes
⇒
corr(X,Y)=0
corr (X,Y) = 0
⇒
X, Y indépendantes.
Par contre la contraposée est vraie :
corr(X,Y) ≠ 0
⇒
X, Y ne sont pas indépendantes
Donnons quelques exemples graphiques, sous forme de diagrammes de dispersion :
x xxx
x x x x xx
xxx xx
x x x xxxxxxxx
xxxx
xxxx xxx
x x x xxx
xx xxxxx
Dans ce cas, c.-à-d. un nuage de points dans lequel ne se dégage aucune tendance linéaire,
on obtient une valeur du coefficient de Pearson r ≅ 0
xx
xx
xxx
xx
xx
xxx
x
xx
xxx
xx
xxx
x
xx
xxx
x
xx
xx
x xx
Dans ces deux cas, dans lesquels les points sont plus ou moins alignés, r ≅ −1 resp. 1.
Eric Crettaz
- 42 -
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
xx
xx
x
x
xxx
xx
xx
x
xx
xxx xx
xx
Dans ce cas aussi r ≅ 0 , pourtant on voit bien qu’il y a un lien entre les deux variables, mais
celui-ci n’est pas linéaire.
On peut avoir, entre deux variables, des liens quadratiques, logarithmiques, etc.
Deux remarques s’imposent donc:
- Si le coefficient de corrélation est nul, cela ne signifie pas qu’il n’existe aucun lien entre les
variables (cf. ci-dessus)
- Le coefficient de corrélation entre X et Y peut être assez élevé, ce qui indique une
association de type linéaire entre les deux variables. Mais il ne faut jamais l’interpréter en
termes de causalité ! Il se peut en fait que les deux variables n’aient, directement, rien à voir
l’une avec l’autre mais dépendent toutes deux d’une troisième variable Z.
On peut illustrer cette dernière remarque de la façon suivante :
Z
X
Y
r non négligeable mais
aucune causalité
Il existe deux façons de savoir si une corrélation est « forte » ou pas :
D’une part l’expérience : pour les sciences sociales, on s’attend rarement à avoir des
corrélations très élevées. On estime que pour des données agrégées (cantons, pays), 0.7
est déjà assez satisfaisant. Pour des données individuelles, pour des sondages, on se
contente déjà de 0.2 pour des données individuelles, 0.5 si on construit un indice avec
plusieurs indicateurs. Mais ce ne sont pas des règles très scientifiques !
Eric Crettaz
- 43 -
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
L’autre façon de procéder consiste à réaliser un test ayant pour hypothèse nulle : r=0.
12.2. Diagramme de dispersion et régression linéaire simple
Nous avons déjà eu l’occasion de décrire des diagrammes de dispersion, qui sont de la
forme suivante :
x xxx
xxxx x x
xx x xx
x x x xx x xx xxx
xxxx
xxxx xxx
x x x xx x
xx xxxxx
Variable Y
Variable X
Un tel diagramme permet de visualiser un ensemble de couples d’observations ( xi , y i )
Dans le cas de la régression, on souhaite calculer la droite qui s’approche le plus du nuage
de points :
xx
x x
x xx
xx
xx
x xx
x
xx
xx x
Cette droite est la droite de régression. Son équation peut s’écrire y = a + bx.
En fait y est une fonction de x : y est la variable dépendante (c.-à-d. la variable qu’on veut
expliquer) et x est la variable indépendante ou explicative. Le terme a indique quelle est
l’ordonnée à l’origine, c.-à-d. la valeur que prend y quand x vaut 0, et b est la pente de la
droite.
Il faut donc calculer une droite telle que la somme des écarts de chaque point à cette droite
soit la plus petite possible. En effet, la plupart des points ne sont pas sur la droite de
régression. Il faut donc additionner les termes y i − (a + bxi ) .
On recourt à la méthode des moindres carrés :
n
Q(a,b) =
∑( y
i =1
Eric Crettaz
i
− (a + bxi ) )2 . On doit trouver le minimum de cette somme.
- 44 -
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
On élève les écarts à la droite de régression au carré pour que les distances des points se
trouvant au-dessus de la droite ne s’annulent pas avec les distances des points se trouvant
en dessous de la droite.
On obtient les paramètres suivants (pour alléger la notation, on écrit
∑
n
pour
∑
):
i =1
â = y − bˆ ⋅ x
b̂ =
n ∑ x i y i − (∑ x i ⋅ ∑ y i )
n ∑ xi2 − (∑ xi ) 2
=r
⋅
∑(y
∑ (x
i
− y)2
i
− x)2
Cette droite passe par les points (0, â) et ( x , y ).
Notons y i la valeur observée de la variable Y correspondant à l’abscisse xi et ŷ i la valeur
prédite par la droite de régression. Les résidus valent ei = y i - ŷi
On peut démontrer que la variation totale = variation au niveau des résidus + la variation
expliquée par la régression.
Cela peut s’écrire :
∑(y
− y ) 2 = ∑ ( y i − yˆ i ) + ∑ ( yˆ i − y ) 2
2
i
Somme des carré, total (SCT) = Somme des carrés liés aux résidus, c.-à-d. les termes e
(SCE) + somme des carrés liés à la régression (SCR).
Ces termes permettent de juger la régression :
En effet le terme R2 =
SCR
, qui varie entre 0 et 1,
SCT
s’appelle le coefficient de détermination et s’interprète comme le pourcentage de la
variabilité expliqué par la régression. Dans le cas de la régression simple, R2=r2.
L’expérience montre que, en sciences sociales, 30% de variabilité expliquée est satisfaisant.
Le but de la régression est double : d’une part il s’agit de résumer le lien qui existe entre
deux variables, et d’autre part il s’agit de prédire quelle valeur prendrait y pour un x qui n’a
pas été observé. Notons que c’est l’aspect le plus délicat de la régression, c.-à-d. la
prédiction en dehors des valeurs observées de x, car rien ne nous assure que la tendance
linéaire observée se poursuit partout.
Eric Crettaz
- 45 -
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
Il y a des hypothèses techniques à respecter :
- Les résidus ei ~ N(0, σ 2 )
- l’hypothèse de l’homoscédasticité, c’est-à-dire que Var( ε )= σ 2
résidus
xx x
x
xx
xx x x x
xxx
xxxx
xxxx
xx x
x xx x
xxx
xx
xxx
Valeurs
prédites
- en plus il faut vérifier que les termes d’erreur sont indépendants E( ε i ε j )=0, pour i ≠ j
résidus
xx x
x
xx
xx x x x
xxx
xxxx
xxxx
xx x
x xx x
xxx
xx
xxx
i
Donnons un exemple :
Expliquer l’espérance de vie par le taux de mortalité infantile en Amérique latine, centrale et
dans les Caraïbes :
Eric Crettaz
- 46 -
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
80
70
ESP_VIE
60
50
0
1
2
3
4
5
6
7
8
MORT_ENF
Calculons la droite de régression :
Espérance_vie = 78.002 – 2,514*mortalité_infantile
Vérifions certaines hypothèses techniques :
normalité
Diagramme Q-Q des résidus
1,0
Probabilité observée théorique
,8
,5
,3
0,0
0,0
,3
,5
,8
1,0
Probabilité cumulée observée
Cela n’a pas l’air trop s’éloigner de la droite, donc on peut partir du principe que c’est en
ordre.
Eric Crettaz
- 47 -
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
homoscédasticité :
Nuage de points
Variable dépendante : ESP_VIE
2
Régression Résidu studentisé
1
0
-1
-2
-3
50
60
70
80
ESP_VIE
Il n’y a pas un lien très évident entre les résidus et la prédiction, il y a une « bande » autour
de 0, cette hypothèse technique semble être respectée.
Indépendance des résidus :
On peut faire un diagramme de dispersion des couples de résidus ( ei , ei +1 ), ou des couples
( ei , i ).
On peut également calculer la statistique de Durbin-Watson = 2.482 dans notre cas, ce n’est
pas trop mal.
n
La statistique de ce test (D) est la suivante
∑
i =2
(ei − ei −1 ) 2
n
∑e
j =1
2
j
et l’hypothèse d’indépendance n’est pas rejettée si D ≈ 2 .
Partons donc du principe que les hypothèses techniques sont vérifiées. En réalité, on
pourrait être plus rigoureux (il existe des tests pour la normalité et l’homoscédasticité).
La droite de régression, rappelons-le, peut donc s’écrire :
Espérance_vie = 78.002 – 2,514*mortalité_infantile
Avec R2 = 0.803, donc environ 80% de la variance est expliquée par ce modèle.
Eric Crettaz
- 48 -
Faculté des sciences économiques et sociales / Département des sciences de la société
Statistiques pour les sciences sociales / semestre d’hiver 2005-2006
12.3. Régressions quasi-linéaires
Lorsque les paramètres de régression sont sous forme linéaire et les variables explicatives
sous forme non-linéaire, le modèle est globalement linéaire. Parfois on parle de régressions
quasi-linéaires.
Quelques exemples :
Y= a0
+ a1 ⋅ ln( X ) + a 2 X 2 + ε est linéaire, mais pas Y= a0 + X a1 + X a2 + ε .
En d’autres termes on peut avoir une fonction curvilinéaire de la variable indépendante dans
l’équation et considérer que le modèle est globalement linéaire.
Des variables peuvent avoir des liens non linéaires entre elles, comme dans les exemples cidessous :
En partant du graphique en haut à gauche, et en allant dans le sens des aiguilles d’une
montre, les courbes de régression pourraient avoir une formule de type :
Y = a + bx + cx2 (quadratique)
Y = a + b ln(x)
(logarithmique)
Y = ab1/x
Y = a +bx+cx2+dx3
Eric Crettaz
- 49 -
Téléchargement