ELE MET-DON 8162

publicité
Méthodologie de l’observation
Partie B
Statistiques
Cours 4
Recherche de description
• Rappel = décrire les caractéristiques (les distributions)
d’une ou plusieurs variables mesurées sur un échantillon
ou une population.
• 2 caractéristiques à dégager :
– les indices de tendance centrale des données
– les indices de dispersion
• Présentation des informations et données
– les transformations possibles et nécessaires des
données
– les représentations graphiques des résultats
L’indice de tendance centrale
• = indique la caractéristique la plus représentative de
tous les individus du groupe en la ramenant à un individu
type qui se situerait au « centre » de la distribution
• Il rend possible la comparaison entre des groupes
d’individus différents sur base de la mesure d’une même
variable
• Ex : les éléphants d’Afrique ont « en moyenne » une
masse supérieure à celle des éléphants d’Asie
L’indice de dispersion
• = exprime l’étendue de la variabilité des observations
• Les données peuvent être concentrées autour de la
tendance centrale ou au contraire très dispersées
Exemple :
• un groupe d’élèves (classe A) avec une moyenne de
10/20 mais dont les résultats en fin d’année s’étendent
de 5/20 à 18/20
• un groupe d’élèves (classe B) avec une moyenne de
10/20 mais dont les cotes s’établiraient de 9/20 à 14/20
 La classe A a un indice de dispersion supérieur à la
classe B
Les indices de tendance centrale
• Echelle nominale  le mode
• Echelle ordinale  la médiane
• Echelle intervalle  la moyenne
Pour les échelles nominales : le mode
• Le mode (Mo) = la modalité de la variable nominale dont
la fréquence (absolue et relative) est la plus élevée
– 2 modes  distribution bimodale
– 3 modes  distribution trimodale
Exemple : tableau des fréquences
pour la variable « type d’étude »
Modalités
Fréquenc
es (fi)
Pourcenta
ges (Pi)
Le mode de la variable « type
d’étude » est la modalité
« médecine »
économie
médecine
droit
philo
40
80
30
50
20
40
15
25
Total
200
100
Pour les échelles ordinales : la médiane
• La médiane (Md) = la valeur qui divise exactement en
deux la distribution de l’échantillon, de manière qu’il y ait
50% des observations qui la précèdent et 50% qui la
suivent (les catégories ou les scores étant rangés au
préalable).
• Remarque: Le mode (Mo) peut également être utilisé
pour résumer une distribution constituée de catégories
ordonnées . Il définit la modalité qui recueille la plus
haute fréquence.
Calcul du médian
• Il faut commencer par classer les modalités par ordre
croissant !!
• Si n est pair, le rang médian tombe à mi-chemin entre
les deux résultats centraux. On choisit de considérer
comme médian, celui qui est immédiatement au-dessus
Md = (N/2) +1
• Si n est impair, la médiane est exactement l’observation
du milieu :
Md = (N+1) /2
Exemple
• On examine, sur base d’un échantillon de 20 étudiants,
quel serait leur degré de motivation à suivre une session
de formation : 1= très peu motivé , 2 = peu motivé , 3 =
motivé , 4 = très motivé
N = 20 = pair
 N/2 +1 = 11
l’observation à prendre en
considération est la 11ème.
la modalité médiane = la
catégorie 2 (peu motivé)
Modalités Effectifs
(fi)
Effectifs
cumulés
1
2
3
4
4
8
6
2
4
12
18
Total
20
20
Exemple
Scores
• On classe un échantillon
de 15 élèves en fonction
d’un score (sur 200
points) obtenu à un test
• N = 15 = impair
•  (N+1) /2 = 8
•  l’observation qui nous
intéresse est la 8ème
• La valeur de ce 8ème
rang est de 170
•  La médiane = 170
Effectifs
(fi)
effectifs
1
2
3
4
6
7
8
11
12
14
185
1
1
1
1
2
1
1
3
1
2
1
Total
15
156
160
162
166
167
169
170
175
177
182
cumulés
15
Pour les échelles d’intervalle : la moyenne
• La Moyenne est l’indice le plus fréquemment utilisé
dans le cas des échelles d’intervalle.
• Pour calculer la moyenne, il suffit d’additionner tous les
résultats et de diviser cette somme par l’effectif :
m = (Somme Xi/n)
• Remarque:
– Le mode peut également être utilisé
– La médiane = la valeur de la variable telle qu’il existe autant de
mesures qui lui soient inférieures que de mesures qui lui soient
supérieures
Exemple
• On a relevé la taille
exprimée en cm de 30
individus adultes
• µ = 5198 / 30
 La moyenne = 173.27 cm
• La médiane = 175 cm
• Le mode = la modalité
175 cm
Tailles
Effectifs
effectifs c.
158
160
162
164
168
170
172
175
179
180
183
185
188
189
2
1
3
1
4
1
3
5
2
2
1
1
3
1
2
3
6
7
11
12
15
20
22
24
25
26
29
30
Total
30
Remarques
La moyenne est très fort influencée par les extrêmes
Ex : Calculer le salaire moyen de 5 joueurs de foot
• 4 joueurs gagnent 100.000 Euros par année, le 5ème
joueur gagne 1.000.000 par année.
• Le salaire moyen = 280.000 Euros
•  Dans ce cas, la moyenne ne reflète pas
nécessairement bien toute la réalité
• La médiane permettra alors de synthétiser ces données
sous un autre angle
Remarques
• Le mode est facilement repérable et interprétable.
Cependant, il ne tient pas compte de toutes les données
et ne se prête pas au traitement arithmétique
• La médiane est facilement interprétable et aisée à
déterminer mais elle ne se prête pas aux traitements
arithmétiques
• La moyenne est facilement interprétable, aisée à
calculer et se prête bien aux traitements arithmétiques
Les indices de dispersion
• Les indices de dispersion nous fournissent une
information sur la façon dont les données sont
distribuées autour de la tendance centrale
• Deux séries statistiques peuvent avoir une même
moyenne mais présenter un étalement différent autour
de cette valeur moyenne
Les indices de dispersion
• Echelle nominale  (l’entropie)
• Echelle ordinale  l’espace interquartile
• Echelle intervalle  l’écart-type
Pour les échelles nominales
• S’il existe un indice de dispersion approprié à une
échelle nominale (l’entropie), dans la pratique, il est
rarement calculé et utilisé
• Une distribution d’une variable caractérisée par des
effectifs égaux dans toutes les classes sera considérée
comme peu homogène, fort dispersée
• Une distribution où une des modalités reçoit tout l’effectif
de l’échantillon sera définie comme très homogène, non
dispersée
Pour les échelles ordinales
• L’espace interquartile = comprend 50% des
observations, celles qui sont les plus centrales

espace interquartile

I----------------I--------------------I---------------------I----------------------I
0
25%
50%
75%
100%
• = l’espace compris entre les quartiles 1 et 3
• Q1 = la valeur en dessous de laquelle se trouvent 25%
des observations inférieurs
• Q3 = la valeur en dessous de laquelle se trouvent 75%
des observations inférieures
Calcul de l’espace interquartile
• Le rang de Q1  on calcule N/4, puis on cherche dans l’effectif
cumulé à quelle modalité ce rang appartient
• Le rang de Q3  on calcule (N/4) x 3, puis on cherche dans l’effectif
cumulé à quelle modalité ce rang appartient
• Espace interquartile = Q3-Q1
Exemple:
Le rang de Q1 est : n/4 = 20/4 =
5  modalité 2
Le rang de Q3 est 3*n/4 = 3*20/4
= 15  modalité 3
L’espace interquartile = Q3-Q1 =
3-2=1
Modalités
Effectifs
(fi)
effectif
cumulé
1
2
3
4
4
8
6
2
4
12
18
Total
20
20
Autre exemple
Scores
Le rang de Q1 = 3.75 = rang 4
Le rang 4 correspond à un score de
166
Le rang de Q3 = 11.25 = rang 11
Le rang 4 correspond à un score de
175
Q3-Q1 = 175-166 = 9
 c’est sur l’espace de 9 intervalles
que se répartissent les 50%
d’observations les plus centrales
Effectifs
(fi)
effectifs
1
2
3
4
6
7
8
11
12
14
185
1
1
1
1
2
1
1
3
1
2
1
Total
15
156
160
162
166
167
169
170
175
177
182
cumulés
15
Pour les échelles d’intervalle
• L’écart-type est l’indice de dispersion qui,
correspondant à la moyenne, est le plus utilisé pour les
échelles d’intervalle
• L’écart-type nous donne un indice de la dispersion des
observations
• Il correspond à la racine carrée de la variance.
• La variance = la moyenne arithmétique des carrés des
écarts à la moyenne
 =  (  (xi – m)² / n – 1 )
L’écart-type
• Il sert à caractériser l’écart plus ou moins grand de
l’ensemble des valeurs par rapport à la valeur moyenne
– Si la dispersion est faible, cela signifie que les
résultats sont groupés autour de la moyenne.
– Si la dispersion est forte, cela signifie que les
résultats sont fort dispersés autour de la moyenne.
• Remarque : l’écart-type est différent de l’étendue.
L’étendue est la différence entre la plus grande et la plus
petite de s valeurs observées
Exemple
• Imaginons que deux professeurs procèdent à la
correction de 5 copies
• La moyenne des deux professeurs est la même : 11/20
• Pourtant les 2 profs ont coté de manière différente :
– les notes du prof A se situent entre 6 et 16
– les notes du prof B se situent entre 3 et 19.
L’écart type des notes pour le
prof A = 3.81
L’écart-type des notes pour le
prof B = 6.20
Elèves
B
C
D
E
Prof A 9
11
9
16
Prof B 8
10
3
A
13
15
19
Exemple
Moyenne
Médiane
Ecart-type
Ensemble 1 : 20, 20, 20
20
20
0
Ensemble 2 : 10, 20, 30
20
20
8.16
Ensemble 3 : 1, 2, 39
20
20
15.51
Dans les trois cas, la moyenne est égale à 20, ainsi que la
valeur de la médiane. On ne saurait pour autant conclure
que les trois ensemble sont identiques.
 la variabilité des données est plus grande dans
l’ensemble 3 que dans l’ensemble 2 et 1
Les Transformations de données
Pour les échelles nominales
• la transformation de fréquence absolue en
fréquence relative (%)
• le pourcentage = (fréquence / n) *100
Modalités
Fréquence
absolue
Fréquence
relative (%)
A
B
C
D
50
40
30
80
25
20
15
40
Total
200
100
Les Transformations de données
Pour les échelles ordinales
• Pour comparer plusieurs variables ordinales observées
sur un même échantillon, on peut déterminer, pour
chacune de ces variables, les déciles ou les centiles
• Le premier décile (D1) = la valeur correspondant à
l’observation telle que 10% des observations soient
inférieurs et 90% des observations supérieures
Rang de D1 = (n*1)/10
• Les centiles sont obtenus en divisant l’effectif par 100 et
en le multipliant par le nombre correspondant au centile
voulu :
Rang du C35=(n*35)/100
Les Transformations de données
Pour les échelles d’intervalle
• Pour comparer deux distributions obtenues sur des
échelles d’intervalle d’un même échantillon, on
transforme les données de chaque distribution en
scores centrés réduits.
• Cette transformation consiste essentiellement à exprimer
les données dans un système de mesure standard,
correspondant à la courbe normale réduite, symbolisé
par Z
Zi = (Xi – m) / σ
Caractéristiques de la distribution
normale réduite
•
•
•
•
mode = médiane = moyenne = 0
l’écart-type vaut toujours 1 (σ =1)
la distribution est symétrique par rapport à la moyenne
On peut considérer que:
– 68% des sujets ont un score compris entre –1 σ et +1
σ
– 95% ont un score compris entre –2 σ et +2 σ
– 99,8 % ont un score compris entre –3 σ et +3 σ
Caractéristiques de la distribution
normale réduite
• graphique de cette courbe : courbe de Gauss
–3 σ
–2 σ
–1 σ
µ
1σ
2σ
–3 σ
Les représentations graphiques
• le graphique à barres (histogramme)
–  pour les échelles nominales, ordinales et d’intervalle
• le diagramme circulaire (pie, tarte)
–  pour les échelles nominales et ordinales
• la ligne brisée des fréquences
–  pour les échelles ordinales et d’intervalle
Graphique à barres
Graphique à barres
50
Pourcentages
40
30
20
10
0
A
B
C
Modalités
D
Diagramme circulaire
Diagramme circulaire
25%
20%
A
B
C
D
15%
40%
La ligne brisée des fréquences
La ligne brisée des fréquences
10
Effectif
8
6
4
2
0
1
2
3
Motivation
4
Tableau de synthèse
Indice de
tendance
centrale
Nominale
Ordinale
Intervalle
mode
médiane
moyenne
Espace
interquartile
Écart-type
Indice de
dispersion
Transformation
de données
%
Déciles, centiles Scores centrés
réduits
Graphiques
Histogramme,
tarte
Histogramme,
tarte, ligne
Histogramme,
tarte, ligne
Techniques spécifiques
• Quelques techniques souvent utilisées en statistiques
descriptives …
• Uniquement dans le cas des échelles d’intervalle !
•
•
•
•
Les taux de croissance
Les indices
Les tableaux et figures
Les transformations de données
Les taux de croissance
•  permet d’étudier l’évolution
ou la variation d’un
phénomène dans le temps
• Ex: le nombre d’étudiants à
l’université
 Calcul de l’écart relatif =
(valeur d’arrivée – valeur de
départ) / valeur de départ
=0.221
 Calcul du taux de croissance
= l’écart relatif *100
= 22%
Année
scolaire
Nombre
d’étudiants
1990-91
1991-92
1992-93
1993-94
1994-95
1995-96
1996-97
1997-98
1.182.784
1.237.616
…
1.469.423
1.444.038
Les indices
• Il est fréquent d’utiliser l’indice en base 100.
• Celui-ci est obtenu en multipliant par 100 la valeur
d’arrivée divisée par la valeur de départ
• Indice en base 100 =
(valeur d’arrivée / valeur de départ )*100
• Dans notre exemple: l’indice en base 100
= (1.444.038 / 1.182.784) *100 = 122
Les tableaux et figures
Pour les tableaux, figures, etc.:
• Une légende permet de préciser les différentes variables
et leurs modalités respectives
• En dessous, indiquer les sources des données
recueillies (ONSS, FOREM, …)
• Préciser les caractéristiques essentielles de la
population concernée
• Un titre clair
Les transformations de données
1) proportion et pourcentage
• Ex: dans un échantillon, le nombre d’hommes = 20
•  en valeur relative, les hommes représentent donc 2/5
de l’échantillon (20/50)
•  soit 40%
2) Taux, parts, coefficients
• = proportions sous d’autres noms
• Ex: taux de scolarité
3) Les rapports à une donnée extérieure
• on rapport la partie à une donnée extérieure
• Ex: ratio financier, densité de population, rendement
Téléchargement