STATISTIQUES DESCRIPTIVES Plan du cours : — Généralités

publicité
STATISTIQUES
DESCRIPTIVES
Plan du cours :
— Généralités
— Variables qualitatives
— Variables quantitatives
Discrètes
Continues



Représentation,

 Caractéristiques
— Distributions bivariées
Chapitre 1
Généralités
1. Introduction
2. Type de variable
1
Introduction
Le terme Statistique englobe un ensemble de méthodes
scientifiques basées sur des données (numériques ou non)
recueillies sur une population pour décrire et analyser cette
population.
Vocabulaire
—
—
—
—
Population : ensemble d’objets de même nature.
Individu : élément de cette population.
Effectif total N : nombre d’individus de la population.
Variable ou Caractère X : caractéristique étudiée sur la
population, recueillie pour chaque individu.
Postulat : On suppose que la variable est soumise à une
grande variabilité due à de nombreux facteurs inconnus ou
au hasard.
Exemple :
— Population : Étudiants de première année de licence Sciences Humaines de Paris X.
— Individu : Un étudiant de première année de licence Sciences Humaines de Paris X.
— Variables :
Série du baccalauréat
Age
Nombre de frères et soeurs
Note en psycho au premier semestre
Durée du trajet domicile-université
.....
Statistique Descriptive : ensemble de méthodes basées sur
l’organisation des données pour représenter graphiquement
et résumer numériquement les données dans le but de décrire
et d’analyser la population.
→ Représentations graphiques
→ Résumés numériques (si possible) : on synthétise les
données par des paramètres numériques pour décrire la
population, et éventuellement comparer celle-ci avec une
autre population.
2
Type de variable
On distingue les variables selon qu’elles prennent des valeurs
numériques ou non. On dit qu’une variable est
— qualitative si ses valeurs sont des catégories qu’on appelera “modalités”
- nominale ou catégorielle, s’il n’existe aucune relation
entre les modalités prises par la variable
- ordinale, s’il existe une relation d’ordre entre les modalités
prises par la variable
— quantitative si elle prend des valeurs numériques
- discrète lorsqu’elle prend un nombre fini de valeurs
(souvent entières).
- continue lorsqu’elle prend des valeurs réelles.
qualitative
nominale ordinale
quantitative
discrète continue
Exemples
— Série du baccalauréat : L
ES
variable qualitative nominale
S
etc...
— Jugement qualitatif : variable qualitative ordinale
— Age : variable quantitative continue. L’âge d’une personne est un nombre réel
(souvent, on exprime l’âge d’une personne par un nombre
entier par convention)
— Nombre de frères et soeurs : variable quantitative discrète.
— Durée du trajet domicile-université : variable quantitative
continue.
— Note en psycho au premier semestre : variable quantitative,
continue ou discrète ? Cela dépend du mode de notation !
Autres Exemples
Variable qualitative nominale : sexe, pays, CSP,...
Variable qualitative ordinale : “Aimez-vous les stats ?”
Réponses : “Pas du tout”, “Un peu”, “Beaucoup”
(Attention à la modalité “Non réponse”)
Variable quantitative discrète : nombre de personnes dans
le ménage, nombre de pièces du logement, score à un test...
Variable quantitative continue : surface du logement, taille,
poids, ...
Fréquemment on assimile des variables discrètes qui prennent un très grand nombre de valeurs à des variables continues ; par exemple score à un test, salaire, revenu, production...
Chapitre 2
Variables Qualitatives
La variable qualitative découpe une population en catégories.
Les traitements statistiques possibles sur une variable qualitative sont les calculs de proportions et la représentation
graphique des données.
1. Organisation des données
2. Représentations graphiques
3. Mode
1
Organisation des données
Exemple
On a demandé aux élèves d’une classe de terminale composée de dix élèves quelle est leur chaı̂ne de télévision
préférée.
Population : classe de terminale.
Effectif total N = 10
Individu : un élève de la classe.
Variable : chaı̂ne de TV préférée.
Modalités : TF1, F2, F3, C+, M6.
C’est une variable qualitative nominale.
Données individuelles :
TF1 ; C+ ; TF1 ; M6 ; F2 ; M6 ; F2 ; TF1 ; F2 ; TF1
Tableau de distribution des effectifs
Chaı̂ne TV
Effectifs ni
TF1 F2 F3 C+ M6
4
3
0
1
2
— On recense les k différentes modalités A1, A2, ..., Ak
prises par la variable.
— Pour chaque modalité, on compte le nombre d’individus
pour lesquels la variable prend cette modalité. On appelle
ce nombre effectif de la modalité et on note ni l’effectif
de la i−ème modalité Ai.
— On regroupe dans un tableau les différentes modalités et
leurs effectifs respectifs.
Modalité Ai
Effectif ni
A1
n1
A2
n2
A3
n3
... Ak
... nk
Remarques
La somme des effectifs des différentes modalités doit être
égale à l’effectif total.
k
P
i=1
ni = n1 + n2 + ... + nk = N
Le tableau de distribution des effectifs contient autant
d’information que les données individuelles.
Souvent, plutôt que de considérer le nombre d’individus
pour lesquels la variable prend une modalité donnée, on
préfère considérer le pourcentage d’individus, appelé proportion ou fréquence pour lesquels la variable prend cette
modalité.
effectif de la modalité
proportion d’une modalité =
effectif total
On note pi la proportion de la i−ème modalité.
n
pi = i
N
On note aussi
ni
P (X = Ai) = pi =
N
Une proportion est soit exprimée en pourcentage (par exemple 20%) soit par un nombre compris entre 0 et 1 (par
exemple 0,2).
Règle : 0,2 = 20%
0,45=45%
0,005=0,5%
Exemple : Quelle est votre chaı̂ne de télévision préférée ?
Tableau de distribution des effectifs :
Chaı̂ne TV Ai
Effectifs ni
TF1 F2 F3 C+ M6
Total
4
3
0
1
2 N = 10
Tableau de distribution des proportions
Modalité Ai
TF1 F2 F3 C+ M6
Proportion pi 0,4 0,3 0 0,1 0,2
Effectif total N = 10
4 = 0, 4
P (X = T F 1) = 10
P (X = F 3) = 0
Remarques :
- La somme des proportions est égale à 1 ou 100%.
k
X
pi = p1 + p2 + ... + pk = 1
i=1
- Il faut indiquer l’effectif total pour avoir l’équivalence avec
le tableau des effectifs.
Réciproquement, supposons qu’on dispose du tableau de
distribution des proportions et qu’on connaisse l’effectif total, on peut alors déterminer le tableau de distribution des
effectifs en calculant pour chaque modalité son effectif par
effectif = proportion × effectif total
ni = pi × N
Exemple : Dans une autre classe de terminale composée de
20 élèves, on a étudié la même variable chaı̂ne de télévision
préférée et on dispose du tableau de distribution des proportions suivant :
Chaı̂ne TV Ai TF1 F2 F3 C+ M6 Total
Proportions pi 0,3 0,1 0,1 0,2 0,3
1
Effectif total N = 20
On obtient le tableau de distribution des effectifs :
Chaı̂ne TV Ai
Effectifs ni
TF1 F2 F3 C+ M6
Total
6
2
2
4
6 N = 20
2
Représentations graphiques
Pour représenter une variable qualitative, on peut utiliser
un graphique appelé diagramme en tuyaux d’orgue. Le
principe de ce graphique consiste à dessiner pour chaque
modalité de la variable un rectangle de hauteur égale à
l’effectif de cette modalité ou à sa proportion.
Exemple
Chaı̂ne TV Ai
Effectifs ni
TF1 F2 F3 C+ M6
Total
4
3
0
1
2 N = 10
Effectifs
4
3
2
1
Chaine TV
TF1
F2
F3
C+
M6
Chaı̂nes de télévision préférées pour 10 élèves de terminale
Chaı̂ne TV
TF1 F2 F3 C+ M6 Total
Proportions pi 0,4 0,3 0 0,1 0,2
1
Effectif total N =10
Proportions
0,4
0,3
0,2
0,1
Chaine TV
TF1
F2
F3
C+
M6
Chaı̂nes de télévision préférées pour 10 élèves de terminale
Si on veut comparer deux distributions de la même variable
dans deux populations différentes, on choisit de représenter
les distributions de proportions.
Autre représentation graphique usuelle :
le diagramme en secteurs
Chaı̂nes de télévision préférées pour 10 élèves d’une classe
terminale
M6
20%
C+
10%
F3
0%
M6
20%
TF1
40%
TF1
40%
C+
10%
F2
30%
F3
0%
F2
30%
3
Mode
On appelle mode d’une variable qualitative la ou les modalité(
ayant le plus grand effectif ou la plus grande proportion.
Remarque : le mode correspond aussi à la ou aux modalité(s)
ayant la plus grande hauteur dans la représentation graphique
de la variable en tuyaux d’orgue.
Exemple : le mode de la variable chaı̂ne de télévision préférée
est : TF1
car l’effectif de TF1 (= 4) est le plus grand des effectifs,
ou car la proportion de TF1 (= 0,4) est la plus élevée des
proportions.
Chapitre 3
Variables Quantitatives discrètes
1. Organisation des données
2. Représentation graphique
3. Principaux paramètres de position
4. Principaux paramètres de dispersion
1
Organisation des données
Les valeurs x1, x2, ..., xk d’une variable quantitative discrète
sont le plus souvent des nombres entiers.
Exemple :
On a recensé le nombre d’enfants de ménages d’une commune C et obtenu le tableau de distribution des effectifs
suivant :
Nombre d’enfants xi
Effectifs ni
0
175
1
250
2
425
3
150
Total
N =1000
- population = ménages de la commune
- individu = un ménage.
- effectif total N = 175 + 250 + 425 + 150 = 1000
- variable = nombre d’enfants.
- valeurs de la variable : x1 = 0, x2 = 1, x3 = 2, x4 = 3.
Comme pour les variables qualitatives, on peut considérer
de manière équivalente le tableau de distribution des proportions :
Tableau de distribution des proportions
Nombre d’enfants xi
0
1
2
3
Total
Pourcentage pi
17,5% 25% 42,5% 15% 100%
Effectif total N = 1000
2
Représentation graphique
Pour représenter une variable quantitative discrète, on peut
utiliser un graphique appelé diagramme en bâtons.
Le principe de ce graphique consiste à dessiner pour chaque
valeur de la variable un trait de hauteur l’effectif de cette
valeur ou la proportion de cette valeur.
Si on veut comparer les distributions de la même variable
dans deux populations différentes, on choisit de représenter
les distributions des proportions.
Tableau de distribution des proportions
Nombre d’enfants xi
0
1
2
3
Total
Pourcentage pi
17,5% 25% 42,5% 15% 100%
Effectif total N = 1000
Distribution du nombre d’enfants des ménages de la
commune C (N = 1000)
Proportions
0,5
0,4
0,3
0,2
0,1
0
1
2
3
Nombre d'enfants
Tableau de distribution des effectifs
Nombre d’enfants xi
Effectifs ni
0
175
1
250
2
425
3
150
Total
N =1000
Distribution du nombre d’enfants des ménages de la
commune C (N = 1000)
Effectifs
500
400
300
200
100
0
1
2
3
Nombre d'enfants
3
Principaux paramètres de position
Principaux paramètres de position ou de tendance centrale : le mode, la moyenne et la médiane.
3.1
Le mode
On appelle mode d’une variable quantitative discrète la ou
les valeur(s) ayant le plus grand effectif ou la plus grande
proportion.
Remarque : le mode correspond aussi à la ou aux valeur(s)
ayant la plus grande hauteur dans la représentation graphique
de la variable.
Exemple : mode de la variable “nombre d’enfants” = “2”
car la proportion de “2” (= 42,5%) est la plus élevée,
ou bien car l’effectif de “2” (= 425) est le plus élevé.
3.2
La Moyenne
La moyenne est un résumé numérique et correspond au
centre de gravité de la distribution. Elle est exprimée dans
la même unité que la variable. On la note µ.
La moyenne se calcule
— à partir des données individuelles x(1), x(2), ...x(N) par :
P
données
x(1) + x(2) + ... + x(N)
µ=
=
effectif total
N
— à partir du tableau de distribution des effectifs par :
µ =
P
(valeur × effectif de la valeur)
effectif total
k
P
µ = i=1
=
(xi × ni)
N
(x1 × n1) + (x2 × n2) + .. + (xk × nk )
N
— à partir du tableau de distribution des proportions par :
µ =
µ =
P
(valeur × proportion de la valeur)
k
P
(xi × pi)
i=1
= (x1 × p1) + (x2 × p2) + .. + (xk × pk )
Exemple :
Tableau de distribution des effectifs
Nombre d’enfants xi
Effectifs ni
moyenne µ
=
=
0
175
1
250
2
425
3
150
Total
N =1000
(0×175)+(1×250)+(2×425)+(3×150)
1000
1550
=1,55
1000
Le nombre moyen d’enfants par ménage 1,55.
Remarque : la moyenne n’est pas en général un nombre
entier.
Tableau de distribution des proportions
Nombre d’enfants xi
Pourcentage pi
0
17,5%
1
25%
2
42,5%
3
15%
Total
100%
Effectif total N = 1000
µ = (0 × 0, 175) + (1 × 0, 25) + (2 × 0, 425)
+(3 × 0, 15)
= 1, 55
Remarque : en théorie, le calcul de la moyenne à partir
des effectifs ou des proportions donne le même résultat.
On observe parfois en pratique des petites variations dues
aux arrondis dans les calculs préalables des proportions (par
exemple 13 arrondi à 0,333). Il est préférable en général de
mener le calcul à partir de la distribution des effectifs.
Moyenne sur une population obtenue par regroupement
de deux populations
Exemple : Sur une première commune C1, on recense 1000
ménages, le nombre moyen d’enfants est µ1(C1) = 1,55.
Sur une seconde commune C2 où il y a 5000 ménages, le
nombre moyen d’enfants est µ2(C2) = 2,30.
On souhaite alors calculer le nombre moyen d’enfants des
ménages habitant les deux communes (réunies) :
moyenne µ(C1∪C2)
[µ1(C1) × Effectif(C1)] + [µ2(C2) × Effectif(C2)]
=
Effectif total(C1 ∪ C2)
=
(1, 55 × 1000) + (2, 30 × 5000)
1000 + 5000
13050
=
= 2, 175
6000
Le nombre moyen d’enfants sur les deux communes est de
2,175.
Intérêt de la moyenne
- Facile à calculer et à interpréter
- Dépend de toutes les observations
- Il est plus facile de comparer plusieurs populations en
considérant la moyenne et non toutes les données
Limites de la moyenne
- La moyenne est très sensible aux valeurs extrêmes et donc
aux erreurs de mesure ou aux valeurs “aberrantes”.
Supposons qu’on rajoute cinq ménages de 10 enfants la
commune C. La moyenne de la variable “nombre d’enfants”
devient
µ2 =
1550+ (10×5)
= 1,59
1005
La nouvelle moyenne est supérieure de 2,6% à 1,55 alors
que le nombre de ménages a augmenté de 0, 5%
- La moyenne ne caractérise pas suffisamment une distribution statistique :
Supposons que sur une autre commune, on ait obtenu la
répartition suivante :
Nombre d’enfants xi
0
1
2
3
Total
Proportions pi
0,45 0,05 0 0,50
1
Effectif total N=3400
µ = (0×0,45) + (1×0,05) + (2×0) + (3×0,5) = 1,55
On obtient la même moyenne que pour la distribution
précédente.
Cette non représentativité de la moyenne implique le calcul
d’autres paramètres statistiques complémentaires.
3.3
La médiane
La médiane est la valeur qui partage les données en deux
parties : 50% des observations sont inférieures à la médiane
et 50% lui sont supérieures.
Détermination de la médiane avec les effectifs
1. On classe les données dans l’ordre croissant.
2. Si le nombre d’observations N est impair, on note x( N+1
2 )
l’observation numéro N+1
2 . La médiane est exactement la
valeur x( N+1
2 )
Exemple : X : Nombre
Nombre d’enfants xi
Effectifs ni
Effectifs cumulés Ni
d’enfants par ménage.
0 1 2
3
4
Total
3 6 5
3
2 N = 19
3 9 14 17 19
x( 19+1
2 ) = x(10) = 2. La médiane est “2”.
Il y a 9 observations inférieures ou égales à 2 et 9 observations supérieures ou égales à 2.
N et
3. Si N est pair. On note x( N
)
l’observation
numéro
2
2
N
N
x( 2 + 1) la ( 2 + 1)ème observation.
Alors la médiane est n’importe quelle valeur comprise dans
N + 1)].
);
x(
l’intervalle médian [x( N
2
2
Par convention, on prend le milieu de cet intervalle.
Exemple : Nombre d’enfants
Nombre d’enfants xi
Effectifs ni
Effectifs cumulés Ni
0 1 2
3
4
Total
4 5 4
1
0 N = 14
4 9 13 14 14
L’effectif total est N =14. L’observation numéro 14
2 = 7
prend la valeur “1”. L’observation numéro 14
2 +1 = 8 prend
aussi la valeur “1”. Dans ce cas, la médiane est “1”.
Exemple : Nombre d’enfants
Nombre d’enfants xi
Effectifs ni
Effectifs cumulés Ni
0 1 2
3
4
Total
5 2 5
1
1 N = 14
5 7 12 13 14
L’effectif total est 14.
x( N
2 ) = x(7) = 1.
x( N
2 + 1) = x(8) = 2.
L’intervalle médian est [1 ; 2] et la médiane est “1,5”.
Remarque : dans ce dernier exemple, la médiane n’est pas
un nombre entier.
Exemple du cours :
Nombre d’enfants xi
Effectifs ni
Effectifs cumulés Ni
La médiane est 2.
0
175
175
1
250
425
2
425
850
3
150
1000
Total
N =1000
4
Principaux paramètres de dispersion
L’étendue et l’écart-type (dispersion par rapport à la moyenne
4.1
L’étendue
On appelle étendue la différence entre la plus grande valeur
et la plus petite valeur prise par la variable.
Exemple :
Nombre d’enfants
0
1
2
3
Effectifs ni
175 250 425 150
L’étendue vaut 3 − 0 = 3.
4.2
L’écart-type
L’écart-type mesure la dispersion des données autour de la
moyenne.
P
Variance =
(valeur-moyenne)2
effectif total
La variance est notée σ 2 ; elle est exprimée dans l’unité au
carré de la variable.
σ2
N
P
= i=1
(x(i) − µ)2
N
(x(1) − µ)2 + (x(2) − µ)2 + .. + (x(N) − µ)2
=
N
L’écart-type est exprimé dans la même unité que la variable.
On le note σ.
√
Ecart-type = Variance
√
σ = σ2
µ
µ
Population 1
Population 2
Population 3
µ
Plus l’écart-type est petit, plus les données individuelles
sont regroupées autour de la moyenne.
Plus il est grand, plus les données individuelles sont dispersées autour de la moyenne.
4.2.1
Calcul de l’écart type à partir des données individuelles
Exemple : On recense le nombre d’enfants de 5 ménages.
Données x(i) : 1 ; 2 ; 4 ; 3 ; 2
- On commence par calculer la moyenne : ici elle vaut
1+2+4+3+2
µ=
= 2, 4
5
- Puis la variance σ 2
=
(1−2,4)2+(2−2,4)2+(4−2,4)2+(3−2,4)2+(2−2,4)2
5
= ...??
Formule pratique de calcul de la variance
On montre que l’on peut encore écrire la variance sous la
forme :
P
(valeur)2
Variance =
− moyenne2
effectif total
N
P
σ 2 = i=1
x(i)2
N
x(1)2 + x(2)2 + ... + x(N)2
2
−µ =
− µ2
N
Le calcul est alors beaucoup plus rapide et offre moins de
risques d’erreurs.
2 + 22 + 42 + 32 + 22
1
σ2 =
− 2, 42
5
σ2 =
34
− 2, 42 = 1, 04
5
√
Puis l’écart-type σ = 1, 04 = 1, 02.
4.2.2
Calcul de l’écart-type à partir de la distribution des
effectifs
Valeurs xi
Effectifs ni
Variance =
σ2
=
x2
n2
... xk
... nk
Total
N
i
2
(valeur-moyenne) × effectif de la valeur
Ph
k h
P
= i=1
x1
n1
effectif total
(xi − µ)2 × ni
N
i
[(x1−µ)2×n1]+[(x2−µ)2×n2]+..+[(xk −µ)2×nk ]
N
Formule pratique de calcul de la variance
Variance =
σ2
Ph
k
P
(valeur)2 × effectif
[xi2 × ni]
= i=1
=
effectif total
N
i
− moyenne2
− µ2
[x12×n1]+[x22×n2]+..+[xk 2×nk ]
N
− µ2
Exemple :
Tableau de distribution des effectifs
Nombre d’enfants xi
Effectifs ni
0
175
1
250
2
425
3
150
Total
N =1000
On a déjà µ = 1, 55
Variance
σ2 =
(0×175)+(1×250)+(4×425)+(9×150)
2
−
1,
55
1000
= 0, 8975
√
Ecart-type = σ = 0, 8975 = 0, 947
4.2.3
Calcul de l’écart-type à partir de la distribution des
proportions
Valeurs xi
Proportions pi
Variance=
σ2
x1
p1
... xk
... pk
x2
p2
Total
1
i
(valeur-moyenne) × proportion de la valeur
Ph
2
=
k h
P
(xi − µ)2 × pi
i=1
h
i
i h
i
2
2
= (x1 − µ) × p1 + (x2 − µ) × p2
h
i
2
+... + (xk − µ) × pk
Formule pratique de calcul de la variance
Variance =
i
2
(valeur) × proportion −moyenne2
Ph
i
k h
P
2
2
σ =
xi × pi − µ2
i=1
h
i h
i
h
i
2
2
2
= x1 × p1 + x2 × p2 + ... + xk × pk − µ2
Exemple :
Tableau de distribution des proportions
Nombre d’enfants xi
Proportions pi
0
1
2
3
0,175
0,25
0,425
0,15
Effectif total N = 1000
µ = 1,55
σ 2 = (0 × 0, 175) + (1 × 0, 25) + (4 × 0, 425)
+(9 × 0, 15) − 1, 552
σ 2 = 0, 8975
√
Ecart-type = σ = 0, 8975 = 0, 947.
Total
1
Remarques
- On a toujours σ 2 ≥ 0 et σ ≥ 0.
Si σ 2 = σ = 0, alors toutes les données sont égales et
égales à la moyenne.
- Si σ 2 > 1, alors σ 2 > σ
(exemple σ 2 = 4 et σ = 2)
Si σ 2 < 1, alors σ 2 < σ
0, 5)
(exemple σ 2 = 0, 25 et σ =
- en théorie, le calcul de l’écart type à partir des effectifs ou
des proportions donne le même résultat. On observe parfois
en pratique des petites variations dues aux arrondis dans
les calculs préalables des proportions. Il est préférable en
général de mener le calcul à partir de la distribution des
effectifs.
Chapitre 4
Variables Quantitatives continues
1. Organisation des données
2. Représentation graphique : histogramme
3. Fonction de répartition
4. Principaux paramètres de tendance centrale : mode,
moyenne, médiane
5. Principaux paramètres de dispersion : étendue, écarttype, quantiles
6. Intervalle de variation
7. Boîte à moustaches
1
Organisation des données
Une variable quantitative continue est à valeurs réelles. Elle
prend un trop grand nombre de valeurs pour qu’on puisse
toutes les recenser.
1. Exemple : On a demandé aux enfants d’une classe
de 10 élèves d’accomplir une certaine tâche TT et on
mesure le temps nécessaire pour effectuer cette tâche,
en secondes.
Données individuelles ordonnées :
6 ; 6 ; 7 ; 10 ; 12 ; 13 ; 20 ; 23 ; 30 ; 36
Plus petite valeur = 6.
Plus grande valeur = 36.
On se donne le découpage en classes ]5,15], ]15,30] et
]30,40 ].
Découpage en classes :
On détermine la plus petite valeur prise amin et la
plus grande valeur prise amax par la variable. Puis on
se donne une série d’intervalles appelés classes de la
forme ]a, b] couvrant l’ensemble des valeurs de la variable :
[amin; amax] ⊂ ]a0; a1]∪]a1; a2]∪]a2; a3] ∪ ...]ak−1; ak ]
On appelle amplitude de la classe ]a, b] la valeur de
la différence b − a.
Exemple : amplitude de ]5,15] = 15 - 5 = 10.
Lors de ce découpage, les classes peuvent être de même
amplitude ou d’amplitudes différentes.
Exemples : trois classes de même amplitude : ]5,20] ;
]20,35] ; ]35,50]
Le principe de base est que les observations sont supposées réparties uniformément au sein de chaque classe.
2. Pour chaque classe ]a, b] on compte le nombre d’individus
pour lesquels la variable prend une valeur strictement
supérieure à a et inférieure ou égale à b. On appelle
ni l’effectif de la i-ème classe.
3. On regroupe dans un tableau les différentes classes et
leurs effectifs respectifs.
Exemple :
Tableau 1 de distribution des effectifs :
Temps
Effectifs ni
]5,15] ]15,30] ]30,40]
Total
6
3
1
N = 10
Tableau 2 de distribution des effectifs :
Temps
Effectifs ni
]5,20] ]20,35] ]35,50]
Total
7
2
1
N = 10
Tableau 3 de distribution des effectifs :
Temps ]5,10] ]10,15] ]15,30] ]30,50]
Total
Effectifs
4
2
3
1
N = 10
Remarques
• La somme des effectifs des différentes classes doit être
égal à l’effectif total. n1 + n2 + .. + nk = N.
• Le tableau de distribution des effectifs contient moins
d’information que les données individuelles.
En effet, connaître l’effectif d’une classe ne renseigne
pas sur la répartition des données individuelles à l’intérieur
de la classe. Celle-ci est supposée uniforme.
• On peut présenter de façon équivalente le tableau de
distribution des proportions :
Tableau 1 de distribution des proportions
Temps
]5,15] ]15,30] ]30,40] Total
Proportions pi
0,6
0,3
0,1
1
Effectif total N =10
2
Représentation graphique
2.1
Densité de proportion
Reprenons l’exemple suivant :
Population : enfants d’une classe
Variable X : temps mis pour accomplir une tâche TT
Tableau de distribution de X:
Temps X
Proportions pi
]5,15] ]15,30] ]30,40]
0,6
0,3
0,1
Lorsqu’on veut représenter une variable quantitative continue, on détermine préalablement les densités de proportion des différentes classes.
La densité de proportion d’une classe ]a, b] est donnée par
proportion de ]a, b]
densité de proportion de ]a, b] =
amplitude de ]a, b]
Exemple : temps pour TT
Effectif total N =10
Temps X
]5;15] ]15;30] ]30;40] Total
Proportion pi
0,6
0,3
0,1
1
Amplitude
10
15
10
Densité de proportion 0,06
0,02
0,01
2.2
Histogramme
La représentation graphique d’une variable quantitative continue est l’histogramme.
On dessine pour chaque classe ]a, b] un rectangle de base
]a, b] et de hauteur la densité de proportion de la classe
]a, b].
Exemple : Temps pour TT
Distribution des temps pour une population de 10 enfants d’une classe
Densité de proportion
0,06
0,05
0,04
0,03
0,02
0,01
Temps mis pour TT
5
15
25
30
35
40
45
Ainsi, la surface de chaque rectangle est exactement la
proportion de la classe correspondante.
Surface du rectangle = hauteur × largeur
= densité de proportion de ]a, b] × amplitude de ]a, b]
=
proportion de ]a, b]
× amplitude de ]a, b]
amplitude de ]a, b]
= proportion de ]a, b]
La surface totale de l’histogramme est égale à 1 puisqu’elle
est égale à la somme des proportions.
2.3
Calcul approché d’une proportion à partir de l’histogramme
Distribution des temps pour effectuer une tâche pour 10 enfants
d’une classe
Densité de proportion
0,06
0,05
0,04
0,03
0,02
0,01
Temps mis pour TT
5
15
25
30
35
40
45
Proportion d’observations comprises entre 8 et 32 ?
P (8 ≤ X ≤ 32)
= [0,06 × (15-8)] + [0,3] + [0,01 × (32-30)]
= 0,42 + 0,3 + 0,02 = 0,74
74% des temps sont compris entre 8 et 32 secondes .
Remarque : pour une variable continue,
P (8 ≤ X ≤ 32) = P (8 < X ≤ 32)
= P (8 ≤ X < 32) = P (8 < X < 32)
Autrement dit,
proportion de ]8,32] = proportion de [8,32]
= proportion de [8,32[ = proportion de ]8,32[
3
Fonction de répartition d’une variable continue
3.1
Proportions cumulées
La proportion cumulée d’une valeur v est la proportion des
observations qui sont inférieures ou égales à cette valeur v.
On note P (X ≤ v).
Pour une variable continue, il est équivalent de chercher la
proportion d’observations qui sont strictement inférieures à
la valeur v : P (X ≤ v) = P (X < v). (Faux dans le cas
discret)
Exemple : temps pour TT
Temps X
Proportion pi
Proportions cumulées Fi
Effectif total N = 10
]5;15] ]15;30] ]30;40]
0,6
0,3
0,1
0
0,6
0,9
1
La proportion cumulée indiquée pour une classe ]a, b]
correspond en fait à la proportion cumulée en b.
3.2
Fonction de répartition
On appelle fonction de répartition de la variable X la fonction notée F définie pour tout réel x, qui associe à ce réel
x la proportion cumulée de x.
On peut l’appeler encore fonction de distribution cumulative.
F (x) = proportion des observations ≤ x
= proportion cumulée de x
= P (X ≤ x)
Exemple : Temps pour TT
Temps X
Proportion cumulée Fi
Effectif total N = 10
]5;15] ]15;30] ]30;40]
0
0,6
0,9
1
F (0) = 0
F (5) = 0
F (15) = 0, 6
F (30) = 0, 9 F (40) = 1 F (50) = 1
On connait facilement la valeur de F (x) dans certains cas
:
• si x est une valeur inférieure ou égale à la borne inférieure de la première classe, F (x) = 0
• si x est une valeur supérieure ou égale à la borne
supérieure de la dernière classe, F (x) = 1
• si x est la borne supérieure de la i-ème classe,
F (x) = Fi
Comment calculer F (x) sinon ?
1. On détermine à quelle classe ]a, b] appartient la valeur
x.
2. On applique la formule
F (x) = F (a) + (F (b) − F (a)) ×
x−a
b−a
Exemple : Temps pour TT
Temps X
Proportion cumulée Fi
]5;15] ]15;30] ]30;40]
0
0,6
0,9
1
• F (10) ?
10 ∈]5; 15]
F (10) = F (5) + (F (15) − F (5)) × 10−5
15−5
³
5
F (10) = 0 + (0, 6 − 0) × 10
• F (20)?
´
= 0, 3.
20 ∈]15; 30]
F (20) = F (15) + (F (30) − F (15)) × 20−15
30−15
³
5
= 0, 6 + (0, 9 − 0, 6) × 15
´
= 0, 7.
Remarque : La fonction de répartition est croissante et si
x ∈]a, b], alors on doit trouver F (x) ∈]F (a); F (b)].
3.3
Représentation graphique de la fonction de répartition
Pour chaque valeur v qui est une borne de classe, on associe
un point de coordonnées (v, F (v)). On joint les points
consécutifs par un segment.
On termine en prolongeant en 0 et en 1 aux deux extrêmes.
Exemple : Temps pour TT
Temps X
Proportion cumulée Fi
Effectif total = 10
]5;15] ]15;30] ]30;40]
0
0,6
0,9
1
Points à tracer: (5;0) ; (15;0,6) ; (30;0,9) ; (40;1)
Fonction de répartition du temps mis pour accomplir une tâche TT
pour les dix enfants de la classe
Proportions cumulées
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
Temps
0
5
10
15
20
25
30
35
40
3.4
Calcul de proportions
• La proportion d’observations inférieures à a est
P (X ≤ a) = F (a)
• La proportion d’observations supérieures à b est
P (X > b) = 1 − F (b)
• La proportion d’observations comprises entre a et b
(avec a ≤ b) est : P (a < X ≤ b) = F (b) − F (a)
Exemples :
Pourcentage d’enfants mettant plus de 15 secondes pour
accomplir TT ?
P (X > 15) = 1 − F (15) = 1 − 0, 6 = 0, 4 soit 40%.
Pourcentage d’enfants mettant moins de 5 secondes pour
effectuer TT : P (X < 5) = F (5) = 0.
Pourcentage d’enfants mettant entre 10 et 20 secondes
pour effectuer TT :
P (10 ≤ X ≤ 20) = F (20) − F (10)
= 0, 7 − 0, 3 = 0, 4 soit 40%
4
Paramètres de tendance centrale
4.1
La classe modale
La classe modale est la classe ayant la plus grande densité
de proportion.
Graphiquement, c’est la classe correspondant au rectangle
le plus haut dans l’histogramme.
Exemple : Temps mis pour TT
Temps
]5;15] ]15;30] ]30;40]
Densité de proportion 0,06
0,02
0,01
La classe modale est ]5;15].
Remarques :
• Il peut y avoir une ou plusieurs classes modales.
• Attention :
plus grande densité de proportion 6= plus grande proportion
Exemple :
Classe
]5;15] ]15;30] ]30;40]
Proportion
0,4
0,5
0,1
Densité de proportion 0,04
0,033
0,01
4.2
La moyenne
4.2.1
Calcul de la moyenne à partir des données individuelles
4.2.2
Calcul de la moyenne à partir des effectifs
On appelle centre de la classe ]a, b] le milieu de cette classe.
Centre de la classe ]a, b] =
a+b
2
On note xi le centre de la i−ème classe.
Lorsque les données sont regroupées en k classes, chaque
classe va être résumée par son centre. La moyenne est alors
obtenue par le calcul suivant :
Moyenne =
μ=
k
P
i=1
xi × ni
N
P
(centre × effectif)
Effectif total
x1n1 + x2n2 + ... + xk nk
=
N
Exemple : Temps mis pour TT
Temps X
Centre xi
Effectif ni
μ=
]5;15] ]15;30] ]30;40]
10
22,5
35
6
3
1
(10 × 6) + (22, 5 × 3) + (35 × 1)
= 16, 25
10
Remarque :
La moyenne calculée sur les données regroupées n’est pas
toujours égale à celle calculée sur les données individuelles,
égale ici à 16,30.
La “vraie” valeur de la moyenne est celle calculée sur les
données individuelles.
4.2.3
Calcul de la moyenne à partir des proportions
La moyenne est alors obtenue par le calcul suivant :
Moyenne =
μ=
k
P
P
(centre × proportion)
(xi × pi) = (x1p1 + x2p2 + ... + xk pk )
i=1
Exemple : Temps mis pour TT
Temps X
Centre xi
Proportion pi
]5;15] ]15;30] ]30;40]
10
22,5
35
0,6
0,3
0,1
μ = (10 × 0, 6) + (22, 5 × 0, 3) + (35 × 0, 1) = 16, 25
Propriétés de la moyenne
Les remarques faites dans le cas d’une variable quantitative
discrète s’appliquent encore.
Notamment on peut appliquer les mêmes formules pour calculer une moyenne sur une population issue d’un regroupement de populations distinctes.
4.3
La médiane
La médiane est la valeur qui partage les observations en
deux groupes : 50% des observations sont inférieures à la
médiane (et 50% sont supérieures).
Autrement dit,
F (M édiane) = 0, 5
Détermination de la médiane :
1. Si il existe une borne de classe b telle que F (b) = 0, 5,
alors M édiane = b.
2. Sinon, on détermine l’intervalle ]a; b] tel que
F (a) < 0, 5 et F (b) > 0, 5.
Puis on applique la formule
M édiane = a + (b − a) ×
0, 5 − F (a)
F (b) − F (a)
Exemple : Temps mis pour TT
Temps X
Proportion cumulée Fi
]5;15] ]15;30] ]30;40]
0
0,6
0,9
1
Effectif total = 10
F (5) = 0 et F (15) = 0, 6.
La médiane est dans l’intervalle ]5;15].
Médiane = 5 + (15 − 5) ×
0, 5 − F (5)
F (15) − F (5)
= 5 + 10 × 0,5−0
0,6−0 = 13, 33.
50% des enfants mettent moins de 13,33 secondes (entre 5
et 13,33) pour effectuer TT, et 50% mettent plus de 13,33
secondes (entre 13,33 et 40).
4.4
Comparaison Mode-Moyenne- Médiane
Il n’y a pas de règle générale entre les trois quantités. On
peut distinguer cependant trois cas :
Si la distribution est symétrique :
mode ' moyenne ' médiane
10
9
8
7
6
5
4
3
2
1
0
0
1
2
3
4
5
6
7
8
9
10
Si la distribution est disymétrique étalée à droite :
mode < médiane < moyenne
10
9
8
7
6
5
4
3
2
1
0
0
1
2
3
4
5
6
7
8
9
10
Si la distribution est disymétrique étalée à gauche :
moyenne < médiane < mode
10
9
8
7
6
5
4
3
2
1
0
0
1
2
3
4
5
6
7
8
9
10
5
Paramètres de dispersion
De même que pour une variable discrète, la moyenne n’est
pas suffisante pour décrire la distribution et on s’intéresse
à la dispersion de celle-ci.
5.1
L’étendue
L’étendue est la différence entre la plus grande valeur et la
plus petite valeur prise par la variable.
5.2
L’écart-type
Il mesure la dispersion des données autour de la moyenne.
On applique les mêmes formules de calcul que dans le cas
d’une variable discrète, mais les valeurs sont remplacées
par les centres de classe.
Calcul à partir des effectifs
Définition :
Variance =
P
(centre - moyenne)2 × effectif
effectif total
k
P
(xi − μ)2 × ni
σ 2 = i=1
N
Formule de calcul pratique :
Variance =
P
(centre)2 × effectif
- moyenne2
effectif total
k
P
(xi)2 × ni
σ 2 = i=1
N
√
On a ensuite l’écart-type σ = σ 2.
− μ2
Exemple : Temps mis pour TT
Temps X
Centre xi
Effectif ni
]5;15] ]15;30] ]30;40]
10
22,5
35
6
3
1
μ = 16, 25
σ2
(102×6)+(22,52×3)+(352×1)
=
−16, 252
10
= 3343,75
− 264, 06 = 70, 31
10
σ = 8, 39
Remarques :
L’écart-type calculé sur les données regroupées est une
valeur approchée. La “vraie” valeur de l’écart-type est celle
calculée sur les données individuelles, ici 10,01.
Calcul à partir des proportions
Définition :
Variance =
P
(centre - moyenne)2 × proportion
k
P
2
(xi − μ)2 × pi
σ =
i=1
Formule de calcul pratique :
Variance =
P
[(centre)2× proportion] - moyenne2
σ2 =
"
k
P
#
(xi)2 × pi − μ2
i=1
√
On a ensuite l’écart-type σ = σ 2.
Exemple : Temps mis pour TT
Temps X
Centre xi
Proportion pi
]5;15] ]15;30] ]30;40]
10
22,5
35
0,6
0,3
0,1
μ = 16, 25
σ 2 =(102×0,6)+(22,52×0,3)+(352×0,1)-16,252
= 70,31
écart-type σ = 8, 39
Remarque : on obtient théoriquement le même résultat en
utilisant les effectifs ou les proportions.
5.3
Propriétés complémentaires
5.3.1
Changement de variable linéaire
Exemple : On a mesuré la température corporelle de 130
hommes et femmes ; l’étude a été réalisée en degrés Celsius.
On a trouvé une température moyenne de 35, 7 degrés C,
avec une variance de 0, 16 (d◦C)2 et donc un écart type
de 0, 4 d◦C.
On souhaite exprimer ces résultats en degrés Fahrenheit.
La correspondance entre les deux mesures est :
F = 1, 8C + 32.
Cas général : Supposons qu’on étudie la variable X de
moyenne μX et de variance σ 2X . On considère le changement Y = aX + b, où a et b sont des constantes réelles.
Alors on a directement la moyenne de Y :
μY = a × μX + b.
La variance et l’écart type de Y sont :
σ 2Y
σY
= a2 × σ 2X .
= |a| × σ X .
Exemple : la température moyenne en degrés Fahrenheit
est de :
(1, 8 × 35, 7) + 32 = 96, 26.
L’écart-type en degrés F est de (1, 8) × (0, 4) = 0, 72
5.3.2
Variable centrée réduite
Une variable centrée et réduite est une variable dont la
moyenne est nulle et l’écart-type vaut 1.
Pour centrer et réduire la variable X, on fait le changement
de variable
X − μX
Y =
σX
Alors on vérifie que μY = 0 et σ Y = 1.
Y est centrée réduite.
Exemple : X a pour moyenne 3 et écart type 2, alors
Y = X−3
2 est de moyenne nulle et écart-type 1.
L’intérêt de standardiser une variable est de pouvoir la comparer à plusieurs variables numériques présentant des unités
de mesures différentes.
L’autre intérêt majeur est de lire des proportions directement dans des tables standardisées.
Exemple : On considère le temps d’acquisition d’une certaine notion ; les moyennes et écarts types de cette variable varient selon les différentes populations (filles, garçons,
âges différents,...), mais l’allure de la distribution est toujours la même.
On considère alors la variable Y ce ce temps d’acquisition,
mais centrée et réduite. Et on dispose d’une table pour Y.
Pour les filles de 8 ans, on a μX = 25 et σ X = 2; on
cherche P (X ≤ 30).
30−25 ) = P (Y ≤ 2, 5).
P (X ≤ 30) = P ( X−25
≤
2
2
On lit dans la table de Y : P (Y ≤ 2, 5) = 0, 88.
Pour les garçons de 14 ans, on a μX = 12 et σ X = 6; on
cherche P (X ≤ 9).
9−12 ) = P (Y ≤ −0, 5).
P (X ≤ 9) = P ( X−12
≤
6
6
On lit dans la table de Y : P (Y ≤ −0, 5) = 0, 07.
5.4
5.4.1
Les Quantiles
Le quantile d’ordre α
Le quantile est une valeur qui partage les observations en
deux groupes.
Soit α une proportion donnée (0 < α < 1).
Le quantile d’ordre α, noté qα, est la valeur telle que la
proportion de valeurs qui lui sont inférieures est α.
Et la proportion d’observations supérieures au quantile qα
est (1 − α).
Autrement dit, la proportion cumulée du quantile qα est α.
Ou encore : F (qα) = α .
5.4.2
Cas particuliers
• La médiane est le quantile d’ordre 0,5 (ou 50%).
• Les quartiles :
- le premier quartile est le quantile d’ordre 0,25.
25% des observations sont inférieures à Q1 = q0,25 et
75% sont supérieures.
- le second quartile est le quantile d’ordre 0,5.
Q2 = q0,5 = médiane.
- le troisième quartile est le quantile d’ordre 0,75.
75% des observations sont inférieures à Q3 = q0,75 et
25% sont supérieures.
• Les déciles. L’étendue des observations est divisée en
10 parties contenant chacune 10% des données.
Le premier décile est le quantile d’ordre 0,1. D1 =
qO,1
Le deuxième décile est le quantile d’ordre 20%. Etc...
Le neuvième décile est le quantile d’ordre 90%. D9 =
q0,9
• Les percentiles. L’étendue des observations est divisée
en 100 parties contenant chacune 1% des données.
Le premier percentile est le quantile d’ordre 1%.
Le dixième percentile est le quantile d’ordre 10%. Etc...
5.4.3
Détermination des quantiles
On généralise ce qu’on a vu pour la médiane.
Pour une proportion α donnée, on cherche la valeur qα telle
que F (qα) = α. On regarde le tableau des proportions
cumulées.
1. Si il existe une borne de classe b telle que F (b) = α,
alors qα = b.
2. Sinon, on détermine l’intervalle ]a; b] tel que
F (a) < α et F (b) > α.
Puis on calcule la valeur du quantile par la formule
qα = a + (b − a) ×
α − F (a)
F (b) − F (a)
Exemple : Temps mis pour TT
Temps X
Proportion cumulée Fi
Effectif total = 10
]5;15] ]15;30] ]30;40]
0 0,6
0,9
1
- Quantile d’ordre 60% ?
F (15) = 0, 6 alors q0,6 = 15.
60% des enfants mettent moins de 15 secondes pour effectuer TT.
- Troisième quartile ?
(quantile d’ordre 75%)
Il est dans l’intervalle ]15;30]
0,75−F (15)
Q3 = q0,75 = 15 + (30 − 15) × F (30)−F (15)
Q3 = 15 + (15) × 0,75−0,6
0,9−0,6 = 22, 5.
75% des enfants mettent moins de 22,5 secondes pour effectuer TT .
- Premier quartile ?
(quantile d’ordre 25%)
Il est dans l’intervalle ]5;15]
0,25−F (5)
Q1 = q0,25 = 5 + (15 − 5) × F (15)−F (5)
= 5 + (10) × 0,25−0
0,6−0 = 9, 17.
25% des enfants mettent moins de 9,2 secondes pour effectuer TT.
Représentation graphique des quantiles
Fonction de répartition du temps mis pour accomplir une tâche TT
pour les dix enfants de la classe
Proportions cumulées
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
Temps
0
5
10
15
20
25
30
35
40
6
Intervalle de variation
Soit α une proportion donnée (0 < α < 1).
L’intervalle de variation au risque α ou de niveau 1 − α
contient une proportion 1 − α d’observations ; de plus,
les données qui sont à l’extérieur de cet intervalle (en proportion α) se répartissent également : il y en a autant à
“gauche” qu’à “droite”, en proportion α
2.
On écrit donc l’intervalle de variation
I1−α = [q α ; q1− α ]
2
2
où q α est le quantile d’ordre α
2
2
et q1− α est le quantile d’ordre 1 − α
2.
2
En général, on choisit pour niveau 1 − α la valeur 90%, ou
95% ou 99%.
Exemple : Temps mis pour TT
Temps X
Proportion cumulée Fi
Effectif total = 10
]5;15]
]15;30] ]30;40]
0
0,6
0,9
1
L’intervalle de variation au niveau 90% est
I0,9 = I90% = [q0,05 ; q0,95] = [5, 83 ; 35].
0,05−F (5)
q0,05
= 5 + (15 − 5) × F (15)−F (5) = ... = 5, 83
q0,95
= 30 + (40 − 30) × F (40)−F (30) = ... = 35
0,95−F (30)
90% des enfants mettent entre 5,83 et 35 secondes pour
effectuer TT. 5% mettent moins de 5,83 s (entre 5 et 5,83)
et 5% des enfants mettent plus de 35 s (entre 35 et 40 s).
L’intervalle de variation au niveau 95% est
I0,95 = I95% = [q0,025 ; q0,975] = [5, 42 ; 37, 5].
L’intervalle de variation au niveau 99% est
I0,99 = I99% = [q0,005 ; q0,995] = [5, 08 ; 39, 5].
7
Boîte à moustaches
L’intervalle interquartile est l’intervalle [Q1; Q3].
C’est l’intervalle de variation de niveau 50%. Il contient
50% des observations. 25% des observations sont inférieures
à Q1 et 25% sont supérieures à Q3.
Exemple : Temps mis pour TT
[Q1; Q3] = [9, 17; 22, 5] : 50% des enfants mettent entre
9,2 et 22,5 secondes pour faire une tâche TT.
Représentation graphique : La boîte à moustaches (Box
and whiskers plot)
5
5
9,17
10
13,33
22,5
15
20
40
25
30
35
40
Chapitre 5
Statistiques descriptives bivariées
1. Organisation des données
2. Distributions marginales
3. Distributions conditionnelles
4. Liaison entre deux variables
5. Etude de deux variables qualitatives
6. Etude d’une variable qualitative et une variable quantitative.
7. Etude de deux variables quantitatives
Exemple
Etude sur 5761 femmes de la survenue d’accouchement
prématuré et de l’exposition à des événements stressants.
X : type d’accouchement
variable qualitative à 2 modalités
Y : score sur une échelle allant de 0 à 3. Plus le score est
élevé plus l’exposition à des événements stressants a été
importante.
variable quantitative discrète à 4 valeurs
X\ Y
0
1
2
3
à terme
4698 413 250 197
prématuré 165 16 12 10
1
1.1
Organisation des données
Notations
On considère deux variables X et Y observées simultanément sur chacun des N individus de la population.
On notera xi, i = 1, .., k
la variable X.
les k modalités ou valeurs de
On notera yj , j = 1, .., l les l modalités ou valeurs de la
variable Y.
On notera nij l’effectif correspondant au couple (xi, yj ).
Définition
On appelle distribution jointe des effectifs de X et Y l’ensemble des informations (xi, yj , nij ) pour i = 1, .., k et
j = 1, .., l.
1.2
Tableau de contingence
On synthétise les données de la distribution jointe du couple
(X, Y ) par un tableau à double entrée appelé tableau de
contingence
X\ Y
x1
..
xi
..
xk
y1
n11
...
yj
n1j
...
yl
n1l
ni1
nij
nil
nk1
nkj
nkl
Exemple :
n23 = 12 : l’effectif des femmes qui ont accouché prématurément et qui ont un score égal à 2.
Remarque :
l
k X
X
i=1 j=1
nij = N
1.3
Proportions de la distribution jointe du
couple (X, Y )
Exemple :
X\ Y
0
1
2
3
à terme
4698 413 250 197
prématuré 165 16 12 10
Total N = 5761
P (X =à terme , Y = 0) = 4698
5761 = 0.815.
X\ Y
0
1
2
3
à terme
0.815 0.072 0.043 0.034
prématuré 0.029 0.003 0.002 0.002
Définition : La proportion du couple (xi, yj ) est
nij
P (X = xi, Y = yj ) = pij =
.
N
Remarque :
l
k X
X
i=1 j=1
pij = 1
2
Distributions Marginales
On ajoute au tableau de contingence les totaux en ligne et
en colonne.
X\ Y
y1
x1
n11
..
xi
ni1
..
xk
nk1
Totaux n•1
...
yl
n1l
Totaux
n1•
nij
nil
ni•
nkj
n•j
nkl
n•l
nk•
N
yj
n1j
...
X\ Y
0
1
2
3
à terme
4698 413 250 197
prématuré 165
16
12
10
Totaux
4863 429 262 207
n•1
n•2 n•3 n•4
Totaux
n1• = 5558
n2• = 203
5761
En marge à droite (totaux en ligne) :
X
à terme
n1• = 5558
prématuré n2• = 203
Total
N = 5761
Distribution marginale de X :
X
effectif ni•
à terme prématuré Total
5558
203
5761
Pour chaque indice i, l’effectif ni• est l’effectif de la modalité xi de X quelle que soit la modalité de Y .
ni• =
l
X
nij = total de la ligne i
j=1
Les k couples (xi, ni•) définissent la distribution marginale de la variable X.
Remarque :
k
P
i=1
ni• = N
Proportions marginales pour X
X
Effectif ni•
Proportion pi•
à terme prématuré Total
5558
203
N = 5761
0.964
0.036
1
Définition
La proportion marginale de xi est
P (X = xi) = pi• = nNi• .
En marge en bas (totaux en colonne) :
X\ Y
0
1
2
3
à terme
4698 413 250 197
prématuré 165 16 12 10
Totaux
4863 429 262 207
Totaux
5558
203
5761
Distribution marginale de Y :
Y
effectif n•j
0
1
2
3
Total
4863 429 262 207 N = 5761
Pour chaque indice j, l’effectif n•j est le nombre total
d’observations de la modalité yj de Y quelle que soit la
modalité de X.
n•j =
k
X
nij = total de la colonne j
i=1
Les l couples (yj , n•j ) définissent la distribution marginale de la variable Y .
Remarque :
l
P
j=1
n•j = N
Proportions marginales pour Y :
Y
Effectif n•j
Proportion p•j
0
1
2
3
Total
4863
429
262
207 5761
0.844 0.074 0.045 0.036
1
Définition
La proportion marginale de yj est
n
P (Y = yj ) = p•j = N•j .
3
Distributions conditionnelles
Le principe des distributions conditionnelles est de décrire
le comportement de l’une des deux variables quand l’autre
a une valeur donnée.
Exemple
X\ Y
0
1
2
3
à terme
4698 413 250 197
prématuré 165 16 12 10
Totaux
4863 429 262 207
Totaux
5558
203
5761
Ligne 2 du tableau de contingence : distribution de la variable Y chez les femmes ayant eu un accouchement prématuré.
Y |X=prématuré
effectif
proportion
0
1
2
3
165
0.813
16
0.079
12
0.059
10
0.049
Total
203 = n2•
1
Ce tableau donne la distribution conditionnelle de Y sachant que l’accouchement a été prématuré.
Exemple :
X\ Y
0
1
2
3
à terme
4698 413 250 197
prématuré 165 16 12 10
Totaux
4863 429 262 207
Totaux
5558
203
5761
Colonne 3 du tableau de contingence : distribution conditionnelle de X sachant que la femme enceinte a subi un
stress de niveau 2
X |Y =2
à terme prématuré Total
Effectif
250
12
262 = n•3
Proportion 0.954
0.046
1
A la ligne i du tableau de contingence, on lit la distribution
conditionnelle de la variable Y sachant que la variable X
prend la modalité xi ; elle est notée distribution conditionnelle de Y |X=xi .
Il y a k distributions conditionnelles de Y sachant
X = xi.
A la colonne j du tableau de contingence, on lit la distribution conditionnelle de la variable X sachant que la
variable Y prend la modalité yj ; elle est notée distribution
conditionnelle de X|Y =yj .
Il y a l distributions conditionnelles de X sachant
Y = yj .
4
Liaison entre deux variables
Exemple
Distribution marginale de Y :
Y
Proportion p•j
0
1
2
3
Total
0.844 0.074 0.045 0.036
1
Distribution conditionnelle de Y sachant que l’accouchement a été prématuré
Y |X=prématuré
proportion
0
1
2
3
Total
0.813 0.079 0.059 0.049
1
Distribution conditionnelle de Y sachant que l’accouchement était à terme
Y |X=à terme
proportion
0
1
2
3
Total
0.845 0.074 0.045 0.035
1
Autre exemple :
X\ Y
0
1
2
3
à terme
4140 862 278 278
prématuré 22
30 51 100
Totaux
4162 892 329 378
Totaux
5558
203
5761
Distribution marginale de Y :
Y
Proportion p·j
0
1
2
3
Total
0.722 0.155 0.057 0.066
1
Distribution conditionnelle de Y sachant que l’accouchement a été prématuré
Y |X=prématuré
proportion
0
1
2
3
Total
0.108 0.148 0.251 0.493
1
Distribution conditionnelle de Y sachant que l’accouchement était à terme
Y |X=à terme
proportion
0
1
2
3
Total
0.745 0.155 0.050 0.050
1
On peut comparer les distributions conditionnelles de Y
sachant X entre elles et à la distribution marginale de Y .
Si ces distributions sont très proches, on peut conjecturer
une certaine indépendance entre les deux variables.
Si ces distributions sont très distinctes, cela signifie que les
modalités de X ont une influence sur la variable Y et donc
que les deux variables sont liées.
Remarque : de même , on peut comparer les distributions
conditionnelles de X sachant Y à la distribution marginale
de X.
5
Etude de deux variables qualitatives
On peut
— calculer les distributions jointe, marginales, conditionnelles
— faire les représentations graphiques des distributions marginales et conditionnelles.
6
Etude d’une variable qualitative et
d’une variable quantitative
Supposons que X est qualitative avec k modalités, et Y est
quantitative avec l valeurs distinctes possibles ou l classes.
On peut
1. Calculer la distribution jointe.
2. Calculer la distribution marginale de X et les distributions conditionnelles de X sachant Y = yj (plus repr.
graphiques).
3. Calculer la distribution marginale de Y puis les caractéristiques de cette distribution (+ graphe).
Exemple :
Y
0
1
2
3
Total
Effectif n•j
4863
429
262
207
N = 5761
Proportion p•j 0.844 0.074 0.045 0.036
1
Mode : 0
Médiane : 0
Moyenne μY = 0, 272
Ecart-type : σ 2Y = 0, 504 et σ Y = 0, 71
4. Calculer la distribution conditionnelle de Y sachant
X = xi puis les caractéristiques de cette distribution
(+ graphe).
Exemple : distribution conditionnelle de Y sachant que
X = prématuré
Y |X=prématuré
Effectif
Proportion
Mode : 0
0
1
2
3
165
0.813
16
0.079
12
0.059
10
0.049
Médiane : 0
Moyenne : μY |X=préma = 0, 344
Ecart-type : σ 2Y |X=préma = 0, 638 et
σ Y |X=préma = 0, 799
Total
203 = n2•
1
7
Etude de deux variables quantitatives
Si X (resp. Y ) est une variable quantitative discrète, xi
(resp. yj ) désigne la valeur prise.
Si X (resp. Y ) est une variable quantitative continue, xi
(resp. yj ) désigne le centre de classe.
7.1
Exemple 1 : données d’un tableau de
contingence.
Une entreprise employant 100 femmes relève pour chaque
femme son âge, noté X, et le nombre de journées d’absence
durant le mois de janvier, noté Y .
X\ Y
[20,30]
]30,40]
]40,50]
]50,60]
Total
0 1 2 3
0 0 5 15
0 15 20 0
15 10 5 0
0 5 5 5
15 30 35 20
Total
20
35
30
15
100
Principales caractéristiques des distributions
marginales
Distribution marginale de X :
X
[20,30] ]30,40] ]40,50] ]50,60] Total
Total
20
35
30
15
100
μX = 39
σ 2X = 94
σ X = 9, 70
etc...
Distribution marginale de Y :
Y
0 1 2 3 Total
Total 15 30 35 20 100
μY = 1, 6
σ 2Y = 0, 94
σ Y = 0, 97
etc...
Quelques moyennes et variances des distributions
conditionnelles
Distribution conditionnelle de X sachant Y = 1.
X|Y =1
Effectif
[20,30] ]30,40] ]40,50] ]50,60]
0
15
10
5
Total
30
μ(X|Y =1) = 41.67
σ 2(X|Y =1) = 55.28
σ(X|Y =1) = 7.44
etc...
Distribution conditionnelle de Y sachant X = [20, 30]
Y |X=[20,30]
Effectif
0 1 2 3
0 0 5 15
Total
20
μ(Y |X=[20,30]) = 2, 75
σ 2(Y |X=[20,30]) = 0, 1875
etc...
σ(Y |X=[20,30]) = 0, 433
Représentation graphique
On peut représenter la distribution du couple (X, Y ) par
un nuage de points de coordonnées (xi, yj ), chaque point
étant affecté du “poids” nij .
Le centre de gravité du nuage est alors le point (non
observé) de coordonnées (μX , μY ).
Nombre de jours d'absence en janvier
Répartition de l'âge et du nombre d'absences pour
100 femmes de l'entreprise X
4
15
3
5
2
1
5
20
5
5
15
10
5
15
0
-1
10
20
30
40
Age
50
60
70
7.2
Covariance, Corrélation
On cherche des outils pour mesurer la dépendance linéaire
entre deux caractères quantitatifs X et Y .
Définition
La covariance de X et Y est le nombre réel défini par
l
k X
1 X
Cov(X, Y ) =
nij (xi − μX )(yj − μY )
N i=1 j=1
Formule pratique de calcul
k X
l
1 X
Cov(X, Y ) =
nij xiyj − μX μY
N i=1 j=1
Exemple
Centres pour X
25
35
45
55
X \Y
0 1 2 3
[20,30] 0 0 5 15
]30,40] 0 15 20 0
]40,50] 15 10 5 0
]50,60] 0 5 5 5
Total
15 30 35 20
Total
20
35
30
15
100
Cov(X, Y ) = [0 + 0 + (25 × 2 × 5) + (25 × 3 × 15)
1
+... + (55 × 3 × 5)] × 100
−(39 × 1, 6)
= 58, 5 − (39 × 1, 6) = −3, 9
Propriétés
Cov(X, Y ) = Cov(Y, X) et Cov(X, X) = σ 2(X)
Remarques :
- La covariance dépend des unités de X et de Y ;
- elle prend n’importe quelle valeur réelle.
Le coefficient de corrélation linéaire de X et Y est défini
par
Cov(X, Y )
r(X, Y ) =
σX σY
Exemple :
−3,9
= −0, 4145
r(X, Y ) = 9,7×0,97
Propriétés
r(X, Y ) = r(Y, X) et r(X, X) = 1
Le coefficient de corrélation est un coefficient sans dimension.
−1 ≤ r(X, Y ) ≤ 1
7.3
Exemple 2. Données individuelles
On a relevé, pour différents pays en 2004 le PIB par habitant X (en dollars) et le taux brut de scolarisation des
moins de 24 ans en pourcentage Y . Les résultats sont les
suivants : (Source : rapport mondial sur le développement du PNUB
2006)
Pays
Pays en
développement
Pays les
plus pauvres
Pays arabes
Asie de l’Est
et Pacifique
Amérique latine
et Caraïbes
Asie du Sud
Afrique
Sub-saharienne
Europe centrale,
orientale et CEI
PIB X
Tx scolarisation Y
4775
63
1350
45
5680
62
5872
69
7964
81
3072
56
1942
50
8802
83
Scolarisation des jeunes en fonction du PIB en 2004
Taux de scolarisation des moins de 24 ans
90
85
80
75
70
65
60
55
50
45
40
0
2 000
4 000
6 000
8 000
10 000
PIB par habitant
Remarques : étirement du nuage, sens de variation...
Quelques caractéristiques
PIB X : μX = 4932, 13
σ X = 2521, 61
Scolarisation Y : μY = 63, 63
σ Y = 12, 75
Covariance :
N
1 X
Cov(X, Y ) =
(xi − μX )(yi − μY )
N i=1
Formule pratique de calcul
⎛
⎞
N
X
1
Cov(X, Y ) = ⎝
xiyi⎠ − μX μY
N i=1
Exemple : Cov(X, Y ) = 31629, 19
Corrélation :
r(X, Y ) =
Exemple : r(X, Y ) = 0, 984
Cov(X, Y )
σX σY
liaison positive forte
Le coefficient de corrélation mesure la présence et l’intensité de la liaison linéaire entre X et Y .
On a toujours −1 ≤ r(X, Y ) ≤ +1.
r(X, Y ) = 1 : liaison linéaire exacte positive Y = aX + b
avec a > 0
r(X, Y ) = −1 : liaison linéaire exacte négative Y = aX +
b avec a < 0 ;
r(X, Y ) = 0 : non corrélation : on a indépendance possible, mais non certaine ; absence de liaison linéaire
r(X, Y ) > 0 : liaison relative positive, X et Y ont tendance à varier dans le même sens ;
r(X, Y ) < 0 : liaison relative négative, X et Y ont tendance à varier en sens contraires ;
r(X, Y ) > 0, 8 ou r(X, Y ) < −0, 8 : la liaison linéaire
est considérée comme forte.
Remarque :
Il faut bien se garder au vu de la seule valeur du coefficient
de corrélation, d’émettre des interprétations abusives.
Exemple des chaussures et de la culture générale tous deux
liés à l’âge ! !
Par contre il existe des outils permettant d’étudier plus en
détail les relations linéaires entre deux caractères et permettant (dans une certaine mesure) d’extrapoler à partir
de données existantes et de faire de la prévision.
7.4
Autres Exemples
On donne pour les 9 premiers mois de l’année 1982 les
nombres d’offres d’emploi (concernant des emplois durables
à plein temps) et de demandes d’emploi (déposées par des
personnes sans emploi , immédiatement disponibles, à la
recherche d’un emploi durable à plein temps). Les nombres
sont exprimés en milliers.
Offres X
Demandes Y
X
Y
82,8
1885,3
61
2034
66,7
2003,8
75,8
1964,5
78,6
1928,2
87,2
1867,1
76,2
1936,2
80,1
1890,3
74,5
1961,2
r(X, Y ) = −0, 9731
Offres d'emploi
Offres et dem andes d'em ploi (janvier-sept 1982)
2060
2040
2020
2000
1980
1960
1940
1920
1900
1880
1860
1840
55
65
75
Dem andes d'em ploi
85
95
On dispose des données suivantes sur le nombre d’homicides dans la ville de Détroit sur une période de dix ans, de
1961 à 1970.
X : U EM P (Unemployed) : taux de chômeurs dans la
population.
Y : F T P (Full Time police) : nombre de policiers (à temps
plein) pour 100.000 habitants
Année
FTP
UEMP
1961
260,35
11
1962
269,8
7
Année
FTP
UEMP
1966
261,34
3,2
1967
268,89
4,1
r(X, Y ) = −0, 0583
1963
272,04
5,2
1968
295,99
3,9
1964
272,96
4,3
1969
319,87
3,6
1965
272,51
3,5
1970
341,43
7,1
Nombre de policiers pour 100 000 h
Taux de chômage et police à Détroit
360
340
320
300
280
260
240
0
2
4
6
Taux de chomage
8
10
12
On dispose des données de N = 24 réparations d’ordinateurs. Pour chaque réparation on note X le nombre d’unités
à réparer et Y la durée de réparation en minutes. (Chatterjee et Price, 1991)
Unités X
Durée Y
1
23
2
29
X
Y
9
149
9
145
10
154
10
166
X
Y
17
193
18
195
18
198
20
205
r(X, Y ) = 0, 9469
3
49
4
64
4
74
11
162
5
87
6
96
11
174
12
180
6
97
12
176
7
109
14
179
8
119
16
193
Durée de réparation en fonction du nombre
d'unités défectueuses
350
300
Durée
250
200
150
100
50
0
0
5
10
15
Nombre d'unités
20
25
Téléchargement