Parametres descriptifs

publicité
17/10/2016
Comment représenter les variables
aléatoires (données) ?
Paramètres descriptifs
Représentation synthétique
– Tables de fréquences
Représentation graphique
– Diagrammes de fréquences
Cours VETE0432-1
Paramètres descriptifs
– Position
– Dispersion
– Aplatissement, asymétrie, …
Mathématique et Biostatistique
Année académique 2016-2017
Quels sont les paramètres
descriptifs de la position ?
m= X =
2
Quels sont les paramètres
descriptifs de la position ?
Le plus connu est certainement
la moyenne arithmétique
Pour des données simples:
∑X
Mathématique et Biostatistique
Année académique 2016-2017
1
Une interprétation de la moyenne arithmétique
X=
∑X
i
n
i
= ∑ Xi *
i
1
n
i
i
– Chaque donnée est pondérée dans la somme par sa
fréquence relative (un estimateur de la probabilité) dans
l’échantillon.
n
Exemple: jets d’un dé: 1 4 6 6 3 5 2 5 4 3
=> m = (1 + 4 + … + 3) / 10 = 3.9
Mathématique et Biostatistique
Année académique 2016-2017
3
Mathématique et Biostatistique
Année académique 2016-2017
4
1
17/10/2016
Pourquoi ne pas toujours calculer
la vraie moyenne de X ?
Est-ce la vraie moyenne de X ?
Dans cet exemple, on pourrait calculer la vraie
moyenne de X (moyenne population):
µ ne peut être calculée que si toutes les valeurs de X
et les probabilités associées sont connues.
Rappel: distributions = fonctions qui associent à
chaque valeur de x la probabilité correspondante
Exemple: si je jette 2 dés et que j’additionne les
points obtenus, combien vais-je obtenir
en moyenne ?
µ = (1+2+3+4+5+6)/6 = 3.5
La moyenne calculée (m = 3.9) n’est qu’une
estimation basée sur un échantillon de la
moyenne réelle (µ = 3.5).
Mathématique et Biostatistique
Année académique 2016-2017
5
Mathématique et Biostatistique
Année académique 2016-2017
Pourquoi ne pas toujours calculer
la vraie moyenne de X ?
Pourquoi ne pas toujours calculer
la vraie moyenne de X ?
A) Approche approximative (échantillonnage)
B) Approche exacte (population)
6
– Je calcule la probabilité associée à chaque situation et je
calcule la moyenne en considérant que chaque valeur est
représentée avec une fréquence relative égale à la
probabilité d’obtenir cette valeur
– Je répète n fois (p.e. n = 20) fois l’expérience, et je calcule
la moyenne arithmétique des valeurs obtenues
P[(1;1)] = P[(1;2)] = … = P[(6;6)] = 1/36
P(S=0) = P(S=1) = P(S>12) = 0
P(S=2) = P[(1;1)] = 1/36
P(S=3) = P[(1;2) ou (2;1)] = P[(1;2)] + P[(2;1)] = 2/36
…
Mathématique et Biostatistique
Année académique 2016-2017
7
Mathématique et Biostatistique
Année académique 2016-2017
8
2
17/10/2016
Pourquoi ne pas toujours calculer
la vraie moyenne de X ?
Pourquoi ne pas toujours calculer
la vraie moyenne de X ?
Conclusion: on ne calculera la vraie moyenne qu’à
condition de disposer de toutes les valeurs de X et
des probabilités associées. On fera alors:
B) Approche exacte (population): suite
X
2
3
4
5
6
7
8
9
10
11
12
P (*1/36)
1
2
3
4
5
6
5
4
3
2
1
P*X (*1/36)
2
6
12
20
30
42
40
36
30
22
12
µ = ∑ X i *π ( X i )
i
La vraie moyenne est appelée:
espérance mathématique.
µ = Σ Pi*Xi= 252/36 = 7
Mathématique et Biostatistique
Année académique 2016-2017
Si on considère que chaque donnée de l’échantillon
a la même probabilité (soit, 1/n), les deux
formulations sont identiques:
i
Exemple I: Dans une population de poissons, il y a
20% de poissons blancs et 80% de poissons d’autres
couleurs. On mesure 6 poissons, avec les résultats cidessous. Quelle est la taille moyenne dans cette
espèce ?
1
= ∑ X i * Pr ( X i )
n
i
La fréquence (1/n) d’une valeur Xi dans l’échantillon
estime la probabilité Pr(Xi) de cette valeur dans la
population.
Mathématique et Biostatistique
Année académique 2016-2017
10
Peut-on généraliser cette idée à
d’autres situations ?
Quel est le lien entre µ et m ?
X = ∑ Xi *
Mathématique et Biostatistique
Année académique 2016-2017
9
29 cm
32 cm
34 cm
29 cm
25 cm
11
34 cm
Mathématique et Biostatistique
Année académique 2016-2017
12
3
17/10/2016
Peut-on généraliser cette idée à
d’autres situations ?
Peut-on généraliser cette
idée à d’autres situations ?
Solution I:
Solution I: Les poissons colorés doivent avoir une
pondération 4 fois plus élevée que les blancs
puisqu’ils représentent 4 fois plus d’individus. On peut
attribuer explicitement ces pondérations, et
remplacer les probabilités par ces pondérations
standardisés:
X = ∑ X i * wi = ∑ X i *
i
i
Wi
∑Wi
Mathématique et Biostatistique
Année académique 2016-2017
i =1
Non pondérée
pi = 1
n
pi = 1
Pondérée
pi ≠ 1
n
Une telle moyenne est une moyenne pondérée
13
Peut-on généraliser cette
idée à d’autres situations ?
Mathématique et Biostatistique
Année académique 2016-2017
14
Peut-on généraliser cette
idée à d’autres situations ?
Solution I: dans notre exemple, on a:
w1 = w4 = w5
w2 = w3 = w6
w2 = 4*w1
w1 + w2 + w3 + w4 + w5 + w6 = 1
dont la solution est:
w1 = w4 = w5 = 1/15
w2 = w3 = w6 = 4/15
Mathématique et Biostatistique
Année académique 2016-2017
n
∑
Solution I: ce qui conduit à:
mp
= (25 + 29 + 29 + 4*32 + 4*34 + 4*34)/15
= 32.20 cm
= (0.8 * Xc) + (0.2 * Xb)
Cette moyenne pondérée est donc calculée sur les
données disponibles et tient compte de la
connaissance qu’on a de la structure de la
population
15
Mathématique et Biostatistique
Année académique 2016-2017
16
4
17/10/2016
Peut-on généraliser cette idée à
d’autres situations ?
Exemple II: Moyenne pour un étudiant de 1BMV ?
Cours
Anglais
Anim et Soc
Biologie
Chimie
Physique
Stat
Note
15
15
16
13
12
14
Poids
20/110
10/110
20/110
20/110
20/110
20/110
Note P
2.73
1.36
2.91
2.36
2.18
2.55
Exemple III: Des individus ont été répartis par classe,
d’après leurs mesures. Que vaut le poids moyen ?
Classe
0 à 10
10 à 20
20 à 30
30 à 40
Moy.
14.09
Mathématique et Biostatistique
Année académique 2016-2017
Solution III: chaque valeur de Xi peut être pondérée
par sa fréquence relative (qui estime la probabilité) =
moyenne de données groupées
Xi
5
15
25
35
fi
8
20
22
5
X = ∑ X i * fri = ∑ X i *
i
i
fi
8
20
22
5
Mathématique et Biostatistique
Année académique 2016-2017
∑f
i
18
Y a-t-il d’autres paramètres
descriptifs de la position ?
Oui. Il existe plusieurs types de moyennes, ainsi que
d’autres types de paramètres:
Moyenne géométrique (problèmes multiplicatifs):
Xg = n
fi
n
∏X
i =1
i
Exemple: Accroissements successifs d’une population
sur 3 années (10%, 15%, 23%).
X = 19.364
Mathématique et Biostatistique
Année académique 2016-2017
Xi
5
15
25
35
17
Peut-on généraliser cette idée à
d’autres situations ?
Classe
0 à 10
10 à 20
20 à 30
30 à 40
Peut-on généraliser cette idée à
d’autres situations ?
19
Mathématique et Biostatistique
Année académique 2016-2017
20
5
17/10/2016
Y a-t-il d’autres paramètres
descriptifs de la position ?
Y a-t-il d’autres paramètres
descriptifs de la position ?
Exemple: Accroissements successifs d’une population
sur 3 années (10%, 15%, 23%).
En t = 0: X(0) = taille
En t = 1: X(1) = X(0)*1.10
En t = 2: X(2) = X(1)*1.15
En t = 3: X(3) = X(2)*1.23 = X(0)*1.10*1.15*1.23
Si chaque année, on a le même accroissement α:
X(3) = X(2)*α = X(1)*α² = X(0)*α³
3
=> α = 3 ∏
α
Mathématique et Biostatistique
i =1
i
Année académique 2016-2017
21
Y a-t-il d’autres paramètres
descriptifs de la position ?
m1g
Exemple: Manipulations effectuées par 3
laborantins (10 / jour, 15 / jour, 20 / jour)
Temps moyen: tm = (1/10 + 1/15 + 1/20)/3
# moyen de manips/jour = (1/tm)
Mathématique et Biostatistique
Année académique 2016-2017
22
Un autre exemple en physique de la mh:
Un mobile parcourt la moitié d’une distance à 40 km/h et l’autre
moitié à 60 km/h. Quelle est sa vitesse moyenne ?
F = m*a => a = F/m
m1
1
1 n 1
= ∑
X h n i =1 X i
Y a-t-il d’autres paramètres
descriptifs de la position ?
Un exemple en physique de la mh:
T
Moyenne harmonique (données/unité):
a1 = g – T/m1
a2 = g – T/m2
a1 = -a2
T
m2
m2g
⇒ g – T/m1 = T/m2 – g
⇒ T = g / [1/2*(1/m1+1/m2)] = mh*g
Mathématique et Biostatistique
Année académique 2016-2017
23
Mathématique et Biostatistique
Année académique 2016-2017
24
6
17/10/2016
Y a-t-il d’autres paramètres
descriptifs de la position ?
Y a-t-il d’autres paramètres
descriptifs de la position ?
Mode: il s’agit de la valeur qui a la fréquence
maximale.
Médiane: il s’agit de la valeur qui a 50 % des valeurs
qui lui sont inférieures.
f(X)
médiane
50% 50%
Exemple:
Classe modale
Mode
Classe
0 à 10
10 à 20
20 à 30
30 à 40
Xi
5
15
25
35
fi
8
Mode = 22
20
22
Mathématique et Biostatistique
5Année académique 2016-2017
Classe
0 à 10
10 à 20
20 à 30
30 à 40
25
Y a-t-il d’autres paramètres
descriptifs de la position ?
Xi
5
15
25
35
fi
8
Médiane
20
22
Mathématique et Biostatistique
5Année académique 2016-2017
≈ 20
26
Quand employer la moyenne,
la médiane, le mode ?
Mesure d’asymétrie:
Symétrie => mode = moyenne = médiane
Asymétrie droite: Moy > Méd > Mode
Exemple II:
31 poids de poulets adultes récoltés:
2.14 2.29 2.04 1.99 1.98 1.62 2.07 2.01 2.32 1.92 1.88
1.69 1.76 2.17 2.45 1.83 1.99 2.13 2.21 1.92 2.25 1.98
2.21 1.93 1.99 2.25 1.99 2.01 1.54 1.90 2.09
f(X)
médiane
mode
On trie par ordre croissant:
X
1.54 1.62 1.69 1.76 1.83 1.88 1.90 1.92 1.92 1.93 1.98
1.98 1.99 1.99 1.99 1.99 2.01 2.01 2.04 2.07 2.09 2.13
2.14 2.17 2.21 2.21 2.25 2.25 2.29 2.32 2.45
Moyenne = 2.018, médiane = 1.99
Mathématique et Biostatistique
Année académique 2016-2017
X
Exemple:
La médiane est moins sensible aux données
anormales (outliers)
Plurimodalité
Mathématique et Biostatistique
27
Année académique 2016-2017
28
7
17/10/2016
Quels sont les paramètres
descriptifs de la dispersion ?
Quels sont les paramètres
descriptifs de la dispersion ?
Le plus connu est certainement
la variance
Pour des données simples:
s2 =
∑ (X
Exemple II: mesure de la variance des variables
quantitatives dans les données de l’exploitation
bovine.
– Age:
– Poids:
– Taille:
−X)
2
i
i
n −1
s²age = 52.41
s²poids = 37459.89
s²taille = 885.24
(s = 7.24 mois)
(s = 193.55 kilos)
(s = 29.75 cms)
Exemple I: jets d’un dé: 1 4 6 6 3 5 2 5 4 3
=> m = (1 + 4 + … + 3) / 10 = 3.9
=> s² = [(1 – 3.9)² + …] / 9 = 2.767
Mathématique et Biostatistique
Année académique 2016-2017
Mathématique et Biostatistique
Année académique 2016-2017
29
Quels sont les paramètres
descriptifs de la dispersion ?
30
Peut-on calculer la vraie
variance σ² plutôt que s² ?
Remarques sur la variance
– La division par (n-1) est liée au fait qu’on ne calcule pas les
écarts par rapport à µ mais par rapport à m.
– L’expression de cette mesure dans la même unité que les
valeurs de X se fait en prenant la racine carrée de s², soit s,
appelée déviation standard.
– s² est un estimateur de la vraie variance, qui est
l’espérance mathématique de (X-µ)², notée E(X-µ)²
σ 2 = ∑ ( X i − µ )2 π ( X i )
Oui, à condition, comme pour µ, de connaître toutes
les valeurs de X et les probabilités associées.
– Exemple: jet d’un dé ?
X=1
X=2
X=3
X=4
X=5
X=6
Proba = 1/6
Proba = 1/6
Proba = 1/6
Proba = 1/6
Proba = 1/6
Proba = 1/6
(1-3.5)² = 6.25
(2-3.5)² = 2.25
(3-3.5)² = 0.25
(4-3.5)² = 0.25
(5-3.5)² = 2.25
(6-3.5)² = 6.25
σ² =
17.5 / 6
– Exercice: σ² lors du jet de 2 dés ? (Sol: σ² = 35/6)
i
Mathématique et Biostatistique
Année académique 2016-2017
31
Mathématique et Biostatistique
Année académique 2016-2017
32
8
17/10/2016
Y a-t-il d’autres paramètres
descriptifs de la dispersion ?
Y a-t-il d’autres paramètres
descriptifs de la dispersion ?
Étendue (range) = écart entre la valeur maximale et la
valeur minimale.
Exemple: l’étendue du poids dans les données de
l’exploitation bovine est de 949.0 kilos.
Mathématique et Biostatistique
Année académique 2016-2017
Quartiles = valeurs découpant la distribution en 4
parties de 25%.
Exemple: les quartiles pour la taille dans les
données de l’exploitation bovine sont:
–
–
–
–
–
33
Q0 = 61.30 cms = Minimum
Q1 = 116.66 cms.
Q2 = 140.23 cms. = Médiane
Q3 = 158.66 cms
Q4 = 204.26 cms = Maximum
Mathématique et Biostatistique
Année académique 2016-2017
34
Y a-t-il d’autres paramètres
descriptifs de la dispersion ?
Exemple d’utilisation: « Box plot »
Taille
Déciles = valeurs découpant la distribution en 10
parties de 10%.
Percentiles = valeurs découpant la distribution en
100 parties de 1%.
Coefficient de dispersion = 100*σ / µ
Sexe
Mathématique et Biostatistique
Année académique 2016-2017
35
Mathématique et Biostatistique
Année académique 2016-2017
36
9
17/10/2016
Y a-t-il d’autres paramètres
descriptifs de la dispersion ?
Illustration:
interro de math 2013
Exemple de percentile: détection des cas de
gigantisme
Moyenne
10.94
P95
P05
Minimum
2.00
Maximum
19.00
Variance
Dev. Std
Mathématique et Biostatistique
Année académique 2016-2017
Q1
8.00
Q2
11.00
Q3
14.00
Q4
19.00
16.80
4.10
5.00
D2
7.80
D3
9.00
D4
10.00
D5
11.00
D6
12.00
D7
13.00
D8
15.00
D9 et Biostatistique
17.00
Mathématique
Année académique 2016-2017
37
Y a-t-il d’autres paramètres
descriptifs de la dispersion ?
D1
38
38
Y a-t-il d’autres paramètres
descriptifs de la dispersion ?
Il existe également des mesures permettant de
mesurer dans quelles proportions deux variables
aléatoires évoluent conjointement. La plus utilisée
est la covariance (ou la corrélation, qui est la
covariance standardisée).
La définition de la covariance entre X et Y est:
Cov(X,Y) = σXY = E[(X-µX)(Y-µY)]
Sur un échantillon, on calculera un estimateur
sXY de σXY.
S XY =
∑ (X
i
− X )(Yi − Y )
i
n −1
Un estimateur rXY du coefficient de corrélation
ρXY vaut:
rXY =
∑ (X − X )(Y − Y )
∑ (X − X ) (Y − Y )
i
i
i
2
i
2
i
i
Mathématique et Biostatistique
Année académique 2016-2017
39
Mathématique et Biostatistique
Année académique 2016-2017
40
10
17/10/2016
Interprétation de la covariance
Interprétation de la covariance
Y
Y
+
µY
-
+
+
-
µY
+
X
X
µX
µX
=> Covariance < 0 => Y ↓ quand X ↑
=> Covariance > 0 => Y ↑ quand X ↑
Mathématique et Biostatistique
Année académique 2016-2017
41
Y
+
+
-
42
Interprétations de la
covariance
Interprétation de la covariance
-
Mathématique et Biostatistique
Année académique 2016-2017
Comme on le voit, l’indépendance de deux
variables X et Y se traduit par σXY = 0 (sXY peut
ne pas être nul).
Exemple: calculez la covariance entre le poids et
la taille sur les données de l’exemple bovin. On
calcule que sXY = 4350.78. Le coefficient de
corrélation, rXY, vaut 0.755
µY
X
µX
=> Covariance ≈ 0 => Y stable quand X↑
Mathématique et Biostatistique
Année académique 2016-2017
43
Mathématique et Biostatistique
Année académique 2016-2017
44
11
17/10/2016
Exercices récapitulatifs
En résumé:
Calculez:
◦
◦
◦
◦
◦
Un ensemble de données peut être représenté par
une (des) variable(s) aléatoire(s).
Les variables aléatoires peuvent être synthétisées
par un (des) paramètre(s)
La variance de 2*X
La variance de k*X
La variance de (X+Y)
La variance de X
La variance de a*X+b*Y
– de position
– de dispersion
– ...
L’étape suivante est de décrire de manière complète
les variables aléatoires: on utilise alors les
distributions
Mathématique et Biostatistique
Année académique 2016-2017
45
Mathématique et Biostatistique
Année académique 2016-2017
46
12
Téléchargement