17/10/2016 Comment représenter les variables aléatoires (données) ? Paramètres descriptifs Représentation synthétique – Tables de fréquences Représentation graphique – Diagrammes de fréquences Cours VETE0432-1 Paramètres descriptifs – Position – Dispersion – Aplatissement, asymétrie, … Mathématique et Biostatistique Année académique 2016-2017 Quels sont les paramètres descriptifs de la position ? m= X = 2 Quels sont les paramètres descriptifs de la position ? Le plus connu est certainement la moyenne arithmétique Pour des données simples: ∑X Mathématique et Biostatistique Année académique 2016-2017 1 Une interprétation de la moyenne arithmétique X= ∑X i n i = ∑ Xi * i 1 n i i – Chaque donnée est pondérée dans la somme par sa fréquence relative (un estimateur de la probabilité) dans l’échantillon. n Exemple: jets d’un dé: 1 4 6 6 3 5 2 5 4 3 => m = (1 + 4 + … + 3) / 10 = 3.9 Mathématique et Biostatistique Année académique 2016-2017 3 Mathématique et Biostatistique Année académique 2016-2017 4 1 17/10/2016 Pourquoi ne pas toujours calculer la vraie moyenne de X ? Est-ce la vraie moyenne de X ? Dans cet exemple, on pourrait calculer la vraie moyenne de X (moyenne population): µ ne peut être calculée que si toutes les valeurs de X et les probabilités associées sont connues. Rappel: distributions = fonctions qui associent à chaque valeur de x la probabilité correspondante Exemple: si je jette 2 dés et que j’additionne les points obtenus, combien vais-je obtenir en moyenne ? µ = (1+2+3+4+5+6)/6 = 3.5 La moyenne calculée (m = 3.9) n’est qu’une estimation basée sur un échantillon de la moyenne réelle (µ = 3.5). Mathématique et Biostatistique Année académique 2016-2017 5 Mathématique et Biostatistique Année académique 2016-2017 Pourquoi ne pas toujours calculer la vraie moyenne de X ? Pourquoi ne pas toujours calculer la vraie moyenne de X ? A) Approche approximative (échantillonnage) B) Approche exacte (population) 6 – Je calcule la probabilité associée à chaque situation et je calcule la moyenne en considérant que chaque valeur est représentée avec une fréquence relative égale à la probabilité d’obtenir cette valeur – Je répète n fois (p.e. n = 20) fois l’expérience, et je calcule la moyenne arithmétique des valeurs obtenues P[(1;1)] = P[(1;2)] = … = P[(6;6)] = 1/36 P(S=0) = P(S=1) = P(S>12) = 0 P(S=2) = P[(1;1)] = 1/36 P(S=3) = P[(1;2) ou (2;1)] = P[(1;2)] + P[(2;1)] = 2/36 … Mathématique et Biostatistique Année académique 2016-2017 7 Mathématique et Biostatistique Année académique 2016-2017 8 2 17/10/2016 Pourquoi ne pas toujours calculer la vraie moyenne de X ? Pourquoi ne pas toujours calculer la vraie moyenne de X ? Conclusion: on ne calculera la vraie moyenne qu’à condition de disposer de toutes les valeurs de X et des probabilités associées. On fera alors: B) Approche exacte (population): suite X 2 3 4 5 6 7 8 9 10 11 12 P (*1/36) 1 2 3 4 5 6 5 4 3 2 1 P*X (*1/36) 2 6 12 20 30 42 40 36 30 22 12 µ = ∑ X i *π ( X i ) i La vraie moyenne est appelée: espérance mathématique. µ = Σ Pi*Xi= 252/36 = 7 Mathématique et Biostatistique Année académique 2016-2017 Si on considère que chaque donnée de l’échantillon a la même probabilité (soit, 1/n), les deux formulations sont identiques: i Exemple I: Dans une population de poissons, il y a 20% de poissons blancs et 80% de poissons d’autres couleurs. On mesure 6 poissons, avec les résultats cidessous. Quelle est la taille moyenne dans cette espèce ? 1 = ∑ X i * Pr ( X i ) n i La fréquence (1/n) d’une valeur Xi dans l’échantillon estime la probabilité Pr(Xi) de cette valeur dans la population. Mathématique et Biostatistique Année académique 2016-2017 10 Peut-on généraliser cette idée à d’autres situations ? Quel est le lien entre µ et m ? X = ∑ Xi * Mathématique et Biostatistique Année académique 2016-2017 9 29 cm 32 cm 34 cm 29 cm 25 cm 11 34 cm Mathématique et Biostatistique Année académique 2016-2017 12 3 17/10/2016 Peut-on généraliser cette idée à d’autres situations ? Peut-on généraliser cette idée à d’autres situations ? Solution I: Solution I: Les poissons colorés doivent avoir une pondération 4 fois plus élevée que les blancs puisqu’ils représentent 4 fois plus d’individus. On peut attribuer explicitement ces pondérations, et remplacer les probabilités par ces pondérations standardisés: X = ∑ X i * wi = ∑ X i * i i Wi ∑Wi Mathématique et Biostatistique Année académique 2016-2017 i =1 Non pondérée pi = 1 n pi = 1 Pondérée pi ≠ 1 n Une telle moyenne est une moyenne pondérée 13 Peut-on généraliser cette idée à d’autres situations ? Mathématique et Biostatistique Année académique 2016-2017 14 Peut-on généraliser cette idée à d’autres situations ? Solution I: dans notre exemple, on a: w1 = w4 = w5 w2 = w3 = w6 w2 = 4*w1 w1 + w2 + w3 + w4 + w5 + w6 = 1 dont la solution est: w1 = w4 = w5 = 1/15 w2 = w3 = w6 = 4/15 Mathématique et Biostatistique Année académique 2016-2017 n ∑ Solution I: ce qui conduit à: mp = (25 + 29 + 29 + 4*32 + 4*34 + 4*34)/15 = 32.20 cm = (0.8 * Xc) + (0.2 * Xb) Cette moyenne pondérée est donc calculée sur les données disponibles et tient compte de la connaissance qu’on a de la structure de la population 15 Mathématique et Biostatistique Année académique 2016-2017 16 4 17/10/2016 Peut-on généraliser cette idée à d’autres situations ? Exemple II: Moyenne pour un étudiant de 1BMV ? Cours Anglais Anim et Soc Biologie Chimie Physique Stat Note 15 15 16 13 12 14 Poids 20/110 10/110 20/110 20/110 20/110 20/110 Note P 2.73 1.36 2.91 2.36 2.18 2.55 Exemple III: Des individus ont été répartis par classe, d’après leurs mesures. Que vaut le poids moyen ? Classe 0 à 10 10 à 20 20 à 30 30 à 40 Moy. 14.09 Mathématique et Biostatistique Année académique 2016-2017 Solution III: chaque valeur de Xi peut être pondérée par sa fréquence relative (qui estime la probabilité) = moyenne de données groupées Xi 5 15 25 35 fi 8 20 22 5 X = ∑ X i * fri = ∑ X i * i i fi 8 20 22 5 Mathématique et Biostatistique Année académique 2016-2017 ∑f i 18 Y a-t-il d’autres paramètres descriptifs de la position ? Oui. Il existe plusieurs types de moyennes, ainsi que d’autres types de paramètres: Moyenne géométrique (problèmes multiplicatifs): Xg = n fi n ∏X i =1 i Exemple: Accroissements successifs d’une population sur 3 années (10%, 15%, 23%). X = 19.364 Mathématique et Biostatistique Année académique 2016-2017 Xi 5 15 25 35 17 Peut-on généraliser cette idée à d’autres situations ? Classe 0 à 10 10 à 20 20 à 30 30 à 40 Peut-on généraliser cette idée à d’autres situations ? 19 Mathématique et Biostatistique Année académique 2016-2017 20 5 17/10/2016 Y a-t-il d’autres paramètres descriptifs de la position ? Y a-t-il d’autres paramètres descriptifs de la position ? Exemple: Accroissements successifs d’une population sur 3 années (10%, 15%, 23%). En t = 0: X(0) = taille En t = 1: X(1) = X(0)*1.10 En t = 2: X(2) = X(1)*1.15 En t = 3: X(3) = X(2)*1.23 = X(0)*1.10*1.15*1.23 Si chaque année, on a le même accroissement α: X(3) = X(2)*α = X(1)*α² = X(0)*α³ 3 => α = 3 ∏ α Mathématique et Biostatistique i =1 i Année académique 2016-2017 21 Y a-t-il d’autres paramètres descriptifs de la position ? m1g Exemple: Manipulations effectuées par 3 laborantins (10 / jour, 15 / jour, 20 / jour) Temps moyen: tm = (1/10 + 1/15 + 1/20)/3 # moyen de manips/jour = (1/tm) Mathématique et Biostatistique Année académique 2016-2017 22 Un autre exemple en physique de la mh: Un mobile parcourt la moitié d’une distance à 40 km/h et l’autre moitié à 60 km/h. Quelle est sa vitesse moyenne ? F = m*a => a = F/m m1 1 1 n 1 = ∑ X h n i =1 X i Y a-t-il d’autres paramètres descriptifs de la position ? Un exemple en physique de la mh: T Moyenne harmonique (données/unité): a1 = g – T/m1 a2 = g – T/m2 a1 = -a2 T m2 m2g ⇒ g – T/m1 = T/m2 – g ⇒ T = g / [1/2*(1/m1+1/m2)] = mh*g Mathématique et Biostatistique Année académique 2016-2017 23 Mathématique et Biostatistique Année académique 2016-2017 24 6 17/10/2016 Y a-t-il d’autres paramètres descriptifs de la position ? Y a-t-il d’autres paramètres descriptifs de la position ? Mode: il s’agit de la valeur qui a la fréquence maximale. Médiane: il s’agit de la valeur qui a 50 % des valeurs qui lui sont inférieures. f(X) médiane 50% 50% Exemple: Classe modale Mode Classe 0 à 10 10 à 20 20 à 30 30 à 40 Xi 5 15 25 35 fi 8 Mode = 22 20 22 Mathématique et Biostatistique 5Année académique 2016-2017 Classe 0 à 10 10 à 20 20 à 30 30 à 40 25 Y a-t-il d’autres paramètres descriptifs de la position ? Xi 5 15 25 35 fi 8 Médiane 20 22 Mathématique et Biostatistique 5Année académique 2016-2017 ≈ 20 26 Quand employer la moyenne, la médiane, le mode ? Mesure d’asymétrie: Symétrie => mode = moyenne = médiane Asymétrie droite: Moy > Méd > Mode Exemple II: 31 poids de poulets adultes récoltés: 2.14 2.29 2.04 1.99 1.98 1.62 2.07 2.01 2.32 1.92 1.88 1.69 1.76 2.17 2.45 1.83 1.99 2.13 2.21 1.92 2.25 1.98 2.21 1.93 1.99 2.25 1.99 2.01 1.54 1.90 2.09 f(X) médiane mode On trie par ordre croissant: X 1.54 1.62 1.69 1.76 1.83 1.88 1.90 1.92 1.92 1.93 1.98 1.98 1.99 1.99 1.99 1.99 2.01 2.01 2.04 2.07 2.09 2.13 2.14 2.17 2.21 2.21 2.25 2.25 2.29 2.32 2.45 Moyenne = 2.018, médiane = 1.99 Mathématique et Biostatistique Année académique 2016-2017 X Exemple: La médiane est moins sensible aux données anormales (outliers) Plurimodalité Mathématique et Biostatistique 27 Année académique 2016-2017 28 7 17/10/2016 Quels sont les paramètres descriptifs de la dispersion ? Quels sont les paramètres descriptifs de la dispersion ? Le plus connu est certainement la variance Pour des données simples: s2 = ∑ (X Exemple II: mesure de la variance des variables quantitatives dans les données de l’exploitation bovine. – Age: – Poids: – Taille: −X) 2 i i n −1 s²age = 52.41 s²poids = 37459.89 s²taille = 885.24 (s = 7.24 mois) (s = 193.55 kilos) (s = 29.75 cms) Exemple I: jets d’un dé: 1 4 6 6 3 5 2 5 4 3 => m = (1 + 4 + … + 3) / 10 = 3.9 => s² = [(1 – 3.9)² + …] / 9 = 2.767 Mathématique et Biostatistique Année académique 2016-2017 Mathématique et Biostatistique Année académique 2016-2017 29 Quels sont les paramètres descriptifs de la dispersion ? 30 Peut-on calculer la vraie variance σ² plutôt que s² ? Remarques sur la variance – La division par (n-1) est liée au fait qu’on ne calcule pas les écarts par rapport à µ mais par rapport à m. – L’expression de cette mesure dans la même unité que les valeurs de X se fait en prenant la racine carrée de s², soit s, appelée déviation standard. – s² est un estimateur de la vraie variance, qui est l’espérance mathématique de (X-µ)², notée E(X-µ)² σ 2 = ∑ ( X i − µ )2 π ( X i ) Oui, à condition, comme pour µ, de connaître toutes les valeurs de X et les probabilités associées. – Exemple: jet d’un dé ? X=1 X=2 X=3 X=4 X=5 X=6 Proba = 1/6 Proba = 1/6 Proba = 1/6 Proba = 1/6 Proba = 1/6 Proba = 1/6 (1-3.5)² = 6.25 (2-3.5)² = 2.25 (3-3.5)² = 0.25 (4-3.5)² = 0.25 (5-3.5)² = 2.25 (6-3.5)² = 6.25 σ² = 17.5 / 6 – Exercice: σ² lors du jet de 2 dés ? (Sol: σ² = 35/6) i Mathématique et Biostatistique Année académique 2016-2017 31 Mathématique et Biostatistique Année académique 2016-2017 32 8 17/10/2016 Y a-t-il d’autres paramètres descriptifs de la dispersion ? Y a-t-il d’autres paramètres descriptifs de la dispersion ? Étendue (range) = écart entre la valeur maximale et la valeur minimale. Exemple: l’étendue du poids dans les données de l’exploitation bovine est de 949.0 kilos. Mathématique et Biostatistique Année académique 2016-2017 Quartiles = valeurs découpant la distribution en 4 parties de 25%. Exemple: les quartiles pour la taille dans les données de l’exploitation bovine sont: – – – – – 33 Q0 = 61.30 cms = Minimum Q1 = 116.66 cms. Q2 = 140.23 cms. = Médiane Q3 = 158.66 cms Q4 = 204.26 cms = Maximum Mathématique et Biostatistique Année académique 2016-2017 34 Y a-t-il d’autres paramètres descriptifs de la dispersion ? Exemple d’utilisation: « Box plot » Taille Déciles = valeurs découpant la distribution en 10 parties de 10%. Percentiles = valeurs découpant la distribution en 100 parties de 1%. Coefficient de dispersion = 100*σ / µ Sexe Mathématique et Biostatistique Année académique 2016-2017 35 Mathématique et Biostatistique Année académique 2016-2017 36 9 17/10/2016 Y a-t-il d’autres paramètres descriptifs de la dispersion ? Illustration: interro de math 2013 Exemple de percentile: détection des cas de gigantisme Moyenne 10.94 P95 P05 Minimum 2.00 Maximum 19.00 Variance Dev. Std Mathématique et Biostatistique Année académique 2016-2017 Q1 8.00 Q2 11.00 Q3 14.00 Q4 19.00 16.80 4.10 5.00 D2 7.80 D3 9.00 D4 10.00 D5 11.00 D6 12.00 D7 13.00 D8 15.00 D9 et Biostatistique 17.00 Mathématique Année académique 2016-2017 37 Y a-t-il d’autres paramètres descriptifs de la dispersion ? D1 38 38 Y a-t-il d’autres paramètres descriptifs de la dispersion ? Il existe également des mesures permettant de mesurer dans quelles proportions deux variables aléatoires évoluent conjointement. La plus utilisée est la covariance (ou la corrélation, qui est la covariance standardisée). La définition de la covariance entre X et Y est: Cov(X,Y) = σXY = E[(X-µX)(Y-µY)] Sur un échantillon, on calculera un estimateur sXY de σXY. S XY = ∑ (X i − X )(Yi − Y ) i n −1 Un estimateur rXY du coefficient de corrélation ρXY vaut: rXY = ∑ (X − X )(Y − Y ) ∑ (X − X ) (Y − Y ) i i i 2 i 2 i i Mathématique et Biostatistique Année académique 2016-2017 39 Mathématique et Biostatistique Année académique 2016-2017 40 10 17/10/2016 Interprétation de la covariance Interprétation de la covariance Y Y + µY - + + - µY + X X µX µX => Covariance < 0 => Y ↓ quand X ↑ => Covariance > 0 => Y ↑ quand X ↑ Mathématique et Biostatistique Année académique 2016-2017 41 Y + + - 42 Interprétations de la covariance Interprétation de la covariance - Mathématique et Biostatistique Année académique 2016-2017 Comme on le voit, l’indépendance de deux variables X et Y se traduit par σXY = 0 (sXY peut ne pas être nul). Exemple: calculez la covariance entre le poids et la taille sur les données de l’exemple bovin. On calcule que sXY = 4350.78. Le coefficient de corrélation, rXY, vaut 0.755 µY X µX => Covariance ≈ 0 => Y stable quand X↑ Mathématique et Biostatistique Année académique 2016-2017 43 Mathématique et Biostatistique Année académique 2016-2017 44 11 17/10/2016 Exercices récapitulatifs En résumé: Calculez: ◦ ◦ ◦ ◦ ◦ Un ensemble de données peut être représenté par une (des) variable(s) aléatoire(s). Les variables aléatoires peuvent être synthétisées par un (des) paramètre(s) La variance de 2*X La variance de k*X La variance de (X+Y) La variance de X La variance de a*X+b*Y – de position – de dispersion – ... L’étape suivante est de décrire de manière complète les variables aléatoires: on utilise alors les distributions Mathématique et Biostatistique Année académique 2016-2017 45 Mathématique et Biostatistique Année académique 2016-2017 46 12