Faculté de médecine de Sousse Module : Biostatistique PCEM2 2011-2012 Les statistiques descriptives Iheb Bougmiza 03 novembre 2011 Iheb Bougmiza Les statistiques descriptives 1 Iheb Bougmiza Les statistiques descriptives 2 Place des statistiques… Problème Recherche Question de recherche Type d’étude Population cible Échéancier Iheb Bougmiza Instr. mesure Budget Planifier Analyse données Éthique Les statistiques descriptives 3 Iheb Bougmiza Les statistiques descriptives 4 Approches Faire des exercices +++ « we learn by doing » « j’entends et j’oublie. Je vois et je retiens, je fais et je comprend » Le moins de mathématique possible et le plus orienté possible vers la résolution de problèmes concrets Iheb Bougmiza Les statistiques descriptives 5 Les objectifs A la fin du cours, l’étudiant sera capable de 1. 2. 3. 4. 5. 6. Définir la notion de variable Identifier les types de variables Présenter les données par des tableaux de fréquence Présenter les données par des graphiques Décrire les paramètres de tendance centrale Décrire les paramètres de dispersion Iheb Bougmiza Les statistiques descriptives 6 Au menu …. I) la notion de variables et de mesure 1. Définitions 2. Types de variables II) La présentation des données 1. Méthode tabulaire 2. Méthode graphique III) Les paramètres de réduction 1.Les paramètres de tendance centrale 2.Les paramètres de dispersion Iheb Bougmiza Les statistiques descriptives 7 La statistique en médecine… Outil pour répondre à plusieurs questions — Quelle est la valeur normale de la glycémie ? — Quel est le risque de complication d’une maladie X ? — Quel est le risque d’un traitement ? — Le traitement A est-il plus efficace que le traitement B ? Iheb Bougmiza Les statistiques descriptives 8 La variabilité est la règle (1)… Iheb Bougmiza Les statistiques descriptives 9 La variabilité est la règle (2)… La variabilité totale = variabilité expérimentale et variabilité biologique. Variabilité biologique = variabilité intra-individuelle + variabilité inter-individuelle La décision dans l’incertain (diagnostic, traitement, pronostic..) Iheb Bougmiza Les statistiques descriptives 10 Une petite réflexion… 8% des accidents mortels sur autoroute sont directement provoqués par des conducteurs ayant emprunté l’autoroute en sens inverse Cela signifie que 92% des accidents mortels sont imputables à des conducteurs ayant roulé en bon sens Conclusion : il est statistiquement moins dangereux de prendre l’autoroute en sens inverse !!!!!! Iheb Bougmiza Les statistiques descriptives 11 I) la notion de variables et de mesure 1. Définitions Une variable est une propriété commune aux individus de la population étudiée (taille, poids, glycémie, genre…) et qui varie en fonction du temps, du lieu et de l’individu Les modalités d'une variable sont les différentes valeurs que celle-ci peut prendre — variable situation familiale : célibataire, marié, veuf.. — variable genre: homme, femme. — variable prénom : El Fehem, Mohamed, Salah… Iheb Bougmiza Les statistiques descriptives 12 I) la notion de variables et de mesure 2. Types de variables Variable quantitative :les modalités s’expriment par des valeurs numériques — Variable continue :prend un nombre infini de valeurs à l’intérieur d’un intervalle donné (nombre réel) Taille, poids, glycémie… — Variable discrète : prend un nombre fini de valeur à l’intérieur d’un intervalle donné (nombre entier) Nbr de lits dans un hôpital, nbr d’enfants dans une famille On transforme parfois une variable continue en une variable discrète = Discrétisation = groupement par classe (plus simple mais perte de l’information) Iheb Bougmiza Les statistiques descriptives 13 I) la notion de variables et de mesure 2. Types de variables Variable qualitative : les modalités s’expriment par des qualités (genre, système ABO, état civil...) — ordinale : s’exprime en classes qui peut être ordonnée selon une échelle de valeurs (degré de satisfaction, niveau d’étude, NSE, taille vestimentaire) — Nominales : les classes ne peuvent pas être hiérarchisées. L’ordre de précision est arbitraire (ABO, état civile, religion…) — Binaires ne prennent que 2 valeurs (H/F, malade/sain…) appelées aussi: Variables dichotomiques, Variables booléennes: vrai ou faux ou Variables de Bernouilli (0/1) Iheb Bougmiza Les statistiques descriptives 14 I) la notion de variables et de mesure 2. Types de variables (résumé) Iheb Bougmiza Les statistiques descriptives 15 I) la notion de variables et de mesure 2. Types de variables (résumé) QUALITATIVE QUANTITATIVE ordinale continue nominale discrète temporelle binaire Iheb Bougmiza Les statistiques descriptives 16 Indiquez le type et l’échelle de mesure Applications : indiquer pour chaque variable l’échelle de mesure appropriée Variables Échelle Age de l’enfant en mois …… Gnre de l’enfant : G/F ….. Poids de l’enfant en gr ….. Origine : Monastir, Sousse, Mahdia ….. État vaccinal : non vacc/incomplet/complet …… Profession père : Agricult/Comercant/autres …… Iheb Bougmiza Les statistiques descriptives 17 Indiquez le type et l’échelle de mesure Applications : indiquer pour chaque variable l’échelle de mesure appropriée Variables Type et échelle Date de naissance …… Age en classe ….. Statut tabagique (Fumeur/Non Fumeur) ….. Couleur des yeux ….. Le nombre de dents …… Nationalité …… Iheb Bougmiza Les statistiques descriptives 18 II) La présentation des données brutes Comment les structurer et les interpréter ? Groupes Age (années) A 58 ; 55 ; 50 ; 49 ; 43 ; 43 ; 42 ; 40 ; 35 ; 32 B ; 39 ; 38 ; 36 ; 36 34 33 ; 31 ; 31 ; 30 ; 29 ; 27 ; 27 ; 26 ; 22 53 ; 51 ; 46 ; 44 ; 42 ; 39 C 29 ; 29 ; 28 ; 28 ; 28 ; 26 ; 24 ; 24 ; 24 ; 23 ; 22 ; 21 ; 20 ; 20 45 ; 45 ; 43 ; 41 ; 38 35 ; 33 ; 33 ; 32 ; 30 ; Iheb Bougmiza Les statistiques descriptives 19 II) La présentation des données 1. Méthode tabulaire Il faut présenter l’effectif absolu (faire un tri à plat) Il faut présenter la proportion d’individus dans une modalité par rapport au total = fréquence relative qui peut s’exprimer en pourcentages ou non Situation familiale Effectif (ou fréq. absolue) Fréquence relative Fréquence relative (%) Marié 390 0,46 46% célibataire 463 0,54 54% Total 853 1,00 100% C’est la même chose ! Iheb Bougmiza Les statistiques descriptives 20 II) La présentation des données 1. Méthode tabulaire Il faut faire attention aux données manquantes +++ Elles peuvent êtres liées : — Au refus de réponse — A des mesures non pratiquées ou oublis de saisie Tenter de récupérer le maximum de données manquantes En tenir compte dans le tableau de fréquences Iheb Bougmiza Les statistiques descriptives 21 II) La présentation des données 2. présentation graphique Méthode visuelle pour saisir rapidement la forme d’une distribution Le choix du graphique est déterminé par l’échelle de mesure de la variable Les Variables qualitatives : — Diagramme en bâtons — Diagramme en secteur Les Variables quantitatives — Histogrammes — polygones de fréquence Iheb Bougmiza Les statistiques descriptives 22 II) La présentation des données 2. Méthode graphique (diagramme en bâtons) Iheb Bougmiza Les statistiques descriptives 23 II) La présentation des données 2. Méthode graphique (diagramme en secteurs) Iheb Bougmiza Les statistiques descriptives 24 II) La présentation des données 2. Méthode graphique (Polygone de fréquences) Année de 1ère inscription Effectif 1998 8 500 1999 27 400 2000 42 300 2001 88 2002 115 2003 192 2004 381 Iheb Bougmiza Année de 1ère inscription 200 100 0 1998 1999 Les statistiques descriptives 2000 2001 2002 2003 2004 25 II) La présentation des données 2. Méthode graphique (Boite à moustaches) 100 Maximum 80 60 Q3 Médiane 40 Q1 20 Minimum 0 -20 N= 672 AGE Iheb Bougmiza Les statistiques descriptives 26 III) Les paramètres de réduction 1. Définition et types Ce sont des valeurs numériques qui résument les mesures d’une variable quantitative Paramètres de tendance centrale — Des mesures qui localisent « le centre » d’une distribution Paramètres de dispersion — Renseignent sur l’étalement de la série autour de la mesure de tendance centrale Iheb Bougmiza Les statistiques descriptives 27 III) Les paramètres de réduction 1. Définition et types Fréquences Tendances centrales MEDIANE MOYENNE MODE Iheb Bougmiza Dispersion ETENDUE Les statistiques descriptives ECART-TYPE 28 III) Les paramètres de réduction 2. Les paramètres de tendance centrale Où situeriez-vous le "centre" ? A la valeur 6, qui est la plus fréquente ? ou bien plus à droite, par exemple de façon à partager les observations en paquets égaux ? Si oui, où, exactement ? 7, 8, 9 ? Iheb Bougmiza Les statistiques descriptives 29 III) Les paramètres de réduction 2. Les paramètres de tendance centrale (la Moyenne) Mesure la plus connue Division de la somme de toutes les valeurs de l'échantillon par sa taille (n). Le point auquel il faudrait placer un support pour que la "planche" reste en équilibre. Iheb Bougmiza X 1 X 2 ... X n m N Les statistiques descriptives 30 III) Les paramètres de réduction 2. Les paramètres de tendance centrale (la Moyenne) Iheb Bougmiza Les statistiques descriptives 31 III) Les paramètres de réduction 2. Les paramètres de tendance centrale (la Moyenne) On compare deux classes de 10 élèves A 11 11 12 11 12 11 13 11 10 20 Moy 12,2 Iheb Bougmiza Les statistiques descriptives B 13 13 14 13 12 14 13 15 12 0 Moy 11,9 32 III) Les paramètres de réduction 2. Les paramètres de tendance centrale (la Moyenne) Inconvénient de la moyenne +++ Sensibilité aux valeurs extrêmes — — erreurs cas particuliers Données danseuse 1 danseuse 2 danseuse 3 danseuse 4 danseuse 5 danseuse 6 danseuse 7 danseuse 8 sumotori Moyenne Formule 70,78 =MOYENNE(A2:A10) 51 52 45 50 51 51 53 49 235 les danseuses ont de quoi se faire du sushi Iheb Bougmiza Les statistiques descriptives 33 Oops !!!!!!! A 11 11 12 11 12 11 13 11 10 20 Moy 11,3 Iheb Bougmiza B 13 13 14 13 12 14 13 15 12 0 Moy 13,2 Les statistiques descriptives 34 III) Les paramètres de réduction 2. Les paramètres de tendance centrale (la Médiane) Valeur pour laquelle il y a autant d'observations à gauche qu'à droite. La meilleure mesure de TC pour les variables ordinales Pour la calculer : — — on classe les observations par ordre croissant on cherche quelle est la valeur qui divise les observations en deux groupes égaux ? Si le nombre d'observations est pair: la médiane est la moyenne entre les observations n/2 et n/2 + 1 Si le nombre d'observations est impair: la médiane est la valeur (n+1)/2. Iheb Bougmiza Les statistiques descriptives 35 III) Les paramètres de réduction 2. Les paramètres de tendance centrale (la Médiane) 50% 50% Iheb Bougmiza 50% 50% Les statistiques descriptives 36 III) Les paramètres de réduction 2. Les paramètres de tendance centrale (la Médiane) Iheb Bougmiza Les statistiques descriptives 37 III) Les paramètres de réduction 2. Les paramètres de tendance centrale (la Médiane) La médiane se situe entre174 et 176 cm. Iheb Bougmiza Les statistiques descriptives 38 III) Les paramètres de réduction 2. Les paramètres de tendance centrale (la Médiane) A 11 11 12 11 12 11 13 11 10 20 Moy 12,2 Med 11,0 Iheb Bougmiza B 13 13 14 13 12 14 13 15 12 0 Moy 11,9 Med 13,0 Les statistiques descriptives 39 III) Les paramètres de réduction 2. Les paramètres de tendance centrale (le mode) La valeur la plus fréquente dans un échantillon. Si l'échantillon est divisé en classes, la classe modale constitue la classe la plus fréquente. Distributions bimodales, ou multimodales le mode est 6 Iheb Bougmiza Les statistiques descriptives 40 III) Les paramètres de réduction 2. Les paramètres de tendance centrale (le mode) Exemple : 156, 178, 189, 178, 152, 1, 34 : le mode = ?? Iheb Bougmiza Les statistiques descriptives 41 III) Les paramètres de réduction 2. Les paramètres de tendance centrale (les quartiles, déciles et percentiles) Quartiles : 3 valeurs qui partagent la distribution en 4 — 1er quartile : divise d’un coté les 25 % des valeurs les plus faibles et de l’autre coté les 75 % restants — 2ème quartile = Médiane — 3ème quartile : divise l’échantillon en ¾ - ¼ Déciles (9 valeurs : 10 %, 20 % ……., 90 %) Percentiles (1%, 2%.........99%) Iheb Bougmiza Les statistiques descriptives 42 III) Les paramètres de réduction 2. Les paramètres de tendance centrale (les quartiles, déciles et percentiles) 130, 124, 147, 160, 139, 105, 112, 137, 122, 134 1 – On range en premier lieu les données par ordre croissant Ordre 1 2 3 4 5 6 7 8 9 10 Valeur 105 112 122 124 130 134 137 139 147 160 Me 2 – On calcule la position de Q1 et Q3 P (q1) = n +1/ 4 = 2,75 P (q3) = (n +1/ 4) x 3 = 8,25 q1 = entre 112 et 122 mm q3 = entre 139 et 147 mm Iheb Bougmiza Les statistiques descriptives 43 III) Les paramètres de réduction 2. Les paramètres de dispersion Problème : — moyenne identique — étalement différent des données +++ Nécessité de mesurer la dispersion des données Iheb Bougmiza Les statistiques descriptives 44 III) Les paramètres de réduction 2. Les paramètres de dispersion (l’étendue) Mesure l'écart entre la valeur la plus élevée et la plus petite Etendue (Et.) = Valeur maximale (Vmax) -Valeur minimale (Vmin) — Exemple : 220 cm - 171 cm = 49 cm. Iheb Bougmiza Les statistiques descriptives 45 III) Les paramètres de réduction 2. Les paramètres de dispersion (l’étendue) Mesure l'écart entre la valeur la plus élevée et la plus petite Etendue (Et.) = Valeur maximale (Vmax) -Valeur minimale (Vmin) — Exemple : 220 cm - 171 cm = 49 cm. Iheb Bougmiza Les statistiques descriptives 46 III) Les paramètres de réduction 2. Les paramètres de dispersion (la variance) X 1 X-M -5,3 (X-M)2 28,2 3 -3,3 10,9 3 -3,3 10,9 4 -2,3 5,3 5 -1,3 1,7 5 -1,3 1,7 6 -0,3 0,1 7 0,7 0,5 8 1,7 2,9 9 2,7 7,2 10 3,7 13,6 10 3,7 13,6 11 4,7 22,0 Moyenne 0,0 9,1 Iheb Bougmiza Moyenne des carrés des écarts à la moyenne La variance n’est pas dans la même unité que les données — m m2 — kg kg2 2 2 ( x ) Les statistiques descriptives N 47 III) Les paramètres de réduction 2. Les paramètres de dispersion (l’écart-type) Caractérise la dispersion des valeurs de part et d’autre de la moyenne. Plus l'écart-type est grand, plus la dispersion est grande également. racine carrée de la variance même unité que les données Formule : Iheb Bougmiza 2 ( x ) N Les statistiques descriptives 48 Relation entre les trois indices (1) La relation dépend de la forme la distribution Distribution symétrique (ou à peu près) : mode = médiane = moyenne So ? Iheb Bougmiza Les statistiques descriptives 49 Relation entre les trois indices (2) Distribution asymétrique — Etalée à gauche : mode < médiane <moyenne Iiiik !!! Iheb Bougmiza http://www.faecesoftheworld.co.uk/ Les statistiques descriptives 50 Relation entre les trois indices (3) Distribution asymétrique — Etalée à droite : mode > médiane > moyenne Yuuuk !!! Iheb Bougmiza p://www.faecesoftheworld.co.uk/ Les statistiques descriptives 51 Notions essentielles… La variabilité est une caractéristique de toutes les mesures Pour la description d’une population — Méthode tabulaire — Méthode graphique (dépend de la nature des variables) — Méthode numérique : il est indispensable de définir des indices synthétiques Les paramètres de tendance centrale Les paramètres de dispersion Iheb Bougmiza Les statistiques descriptives 52 Iheb Bougmiza Les statistiques descriptives 53