Biostatistiques 1 – Licence Chapitre 1 : Statistique descriptive univariée Introduction Statistique : ensemble de méthodes scientifiques destinées à la collecte, la présentation et l’analyse de données. 1 Jeux de données Application 1 Résultats d’un questionnaire soumis à des étudiants de l’UM2 : Tailles − de 150 cm Effectifs 7 150 − 160 160 − 170 170 − 180 180 − 190 + de 190 cm 25 54 69 41 4 Application 2 Oiseaux observés le 15/02/2011 entre 8h et 9h sur un poste d’observation de l’étang de Thau : Espèces Aigrette Héron Goéland Cigogne Flamant Effectifs 17 23 253 9 46 Application 3 Quantité de principe actif en mg recueillie dans 20 pilules à la sortie d’une usine pharmaceutique : 102, 104, 97, 98, 98, 101, 103, 104, 99, 96, 100, 102, 100, 98, 100, 101, 100, 97, 101, 100. Application 4 Données extraites des déclarations d’impôts 2010 pour l’arrondissement de Béziers : 0 1 2 3 4 5 6 Nombre d’enfants Effectifs 6268 4233 5287 3019 1146 509 224 Application 5 Mentions des bacheliers 2011 au lycée de la Borde-Basse : Mention Passable Assez bien Bien Très bien Effectifs 61 42 33 18 2 2.1 Un peu de vocabulaire Population, échantillon, individus population individus échantillon Figure 1 – Population, échantillon, individus 1 – individus : objets de l’étude – population : ensemble des individus – échantillon : sous-ensemble des individus observés 2.2 Les variables statistiques – variable : caractère d’intérêt sur lequel porte l’étude – modalités de la variable : valeurs prises par la variable – domaine de la variable : ensemble de ses modalités Les variables peuvent être de différentes natures ou types : variables qualitatives nominales quantitatives ordinales continues – langues parlées – degré de satis- – températures – poids – couleurs faction – notes alphabétiques (A,B. . . ) discrètes – nombre d’enfants – Âge Exercice Pour les 5 applications, identifier la population, la variable et ses caractéristiques. 3 Organisation des données 3.1 Série statistique Quelques notations : – nom de la variable : X – taille de l’échantillon : n – observations de X dans l’échantillon (série statistique) : x = (x1 , · · · , xn ). – observations classées par ordre croissant : x(1) ≤ · · · ≤ x(n) . – modalités observées : m1 < m2 < . . . < mK . Exemple : Si x = (5, 3, 2, 5), alors n = 4, K = 3, x(1) = m1 = x3 = 2, x(2) = m2 = x2 = 3 et x(3) = x(4) = m3 = x1 = x4 = 5. Attention ! Ne pas confondre données brutes (série statistique) et distribution de la variable (liste des modalités accompagnées des effectifs ou fréquences correspondants). 3.2 Données groupées en classes Pour les variables quantitatives continues, les K modalités sont généralement des intervalles (ouverts, fermés, semi-ouverts) appelés classes. On les note C1 , · · · , CK . 3.3 Tableaux Objectif : synthétiser les données brutes. 3.3.1 Variables quantitatives A chaque modalité mk (avec k = 1, . . . , K) correspond : – effectif : nk , nombre d’individus pour lesquels X = mk – fréquence : fk = nnk , proportion d’individus pour lesquels X = mk – effectif cumulé (croissant) : Nk = n1 + · · · + nk , nombre d’individus pour lesquels X ≤ mk – fréquence cumulée (croissante) : Fk = f1 + · · · + fk = Nnk , proportion d’individus pour lesquels X ≤ mk 2 3.3.2 Variables quantitatives regroupées en classes A chaque classe Ck = [bk , Bk ] (ou ]bk , Bk [ ou ]bk , Bk ] ou [bk , Bk [) correspond : – effectif : nk , nombre d’individus pour lesquels X ∈ Ck – fréquence : fk = nnk , proportion d’individus pour lesquels X ∈ Ck – effectif cumulé (croissant) : Nk = n1 + · · · + nk , nombre d’individus pour lesquels X ≤ Bk – fréquence cumulée (croissante) : Fk = f1 + · · · + fk = Nnk , proportion d’individus pour lesquels X ≤ Bk – amplitude : ak = Bk − bk , c’est la longueur de Ck . – densité d’effectif : dk = nakk . – densité de fréquence : φk = – centre : ck = bk +Bk 2 , fk ak = dk n. c’est le milieu de Ck . Exercice Regrouper les données de l’application 3 en classes. On privilégiera les classes de même largeur. Identifier les frontières et les centres des classes. Idem pour l’application 1. 3.4 Graphiques Objectif : résumer l’information d’un tableau de données. 3.4.1 Variables nominales Modalités non classées ⇒ Ordre aléatoire Deux graphes possibles : – diagramme en bâtons : chaque modalité est représentée par un segment dont la hauteur est proportionnelle à l’effectif ou la fréquence de la modalité. – diagramme circulaire : chaque modalité est représentée par un secteur dont l’aire est proportionnelle à l’effectif ou la fréquence de la modalité. Exercice Illustrer l’application 2 par un diagramme circulaire. 3.4.2 Variables ordinales ou discrètes Diagramme en bâtons avec modalités classées par ordre croissant. Exercice Illustrer les applications 4 et 5 par des diagrammes en bâtons. 3.4.3 Variables continues Données groupées en classes ⇒ histogramme : chaque classe est représentée par un rectangle dont l’aire est égale à la fréquence de la classe (la hauteur de chaque rectangle est la densité de fréquence). Exercice Illustrer les applications 1 et 3 par un histogramme. 3.5 Courbe des fréquences cumulées Uniquement pour variables quantitatives, généralement continues. Graphe de la fonction Card{xi ≤ t} , pour tout t ∈ R. n C’est une ligne brisée reliant les points de coordonnées (b1 , 0), (B1 , F1 ), (B2 , F2 ), · · · , (BK , 1). On la prolonge aux extrémités par des demi-droites horizontales (cf figure 2). F (t) = Exercice Dessiner la courbe des fréquences cumulées pour les applications 1 et 3. 3 Figure 2 – Exemple d’histogramme et de courbe des fréquences cumulées pour une variable continue 4 4.1 Mesures de tendance centrale Moyenne (arithmétique) Pour des données brutes n 1X . x1 + · · · + xn x̄ = = xi . n n i=1 Exercice Calculer la moyenne pour l’application 3. Pour des données groupées, on calcule une approximation x̄c de la moyenne : K 1X . n1 c1 + · · · + nK cK x̄c = = nk ck . n n k=1 Exercice Calculer la moyenne pour l’application 1 puis la moyenne par classes pour l’application 3. Pour des données discrètes, x̄ et x̄c coïncident. Exercice Calculer la moyenne pour l’application 4. 4.2 Médiane La médiane m "coupe" les observations en deux ⇔ Card{xi ≤ m} = Card{xi ≥ m} Pour des données brutes . x( n+1 ) , si n est impair, m = x( n )2+x( n +1) 2 2 , si n est pair. 2 Exercice Calculer la médiane pour l’application 3. Si la variable est discrète, on peut utiliser les fréquences cumulées pour trouver m. Exercice Calculer la médiane pour l’application 4. 4 Pour des données groupées, on peut utiliser la courbe des fréquences cumulées pour trouver m. Exercice Calculer la médiane pour l’application 1. 4.3 Mode C’est la valeur la plus souvent observée. Pour des données groupées en classes, on prend le centre de la classe la plus observée. Exercice Calculer le mode pour chacune des applications. 4.4 Comparaison 4.4.1 Moyenne et médiane – Médiane : peu sensible aux valeurs extrêmes. – Moyenne : sensible aux valeurs extrêmes mais plus facilement calculable. Exercice Moyenne et médiane (TD1). 4.4.2 Exemples de distributions Les différentes valeurs centrales (moyennes, médiane, mode) peuvent être confondues ou différentes suivant les répartitions comme le montre l’exemple de la figure 3. (a) (b) Figure 3 – La moyenne (rouge), médiane (bleu) et mode (vert) de deux séries statistiques. La distribution (b) est dite symétrique. 5 5.1 Mesure de dispersion Variance et écart type empiriques La variance empirique d’un échantillon s2 est la moyenne du carré des écarts à la moyenne. Pour des données brutes n 1X . (x1 − x̄)2 + · · · + (xn − x̄)2 s2 = = (xi − x̄)2 . n n i=1 On a aussi !2 n 1X xi = x2 − x̄2 . n i=1 i=1 √ L’écart-type est la racine carrée de la variance : s = s2 . n 1X 2 s = xi − n 2 Exercice Calculer la variance et l’écart type empiriques pour l’application 3. 5 Pour des données groupées, on calcule une approximation s2c de la variance : K s2c 1X = nk c2k − n k=1 K 1X nk ck n !2 = x2c − xc 2 . k=1 Exercice Calculer la variance et l’écart type empiriques pour l’application 1 puis pour l’application 3 en classes. Pour des données discrètes, s2 et s2c coïncident. Exercice Calculer l’écart type empirique pour l’application 4. Ecart-type (TD1). 5.2 5.2.1 Ecart interquartile Les quantiles Soit α ∈]0, 1[. Le quantile d’ordre α est noté qα et on a Card{xi ≤ qα } = α. n On appelle quartiles les quantiles d’ordre 14 , 12 et 34 et déciles les quantiles d’ordre Pour des données brutes 1 10 , ..., 9 10 . . qα = x(bhc) + (h − bhc) x(bhc+1) − x(bhc) . où h = (n + 1)α et t 7→ bhc est la partie entière de h. Exercice Calculer le premier et dernier quartiles de l’application 3. Si la variable est discrète, on peut utiliser les fréquences cumulées pour trouver qα . Exercice Calculer le premier et dernier quartiles de l’application 4. Pour des données groupées, on peut utiliser la courbe des fréquences cumulées pour trouver qα . Exercice Calculer le premier et dernier quartiles de l’application 1. 5.2.2 Ecart interquartile Il mesure la dispersion des données : . eiq = q0.75 − q0.25 . 5.2.3 Boîtes à moustaches (boxplot) C’est un moyen rapide de représenter le profil d’une série statistique quantitative (cf fig. 4). q0.05 q0.25 m q0.75 q0.95 Figure 4 – Un exemple de boîte à moustaches Exercice Tracer les box-plot des applications 3 et 4. 6