CHAPITRE I. STATISTIQUES DESCRIPTIVES I.A RAPPEL THEORIQUE Variables quantitatives (métriques): les valeurs sont numériques Exemples: - continues: Taille d’un être humain, Poids d’un animal, Taux de cholestérol, Température, Vitesse d’un mobile, … - discontinues ou discrètes (dénombrements): Nombre d’enfants dans une famille, Nombre de têtes de bétail par exploitation agricole, Nombre de buts marqués par match au football … Mesures de LOCALISATION (tendance centrale, position), de DISPERSION, de FORME. Exemples: 1. Positions différentes: {1, 2, 3, 4, 5, 6, 7} et {8, 9, 10, 11, 12, 13, 14} 2. Dispersions différentes: {0, 3, 5, 6, 7, 9, 12} et {5, 5, 5, 6, 7, 7, 7} 3. Formes différentes: symétrie {4, 5, 6, 7, 8, 9, 10} asymétrie gauche {5, 5, 5, 5, 5, 8, 10} asymétrie droite {5, 7, 10, 10, 10, 10, 10} 25 Fréquence Fréquence 30 20 15 10 5 0 1 2 3 4 5 X DISTRIBUTION SYMETRIQUE 45 40 35 30 25 20 15 10 5 0 Fréquence 35 1 2 3 4 X DISTRIBUTION ASYMETRIQUE A GAUCHE 5 45 40 35 30 25 20 15 10 5 0 1 2 3 4 5 X DISTRIBUTION ASYMETRIQUE A DROITE Variables qualitatives (non métriques): les valeurs sont non numériques Exemples: - ordinales: Classe de BMI, Intensité d’une douleur (absente, minime, légère, modérée, sévère, extrême), Echelle de satisfaction d’un produit (insuffisant, moyen, bon, excellent), Poids d’un bébé (petit poids, poids moyen, poids élevé), Vélocité d’un chien (lent, assez rapide, rapide), … - nominales: Sexe, Etat-civil, Commune de résidence, Profession, Faculté d’un étudiant, Couleur des cheveux, Groupe sanguin, Fonction d’un chien (chien de compagnie, de chasse, d’utilité, …), … Moins riches en paramètres. On s’intéresse aux représentations graphiques pour visualiser la répartition entre les différentes modalités (appelées aussi items). Exemples: Camemberts, Tartes, … Exemple graphique: le mode d’accouchement pour les naissances en Communauté Française de Belgique de 1994 à 2003 (échantillon de 250.379 naissances). Mode d'accouchement ( ONE / 1994 -2003 / échantillon de 250379 naissances) forceps 10015 4% manœuvre sur siège 398 0% césarienne 40993 16% spontané 179513 72% ventouse 19460 8% Statistiques de localisation I) X: x1, x2, x3, ……, xn Petites séries de données II) X: x1*, x2*, x3*, ……, xc* Séries groupées – Variables continues Données regroupées en classes de centres x1*, x2*, ..., xc*; n1, n2 , n3, ……., nc n1+n2+n3+…...+nc = N III) X: x1, x2, x3, ……, xc n1, n2, n3, ……, nc Séries groupées – Variables discrètes Données répétées; n1+n2+n3+…...+nc = N 1. La moyenne arithmétique x Définition, pour les trois types de séries de données: n x = 1 xi I) n i1 (Petites séries) - II) x= 1 c n x* j N j 1 j (Données groupées, variable continue) III) x 1 c nx j N j 1 j (Données groupées, variable discrète) x est influencée par la présence de valeurs «extrêmes» Exemple: la série {10, 10, 10, 10, 80} donne une moyenne de (10+10+10+10+80)/5 = 24 qui ne reflète pas vraiment une valeur de tendance centrale. - La somme des écarts entre les valeurs observées et la moyenne est nulle n n n i 1 i 1 i 1 ( xi x ) xi x nx nx Influence d’une transformation linéaire: X Y =a X + b La moyenne d’une transformation linéaire des xi est la transformation linéaire de la moyenne . X → Y = a X + b => x → y = a x + b (yi = axi + b). Vérification: Rappel préalable: 3 propriétés de ∑ 1) ∑ (xi + yi) = ∑ xi + ∑ yi 2) ∑ (axi) = a ∑ xi 3) ∑ a = na (! Remarque: lorsqu’il n’y a pas de confusion possible, nous notons n x i 1 Démonstration: y = å yi n = å (ax i + b) n i = ∑ x i) = ax + b 2. La médiane x (prononcer “x tilde”) La moitié des observations lui sont inférieures (ou égales) et la moitié supérieures (ou égales) a) Pour les séries non groupées en classes, la série étant ordonnée: - Si n est impair: la médiane est l’observation de rang (n + 1)/2: x = x ((n+1)/2) Exemples: {2, 2, 3, 4, 5} {1, 7, 11} - x= 3 x =7 Si n est pair: la médiane est la moyenne arithmétique des observations x(n/2) et x ((n/2)+1): x = (x(n/2) + x((n/2)+1)) / 2 Exemples: {2, 2, 3, 3} {1, 1, 1, 3, 3, 7, 8, 157} x = (2+3)/2 = 2,5 x = (3+3) / 2 = 3 b) Pour les données groupées en classes, la «classe médiane» est la classe qui contient la médiane. - La médiane possède une grande stabilité par rapport aux valeurs extrêmes, (parfois aberrantes): elle n’est pas influencée par la valeur de telles observations. x Exemple: la série {9, 10, 10, 11, 80} a comme moyenne 24 et comme médiane 10. 3. Le mode (cf. «à la mode», …) xM a) Pour les séries non groupées en classes, le(s) mode(s) est (sont) la ou les valeur(s) observée(s) de fréquence maximum b) Pour les séries groupées en classes, la ou les classe (s) modale(s) est (sont) la ou les classes de fréquence maximum si l’intervalle de classe est constant ou de fréquence unitaire maximum si cet intervalle n’est pas constant En fonction du nombre de modes, on parle de distribution unimodale, bimodale, … - Le mode est une caractéristique intéressante à connaître notamment dans le cas de distributions asymétriques. (C’est un paramètre également utilisable dans le cas de données qualitatives nominales!). FREQ.ABS. 25 20 15 10 5 0 1 2 3 4 5 X / LE MODE UNIQUE = 3 Le mode peut ne pas exister: exemple la série {1, 2, 3, 4, 5} Il peut y en avoir 2: exemple la série {1, 1, 3, 3, 8, 11} bimodale) Ou plus de 2: exemple la série {1, 1, 1, 2, 2, 2, 7, 7, 7, 23} trimodale) xM = ??? xM = 1 et 3 (distribution xM = 1, 2 et 7 (distribution 4. Quantiles Cas particuliers: Médiane, Quartiles, Déciles, Centiles, Percentiles, … Les quantiles d’ordre k: Q1, Q2, ……, Q k-1 divisent la série statistique ordonnée en k parties de même effectif. Les quartiles inférieur, moyen (=médiane) et supérieur divisent la série ordonnée en 4 parties de même effectif. Les déciles D1, D2,……, D9 la divisent en 10 parties; les centiles en 100. Le qème percentile d’une distribution est la valeur en dessous de laquelle q% des observations se trouvent (lui sont inférieures ou égales). La médiane est donc le 50 ème percentile, le premier quartile est le 25ème percentile, le 3ème quartile est le 75ème percentile. Statistiques de dispersion Elles quantifient les écarts autour de la moyenne. Des séries statistiques peuvent avoir les mêmes moyennes mais se différencier par la dispersion des valeurs observées autour de cette moyenne. Exemples: les 3 séries ont la même moyenne mais leurs dispersions sont très différentes Série 1: {10, 10, 10, 10, 10} → x = 10 Série 2: {5, 5, 10, 15, 15} → x = 10 Série 3: {0, 0, 10, 20, 20} → x = 10 1. L’étendue E (ou «l’amplitude» ou en anglais, le «range») E = x (n) – x (1) L’étendue se définit comme la différence entre la plus grande et la plus petite des valeurs observées (la série étant ordonnée, le maximum = x(n) et le minimum = x(1)). Elle est sensible à la présence de valeurs aberrantes et ne peut donc, en conséquence, qu’être retenue pour des séries dont les observations sont réparties «convenablement» (sans valeurs extrêmes). Illustration: │********************___________________________________________*│ x(1) x(n) L’étendue ne convient pas ici │*_________________________***********_______________________*│ x(1) x(n) L’étendue ne convient pas ici │*___*__*__*___*__**_**___***__****_***_**_*_**___**__*___*__*__│ x(1) x(n) L’étendue convient, les données sont bien réparties 2 2. La variance: sx Construction: 1) Ecarts à la moyenne: xi - x 2) Mise au carré: (xi - x )² 3) Sommation: ∑ (xi - x )² 4) Division par n-1 (inférence statistique): 1/(n-1) * ∑ (xi - x )² Statistique plus informative que l’étendue: elle tient compte de chacune des données. Selon le type de série de données: sx2 1 n ( x x )2 i n 1 i 1 (Petites séries) sx2 1 c n ( x* x)2 j j N 1 j 1 (Données groupées, var. continue) sx2 1 c n ( x x )2 j j N 1 j 1 (Données groupées, var. discrète) Formule « pratique» de la variance Pour les séries non groupées: sx2 1 n 1 n 1 n ( xi ² nx ²) = ( xi ² ( xi )2 ) n 1 i 1 n 1 i 1 n i 1 Démonstration: 1 n 1 n 1 n 2 ( xi x ) = ( xi ² 2 xi x x ²) = ( xi ² 2 x (nx ) nx ²) = s = n 1 n 1 n 1 i 1 i 1 i 1 n n n 1 1 1 ( xi ² nx ²) = ( xi ² ( xi )2 ) n 1 i 1 n 1 i 1 n i 1 2 x Influence d’une transformation linéaire: X Y = a X + b sx2 s y2 a2 sx2 (rappel: la moyenne devenait y ax b ) (Le paramètre «b» n’intervient donc pas pour la variance) Vérification: s y2 1 n ( y y)2 = 1 n (ax b (ax b))2 = 1 n (ax ax )2 i i i n 1 n 1 n 1 i 1 i 1 i 1 a² n ( xi x )2 a ² sx2 = n 1 i 1 L’unité dans laquelle s’exprime la variance vaut le carré de l’unité utilisée pour les valeurs observées: ennuyeux! C’est pourquoi, on définit l’écart-type, racine carrée de la variance. 3. L’écart-type ou déviation standard: sx sx sx2 - Il possède une interprétation intéressante pour la distribution normale (voir graphique cidessous, pour la normale de moyenne 0 et d’écart-type 1). Ainsi, par exemple, la probabilité de se trouver dans un intervalle - d’un écart-type autour de la moyenne est égale à 0,6827, soit 68,27% - de deux écarts-type autour de la moyenne vaut 0,9545, soit 95,45% - de trois écarts-type autour de la moyenne vaut 0,9973, soit 99,73% Densité de probabilité de la loi normale N ( 0 ; 1) 0.45 Fonction densité de probabilité 0.40 0.35 0.30 68,27 % 0.25 -1 E-T 1 E-T 0.20 0.15 0.10 95,45 % 2 E-T -2 E-T 0.05 -3 E-T 3 E-T 99,73 % 0.00 X Remarque: pour la distribution normale, la probabilité de s’écarter de plus de deux écarts-type de la moyenne est de l’ordre de 5% (4,55% exactement). Dans le cas d’une distribution continue unimodale, la probabilité de s’écarter de plus de trois écartstype de la moyenne est de l’ordre de 5% (4,94%). Influence d’une transformation linéaire: X Y = a X + b sx → sy =│a│sx où │a│ désigne la valeur absolue de a = a² (Le paramètre «b» n’intervient donc pas pour l’écart-type) 4. Le coefficient de variation: cv cv = sx x Coefficient sans dimension; il est défini pour des variables à valeurs > 0 et est souvent exprimé en %. - Exemple: x = 1 000, x = 100 000, sx = 100, sx = 100, cv = 0,1(= 100/1 000) cv = 0,001 (= 100/100 000) Notion de variable centrée-réduite La variable Z X x mesure l’écart par rapport à la moyenne en unités d’écart-type: sx c’est la variable centrée-réduite, de moyenne 0 et d’écart-type 1. Cette variable Z est sans dimension et est indépendante des unités choisies. Elle s’avère donc fort utile pour comparer des distributions. Exemple: Un étudiant a obtenu 84 (sur 100 points) à un examen de mathématique où la moyenne était de 76 et l’écart-type 10. En statistique, il a obtenu 90 (sur 100 points), la moyenne générale était de 82 et l’écart-type de 16. Question: où l’étudiant est-il relativement le plus doué? On calcule ses notes centrées–réduites: = (84 – 76) / 10 = 8 / 10 = 0,8 = (90 – 82) / 16 = 8 / 16 = 0,5 En mathématique En statistique L’étudiant se situe à 0,8 fois l’écart-type réduit au-dessus de la moyenne en mathématique, et seulement 0,5 fois en statistique. Il est donc relativement meilleur en mathématique. Cette notion de variable centrée-réduite sera très utilisée par la suite. Remarque: justification du fait qu’une variable centrée-réduite a pour moyenne 0 et écart-type 1. Comme Z Z= 1 sx X x , on effectue en réalité une transformation linéaire de variables: sx X x sx (c ' est Dès lors: z = a x + b = Z aX b avec a 1 x =0 x sx sx Représentations graphiques nj = effectif (fréquence absolue) Nj = effectif cumulé n’j = nj / N = proportion (fréquence relative) N’j = Nj /N = proportion cumulée A. Données groupées, variable discrète Diagrammes en bâtons. 1 sx et b x ) sx et sz=│ a │ sx = 1 sx sx = 1 Nombre de familles Nombre de garçons dans les familles de 8 enfants ( n = 53680 ) Source : "Que sais-je?" n° 281 de Statistique 16000 14000 12000 10000 8000 6000 4000 2000 0 14959 11929 10649 6678 5331 215 0 2092 1485 1 2 3 4 5 6 7 342 8 Nombre de garçons B. Données groupées en classes, variable continue Notation des classes:] xj, xj+1]. Le nombre de classes est égal à c. Chaque classe est caractérisée par les éléments suivants: son centre x*j , sa longueur Ij, sa limite inférieure xj et sa limite supérieure xj+1, son effectif nj nj = effectif de la classe j (fréquence absolue) n’j = proportion (fréquence relative) de la classe j (= nj / N) Nj = effectif cumulé de la classe j (= n1 + n2 + …. + nj) N’j = proportion cumulée de la classe j (= Nj / N ou n’1 + n’2 + ... n’j) L’histogramme des effectifs: suite de rectangles associés à chacune des classes j et dont la surface est égale à nj. Si Ij est la longueur de la classe j, la hauteur du rectangle associé est nj / Ij. Il s’agit donc d’un effectif par unité de classe. La surface totale des rectangles est égale à N. L’histogramme des proportions: suite de rectangles associés à chacune des classes j et dont la surface est égale à n’j. Si Ij est la longueur de la classe j, la hauteur du rectangle associé est n’j / Ij. Il s’agit donc d’une fréquence par unité de classe. La surface totale des rectangles est égale à 1. Le diagramme, ou polygone, des effectifs cumulés: on associe à chaque fin de classe j un point dont l’ordonnée vaut Nj. L’ensemble de ces points sont joints par des segments de droite. Le diagramme, ou polygone, des proportions cumulées: on associe à chaque fin de classe j un point dont l’ordonnée vaut N’j. L’ensemble de ces points sont joints par des segments de droite. Remarque: si N tend vers l’infini et que le nombre de classes augmente de telle sorte que la longueur de classe tende vers 0, les proportions tendent vers les probabilités, l’histogramme des proportions tend vers le graphique de densité de probabilité (cf. chap.III), le diagramme des proportions cumulées tend vers le graphique de la fonction de répartition (cf. chap.III). I.B. EXERCICES I.1 Dans une enquête sur les otites aiguës, on recueille chez un enfant les 9 informations suivantes L’âge: 4 ans Le sexe: féminin La profession du père: commerçant La commune de résidence: Bruxelles L’antécédent familial d’allergie (oui / non): oui La consommation de tabac du père (en cigarettes par jour sous la forme: de 0 à 9, de 10 à 19, plus de 20): 10 à 19 - Le nombre d’otites depuis 1 an: 2 - Le déficit auditif moyen: 11,5 décibels - La douleur articulaire (absente, modérée, intense): modérée - Déterminer, parmi ces 9 variables, celles qui présentent un caractère qualitatif ordinal. I.2 Voici les âges (exprimés en années) d’un groupe de sujets: 20 / 23 / 28 / 21 / 20 / 18 / 29 / 20 / 24 / 22. a) Calculer les statistiques classiques de position (moyenne, médiane, mode) et de dispersion de ces données (étendue, variance, écart-type, coefficient de variation). Fournir les résultats à deux décimales. b) Si on remplaçait la valeur 29 par 39, déterminer, parmi les statistiques calculées, celles qui seraient modifiées par ce changement I.3 Un chercheur souhaite étudier la température X en degrés Celsius d’un groupe de patients présentant de la fièvre. Pensant simplifier ses calculs, il procède au changement de variable X 36 . Il obtient, pour Y, une moyenne de 1 et une variance de 0,64. 2,5 Calculer la moyenne et l’écart-type de la variable X Y I.4 On s’intéresse au temps d’apparition X (exprimé en minutes) des symptômes d’empoisonnement par des champignons vénéneux. On forme les classes suivantes: Classes de temps d’apparition Effectifs (50;70] 10 (70;90] 20 (90;110] 41 (110;130] V (130;150] 10 L’effectif de la classe (110;130] est un paramètre appelé V, qui est à déterminer en fonction des contraintes décrites ci-dessous. a) La moyenne de X vaut 100 et la variance de X vaut 480 → est-il possible de trouver une valeur de V? Si oui, la fournir. b) La moyenne de X est supérieure à 100 et la variance de X vaut 480 → est-il possible de trouver une valeur de V? Si oui, la fournir. I.5 On s’intéresse à la distribution des âges de 7 personnes, 5 médecins et 2 kinésithérapeutes, participant à une réunion médicale. On dispose des renseignements suivants: - la distribution des âges est unimodale, le mode étant de 44 ans - un médecin a l’âge médian, 46 ans - les deux kinésithérapeutes ont l’âge moyen, soit 47 ans Peut-on, sur base de ces informations, en déduire l’âge du médecin qui préside la réunion et qui est la personne la plus âgée assistant à la réunion? I.6 Un service de médecine interne d’un hôpital nous a faxé les renseignements suivants relatifs aux jours d’admission en hospitalisation pour la période du lundi 15 août au vendredi 19 août 2011. Certaines données ont été hélas mal imprimées! Voici les données disponibles: Jour nj = effectif Nj’ = proportion cumulée Lundi 15 août (férié) 0 0 Mardi 16 août Mercredi 17 août 12 0,60 Jeudi 18 août 9 Vendredi 19 août 3 Peut-on, sur base de ces seuls renseignements déterminer le nombre de patients qui ont été admis le mardi 16 août 2011? I.7 Un service de maternité s’interroge sur le poids de naissance des nouveau-nés. Pour répondre à cette question, les poids en grammes de 100 nouveau-nés sont relevés de la manière suivante Classes (en grammes) Effectifs (2000;2500] 6 (2500;3000] 22 (3000;3500] 33 (3500;4000] 31 (4000;4500] 7 (4500;5000] Total 1 a) Calculer les proportions, les effectifs cumulés et les proportions cumulées b) Repérer dans quelles classes se trouvent le premier quartile, la médiane et le troisième quartile. I.8 On s’intéresse à la moyenne et à l’écart-type de la durée d’hospitalisation, mesurée en jours, pour une maladie rare. On ne dispose plus des données individuelles mais on sait que pour 10 patients atteints de cette maladie la somme des 10 durées de séjour valait 670 et la somme des carrés des 10 durées de séjour valait 82.116. On reçoit entre-temps la donnée pour d’hospitalisation de 122 jours. un onzième patient qui a connu une durée Déterminer, la moyenne et l’écart-type (à 2 décimales) de la durée d’hospitalisation pour l’ensemble des 11 patients. 100 I.9 Dans le graphe ci-dessous, on a représenté les âges (en mois) d’enfants traités en kiné respiratoire pour une bronchite spastique. Que vaut la moyenne, exprimée avec deux décimales? Que vaut la valeur de l’ordonnée de la 1ère classe sachant que la proportion de cas tombant dans cette classe vaut 0,27 ? Indiquer les unités de cette ordonnée. 27% 23% 14% 9% 9% 7% 7% 2% 2% 0% 3 8 13 18 23 28 33 38 0% 43 48 0% 53 0% 58 63 68 Âge (en mois) I.10 La répartition des célibataires (échantillon) selon leur âge est fournie par le tableau suivant Classes d’âge (15-30] (30-40] (40-50] (50-60] (60-70] (70-80] (80-90] effectifs 4500 450 400 230 200 M 20 Sachant que l’âge moyen est égal à 28,764626 ans, à quel effectif correspond la valeur manquante M? I.11 Dans un hôpital, la durée moyenne du séjour des patients est de 9 jours et la durée médiane de 7 jours. La durée la plus fréquente est de 5 jours. A partir de ces éléments, déterminer la proposition qui est vraie parmi les 4 proposées ci-dessous: 1. 2. 3. 4. l’écart-type de la durée de séjour est de 2 jours approximativement 50% des patients ont été hospitalisés pour une durée inférieure à 5 jours la médiane est très influencée par les séjours de longue durée la distribution des durées d’hospitalisation présente un caractère asymétrique I.12 Soit un ensemble de n (n > 3) observations quantitatives dont l’écart-type est nul. Déterminer la proposition vraie parmi les 6 propositions suivantes 1. 2. 3. 4. toutes les valeurs observées sont différentes les unes des autres toutes les valeurs observées sauf une sont égales entre elles toutes les valeurs observées sont nécessairement nulles toutes les valeurs observées sont égales à la médiane 5. le coefficient de variation de la série de données est égal à 1 6. toutes les valeurs observées sont telles que leurs n écarts par rapport à la moyenne sont constants et non nuls. I.13 Une étude a été réalisée dans un service d’obstétrique portant sur un échantillon de 20 bébés nés prématurément. On a notamment mesuré le périmètre crânien et on a calculé la moyenne (23 cm) et la somme des carrés des observations (10.701,6 cm²). On a constaté par la suite qu’une des observations initiales avait été transcrite de manière erronée: la valeur considérée dans les calculs était de 26 cm alors que la valeur exacte était en réalité de 22 cm. Pour la série tenant compte de la donnée corrigée, donner la moyenne (avec une décimale) et l’écart-type (avec deux décimales). I.14 On a répertorié le nombre de frères et sœurs de tous les étudiants d’une même promotion. Nombre de frères et sœurs 0 1 2 3 4 Total Effectif 38 94 75 48 5 260 a) Calculer la moyenne (à 5 décimales) et la médiane de cette distribution b) Six étudiants absents lors du recueil des données annoncent qu’ils ont respectivement 2, 3, 2, 3, 4 et 2 frères et sœurs. Calculer la moyenne (à 5 décimales) et la médiane de la série de données complétée. Comparer avec les valeurs précédemment calculées. I.15 La variance d’une variable quantitative continue X a été calculée sur un ensemble de n (> 2) observations. Cette variance est 1. nulle dès lors que la variable X possède une moyenne et une médiane nulle 2. nulle si X est une variable centrée-réduite 3. inchangée si on centre la variable 4. toujours supérieure à la moyenne de X 5. un réel positif compris dans l’intervalle [0;1] 6. est d’autant plus grande que l’effectif n augmente 7. est d’autant plus grande que l’effectif n diminue 8. toujours égale à 1 Déterminer la proposition vraie parmi les 8 propositions énoncées. I.16 Exercice «ouvert»: Le tableau suivant reprend pour un échantillon de 18 marques d’eau minérale mises en vente sur le marché, leurs compositions en Na (Sodium), Ca (Calcium), Mg (Magnésium) exprimées en mg/litre, ainsi que leur pH (potentiel Hydrogène). 11 d’entre elles présentent un caractère non gazeux (eau plate), tandis que les 7 autres se caractérisent par un caractère gazeux (eau gazeuse). marque Chaudfontaine Evian Hépar Orée du Bois Saint-Amand San Benedetto Na 44,00 6,50 14,20 43,00 28,00 11,70 Ca 65,00 80,00 549,00 234,00 176,00 128,90 Mg 18,00 26,00 119,00 70,00 46,00 17,90 pH 7,60 7,20 7,20 7,20 7,20 7,50 type PLATE PLATE PLATE PLATE PLATE PLATE Source Beaupré Spa Reine Thonon Vittel Volvic Badoit Cristalline Perrier Saint-Alban Saint-Léger Vichy Célestins Vichy Saint-Yorre 3,00 3,00 3,00 4,70 11,60 165,00 84,00 11,80 350,00 93,00 1172,00 1708,00 58,00 4,50 108,00 202,00 11,50 190,00 67,00 155,00 220,00 64,00 103,00 90,00 24,00 1,30 14,00 43,00 8,00 85,00 26,00 6,80 70,00 26,00 10,00 11,00 7,60 6,00 7,40 7,30 7,00 6,00 5,20 5,50 6,50 5,20 6,80 6,60 PLATE PLATE PLATE PLATE PLATE GAZEUSE GAZEUSE GAZEUSE GAZEUSE GAZEUSE GAZEUSE GAZEUSE Commenter les statistiques descriptives de base obtenues sur ces données à l’aide du logiciel SPSS: I.17 Un chercheur prépare une étude randomisée dans laquelle deux groupes de patients seront soumis à deux thérapies différentes A et B. Le chercheur a reçu l’accord de 57 patients pour participer à l’étude. Il décide d’utiliser la table de nombres aléatoires pour assigner à chacun d’eux l’un des deux traitements ( voir fascicule des tables, première table I). a) S’il prend comme règle de conduite d’assigner le traitement A pour les nombres de 0 à 4 et B pour les nombres de 5 à 9, en commençant par la première ligne de la table, combien de patients y aura-t-il dans chaque groupe? A quel traitement sera assigné le 9ème patient? Et le 16ème? b) S’il prend comme règle de conduite de commencer à la 14ème ligne (14 étant le nombre donné au hasard par une personne «innocente») et d’assigner le traitement A pour 0 et les nombres pairs, et B pour les nombres impairs, combien de patients y aura-t-il dans chaque groupe? A quel traitement sera assigné le 9ème patient? Et le 16ème? I.18 Questions à choix multiple (une seule bonne réponse par question) a) L’étendue d’une variable quantitative X a été calculée sur un ensemble de n observations. Cette étendue est 1. 2. 3. 4. 5. un nombre négatif ou nul toujours strictement inférieure à la variance fortement influencée par les valeurs extrêmes toujours strictement supérieure à la moyenne un des paramètres de tendance centrale parmi les plus simples b) Dans un ensemble de n observations d’une variable quantitative X comportant au moins deux valeurs distinctes, on peut affirmer que 1. 2. 3. 4. 5. la médiane n’est jamais nulle la moyenne arithmétique n’est jamais nulle l’écart-type n’est jamais nul la moyenne est toujours supérieure à la médiane l’écart-type est toujours égal à l’étendue c) Le diagramme de fréquence cumulée est particulièrement utile dans la détermination de 1. 2. 3. 4. 5. La moyenne La médiane Le mode L’écart-type La variance d) Soit un groupe de 15 sujets ayant obtenu une moyenne égale à 80 points à un test noté sur 100 points. Si nous enlevons 80 points à chacun des sujets, la variance 1. 2. 3. 4. 5. augmente diminue ne change pas devient égale à 0 il est impossible de répondre à cette question avec les données fournies e) Pour un ensemble de 10 observations d’une variable quantitative, 1. 2. 3. 4. 5. 6. La médiane correspond toujours à une observation de l’ensemble La médiane peut correspondre à une observation de l’ensemble La médiane ne correspond jamais à une observation de l’ensemble La moyenne correspond toujours à une observation de l’ensemble Le mode ne correspond jamais à une observation de l’ensemble La moyenne ne correspond jamais à une observation de l’ensemble f) Les quatre statistiques suivantes: étendue, variance, écart-type et écart interquartile ont été calculées sur un ensemble de n observations d'une variable continue X. 1. Si toutes les observations sont exprimées en unités centrées réduites, ces 4 statistiques sont égales à 1 2. Si ces 4 statistiques sont nulles, les n observations sont toutes nécessairement nulles 3. Si on ajoute une même valeur constante non nulle à chacune des observations, les 4 nouvelles statistiques obtenues sont identiques aux 4 anciennes 4. Ces 4 statistiques s’expriment toutes dans les mêmes unités que les observations 5. Si on ajoute une observation aux n précédentes, ces 4 statistiques augmentent 6. Ces 4 statistiques sont des quantités positives ou nulles et nécessairement égales entre elles si leur moyenne est égale à leur médiane I.19 On désire comparer, dans un contexte déterminé, la rapidité de jeunes enfants selon leur sexe. A cet effet, on donne à un groupe «représentatif» de 12 filles et à un groupe «représentatif» de 12 garçons le même parcours d’obstacles à effectuer et on mesure le temps mis par chacun d’entre eux pour le parcourir. Les résultats obtenus (temps exprimé en secondes) sont les suivants: Filles 32 26 25 29 35 40 25 30 41 27 40 28 Garçons 45 40 38 29 42 39 31 37 32 28 41 48 a) Déterminer la valeur de la médiane du temps de réalisation de l’exercice chez les filles et les garçons b) Calculer les temps moyens de parcours de réalisation de l’exercice chez les filles et les garçons c) Peut-on conclure à une différence de rapidité entre les filles et les garçons sur base des résultats obtenus? I.20 On s’intéresse à la durée de séjour (exprimée en jours) à l’hôpital Erasme de patients présentant une hernie discale lombaire. Parmi ceux-ci, un échantillon représentatif de 100 sujets a été retenu. Les graphiques suivants ont été réalisés (boîte à moustaches, voir § II.D, et diagramme en bâtons). Quelle est la proposition fausse parmi les propositions suivantes? 1. le premier quartile est égal à 5 jours 2. la distribution observée présente un caractère asymétrique 3. la moyenne de la durée de séjour est > 7 jours 4. le mode est égal à la médiane qui vaut 7 jours 5. l’écart interquartile est de 5 jours 6. la première valeur éloignée, à partir du bord supérieur de la boîte, est égale à 18 jours 7. quatre patients présentent une durée de séjour extrême I.21 Les six diagrammes en bâtons ci-dessous représentent six distributions d’un score variant de 0 à 10 mesuré sur 20 patients. Ils correspondent dans le désordre à six tableaux de statistiques de position et de dispersion. Associez à chaque graphique (repéré par une lettre) le tableau de mesures correspondant (repéré par un chiffre). B A 6 4 Effectifs Effectifs 5 3 2 1 0 0 1 2 3 4 5 6 7 8 7 6 5 4 3 2 1 0 0 9 10 1 2 3 6 7 8 9 10 5 6 7 8 9 6 5 5 Effectifs 4 Effectifs 5 D C 3 2 1 4 3 2 1 0 0 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 10 F E 5 5 4 4 Effectifs Effectifs 4 3 2 1 3 2 1 0 0 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 Mesures de position et de dispersion: Moyenne Médiane Ecart-type (arrondi à 3 décimales) Tableau 1 5 5 Tableau 2 5,6 5 Tableau 3 6,95 7 Tableau 4 5 5 Tableau 5 4,75 5 Tableau 6 5 5 1,487 2,088 1,959 3,244 2,074 2,176 Réponses: Diagrammes en bâtons A B C D E F Tableaux I.22 Soient X et Y deux variables quantitatives mesurées simultanément sur n sujets. Peut-on toujours écrire, quelles que soient les variables: a) b) c) d) var (X + Y) = var (X) + var (Y) var (X + Y) = var (X) – var (Y) var (X – Y) = var (X) – var (Y) var (X - Y) = var (X) + var (Y) Solution: les valeurs observées sont notées pour X: x1, x2, …, xn et pour Y: y1, y2, ..., yn Nous aurons par exemple 1 n 1 n 2 var( X Y ) (( x y ) ( x y )) (( xi x ) ( yi y )) 2 i i n 1 i 1 n 1 i 1 1 n 1 n 2 n 2 2 ( x x ) ( y y ) i i ( xi x )( yi y ) n 1 i 1 n 1 i 1 n 1 i 1 sx2 s y2 2 cov ariance( X , Y )oùcov ariance( X , Y ) 1 n ( xi x )( yi y ) n 1 i 1 → var (X+Y) = var X + var Y + 2 cov (X,Y) On pourrait montrer de la même manière que var (X-Y) = var X + var Y - 2 cov (X,Y) La covariance entre X et Y est un paramètre statistique qui sera étudié dans le chapitre consacré à la régression et à la corrélation. Exemple numérique (tableau ci-dessous) montrant que var (X+Y) ≠ var X + var Y et var (X-Y) ≠ var X – var Y: Prenons pour X les 5 observations: 3, 6, 9, 12, 15 et pour Y les 5 observations: 1, 2, 3, 4, 5. X Y X+Y X-Y 3 1 4 2 6 2 8 4 9 3 12 6 12 4 16 8 15 5 20 10 Moyenne 9 3 12 6 Variance 22,5 2,5 40 10 On obtient var X = 22,5; var Y = 2,5; var (X+Y) = 40; var (X-Y) = 10. Clairement, var (X+Y) ≠ var X + var Y et var (X-Y) ≠ var X – var Y. Les 4 propositions a), b),c) et d) sont donc fausses. I.C. UTILISATION DES LOGICIELS STATISTIQUES Exemple 1 Le volume expiratoire maximum par seconde (VEMS) a été mesuré chez 57 étudiants de sexe masculin. Les résultats obtenus, exprimés en litres, sont indiqués dans la première table cidessous, 4,47 3,10 4,50 4,90 3,50 4,14 4,32 4,80 3,10 4,68 4,47 3,57 2,85 5,10 5,20 4,80 5,10 4,30 4,70 4,06 VEMS 3,48 5,00 4,20 4,50 3,70 4,20 5,30 4,16 4,71 3,70 4,10 3,83 4,30 3,90 3,39 4,47 3,69 3,30 4,44 5,43 3,42 3,60 3,20 4,56 4,78 3,60 3,96 3,19 2,85 3,04 Statistiques descriptives présentées par le logiciel SPSS Statistiques VEMS N Valide 57,0000 Moyenne 4,0604 Médiane 4,1000 Mode 4,4700 Déviation standard ,6715 Variance ,4509 Étendue 2,5800 Minimum 2,8500 Maximum 5,4300 Somme Percentiles 231,4400 25 3,5400 50 4,1000 75 4,5300 3,78 3,75 4,05 3,54 4,14 2,98 3,54 Maximum: 5,4300 Étendue = max – min = 5,4300 – 2,8500 = 2,5800 Moustaches Percentile 75: 4,5300 = Q3 Ecart interquartile = Q3 - Q1 = 4,5300 – 3,5400 = 0,9900 Médiane: 4,1000 = Q2 Percentile 25: 3,5400 = Q1 Minimum: 2,8500 VEMS Boîte Compléments sur les boîtes à moustaches Exemple: Description, à l’aide de boîtes à moustaches de la durée (exprimée en jours), qu’a nécessitée la revalidation, chez des femmes (groupe 1) et chez des hommes (groupe 2) ayant tous subi un accident du même type. (Graphique fourni par le logiciel statistique SPSS). Les boîtes à moustaches indiquent quelques traits marquants des séries de données, intégrant les concepts de centralité et de dispersion. Le segment inférieur d’une boîte représente la valeur du premier quartile (A) tandis que le segment supérieur représente celle du troisième quartile (B), la boîte contient donc 50% des observations. La médiane est représentée par un segment horizontal dans la boîte (C). La boîte est prolongée en haut et en bas par deux moustaches qui s’étendent respectivement jusqu’au maximum (D) et au minimum (E) de la série de données, pour autant qu’il n’y ait pas de valeurs éloignées ou extrêmes. Une valeur éloignée (représentée par un rond) est une observation dont la valeur est comprise entre 1,5 et trois fois la hauteur de la boîte, comptée à partir du bord supérieur (troisième quartile) ou inférieur (premier quartile) de la boîte à moustaches (F). De la même façon, une valeur extrême (représentée par une étoile) est une observation dont la valeur est située à plus de trois fois la hauteur de la boîte, toujours comptée à partir du bord supérieur (troisième quartile) ou inférieur (premier quartile) de la boîte à moustaches (G). G D F B C A E Exemple 2 Les températures maximales moyennes mensuelles d’Uccle (IRM) sont données dans le tableau cidessous. Elles concernent quarante-quatre années, de 1968 à 2011, et sont exprimées en degrés Celsius. A titre informatif, la dernière colonne « moy» du tableau présente, pour chaque année, la moyenne arithmétique pondérée des températures des 12 mois s’y référant. année janvier février mars avril mai juin juillet août septembre octobre novembre décembre moy 1968 3,60 4,00 10,20 15,10 15,30 19,70 21,30 20,80 18,50 15,70 7,90 2,60 12,91 1969 7,10 3,60 8,30 13,10 18,40 19,90 22,90 21,70 19,60 17,80 9,40 2,20 13,73 1970 5,60 5,50 6,60 9,80 18,00 23,70 20,80 22,40 20,30 14,30 11,60 4,70 13,64 1971 6,40 6,80 6,80 14,00 20,20 18,30 23,80 21,80 19,30 15,70 8,10 7,70 14,13 1972 4,40 7,80 12,60 12,20 16,40 18,20 22,00 20,60 17,00 14,50 8,40 7,50 13,49 1973 5,20 5,60 10,30 10,70 17,30 22,00 21,90 24,40 20,10 13,60 9,00 5,70 13,87 1974 8,70 8,30 9,90 15,30 17,00 20,00 20,00 22,10 17,20 9,90 9,50 9,10 13,95 1975 9,10 8,60 7,50 11,90 16,30 20,10 23,20 25,00 19,50 12,80 8,50 5,10 14,00 1976 6,40 6,30 8,30 13,10 19,40 24,80 25,50 24,20 18,90 15,20 9,10 4,40 14,66 1977 5,20 8,40 11,40 10,90 16,50 18,00 20,90 20,40 17,80 16,40 9,10 8,30 13,65 1978 5,00 4,80 10,00 11,90 16,50 19,10 19,90 19,90 17,60 15,10 9,50 6,00 12,99 1979 0,30 3,10 8,50 11,90 16,90 19,40 20,70 20,10 18,90 15,60 9,00 7,90 12,75 1980 3,30 9,00 8,60 11,80 16,70 18,80 19,20 21,70 20,10 13,10 7,00 5,80 12,93 1981 5,80 5,00 12,30 12,70 17,70 18,50 20,50 21,10 19,40 12,60 9,80 3,20 13,26 1982 4,70 7,40 9,70 12,70 18,00 21,40 23,40 21,60 21,60 14,20 10,50 6,20 14,32 1983 8,30 4,00 10,00 13,80 15,50 21,60 26,00 23,60 18,70 14,60 10,20 6,50 14,47 1984 5,80 5,20 8,00 13,20 13,80 18,40 21,80 23,40 16,80 14,60 12,30 6,70 13,36 1985 -0,30 3,40 7,50 13,00 17,80 18,70 22,90 21,10 19,20 14,40 5,40 7,80 12,63 1986 4,80 -0,40 8,70 10,40 19,00 22,20 22,20 20,80 16,20 15,80 10,80 7,10 13,23 1987 -0,60 4,70 6,40 16,40 14,60 18,40 21,70 21,00 19,60 15,20 8,30 6,30 12,70 1988 8,40 7,10 8,40 14,70 18,90 19,20 20,20 22,00 17,60 14,90 8,90 8,60 14,10 1989 6,90 8,30 12,90 11,20 21,30 21,50 24,10 23,30 20,10 16,40 9,70 7,90 15,35 1990 7,40 11,60 12,70 13,60 20,70 19,60 23,00 25,10 17,50 16,50 9,00 5,50 15,22 1991 5,90 3,20 13,10 13,90 15,10 17,20 23,40 24,20 20,80 14,40 8,50 6,00 13,88 1992 4,90 8,30 10,30 13,40 20,60 21,20 23,20 22,50 18,70 11,40 10,50 6,00 14,26 1993 8,40 4,40 11,00 16,30 19,40 21,10 21,10 20,30 17,10 12,20 5,50 7,40 13,75 1994 7,20 5,70 11,00 13,20 16,90 20,80 26,70 22,40 17,30 14,20 12,80 8,00 14,74 1995 6,70 9,40 9,60 13,00 18,30 18,90 25,90 25,30 18,00 17,50 10,20 3,10 14,70 1996 4,90 3,70 7,60 15,20 14,60 20,80 21,60 22,20 16,70 14,80 7,70 2,50 12,71 1997 2,60 9,20 12,30 12,90 17,90 20,50 21,90 26,20 19,70 14,30 9,70 7,30 14,57 1998 7,00 9,70 11,00 13,00 19,80 20,60 20,50 22,20 18,90 12,30 6,60 6,60 14,04 1999 7,70 5,70 11,30 14,20 19,30 19,90 24,20 22,40 21,70 14,20 8,60 6,50 14,70 2000 6,10 8,80 10,30 14,60 19,10 21,30 18,90 23,00 19,90 14,40 10,20 7,70 14,53 2001 5,90 7,50 9,40 12,20 19,70 20,00 23,20 23,70 16,30 17,90 9,20 4,90 14,21 2002 7,20 10,00 11,60 14,40 17,60 21,40 22,00 22,30 18,70 13,80 11,30 6,30 14,74 2003 4,60 6,60 13,10 15,20 18,00 23,80 24,20 25,30 20,60 11,60 11,10 7,10 15,14 2004 5,60 7,60 10,50 15,20 17,10 20,70 21,80 23,00 20,00 15,10 9,20 5,30 14,27 2005 7,10 4,90 10,70 14,70 18,00 23,20 23,00 21,40 21,20 18,10 8,90 5,90 14,81 2006 4,50 4,90 8,40 14,00 18,80 22,00 28,60 20,20 23,40 18,00 12,40 8,20 15,34 2007 9,30 9,60 12,10 20,50 19,00 21,90 21,70 21,30 18,20 14,00 9,30 6,70 15,32 2008 8,60 10,30 9,40 13,80 21,30 20,70 22,40 21,70 18,20 14,20 9,40 5,10 14,60 2009 3,70 6,30 10,90 17,40 19,10 21,30 23,60 24,90 20,40 15,10 12,10 5,30 15,05 2010 2,20 5,00 10,40 15,70 15,40 22,40 25,80 21,50 18,60 14,70 8,20 1,20 13,46 2011 6,70 8,10 12,40 19,60 20,00 21,70 20,10 21,90 Pour chaque mois, on peut obtenir les statistiques descriptives de base: Nous représentons, à titre d’exemples, les histogrammes des mois de janvier et juillet: Nous résumons l’information de chaque mois par une boîte à moustaches: Questions 1. La moyenne et l’écart-type des maxima journaliers moyens de juillet à Uccle pour ces 44 dernières années valent respectivement, en degrés Celsius, 22,54°C et 2,08°C. Que deviennent la moyenne et la variance de ces statistiques (à donner avec 3 décimales après avoir effectué les calculs à 4 décimales) en degrés Fahrenheit ? La formule liant ces 2 échelles est: Température Fahrenheit = 1,8 * Température Celsius +32. Réponse: en fonction de la transformation linéaire des données, F = 1,8 C + 32 → f = 1,8 c + 32 et sf² = (1,8)² sc². La moyenne en degrés Fahrenheit = (1,8 * 22,54) + 32 = 72,57 La variance exprimée en (degrés Fahrenheit)² = (1,8)² * (2,08)² = 14,02 2. Le mois de janvier 2010 (température maximale moyenne de 2,2 °C), caractérisé par son épisode neigeux, apparaît-il plus remarquable que ne l’est le mois de juillet de 2010 (température maximale moyenne de 25,8°C) par sa période de canicule ? Réponse: ces données peuvent être comparées en passant aux valeurs centres-réduites. (Z X x ) sx Pour le mois de janvier: xjanv = 2,2 → zjanv = (2,2 – 5,64) / 2,33 = -1,48 Pour le mois de juillet: xjuil = 25,8 → zjuil = (25,8 – 22,54) / 2,08 = 1,57 Le mois de juillet 2010 apparaît donc un peu plus extrême que le mois de janvier 2010 et fut donc relativement un peu plus chaud que janvier ne fut froid. Remarque: 1. Nous pouvons constater le rôle relativement important joué par l’année extrême 2006 dans le calcul des mesures de dispersion de notre série de données de juillet. Voyons, à titre illustratif, ce que deviendraient les paramètres statistiques en retirant soit l’année record 2006, soit l’année minimum 2000, soit une année «normale» comme 2008. temp. Juillet 44 années d'observation retrait de l'an 2006 (année maximum "record") 28,6 retrait de l'an 2000 (année minimum) 18,9 retrait de l'an 2008 (année "normale") 22,4 n 4 4 4 3 4 3 4 3 Moyenn Médian Etendu Varianc e e e e Ecarttype 22,54 22,10 9,7 4,33 2,08 22,40 22,00 7,8 3,53 1,88 22,62 22,20 9,4 4,11 2,03 22,54 22,00 9,7 4,43 2,10 2. Nous examinerons dans un chapitre futur l’analyse des liens qui peuvent exister entre les variables (corrélations). Il est permis de se demander en effet si d’éventuelles relations existent entre les mois (juin relativement chaud entraîne-t-il juillet relativement chaud? par exemple). D’autre part, on peut aussi se poser la question de savoir si certains mois présentent des températures maximales moyennes similaires (janvier – février ou juillet-août, par exemple).