1 Premier chapitre : Distributions Avant propos Le mot « statistique » au singulier, désigne un ensemble de techniques et d’instruments scientifiques servant à expliquer et à interpréter les phénomènes pour lesquels une étude exhaustive s’avère impossible à cause de leur grand nombre ou leur complexité. Elle se compose des méthodes permettant de recueillir, de classer et d’organiser, de présenter, de traiter et d’analyser des observations relatives à ces phénomènes pour en tirer ensuite des conclusions et prendre des décisions. Au pluriel, le mot « statistiques » désigne un ensemble de données numériques concernant une catégorie de faits et utilisables selon des méthodes d’interprétation de la statistique. Bref, le mot « statistiques » désigne des collections de nombres constituant l’information brute tandis que le mot « statistique » est constitué par un ensemble de méthodes et techniques qui a pour but d’analyser et d’interpréter cette information afin de mieux connaître le phénomène en question, de prendre des décisions plus éclairées et d’envisager des actions plus appropriées. L’étude statistique d’un phénomène s’effectue, disons, en trois étapes : 1. La collecte des données qui consiste à recueillir les informations adéquates mais partielles sur le phénomène. Elles serviront ultérieurement de base d’étude. Ces données sont habituellement obtenues selon un plan de sondage établi d’avance. 2. La statistique descriptive qui précise des techniques permettant de dépouiller les renseignements obtenus, de les mettre en ordre, de les schématiser en les présentant sous forme de tableaux ou de graphiques et d’en dégager les caractéristiques essentielles (moyenne, proportion,…) 3. La statistique inférentielle qui permet de tirer des conclusions sur tout le phénomène à partir des informations partielles recueillies en autant que certaines règles et conventions auront été respectées. Ces conclusions comportent une marge d’erreur statistique qui peut être calculée. Section 1.1 : Variables et Distributions Les types de variables. Les méthodes et les techniques s’appliquent à des informations écrites sous forme numérique. Ces informations correspondent à des variables (ou des caractères) parmi lesquelles on différencie les variables qualitatives (ou catégoriques) et les variables quantitatives. 2 Une variable qualitative (ou catégorique) exprime une propriété ou une qualité ou une manière d’être des unités statistiques et cette propriété (ou qualité ou manière d’être) s’observe mais ne se mesure pas. Une variable quantitative exprime un aspect quantifiable ou numériquement mesurable dont les valeurs de la variable varient d’un individu à l’autre et dont les opérations de calcul ( addition, moyenne etc.) ont du sens. Exemple Prenons l’ensemble (ou base) de données suivant: Code Permanent Ahmx23127102 Doms12127181 Hamn31018423 … Pobm19096512 Youh20027606 Sexe M M F … F M Note Stat. (/100) 65 52 78 … 82 90 Chaque colonne représente ce qu’on appelle une variable, laquelle mesure la caractéristique d’un objet. Exemple: • • Variable catégorique: Sexe représente deux valeurs M et F Variable quantitative : Note de l’étudiant(e). Les nombres ou les lettres qui y figurent sont des valeurs de la variable. La correspondance entre ces valeurs et leurs fréquences (ou effectifs) est ce qu’on appelle une distribution. La première étape de l’analyse descriptive consiste à construire alors la distribution de fréquences qui est un tableau qui comporte au moins deux lignes (ou colonnes). Dans la première ligne ( ou colonne) sont écrites les valeurs de la variable considérée et dans la seconde sont écrites les fréquences de chaque valeur de cette variable. On peut ajouter une troisième ligne (ou colonne) dans laquelle figurent les fréquences relatives de chaque valeur de variable. Exemple d’une distribution de la variable (catégorique) Sexe : La distribution présentée en fonction des fréquences : Sexe M F Total Fréquence 20 30 50 3 La distribution présentée en fonction des fréquences relatives: Sexe Fréquence relative M F Total 20/50 0.60 1 Notes: • • La fréquence relative d’une valeur de la variable est égale à la fréquence associée à cette valeur divisée par la somme des toutes les fréquences. La somme des fréquences relatives est toujours égale à 1. Représentation graphique: On peut représenter graphiquement la distribution de chaque variable. Ce graphique nous permet de saisir et d’observer en un coup d’œil les caractéristiques de cette distribution. C’est ce qu’on appelle: l’analyse exploratoire des données. (Exploratory data analysis: EDA). On considérera ici: • Diagramme à bâtons (bar graph) Le diagramme à bâtons consiste en une représentation graphique indiquant en ordonnée la liste des diverses valeurs de la variable étudiée. À la droite de chaque valeur de la variable on construit horizontalement des rectangles de même largeur et dont les longueurs sont égales ou proportionnelles aux nombres de cas (fréquences) ou pourcentages des valeurs des variables représentées. Notons que les rectangles ne peuvent en aucun cas être accolés. Exemple: Voici la distribution du nombre de professeurs dans une faculté de sciences : Département Fréquence Mathématiques Informatique Physique/Chimie Biologie/Géologie Total 183 127 23 54 387 Fréquence relative 0.47 0.33 0.06 0.14 1 4 Procédure « Minitab » pour construire un diagramme à bâtons : Graph>Chart : Nous obtenons alors: Fréquence 200 100 0 Bio./Géo. Info. Math. Département Phy./Ch. 5 • Diagramme en pointes de tarte: «Pie Chart» Le diagramme en pointes de tarte consiste en un cercle dont l’aire est décomposée en secteurs circulaires et l’angle au centre de chaque secteur représente la proportion d’une des valeurs correspondantes à la variable considérée. Pour obtenir cette configuration, il faut donc déterminer l’angle au centre de chaque secteur circulaire, angle qui est proportionnel aux nombres de cas ou aux pourcentages représentés. Prenons l’exemple ci dessus et par Minitab: Graph>Pie Chart, 6 nous obtenons: diagramme en pointes de tarte Infor. (127, 32.8%) BG ( 54, 14.0%) PC Math. ( 23, 5.9%) (183, 47.3%) • Tige et feuille: (Stem-and-leaf plot) Un diagramme tige et feuille est une autre façon de résumer un ensemble de données. Il est souvent employé dans l'analyse de données exploratoires pour illustrer les dispositifs principaux de la distribution des données sous une forme commode et facilement dessinée. Ce diagramme tige et feuille est un diagramme plus instructif pour les bases de données relativement petites (moins de 100 unités). Comme que le nom l’indique, nous représentons chaque élément de la base de donnée à l'aide de deux parties, une tige et une feuille. Considérons l'ensemble suivant, une série de notes d'un examen de statistique : 92, 87, 91, 85, 76, 87, 98, 90, 70, 54. Pour créer un diagramme tige et feuille, nous employons le chiffre des dizaines de chaque note comme tige et le chiffre d'unités comme feuille. Dans ce cas-ci, les notes peuvent être représentées par 9|2, 8|7, 9|1 et ainsi de suite. Nous voulons maintenant créer un arbre qui contient les tiges et les feuilles. Nous devons décider d'abord comment arranger les tiges, croissantes ou décroissantes. Supposons que nous les arrangeons croissantes. Le chiffre 5 est le plus petit des dizaines et le plus grand est 9. Notre ensemble de tiges affichées dans l’ordre croissant ressemble à ceci: 7 Notons que bien qu'il n'y ait eu aucune note représentée avec une tige de 6, nous avons inclus ce chiffre dans les tiges afin de rendre égaux les incréments entre les tiges. Concernant les feuilles, nous les ordonnons à partir des plus petites jusqu’aux plus grandes horizontalement et nous incluons les copies multiples de la même valeur partout où elle apparaît. Voici les dix notes d’examens disposées dans un diagramme tige et feuille : Dans le but de déterminer le diagramme le plus pertinent et pour étendre ces données pour une meilleure vue de la distribution, voici trois diagrammes tige et feuille différents pour une série de données de taille, en centimètres, de 8 personnes:: 141, 143, 143, 145, 145, 146, 146, 148, 150, 151, 152, 153, 153, 154, 155, 156, 157, 157, 157, 157, 158, 159. 8 Un diagramme dos à dos de tige et feuille peut être employé pour comparer deux bases de données. Ci-dessous, nous représentons les notes de deux groupes du cours de statistiques Mat4680 d’une session précédente en utilisant le diagramme dos à dos de tige et feuille: Groupe 11 Groupe 10 3 1|2|5 4 4 3 3|3|8 9 9 9 6 6 4|4|3 3 3 4 7 7 5 5 4 4 4 4 2 2 1|5|4 4 4 6 6 8 8 8 9 9 8 7 7 7 3 3 2 1 1 1|6|1 2 4 4 5 5 7 9 9 9 9 8 7 5 5 2|7|3 3 4 6 6 6 6 6 6 3 1 1 |8|2 5 9 3 4 2|9|1 Utilisation de « Minitab » Les données suivantes représentent des mesures de contenu d'oxyde de carbone (en mg) pour 25 marques des cigarettes: 13.6, 16.6, 23.5, 10.2, 5.4, 15, 9, 12.3, 16.3, 15.4, 13.0, 14.4, 10, 10.2, 9.5, 1.5, 18.5, 12.6, 17.5, 4.9, 15.9, 8.5, 10.6, 13.9, 14.9 Pour ces données (créées en utilisant la commande de « stem-and-leaf »), MINITAB tronque d'abord les données en arrondissant vers le plus proche nombre entier. L'ensemble de données résultant est le suivant: 1, 4, 5, 8, 9, 9, 10, 10, 10, 10, 12, 12, 13, 13, 13, 14, 14, 15, 15, 15, 16, 16, 17, 18, 23. La première colonne du « stemplot » de MINITAB compte le nombre de valeurs à partir du dessus vers le bas et du bas jusqu' à la valeur centrale, appelée médiane (voir cidessous). Le nombre dans les parenthèses représente le nombre de valeurs dans la ligne contenant la médiane. La deuxième colonne trace les tiges, c’est-à-dire les dizaines de milligrammes de contenu d'oxyde de carbone. Puisque l'intervalle des données est petit (les valeurs pour les tiges sont 0, 1, et 2), MINITAB par défaut, divise la troisième colonne, qui trace des milligrammes en tant que feuilles, en cinquièmes. Pour changer le nombre de lignes, il suffit d’utiliser la commande « Increment » du Minitab (Voir l’aide de Minitab). 9 La commande de Minitab « Graph > Stem-and-Leaf » ou également la commande « Graph > Character Graphs > Stem-and-Leaf »: donne le résultat suivant : Character Stem-and-Leaf Display Stem-and-leaf of C1 25 Leaf Unit = 1.0 1 1 3 3 6 10 (5) 10 5 2 1 1 0 0 0 0 0 1 1 1 1 1 2 2 1 45 899 0000 22333 44555 667 8 3 N = Le « stemplot » illustre que la majorité des mesures se situent dans les dizaines, avec seulement 6 des 25 valeurs moins de 10 mg et seulement une des valeurs plus grande que 20 mg. 10 • L’histogramme: L’illustration au moyen d’histogramme permet de visualiser les données qui sont mesurées sur une échelle d'intervalle. Il est souvent employé dans l'analyse de données exploratoires pour illustrer les caractéristiques de la distribution des données. Un histogramme divise l'intervalle des valeurs possibles en classes ou groupes. Pour chaque classe ou groupe, un rectangle est construit avec une longueur de base égale à l'intervalle des valeurs dans ce groupe spécifique et une zone proportionnelle au nombre d'observations tombant dans ce groupe. Exemple: Considérons la liste des notes d'un examen pour 24 étudiants inscrits dans un cours de statistiques. 51, 46, 31, 35, 37, 51, 56, 43, 48, 52, 33, 42, 37, 27, 57, 65, 36, 37, 55, 42, 51,49, 56, 45. Dressons un tableau de distribution pour cette série de données en divisant notre intervalle en 6 classes de mesures de longueur égale, disons :21-28, 29-36, 37-44, 45-52, 53-60, 61-68 : Classe Fréquence 21< x < 29 29< x < 37 37< x < 45 45< x < 53 53< x < 61 61< x < 69 Total 1 4 6 8 4 1 24 Fréquence relative 4.1% 16.6% 25% 33.3% 16.6% 4.1% 1 Les deux diagrammes, le côté gauche étant un histogramme de fréquences et le côté droit un histogramme de fréquences relatives, sont créés en utilisant la commande de MINITAB « Graph > Histogram » qui présente les données divisées en 6 classes (il faut le préciser puisque le défaut de Minitab est de 11 classes) : 11 8 30 Fréquence Relative 7 Fréquence 6 5 4 3 2 20 10 1 0 0 25 33 41 49 57 65 Note 25 33 41 49 57 65 Note Qu’est-ce qui distingue les deux histogrammes ci-haut ? Malgré le fait que ces histogrammes représentent les fréquences et les fréquences relatives respectivement, les diagrammes demeurent identiques. • Diagramme en boîte (Moustache) Un « boxplot » est une façon d’analyser des données mesurées sur une échelle d'intervalle. Il est souvent utilisé dans l'analyse de données exploratoires. C'est un type de graphique qui est employé pour montrer la forme de la distribution, sa valeur centrale et sa variabilité. L'image produite comprend les valeurs les plus extrêmes dans la base de données (valeurs maximum et minimum), les premier et troisième quartiles et la médiane. Cette partie sera étudiée plus en profondeur après la partie concernant les mesures de tendance centrale. 12 Section 1.2: Description numérique d’une distribution Mesure de tendance centrale: C’est un indice de la position d’une série de données ou d’une distribution. Nous chercherons un nombre qui représentera le mieux le centre des données. Le mode, la médiane et la moyenne seront étudiés. • La moyenne d’une série de données : Soit n le nombre de données qui sont représentées par: x1 , x2 , x3 ,...xn et leur moyenne est définie par: x= qu’on note: x1 + x2 + x3 + ... + xn n x x=∑ i n Exemple: Considérons la liste des notes des 24 étudiants ci-dessus, la moyenne étant alors : = (1/24)*( 51+46+31+….+56+45) = 45.08 x • La médiane d’une série des données : La médiane est la donnée centrale d’une série lorsque les données sont rangées en ordre croissant ou décroissant. Exemple:: Pour la série : 1-5-7-9-11, la médiane est 7. Lorsque les données sont en nombres pairs, la médiane est la moyenne des données centrales. Exemple: Pour la série : 1-5-7-9-11-15, la médiane est (7+9)/2 = 8. Pour l’exemple de la liste des notes, la médiane est (45+46)/2 = 45.5 • Le mode: C’est la valeur ayant la plus grande fréquence. C’est la valeur qui apparaît souvent dans une série de données. 13 Exemple: Pour la série : 1-5-7-7-11-15, le mode est 7. Pour l’exemple de la liste des notes, on trouve deux modes 37 et 51. On dit alors que la distribution est bi-modale. Mesures de dispersion: les quantiles. Q Le premier quantile 1 est la donnée centrale d’une série de données rangées en ordre croissant, entre la première observation et la médiane. Le troisième quantile Q3 est la donnée centrale d’une série de données rangées en ordre croissant, entre la médiane et la dernière observation. • L’écart interquartile: IQR L’écart interquartile est la différence entre le 3-ième et le 1-er quantile: IQR = Q1 est Q3 - Q1 l’observation en deçà duquel se trouve 25% des observations, Q3 est l’observation en deçà duquel se trouve 75% des observations et IQR est la distance dans laquelle se trouve 50% des observations. Exemple Voir page 45 : M=$28, Q1 =$19 Q3 =$45 IQR=$26 • Diagramme en boîte (Moustache) Définissons d’abord les valeurs extrêmes pour une distribution. Ce sont toutes les valeurs qui s’écartent des valeurs suivantes : Q1 -1.5*IQR et Q3 +1.5*IQR Exemple (19-1.5*26, 45+1.5*26)=(-$20, 84) 14 Les valeurs extrêmes sont donc des valeurs de la distribution en dehors de cet intervalle, ces dernières sont $86 et $93. Nous n’allons pas nous en tenir à ces limites de cet intervalle (la première est négative); nous présenterons plutôt les plus petites et plus grandes valeurs de la distribution comprises dans cet intervalle (-$20, 84), qui sont 3 et 83. Nous présenterons donc les cinq repères suivants: $3 $19 $28 $45 $83 Ces chiffres peuvent être représentés par ce graphique: que nous appelons diagramme en boite ou moustache. • La variance: Considérons les deux séries suivantes: La série 1 : 40 50 50 50 60 La série 2 : 0 30 50 50 100 et Elles ont le même mode, la même moyenne, la même médiane et le même nombre de données. Les deux séries diffèrent par l’écartement (ou l’éparpillement) des données par rapport au centre. Donc un indice de la dispersion par rapport à la moyenne s’impose. Les principales caractéristiques de dispersion qui seront examinées ci-dessous sont la variance et l’écart type, dont l’une est le carré de l’autre. 15 x , x2 , x3 ,...xn , de moyenne x , la variance est définie Pour une série de données 1 comme suit: 1 ∑ ( xi − x) 2 n −1 2 n = ( x2 − x ) n −1 s2 = où x2 = 1 2 x ∑ i n Remarque: la valeur de la variance est petite lorsque les résultats de la série sont les uns des autres et grandes si les résultats sont très éparpillés. L’écart type est la racine carrée de la variance: (Rmq: s a la même unité que les données…) s = s2 . Exemple. Supposez que 10 étudiants d’un certain groupe ont les tailles suivantes (en pouces): 60, 72, 64, 67, 70, 68, 71, 68, 73, 59. La moyenne est 67.2 et la variance est de : s² = 1/9[(59-67.2)² + (60-67.2)² + 64-67.2)² + (67-67.2)² + .... + (73-67.2)²] = 1/9[67.24 + 51.84 + 9.4 + 0.04 + .... + 33.64] = 1/9[208.76] = 23.2 L’écart type est égal à s = 4.8. près 16 La commande «Stat>Basic statistics>display descriptive statistics» par MINITAB fournit un sommaire numérique pour les données qui incluent la moyenne, la médiane, l'écart type (StDev abrégé), le minimum et les valeurs maximum ainsi que les premier et troisième quartiles ( Q1 et Q3 abrégés). La sortie pour l’exemple de la liste de l’examen des 24 étudiants est montrée ci-dessous : Descriptive Statistics Variable C1 N 24 Mean 45.08 Median 45.50 TrMean 45.00 Variable C1 Minimum 27.00 Maximum 65.00 Q1 37.00 Q3 51.75 StDev 9.62 SE Mean 1.96 17 • Transformation des données de mesure (linéaire) : Considérons la série de données suivante : X: La moyenne est : 2 5 7 9 12 x =7 et la variance est : sx2 =14.5. Une autre série comme : Y: La moyenne est : y 2012 2030 2042 2054 2072 2 =2042 et la variance est : y =522. s Nous remarquons que chaque terme de la variable X est multiplié par 6 et augmenté de 2000, c’est -à -dire pour chacun des xi : xi : ! yi =2000+6* xi Cette relation entre ces deux variables est ce qu’on appelle une transformation linéaire : X : ! Y=a+b*X Ici nous avons : a=2000 , b=6. Le but de la transformation linéaire est d’être en mesure d’utiliser les valeurs de la moyenne et de la variance d’une première série pour calculer directement ces valeurs pour une deuxième série. 2 Considérons X une série de données de moyenne et de variance x et la série Y ainsi que la relation entre les deux séries Y=a+b*X. La moyenne et la variance pour la deuxième série sont respectivement : x s y =a+b* x s 2y = b 2 * sx2 . À partir de notre exemple, nous avons calculé x =7, sx2 =14.5 y et s 2y pour la variable Y : y ( =2000+6* x ) = 2042 = 522 s 2y (=36* sx2 ) transformation Y=2000+6*X, nous avons et à partir de la 18 Une transformation particulière est dont a=-( x /s) et b=(1/s), c.- à –d. : Z=-( x /s)+(1/s)*X, qu’on écrit: Z= X −x s et qu’on appelle cote Z. Section 1.3 : La loi Normale Parmi toutes les distributions qui se rencontrent en pratique, un certain nombre d’entre elles se rapprochent, à des degrés divers, de certaines distributions théoriques classiques que l’on peut considérer comme modèles mathématiques valables des variables en question. De toutes les distributions classiques, une est particulièrement importante : on l’appelle la distribution normale. Comme exemple, considérons la variable « taille » définie sur la population de tous les adultes canadiens. Si toutes les tailles sont comprises entre 1 mètre et 2.5 mètres (disons), cette variable peut prendre 1501 valeurs (en supposant que la taille d’un individu est connue au millimètre près) : 1-1.001-1.002-1.003….2.143-2.144….2.497-2.498-2.499-2.5 Si l’on connaît la fréquence de ces valeurs, on pourrait tracer l’histogramme de la distribution des tailles canadiennes. Cet histogramme serait formé de 1501 petits rectangles étroits. L’histogramme ci-dessous est construit à partir d’une simulation statistique en utilisant Minitab, on se basant sur des principes et des méthodes qu’on abordera dans les chapitres à venir. 19 400 Fréquence 300 200 100 0 1.5 1.6 1.7 Taille 1.8 1.9 C’est une courbe plus au moins en forme de cloche et symétrique. Une distribution normale (introduite par Gauss,1777-1855) peut donc être utilisée comme une bonne approximation car elle est symétrique, moyennement aplatie et en forme de cloche. C’est pourquoi on parle parfois de la « cloche de Gauss ». • Courbe de densité : Comme la variable aléatoire X (exemple de la taille) peut prendre une infinité de valeurs, on associe à chaque valeur x de X, une fonction de densité f(x), qui est : 1 2 positive (c’est la hauteur de chaque verticale depuis l’axe des x jusqu’à la courbe) la surface totale au dessous de la courbe de f est égale à 1 20 Pour la loi normale, elle est caractérisée par deux paramètres à savoir la moyenne « mu » et la variance σ2 « sigma-carrée ». La loi se dénote par : X ~ N( • Remarque : a. Le sommet de la courbe se trouve à x= µ. µ µ , σ 2) µ b. La courbe est symétrique par rapport à l’axe vertical x= . c. La surface entre la courbe et l’axe horizontal est égale à 1. d. On peut dire qu’il y a une famille de distribution normale. À chaque valeur 2 et de correspond un membre de cette distribution. particulière de e. La fonction densité est donnée par : µ Le cas où standard µ =0 et σ σ =1 : la loi est notée : Z ~ N( µ =0, σ =1) et elle est dite 21 Si un ensemble de données suit une distribution normale de moyenne 0 et d'écart type 1, alors 1. 68% des observations sont contenues dans l'intervalle (-1.1) 2. 95% des observations se situent dans l’intervalle de 2 écarts types de la moyenne, représentées dans l'intervalle (-2.2) 3. 99,7% des observations se situent dans l’intervalle 3 écarts type de la moyenne, qui correspond à l'intervalle (-3.3). Pour une distribution normale de moyenne • µ et de varianceσ 2 : Règle 68 – 95 – 99.7 1 Environ 68% des effectifs sont contenus dans un intervalle d’une d’écarts types à la moyenne. 2 Environ 95% des effectifs sont contenus dans un intervalle de deux écarts types à la moyenne. 3 Environ 99.7% des effectifs sont contenus dans un intervalle de trois écarts types à la moyenne. 22 Voici un exemple pour la loi X ~ N( µ =64.5 , σ =2.5) • La loi normale standard : Des données de n'importe quelle distribution normale peuvent être transformées en données suivant la distribution normale standard en soustrayant la moyenne et en divisant par l'écart type x−µ σ Règle : Si X ~ N( µ , σ 2 ) alors : Z= Exemple Si X~N(100,225) alors Z= X −µ σ ~ N(0,1) X − 100 ~ N(0,1). 15 23 • La table de la loi normale standard: La fréquence relative des observations Z qui sont au-dessous d’une valeur z , Z=z , est représenté par l’aire sous la courbe de la densité. Cette aire est donnée par des tables statistiques dont la colonne de gauche donne la valeur de z à une décimale, la seconde décimale étant donnée par la ligne du haut en se déplaçant horizontalement. Exemple : 1. Aire ( Z -2.15 ) = 0.0158, c’est à dire la fréquence relative des observations dont les valeurs sont inférieures à –2.15 est 0.0158. ≤ Il y a 1.58 % des observations au-dessous de Z=-2.15. 2. Aire (Z ≤ 1.96) = 0.9750 Par symétrie : Aire ( Z Exemple : 1.28 )= Aire ( Z Aire ( Z ≥ ≥ a ) = Aire ( Z ≤ -a ) ≤ -1.28)=0.1003 La surface entre deux nombres donnés a et b est donc : Aire (a Z b) = Aire (Z b) - Aire (Z ≤ ≤ Exemple : Aire (-1 Z ≤ ≤ ≤ 1.7 )= Aire (Z ≤ 1.7) - Aire (Z ≤ -1) = 0.7967 ≤ a) 24 • Calcul de l’aire sous une courbe normale X ~ N( µ , σ ) : 2 Pour trouver l’aire entre a et b : Aire (a ≤ X ≤ b) il suffit de trouver la cote Z pour a et pour b, disons z1= a−µ σ et z2 = b−µ σ puis de calculer ( comme Z est une loi normale standard) : z ≤ Z ≤ z2 ) Aire ( 1 en utilisant la table de la loi normale standard. • Graphique des quantiles normaux : Exemple : L'ensemble de données utilisées dans cet exemple inclut 61 observations de provinces canadiennes et états américains. Cet ensemble représente les revenus médians (‘000$CAN). Voir la base de données : ftp://monet.stat.uqam.ca/mat4680/Donnees/NiveauVie.MTW La commande de MINITAB « Display Descriptive Statistics» a produit le sommaire numérique des données suivant: Results for: NiveauVie.MTW Descriptive Statistics: C2 Variable C2 N 61 Mean 32.734 Median 31.800 TrMean 32.527 Variable C2 Minimum 25.900 Maximum 43.300 Q1 30.150 Q3 35.600 StDev 4.141 SE Mean 0.530 25 La commande « Boxplot » donne : C2 45 35 25 La commande « stem-and-leaf » donne : Stem-and-Leaf Display: C2 Stem-and-leaf of C2 Leaf Unit = 1.0 1 9 14 (17) 30 20 11 7 5 2 2 2 2 3 3 3 3 3 4 4 N 5 67777777 88889 00000011111111111 2222223333 445555555 6677 88 001 33 = 61 26 La normalité des données peut être évaluée en utilisant la commande de MINITAB «Stat>Basic Statistics>Normality Test». Normal Probability Plot for C2 ML Estimates - 95% CI 99 ML Estimates 95 Mean 32.7344 StDev 4.10725 90 Goodness of Fit Percent 80 AD* 70 60 50 40 30 0.995 20 10 5 1 24 34 44 Data Ce diagramme indique que les données semblent suivre une distribution normale car tous les ponts du graphe se trouvent autour de la droite avec un degré de confiance ( goodness of fit) de l’ordre de 99.5%. Règle : Un graphe de quantile est considéré normal quand les points se trouvent près de la droite. Lorsque les points dévient de la droite de façon systématique, ce graphe indique alors une distribution non normale. Les points qui se trouvent loin de la droite constituent ce qu’on appelle les points extrêmes de l’ensemble des données.