EFTG STATISTIQUE Octobre 2015 STATISTIQUE DESCRIPTIVE SIMPLE I / Introduction Il n’est pas facile de définir de manière précise et complète la STATISTIQUE (ou tout autre science !). Historiquement, à l’origine, la Statistique a fourni des renseignements sur la ″population″ au sens propre du terme : nombre, répartition par âge, par sexe, selon l’état matrimonial, la profession, le lieu de résidence… . De nos jours, les méthodes statistiques sont utilisées dans tous les domaines : démographie, économie, médecine, épidémiologie, agronomie, industrie, gestion, contrôle de qualité, sociologie, sondages d’opinion, linguistique, éducation, psychologie et tellement d’autres. But de l’Etude Statistique : - Savoir présenter des données, les décrire et les résumer. - Savoir dégager, assez rapidement, un certain nombre de renseignements sur le phénomène décrit par les données. - Savoir tirer des conclusions sur des populations à partir de calculs conduits sur des échantillons. - Savoir faire de “bonnes” prévisions. II / Terminologie. Exemple d’un Tableau de Données: (Tableau 1) Parmi les étudiants d’une certaine université, on a relevé pour 30 d’entres eux, les données suivantes : 1. 2. 3. 4. 5. Revenus des parents (en DA) Sexe (Homme, Femme) Âge (en années) Ancienneté (en années) Palier d’étude (L, M ou D) 6. Nombre de frères et sœurs. M. YAHI Page 1 2015/2016 EFTG STATISTIQUE Revenus 29472 21629 21088 21369 20240 72696 67580 37580 60096 45900 19613 29472 34060 25176 21371 79356 57532 14060 32513 41871 39536 89553 23406 45789 56213 23489 36457 102589 95547 33563 Sexe F M M M F M M M F M M F M M M F M F M F M F M M F M M F M M Age 21 18 20 21 18 23 20 19 22 25 24 27 21 26 18 24 21 23 27 22 19 24 22 18 24 20 22 17 21 23 Anc. 2 1 2 4 1 5 3 1 5 7 6 10 2 9 1 6 3 4 8 4 2 5 5 1 6 3 5 1 4 5 Octobre 2015 Palier Nbre F/S L 3 L 4 L 3 M 5 L 1 M 2 L 3 L 4 M 3 M 2 M 4 D 4 L 5 D 4 L 2 M 3 L 3 M 4 D 3 M 3 L 2 M 4 M 4 L 1 M 2 L 3 M 3 L 3 M 3 M 2 Le statisticien, quelle que soit sa spécialité, utilise les expressions rappelant qu’à l’origine, la statistique consistait surtout en l’observation et la description de collectivités humaines: POPULATION - INDIVIDU – ECHANTILLON – CARACTERE La population est l’ensemble de référence. C’est l’ensemble étudié. L’individu est une unité statistique. C’est un élément de la population. Un échantillon est un sous-ensemble de la population. Un caractère est ce que l’on observe sur l’individu. Il varie d’un individu à l’autre; on l’appelle variable statistique. M. YAHI Page 2 2015/2016 EFTG STATISTIQUE Octobre 2015 Dans notre exemple : Population : les 20000 étudiants de l’USTHB= {Y1, …, Y20000} Individu : étudiant Echantillon : par ex. {y1, …, y30} Caractère : âge. Dans cet exemple, il y a 6 caractères différents: Revenu, Sexe, Age, Ancienneté, Palier d’étude, Nombre de frères et sœurs. III/ Nature d’un caractère CARACTERE ou VARIABLE: (mesuré sur chaque individu et noté X ) QUALITATIF Ordinal QUANTITATIF Nominal Ex: (Palier: L, M, D) Discret (Sexe: H, F) (nbre de F/S) Continu (Age, Anc., Rev.) IV/ Tableaux statistiques L’objet des statistiques est d’étudier des caractères (ou des variables) sur des individus. La récolte initiale des données conduit à un tableau brut. Comme le tableau 1 précédent. Pour un caractère, le tableau brut se met sous la forme suivante (Tableau A) Individu variable 1 X1 2 X2 . . . . . . n Xn Modalité effectif x1 n1 x2 n2 . . . . . . xk nk Tableau A Tableau B Cependant, le nombre d’individus observés étant en général important, ce tableau (A) ne permet pas d’analyser l’information obtenue. Il est donc nécessaire de créer un tableau (tableau B), plus synthétique, où les observations identiques (possédant la même modalité) ont été regroupées. Ainsi, après avoir mis en ordre les résultats obtenus au cours de l’étude d’un caractère X, mesuré sur les membres d’une population, une série statistique se présente sous la forme d’un ensemble de valeurs xi représentant les différentes modalités du caractère. Ces valeurs xi peuvent se répéter, chacune un nombre ni de fois. M. YAHI Page 3 2015/2016 EFTG STATISTIQUE Octobre 2015 Une série statistique est l’ensemble des couples (xi , ni), i=1,…,k où k est le nombre de modalités. Elle est présentée sous forme d’un tableau. (Comme dans l’exemple suivant) On appelle effectif de la modalité xi, le nombre ni d’individus pour lesquels le caractère X prend la valeur xi. i nicum nic n1 n2 ni nk On appelle effectif cumulé en xi , le nombre k 1 fi On appelle fréquence de xi , le nombre ni n f icum f ic f1 f 2 f i On appelle fréquence cumulée en xi , le nombre Remarque : toutes ces informations peuvent être résumées dans un tableau appelé tableau de distribution de la variable. Pour les différents caractères de l’exemple, il y a 6 séries statistiques 1) Sexe: qualitatif nominal H xi ni 20 fi 0.67 F 10 0.33 Total 30 1 i=1,2 Modalités 2) Palier d’études: qualitatif ordinal xi ni fi L 13 0.43 M 14 0.47 D 3 0.1 Total 30 1 i= 1,2,3 3) Nombre de frères et soeurs: quantitatif discret. i 1 2 3 4 5 M. YAHI xi 1 2 3 4 5 ni 2 6 12 8 2 30 nic 2 8 20 28 30 Page 4 fi 0.07 0.20 0.40 0.26 0.07 1 fic 0.7 0.27 0.67 0.93 1 2015/2016 EFTG STATISTIQUE Octobre 2015 4) Revenus des parents : quantitatif continu. Il y a lieu de distinguer entre variable discrète et variable classée (regroupées en classes). Lorsque les modalités d'une variable discrète sont trop nombreuses, il est préférable de regrouper des modalités pour obtenir une variable classée afin que les tableaux synthétisent l'information et restent lisibles. Une variable continue est une variable classée. La répartition des données se fait alors sous forme de regroupement en classes des données voisines. Nous ne considèrerons que le regroupement en classes de même amplitude, comme suit : Les classes sont des intervalles fermés à gauche et ouverts à droite, contiguës (adjacentes) mais qui ne se chevauchent pas. [a0, a1 [ , [a1, a2 [ , [a2, a3 [, ……..,[ak-1, ak [ En général, a0 = Xmin . La dernière classe peut être fermée à droite. Soit k, le nombre de classes. Alors le nombre de classes à prendre est donné par : k= E[5log n] (ou bien k = n si n ≤ 50), où n est la taille de la série brute. Soit a = amplitude de classe (longueur de l’intervalle) et E = étendue de la série = Xmax - Xmin E E Alors a = . On prendra le plus petit a, convenable, tel que a ≥ k k Pour notre exemple des revenus, on a n = 30, et k = n = 30 = 5,48 . On prend k ≈ 5 E= xmax - xmin = 109553 -14060 = 95493 ; 95793 E 19098,6 20000 . On prendra a0 = 10000. Ainsi, a = = 5 k D’où le tableau de distribution de la variable « Revenus » xi ni nic fi fic Classes [10000-30000[ 20000 12 12 0.400 0.400 [30000-50000[ 40000 9 21 0.300 0.700 [50000-70000[ 60000 4 25 0.133 0.833 [70000-90000[ 80000 3 28 0.100 0.933 [90000-110000] 100000 2 30 0.067 1 Total 30 1 Le tableau ci-dessus résume toutes les données. A remarquer, que dans le cas d’un caractère continu le rôle des modalités xi est joué par le centre des classes. . 5) Age : quantitatif continu (discret regroupé en classes). fi Classes xi ni nic [17-19[ 18 5 5 0.167 [19-21[ 20 5 10 0.167 [21-23[ 22 9 19 0.300 [23-25[ 24 7 26 0.233 [25-27] 26 4 30 0.133 Total 30 1 6) Ancienneté : quantitatif continu (discret regroupé l’exemple 5). M. YAHI Page 5 fic 0.167 0.334 0.634 0.867 1 en classes).Idem que 2015/2016 EFTG STATISTIQUE Octobre 2015 V/ Représentation graphique 1. Représentations Graphique d’une série statistique quantitative : i) Le diagramme en bâtons pour les variables DISCRETES : C’est la représentation sur un graphe du tableau de distribution en mettant en abscisse les valeurs xi, en ordonnés les effectifs (ou les fréquences) correspondant(e)s et en traçant une ligne verticale à partir de xi jusqu’à ni (ou fi). Exemple : Variable « nombre de frères et soeurs » Effectif ni 12 8 6 2 2 1 2 3 4 5 xi ii) L’Histogramme pour les variables CONTINUES : C’est la représentation sur un repère de la série en portant en abscisses les classes (toutes de même amplitude) et en ordonnés les effectifs (ou les fréquences) et en traçant un rectangle ayant pour base la classe [ai , ai+1 [ et pour hauteur l’effectif (ou la fréquence ) correspondant(e). Exemple : variable « Âge » Effectif 9 7 5 4 17 M. YAHI 19 21 23 25 Page 6 xi 27 2015/2016 EFTG STATISTIQUE Octobre 2015 2. Représentations Graphique d’une série statistique qualititative: i) Diagramme en secteurs circulaires - L'effectif total est représenté par un disque. - Chaque modalité est représentée par un secteur circulaire dont la surface (donc l'angle au centre) est proportionnelle à l'effectif correspondant. On calcule pour chaque modalité du caractère, la valeur de l’angle au centre associé, valeur qui est proportionnelle à la fréquence. On aura i f i 360 : Exemple : Palier d’étude Xi ni fi i L 13 0.43 154.8° M 14 0.47 169.2° 36° D 3 0.10 360° Total 30 1 Palier d'étude D 10% L 43% M 47% Diagramme en secteurs circulaires de la variable « Palier d’étude » M. YAHI Page 7 2015/2016 EFTG STATISTIQUE Octobre 2015 ii) Représentation en tuyaux d’orgues (ou diagramme en barre ou diagramme à bandes) - les modalités de la variable sont placées sur une droite horizontale (attention: ne pas orienter cette droite car les modalités ne sont pas mesurables et il n'y a donc pas de relation d'ordre entre elles. - les effectifs (ou les fréquences) sont placés sur un axe vertical. La hauteur du tuyau est proportionnelle à l'effectif. Attention: les tuyaux ont une certaine épaisseur pour qu'il n'y ait pas de confusion avec les diagrammes en bâtons réservés à la variable quantitative discrète. On représente chaque modalité par un rectangle de base commune et de hauteur égal à son effectif ou sa fréquence. 16 14 12 10 B 8 6 A 4 2 C 0 Licence Master Doctorat Représentation en tuyaux d’orgues de la variable « palier » M. YAHI Page 8 2015/2016 EFTG STATISTIQUE Octobre 2015 3. Diagrammes cumulatifs i) Variable discrète. Soit X une variable statistique prenant les modalités x1 , x2 , , xk avec les effectifs correspondants n1 , n2 ,, nk ou les fréquences correspondantes f1 , f 2 ,, f k . Le diagramme cumulatif est obtenu en joignant les bâtons cumulés par une ligne en escalier. La fonction de répartition de la variable statistique X, F est une application F : R [ 0,1] x F(x) où , Exemple 1: xi 0 1 2 3 4 5 ni 4 10 6 4 1 1 26 M. YAHI F(x) = si x x1 0 f si x1 x x 2 1 f 2cum si x2 x x3 f icum si xi x xi 1 1 si x x k X = nombre d’écoliers par logement dans un immeuble de 26 appartements. nic 4 14 20 24 25 26 Page 9 2015/2016 EFTG STATISTIQUE Octobre 2015 ii) Variable continue La courbe cumulative ou la fonction de répartition est obtenue en joignant les points ayant pour abscisse la limite supérieure de classe et pour ordonnée l’effectif cumulé correspondant. Elle permet de visualiser l'évolution des effectifs (fréquences) cumulés croissants ou décroissants. Remarque: les deux courbes sont symétriques par rapport à un axe horizontal d'ordonnée n/2 pour les effectifs, ½ pour les fréquences. On utilise l'effectif (fréquence) cumulé croissant pour répondre aux questions du style: Quel est le nombre (%) d'individus dont la valeur du caractère est inférieure ou égale à x ? On utilise l'effectif (fréquence) cumulé décroissant pour répondre aux questions du style: Quel est le nombre (%) d'individus dont la valeur du caractère est strictement supérieure à x ? Se souvenir: Au plus x ( < x ) : utiliser N(x) ou F(x), où N(x) est l’effectif cumulé croissant. Plus que x ( > x) : utiliser N '(x) ou F '(x), où N’(x) est l’effectif cumulé décroissant Exemple 2: X = poids de 100 jeunes adolescents ni nic Classes xi [38-40[ 39 11 11 [40-42[ 28 [42-44[ 16 [44-46[ 25 [46-48] 15 [48-50[ 5 Total 100 M. YAHI Page 10 2015/2016 EFTG STATISTIQUE Octobre 2015 VI/ Paramètres de tendance centrale (Paramètres de position) Synthétiser l'information contenue dans un tableau par un graphique est la première étape réalisée en statistique. Par la suite, on cherche à synthétiser encore plus l'information en la réduisant à une seule valeur numérique. Les caractéristiques de tendance centrale essayent de donner la valeur la plus représentative d'un ensemble de valeurs numériques. Remarque: les paramètres définis par la suite n'ont de sens que pour les variables quantitatives. 1. Mode ( M 0 ). C’est la valeur observée d'effectif maximum. Variable discrète: Classer les données par ordre croissant. Celle d'effectif maximum donne le mode. Une série statistique peut être unimodale ou plurimodale. Variable classée (continue donnée en classe): La classe modale correspond à la classe ayant l'effectif maximum. Il est fortement conseillé d'utiliser l'histogramme pour déterminer le mode. Comme pour le cas discret, on peut avoir plusieurs classes modales. Toutes les valeurs de la classe pouvant à priori se réaliser, on ne se contentera pas de déterminer la classe modale. Une des valeurs de cette classe sera le mode. Certains auteurs préconisent par simplicité de prendre le centre de la classe modale, cependant il est préférable de tenir compte des classes adjacentes de la manière suivante: Graphiquement le mode est obtenu comme ci-dessous. Analytiquement, le mode est obtenu par interpolation: Mo l1 l d1 d1 d 2 d1 ni ni 1 d 2 ni ni 1 ni est l’effectif de la classe modale ni-1 celui de la classe précédente ni+1 celui de la classe suivante. l est l’amplitude de classe Exemple 2. Poids des ados. Classes [38-40[ [40-42[ [42-44[ [44-46[ [46-48] [48-50[ Total M. YAHI xi 39 41 43 45 47 49 ni nic 11 11 28 39 16 55 25 80 15 95 5 100 100 Page 11 2015/2016 et EFTG STATISTIQUE Octobre 2015 2. Les Quantiles. a) Définition Soit 0,1 . On appelle quantile d’ordre , noté q , le nombre tel qu’il y ait n observations qui lui soient inférieures dans une série ordonnée de taille n. Pour 14 , 12 , 34 , on obtient respectivement le 1er , 2ème et 3ème quartile notés Q1, Q2 , Q3. Le deuxième quartile, Q2 est appelé médiane b) Calcul i) Variable discrète: la détermination peut s'obtenir à partir du tableau statistique en recherchant la valeur de la variable correspondant à un effectif cumulé égal à n ou une fréquence cumulée égale à . Selon la valeur de n , on aura : xn xn 1 si n N q = 2 si n N xn 1 xn est la valeur xi à laquelle correspond le nic ≥ n et [ . ] désigne la partie entière. ii)Variable classée : on parlera de classe contenant q .C’est la classe qui a son effectif cumulé ≥ n (ou sa fréquence cumulée ≥ ) . q est alors déterminé par interpolation, à l’intérieuer de cette classe, de la manière suivante: q = a + (b-a) n F1 F2 F1 ou q = a + (b-a) F (a) F (b) F (a) [a,b[ est la classe contenant q : c’est la classe pour laquelle nic ≥ n . F2 est l’effectif cumulé de la classe [a,b[, F1 celui de la classe précédente. F(b) est la fréquence cumulée de la classe [a,b[ et F(a) celle de la classe précédente Exemple 1: xi 0 1 2 3 4 5 ni 4 10 6 4 1 1 26 M. YAHI X = nombre d’écoliers par logement dans un immeuble de 26 appartements. nic 4 14 20 24 25 26 Page 12 2015/2016 EFTG STATISTIQUE Exemple 2: Classes [38-40[ [40-42[ [42-44[ [44-46[ [46-48] [48-50[ Total Octobre 2015 X = poids de 100 jeunes adolescents xi 39 41 43 45 47 49 ni nic 11 11 28 39 16 55 25 80 15 95 5 100 100 c) Représentation graphique Graphiquement, q est l’abscisse du point d’ordonnée de la fonction de répartition . Exemple: =0,5, alors la médiane est représentée pour une variable discrète Si la variable est continue M. YAHI Page 13 2015/2016 EFTG STATISTIQUE Octobre 2015 3. La moyenne arithmétique: a) Définition. La moyenne arithmétique, notée X , est donnée par la quantité k 1 k X ni xi , ou de manière équivalente, X f i xi . n i 1 i 1 Les xi sont les modalités (ou les centres de classes) du caractère, et les ni les effectifs. La moyenne arithmétique est un paramètre de tendance centrale plus utilisé que les autres de par ses propriétés algébriques: les calculs sont résumés dans un tableau statistique de la sorte: xi x1 x2............................ x k ni n1 n2 ni xi n1 x1 nk n n2 x2........................ nk x k ni xi b) Propriétés Pour plusieurs populations d’effectifs n1, n2, …nk, de moyenne x1 , x2 , ....., xk . Moyenne globale = moyenne des moyennes x 1 k ni x i n i 1 c) Relation entre Mode, Médiane et Moyenne Arithmétique Dans le cas de distributions unimodales, la médiane est comprise entre la moyenne et le mode, plus proche de la moyenne que du mode Si la distribution est symétrique, ces trois caractéristiques de tendance centrale sont confondues. VII/ Paramètres de dispersion Comme leur nom l'indique, ces caractéristiques essayent de synthétiser par une seule valeur numérique la dispersion de toutes les valeurs observées. 1) Etendue: C'est la différence entre la plus grande et la plus petite observation. M. YAHI Page 14 2015/2016 EFTG STATISTIQUE Octobre 2015 2) Intervalle inter-quartiles: Donné par Q1 ; Q3 . Il contient 50% des observations centrales, symétriquement de part et d’autre de la médiane. Sa longueur s’appelle l’écart inter-quartiles. 3) Variance et écart-type: 1 k a) Moment d’ordre r: il est donné par le nombre m n x r , où les xi sont les r n i i i 1 observations d'une variable discrète ou les centres de classe d'une variable classée. Remarque : m1 x b) Moment centré d’ordre r: il est donné par le nombre, r 1 k ni ( xi x) r n i 1 c) Variance i) Définition: La variance notée VarX ou 2 est le moment centré d’ordre 2 , i.e. 2 = 2 1 k ni ( xi x) 2 n i 1 2 = et 2 = 1 n ( xi x ) 2 n i 1 pour une série groupée pour une série brute. ii) Calcul: On montre que : et 2 2 1 n 2 xi x n i 1 2 2 1 k ni xi2 x n i 1 pour une série groupée pour une série brute. Var = la moyenne des carrés – carré de la moyenne Remarque: Cette dernière formule est plus adaptée aux calculs algébriques. On rajoute une ligne au tableau précédent : M. YAHI xi x1 x2.................................... x k ni ni xi n1 n1 x 1 n2 ......... n2 x2............................. nk nk x k ni xi2 n1 x12 n2 x22.........…................. nk x k2 Page 15 n ni xi ni xi2 2015/2016 EFTG STATISTIQUE Octobre 2015 d) L’écart-type: On utilise plus couramment l'écart-type, noté , qui est la racine carrée de la variance et qui a l'avantage d'être un nombre de même dimension que les données (contrairement à la variance qui en est le carré) La variance est un paramètre de dispersion plus utilisé que les autres de par ses propriétés algébriques. Pour plusieurs populations d’effectifs n1, n2, …nk, de moyenne x1 , x2 , ....., xk et de variances V1, V2, …Vk. Variance globale = Variance des moyennes + Moyenne des variances 1 k V = xi x n i 1 2 1 k 1 k + ni Vi , où x ni xi représente la moyenne des moyennes. n i 1 n i 1 4) Changement de variable: Proposition: Soient X et Y deux variables statistiques et soient a et b deux nombres réels tels que X a Y b . Alors, X a Y b et X2 a 2 Y2 . On choisira a = amplitude de classe, et b = milieu de la classe centrale (si le nombre de classes est pair, prendre la classe centrale ayant le plus grand effectif). On calculera les valeurs yi , la moyenne Y et la variance Y2 de la variable Y comme suit: x b yi i a 1 k y ni yi n i 1 2 1 n 2 Y yi y n i 1 2 2 On en déduira la moyenne X et la variance X , en utilisant les formules de la proposition. Exemple 1: (Nombre d’écoliers) Calcul direct de la moyenne et de la variance. xi 0 1 2 3 4 5 ni ni xi ni xi2 4 10 6 4 1 1 26 M. YAHI Page 16 2015/2016 EFTG STATISTIQUE Octobre 2015 Exemple 2: (Poids des ados.) Calculer la moyenne et la variance en utilisant un changement de variable (changement d’échelle et d’origine). On prend a = 2 et b = 45. Classes ni xi [38,40[ [40,42[ [42,44[ [44,46[ [46,48[ [48,50[ 11 28 16 25 15 5 100 39 41 43 45 47 49 ni xi ni x i 2 yi xi 45 2 ni y i ni yi 2 5) Coefficient de Variation: Il est donné par CV ( X ) X . C'est un coefficient qui permet de relativiser l'écart-type en fonction de la taille des valeurs. Il permet ainsi de comparer la dispersion de différentes séries de mesures exprimées dans des unités différentes, car il n’a pas d’unité. La série avec le plus petit coefficient de variation serait la moins dispersée c'est-à-dire elle aurait ses valeurs situées plus autour de la moyenne que les autres séries. Exemple: Comparer les CV des deux séries, ‘‘Nombre d’écoliers’’ et ‘‘Poids des ados.’’. Laquelle est la plus dispersée ? M. YAHI Page 17 2015/2016 EFTG STATISTIQUE Octobre 2015 Boîte à moustaches Lecture d’une boîte à moustaches On repère sur la boîte à moustaches d’une variable: • l’échelle des valeurs de la variable, située sur l’axe vertical. • la valeur du 1er quartile Q1 (25% des effectifs) , correspondant au trait inférieur de la boîte, • la valeur du 2ème quartile Q2 (50% des effectifs), représentée par un trait horizontal à l’intérieur de la boîte, • la valeur du 3ème quartile Q3 (75% des effectifs), correspondant au trait supérieur de la boîte, • les 2 « moustaches» inférieure et supérieure, représentées par les petits rectangles verticaux de part et d’autre de la boîte. Ces 2 moustaches, délimitent les valeurs dites adjacentes qui peuvent être calculées respectivement en fonction de l’écart iner-quartile comme suit ; Q1 – 1,5 x (Q3 – Q1) et respectivement Q3 + 1,5 x (Q3 – Q1) Rq parfois, on les prend égales respectivement au premier et au neuvième décile • les valeurs dites extrêmes, atypiques, exceptionnelles,(outliers) situées a au-delà des valeurs adjacentes sont individualisées. Elles sont représentées par des marqueurs (carré, ou étoile,..) Propriétés La médiane tout comme la moyenne n’est pas forcément égale à une valeur rencontrée dans les données. La médiane et la moyenne sont des représentants d’une position centrale dans les données. La médiane et la moyenne ont chacune une valeur comprise entre les valeurs extrêmes de la distribution. Les deux valeurs peuvent être égales ou différentes. o Elles sont égales si la distribution est symétrique. o Lorsque la distribution est plus allongée vers les grandes valeurs, la médiane est inférieure à la moyenne. o Lorsque la distribution est plus allongée vers les petites valeurs, la médiane est supérieure à la moyenne. o Plus la distribution est dissymétrique, plus la médiane s’écarte de la moyenne. En supprimant un point atypique dans les données, la moyenne est très influencée par les valeurs extrêmes, ce qui n’est pas le cas de la médiane. Exemple Soient les notes obtenues par trois groupes d’étudiants à un contrôle d’informatique : Groupe 1 2 5 9 11 12 14 16 18 19 Groupe 2 1 3 4 5 6 7 9 11 13 Groupe 3 7 9 12 13 14 15 15 16 17 Pour pouvoir comparer les notes des 3 groupes on trace les boites à moustaches Groupe 1 Q1 9 Moust.Inf 2 Médiane 12 Moust.Sup 19 Q3 16 Moy 11,8 Groupe 2 4 1 6 13 9 6,6 Groupe 3 12 7 14 17 15 13,1 Rq Ici on prendra Moust Inf = xmin car Q1 – 1,5 x (Q3 – Q1) < xmin et Moust Sup= xmax car Q3 + 1,5 x (Q3 – Q1) > xmax M. YAHI Page 18 2015/2016 EFTG STATISTIQUE Octobre 2015 VIII/ Paramètres de forme : Outre la tendance centrale et la dispersion, on peut chercher à caractériser la forme d’une distribution au moyen des indices d’asymétrie et d’aplatissement de Fisher. Ces indices sont sans dimension et invariants par changement d’origine et d’échelle. 1. Coefficient d’asymétrie de Fisher C’est le nombre noté 1 , 1 3 3 1 = 0 si la distribution est symétrique. 1 > 0 si la distribution est étalée vers la droite 1 < 0 si la distribution est étalée vers la gauche 1 = 0 1 > 0 1 < 0 2. Coefficient d’aplatissement de Fisher C’est le nombre noté 2 , 2 4 3 4 2 4 3 ( 2 ) 2 Le coefficient d’aplatissement d’une variable de distribution Normale est égal à 3. Une telle distribution en « cloche » est souvent considérée comme idéale. Pour cette raison : 2 = 0, la série est Normale 2 > 0, la série est moins aplatie qu’une série statistique normale de même moyenne et de même variance 2 < 0, la série est plus aplatie qu’une série statistique normale de même moyenne et de même variance M. YAHI Page 19 2015/2016 EFTG STATISTIQUE Octobre 2015 IX/ Autres moyennes 1. Moyenne Géométrique Exemple : Un marchand dispose d’une balance dont les bras n’ont pas la même longueur (b>a) de telle sorte que les masses marquées placées dans l’un des plateaux équilibrent une masse différente placée dans l’autre plateau. Pour effectuer une pesée il décide de faire 2 mesures successives, - une en plaçant les masses marquées à gauche, il trouve 1100g. - l’autre pesée est effectuée en plaçant les masses marquées à droite et il trouve 900g. Le marchand annonce alors que le vrai poids est de 1000g. Dit-il vrai ou faux ? Définition La moyenne géométrique de n nombres strictement positifs x1, x2, …, xn est le nombre mg tel que m g x1 .x2 .....xn n mg i.e n x1. x2 ....xn = m g xi i 1 n 1 n Pour une série groupée, on obtient 1 mg n n1 n2 x1. x2 ....xk nk = k n m g xinii i 1 k avec n i 1 i n 2. Moyenne Harmonique Exemple : Un coureur fait un tour de piste à la vitesse de 26 km/h et au deuxième tour à une vitesse de 30 km/h. Il fait ainsi les 800m avec une vitesse de 28 km/h. (la moyenne arithmétique des 2 vitesses). Est ce vrai ou faux ? M. YAHI Page 20 2015/2016 EFTG STATISTIQUE Octobre 2015 Définition La moyenne harmonique de n nombres strictement positifs x1, x2, …, xn est le nombre mh tel que 1 1 1 1 1 ... mh n x1 x2 xn mh ie 1 1 1 1 1 ... n x1 x2 xn n n 1 x i 1 i Pour une série groupée, on obtient 1 k n mh i n i 1 xi 1 k avec n i 1 i n 2. Moyenne Quadratique Exemple On dispose de 2 médaillons d’argent en forme de carré , l’un de 1cm, l’autre de 2cm de côté. On les donne à un bijoutier pour en faire 2 médaillons d’égal côté. Le bijoutier donne 2 médaillons de 1,5cm de côté chacun. (la moyenne arithmétique des 2 côtés). Est ce correct ? Définition La moyenne quadratique de n nombres x1, x2, …, xn est le nombre mq tel que mq2 1 n 2 xi n i 1 1 n mq ie n x i 1 2 i Pour une série groupée, on obtient mq M. YAHI 1 n n ni xi2 k avec i 1 Page 21 n i 1 i n 2015/2016