CHAPITRE 2 : SERIE STATISTIQUE A UN CARACTERE. A) Généralités. 1) Introduction La statistique est une méthode « scientifique » de l’information dont la matière principale est fournie par des données numériques en nombre suffisamment important. Ces données numériques doivent être présenter sous des formes facilement interprétables et exploitables. Pour ce faire, la statistique descriptive utilise : - soit des tableaux - soit différents types de représentation graphique - soit des résumés numériques appelés caractéristiques. 2) Définitions et vocabulaire. Population statistique : C’est l’ensemble des éléments à partir duquel les données sont obtenues. Individu en unité statistique : C’est l’élément de la population. Echantillon : C’est une partie de la population constituée de n individus extraits des conditions déterminées. Caractère : Chaque individu de la population est repéré ou analysé selon un critère appelé caractère. Modalité : Chaque caractère peut présenter plusieurs états appelés modalités et les modalités d’un caractère sont incompatibles et exhaustives. Caractères qualitatifs : Les modalités ne sont pas mesurables même si parfois on peut les représenter par des codes numériques. Caractères quantitatifs : appelés aussi variables statiques lorsque les modalités sont mesurables. - La variable est dite « discrète » si les valeurs prises sont isolées. - La variable est dite « continue » si les prises appartiennent a un intervalle de . Exemple de base : Une enquête sociologique a été menée par un organisme auprès de 100 familles vivants dans une cité. Trois questions ont été posées : - La Catégorie Socioprofessionnelle (CSP) du chef de ménage (employé, courrier, cadre moyen, personne non-active.) - Nombres moyens d’appareils électroménagers par famille. - Le niveau d’endettement annuel par famille. Dans cet exemple, les caractères sont les différentes questions de l’enquête. La détermination dépend du caractère étudié. Population Unité statistique UN chef de ménage. Caractère Question 1 Ensemble des chefs de ménage. CSP Question 2 Ensemble des UNE famille familles Nombre d’appareils électroménagers Question 3 Ensemble des UNE famille familles Niveau d’endettement Nature du caractère Qualitatif Modalités 4 (ouvrier, employé, cadre moyen) 8 (0,1,2,3, 4,5,6,7) Quantitatif, Variable statique discrète Quantitatif, Variable statique continue 6 [0,1000[ ; [1000,2000[ [2000,2500[ [2500,3500[ [3500,4000[ [4000,5000[ B) Série Statistique a un caractère I) Distribution statistique : Par la suite, on considère que la population a un effectif total égal à n ,et le caractère analyse admet exactement r modalités. 1) Définition 1 : On appelle « distribution statistique » la donnée de tous les couples m , n ; i 1,..., r i i Où mi est la modalité de rang i et ni le nombre de fois que celle-ci a été observée. On dit que ni est « l’effectif » ou la « fréquence absolue » de la i ème modalité. Propriété : L’effectif total n est la somme de tous les effectifs, c’est a dire : n n1 n2 ... nr 2) Définition 2 : On appelle « fréquence » ou « fréquence relative » de la i ème modalité ni la quantité notée n f i définie par : fi i . n Propriétés : 0 fi 1 r Et f i 1 i 1 . 3) Tableaux des fréquences. a) 1er Cas : Caractère qualitatif. Exemple 1 : Répartition des chefs de ménage selon leur catégorie socioprofessionnelle (CSP). CSP ni Employés Ouvriers Cadre moyen Non actifs Total 30 40 20 10 100 f i (en %) 30 40 20 10 100 b) 2ème Cas : Caractère quantitatif, variable discrète. Exemple 2 : Nombre moyens d’appareils électroménagers par famille. ni xi 0 1 2 3 4 5 6 7 Total 2 15 30 20 15 10 5 2 100 fi 0.02 0.15 0.30 0.20 0.15 0.10 0.05 0.02 1 c) 3ème Cas : Caractère quantitatif, variable continue. Les modalités sont des intervalles de appelés « classes » et notées Ci . Ci i , i 1 où i i 1,......, r 1 représente les extrémités des classes. Exemple 3 : Distribution du niveau d’endettement annuel de chaque famille. Ci ni [0,1000[ [1000,2000[ [2000,2500[ [2500,3500[ [3500,4000[ [4000,5000[ Total 26 30 22 14 6 2 100 fi 0.26 0.30 0.22 0.14 0.06 0.02 1 d) Fréquence cumulées. Définition : On appelle « fréquence cumulée » de la i ème modalité d’une variable statistique, la somme des fréquences des i premières modalités. i On la note par Fi et on a : Fi f1 f 2 ... fi f j j 1 Propriétés : F1 = f1 r Fr fi 1 i 1 4) Fonction de répartitions . Définition : on appelle fonction de répartition d’une distribution statistique, l’application F qui à tout nombre réel x associe la proportion d’individus, dont le caractère est strictement inférieur à x . Propriétés : a) F( x 1) = 0 ( Cas discret ) Et F( 1) = 0 ( Cas continu ) b) Pour tout x contenu dans l’intervalle ] x k , x a. ( avec x k < x ≤ x F( x )= f 1 + f 2 +……+ fk k = b. k+1] fi i 1 F (k ) ( Cas discret ) F (k) f 1 f 2 ..... fk 1 k 1 fi F ( k 1) ( Cas continu ) i 1 Remarque : Pour tout x xk, xk 1] , si on fait tendre x vers xk 1 , alors : k lim F ( x) F ( xk 1) fi Fk xxk 1 i1 Donc F est une fonction continue a gauche. c. F () 0 et F () 1 k+1 ), on a: Exemple numérique : Cas discret : (Tableau de l’exemple 2). xi 0 1 2 3 4 5 6 7 Total ni 2 15 30 20 15 10 5 3 100 fi 0.02 0.15 0.30 0.20 0.15 0.10 0.05 0.03 1 Fi 2 17 47 67 82 92 97 100 F( x ) 0 0.02 0.17 0.47 0.67 0.82 0.92 0.97 1 Interprétation : - Par exemple, 67% des familles ont au plus 3 appareils électroménagers, car F(4) = 0.67 - Ou alors 98% des familles possèdent au moins 1 appareil électroménager, car F(1) = 0.02 Cas continu : (Tableau de l’exemple 3). i 0 1000 2000 2500 3500 4000 5000 Total ni --------------------26 --------------------30 --------------------22 --------------------14 --------------------6 --------------------2 --------------------100 fi --------------------26 --------------------30 --------------------22 --------------------14 --------------------6 --------------------2 --------------------100 Fi (en %) --------------------26 --------------------56 --------------------78 --------------------92 --------------------98 --------------------100 --------------------- F( x ) 0 0.26 0.56 0.78 0.92 0.98 1 Interprétation : Par exemple, 78% des familles ont des niveaux d’endettement supérieur ou égal a 2500, car F(2500) = 0.78 5) Représentation par les fréquences. a) Diagramme à secteurs.(Cas des caractères qualitatifs) La population est représentée graphiquement par une surface circulaire. A chaque modalités mi , on associe un secteur Si dont l ‘angle au centre i est nécessairement proportionnelle à la fréquence de la ième modalité. On doit avoir vérifier pour la validité de la construction que i k fi ; r Or puisque : fi 1 i 1 r De ceci , on a : r , alors on doit avoir : i 2 i 1 . r i k fi 2 i 1 i 1 r , ce qui équivaut à : k Nous pouvons donc en conclure que : k 2 . fi 2 i 1 Application 1: (Tableau de l’exemple 1). ni 30 40 20 10 100 CSP Employés Ouvriers Cadre moyen Non actifs Total fi (en %) 30 40 20 10 100 Répartition des chefs de ménage selon leur CSP 10% 30% 20% 40% b) Diagramme différentiel. 1°) Variable discrète. On appelle « diagramme en bâtons » d’une distribution statistique d’une variable discrète la représentation graphique suivante : h hk hr h1 x1 xk x xr Propriétés : hi doit être proportionnel à la fréquence f i : Application 2 : (Tableau de l’exemple 2) ni xi 0 1 2 3 4 5 6 7 Total fi 0.02 0.15 0.30 0.20 0.15 0.10 0.05 0.02 1 2 15 30 20 15 10 5 2 100 Nombre d'appareils électroménagers par famille fi (en %) 40 30 30 10 20 15 20 15 10 2 5 2 7 8 0 1 2 3 4 5 xi 6 2°) Variable continue. On appelle « histogramme » d’une distribution statistique d’une variable continue la représentation graphique suivante : h hi Si i i 1 Avec Si k fi , en notant par hi la hauteur de Si , on a : Si hi ( i 1 i) . Notons maintenant par ai l’amplitude de la ieme classe ; on a : ai i 1 i . Nous avons alors : Si hi ai k fi . Cette relation nous permet de déterminer hi , en effet : d’où Soit d i f a i hi ai k fi , hi k fi ai . , la fréquence par unité d’amplitude, on l’appelle « densité de fréquence ». i Nous pouvons à présent distinguer deux cas : 1er Cas : Considérons, pour une série statistique donnée, des amplitudes identiques, par exemple ai = a , alors, pour tout i , on peut prendre k a , alors : hi k fi a fi hi hi fi ai a 2ème Cas : Considérons à présent des amplitudes différentes pour une série statistique donnée. k fi On prend alors hi , avec un k égal à l’amplitude la plus fréquente, c’est-à-dire on ai « rectifie » les fréquences en écrivant : hi a fi (avec a l’amplitude la plus fréquente) ai Application 3 : (Tableau de l’exemple 3) Ci ai fi (en %) [0,1000[ [1000,2000[ [2000,2500[ [2500,3500[ [3500,4000[ [4000,5000[ 1000 1000 500 1000 500 1000 26 30 22 14 6 2 Ici, l’amplitude la plus fréquente et 1000 fi . hi hi 1000 fi ai 26 30 44 14 12 2 a 1000 . La formule pour calculer hi est donc : ai c) Diagramme intégral ou courbe cumulative . Définition : On appelle « diagramme intégral » ou courbe cumulative d’une distribution statistique (discrète ou bien continue) le graphe de sa fonction de répartition. 1°) Cas d’une distribution discrète. Rappels : - F ( x1 ) 0 k - Pour tout x xk ; xk 1 , on a : F ( x) Fk f1 ... f k fi i 1 F ( x ) est donc continue à gauche, car : lim F ( x) F ( xk 1 ) Fk x xk 1 - F ( x ) est donc constante sur xk ; xk 1 ,avec F () 0 et F () 1 . Le diagramme intégral d’une distribution statistique discrète est donc le graphe d’une fonction en escalier dont : - la première marche est à la hauteur 0 . - la dernière marche est à la hauteur 1 . - les marches intermédiaires ont des hauteurs correspondantes aux fréquences cumulées. 1 0 x1 x2 xr 1 xr Application numérique avec le tableau de l’exemple 2 : xi 0 1 2 3 4 5 6 7 Total fi 0.02 0.15 0.30 0.20 0.15 0.10 0.05 0.03 1 F ( x) Fi 2 17 47 67 82 92 97 100 0 0.02 0.17 0.47 0.67 0.82 0.92 0.97 1 2°) Cas d’une distribution continue . k Rappels : - F (1 ) 0 et si x k , alors F ( x) f1 .... f k 1 f i Fk 1 . i 1 - F () 0 et F(+)=1 . La fonction F est continue. A partir de ces résultats on a : 1 0 1 r 1 k 2 x Quelle est la forme de la courbe F sur k ; k 1 , F ( k 1 ) M k 1 M * F ( k ) Mk k * k 1 x Pour que le graphe de F sur k ; k 1 soit une droite, il faut que le coefficient directeur de M r ; M * soit identique à celui de la droite M k ; M k 1 , autrement dit, il faut que : F ( *) F ( k ) F ( k 1 ) F ( k ) * k k 1 k Comme : F ( k ) f1 .... f k 1 Et : F ( k 1 ) f1 ..... f k On a alors : F ( k 1 ) F ( k ) f k On sait également que : D’où : k 1 k ak , avec ak l’amplitude de k ; k 1 . F ( *) F ( k ) f k f , avec k la densité de k ; k 1 . * k ak ak F ( *) F ( k ) fk , et d * , la condition d * dk revient tout * k ak simplement à imposer à la densité d’être uniforme sur k ; k 1 (c’est l’hypothèse de la En posant d k densité uniforme), ou encore à imposer que les valeurs observées dans cet intervalle sont uniformément reparties. Application : a) Diagramme intégral de la distribution du niveau d’endettement par famille.(Exemple du tableau 3). Ci i ; i 1 [0,1000[ [1000,2000[ [2000,2500[ [2500,3500[ [3500,4000[ [4000,5000[ Total ai fi F ( x) 1000 1000 500 1000 500 1000 26 30 22 14 6 2 0 26 56 78 92 98 100 Diagramme intégral de la distribution du niveau d'endettement par famille 100 80 60 1800 40 20 0 0 1000 1800 2000 2500 3500 4000 5000 b) On se donne x et on cherche à déterminer F ( x ) . On détermine l’intervalle de densité uniforme k ; k 1 dans lequel tombe x . On sait que si x k ; k 1 , alors l’hypothèse de la densité uniforme nous permet d’écrire : F ( x) F ( k ) F ( k 1 ) F ( k ) x k k 1 k Donc F ( x) F ( k ) ( x k ) F ( k 1) F ( k ) k 1 k Exemple : Déterminons le pourcentage des familles ayant un niveau d’endettement inférieur à 3000. Ici x 3000 , et on cherche à déterminer F (3000) . L’intervalle de densité uniforme dans lequel tombe 3000 est la classe 2500;3500 . On identifie donc respectivement k 2500 et k 1 3500 . Numériquement, nous avons donc : F (3000) F (2500) F (3500) F (2500) 3000 2500 3500 2500 D’où : F (3000) 0.78 0.92 0.78 0.14 500 1000 1000 0.15 1000 F (3000) 0.85 , F (3000) 0.78 500 Et, par conséquent : Nous pouvons donc en conclure que 85% des familles ont un niveau d’endettement inférieur à 3000. c) On se donne F ( x ) . On cherche quelle est la valeur de x .On commence par déterminer l’intervalle F ( k ); F ( k 1 ) sur lequel tombe F ( x ) . k ; k 1 étant une classe de densité uniforme, on a toujours : F ( x) F ( k ) F ( k 1 ) F ( k ) . x k k 1 k En écrivant cette égalité différemment, on obtient : x k k 1 k F ( x) F ( k ) F ( k 1 ) F ( k ) Et, par suite, on a : x k F ( x) F ( k ) k 1 k F ( k 1) F ( k ) . Exemple : Calculons le niveau d’endettement x tel que 50% des familles ont un niveau d’endettement inférieur à x . Nous avons alors : F ( x) 0.5 et 0.26 0.5 0.56 . Or nous savons que : F ( k ) F ( x) F ( k 1 ) avec k 1000 et k 1 2000 . F (1000) F ( x) F (2000) 1000 x 2000 Nous pouvons donc effectuer les applications numériques : x 1000 2000 1000 1000 x 1000 (0.5 0.26) 0.5 0.26 0.56 0.26 0.3 x 1800 Nous pouvons donc en conclure que 50% des familles ont un niveau d’endettement inférieur à 1800. Nous pouvons même ajouter que 1800 est la médiane de la courbe (cf courbe cidessus). II) Caractéristique d’une série statistique à une variable. 1) La moyenne ou la moyenne arithmétique. a) Cas discret. Soient les couples ( xi , ni ); i 1,...., r où r n i 1 i n . Définition : On appelle « moyenne arithmétique » de cette distribution nombre noté x défini r n par : x f i xi , avec f i i où ni représente le coefficient de pondération de la valeur xi . n i 1 Exemple : (cf Tableau de l’exemple 2) : xi ni 0 1 2 3 4 5 6 7 2 15 30 20 15 10 5 3 ni xi 0 15 60 60 60 50 30 21 On a : 8 8 n x i 1 n x fi xi i i i 1 296 2.96 3 100 En moyenne, chaque famille possède environ 3 appareils électroménagers. b) Cas continu. Pour pouvoir calculer la moyenne de distribution continue, il faut à nouveau supposer qu’il y a à l’intérieur d’une classe une répartition uniforme des valeurs observées (Hypothèse de la densité uniforme.) Cette hypothèse implique que la somme des valeurs observées est égale à leur nombre multiplié par le centre de la classe qui les contient. D’où la définition suivante : Soit Ci , ni ); i 1,....., r une distribution statistique continue. On r i i 1 i 1 2 appelle moyenne de cette distribution le nombre x défini par x f i xi où xi eme représente le centre de la i classe. Ci est représentée par l’intervalle i , i 1 . Exemple : (Tableau de l’exemple 3) : Ci ni xi 500 1500 2250 3000 3750 4500 [0,1000[ [1000,2000[ [2000,2500[ [2500,3500[ [3500,4000[ [4000,5000[ 26 30 22 14 6 2 6 6 n x i 1 n On a : x fi xi i i i 1 1810 . En moyenne, chaque famille a un niveau d’endettement égal à 1810 . r Propriétés : a°) f ( x x) 0 i i 1 r b°) i 1 r fi ( xi a ) 2 f i ( xi x) 2 , pour tout a . i 1 r c°) Si x f i xi 0 , on dit que la variable x est une « variable centrée ». En i 1 particulier, la variable ( x x ) est une variable centrée. d°) Si xi h ui x0 , alors : x h ui x0 . Preuve : Comme xi h ui x0 , alors on a également : fi xi h fi ui fi x0 . r r i 1 i 1 fi xi (h f i ui f i x0 ) r r i 1 i 1 (h f i ui ) ( f i x0 ) h et x0 sont des constantes donc on a : r i 1 r r i 1 i 1 fi xi h ( f i ui ) x0 ( f i ) x h ui x0 . 2) Variance d’une distribution statistique. Définition : On appelle « variance d’une distribution statistique » la quantité notée V (x) où r V (x) X2 fi ( xi x) 2 . i 1 Dans le cas où la variable statistique est continue, on a : xi i i 1 2 . Application numérique: on utilise a formule suivante : 2 r V (x) X2 fi xi 2 x . La variance est donc la moyenne des carrés moins le carré de i 1 la moyenne. r PREUVE : On a : V (x) fi ( xi x)2 . Or nous savons que : xi x f x x fi xi x i i i 1 fi xi 2 2 xi x x i 1 r 2 fi xi 2 i 1 i r 2 i 1 r r 2 i i i 1 2 i r i 1 i 1 2 i r 2 i i 1 i i i 1 r i r 2 2 i i f x 2x f x f x 2 i xi 2 2 xi x x 2 f x x f x 2x f x x r 2 2x f x x f 2 fi xi x 2 i i r fi xi x fi xi 2 x x fi xi x . 2 2 i 1 2 2 i 1 2 Exemple : Tableau de l’exemple 2. xi ni ni xi ni xi 0 1 2 3 4 5 6 7 2 15 30 20 15 10 5 3 0 15 60 60 60 50 30 21 0 15 120 180 240 250 180 2 On a : V (x) X2 7 2 X n x i i i 0 n x 2 1132 2 2.96 2.56 100 147 Exemple : Tableau de l’exemple 3. xi ni ni xi 500 1500 2250 3000 3750 4500 26 30 22 14 6 2 6500000 67500000 111375000 126000000 84375000 40500000 2 On a : 6 V (x) n x i 1 i n i 2 x 2 4362500 1810 1086400 Propriétés : a°) La variance est un indicateur de dispersion, c’est-à-dire qu’elle permet de mesurer les fluctuations des modalités de la variable x autour de la moyenne b°) Si xi a , alors pour tout i on a : V (x)=0 , c’est-à-dire la variance d’une constante est nulle. En effet, si on a : xi a i alors x a d’où : r V (x)= fi xi x i 1 f a a 2 r i 1 i 2 0 . 2 r c°) V (x+a)=V (x) . En effet : V (x+a)= fi xi a x a i 1 2 V (x) . d°) Soit h un réel quelconque alors : V (h x)=h 2 V (x) r V (h x)= fi hxi hx i 1 2 fi h xi x i 1 r 2 h2 f x x i i i 1 r 2 h 2 V (x) e°) Si V (x)=1 , alors on dit que la variable x est une « variable réduite ». En particulier, une variable de moyenne nulle et de variance unité est appelée variable centrée réduite . r f°) Théorème de Konig ===> fi xi a V (x) a 2 i 1 Remarque : Ecarts type : Définition : L’écart type noté X est la racine carrée de la variance : X V (x) . Propriétés : a°) Si on multiplie la variable x par un réel quelconque h , l’écart type est défini par : X h h X . xx b°) La variable est une variable centrée réduite, c’est-à-dire de moyenne X nulle et de variance unité. 3) Le mode et la classe modale. a) Cas discret. On appelle « mode d’une distribution statistique continue » la classe ayant la plus forte densité de fréquence ou d’effectif. On la note : M 0 . b) Cas continu. On appelle « classe modale d’une distribution statistique continue » la classe ayant la plus forte densité de fréquence ou d’effectif. (Je rappelle que la densité s’écrit sous la forme : fi di . ai Exemples : Tableau 2 (cas discret) : M 0 2 appareils . Tableau 3 (cas continu) : classe modale 2000, 2500 . 4) La médiane et l’intervalle médian. Définition 1 : La médiane d’une distribution statistique notée M e est la valeur du caractère qui partage les valeurs observées en deux groupes de même effectif. Elle suppose pour sa détermination que les valeurs observées soient rangées dans un certain ordre (croissant ou décroissant) . Définition 2 : La médiane est le nombre M e vérifiant : F (M e ) 0.5 50% où F désigne la fonction de répartition de la distribution statistique. Son interprétation est simple : 50% des observation sont inférieures à la médiane et 50% sont supérieures. a) Cas d’une variable discrète. - Données individualisées. ni 1 i La première définition suffit à la déterminer : Si le nombre d’observations est impair, c’est-à-dire r 2 p 1 , la médiane est parfaitement déterminée et M e x p 1 . Exemple : Soit le série : 3, 6, 12, 15, 21, 28, 32 . On a : r 7 2 3 1 , d’où on a : p 3 , et on a alors : M e x31 x4 15 . Si le nombre d’observations est pair, c’est-à-dire, r 2 p , on ne peut définir qu’un « intervalle médian ». Exemple : Soit la série : 3, 6, 12, 15, 21, 28, 32, 38 . Ceci amène à donner comme intervalle médian 15, 21 . - Données groupées. La détermination de la médiane se fait graphiquement par l’intermédiaire de la fonction de répartition. Il y a deux cas possibles : Si on a un pallier correspondant à l’intervalle xi 1; xi , on choisit xi . Si la droite F ( x) 0.5 se trouve entre deux paliers xi 1; xi et xi ; xi1 (situation la plus fréquente), il n’existe de valeur de x tel que F ( x) 0.5 , alors par convention, on prendra M e xi . Application numérique : (cf Tableau de l’exemple 2). F( x ) xi 0 1 2 3 4 5 6 7 Total (Graphe en cours de création) 0 0.02 0.17 0.47 0.67 0.82 0.92 0.97 1 50% des familles ont moins de 3 appareils électroménagers et 50% ont au moins 3 appareils électroménagers. b) Cas d’une variable continue. La courbe de la fonction de répartition étant une ligne continue, prenant toutes les valeurs de 0;1 , il existe au moins une valeur qui soit l’antécédent de 0.5. Si ce point est une extrémité de classe k alors M e xk . Mais le cas le plus fréquent est le suivant : M e k ; k 1 . En utilisant la méthode de l’interpolation linéaire, on a : Me k k 1 k . F ( M e ) F ( k ) F ( k 1 ) F ( k ) Comme : F (M e ) 0.5 ; k 1 k ak (avec ak l’amplitude de la classe k ; k 1 F ( k 1 ) F ( k ) f k (avec f k la fréquence de la classe k ; k 1 ) On obtient alors : Me k a a k M e k 0.5 F ( k ) k . 0.5 F ( k ) f k fk Application numérique : (cf Tableau de l’exemple 3). i F ( x) 1000 2000 2500 3500 4000 5000 Total 0 26 56 78 92 98 100 Diagramme intégral de la distribution du niveau d'endettement par famille 100 80 60 1800 40 20 0 0 1000 1800 2000 2500 3500 4000 5000 Méthode de l’interprétation linéaire : M e 1000 1000 1000 M e 1000 0.5 0.26 M e 1000;2000 , d’où : 0.5 0.26 0.3 0.3 M e 1800 50% des familles ont un niveau d’endettement inférieur à 1800. Propriétés : a°) L’écart absolu moyen par rapport à la médiane est minimal, c’est-à-dire : r r i 1 i 1 a on a: f i xi M e f i xi a b°) - La position de la médiane par rapport à la moyenne et au mode permet d’analyser la dissymétrie de la distribution. En effet, si on a : M e M 0 x , la distribution est symétrique. M0 Me x - Si on a : M 0 M e x , la distribution n’est pas symétrique, le graphe des fréquences est étalé vers la droite. M0 Me x - Si on a : x M e M 0 , la distribution n’est pas symétrique , le graphe des fréquences est étalé vers la gauche. x Me M0 5) La médiale. Définition 1 : Lorsqu’elle a une signification concrète, on appelle masse affectée ou distribuée à une classe i ; i 1 la quantité M i ni xi (où xi est le centre de la ieme classe.) r r i 1 i 1 Soit S la masse totale distribuée définie par : S M i ni xi . r Remarque : x n x i i i 1 n S . n Définition 2 : On appelle « médiale d’une distribution statistique continue » la valeur du caractère noté M le telle que la moitié de la masse totale (car 50% de la masse totale) soit distribuée à des individus dont le caractère est inférieur à M le . Détermination : On la détermine par interpolation linéaire en s’appuyant sur les pourcentages cumulés de la Masse Totale. i En notant par Qi (en %) , on a : Qi M j 1 S j . Disposition des calculs : Ci xi ni i i Mi M j j 1 ai M j 1 S M1 S M1 M 2 S 1; 2 x1 n1 x1n1 x1n1 2 ; 3 x2 n2 x2 n2 x1n1 x2 n2 xi ni xi ni x1n1 .... xi ni Mi S xr nr xr nr S 1 : : i ; i 1 : : : r ; r 1 Fq ( x ) 1 q1 1 On a : M le i 0.5 Fq ( i ) 2 r r 1 i 1 i . Fq ( i 1 ) Fq ( i ) Application numérique : Soit la distribution des salaires suivants : Ci 102 xi 10 2 ni M i ni xi 105 60;90 90;110 110;160 j 1 Si S 75 5000 375 375 0.309 100 3000 300 675 0.556 135 4000 540 1215 S 1 i Si M j Qi j Détermination de la médiale (ou du salaire médial). a) Méthode graphique : on utilise le graphe d’une fonction Fq ( x) . Fq ( x ) 1 Fq ( x) 0.5 0.5 60 90 110 160 x On a donc graphiquement : M le 10500 . b) Méthode de l’interpolation linéaire. On sait que M le 90;110 . Nous pouvons donc dire que : M le 90 110 90 Fq ( M le ) Fq (90) Fq (110) Fq (90) M le 90 20 0.5 0.309 0.556 0.309 20 10546 0.556 0.309 Les salaires qui gagnent moins de 10546 se partagent la moitié de la masse salariale. M le 90 0.5 0.309 6) Les intervalles « inter quantiles ». Pour éviter d’effectuer des calculs sur des valeurs extrêmes et souvent aberrantes, on choisit souvent de les écarter en ne retenant que les valeurs appartenant à un intervalle, dites « inter quantiles » selon la quantité choisie. Définition : On appelle quantile d’ordre la valeur du caractère notée x telle que F ( x ) , avec 0;1 et F étant la fonction de répartition. x se détermine, soit directement à partir du tableau de la fonction de répartition, soit pas interpolation linéaire dans le cas d’une variable continue. a) Les quartiles. Ce sont les 3 valeurs du caractère notées Qi i 1, 2,3 , qui partagent la série en quatre sous ensembles de même effectif. 25% 25% 25% Q2 Q1 25% Q3 Le deuxième quantile Q2 est la médiane de la distribution, donc Q2 M 2 . L’intervalle Q1; Q3 est l’intervalle inter quantile : il contient 25% des observations laissant à gauche et à droite 25% . b) Les déciles. Ce sont les neufs valeurs du caractère notées Di i 1,...,9 qui partagent la série en 10 sous ensembles de même effectif. 10% 10% D1 D2 10% D3 10% D9 On a : F ( D1 ) 10 ou encore F ( D2 ) 20 . Le cinquième décile est la médiane (car F ( D5 ) 50 M le ). L’intervalle D1; D9 est l’intervalle interdécile, il contient 80% des observations laissant à gauche 10% et à droite 10%. Les quartiles et les déciles sont les quantiles les plus utilisées mais on peut également définir de la même manière les centriles Pi i 1,...,99 et l’intervalle intercentrile P1; P99 . 7) Caractéristique des concentrations. La notion de concentration concerne des variables continues ne pouvant prendre que des valeurs positives. La notion de concentration a été introduite par le Statisticien italien Corrado Gini au cours de ses travaux sur les disparités du revenu et a abouti à la construction d’une courbe dite « de concentration » (ou courbe de Lorenz) et à la détermination d’un « ratio » appelé « indice de Gini ». a) Courbe de concentration (ou courbe de Lorenz) Pour chaque extrémité de classe i , on calcule : i - Pi f j , f j étant la fréquence relative associée à la ième classe, et où Pi représente la j 1 fréquence cumulée en pourcentage. i M j 1 - Qi j , où M j n j x j représente la masse totale distribuée, et où Qi représente les S proportions cumulées de la masse totale. Interprétation dans le cas d’une distribution de salaires. Le point Ai Pi , Qi indique que Pi % d’individus se partagent les Qi % de la masse salariale. Plus la courbe s’écarte de la première bissectrice, plus la concentration est forte. La courbe est toujours en dessous de la première bissectrice, car les Pi % qui gagnent le moins se partagent une masse salariale inférieure à Pi % de la masse salariale totale. Montrons que : Pi Qi . i Qi M j 1 i j S n x j j 1 i j S i n x N j 1 i N j 1 i Qi j j j 1 i j S j i n x N j 1 i j N j 1 j j 1 nx i n x N j 1 i j N j 1 j j 1 n j j S n r j car on a : x xn i i i 1 n S . n j Nous avons alors : i Qi nj xj j 1 i n j 1 i nj 1 j 1 x(i ) x(i ) 1 Qi Pi . Qi Pi , or on sait que : x(i ) x n x x x j Analyse de la concentration à partir de la courbe de Lorenz : - 1er Cas : la courbe est confondue avec la 1ère bissectrice . On a alors : Pi Qi i soit x(i ) x , tous les individus ont même salaire. La concentration est dite « nulle » et on a une distribution égalitaire. 2ème Cas : la courbe de concentration est confondue avec les deux côtés du triangle. - Ceci traduit que n 1 individus ont, dans le cas d’une distribution de salaires, un salaire nul et un individu a un salaire égal à S c’est-à-dire la masse salariale totale. 1 1 On dit que la concentration est maximale. En dehors de ces deux cas extrêmes, les situations plus proches de la réalité sont : Résumé : La concentration s’apprécie donc à la surface déterminée par la courbe et la première bissectrice : plus cette surface est grande, plus la concentration est forte. Application numérique : Ci 102 ni fi i Pi f j xi 10 2 M i ni xi 105 j 1 60;90 90;110 110;160 j 1 Si S i Si M j Qi 5000 0.417 0.417 75 375 375 0.309 3000 0.25 0.667 100 300 675 0.556 4000 0.33 1 135 540 1215 S 1 b) Indice de Gini. Au lieu de prendre exactement cette surface, on définit l’indice de concentration noté i (indice de Gini) qui est le double de l’aire délimitée par la courbe de concentration et la 1ère bissectrice. La partie en rouge est cette aire, elle est donc égale à i . 2 Propriétés de i : 1°) 0 i 1 2°) si i 0 , la concentration est nulle. 3°) si i 1 , la concentration est maximale. Evaluation de i : On peut évoluer i par le calcul en utilisant la méthode des trapèzes. La partie hachurée en bleu est égale à i . La partie hachurée en vert est égale à A . 2 La somme de ces deux aires est égale à 1 . 2 Calculons A : L’aire d’un trapèze Ai est Ai b B h , avec 2 b qi 1 B qi h pi pi 1 f i . Nous avons donc Ai qi 1 qi f i. 2 r i 1 r q q Alors : i 1 i fi , ce qui nous amène à : i 1 qi 1 qi fi . 2 2 i 1 2 i 1 Application numérique : Ci 102 60;90 90;110 110;160 0.417 Si S 0.309 0.25 0.556 0.33 1 fi On a alors : Qi 3 i 1 qi 1 qi fi i 1 i 1 0.309 0.417 0.309 0.556 0.25 0.556 1 0.333 i 0.1367 c) Les caractéristiques des mélanges de populations . On étudie un caractère quantitatif X (ou une variable statistique) sur k souspopulations P1 , P2 ,...., Pk d’effectifs n 1, n 2 ,....., n k . Le mélange de ces k sous populations donne une population P d’effectif total n . On suppose que les Pj j 1, 2,...., k réalisent une partition de P , c’est-à-dire k Pi Pj si j i . Cette hypothèse implique que : n n j . j 1 On obtient alors les k 1 distributions suivantes : X P1 P2 ------ Pj -------- Pk P x1 n11 n12 - n1 j - n1k n1 x2 n21 n22 - n2 j - n2 k n2 - - nij - nik ni xi ni1 ni 2 xr nr 1 nr 2 - nrj - nr nrk n1 n2 --------- n -------- nk n - j k j On a : n n j 1 r , or nous savons que : n j n1 j n2 j n3 j ..... nij ...... nrj nij , i 1 D’où : n nij , c’est-à-dire la double somme des nij . j 1 i 1 k r De même, on a : n r k r r k i 1 j 1 i 1 i 1 j 1 ni , or ni nij , d’où n ni nij Application numérique : X P x1 P1 15 P2 10 P3 0 25 x2 10 20 10 40 x3 10 30 20 60 x4 5 25 20 50 x5 0 5 10 15 40 90 60 190 (Toujours à l’intérieur de petit c) ) I°) Fréquences et fonctions de répartitions . 1- Fréquences . Soient fij la fréquence de la ieme modalité xi dans Pj et f i celle de xi dans P . k On a : f ij nij nj et nij ni j 1 fi n n , k n k n n ij fi j ij n j j 1 n j 1 n Or : i n fi j fij j 1 n La fréquence f i est la moyenne pondérée des fij , les coefficients de pondération étant les nj n , c’est-à-dire les propositions qui définissent la composition du mélange. On obtient par conséquent : Inf fij fi Sup fij . 2- Fonctions de répartitions. Si on désigne par F j les fonctions de répartitions relatives aux Pj et par F celle associée k n à P . On a : F ( x) j Fj ( x) et Inf Fj ( x) F ( x) Sup Fj ( x) . j 1 n II°) Caractéristiques de tendance centrale 1°) Médiane : la médiane d’un mélange est comprise entre les médianes extrêmes : Inf M j M e Sup M j Illustration Graphique pour k 2 : 2°) Moyenne. Si on désigne par x j la moyenne de X sur P , alors : i nj j 1 n x xj III°) Caractéristiques de dispersion. Analyse de la variance. Soient V j (x) la variance de la population Pj et V (x) celle de P . On peut décomposer V (x) i nj j 1 n en : V (x) i nj j 1 n nj V j (x) i Le premier terme : n j 1 pondérée par les nj n x j 2 x . V j (x) est la moyenne arithmétique des variances V j (x) . Cette moyenne des variances V j x est appelée variance intra- populations : c’est la variance du mélange si les Pj auraient la même moyenne c’est-àdire si : x j x j . n x i Le premier terme nj j 1 j x 2 est la variance des moyennes appelée variance inter-populations et représente la variance du mélange si les populations Pj étaient homogènes, c’est-à-dire si V j x 0 j . Analyse de la variance : l’hétérogénéité d’un mélange résulte donc de deux facteurs : - les hétérogénéités internes à chaque sous population décrites par la variance intrapopulation. - Les hétérogénéités entre les moyennes des sous populations décrites par la variance intra-population. Exemple : La disparité des salaires résulte des dispersions à l’intérieur de chaque catégorie socioprofessionnelle (CSP). L’analyse de la variance consiste à expliquer la variance totale du mélange à partir de la contribution de l’hétérogénéité des moyennes entre sous-populations. Cette explication se i n j xj x n j 1 2 2 base sur le calcul du rapport R suivant : R . V (x) Propriétés : a) 0 R 2 1 . b) R 2 0 si x j x j c) R 2 1 si V j (x)=0 . Interprétation : Plus R 2 est proche de 1, plus l’appartenance à un groupe est déterminante pour expliquer la dispersion globale. La variance non-expliquée (ou encore variance résiduelle) résulte de l’hétérogénéité des individus au sein d’un même groupe. Application numérique : Les salaires d’une entreprise sont classés selon leurs ages et salaires, on cherche à savoir dans quelle mesure l’âge explique le salaire des employés. On obtient le tableau suivant : P1 P2 P3 P xi (centre des classes) 16; 25 25;45 45;65 16;65 0;500 15 10 0 25 250 500;1000 1000;2000 10 20 10 40 750 10 30 20 60 1500 Age Salaires 2000;4000 4000;5000 5 25 20 50 3000 0 5 10 15 4500 40 90 60 190 n Calcul de salaires moyens : x j xi i i 1 j j 1, 2,3 centre 2 5 x1 n x i1 i i 1 n1 15 250 10 750 10 1500 5 3000 1031.2 40 5 x2 n i 1 x i2 i n2 (avec n 2 90 ) 1777.78 5 x3 n i 1 x i3 i n3 (avec n 3 60 ) 2375 Calcul de x : 5 ère 1 méthode : x n x i i 1 n i 25 250 40 750 60 1500 50 3000 276250 . 190 2ème méthode : 3 x j 1 n x 40 x j j 1 n n V (x) . 3 Variance intra : 90 x 2 60 x3 40 1031.25 90 1777.78 60 2375 1809 . 190 190 j 1 n j j 2 5 n 2 V1 (x)= i1 xi x1 i 1 n 1 • . 2 5 ni1 xi 2 031.25 788085.9 i 1 40 2 5 n 2 V2 (x)= i 2 xi x 2 i 1 n 2 • . 2 5 ni 2 xi 2 1777.78 1346451 i 1 90 5 2 n 2 V3 (x)= i 3 xi x3 i 1 n 3 • . 5 ni 3 xi 2 2 2375 1578125 i 1 60 5 nx2 2 Variance du mélange : V (x)= i i 1809 i 1 190 40V1 (x)+90V2 (x)+60V3 (x) 1302060 . Variance intra : 190 Variance inter : V (x) Variance intra 1531034 1302060 228974 . Variance inter 228974 0.15 . V (x) 1531034 Le découpage en 3 groupes n’explique que 15% de la disparité globale du salaire. Nous avons donc : R 2