Statistique Intervenant: Mr Morad Lemtaoui Objectif Connaître les grands aspects de la statistique ainsi que son utilité dans le domaine de la finance et de l’audit Plan : Statistique descriptive Lois de probabilités Pratique des sondages Statistique « C ’est un ensemble de méthodes permettant de décrire et d ’analyser, de façon quantifiée, des phénomènes repérés par des éléments nombreux, de même nature, susceptibles d ’être dénombrés et classés. » QU’EST CE QUE LA STATISTIQUE DESCRIPTIVE? La Statistique Descriptive est l'ensemble des méthodes et techniques permettant de présenter, de décrire et de résumer des données numériques nombreuses et variées. Sous quelle forme se présentent les données statistiques ? Exemple 1 : Pour étudier la répartition des terres agricoles d'une région, on peut faire l'inventaire des exploitations agricoles (soit n leur nombre), et noter pour chacune d'elle sa taille (en hectares). L'ensemble des n exploitations s'appelle la population statistique étudiée; chacune des exploitations est un individu, ou une unité statistique. La taille (en ha) est la variable statistique (ou caractère) étudiée. Le but de l'étude est de voir comment cette variable varie sur la population : les tailles des exploitations sont elles comparables ou très différentes, et dans quelle mesure ? Le résultat de la mesure de la variable "taille" sur les individus "exploitations" est un ensemble de n nombres, appelé série statistique brute. Sur la même population, on aurait pu s'intéresser à d'autres variables telles l'âge du chef d'exploitation, la culture dominante, etc.. On remarquera que le résultat de l'observation peut être exprimé sous forme littérale (blé, etc...) ou numérique. On présente alors souvent les résultats sous forme d'un tableau 'individus x variables'. N° Exploitation Taille (ha) Age du chef Nombre de Culture dominante d'exploitation (années) personnes employées 1 50 50 blé 2 2 50.5 45 vigne 4 3 35 38 orge 3 4 62.1 25 blé 6 5 20 65 vigne 1 6 10 57 vigne 1 . . . . . . . . . . 630 56 45 blé 2 Dans le tableau présenté ci-dessus, il y a : combien d'individus ? combien de variables ? Exemple 2 : Un contrôleur doit vérifier le bon fonctionnement d'une chaîne d'embouteillage. On considère que le remplissage est correct si le contenu des bouteilles se situe entre 74 cl et 76 cl. Il note exactement le contenu de 100 bouteilles testées (en cl) : 74.3 75.2 73 75 75.6 .... Il s'agit d'une série statistique brute résultant de la mesure de la variable (ou caractère) ……..sur les individus (ou unités statistiques)…..… ? La population étudiée comporte ….. individus. D'autre part, si on s'intéresse uniquement à l'aspect "correct" ou non du remplissage (c'est-à-dire au contenu compris entre 74 et 76 cl ou pas), on peut définir comme ci-dessous une variable "qualité". Contenu Qualité 1 74.3 Bonne 2 75.2 Bonne 3 73 Mauvaise 4 75 Bonne 5 75.6 Bonne ... ... ... 98 76.1 Mauvaise 99 74.2 100 72 Le tableau de données brutes ci-dessus comporte : individus ? variables ? Notons que la statistique descriptive traite des propriétés des populations, plus que de celles d'individus particuliers. Ainsi pour la population de 100 bouteilles, on s'intéressera à la proportion de bouteilles trop ou pas assez remplies, et non au fait que la 10ème bouteille testée était ou non bien remplie. En résumé la statistique descriptive s'applique au cas où l'on dispose des valeurs prises par une ou plusieurs variables statistiques sur un ensemble d'individus, la population statistique. Les différents aspects de la statistique descriptive La Statistique Descriptive est l'ensemble des méthodes et techniques permettant de présenter, de décrire, de résumer, des données nombreuses et variées. Il faut préciser d'abord quel est l'ensemble étudié, appelé population statistique, dont les éléments sont des individus ou unités statistiques. Chaque individu est décrit par une ou plusieurs variables, ou caractères statistiques. Chaque variable peut être, selon le cas 1. Quantitative : ses valeurs sont des nombres exprimant une quantité, sur lesquels les opérations arithmétiques (somme, etc...) ont un sens. La variable peut alors être discrète ou continue selon la nature de l'ensemble des valeurs qu'elle est susceptible de prendre (valeurs isolées ou intervalle). Exemples Taille Chiffre d’affaire Nombre d’enfants 2. Qualitative : ses valeurs sont des modalités, ou catégories, exprimées sous forme littérale ou par un codage numérique. Exemples de caractère qualitatif: qualité d’une facture (correcte, erroné) culture dominante d'une exploitation Dans le cas particulier où il n'y a que deux modalités, on dit que la variable est dichotomique. ( Sexe (M ou F, 1 ou 0), qualité (bonne ou mauvaise), etc..) Les variables seront ensuite analysées différemment selon leur nature (quantitative, qualitative, etc.), au moyen de tableaux, graphiques, calcul de paramètres-clé. STATISTIQUE DESCRIPTIVE TABLEAUX ET GRAPHIQUES A partir d'un tableau individus x variables, on fera dans un premier temps une description unidimensionnelle de chacune des variables, prise séparément. Nom Situation de famille Nombre d’enfants Age Salaire M. Faouzi Marié 2 30 12500 M.Ali Veuf 3 45 8700 Mme Afaf Mariée 0 27 13000 Melle Badia Célibataire 0 32 7500 M. Said Marié 1 39 5200 …. …. …. …. …. Le nombre d'individus étant généralement grand, voire très grand, une telle série brute est difficilement lisible et interprétable. Il est indispensable de la résumer. Pour cela, on commence par un tri à plat, décompte des modalités ou valeurs obtenues, qui nous servira de base à la construction de tableaux et de graphiques. Le but est d'obtenir des résumés clairs et concis, mais en conservant l'essentiel de l'information contenue dans les données initiales, et en utilisant des techniques objectives ne donnant pas une image déformée de la réalité. DEVELOPPEMENT I. Les tableaux On a noté la situation familiale des 150 employés d'une entreprise. Noms Situation de famille M.Azim Marié MFarid Veuf Mme Latifi Mariée Melle Fatiha Célibataire M. Ahmed Divorcé M. Salih Marié M. Berrada Divorcé Mme Réda Divorcée Melle Fatiha Célibataire M. Halim Marié M. Chadi Veuf Mme Faouzi Mariée ... ... On ne s'intéresse pas à la situation personnelle de M. Azim ou de M. Farid, mais à la répartition du caractère "situation familiale" dans la population des 150 employés. Pour cela il faut, pour chacune des modalités de la variable, déterminer l'effectif correspondant, c'est-à-dire le nombre de personnes ayant cette modalité : il faut dénombrer le nombre de célibataires, le nombre de mariés, etc.. Cela peut se résumer par : Modalités Effectifs Marié 80 Célibataire 30 Veuf 20 Divorcé 20 On notera x1, x2, ..., xk les différentes modalités, et n1, n2, ... , nk les effectifs associés. Dans le tableau ci-dessus, x1 = "marié", n1 = k= La somme des effectifs vaut : La variable que nous venons de voir est… On aurait pu tout aussi bien présenter les résultats sous la forme ci-dessus, par exemple. Modalité Effectif Célibataire 30 Marié 80 Divorcé 20 Veuf 20 Par contre, s'il s'agit d'une variable ordinale, les modalités sont toujours présentées dans l'ordre : x1 < x2 < .... < xk , comme dans l'exemple ci-dessous. Modalités = tailles Effectifs = Nombre de personnes de cette taille XS 10 S 25 M 40 L 32 XL 23 XXL 20 De même, pour une variable discrète, on notera x1 , x2 , ... , xk les valeurs rangées par ordre croissant, et n1 , n2 , ... , nk les effectifs correspondants. Noms Nombre d'enfants M.Azim 2 MFarid 3 Mme Latifi 0 Melle Fatiha 0 M. Ahmed 1 M. Salih 0 M. Berrada 1 Mme Réda 0 Melle Fatiha 2 M. Halim 4 M. Chadi 1 Mme Faouzi 3 M. Ali 2 Melle Loubna 0 M Fatih 0 M. Said 1 M. Radi 2 Mme Faraj 2 Ainsi, à partir de la série brute cidessus, construisez le tableau : Nombre d'enfants xi Effectifs ni 0 6 L'ensemble des couples { (xi , ni ), i = 1, ... , k } est une série statistique (ordonnée), ou distribution observée de la variable. La somme de tous les ni est-elle toujours égale à n, nombre des observations ? On notera ceci : effectif total Pour ce qui est des variables continues, on peut faire de même. Voyons l'exemple d'une série brute de 60 valeurs du CA mensuelle d’une entreprise (en 1000dh), et le tableau des effectifs obtenus. L'inconvénient est que, comme on aura toujours un grand nombre de valeurs différentes, on obtiendra un grand nombre de petits effectifs, ne résumant finalement pas grande chose ! CA (1000dh) Effectifs CA (1000dh) Effectifs 159 1 169 7 160 0 170 7 161 0 171 9 162 0 172 6 163 2 173 5 164 3 174 2 165 3 175 1 166 0 176 2 167 5 177 1 168 6 Total : 60 Une variable continue ne prend pas des valeurs isolées, mais des valeurs appartenant à des intervalles. C'est pourquoi, au lieu de définir des effectifs par valeurs, on définira des effectifs par intervalles, appelés classes. Afin de simplifier la présentation on peut, quitte à perdre un peu d'information, regrouper les effectifs proches, par exemple 175 d’ effectif 1 176 d’ effectif 2 177 d’ effectif 1 peut être remplacé par [ 175 ; 178 [ d’ effectif 4. On découpera ainsi l'intervalle des valeurs en classes contiguës, de la forme : [ e1 ; e2 [ [ e2 ; e3 [ [ e3 ; e4 [ .... [ ek ; ek+1 [ et on notera n1, n2, ... , nk les effectifs associés. ni est le nombre d'individus appartenant à la classe [ ei ; ei+1 [. Exemple 1 Classes de CA ( en 1000dh) Effectifs [159 - 165 [ 6 [165 - 168 [ 8 [168 - 171 [ 20 [171 - 174 [ 20 [174 - 177 [ 5 [177 - 179 [ 1 Exemple 2 Classes de CA ( en 1000dh) Effectifs moins de 160 1 [160 - 165 [ 5 [165 - 170 [ 21 [170 - 175 [ 29 175 et plus 4 Le choix des classes est parfois délicat. A priori tout choix tel qu'on ait des classes contiguës recouvrant l'ensemble des valeurs est correct : chaque individu appartient à une classe et une seule ; mais il faut dans la mesure du possible des classes d'amplitudes égales, en nombre suffisant pour ne pas schématiser trop grossièrement les données (par exemple ne pas limiter la série précédente à : «moins de 170000dh» et «plus de 170000dh» mais pas trop pour ne pas avoir un tableau interminable avec beaucoup de tout petits effectifs. Quel que soit le type de variable on a finalement, pour toute modalité, valeur xi , ou classe [ ei , ei+1 [, un effectif ni , tel que Il est parfois utile, surtout pour faire des comparaisons entre plusieurs séries, de raisonner plutôt avec des effectifs relatifs(fréquences). On appellera fréquence(relative) la valeur que l'on peut aussi exprimer en pourcentage par fi x 100, c'est le pourcentage d'individus pour lesquels la variable a pris la valeur xi , ou une valeur de la classe [ ei , ei+1 [. Complétez le tableau : Modalités xi Effectif ni Fréquence fi % Célibataire 30 0.2 20 Marié 80 Divorcé 20 Veuf 20 Effectif total : 150 A quoi est égal ici le total de la colonne fréquence ? Et celui de la colonne "pourcentage" ? Il y a, parmi les 150 employés, …….% qui sont mariés. Voyons un autre exemple : Pour étudier les appels téléphoniques arrivant à un central, on a noté, sur 96 jours comparables, le nombre d'appels reçus entre 9 h et 9 h 10. Les résultats sont consignés dans ce tableau : Quelle est la proportion de jours où le nombre d'appels a été de 2 ? Nombre d'appels xi Nombre de jours ni Fréquences fi % fi 100 0 2 0.0208 2.08 1 14 0.1458 14.58 2 23 0.2396 23.96 3 24 0.2500 25.00 4 18 0.1875 18.75 5 9 0.0938 9.38 6 6 0.0625 6.25 Total : 96 1 100 Combien y-a-t-il eu de jours où le nombre d'appels a été inférieur ou égal à 2 ? Nombre d'appels xi Nombre de jours ni Fréquences fi % fi 100 0 2 0.0208 2.08 1 14 0.1458 14.58 2 23 0.2396 23.96 3 24 0.2500 25.00 4 18 0.1875 18.75 5 9 0.0938 9.38 6 6 0.0625 6.25 Total : 96 1 100 Quelle est la proportion de jours où le nombre d'appels a été supérieur ou égale à 3? Nombre d'appels xi Nombre de jours ni Fréquences fi % fi 100 0 2 0.0208 2.08 1 14 0.1458 14.58 2 23 0.2396 23.96 3 24 0.2500 25.00 4 18 0.1875 18.75 5 9 0.0938 9.38 6 6 0.0625 6.25 Total : 96 1 100 Plus généralement, si { (xi , ni ), i = 1, ..., K } est la distribution observée d'une variable discrète, n1 + n2 + ... + ni = Ni est le nombre d'individus pour lesquels la variable a été inférieure ou égale à xi.. On peut calculer Ni de proche en proche : N1 = n1, N2 = N1 + n2, N3 = N2 + n3, etc ... Les Ni sont les effectifs cumulés croissants. De même ni + ni+1 + ... + nk = N'i est le nombre d'individus pour lesquels la variable a été supérieure ou égale à xi. Il peut se calculer de proche en proche : N'k = nk , N'k-1 = nk + nk-1 , Les N'i sont les effectifs cumulés décroissants. On peut définir de même : Fi = f1 + f2 + ... + fi , fréquences cumulées croissantes obtenues de proche en proche par Fi+1 = fi+1 + Fi F'i = fi + fi+1 + ... + fk , fréquences cumulées décroissantes obtenues de proche en proche par F'i = F'i+1 + fi Fi et F'i peuvent s'exprimer aussi en pourcentage (en multipliant tout par 100). Complétez le tableau : Nombre d'appels Fréquence en % Fréquences cumulées croissantes 0 2.08 2.08 1 14.58 16.66 2 23.96 3 25.00 65.62 4 18.75 84.37 5 9.38 93.75 6 6.25 Fréquences cumulées décroissantes 97.92 83.34 59.38 15.63 6.25 Les définitions d'effectifs et de fréquences cumulés restent les mêmes dans le cas d'une variable continue. II. Les graphiques Pour visualiser une distribution statistique, il est généralement plus parlant d'utiliser un graphique, à la place ou en complément du tableau. Variable Qualitative Dans le cas d'une variable qualitative, les modalités ne peuvent pas être représentées sur un axe, selon une échelle donnée, car elles ne sont pas numériques. On utilise surtout dans ce cas des diagrammes circulaires : chaque modalité est représentée par un secteur circulaire dont l'angle (et donc la surface) est proportionnel à son effectif. Situation familiale Effectifs Célibataire 30 Marié 80 Divorcé 20 Veuf 20 Total : 150 Une représentation équivalente consiste à construire un diagrammes en barres : chaque rectangle a une base constante et une hauteur proportionnelle à l'effectif ni ou à la fréquence fi . CSP Cadres Agents de maîtrise Employés Ouvriers ni 10 40 60 90 fi 0,05 0,2 0,3 0,45 90 80 70 60 50 Série1 40 30 20 10 0 cadres ouvriers employés ouvriers Variable Quantitative Dans le cas d'une variable quantitative, les valeurs observées, numériques, seront toujours placées selon un axe, en suivant une échelle précise. Cas des séries chronologiques On représente directement les données brutes en ordonnée, l'échelle du temps étant placée en abscisse. Le temps étant continu, on relie par des segments de droite les points obtenus. Cas d’une variable discrète Après un tri à plat conduisant à la distribution observée, on représente celle-ci par un diagramme en bâtons les xi sont placés suivant une échelle sur l'axe des abscisses, et les effectifs ni sont matérialisés par un "bâton" de longueur ni (axe des ordonnées). Nombre d'enfants xi Effectifs ni Fréquences fi 0 6 0.33 1 4 0.22 2 5 0.28 3 2 0.11 4 1 0.06 18 1 Cas d'une variable continue On a vu que si l'on compte les effectifs par valeur on risque souvent d'avoir un trop grand nombre de valeurs différentes, avec de trop faibles effectifs, et qu'il convient de regrouper les données en classes. Variable quantitative continue: représentée sous forme d'un histogramme : Un histogramme est une surface composée d'une suite de rectangles adjacents dont la hauteur de chacun est proportionnelle à l'importance de chaque classe, avec éventuellement une correction des fréquences ou effectifs si les amplitudes des classes ne sont pas égales Age (ans) Nombre de personnes dans cette tranche d'âge 20 à 30 100 30 à 40 150 40 à 50 90 50 à 65 20 La correction des effectifs ou des fréquences se fait en trois étapes : Première étape: calcul des amplitudes des classes ai. Deuxième étape: Choix d'une amplitude de base a (généralement l'amplitude la plus petite) et calcul du rapport amplitude de la classe sur l’amplitude de base (ai/a) Troisième étape : calcul des effectifs corrigés : ni' = ni/(ai/a) ou fi'= fi/(ai/a) Exemple : Considérons la distribution suivante : xi [0 - 10[ [10-20[ [20 - 30[ [30 - 50[ [50 - 70[ [70 - 80[ fi en % 10 15 35 30 8 20 2 2 4 La correction se fait de la manière suivante : xi [0 - 10[ [10 - 20[ [20 - 30[ [30 - 50[ [50 - 70[ [70 - 80[ Total fi en % 10 15 35 30 8 2 100 ai 10 10 10 20 20 10 ai/a 1 1 1 2 2 1 - - fi en % corrigée 10 15 35 15 4 2 L’histogramme se présente ainsi : fi en % xi PARAMETRES STATISTIQUES Les paramètres statistiques ont pour but de résumer, à partir de quelques nombres clés, l'essentiel de l'information relative à l'observation d'une variable quantitative. On définira plusieurs sortes de paramètres : Certains, comme la moyenne, seront dits de tendance centrale car ils représentent une valeur numérique autour de laquelle les observations sont réparties. D'autres, par exemple, seront dits de dispersion car ils permettent de résumer le plus ou moins grand étalement des observations de part et d'autre de la tendance centrale. I - Paramètres de tendance centrale La moyenne arithmétique d'une série statistique (xi, ni) se calcule de la manière suivante : La moyenne s'exprime toujours dans la même unité que les observations xi . Elles peut être décimale, même si les xi sont entiers par nature. Nombre d'appels xi Fréquences fi % fi x 100 0 0.0208 2.08 1 0.1458 14.58 2 0.2396 23.96 3 0.2500 25.00 4 0.1875 18.75 5 0.0938 9.38 6 0.0625 6.25 Total : 1 100 Ainsi la moyenne arithmétique du nombre d'appels reçus à un standard est : 2,97 appels Plus généralement, lorsqu'on ne dispose que de la distribution regroupée en classes Classes de valeur Effectifs Centre de classe [ e1 e2 [ n1 x1 [ e2 e3 [ n2 x2 ... ... ... [ ei ei+1 [ ni xi = ei + ei+1 / 2 ... ... ... [ eK eK+1 [ nK xK Total : n on calculera la moyenne par : xi étant le centre de classe. Dans une entreprise de 100 salariés, le salaire moyen est égal à 8 400 Dh. Supposons qu'une erreur se soit glissée lors de la transcription des salaires. Monsieur Dahbi est crédité d'un salaire de 108 000 DH au lieu de 8 000 Dh. De combien augmenterait la moyenne ? La nouvelle moyenne est de : ……. Une seule valeur (sur 100) peut donc beaucoup modifier la moyenne. La moyenne arithmétique est sensible aux valeurs extrêmes. Remarque 1: Pour plusieurs populations d'effectifs n1, n2, ....., nk, de moyennes respectives : moyenne globale = moyenne des moyennes Comparons le salaire moyen dans 2 entreprises Entreprise A : 1/ 3 de femmes , salaire moyen 8000Dh 2/3 hommes, salaire moyen 11000 Dans l'entreprise A le salaire moyen est de : …. Entreprise B : 2/ 3 de femmes , salaire moyen 9000Dh 1/3 hommes, salaire moyen 12000 Dans l'entreprise B le salaire moyen est de : …. On constate donc que le salaire moyen de B est égal à celui de A. Pourtant le salaire moyen des hommes est supérieur en B à celui des hommes en A. Il en est de même pour les femmes. D'où vient ce résultat paradoxal ? Il s'agit d'un effet de structure : cela vient du fait que les femmes (au salaire plus bas) sont plus nombreuses en B qu'en A. Cela montre aussi qu'une moyenne ne résume pas bien une population hétérogène, comprenant des souspopulations différentes vis à vis du caractère étudié (ici le salaire). La médiane : M Si la série brute des valeurs observées est triée par ordre croissant : la médiane M est la valeur du milieu, telle qu'il y ait autant d'observations "au-dessous" que "au-dessus". c'est-à-dire que Si n est impair, soit n = 2 p + 1 , M = x(p+1) Si n est pair, soit n = 2 p, toute valeur de l'intervalle médian [ x(p) ; x(p+1) ] répond à la question. Afin de définir M de façon unique, on choisit souvent soit le centre de l'intervalle médian. Par exemple, la médiane de la série de tailles ci-contre est : M= (m) Aurait-elle été différente si on avait noté par erreur la plus petite taille 0.55 m au lieu de 1.55 ? En est-il de même pour la moyenne ? * Cas d'une variable continue: Pour des données groupées en classes, la classe médiane est la classe qui contient la médiane. On détermine la médiane par interpolation linéaire. Salaire horaire 2-4 4-6 6-8 8-10 10-12 Total ni 5 8 12 10 8 43 ni cumulées croissantes 5 13 25 34 43 La médiane est la valeur de rang (43 + 1) / 2 c’est à dire 22, celle ci se trouve dans la classe 6-8, la classe 6 - 8 est donc la classe médiane. De manière générale, si a et b sont les bornes de la classe contenant la médiane, F(a) et F(b) les valeurs de la fréquence cumulée croissante en a et b, alors Dans le cas d'une variable groupée en classes, en peut calculer la médiane par la formule suivante : n ai ( N i 1 ) 2 Me L0 ni Lo : Limite inférieure de la classe médiane ai : Amplitude de la classe médiane n : Nombre total des observations Ni-1 effectif cumulé croissant de la classe inférieure à la classe médiane ni : effectif de la classe médiane Le mode C'est la valeur dont la fréquence est la plus élevée. Détermination du mode : Cas d'une variable discrète : Le mode est facilement repérable. Sur le tableau statistique, c'est la valeur xi pour laquelle la fréquence est la plus élevée Cas d'une variable continue : les données sont groupées en classes ; deux situations se présentent: les amplitudes sont égales ou non égales. 1/ Les amplitudes sont égales : on définit la classe modale comme la classe correspondant à la fréquence la plus élevée et en faisant l'hypothèse du centre de la classe, on retient comme valeur modale le centre de la classe modale. 2/ Les amplitudes sont inégales : il faut corriger les effectifs ou les fréquences relatives de la même manière que pour la construction de l'histogramme. la détermination du mode se ramène alors au cas précédent. Classes 0-5 5-10 10-50 50-100 Effectifs 3 10 20 1 Si la distribution présente 2 ou plus maxima relatifs, on dit qu'elle est bimodale ou plurimodale. Cela signifie que la population est hétérogène du point de vue de la variable observée. La population est composée de plusieurs sous-populations ayant des caractéristiques de tendance centrale différentes. Positions respectives du mode, de la médiane et de la moyenne pour une distribution unimodale. Lorsque la distribution est symétrique les trois paramètres sont confondus. Lorsque la distribution est asymétrique, la médiane est généralement située entre le mode et la moyenne et plus proche de cette dernière. Paramètres de dispersion Deux distributions peuvent, tout en ayant des caractéristiques de tendance centrale voisines, être très différentes. Il est donc nécessaire de mesurer la dispersion des valeurs autour des tendances centrales. L'Étendue : R L'étendue (ou amplitude) d'une série statistique est la différence entre la valeur maximum et la valeur minimum de la série. R = Maximum (X) - Minimum (X) Facile à déterminer, l'étendue ne dépend que des 2 observations extrêmes qui sont parfois le fait de situations exceptionnelles. Il est donc difficile de considérer l'étendue comme une mesure stable de la dispersion. Ecart interquartile Afin de diminuer l'influence des valeurs extrêmes on peut tenir compte de valeurs plus stables de la distribution. intervalle interquartile [ Q1 , Q3 ] ou écart interquartile = Q3 - Q1 Pour mesurer la dispersion de part et d'autre de la moyenne, il faut mesurer l'ordre de grandeur des xi A quoi est égal La variance est très utilisée, c'est moyenne des carrés des écarts à la moyenne. C'est pourquoi on le note V(x), étant l'écart-type ( x) 1 ni( xi x)² n s'exprime, contrairement à la variance, dans la même unité que les xi Une variance (et donc un écart-type) est d'autant plus faible que les données sont groupées autour de car en moyenne les écarts sont plus faibles. Si les données sont groupées, on a : 1 V ( x) ni( xi x)² n les xi étant les centres de classes dans le cas continu, On calcule généralement l'écart-type en complément de la moyenne. Pour les calculs, il est souvent plus commode, plutôt que de calculer 1 V ( x) ni( xi x)² n de calculer 2 1 V(x) nixi² x n Calculons par exemple l'écart-type de la série "nombre d'enfants par famille" V(x) = donc = enfants Nombre d'enfants xi Nombre de salariés ni 0 6 1 4 2 5 3 2 4 1 Total : n = 18 Le coefficient de variation : Le coefficient de variation est le rapport de l'écart-type par rapport à la moyenne. Le coefficient de variation est indépendant des unités choisies, il est utile pour comparer des distributions qui ont des unités différentes. La variance, l'écart-type et le coefficient de variation sont les paramètres de dispersion les plus utilisés. En particulier, le coefficient de variation permet de comparer la variabilité relative de plusieurs distributions qui diffèrent fortement par leur ordre de grandeur et éventuellement même par leur unité de mesure Synthèse En plus des tableaux et graphiques, on résume l'observation d'une variable quantitative par un petit nombre de paramètres. III/ Description bivarié : La statistique descriptive à deux dimensions a essentiellement pour but de caractériser les relations qui existent entre deux séries d'observations considérées simultanément. Ces observations peuvent être de nature qualitative ou quantitative, continue ou discontinue. Exemple : Afin d'étudier la répartition des terres agricoles d'une région, on a noté un certain nombre de renseignements sur chaque exploitation, notamment : sa taille (surface, en hectares), l'âge du chef d'exploitation, le type de culture pratiquée, le nombre de personnes employées à temps plein sur l'exploitation Le résultat est présenté sous la forme du tableau cidessous , individus variables N° Exploitati on Taille (ha) Age du chef d'exploitation (années) Culture dominante Nombre de personnes employées 1 50 50 blé 2 2 50.5 45 vigne 4 3 35 38 orge 3 4 62.1 25 blé 6 5 20 65 vigne 1 6 10 57 vigne 1 ... ... ... ... ... 198 56 45 blé 2 Nous pouvons maintenant décrire chacun des caractères, un par un : Taille Age Culture employés Mais ceci ne nous permet pas de mettre en évidence les liens existant peut être entre la taille et l'âge : les jeunes exploitants ont-ils des surfaces comparables, inférieures, supérieures à celles de leurs aînés ? De même, le type de culture pratiqué est-il le même quelle que soit la surface ? Le nombre d'employés est-il fonction du type de culture, etc... 1. Les tableaux statistiques : 1.1 série statistique double : Nombre de visites de prospection xi 152 155 160 155 162 164 Nombre de commandes yi 26 27 28 28 29 30 Y-a-t-il une liaison entre les deux variables présentées? Tableau de contingence : Considérons N individus décrits simultanément selon deux caractères X et Y. X possède k modalités : x1, x2, x3, ……., xi, …….xk Y possède p modalités: y1, y2, y3,…….., yj,……..yp yj Y1 y2 y3…………….yj…………………yq ni. xi x1 x2 . . . xi . . . xp n11 …………….n32 …………………………………………………npq n 1. n 2. . . . n i. . . . n p. n .j n.1 n .. ……………………….....nij n.2 n.3……….…n.j……………….n.q Exemple de tableau de contingence Montant du CA mensuel xi [0 - 2000[ [2 000 - 4 000[ [4 000 - 6 000[ [6 000 - 8 000[ [8 000 - 10 000[ [10 000 - 12 000[ [12 000 - 14 000[ [14 000 - 16 000[ [16 000 - 20 000[ Total 0200 6 5 4 11 7 0 0 1 2 36 Montant des achats : yj 200- 400- 600- 800400 600 800 1200 4 1 2 0 3 4 2 0 8 9 1 3 78 55 5 5 8 82 56 21 2 6 47 35 3 14 49 22 4 23 12 6 0 3 6 0 110 197 180 92 : Total 12001500 0 0 0 4 11 15 9 5 3 47 13 14 25 158 185 105 97 51 14 662 On appelle distribution marginale de X la distribution à une dimension des individus de la population qui présente une modalité de X quelque soit la modalité de Y. De façon analogue, on définit celle de Y. 3. Réduction des données : Les paramètres utilisés pour caractériser les distributions à deux variables sont de deux types : - Les paramètres qui concernent une seule variable, ils servent à caractériser les diverses distributions marginales. - Les paramètres qui servent à décrire les relations qui existent entre les deux séries d'observations considérées simultanément. a- Moyennes et variances marginales : 1 x xi N i y 1 yi N i V(x) 1 (xi x)² N i V(Y) 1 (yi y)² N i Exemple : Reprenons la série précédente : Nombre de visites de prospection xi 152 155 160 155 162 164 Nombre de commandes yi 26 27 28 28 29 30 948 168 x 948 158 6 y 168 28 6 Nombre de visites de prospection xi 152 155 160 155 162 164 948 Nombre de commandes yi 26 27 28 28 29 30 168 (xi-x)² (yi-y)² 36 9 4 9 16 36 110 4 1 0 0 1 4 10 V(x) 1 (xi x)²110 18.33 N i 6 V(y) 1 (yi y)² 10 1.67 N i 6 Pour avoir une idée sur la variation simultanée de X et Y on peut utiliser la covariance : On appelle covariance de X et Y le nombre il est aussi égal à : cov( x, y ) 1 xiyi x y n Utilité de la covariance : La covariance est positive si X et Y ont tendance à varier dans le même sens, et négative si elles ont tendance à varier en sens contraire. Exemple :10 étudiants ont passé l'examen partiel et l'examen général et ont obtenu les notes suivantes : Partiel ( X) Total 71 49 80 73 93 85 58 82 64 32 687 Général (Y) 83 62 76 77 89 74 48 78 76 51 714 Cov (x , y) =(50875 / 10) – (687/10)x(714/10) = 182.32 XY 5893 3038 6080 5621 8277 6290 2784 6396 4864 1632 50875 La covariance est positive, donc il y a une relation croissante entre X et Y. Autrement dit les deux variables varient dans le même sens. La Corrélation linéaire : Dans le cas où les points du nuage se situent tous sur une droite, on dit que la relation entre x et y représente une dépendance fonctionnelle linéaire . Si les points du nuage de points ne sont pas tous alignés sur une même droite, on peut mesurer le degré de dépendance linéaire entre les deux variables X et Y . Comment ? Coefficient de corrélation linéaire : Le coefficient de corrélation linéaire a pour objet de mesurer l'intensité de la liaison linéaire entre les deux variables X et Y : cov( x, y ) r ( x) ( y ) Cette définition montre que le coefficient de corrélation possédé le même signe que la covariance sa valeur est comprise entre -1 et 1. Le signe du coefficient de corrélation indique le sens de la relation entre X et Y : r > o veut dire que les deux variables X et Y varient dans le même sens. Si X est grande alors Y est grande, si X est petite alors Y est petite . On parle de corrélation positive. Remarque : Pour pouvoir parler de forte liaison entre x et y il faut que la valeur absolue de r atteigne au moins 0.87 Exemple :reprenons la série suivante Nombre de visites de prospection xi 152 155 160 155 162 164 948 Nombre de commandes yi 26 27 28 28 29 30 168 r = 0.93 donc x et y sont fortement corrélés, ainsi plus le nombre de visites augmente, plus le nombre de commandes augmente. La corrélation, outil d’aide à la prévision : L’intérêt d’une forte corrélation tient au fait que la connaissance de l’une des variables entraîne la connaissance de l’autre avec un faible risque d’erreur. Dés lors, il convient de trouver la double relation mathématique qui existe entre les deux variables xi et yi : - la relation de type yi=f(xi) décrit l’évolution de la variable y en fonction de xi et - la relation de type xi=f(yi) décrit l’évolution de la variable x en fonction de yi Les droites de régression : La méthode des moindres carrés est une méthode d’ajustement qui consiste à minimiser la somme des carrés des différence entre les valeurs observées, yi et les valeurs estimées, par l'équation de la droite de régression : yiaxib cov( x, y ) a V( x) b y ax Exemple : reprenons l’exemple précédent ou r=0.93 Nombre de visites de prospection xi 152 155 160 155 162 164 948 x 150 Nombre de commandes yi 26 27 28 28 29 30 168 y 28 V ( y ) 1.67 (xi-x)² (yi-y)² (xi-x)(yiy) 36 9 4 9 16 36 110 4 1 0 0 1 4 10 12 3 0 0 4 12 31 V ( x) 18.33 cov(x, y) 315.17 6 cov(x, y) 5.17 a 0.28 V(x) 18.33 b y ax 16.24 On aura donc l’équation suivante : yi = 0.28xi – 16.24 Si on se donne comme objectif pour le mois prochain 170 visites (xi), quel sera le nombre de de commande prévisionnel (yi) approximatif: yi = 0.28 x 170 –16.24 = 31.36 soit approximativement 31 commandes V/ Théories des probabilités : La théorie des probabilités est la partie la plus abstraite de la statistique. Elle traite des phénomènes aléatoires et s’est développée dans des salles de jeu, ce qui explique le fait que la majorité des exemples retenus sont empruntés aux jeux de hasard. La théorie des probabilités est l’intermédiaire entre la statistique descriptive qui traite des séries statistiques directement, et l’inférence statistique qui comprend les valeurs statistiques comme les indicateurs indirects de valeurs vraies mesurées par échantillonnage I/ Éléments du calcul des probabilités Vocabulaire probabiliste: Expérience aléatoire: Une expérience est dite aléatoire si : a- On ne peut prédire avec certitude son résultat b- On peut décrire l'ensemble de tous les résultats possibles. Exemple : jet d'un dé ; lancer d'une pièce de monnaie, comportement d’achat d’une personne. Ensemble fondamental : (appelé également univers des possibles, espace échantillonnal ou référentiel) représente l'ensemble des résultats possibles d'une expérience aléatoire ; il est noté . Exemple : Si on lance un dé une seul fois, l’ensemble des résultats possibles sont = {1, 2, 3, 4, 5, 6}. Événement : c'est un élément ou sous ensemble de . On distingue l'événement élémentaire : obtenir 2 de l'événement composé, obtenir un nombre impair. Définition classique d’une probabilité : Soit un ensemble fondamental et A un événement quelconque de : Nombre de cas favorables Card A P(A) = = Nombre de cas possibles Card Exemple : Soit une urne contenant 10 boules dont 2 blanches, 5 rouges et 3 bleu. On tire une boule au hasard. Quelle est la probabilité qu'elle soit de couleur blanche ? Soit A l'événement : « obtenir une boule blanche » P(A) = 2/10 =1/5 Définition fréquentielle Soit un ensemble fondamental et A un événement quelconque de . P A lim f n A n avec n : nombre de fois que l’expérience se répète et n A f n A : fréquence de la réalisation de n l’événement A au cours des n répétitions. Exemple : Un professeur de statistique a enseigné à 12848 personnes, parmi celles-ci 542 ont échoué La probabilité d’échouer est 542/12848=0.0422 Les règles de calcul des probabilités : La probabilité de réalisation d’un événement impossible est égale à 0. La probabilité de réalisation d’un événement certain est égale à 1. Si A et B sont deux événements incompatibles, alors la probabilité de la réalisation simultanée des deux événements est la somme des probabilité : P (A B) = P(A) + P(B). La probabilité de l’événement contraire de A est 1-P(A) Remarque : Si A et b ne sont pas deux événements compatible, alors : P(A B) = P(A) +P(B)-P (A B) Exemple : On jette un dé une seule fois, soient les deux événements suivants : A : obtenir un chiffre pair B : obtenir un chiffre inférieur à 3 Calculer p(A /B) ? P(A) = 3/6 P(B) = 3/6 P(AB) = 1/6 P( A/B) = (1/6) / (3/6) = 1/3 Si A est dépendant de B, cela signifie que si B s'est produit, la probabilité que A se produise n'est pas la même que si B ne l'est pas. En retenant les données de l’exemple précédent, on peut dire que A et B sont deux événements dépendants car : p(A) p(A/B) Remarque : La notion d’indépendance peut être étendu à plus de deux événements Il ne faut pas confondre indépendance et incompatibilité II/ Notion de variable aléatoire : Une variable aléatoire est une grandeur numérique attaché au résultat d’une expérience aléatoire. Chacune de ses valeurs est associé à une probabilité d’apparition. Exemple 1 : On jette une pièce de monnaie deux fois et on s’intéresse au nombre de fois que pile apparaît au cours des deux jets. On à quatre résultats possibles : PP, PF, FP, FF Le nombre de fois que Pile peut apparaître est 0, 1 ou 2. La variable aléatoire retenue peut donc prendre ces trois valeurs, son ensemble de définition est donc : {0, 1, 2} Exemple 2: Soit une agence immobilière qui désire se lancer dans la location à la journée de studios meublés. Elle étudie la demande journalière possible x de location durant les mois de juillet et août. Elle obtient les résultats suivants : xi 0 1 2 P (xi) 0.05 0.01 0.2 3 4 0.3 0.25 5 0.1 Une VA peut être discrète ou continue : Une VA est dite discrète si l'ensemble des valeurs qu'elle est susceptible de prendre est fini ou infini dénombrable. Une VA est dite continue si elle peut prendre toute valeur à l'intérieur d'un intervalle donné. Les caractéristiques d’une variable aléatoires discrètes : a-Loi de probabilité : On appelle loi de probabilité de X l'ensemble des couples (xi, pi). b-Fonction de répartition :On, appelle fonction de répartition, la fonction F définie par : F: IR -->[0,1] x--> F(x) = P(X x) c-Espérance mathématique: On appelle espérance mathématique de X et on note E(X) la moyenne des valeurs possibles pondérées par leurs probabilités : E(X) = xi.pi. d- Variance et écart type : On appelle variance de la VA X le nombre réel défini par : V(X) = E[X - E(X)]² = E(X²)-E(X)² On appelle écart type, la racine carrée de la variance Exemple : Soit une agence immobilière qui désire se lancer dans la location à la journée de studios meublés. Elle étudie la demande journalière possible x de location durant les mois de juillet et août. Elle obtient les résultats suivants : xi 0 1 2 P (xi) 0.05 0.01 0.2 3 4 0.3 0.25 5 0.1 Déterminer la fonction de répartition, l’espérance et la variance de cette variable aléatoire. Les caractéristiques d’une variable aléatoires continue Fonction de densité de probabilité : On appelle fonction de densité de probabilité toute fonction satisfaisant aux 2 conditions suivantes : xIR, f(x)0 f(x)dx1 Fonction de répartition : Soit X une VA continue et f sa densité de probabilité. La fonction de répartition de X est la fonction F telle que: F : IR [0,1] x X P(X x) f(x)dx E(x) xf(x)dx V(x) (x E(x))²f(x)dx x²f(x)dx( xf(x)dx)² III/ Lois de probabilité : Il existe de nombreuses lois de probabilités, chacune s'appliquant dans des conditions bien particulières. Loi de BERNOULLI La variable de BERNOULLI est une variable qui prend les valeurs 0 et 1 avec les probabilités respectives q et p (p + q =1). La valeur 1 est associé à la réalisation de l’événement considéré ‘succès’ et la valeur 0 à sa non réalisation ‘échec’ Caractéristiques : E X xi pi p E X p V X xi2 pi xi pi 2 p p 2 p1 p p.q V X p.q Loi BINOMIALE Une variable aléatoire est dite binomiale si elle représente le nombre de succès obtenus dans une expérience de n épreuves où la probabilité de succès reste constante. La fonction de probabilité d’une telle fonction est donnée par : P X k Cnk p k q nk On note X n, p La variable binomiale est entièrement spécifiée par la connaissance de n et p. La variable de BERNOULLI est un cas particulier de la variable binomiale : n=1. Conditions d’application de la variable binomiale : 1ère condition : L’expérience consiste en une suite d’épreuves se soldant à chaque fois soit par un succès soit par un échec. 2ème condition : Les épreuves se répètent de manière identique et dans les mêmes conditions. 3ème condition : La probabilité de succès reste constante tout au long des n épreuves. Caractéristiques de la variable binomiale Soit X n, p . X peut-être décrite comme une somme de n variables de BERNOULLI indépendantes : X X X ,.... X n 1 2 E X E X X ,.... X n E X E X ....... E X n 1 2 1 2 p p .... p n. p E X n. p V X V X X ,.... X n V X V X ....... V X n 1 2 1 2 p.q p.q ........ p.q n. p.q V X n. p.q Approximation de la loi binomiale : 1er cas :lorsque n est élevé et p n’est ni proche de 1 ni de 0, la loi binomiale est approché par la loi normale 2ème cas :Lorsque n est élevé et p est faible (p<0.1) la loi binomiale est approché par la loi de poisson Exemple : L’agence immobilière dispose d’un parc de 5 studios. La probabilité de louer chacun d’eux au mois de juin est de 0.6. L’agence désire étudier la probabilité de location de ce parc. 1- Quelle est la loi de probabilité suivie par cette variable aléatoire ? Quels en sont les paramètres ? 2- Calculer la probabilité de louer 0, 1, 2 studios? Exemple 2: Dans une population, la proportion d’individu qui ont l’intention de ne pas voter lors des prochaines élections législatives est de 15%. Calculer la probabilité pour que 25% des individus d’un échantillon d’effectif 16 s’abstiennent? La loi de POISSON La distribution de probabilité d’une V.A. X est dite distribution de POISSON si elle est définie par les couples (xi , pi) où x prend les valeurs 0, 1, 2, …… avec les probabilités respectives données par : x P ( X x ) e x! Notation : X Po ( ) est un paramètre réel positif. Caractéristiques E( X ) V(X). Conditions d’application de la loi de Poisson : Soit une approximation de la loi binomiale: lorsque n est élevé et p très faible (proche de 0). Généralement l'approximation est valable dés que n > 50 et p < 0.1 X --> B(n;p) --> Po(= n.p) Soit une résultante d’un processus aléatoire particulier , le processus de Poisson La loi de POISSON s'applique en particulier dans le cas d'événements se réalisant de façon aléatoire dans le temps ou l'espace (pannes de machines, arrivées de clients à un comptoir, appels téléphoniques sur une ligne ……). Si la réalisation d'un événement donné vérifie les conditions suivantes : Le nombre moyen de fois qu'un événement se réalise dans un intervalle de temps ou dans un espace est connu , La probabilité que cet événement se produise dans un intervalle de temps est proportionnelle à la longueur de cet intervalle et ne dépend en aucun cas du nombre d'événements qui se sont produits antérieurement, La probabilité que l'événement se produise plus d'une fois dans un intervalle de temps très court est négligeable alors le nombre X d'événements réalisés au cours d'une période de temps t est une variable de POISSON ayant pour paramètre = p.t. Exemple 1: L’arrivé des clients à un supermarché est considérée comme un processus de POISSON. On sait que le nombre moyen de clients arrivant par minute au supermarché est égale à 2. Calculer la probabilité pour que pendant une période particulière de 5 minutes il arrive 12 clients. Exemple 2: Une entreprise utilise des pots de peinture dont 0.2% sont défectueux. Quelle est la probabilité que sur les 1000 pots qu’il utilise , il en trouve un défectueux? La loi normale On parle de loi normale ou de loi de LAPLACE – GAUSS, lorsque l’on a affaire à une variable aléatoire continue dépendant d’un grand nombre de causes indépendantes, dont les effets s’additionnent et dont aucune n’est prépondérante. Exemple : une caractéristique de qualité, La durée d’un trajet, les fluctuations accidentelles d’une grandeur .. f(x) m- m m+ x Définition : Une V.A continue X est dite distribuée selon une loi normale si sa densité de probabilité est : f(x) 1 exp[ 1 ( x m)²] 2 2 La loi normale dépend de deux paramètres m et . On note : X N(m;). Fonction de répartition La fonction de répartition d'une variable normale est donnée par l'expression : x (x) p(X x) f(x)dx Caractéristiques : E(X) = m V(X) = ² 1 2 x exp[ 1 ( x m)²]dx 2 Propriétés : Le graphique de la fonction de densité de probabilité de la Loi normale est une courbe en cloche symétrique par rapport au point d'abscisse x=m. La droite verticale x=m divise l'aire comprise entre la courbe et l'axe des abscisses en deux parties égales P(X<m) = 0,5 et P(X>m) = 0,5 La grande partie des observations se situe dans l'intervalle [m-3 ; m+3] f(x) m- m m-2 x m+ m+2 68% m-3 95% 99% m+3 Intervalles remarquables : P[m-2/3 < X <m-2/3 ] 50% ; P[m - < X <m + ] 68% P[m - 2 < X < m + 2] 95%; P[m - 3 < X < m + 3] 99,74% Calcul des probabilités Pour une VA continue, on s'intéresse surtout à une probabilité d'intervalle. La fonction de densité étant compliquée, des tables ont été prévues pour faciliter ce calcul. Toutefois, étant donnée qu'il existe une infinité de lois normales distinctes par leurs paramètres, une seule variable normale est tabulée et sert de référence pour les autres : il s'agit de la loi normale centrée réduite. Le passage de la loi normale à la loi normale centrée réduite s'effectue à l'aide du changement de variable suivant : z X m La loi normale centrée réduite à pour paramètre : m =0 et = 1 Propriétés : Le graphique de la fonction de densité de probabilité de la LNCR est une courbe en cloche symétrique par rapport au point d'abscisse z= 0 La droite verticale z= 0 divise l'aire comprise entre la courbe et l'axe des abscisses en deux parties égales P(Z<0) = 0,5 et P(Z>0) = 0,5. La grande partie des observations se situe dans l'intervalle -3 ;3. Intervalles remarquables P[-2/3 <Z< 2/3] 50% ; P[- 1 < Z < +1] 68% P[- 2 < Z < +2] 95%; P[- 3 < Z < +3] 99,74% Utilisation de la table N(O; 1) Cette table nous donne les probabilités de trouver une valeur inférieur à z Exemple : X suit une loi normale N(345; 167) On souhaite connaître la probabilité pour que X soit inférieur à 500. On effectue le changement de variable: Z X x X 345 167 On cherche p(X < 500)= p(X < 500)= p(Z 500 345) p(Z 0.93) (0.93) 0.8238 167 Remarque : la table ne donne que les valeurs p(Z ≤ z) . Il se peut que l'on cherche p(Z ≥z). Il faut utiliser alors les deux propriétés suivantes: - la surface totale de la courbe est égale à 1; - la courbe est symétrique par rapport à l'axe des ordonnées. Exemple : Le poids moyen de 500 colis est de 141kg et l’écart type est de 15kg, en supposant que ces poids sont normalement distribués, calculer le nombre de colis pesant : - Entre 120 et 155kg - Plus de 185 kg Intervalle de confiance : Dans le paragraphe précédent on a cherché à calculer la probabilité que les valeurs de la variable soient comprises dans un intervalle donné. la notion d'intervalle de confiance procède de la logique inverse: on se fixe la Probabilité et on détermine les bornes de l’intervalle. Quelles sont les bornes de l'intervalle dans lequel X a une probabilité de 95 %de se situer ? On peut écrire: p(- k < X < + k) = 0,95 P(-k<X <+ k) 0,95 est équivalent à p(-z<Z < +z)= 0,95 P(-z<Z<+z) =p(Z<z) - p(Z<-z) = p(Z<z) - p(Z >z) = P(Z<z) – [l - p(Z < z)] =p(Z<z) - l + p(Z<z) = 2 p(Z<z) - 1 = 0,95 D'où p(Z<z) = (0,95+1)/2 = 0,9750 Dans la table, pour la valeur de la probabilité 0,975, on trouve z = 1,96. Il y a 95 de chances pour que la variable centrée réduite Z soit comprise entre (- 1,96) et (+ 1,96). Déterminons l'intervalle pour la variable aléatoire X. On sait que : Z X x donc Z X x D'où X x Z Si on multiplie chaque membre des inégalités dans l'expression p(-z <Z < +z) par , on peut écrire: p(-z <Z < +z) = p (- z < Z < + z ). Si on ajoute à chaque membre, on trouve: p ( x - z < x+Z < x + z ). L'intervalle dans lequel X a 95 % de chances de se trouver est : x z,x z Loi de KHI-DEUX Définition Soit X 1 , X 2 ,......, X v v variables aléatoires indépendantes telles que : i 1,2,3,.....,v X i 0;1. Si X X 2 X 2 ..... X v2 1 2 alors, X est une V.A continue soumise à v 2 2 une loi de à v degrés de liberté 0;12 i 1 Caractéristiques E2v V22.v Introduction au test d’indépendance du -Calculer les effectifs théoriques (en cas d’indépendance) -Calculer le 2 -Comparer la valeur calculé avec une valeur observée sur la table de la loi du KHI-deux Exemple : On a interrogé des habitants de Casablanca, de Rabat et Marrakech sur l’appréciation de 4 stations de radio. Le croisement de ces deux variables donne le tableau de contingence suivant : casa rabat Marrak ni. Radio 1 18 18 11 47 Radio 2 12 15 18 45 Radio 3 32 20 23 75 Radio 4 15 12 6 32 n.j 77 65 58 200 Etape 1 : Calcul du tableau théorique Considérons les marges qui correspondent aux distributions des variables VILLE (77, 65, 58) et RADIO (47, 45, 75, 33). Si ces deux variables étaient indépendantes, la distribution des valeurs du tableau serait répartie de manière “équilibrée” en ligne et en colonne. La valeur théorique de chaque case s’obtient en multipliant le total ligne par le total colonne puis en le divisant par le total général. Ainsi, la 1ère case devrait contenir la valeur (47x77)/200, soit 18,1. Le tableau théorique est donc le suivant casa rabat Marrak ni. Radio 1 18.1 15.3 16.3 47 Radio 2 17.3 14.6 13.1 45 Radio 3 28.9 24.4 21.8 75 Radio 4 12.7 10.7 21.8 32 n.j 77 65 58 200 Etape 2 : Calcul de la valeur du Khi2 Pour évaluer l’écart entre ce tableau et le tableau précédent, on calcule, pour chaque case : En additionnant ces valeurs, on obtient 7,6 : (0,0+0,5+0,5+1,6+0,0+1,9+0,3+0,8+0,1+ 0,4+0,2+1,3) = 7,6 Étape 3: Comparer la valeur calculé avec une valeur observée sur la table de la loi du KHI deux Pour interpréter cette valeur, on se réfère à la table du Khi2 qui présente les valeurs (cases de la table) ayant une probabilité donnée d’être dépassées (en colonne), selon différents degrés de liberté (en ligne). La probabilité est notre seuil ou marge d’erreur que nous nous fixons (en général 5%). Le nombre de degré de liberté (noté ddl) correspond à : ddl = (Nombre de lignes - 1) x (Nombre de colonnes - 1) Dans notre exemple, on a ddl = (4-1) x (3-1), soit 6. En regardant la case qui correspond à la colonne 0,05 et à la ligne 6, on trouve la valeur 12,59. Autrement dit, il y aurait, pour notre tableau 5% de chances que le Khi2 dépasse cette valeur (et 95% de chances qu’il soit inférieur). Étant donné que le Khi2 calculé est inférieur à cette valeur, nous retenons l’hypothèse de l’indépendance de ces deux variables Loi de Student Elle intervient en estimation, notamment l’estimation de la moyenne quand la variance de la population mère est inconnue. Définition X Soit X 0;1 et Y v2 2 V.A indépedant es. Si T alors, Y v T est une variable soumise à une loi de Student à v degré de libeté. On note T Tv . Caractéristiques : E T 0 v V T si v 2. v2