STATISTIQUES DESCRIPTIVES Plan du cours : — Généralités — Variables qualitatives — Variables quantitatives Discrètes Continues Représentation, Caractéristiques — Distributions bivariées Chapitre 1 Généralités 1. Introduction 2. Type de variable 1 Introduction Le terme Statistique englobe un ensemble de méthodes scientifiques basées sur des données (numériques ou non) recueillies sur une population pour décrire et analyser cette population. Vocabulaire — — — — Population : ensemble d’objets de même nature. Individu : élément de cette population. Effectif total N : nombre d’individus de la population. Variable ou Caractère X : caractéristique étudiée sur la population, recueillie pour chaque individu. Postulat : On suppose que la variable est soumise à une grande variabilité due à de nombreux facteurs inconnus ou au hasard. Exemple : — Population : Étudiants de première année de licence Sciences Humaines de Paris X. — Individu : Un étudiant de première année de licence Sciences Humaines de Paris X. — Variables : Série du baccalauréat Age Nombre de frères et soeurs Note en psycho au premier semestre Durée du trajet domicile-université ..... Statistique Descriptive : ensemble de méthodes basées sur l’organisation des données pour représenter graphiquement et résumer numériquement les données dans le but de décrire et d’analyser la population. → Représentations graphiques → Résumés numériques (si possible) : on synthétise les données par des paramètres numériques pour décrire la population, et éventuellement comparer celle-ci avec une autre population. 2 Type de variable On distingue les variables selon qu’elles prennent des valeurs numériques ou non. On dit qu’une variable est — qualitative si ses valeurs sont des catégories qu’on appelera “modalités” - nominale ou catégorielle, s’il n’existe aucune relation entre les modalités prises par la variable - ordinale, s’il existe une relation d’ordre entre les modalités prises par la variable — quantitative si elle prend des valeurs numériques - discrète lorsqu’elle prend un nombre fini de valeurs (souvent entières). - continue lorsqu’elle prend des valeurs réelles. qualitative nominale ordinale quantitative discrète continue Exemples — Série du baccalauréat : L ES variable qualitative nominale S etc... — Jugement qualitatif : variable qualitative ordinale — Age : variable quantitative continue. L’âge d’une personne est un nombre réel (souvent, on exprime l’âge d’une personne par un nombre entier par convention) — Nombre de frères et soeurs : variable quantitative discrète. — Durée du trajet domicile-université : variable quantitative continue. — Note en psycho au premier semestre : variable quantitative, continue ou discrète ? Cela dépend du mode de notation ! Autres Exemples Variable qualitative nominale : sexe, pays, CSP,... Variable qualitative ordinale : “Aimez-vous les stats ?” Réponses : “Pas du tout”, “Un peu”, “Beaucoup” (Attention à la modalité “Non réponse”) Variable quantitative discrète : nombre de personnes dans le ménage, nombre de pièces du logement, score à un test... Variable quantitative continue : surface du logement, taille, poids, ... Fréquemment on assimile des variables discrètes qui prennent un très grand nombre de valeurs à des variables continues ; par exemple score à un test, salaire, revenu, production... Chapitre 2 Variables Qualitatives La variable qualitative découpe une population en catégories. Les traitements statistiques possibles sur une variable qualitative sont les calculs de proportions et la représentation graphique des données. 1. Organisation des données 2. Représentations graphiques 3. Mode 1 Organisation des données Exemple On a demandé aux élèves d’une classe de terminale composée de dix élèves quelle est leur chaı̂ne de télévision préférée. Population : classe de terminale. Effectif total N = 10 Individu : un élève de la classe. Variable : chaı̂ne de TV préférée. Modalités : TF1, F2, F3, C+, M6. C’est une variable qualitative nominale. Données individuelles : TF1 ; C+ ; TF1 ; M6 ; F2 ; M6 ; F2 ; TF1 ; F2 ; TF1 Tableau de distribution des effectifs Chaı̂ne TV Effectifs ni TF1 F2 F3 C+ M6 4 3 0 1 2 — On recense les k différentes modalités A1, A2, ..., Ak prises par la variable. — Pour chaque modalité, on compte le nombre d’individus pour lesquels la variable prend cette modalité. On appelle ce nombre effectif de la modalité et on note ni l’effectif de la i−ème modalité Ai. — On regroupe dans un tableau les différentes modalités et leurs effectifs respectifs. Modalité Ai Effectif ni A1 n1 A2 n2 A3 n3 ... Ak ... nk Remarques La somme des effectifs des différentes modalités doit être égale à l’effectif total. k P i=1 ni = n1 + n2 + ... + nk = N Le tableau de distribution des effectifs contient autant d’information que les données individuelles. Souvent, plutôt que de considérer le nombre d’individus pour lesquels la variable prend une modalité donnée, on préfère considérer le pourcentage d’individus, appelé proportion ou fréquence pour lesquels la variable prend cette modalité. effectif de la modalité proportion d’une modalité = effectif total On note pi la proportion de la i−ème modalité. n pi = i N On note aussi ni P (X = Ai) = pi = N Une proportion est soit exprimée en pourcentage (par exemple 20%) soit par un nombre compris entre 0 et 1 (par exemple 0,2). Règle : 0,2 = 20% 0,45=45% 0,005=0,5% Exemple : Quelle est votre chaı̂ne de télévision préférée ? Tableau de distribution des effectifs : Chaı̂ne TV Ai Effectifs ni TF1 F2 F3 C+ M6 Total 4 3 0 1 2 N = 10 Tableau de distribution des proportions Modalité Ai TF1 F2 F3 C+ M6 Proportion pi 0,4 0,3 0 0,1 0,2 Effectif total N = 10 4 = 0, 4 P (X = T F 1) = 10 P (X = F 3) = 0 Remarques : - La somme des proportions est égale à 1 ou 100%. k X pi = p1 + p2 + ... + pk = 1 i=1 - Il faut indiquer l’effectif total pour avoir l’équivalence avec le tableau des effectifs. Réciproquement, supposons qu’on dispose du tableau de distribution des proportions et qu’on connaisse l’effectif total, on peut alors déterminer le tableau de distribution des effectifs en calculant pour chaque modalité son effectif par effectif = proportion × effectif total ni = pi × N Exemple : Dans une autre classe de terminale composée de 20 élèves, on a étudié la même variable chaı̂ne de télévision préférée et on dispose du tableau de distribution des proportions suivant : Chaı̂ne TV Ai TF1 F2 F3 C+ M6 Total Proportions pi 0,3 0,1 0,1 0,2 0,3 1 Effectif total N = 20 On obtient le tableau de distribution des effectifs : Chaı̂ne TV Ai Effectifs ni TF1 F2 F3 C+ M6 Total 6 2 2 4 6 N = 20 2 Représentations graphiques Pour représenter une variable qualitative, on peut utiliser un graphique appelé diagramme en tuyaux d’orgue. Le principe de ce graphique consiste à dessiner pour chaque modalité de la variable un rectangle de hauteur égale à l’effectif de cette modalité ou à sa proportion. Exemple Chaı̂ne TV Ai Effectifs ni TF1 F2 F3 C+ M6 Total 4 3 0 1 2 N = 10 Effectifs 4 3 2 1 Chaine TV TF1 F2 F3 C+ M6 Chaı̂nes de télévision préférées pour 10 élèves de terminale Chaı̂ne TV TF1 F2 F3 C+ M6 Total Proportions pi 0,4 0,3 0 0,1 0,2 1 Effectif total N =10 Proportions 0,4 0,3 0,2 0,1 Chaine TV TF1 F2 F3 C+ M6 Chaı̂nes de télévision préférées pour 10 élèves de terminale Si on veut comparer deux distributions de la même variable dans deux populations différentes, on choisit de représenter les distributions de proportions. Autre représentation graphique usuelle : le diagramme en secteurs Chaı̂nes de télévision préférées pour 10 élèves d’une classe terminale M6 20% C+ 10% F3 0% M6 20% TF1 40% TF1 40% C+ 10% F2 30% F3 0% F2 30% 3 Mode On appelle mode d’une variable qualitative la ou les modalité( ayant le plus grand effectif ou la plus grande proportion. Remarque : le mode correspond aussi à la ou aux modalité(s) ayant la plus grande hauteur dans la représentation graphique de la variable en tuyaux d’orgue. Exemple : le mode de la variable chaı̂ne de télévision préférée est : TF1 car l’effectif de TF1 (= 4) est le plus grand des effectifs, ou car la proportion de TF1 (= 0,4) est la plus élevée des proportions. Chapitre 3 Variables Quantitatives discrètes 1. Organisation des données 2. Représentation graphique 3. Principaux paramètres de position 4. Principaux paramètres de dispersion 1 Organisation des données Les valeurs x1, x2, ..., xk d’une variable quantitative discrète sont le plus souvent des nombres entiers. Exemple : On a recensé le nombre d’enfants de ménages d’une commune C et obtenu le tableau de distribution des effectifs suivant : Nombre d’enfants xi Effectifs ni 0 175 1 250 2 425 3 150 Total N =1000 - population = ménages de la commune - individu = un ménage. - effectif total N = 175 + 250 + 425 + 150 = 1000 - variable = nombre d’enfants. - valeurs de la variable : x1 = 0, x2 = 1, x3 = 2, x4 = 3. Comme pour les variables qualitatives, on peut considérer de manière équivalente le tableau de distribution des proportions : Tableau de distribution des proportions Nombre d’enfants xi 0 1 2 3 Total Pourcentage pi 17,5% 25% 42,5% 15% 100% Effectif total N = 1000 2 Représentation graphique Pour représenter une variable quantitative discrète, on peut utiliser un graphique appelé diagramme en bâtons. Le principe de ce graphique consiste à dessiner pour chaque valeur de la variable un trait de hauteur l’effectif de cette valeur ou la proportion de cette valeur. Si on veut comparer les distributions de la même variable dans deux populations différentes, on choisit de représenter les distributions des proportions. Tableau de distribution des proportions Nombre d’enfants xi 0 1 2 3 Total Pourcentage pi 17,5% 25% 42,5% 15% 100% Effectif total N = 1000 Distribution du nombre d’enfants des ménages de la commune C (N = 1000) Proportions 0,5 0,4 0,3 0,2 0,1 0 1 2 3 Nombre d'enfants Tableau de distribution des effectifs Nombre d’enfants xi Effectifs ni 0 175 1 250 2 425 3 150 Total N =1000 Distribution du nombre d’enfants des ménages de la commune C (N = 1000) Effectifs 500 400 300 200 100 0 1 2 3 Nombre d'enfants 3 Principaux paramètres de position Principaux paramètres de position ou de tendance centrale : le mode, la moyenne et la médiane. 3.1 Le mode On appelle mode d’une variable quantitative discrète la ou les valeur(s) ayant le plus grand effectif ou la plus grande proportion. Remarque : le mode correspond aussi à la ou aux valeur(s) ayant la plus grande hauteur dans la représentation graphique de la variable. Exemple : mode de la variable “nombre d’enfants” = “2” car la proportion de “2” (= 42,5%) est la plus élevée, ou bien car l’effectif de “2” (= 425) est le plus élevé. 3.2 La Moyenne La moyenne est un résumé numérique et correspond au centre de gravité de la distribution. Elle est exprimée dans la même unité que la variable. On la note µ. La moyenne se calcule — à partir des données individuelles x(1), x(2), ...x(N) par : P données x(1) + x(2) + ... + x(N) µ= = effectif total N — à partir du tableau de distribution des effectifs par : µ = P (valeur × effectif de la valeur) effectif total k P µ = i=1 = (xi × ni) N (x1 × n1) + (x2 × n2) + .. + (xk × nk ) N — à partir du tableau de distribution des proportions par : µ = µ = P (valeur × proportion de la valeur) k P (xi × pi) i=1 = (x1 × p1) + (x2 × p2) + .. + (xk × pk ) Exemple : Tableau de distribution des effectifs Nombre d’enfants xi Effectifs ni moyenne µ = = 0 175 1 250 2 425 3 150 Total N =1000 (0×175)+(1×250)+(2×425)+(3×150) 1000 1550 =1,55 1000 Le nombre moyen d’enfants par ménage 1,55. Remarque : la moyenne n’est pas en général un nombre entier. Tableau de distribution des proportions Nombre d’enfants xi Pourcentage pi 0 17,5% 1 25% 2 42,5% 3 15% Total 100% Effectif total N = 1000 µ = (0 × 0, 175) + (1 × 0, 25) + (2 × 0, 425) +(3 × 0, 15) = 1, 55 Remarque : en théorie, le calcul de la moyenne à partir des effectifs ou des proportions donne le même résultat. On observe parfois en pratique des petites variations dues aux arrondis dans les calculs préalables des proportions (par exemple 13 arrondi à 0,333). Il est préférable en général de mener le calcul à partir de la distribution des effectifs. Moyenne sur une population obtenue par regroupement de deux populations Exemple : Sur une première commune C1, on recense 1000 ménages, le nombre moyen d’enfants est µ1(C1) = 1,55. Sur une seconde commune C2 où il y a 5000 ménages, le nombre moyen d’enfants est µ2(C2) = 2,30. On souhaite alors calculer le nombre moyen d’enfants des ménages habitant les deux communes (réunies) : moyenne µ(C1∪C2) [µ1(C1) × Effectif(C1)] + [µ2(C2) × Effectif(C2)] = Effectif total(C1 ∪ C2) = (1, 55 × 1000) + (2, 30 × 5000) 1000 + 5000 13050 = = 2, 175 6000 Le nombre moyen d’enfants sur les deux communes est de 2,175. Intérêt de la moyenne - Facile à calculer et à interpréter - Dépend de toutes les observations - Il est plus facile de comparer plusieurs populations en considérant la moyenne et non toutes les données Limites de la moyenne - La moyenne est très sensible aux valeurs extrêmes et donc aux erreurs de mesure ou aux valeurs “aberrantes”. Supposons qu’on rajoute cinq ménages de 10 enfants la commune C. La moyenne de la variable “nombre d’enfants” devient µ2 = 1550+ (10×5) = 1,59 1005 La nouvelle moyenne est supérieure de 2,6% à 1,55 alors que le nombre de ménages a augmenté de 0, 5% - La moyenne ne caractérise pas suffisamment une distribution statistique : Supposons que sur une autre commune, on ait obtenu la répartition suivante : Nombre d’enfants xi 0 1 2 3 Total Proportions pi 0,45 0,05 0 0,50 1 Effectif total N=3400 µ = (0×0,45) + (1×0,05) + (2×0) + (3×0,5) = 1,55 On obtient la même moyenne que pour la distribution précédente. Cette non représentativité de la moyenne implique le calcul d’autres paramètres statistiques complémentaires. 3.3 La médiane La médiane est la valeur qui partage les données en deux parties : 50% des observations sont inférieures à la médiane et 50% lui sont supérieures. Détermination de la médiane avec les effectifs 1. On classe les données dans l’ordre croissant. 2. Si le nombre d’observations N est impair, on note x( N+1 2 ) l’observation numéro N+1 2 . La médiane est exactement la valeur x( N+1 2 ) Exemple : X : Nombre Nombre d’enfants xi Effectifs ni Effectifs cumulés Ni d’enfants par ménage. 0 1 2 3 4 Total 3 6 5 3 2 N = 19 3 9 14 17 19 x( 19+1 2 ) = x(10) = 2. La médiane est “2”. Il y a 9 observations inférieures ou égales à 2 et 9 observations supérieures ou égales à 2. N et 3. Si N est pair. On note x( N ) l’observation numéro 2 2 N N x( 2 + 1) la ( 2 + 1)ème observation. Alors la médiane est n’importe quelle valeur comprise dans N + 1)]. ); x( l’intervalle médian [x( N 2 2 Par convention, on prend le milieu de cet intervalle. Exemple : Nombre d’enfants Nombre d’enfants xi Effectifs ni Effectifs cumulés Ni 0 1 2 3 4 Total 4 5 4 1 0 N = 14 4 9 13 14 14 L’effectif total est N =14. L’observation numéro 14 2 = 7 prend la valeur “1”. L’observation numéro 14 2 +1 = 8 prend aussi la valeur “1”. Dans ce cas, la médiane est “1”. Exemple : Nombre d’enfants Nombre d’enfants xi Effectifs ni Effectifs cumulés Ni 0 1 2 3 4 Total 5 2 5 1 1 N = 14 5 7 12 13 14 L’effectif total est 14. x( N 2 ) = x(7) = 1. x( N 2 + 1) = x(8) = 2. L’intervalle médian est [1 ; 2] et la médiane est “1,5”. Remarque : dans ce dernier exemple, la médiane n’est pas un nombre entier. Exemple du cours : Nombre d’enfants xi Effectifs ni Effectifs cumulés Ni La médiane est 2. 0 175 175 1 250 425 2 425 850 3 150 1000 Total N =1000 4 Principaux paramètres de dispersion L’étendue et l’écart-type (dispersion par rapport à la moyenne 4.1 L’étendue On appelle étendue la différence entre la plus grande valeur et la plus petite valeur prise par la variable. Exemple : Nombre d’enfants 0 1 2 3 Effectifs ni 175 250 425 150 L’étendue vaut 3 − 0 = 3. 4.2 L’écart-type L’écart-type mesure la dispersion des données autour de la moyenne. P Variance = (valeur-moyenne)2 effectif total La variance est notée σ 2 ; elle est exprimée dans l’unité au carré de la variable. σ2 N P = i=1 (x(i) − µ)2 N (x(1) − µ)2 + (x(2) − µ)2 + .. + (x(N) − µ)2 = N L’écart-type est exprimé dans la même unité que la variable. On le note σ. √ Ecart-type = Variance √ σ = σ2 µ µ Population 1 Population 2 Population 3 µ Plus l’écart-type est petit, plus les données individuelles sont regroupées autour de la moyenne. Plus il est grand, plus les données individuelles sont dispersées autour de la moyenne. 4.2.1 Calcul de l’écart type à partir des données individuelles Exemple : On recense le nombre d’enfants de 5 ménages. Données x(i) : 1 ; 2 ; 4 ; 3 ; 2 - On commence par calculer la moyenne : ici elle vaut 1+2+4+3+2 µ= = 2, 4 5 - Puis la variance σ 2 = (1−2,4)2+(2−2,4)2+(4−2,4)2+(3−2,4)2+(2−2,4)2 5 = ...?? Formule pratique de calcul de la variance On montre que l’on peut encore écrire la variance sous la forme : P (valeur)2 Variance = − moyenne2 effectif total N P σ 2 = i=1 x(i)2 N x(1)2 + x(2)2 + ... + x(N)2 2 −µ = − µ2 N Le calcul est alors beaucoup plus rapide et offre moins de risques d’erreurs. 2 + 22 + 42 + 32 + 22 1 σ2 = − 2, 42 5 σ2 = 34 − 2, 42 = 1, 04 5 √ Puis l’écart-type σ = 1, 04 = 1, 02. 4.2.2 Calcul de l’écart-type à partir de la distribution des effectifs Valeurs xi Effectifs ni Variance = σ2 = x2 n2 ... xk ... nk Total N i 2 (valeur-moyenne) × effectif de la valeur Ph k h P = i=1 x1 n1 effectif total (xi − µ)2 × ni N i [(x1−µ)2×n1]+[(x2−µ)2×n2]+..+[(xk −µ)2×nk ] N Formule pratique de calcul de la variance Variance = σ2 Ph k P (valeur)2 × effectif [xi2 × ni] = i=1 = effectif total N i − moyenne2 − µ2 [x12×n1]+[x22×n2]+..+[xk 2×nk ] N − µ2 Exemple : Tableau de distribution des effectifs Nombre d’enfants xi Effectifs ni 0 175 1 250 2 425 3 150 Total N =1000 On a déjà µ = 1, 55 Variance σ2 = (0×175)+(1×250)+(4×425)+(9×150) 2 − 1, 55 1000 = 0, 8975 √ Ecart-type = σ = 0, 8975 = 0, 947 4.2.3 Calcul de l’écart-type à partir de la distribution des proportions Valeurs xi Proportions pi Variance= σ2 x1 p1 ... xk ... pk x2 p2 Total 1 i (valeur-moyenne) × proportion de la valeur Ph 2 = k h P (xi − µ)2 × pi i=1 h i i h i 2 2 = (x1 − µ) × p1 + (x2 − µ) × p2 h i 2 +... + (xk − µ) × pk Formule pratique de calcul de la variance Variance = i 2 (valeur) × proportion −moyenne2 Ph i k h P 2 2 σ = xi × pi − µ2 i=1 h i h i h i 2 2 2 = x1 × p1 + x2 × p2 + ... + xk × pk − µ2 Exemple : Tableau de distribution des proportions Nombre d’enfants xi Proportions pi 0 1 2 3 0,175 0,25 0,425 0,15 Effectif total N = 1000 µ = 1,55 σ 2 = (0 × 0, 175) + (1 × 0, 25) + (4 × 0, 425) +(9 × 0, 15) − 1, 552 σ 2 = 0, 8975 √ Ecart-type = σ = 0, 8975 = 0, 947. Total 1 Remarques - On a toujours σ 2 ≥ 0 et σ ≥ 0. Si σ 2 = σ = 0, alors toutes les données sont égales et égales à la moyenne. - Si σ 2 > 1, alors σ 2 > σ (exemple σ 2 = 4 et σ = 2) Si σ 2 < 1, alors σ 2 < σ 0, 5) (exemple σ 2 = 0, 25 et σ = - en théorie, le calcul de l’écart type à partir des effectifs ou des proportions donne le même résultat. On observe parfois en pratique des petites variations dues aux arrondis dans les calculs préalables des proportions. Il est préférable en général de mener le calcul à partir de la distribution des effectifs. Chapitre 4 Variables Quantitatives continues 1. Organisation des données 2. Représentation graphique : histogramme 3. Fonction de répartition 4. Principaux paramètres de tendance centrale : mode, moyenne, médiane 5. Principaux paramètres de dispersion : étendue, écarttype, quantiles 6. Intervalle de variation 7. Boîte à moustaches 1 Organisation des données Une variable quantitative continue est à valeurs réelles. Elle prend un trop grand nombre de valeurs pour qu’on puisse toutes les recenser. 1. Exemple : On a demandé aux enfants d’une classe de 10 élèves d’accomplir une certaine tâche TT et on mesure le temps nécessaire pour effectuer cette tâche, en secondes. Données individuelles ordonnées : 6 ; 6 ; 7 ; 10 ; 12 ; 13 ; 20 ; 23 ; 30 ; 36 Plus petite valeur = 6. Plus grande valeur = 36. On se donne le découpage en classes ]5,15], ]15,30] et ]30,40 ]. Découpage en classes : On détermine la plus petite valeur prise amin et la plus grande valeur prise amax par la variable. Puis on se donne une série d’intervalles appelés classes de la forme ]a, b] couvrant l’ensemble des valeurs de la variable : [amin; amax] ⊂ ]a0; a1]∪]a1; a2]∪]a2; a3] ∪ ...]ak−1; ak ] On appelle amplitude de la classe ]a, b] la valeur de la différence b − a. Exemple : amplitude de ]5,15] = 15 - 5 = 10. Lors de ce découpage, les classes peuvent être de même amplitude ou d’amplitudes différentes. Exemples : trois classes de même amplitude : ]5,20] ; ]20,35] ; ]35,50] Le principe de base est que les observations sont supposées réparties uniformément au sein de chaque classe. 2. Pour chaque classe ]a, b] on compte le nombre d’individus pour lesquels la variable prend une valeur strictement supérieure à a et inférieure ou égale à b. On appelle ni l’effectif de la i-ème classe. 3. On regroupe dans un tableau les différentes classes et leurs effectifs respectifs. Exemple : Tableau 1 de distribution des effectifs : Temps Effectifs ni ]5,15] ]15,30] ]30,40] Total 6 3 1 N = 10 Tableau 2 de distribution des effectifs : Temps Effectifs ni ]5,20] ]20,35] ]35,50] Total 7 2 1 N = 10 Tableau 3 de distribution des effectifs : Temps ]5,10] ]10,15] ]15,30] ]30,50] Total Effectifs 4 2 3 1 N = 10 Remarques • La somme des effectifs des différentes classes doit être égal à l’effectif total. n1 + n2 + .. + nk = N. • Le tableau de distribution des effectifs contient moins d’information que les données individuelles. En effet, connaître l’effectif d’une classe ne renseigne pas sur la répartition des données individuelles à l’intérieur de la classe. Celle-ci est supposée uniforme. • On peut présenter de façon équivalente le tableau de distribution des proportions : Tableau 1 de distribution des proportions Temps ]5,15] ]15,30] ]30,40] Total Proportions pi 0,6 0,3 0,1 1 Effectif total N =10 2 Représentation graphique 2.1 Densité de proportion Reprenons l’exemple suivant : Population : enfants d’une classe Variable X : temps mis pour accomplir une tâche TT Tableau de distribution de X: Temps X Proportions pi ]5,15] ]15,30] ]30,40] 0,6 0,3 0,1 Lorsqu’on veut représenter une variable quantitative continue, on détermine préalablement les densités de proportion des différentes classes. La densité de proportion d’une classe ]a, b] est donnée par proportion de ]a, b] densité de proportion de ]a, b] = amplitude de ]a, b] Exemple : temps pour TT Effectif total N =10 Temps X ]5;15] ]15;30] ]30;40] Total Proportion pi 0,6 0,3 0,1 1 Amplitude 10 15 10 Densité de proportion 0,06 0,02 0,01 2.2 Histogramme La représentation graphique d’une variable quantitative continue est l’histogramme. On dessine pour chaque classe ]a, b] un rectangle de base ]a, b] et de hauteur la densité de proportion de la classe ]a, b]. Exemple : Temps pour TT Distribution des temps pour une population de 10 enfants d’une classe Densité de proportion 0,06 0,05 0,04 0,03 0,02 0,01 Temps mis pour TT 5 15 25 30 35 40 45 Ainsi, la surface de chaque rectangle est exactement la proportion de la classe correspondante. Surface du rectangle = hauteur × largeur = densité de proportion de ]a, b] × amplitude de ]a, b] = proportion de ]a, b] × amplitude de ]a, b] amplitude de ]a, b] = proportion de ]a, b] La surface totale de l’histogramme est égale à 1 puisqu’elle est égale à la somme des proportions. 2.3 Calcul approché d’une proportion à partir de l’histogramme Distribution des temps pour effectuer une tâche pour 10 enfants d’une classe Densité de proportion 0,06 0,05 0,04 0,03 0,02 0,01 Temps mis pour TT 5 15 25 30 35 40 45 Proportion d’observations comprises entre 8 et 32 ? P (8 ≤ X ≤ 32) = [0,06 × (15-8)] + [0,3] + [0,01 × (32-30)] = 0,42 + 0,3 + 0,02 = 0,74 74% des temps sont compris entre 8 et 32 secondes . Remarque : pour une variable continue, P (8 ≤ X ≤ 32) = P (8 < X ≤ 32) = P (8 ≤ X < 32) = P (8 < X < 32) Autrement dit, proportion de ]8,32] = proportion de [8,32] = proportion de [8,32[ = proportion de ]8,32[ 3 Fonction de répartition d’une variable continue 3.1 Proportions cumulées La proportion cumulée d’une valeur v est la proportion des observations qui sont inférieures ou égales à cette valeur v. On note P (X ≤ v). Pour une variable continue, il est équivalent de chercher la proportion d’observations qui sont strictement inférieures à la valeur v : P (X ≤ v) = P (X < v). (Faux dans le cas discret) Exemple : temps pour TT Temps X Proportion pi Proportions cumulées Fi Effectif total N = 10 ]5;15] ]15;30] ]30;40] 0,6 0,3 0,1 0 0,6 0,9 1 La proportion cumulée indiquée pour une classe ]a, b] correspond en fait à la proportion cumulée en b. 3.2 Fonction de répartition On appelle fonction de répartition de la variable X la fonction notée F définie pour tout réel x, qui associe à ce réel x la proportion cumulée de x. On peut l’appeler encore fonction de distribution cumulative. F (x) = proportion des observations ≤ x = proportion cumulée de x = P (X ≤ x) Exemple : Temps pour TT Temps X Proportion cumulée Fi Effectif total N = 10 ]5;15] ]15;30] ]30;40] 0 0,6 0,9 1 F (0) = 0 F (5) = 0 F (15) = 0, 6 F (30) = 0, 9 F (40) = 1 F (50) = 1 On connait facilement la valeur de F (x) dans certains cas : • si x est une valeur inférieure ou égale à la borne inférieure de la première classe, F (x) = 0 • si x est une valeur supérieure ou égale à la borne supérieure de la dernière classe, F (x) = 1 • si x est la borne supérieure de la i-ème classe, F (x) = Fi Comment calculer F (x) sinon ? 1. On détermine à quelle classe ]a, b] appartient la valeur x. 2. On applique la formule F (x) = F (a) + (F (b) − F (a)) × x−a b−a Exemple : Temps pour TT Temps X Proportion cumulée Fi ]5;15] ]15;30] ]30;40] 0 0,6 0,9 1 • F (10) ? 10 ∈]5; 15] F (10) = F (5) + (F (15) − F (5)) × 10−5 15−5 ³ 5 F (10) = 0 + (0, 6 − 0) × 10 • F (20)? ´ = 0, 3. 20 ∈]15; 30] F (20) = F (15) + (F (30) − F (15)) × 20−15 30−15 ³ 5 = 0, 6 + (0, 9 − 0, 6) × 15 ´ = 0, 7. Remarque : La fonction de répartition est croissante et si x ∈]a, b], alors on doit trouver F (x) ∈]F (a); F (b)]. 3.3 Représentation graphique de la fonction de répartition Pour chaque valeur v qui est une borne de classe, on associe un point de coordonnées (v, F (v)). On joint les points consécutifs par un segment. On termine en prolongeant en 0 et en 1 aux deux extrêmes. Exemple : Temps pour TT Temps X Proportion cumulée Fi Effectif total = 10 ]5;15] ]15;30] ]30;40] 0 0,6 0,9 1 Points à tracer: (5;0) ; (15;0,6) ; (30;0,9) ; (40;1) Fonction de répartition du temps mis pour accomplir une tâche TT pour les dix enfants de la classe Proportions cumulées 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 Temps 0 5 10 15 20 25 30 35 40 3.4 Calcul de proportions • La proportion d’observations inférieures à a est P (X ≤ a) = F (a) • La proportion d’observations supérieures à b est P (X > b) = 1 − F (b) • La proportion d’observations comprises entre a et b (avec a ≤ b) est : P (a < X ≤ b) = F (b) − F (a) Exemples : Pourcentage d’enfants mettant plus de 15 secondes pour accomplir TT ? P (X > 15) = 1 − F (15) = 1 − 0, 6 = 0, 4 soit 40%. Pourcentage d’enfants mettant moins de 5 secondes pour effectuer TT : P (X < 5) = F (5) = 0. Pourcentage d’enfants mettant entre 10 et 20 secondes pour effectuer TT : P (10 ≤ X ≤ 20) = F (20) − F (10) = 0, 7 − 0, 3 = 0, 4 soit 40% 4 Paramètres de tendance centrale 4.1 La classe modale La classe modale est la classe ayant la plus grande densité de proportion. Graphiquement, c’est la classe correspondant au rectangle le plus haut dans l’histogramme. Exemple : Temps mis pour TT Temps ]5;15] ]15;30] ]30;40] Densité de proportion 0,06 0,02 0,01 La classe modale est ]5;15]. Remarques : • Il peut y avoir une ou plusieurs classes modales. • Attention : plus grande densité de proportion 6= plus grande proportion Exemple : Classe ]5;15] ]15;30] ]30;40] Proportion 0,4 0,5 0,1 Densité de proportion 0,04 0,033 0,01 4.2 La moyenne 4.2.1 Calcul de la moyenne à partir des données individuelles 4.2.2 Calcul de la moyenne à partir des effectifs On appelle centre de la classe ]a, b] le milieu de cette classe. Centre de la classe ]a, b] = a+b 2 On note xi le centre de la i−ème classe. Lorsque les données sont regroupées en k classes, chaque classe va être résumée par son centre. La moyenne est alors obtenue par le calcul suivant : Moyenne = μ= k P i=1 xi × ni N P (centre × effectif) Effectif total x1n1 + x2n2 + ... + xk nk = N Exemple : Temps mis pour TT Temps X Centre xi Effectif ni μ= ]5;15] ]15;30] ]30;40] 10 22,5 35 6 3 1 (10 × 6) + (22, 5 × 3) + (35 × 1) = 16, 25 10 Remarque : La moyenne calculée sur les données regroupées n’est pas toujours égale à celle calculée sur les données individuelles, égale ici à 16,30. La “vraie” valeur de la moyenne est celle calculée sur les données individuelles. 4.2.3 Calcul de la moyenne à partir des proportions La moyenne est alors obtenue par le calcul suivant : Moyenne = μ= k P P (centre × proportion) (xi × pi) = (x1p1 + x2p2 + ... + xk pk ) i=1 Exemple : Temps mis pour TT Temps X Centre xi Proportion pi ]5;15] ]15;30] ]30;40] 10 22,5 35 0,6 0,3 0,1 μ = (10 × 0, 6) + (22, 5 × 0, 3) + (35 × 0, 1) = 16, 25 Propriétés de la moyenne Les remarques faites dans le cas d’une variable quantitative discrète s’appliquent encore. Notamment on peut appliquer les mêmes formules pour calculer une moyenne sur une population issue d’un regroupement de populations distinctes. 4.3 La médiane La médiane est la valeur qui partage les observations en deux groupes : 50% des observations sont inférieures à la médiane (et 50% sont supérieures). Autrement dit, F (M édiane) = 0, 5 Détermination de la médiane : 1. Si il existe une borne de classe b telle que F (b) = 0, 5, alors M édiane = b. 2. Sinon, on détermine l’intervalle ]a; b] tel que F (a) < 0, 5 et F (b) > 0, 5. Puis on applique la formule M édiane = a + (b − a) × 0, 5 − F (a) F (b) − F (a) Exemple : Temps mis pour TT Temps X Proportion cumulée Fi ]5;15] ]15;30] ]30;40] 0 0,6 0,9 1 Effectif total = 10 F (5) = 0 et F (15) = 0, 6. La médiane est dans l’intervalle ]5;15]. Médiane = 5 + (15 − 5) × 0, 5 − F (5) F (15) − F (5) = 5 + 10 × 0,5−0 0,6−0 = 13, 33. 50% des enfants mettent moins de 13,33 secondes (entre 5 et 13,33) pour effectuer TT, et 50% mettent plus de 13,33 secondes (entre 13,33 et 40). 4.4 Comparaison Mode-Moyenne- Médiane Il n’y a pas de règle générale entre les trois quantités. On peut distinguer cependant trois cas : Si la distribution est symétrique : mode ' moyenne ' médiane 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 Si la distribution est disymétrique étalée à droite : mode < médiane < moyenne 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 Si la distribution est disymétrique étalée à gauche : moyenne < médiane < mode 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 5 Paramètres de dispersion De même que pour une variable discrète, la moyenne n’est pas suffisante pour décrire la distribution et on s’intéresse à la dispersion de celle-ci. 5.1 L’étendue L’étendue est la différence entre la plus grande valeur et la plus petite valeur prise par la variable. 5.2 L’écart-type Il mesure la dispersion des données autour de la moyenne. On applique les mêmes formules de calcul que dans le cas d’une variable discrète, mais les valeurs sont remplacées par les centres de classe. Calcul à partir des effectifs Définition : Variance = P (centre - moyenne)2 × effectif effectif total k P (xi − μ)2 × ni σ 2 = i=1 N Formule de calcul pratique : Variance = P (centre)2 × effectif - moyenne2 effectif total k P (xi)2 × ni σ 2 = i=1 N √ On a ensuite l’écart-type σ = σ 2. − μ2 Exemple : Temps mis pour TT Temps X Centre xi Effectif ni ]5;15] ]15;30] ]30;40] 10 22,5 35 6 3 1 μ = 16, 25 σ2 (102×6)+(22,52×3)+(352×1) = −16, 252 10 = 3343,75 − 264, 06 = 70, 31 10 σ = 8, 39 Remarques : L’écart-type calculé sur les données regroupées est une valeur approchée. La “vraie” valeur de l’écart-type est celle calculée sur les données individuelles, ici 10,01. Calcul à partir des proportions Définition : Variance = P (centre - moyenne)2 × proportion k P 2 (xi − μ)2 × pi σ = i=1 Formule de calcul pratique : Variance = P [(centre)2× proportion] - moyenne2 σ2 = " k P # (xi)2 × pi − μ2 i=1 √ On a ensuite l’écart-type σ = σ 2. Exemple : Temps mis pour TT Temps X Centre xi Proportion pi ]5;15] ]15;30] ]30;40] 10 22,5 35 0,6 0,3 0,1 μ = 16, 25 σ 2 =(102×0,6)+(22,52×0,3)+(352×0,1)-16,252 = 70,31 écart-type σ = 8, 39 Remarque : on obtient théoriquement le même résultat en utilisant les effectifs ou les proportions. 5.3 Propriétés complémentaires 5.3.1 Changement de variable linéaire Exemple : On a mesuré la température corporelle de 130 hommes et femmes ; l’étude a été réalisée en degrés Celsius. On a trouvé une température moyenne de 35, 7 degrés C, avec une variance de 0, 16 (d◦C)2 et donc un écart type de 0, 4 d◦C. On souhaite exprimer ces résultats en degrés Fahrenheit. La correspondance entre les deux mesures est : F = 1, 8C + 32. Cas général : Supposons qu’on étudie la variable X de moyenne μX et de variance σ 2X . On considère le changement Y = aX + b, où a et b sont des constantes réelles. Alors on a directement la moyenne de Y : μY = a × μX + b. La variance et l’écart type de Y sont : σ 2Y σY = a2 × σ 2X . = |a| × σ X . Exemple : la température moyenne en degrés Fahrenheit est de : (1, 8 × 35, 7) + 32 = 96, 26. L’écart-type en degrés F est de (1, 8) × (0, 4) = 0, 72 5.3.2 Variable centrée réduite Une variable centrée et réduite est une variable dont la moyenne est nulle et l’écart-type vaut 1. Pour centrer et réduire la variable X, on fait le changement de variable X − μX Y = σX Alors on vérifie que μY = 0 et σ Y = 1. Y est centrée réduite. Exemple : X a pour moyenne 3 et écart type 2, alors Y = X−3 2 est de moyenne nulle et écart-type 1. L’intérêt de standardiser une variable est de pouvoir la comparer à plusieurs variables numériques présentant des unités de mesures différentes. L’autre intérêt majeur est de lire des proportions directement dans des tables standardisées. Exemple : On considère le temps d’acquisition d’une certaine notion ; les moyennes et écarts types de cette variable varient selon les différentes populations (filles, garçons, âges différents,...), mais l’allure de la distribution est toujours la même. On considère alors la variable Y ce ce temps d’acquisition, mais centrée et réduite. Et on dispose d’une table pour Y. Pour les filles de 8 ans, on a μX = 25 et σ X = 2; on cherche P (X ≤ 30). 30−25 ) = P (Y ≤ 2, 5). P (X ≤ 30) = P ( X−25 ≤ 2 2 On lit dans la table de Y : P (Y ≤ 2, 5) = 0, 88. Pour les garçons de 14 ans, on a μX = 12 et σ X = 6; on cherche P (X ≤ 9). 9−12 ) = P (Y ≤ −0, 5). P (X ≤ 9) = P ( X−12 ≤ 6 6 On lit dans la table de Y : P (Y ≤ −0, 5) = 0, 07. 5.4 5.4.1 Les Quantiles Le quantile d’ordre α Le quantile est une valeur qui partage les observations en deux groupes. Soit α une proportion donnée (0 < α < 1). Le quantile d’ordre α, noté qα, est la valeur telle que la proportion de valeurs qui lui sont inférieures est α. Et la proportion d’observations supérieures au quantile qα est (1 − α). Autrement dit, la proportion cumulée du quantile qα est α. Ou encore : F (qα) = α . 5.4.2 Cas particuliers • La médiane est le quantile d’ordre 0,5 (ou 50%). • Les quartiles : - le premier quartile est le quantile d’ordre 0,25. 25% des observations sont inférieures à Q1 = q0,25 et 75% sont supérieures. - le second quartile est le quantile d’ordre 0,5. Q2 = q0,5 = médiane. - le troisième quartile est le quantile d’ordre 0,75. 75% des observations sont inférieures à Q3 = q0,75 et 25% sont supérieures. • Les déciles. L’étendue des observations est divisée en 10 parties contenant chacune 10% des données. Le premier décile est le quantile d’ordre 0,1. D1 = qO,1 Le deuxième décile est le quantile d’ordre 20%. Etc... Le neuvième décile est le quantile d’ordre 90%. D9 = q0,9 • Les percentiles. L’étendue des observations est divisée en 100 parties contenant chacune 1% des données. Le premier percentile est le quantile d’ordre 1%. Le dixième percentile est le quantile d’ordre 10%. Etc... 5.4.3 Détermination des quantiles On généralise ce qu’on a vu pour la médiane. Pour une proportion α donnée, on cherche la valeur qα telle que F (qα) = α. On regarde le tableau des proportions cumulées. 1. Si il existe une borne de classe b telle que F (b) = α, alors qα = b. 2. Sinon, on détermine l’intervalle ]a; b] tel que F (a) < α et F (b) > α. Puis on calcule la valeur du quantile par la formule qα = a + (b − a) × α − F (a) F (b) − F (a) Exemple : Temps mis pour TT Temps X Proportion cumulée Fi Effectif total = 10 ]5;15] ]15;30] ]30;40] 0 0,6 0,9 1 - Quantile d’ordre 60% ? F (15) = 0, 6 alors q0,6 = 15. 60% des enfants mettent moins de 15 secondes pour effectuer TT. - Troisième quartile ? (quantile d’ordre 75%) Il est dans l’intervalle ]15;30] 0,75−F (15) Q3 = q0,75 = 15 + (30 − 15) × F (30)−F (15) Q3 = 15 + (15) × 0,75−0,6 0,9−0,6 = 22, 5. 75% des enfants mettent moins de 22,5 secondes pour effectuer TT . - Premier quartile ? (quantile d’ordre 25%) Il est dans l’intervalle ]5;15] 0,25−F (5) Q1 = q0,25 = 5 + (15 − 5) × F (15)−F (5) = 5 + (10) × 0,25−0 0,6−0 = 9, 17. 25% des enfants mettent moins de 9,2 secondes pour effectuer TT. Représentation graphique des quantiles Fonction de répartition du temps mis pour accomplir une tâche TT pour les dix enfants de la classe Proportions cumulées 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 Temps 0 5 10 15 20 25 30 35 40 6 Intervalle de variation Soit α une proportion donnée (0 < α < 1). L’intervalle de variation au risque α ou de niveau 1 − α contient une proportion 1 − α d’observations ; de plus, les données qui sont à l’extérieur de cet intervalle (en proportion α) se répartissent également : il y en a autant à “gauche” qu’à “droite”, en proportion α 2. On écrit donc l’intervalle de variation I1−α = [q α ; q1− α ] 2 2 où q α est le quantile d’ordre α 2 2 et q1− α est le quantile d’ordre 1 − α 2. 2 En général, on choisit pour niveau 1 − α la valeur 90%, ou 95% ou 99%. Exemple : Temps mis pour TT Temps X Proportion cumulée Fi Effectif total = 10 ]5;15] ]15;30] ]30;40] 0 0,6 0,9 1 L’intervalle de variation au niveau 90% est I0,9 = I90% = [q0,05 ; q0,95] = [5, 83 ; 35]. 0,05−F (5) q0,05 = 5 + (15 − 5) × F (15)−F (5) = ... = 5, 83 q0,95 = 30 + (40 − 30) × F (40)−F (30) = ... = 35 0,95−F (30) 90% des enfants mettent entre 5,83 et 35 secondes pour effectuer TT. 5% mettent moins de 5,83 s (entre 5 et 5,83) et 5% des enfants mettent plus de 35 s (entre 35 et 40 s). L’intervalle de variation au niveau 95% est I0,95 = I95% = [q0,025 ; q0,975] = [5, 42 ; 37, 5]. L’intervalle de variation au niveau 99% est I0,99 = I99% = [q0,005 ; q0,995] = [5, 08 ; 39, 5]. 7 Boîte à moustaches L’intervalle interquartile est l’intervalle [Q1; Q3]. C’est l’intervalle de variation de niveau 50%. Il contient 50% des observations. 25% des observations sont inférieures à Q1 et 25% sont supérieures à Q3. Exemple : Temps mis pour TT [Q1; Q3] = [9, 17; 22, 5] : 50% des enfants mettent entre 9,2 et 22,5 secondes pour faire une tâche TT. Représentation graphique : La boîte à moustaches (Box and whiskers plot) 5 5 9,17 10 13,33 22,5 15 20 40 25 30 35 40 Chapitre 5 Statistiques descriptives bivariées 1. Organisation des données 2. Distributions marginales 3. Distributions conditionnelles 4. Liaison entre deux variables 5. Etude de deux variables qualitatives 6. Etude d’une variable qualitative et une variable quantitative. 7. Etude de deux variables quantitatives Exemple Etude sur 5761 femmes de la survenue d’accouchement prématuré et de l’exposition à des événements stressants. X : type d’accouchement variable qualitative à 2 modalités Y : score sur une échelle allant de 0 à 3. Plus le score est élevé plus l’exposition à des événements stressants a été importante. variable quantitative discrète à 4 valeurs X\ Y 0 1 2 3 à terme 4698 413 250 197 prématuré 165 16 12 10 1 1.1 Organisation des données Notations On considère deux variables X et Y observées simultanément sur chacun des N individus de la population. On notera xi, i = 1, .., k la variable X. les k modalités ou valeurs de On notera yj , j = 1, .., l les l modalités ou valeurs de la variable Y. On notera nij l’effectif correspondant au couple (xi, yj ). Définition On appelle distribution jointe des effectifs de X et Y l’ensemble des informations (xi, yj , nij ) pour i = 1, .., k et j = 1, .., l. 1.2 Tableau de contingence On synthétise les données de la distribution jointe du couple (X, Y ) par un tableau à double entrée appelé tableau de contingence X\ Y x1 .. xi .. xk y1 n11 ... yj n1j ... yl n1l ni1 nij nil nk1 nkj nkl Exemple : n23 = 12 : l’effectif des femmes qui ont accouché prématurément et qui ont un score égal à 2. Remarque : l k X X i=1 j=1 nij = N 1.3 Proportions de la distribution jointe du couple (X, Y ) Exemple : X\ Y 0 1 2 3 à terme 4698 413 250 197 prématuré 165 16 12 10 Total N = 5761 P (X =à terme , Y = 0) = 4698 5761 = 0.815. X\ Y 0 1 2 3 à terme 0.815 0.072 0.043 0.034 prématuré 0.029 0.003 0.002 0.002 Définition : La proportion du couple (xi, yj ) est nij P (X = xi, Y = yj ) = pij = . N Remarque : l k X X i=1 j=1 pij = 1 2 Distributions Marginales On ajoute au tableau de contingence les totaux en ligne et en colonne. X\ Y y1 x1 n11 .. xi ni1 .. xk nk1 Totaux n•1 ... yl n1l Totaux n1• nij nil ni• nkj n•j nkl n•l nk• N yj n1j ... X\ Y 0 1 2 3 à terme 4698 413 250 197 prématuré 165 16 12 10 Totaux 4863 429 262 207 n•1 n•2 n•3 n•4 Totaux n1• = 5558 n2• = 203 5761 En marge à droite (totaux en ligne) : X à terme n1• = 5558 prématuré n2• = 203 Total N = 5761 Distribution marginale de X : X effectif ni• à terme prématuré Total 5558 203 5761 Pour chaque indice i, l’effectif ni• est l’effectif de la modalité xi de X quelle que soit la modalité de Y . ni• = l X nij = total de la ligne i j=1 Les k couples (xi, ni•) définissent la distribution marginale de la variable X. Remarque : k P i=1 ni• = N Proportions marginales pour X X Effectif ni• Proportion pi• à terme prématuré Total 5558 203 N = 5761 0.964 0.036 1 Définition La proportion marginale de xi est P (X = xi) = pi• = nNi• . En marge en bas (totaux en colonne) : X\ Y 0 1 2 3 à terme 4698 413 250 197 prématuré 165 16 12 10 Totaux 4863 429 262 207 Totaux 5558 203 5761 Distribution marginale de Y : Y effectif n•j 0 1 2 3 Total 4863 429 262 207 N = 5761 Pour chaque indice j, l’effectif n•j est le nombre total d’observations de la modalité yj de Y quelle que soit la modalité de X. n•j = k X nij = total de la colonne j i=1 Les l couples (yj , n•j ) définissent la distribution marginale de la variable Y . Remarque : l P j=1 n•j = N Proportions marginales pour Y : Y Effectif n•j Proportion p•j 0 1 2 3 Total 4863 429 262 207 5761 0.844 0.074 0.045 0.036 1 Définition La proportion marginale de yj est n P (Y = yj ) = p•j = N•j . 3 Distributions conditionnelles Le principe des distributions conditionnelles est de décrire le comportement de l’une des deux variables quand l’autre a une valeur donnée. Exemple X\ Y 0 1 2 3 à terme 4698 413 250 197 prématuré 165 16 12 10 Totaux 4863 429 262 207 Totaux 5558 203 5761 Ligne 2 du tableau de contingence : distribution de la variable Y chez les femmes ayant eu un accouchement prématuré. Y |X=prématuré effectif proportion 0 1 2 3 165 0.813 16 0.079 12 0.059 10 0.049 Total 203 = n2• 1 Ce tableau donne la distribution conditionnelle de Y sachant que l’accouchement a été prématuré. Exemple : X\ Y 0 1 2 3 à terme 4698 413 250 197 prématuré 165 16 12 10 Totaux 4863 429 262 207 Totaux 5558 203 5761 Colonne 3 du tableau de contingence : distribution conditionnelle de X sachant que la femme enceinte a subi un stress de niveau 2 X |Y =2 à terme prématuré Total Effectif 250 12 262 = n•3 Proportion 0.954 0.046 1 A la ligne i du tableau de contingence, on lit la distribution conditionnelle de la variable Y sachant que la variable X prend la modalité xi ; elle est notée distribution conditionnelle de Y |X=xi . Il y a k distributions conditionnelles de Y sachant X = xi. A la colonne j du tableau de contingence, on lit la distribution conditionnelle de la variable X sachant que la variable Y prend la modalité yj ; elle est notée distribution conditionnelle de X|Y =yj . Il y a l distributions conditionnelles de X sachant Y = yj . 4 Liaison entre deux variables Exemple Distribution marginale de Y : Y Proportion p•j 0 1 2 3 Total 0.844 0.074 0.045 0.036 1 Distribution conditionnelle de Y sachant que l’accouchement a été prématuré Y |X=prématuré proportion 0 1 2 3 Total 0.813 0.079 0.059 0.049 1 Distribution conditionnelle de Y sachant que l’accouchement était à terme Y |X=à terme proportion 0 1 2 3 Total 0.845 0.074 0.045 0.035 1 Autre exemple : X\ Y 0 1 2 3 à terme 4140 862 278 278 prématuré 22 30 51 100 Totaux 4162 892 329 378 Totaux 5558 203 5761 Distribution marginale de Y : Y Proportion p·j 0 1 2 3 Total 0.722 0.155 0.057 0.066 1 Distribution conditionnelle de Y sachant que l’accouchement a été prématuré Y |X=prématuré proportion 0 1 2 3 Total 0.108 0.148 0.251 0.493 1 Distribution conditionnelle de Y sachant que l’accouchement était à terme Y |X=à terme proportion 0 1 2 3 Total 0.745 0.155 0.050 0.050 1 On peut comparer les distributions conditionnelles de Y sachant X entre elles et à la distribution marginale de Y . Si ces distributions sont très proches, on peut conjecturer une certaine indépendance entre les deux variables. Si ces distributions sont très distinctes, cela signifie que les modalités de X ont une influence sur la variable Y et donc que les deux variables sont liées. Remarque : de même , on peut comparer les distributions conditionnelles de X sachant Y à la distribution marginale de X. 5 Etude de deux variables qualitatives On peut — calculer les distributions jointe, marginales, conditionnelles — faire les représentations graphiques des distributions marginales et conditionnelles. 6 Etude d’une variable qualitative et d’une variable quantitative Supposons que X est qualitative avec k modalités, et Y est quantitative avec l valeurs distinctes possibles ou l classes. On peut 1. Calculer la distribution jointe. 2. Calculer la distribution marginale de X et les distributions conditionnelles de X sachant Y = yj (plus repr. graphiques). 3. Calculer la distribution marginale de Y puis les caractéristiques de cette distribution (+ graphe). Exemple : Y 0 1 2 3 Total Effectif n•j 4863 429 262 207 N = 5761 Proportion p•j 0.844 0.074 0.045 0.036 1 Mode : 0 Médiane : 0 Moyenne μY = 0, 272 Ecart-type : σ 2Y = 0, 504 et σ Y = 0, 71 4. Calculer la distribution conditionnelle de Y sachant X = xi puis les caractéristiques de cette distribution (+ graphe). Exemple : distribution conditionnelle de Y sachant que X = prématuré Y |X=prématuré Effectif Proportion Mode : 0 0 1 2 3 165 0.813 16 0.079 12 0.059 10 0.049 Médiane : 0 Moyenne : μY |X=préma = 0, 344 Ecart-type : σ 2Y |X=préma = 0, 638 et σ Y |X=préma = 0, 799 Total 203 = n2• 1 7 Etude de deux variables quantitatives Si X (resp. Y ) est une variable quantitative discrète, xi (resp. yj ) désigne la valeur prise. Si X (resp. Y ) est une variable quantitative continue, xi (resp. yj ) désigne le centre de classe. 7.1 Exemple 1 : données d’un tableau de contingence. Une entreprise employant 100 femmes relève pour chaque femme son âge, noté X, et le nombre de journées d’absence durant le mois de janvier, noté Y . X\ Y [20,30] ]30,40] ]40,50] ]50,60] Total 0 1 2 3 0 0 5 15 0 15 20 0 15 10 5 0 0 5 5 5 15 30 35 20 Total 20 35 30 15 100 Principales caractéristiques des distributions marginales Distribution marginale de X : X [20,30] ]30,40] ]40,50] ]50,60] Total Total 20 35 30 15 100 μX = 39 σ 2X = 94 σ X = 9, 70 etc... Distribution marginale de Y : Y 0 1 2 3 Total Total 15 30 35 20 100 μY = 1, 6 σ 2Y = 0, 94 σ Y = 0, 97 etc... Quelques moyennes et variances des distributions conditionnelles Distribution conditionnelle de X sachant Y = 1. X|Y =1 Effectif [20,30] ]30,40] ]40,50] ]50,60] 0 15 10 5 Total 30 μ(X|Y =1) = 41.67 σ 2(X|Y =1) = 55.28 σ(X|Y =1) = 7.44 etc... Distribution conditionnelle de Y sachant X = [20, 30] Y |X=[20,30] Effectif 0 1 2 3 0 0 5 15 Total 20 μ(Y |X=[20,30]) = 2, 75 σ 2(Y |X=[20,30]) = 0, 1875 etc... σ(Y |X=[20,30]) = 0, 433 Représentation graphique On peut représenter la distribution du couple (X, Y ) par un nuage de points de coordonnées (xi, yj ), chaque point étant affecté du “poids” nij . Le centre de gravité du nuage est alors le point (non observé) de coordonnées (μX , μY ). Nombre de jours d'absence en janvier Répartition de l'âge et du nombre d'absences pour 100 femmes de l'entreprise X 4 15 3 5 2 1 5 20 5 5 15 10 5 15 0 -1 10 20 30 40 Age 50 60 70 7.2 Covariance, Corrélation On cherche des outils pour mesurer la dépendance linéaire entre deux caractères quantitatifs X et Y . Définition La covariance de X et Y est le nombre réel défini par l k X 1 X Cov(X, Y ) = nij (xi − μX )(yj − μY ) N i=1 j=1 Formule pratique de calcul k X l 1 X Cov(X, Y ) = nij xiyj − μX μY N i=1 j=1 Exemple Centres pour X 25 35 45 55 X \Y 0 1 2 3 [20,30] 0 0 5 15 ]30,40] 0 15 20 0 ]40,50] 15 10 5 0 ]50,60] 0 5 5 5 Total 15 30 35 20 Total 20 35 30 15 100 Cov(X, Y ) = [0 + 0 + (25 × 2 × 5) + (25 × 3 × 15) 1 +... + (55 × 3 × 5)] × 100 −(39 × 1, 6) = 58, 5 − (39 × 1, 6) = −3, 9 Propriétés Cov(X, Y ) = Cov(Y, X) et Cov(X, X) = σ 2(X) Remarques : - La covariance dépend des unités de X et de Y ; - elle prend n’importe quelle valeur réelle. Le coefficient de corrélation linéaire de X et Y est défini par Cov(X, Y ) r(X, Y ) = σX σY Exemple : −3,9 = −0, 4145 r(X, Y ) = 9,7×0,97 Propriétés r(X, Y ) = r(Y, X) et r(X, X) = 1 Le coefficient de corrélation est un coefficient sans dimension. −1 ≤ r(X, Y ) ≤ 1 7.3 Exemple 2. Données individuelles On a relevé, pour différents pays en 2004 le PIB par habitant X (en dollars) et le taux brut de scolarisation des moins de 24 ans en pourcentage Y . Les résultats sont les suivants : (Source : rapport mondial sur le développement du PNUB 2006) Pays Pays en développement Pays les plus pauvres Pays arabes Asie de l’Est et Pacifique Amérique latine et Caraïbes Asie du Sud Afrique Sub-saharienne Europe centrale, orientale et CEI PIB X Tx scolarisation Y 4775 63 1350 45 5680 62 5872 69 7964 81 3072 56 1942 50 8802 83 Scolarisation des jeunes en fonction du PIB en 2004 Taux de scolarisation des moins de 24 ans 90 85 80 75 70 65 60 55 50 45 40 0 2 000 4 000 6 000 8 000 10 000 PIB par habitant Remarques : étirement du nuage, sens de variation... Quelques caractéristiques PIB X : μX = 4932, 13 σ X = 2521, 61 Scolarisation Y : μY = 63, 63 σ Y = 12, 75 Covariance : N 1 X Cov(X, Y ) = (xi − μX )(yi − μY ) N i=1 Formule pratique de calcul ⎛ ⎞ N X 1 Cov(X, Y ) = ⎝ xiyi⎠ − μX μY N i=1 Exemple : Cov(X, Y ) = 31629, 19 Corrélation : r(X, Y ) = Exemple : r(X, Y ) = 0, 984 Cov(X, Y ) σX σY liaison positive forte Le coefficient de corrélation mesure la présence et l’intensité de la liaison linéaire entre X et Y . On a toujours −1 ≤ r(X, Y ) ≤ +1. r(X, Y ) = 1 : liaison linéaire exacte positive Y = aX + b avec a > 0 r(X, Y ) = −1 : liaison linéaire exacte négative Y = aX + b avec a < 0 ; r(X, Y ) = 0 : non corrélation : on a indépendance possible, mais non certaine ; absence de liaison linéaire r(X, Y ) > 0 : liaison relative positive, X et Y ont tendance à varier dans le même sens ; r(X, Y ) < 0 : liaison relative négative, X et Y ont tendance à varier en sens contraires ; r(X, Y ) > 0, 8 ou r(X, Y ) < −0, 8 : la liaison linéaire est considérée comme forte. Remarque : Il faut bien se garder au vu de la seule valeur du coefficient de corrélation, d’émettre des interprétations abusives. Exemple des chaussures et de la culture générale tous deux liés à l’âge ! ! Par contre il existe des outils permettant d’étudier plus en détail les relations linéaires entre deux caractères et permettant (dans une certaine mesure) d’extrapoler à partir de données existantes et de faire de la prévision. 7.4 Autres Exemples On donne pour les 9 premiers mois de l’année 1982 les nombres d’offres d’emploi (concernant des emplois durables à plein temps) et de demandes d’emploi (déposées par des personnes sans emploi , immédiatement disponibles, à la recherche d’un emploi durable à plein temps). Les nombres sont exprimés en milliers. Offres X Demandes Y X Y 82,8 1885,3 61 2034 66,7 2003,8 75,8 1964,5 78,6 1928,2 87,2 1867,1 76,2 1936,2 80,1 1890,3 74,5 1961,2 r(X, Y ) = −0, 9731 Offres d'emploi Offres et dem andes d'em ploi (janvier-sept 1982) 2060 2040 2020 2000 1980 1960 1940 1920 1900 1880 1860 1840 55 65 75 Dem andes d'em ploi 85 95 On dispose des données suivantes sur le nombre d’homicides dans la ville de Détroit sur une période de dix ans, de 1961 à 1970. X : U EM P (Unemployed) : taux de chômeurs dans la population. Y : F T P (Full Time police) : nombre de policiers (à temps plein) pour 100.000 habitants Année FTP UEMP 1961 260,35 11 1962 269,8 7 Année FTP UEMP 1966 261,34 3,2 1967 268,89 4,1 r(X, Y ) = −0, 0583 1963 272,04 5,2 1968 295,99 3,9 1964 272,96 4,3 1969 319,87 3,6 1965 272,51 3,5 1970 341,43 7,1 Nombre de policiers pour 100 000 h Taux de chômage et police à Détroit 360 340 320 300 280 260 240 0 2 4 6 Taux de chomage 8 10 12 On dispose des données de N = 24 réparations d’ordinateurs. Pour chaque réparation on note X le nombre d’unités à réparer et Y la durée de réparation en minutes. (Chatterjee et Price, 1991) Unités X Durée Y 1 23 2 29 X Y 9 149 9 145 10 154 10 166 X Y 17 193 18 195 18 198 20 205 r(X, Y ) = 0, 9469 3 49 4 64 4 74 11 162 5 87 6 96 11 174 12 180 6 97 12 176 7 109 14 179 8 119 16 193 Durée de réparation en fonction du nombre d'unités défectueuses 350 300 Durée 250 200 150 100 50 0 0 5 10 15 Nombre d'unités 20 25