Chapitre I ANALYSE BIDIMENSIONNELLE L'analyse bidimensionnelle ou bivariée consiste à étudier conjointement deux variables. L'objet est de quantifier la relation entre deux ou plusieurs variables principal, une telle étude essaie de mettre en évidence une éventuelle liaison statistique qui peut exister entre les deux variables de manière à ce qu’on puisse expliquer l’une par l’autre. La mise en évidence permet aussi de spécifier la nature et l’intensité d’une telle relation. Dans le cas quantitative on parle d’ajustement ou de régression et de corrélation Dans le cas qualitative, on parle de tableau de contingence de test de chi-deux, de coefficient d’association et de corrélation de spearman. La recherche de combinaison entre deux variables dépend donc de la nature des variables ; s’agit t’il de variables quantitatives, de variables qualitatives nominales ou de variables qualitatives ordinales. Il est évident quelque soit la nature des variables, et quelque soit la nature de la méthode choisie ; l’objectif et de tirer des conclusions concrètes en relation avec le problème étudié, un tel problème est fixé au préalable. I. Combinaison de deux variables qualitatives nominales Le croisement de deux variables qualitatives nominales définit un tableau de contingence où les lignes correspondent aux modalités de la variable 1 mise en lignes et les colonnes correspondent aux modalités de la variables 2 mise en colonnes. A l'intersection de la ligne i et de la colonne j on trouve nij le nombre d'individus ayant simultanément la modalité i de la variable 1 et la modalité j de la variable 2. Exemple : Soit un échantillon de 240 personnes. Deux variables nominales ont été relevées : - Sexe (deux modalités) - Lieu d'achat du dentifrice (trois modalités) Masculin Féminin n.j Pharmacie 30 60 90 Ailleurs 90 40 130 NSP 0 20 20 ni. 120 120 240 1 A partir d'un tableau de contingence on peut définir un tableau de fréquences obtenu en divisant chaque case par l'effectif total n. soit fij = nij / n On définit aussi : f i. = f .j = f .. = Σj f ij Σi f ij Σj f .j = Σi Fréquences marginales en lignes Fréquences marginales en colonnes f i. = 1 La lecture de ce tableau de fréquences permet d'avoir une idée sur la distribution de l'échantillon sur les deux variables statistiques. L'analyse numérique effectuée sur un tel tableau vise la mesure de l'indépendance entre les deux variables X et Y. Cette mesure est donnée par le χ2 qui teste l'existence d'une liaison statistique significative entre les deux variables. (n ij - T ij)2 Calcul du χ2 : Σ χ2 = --------------T ij Les Tij sont les fréquences théoriques calculées sous l'hypothèse d'indépendance entre les deux variables. Dans les cas de l'exemple étudié, celles-ci sont données dans le tableau suivant : Masculin Féminin Total Pharmacie 45 45 90 Application numérique : Ailleurs 65 65 130 NSP 10 10 20 Total 120 120 240 χ2 = 49, 24 Cette valeur est à comparer avec une valeur théorique donnée par la table de la loi du Χ2 en fonction du nombre de degrés de liberté ddl et du risque d'erreur qu'on est prés à tolérer. Le nombre de degrés de liberté est ddl = (L - 1)(C - 1). Dans ce cas ddl = 2; et pour un risque de 5% la valeur critique du χ2critique = 5,99 Comme la valeur calculée est supérieure à la valeur critique, l'hypothèse de l'indépendance est donc rejetée au risque de 5%. En définitive, le lieu d'achat de 2 dentifrice ne peut être considéré comme totalement indépendant du sexe de l'acheteur. On peut mesurer le degré de dépendance ou d'association entre les deux variables grâce au coefficient d'association C : C= χ2 χ2 + n Ce coefficient, s'il est toujours nul en cas d'indépendance, il prend dans le cas d'association parfaite une valeur maximale en fonction des dimensions du tableau de contingence. Un extrait de la table de ces valeurs maximales est donné ci-après : Dimensions du tableau 2x2 2 x3 2x4 2x5 3x3 C max 0,707 0,685 0,730 0,752 0,816 Dimensions du tableau 3x4 3x5 4x4 4x5 4x6 C max 0,786 0,810 0,866 0,863 0,877 Pour notre exemple le Cmax est de 0,685. Pour ramener notre coefficient d'association sur un intervalle [0;1], on prend sa valeur normalisée 0,4126/0,685 = 0,60. Ce résultat indique une association moyennement importante entre les deux variables. III- Combinaison de deux variables qualitatives ordinales 3 Une telle combinaison donne lieu bien évidemment à un tableau de contingence et la liaison entre les deux variables peut être mesurée par le Χ2. Mais le caractère ordinale des deux variables peut être pris en considération grâce au coefficient de Spearman. Ce coefficient donne une idée sur le degré d’association entre les deux variables définies par des rangs. Exemple : Sur un échantillon de 24 individus nous avons posé deux questions : 1- Classez par ordre d’importance décroissante les trois qualités suivantes : Goût Texture, consistance Caractéristiques médicales et d’hygiène 2- Pour vous une pâte dentifrice est : Inutile Utile Très utile Indispensable. Pour calculer le coefficient de corrélation de Spearman il faut ordonner les 24 réponses en fonction des deux variables. Soit le tableau condensé des deux variables : Numéro 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Goût 3 2 1 3 2 3 1 2 1 2 1 1 1 2 1 3 2 1 2 2 3 3 1 3 Utilité 1 2 1 1 1 1 2 1 1 1 2 3 3 2 -1 3 3 2 1 2 3 3 2 2 4 Pour ordonner les 24 réponses selon le goût et l’utilité il faut résoudre le problème des ex-aequo. Les neufs réponses qui classent le goût en premier auront un rang égal à : 1+2+3+4+5+6+7+8+9 45 --------------------------- = ----- = 5 9 9 Ainsi le tableau des classements est le suivant : Numéro 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Classemen Classement t selon le selon l’utilité goût 21 19 13.5 10.5 5 19 21 19 13.5 19 21 19 5 10.5 13.5 19 5 19 13.5 19 5 10.5 5 3.5 5 3.5 13.5 10.5 5 24 21 3.5 13.5 3.5 5 10.5 13.5 19 13.5 10.5 21 3.5 21 3.5 5 10.5 21 10.5 di d i2 2 3 14 2 5.5 2 5.5 5.5 14 5.5 5.5 1.5 1.5 3 19 17.5 10 5.5 5.5 3 17.5 17.5 5.5 10.5 4 9 196 4 30.25 4 30.25 30.25 196 30.25 30.25 2.25 2.25 9 361 306.25 100 30.25 30.25 9 306.25 306.25 30.25 110.25 2167.5 Le coefficient de Spearman est donné par : 6 Σ d i2 r = 1 - ------------------- = 0,06 n (n2 – 1) 5 Dans notre exemple r = 0.06. Cette valeur proche de 0 exprime une association quasi - inexistante entre les deux variables. L’opinion sur l’utilité du dentifrice n’a donc rien à voir avec celle que l’on peut avoir sur son goût. I : Combinaison de deux variables quantitatives Supposons que l’on ait observé deux variables X et Y sur un ensemble de n individus. On a obtenu n couples (xi, yi). on peut représenter l’ensemble des points de coordonnées (xi, yi). dans un repère du plan ; c’est ce qu’on appelle nuage de points. Cette représentation fournit des indicateurs sur d’éventuelles liaisons entre les deux variables Exemple : soit la distribution en x et y suivante : X Y 1 1 3 2 4 4 6 4 8 5 9 7 11 8 14 9 Représentation graphique du nuage de points 10 9 8 7 6 5 4 3 2 1 0 0 2 4 6 8 10 12 14 1. Ajustement linéaire : Méthode des moindres carrées Le nuage de points permet de spécifier la forme de la relation , c’est à dire de trouver la courbe qui ajuste le mieux le nuage de point ainsi représenté. Cette courbe peut être : - une droite en parle dans ce cas d’ajustement linéaire - parabolique en parle d’ajustement non linéaire L’objectif donc du nuage de point est de trouver la courbe qui passe la plus proche possible de tous les points. 6 Soit l’équation Yt = aX t + b Où Y est dite variable endogène c’est une variable interne au système X est dite exogène c’est une variable externe au système. La méthode des MCO consiste à minimiser les écarts entre la droite d’ajustement est le nuage de points. 2 2 e = ( Y − aX − b ) ∑i i i par rapport a et b. Les dérivée partielles donnent: ∂ ∑ (et2 ) = -2 aˆ ∑ [X (Y − aX ∂ ∑ (et2 ) = -2 bˆ ∑ (Y − aX t t t t t − b) = 0 − b) = 0 (1) (2) Les équations (1) et (2) sot dites les équations normales des moindres carrées. Divisant l’équation (2) par n ( le nombre d’observations) : 7 Y − aX − b = 0 ⇒ b = Y − aX Remplaçant b̂ par sa valeur dans l’équation (2) ∑ X tYt − a ∑ X t2 − ∑ X t (Y − aX ) = 0 a[∑ X t2 − aX ∑ X t = ∑ X tYt − Y ∑ X t n ∑ X tYt − Y ∑ X t ∑ X tYt − nY X a= = = ∑ X t2 − X ∑ X t ∑ X t2 − nX 2 ∑(X t =1 t − X )(Yt − Y ) n ∑(X t =1 t − X )2 en résumé on n ∑ X tYt − Y ∑ X t ∑ X tYt − nY X a= = = ∑ X t2 − X ∑ X t ∑ X t2 − nX 2 ∑(X t =1 t − X )(Yt − Y ) n ∑(X t =1 t − X )2 b = Y − aX Prenant le numérateur de a est divisant le par n le nombre d’observation On obtient : Cov( X ; Y ) = ∑(X i − X )(Yi − Y ) 2 n = ∑ X Y − XY i i n : la covariance entre X et Y Prenant aussi le dénominateur de a est divisant le par n on obtient n σ X2 = ∑ ( X i − X )2 i =1 Donc a = n = ∑X i =1 2 i n n Cov( X , Y ) − X 2 La variance de X σ X2 On peut définir de la même façon x = a'y + b' la droite de régression de x en y; avec : a' = Cov( X ; Y ) σ Y2 b’ = X – a’ Y 2 -Coefficient de corrélation linéaire 8 L'objectif ici est de mesurer d'une manière quantitative la liaison linéaire qui peut exister entre deux variables quantitatives. On appelle coefficient de corrélation linéaire la quantité : σxy ρ = -------- -1 < ρ < +1 σx σy • Quand ρ est proche de 0 (> 0 ou < 0) les deux variables sont peu corrélées. • Quand ρ est proche de -1, elles sont fortement corrélées négativement. • Quand ρ est proche de 1, elles sont fortement corrélées positivement. 9 Exemple : Soit le prix Y d’un appartement en fonction de sa surface Numéro Prix (Y) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 Somme X = 82.32 Surface (X) X*X 650 28 1400 50 3250 106 4000 196 1340 55 3950 190 2500 110 1600 60 1250 48 1250 35 1750 86 1500 65 775 32 1225 52 1000 40 7500 260 1625 70 4750 117 1890 90 390 30 1875 105 1000 52 1350 80 1475 60 4950 140 425 20 2475 100 425 28 57570 2305 Y*Y XY 784 422500 18200 2500 1960000 70000 11236 10562500 344500 38416 16000000 784000 3025 1795600 73700 36100 15602500 750500 12100 6250000 275000 3600 2560000 96000 2304 1562500 60000 1225 1562500 43750 7396 3062500 150500 4225 2250000 97500 1024 600625 24800 2704 1500625 63700 1600 1000000 40000 67600 56250000 1950000 4900 2640625 113750 13689 22562500 555750 8100 3572100 170100 900 152100 11700 11025 3515625 196875 2704 1000000 52000 6400 1822500 108000 3600 2175625 88500 19600 24502500 693000 400 180625 8500 10000 6125625 247500 784 180625 277941 191372300 11900 7099725 Y = 2056.07 a = 26.77 b = -147.33 le même exemple traite par un logiciel dont output 10 Statistiques descriptives Prix (Y) Moyenne 2056,07 Ecart-type 1644,342 82,32 57,152 Surface (X) N 28 28 Corrélations Corrélation de Pearson Prix (Y) Signification (unilatérale) Prix (Y) N Surface (X) Surface (X) Prix (Y) 1,000 Surface (X) ,930 ,930 1,000 . ,000 ,000 . Prix (Y) 28 28 Surface (X) 28 28 Récapitulatif du modèle Modèle 1 R R-deux R-deux ajusté Erreur standard de l'estimation ,930(a) ,865 ,860 a Valeurs prédites : (constantes), Surface (X) 614,694 Changement dans les statistiques Variation de R-deux ,865 Variation de F 167,210 ddl 1 ddl 2 1 26 3 – Cas de deux variables quantitatives définies par des intervalles Dans ce cas, on définit un tableau de contingence, sur lequel on calcule la covariance et le coefficient de corrélation linéaire. Exemple : Une société distribue à ses employés une prime de fin d’année en fonction de l’ancienneté et du nombre de jours d’absence dans l’année sous forme de points selon le barème suivant : • Moins de 5 ans d’ancienneté : 1 point • De 5 à 10 ans d’ancienneté : 2 points • Plus de 10 ans d’ancienneté : 3 points Moins de 5 jours d’absence : 2 points Au moins 5 jours d’absence : 0 points Un employé reçoit pour chaque point gagné 1000 Dh de prime. 11 Mod ificat ion de F signi ficati on ,000 Afin d’évaluer le total des primes à verser à la fin de l’année, on tire un échantillon de 10 personnes (10 a été choisi pour simplifier les calculs). Nom Années d’ancienneté Jours d’absence A 7 4 B 2 0 C 3 2 D 9 6 E 8 10 F 4 8 G H 14 16 4 7 I 2 3 J 1 6 1- Etablir le tableau de distribution de la variable X : nombre de points d’ancienneté. Calculer sa moyenne et sa variance. 2- Etablir le tableau de distribution de la variable Y : nombre de points d’assiduité. Calculer sa moyenne et sa variance. 3- Etablir le tableau de contingence donnant la distribution à deux caractères X et Y. Ces caractères sont-ils indépendants. 4- Soit Z = X + Y, établir le tableau de répartition de cette variable. Calculer sa moyenne et sa variance. Déduire les relations qui lient ces caractéristiques à celles des variables X et Y. Solution 1. loi de X Ancienneté - 5 ans X (2.5) ni 5 ni X i 12.5 2 31.25 ni X i [5 10[ (7.5) 3 22.5 168.75 10 et plus (12.5) 2 25 312.5 Somme 10 60 512.5 2. distribution de Y V ( X ) = 15.25 X = 10 Absence Y Moins de 5 jours 2 .5 5 12.5 31.25 ni niYi niYi 2 Y =5 σ X = 3.90 V (Y ) = 6.25 5 jours et plus 7.5 5 37.5 281.25 somme 10 50 312.5 σ Y = 2.5 3. distribution du couple Absence Ancienneté Moins de 5 ans [5 10[ Plus de 10 ans Somme Moins de 5 jours 3 1 1 5 5 jours et plus somme 2 2 1 5 5 3 2 10 12 II. nous examinons la répartition de l’usage d’un logiciel de Gestion Intégrée selon le type de biens concernés. Nous obtenons le tableau de contingence suivant : utilisateurs Biens Intermédiaires Biens de Production Biens de Consommation Biens Agroalimentaires Total Total 317 nonutilisateurs 958 396 188 981 444 1377 632 340 900 1240 1241 3283 4524 1275 1. Complétez le tableau des effectifs théoriques calculés sous l’hypothèse d’indépendance entre les deux facteurs (utilisation d’un progiciel de gestion intégrée et type de bien concerné) : Biens Intermédiaires Biens de Production Biens de Consommation Biens AgroAlimentaires Total utilisateurs non-utilisateurs 349,751 925,249 Total 1275 377,731 999,269 1377 ?? ?? 632 ?? ?? 1240 1241 3283 4524 2. Quelle est la statistique utilisée et sa loi sous l’hypothèse d’indépendance des facteurs ? 3. La valeur trouvée est Δ = 7, 146 et la p-value associée est égale à 6,74%. Peut-on dire, au risque de 10% que l’utilisation d’un progiciel de Gestion Intégrée dépend du type de biens concerné ? Solution 1. complétant le tableau théorique utilisateurs non-utilisateurs Biens 349,751 925,249 Total 1275 13 Intermédiaires Biens de Production Biens de Consommation Biens AgroAlimentaires Total 377,731 999,269 1377 173.367 458.633 632 340.151 899.849 1240 1241 3283 4524 14