Telechargé par atktaou abdellatif

analyse bivariée2010 (2)

publicité
Chapitre I
ANALYSE BIDIMENSIONNELLE
L'analyse bidimensionnelle ou bivariée consiste à étudier conjointement deux
variables. L'objet est de quantifier la relation entre deux ou plusieurs variables
principal, une telle étude essaie de mettre en évidence une éventuelle liaison
statistique qui peut exister entre les deux variables de manière à ce qu’on puisse
expliquer l’une par l’autre.
La mise en évidence permet aussi de spécifier la nature et l’intensité d’une telle
relation.
Dans le cas quantitative on parle d’ajustement ou de régression et de corrélation
Dans le cas qualitative, on parle de tableau de contingence de test de chi-deux,
de coefficient d’association et de corrélation de spearman.
La recherche de combinaison entre deux variables dépend donc de la nature des
variables ; s’agit t’il de variables quantitatives, de variables qualitatives
nominales ou de variables qualitatives ordinales.
Il est évident quelque soit la nature des variables, et quelque soit la nature de la
méthode choisie ; l’objectif et de tirer des conclusions concrètes en relation avec
le problème étudié, un tel problème est fixé au préalable.
I. Combinaison de deux variables qualitatives nominales
Le croisement de deux variables qualitatives nominales définit un tableau de
contingence où les lignes correspondent aux modalités de la variable 1 mise en
lignes et les colonnes correspondent aux modalités de la variables 2 mise en
colonnes. A l'intersection de la ligne i et de la colonne j on trouve nij le nombre
d'individus ayant simultanément la modalité i de la variable 1 et la modalité j de
la variable 2.
Exemple : Soit un échantillon de 240 personnes. Deux variables nominales ont
été relevées :
- Sexe (deux modalités)
- Lieu d'achat du dentifrice (trois modalités)
Masculin
Féminin
n.j
Pharmacie
30
60
90
Ailleurs
90
40
130
NSP
0
20
20
ni.
120
120
240
1
A partir d'un tableau de contingence on peut définir un tableau de fréquences
obtenu en divisant chaque case par l'effectif total n.
soit
fij = nij / n
On définit aussi :
f i. =
f .j =
f .. =
Σj f ij
Σi f ij
Σj f .j = Σi
Fréquences marginales en lignes
Fréquences marginales en colonnes
f i. = 1
La lecture de ce tableau de fréquences permet d'avoir une idée sur la distribution
de l'échantillon sur les deux variables statistiques.
L'analyse numérique effectuée sur un tel tableau vise la mesure de
l'indépendance entre les deux variables X et Y. Cette mesure est donnée par le χ2
qui teste l'existence d'une liaison statistique significative entre les deux
variables.
(n ij - T ij)2
Calcul du χ2 :
Σ
χ2 =
--------------T ij
Les Tij sont les fréquences théoriques calculées sous l'hypothèse d'indépendance
entre les deux variables.
Dans les cas de l'exemple étudié, celles-ci sont données dans le tableau suivant :
Masculin
Féminin
Total
Pharmacie
45
45
90
Application numérique :
Ailleurs
65
65
130
NSP
10
10
20
Total
120
120
240
χ2 = 49, 24
Cette valeur est à comparer avec une valeur théorique donnée par la table de la
loi du Χ2 en fonction du nombre de degrés de liberté ddl et du risque d'erreur
qu'on est prés à tolérer. Le nombre de degrés de liberté est ddl = (L - 1)(C - 1).
Dans ce cas ddl = 2; et pour un risque de 5% la valeur critique du χ2critique = 5,99
Comme la valeur calculée est supérieure à la valeur critique, l'hypothèse de
l'indépendance est donc rejetée au risque de 5%. En définitive, le lieu d'achat de
2
dentifrice ne peut être considéré comme totalement indépendant du sexe de
l'acheteur.
On peut mesurer le degré de dépendance ou d'association entre les deux
variables grâce au coefficient d'association C :
C=
χ2
χ2 + n
Ce coefficient, s'il est toujours nul en cas d'indépendance, il prend dans le cas
d'association parfaite une valeur maximale en fonction des dimensions du
tableau de contingence. Un extrait de la table de ces valeurs maximales est
donné ci-après :
Dimensions du tableau
2x2
2 x3
2x4
2x5
3x3
C max
0,707
0,685
0,730
0,752
0,816
Dimensions du tableau
3x4
3x5
4x4
4x5
4x6
C max
0,786
0,810
0,866
0,863
0,877
Pour notre exemple le Cmax est de 0,685. Pour ramener notre coefficient
d'association sur un intervalle [0;1], on prend sa valeur normalisée 0,4126/0,685
= 0,60. Ce résultat indique une association moyennement importante entre les
deux variables.
III- Combinaison de deux variables qualitatives ordinales
3
Une telle combinaison donne lieu bien évidemment à un tableau de contingence
et la liaison entre les deux variables peut être mesurée par le Χ2. Mais le
caractère ordinale des deux variables peut être pris en considération grâce au
coefficient de Spearman. Ce coefficient donne une idée sur le degré
d’association entre les deux variables définies par des rangs.
Exemple : Sur un échantillon de 24 individus nous avons posé deux questions :
1- Classez par ordre d’importance décroissante les trois qualités suivantes :
Goût
Texture, consistance
Caractéristiques médicales et d’hygiène
2- Pour vous une pâte dentifrice est :
Inutile
Utile
Très utile
Indispensable.
Pour calculer le coefficient de corrélation de Spearman il faut ordonner les 24
réponses en fonction des deux variables.
Soit le tableau condensé des deux variables :
Numéro
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
Goût
3
2
1
3
2
3
1
2
1
2
1
1
1
2
1
3
2
1
2
2
3
3
1
3
Utilité
1
2
1
1
1
1
2
1
1
1
2
3
3
2
-1
3
3
2
1
2
3
3
2
2
4
Pour ordonner les 24 réponses selon le goût et l’utilité il faut résoudre le
problème des ex-aequo. Les neufs réponses qui classent le goût en premier
auront un rang égal à :
1+2+3+4+5+6+7+8+9
45
--------------------------- = ----- = 5
9
9
Ainsi le tableau des classements est le suivant :
Numéro
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
Classemen Classement
t selon le selon l’utilité
goût
21
19
13.5
10.5
5
19
21
19
13.5
19
21
19
5
10.5
13.5
19
5
19
13.5
19
5
10.5
5
3.5
5
3.5
13.5
10.5
5
24
21
3.5
13.5
3.5
5
10.5
13.5
19
13.5
10.5
21
3.5
21
3.5
5
10.5
21
10.5
di
d i2
2
3
14
2
5.5
2
5.5
5.5
14
5.5
5.5
1.5
1.5
3
19
17.5
10
5.5
5.5
3
17.5
17.5
5.5
10.5
4
9
196
4
30.25
4
30.25
30.25
196
30.25
30.25
2.25
2.25
9
361
306.25
100
30.25
30.25
9
306.25
306.25
30.25
110.25
2167.5
Le coefficient de Spearman est donné par :
6 Σ d i2
r = 1 - ------------------- = 0,06
n (n2 – 1)
5
Dans notre exemple r = 0.06. Cette valeur proche de 0 exprime une association
quasi - inexistante entre les deux variables. L’opinion sur l’utilité du dentifrice
n’a donc rien à voir avec celle que l’on peut avoir sur son goût.
I : Combinaison de deux variables quantitatives
Supposons que l’on ait observé deux variables X et Y sur un ensemble de n
individus. On a obtenu n couples (xi, yi). on peut représenter l’ensemble des
points de coordonnées (xi, yi). dans un repère du plan ; c’est ce qu’on appelle
nuage de points. Cette représentation fournit des indicateurs sur d’éventuelles
liaisons entre les deux variables
Exemple : soit la distribution en x et y suivante :
X
Y
1
1
3
2
4
4
6
4
8
5
9
7
11
8
14
9
Représentation graphique du nuage de points
10
9
8
7
6
5
4
3
2
1
0
0
2
4
6
8
10
12
14
1. Ajustement linéaire : Méthode des moindres carrées
Le nuage de points permet de spécifier la forme de la relation , c’est à dire de
trouver la courbe qui ajuste le mieux le nuage de point ainsi représenté. Cette
courbe peut être :
- une droite en parle dans ce cas d’ajustement linéaire
- parabolique en parle d’ajustement non linéaire
L’objectif donc du nuage de point est de trouver la courbe qui passe la plus
proche possible de tous les points.
6
Soit l’équation Yt = aX t + b
Où Y est dite variable endogène c’est une variable interne au système
X est dite exogène c’est une variable externe au système.
La méthode des MCO consiste à minimiser les écarts entre la droite
d’ajustement est le nuage de points.
2
2
e
=
(
Y
−
aX
−
b
)
∑i i i
par rapport a et b.
Les dérivée partielles donnent:
∂ ∑ (et2 )
= -2
aˆ
∑ [X (Y − aX
∂ ∑ (et2 )
= -2
bˆ
∑ (Y − aX
t
t
t
t
t
− b) = 0
− b) = 0
(1)
(2)
Les équations (1) et (2) sot dites les équations normales des moindres
carrées.
Divisant l’équation (2) par n ( le nombre d’observations) :
7
Y − aX − b = 0 ⇒ b = Y − aX
Remplaçant b̂ par sa valeur dans l’équation (2)
∑ X tYt − a ∑ X t2 − ∑ X t (Y − aX ) = 0
a[∑ X t2 − aX ∑ X t = ∑ X tYt − Y ∑ X t
n
∑ X tYt − Y ∑ X t ∑ X tYt − nY X
a=
=
=
∑ X t2 − X ∑ X t
∑ X t2 − nX 2
∑(X
t =1
t
− X )(Yt − Y )
n
∑(X
t =1
t
− X )2
en résumé on
n
∑ X tYt − Y ∑ X t ∑ X tYt − nY X
a=
=
=
∑ X t2 − X ∑ X t
∑ X t2 − nX 2
∑(X
t =1
t
− X )(Yt − Y )
n
∑(X
t =1
t
− X )2
b = Y − aX
Prenant le numérateur de a est divisant le par n le nombre d’observation
On obtient :
Cov( X ; Y ) =
∑(X
i
− X )(Yi − Y ) 2
n
=
∑ X Y − XY
i i
n
: la covariance entre X et Y
Prenant aussi le dénominateur de a est divisant le par n on obtient
n
σ X2 =
∑ ( X i − X )2
i =1
Donc a =
n
=
∑X
i =1
2
i
n
n
Cov( X , Y )
− X 2 La variance de X
σ X2
On peut définir de la même façon x = a'y + b' la droite de régression de x en y;
avec :
a' =
Cov( X ; Y )
σ Y2
b’ = X – a’ Y
2 -Coefficient de corrélation linéaire
8
L'objectif ici est de mesurer d'une manière quantitative la liaison linéaire qui
peut exister entre deux variables quantitatives. On appelle coefficient de
corrélation linéaire la quantité :
σxy
ρ = --------
-1 < ρ < +1
σx σy
• Quand ρ est proche de 0 (> 0 ou < 0) les deux variables sont peu corrélées.
• Quand ρ est proche de -1, elles sont fortement corrélées négativement.
• Quand ρ est proche de 1, elles sont fortement corrélées positivement.
9
Exemple :
Soit le prix Y d’un appartement en fonction de sa surface
Numéro
Prix (Y)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
Somme
X = 82.32
Surface (X) X*X
650
28
1400
50
3250
106
4000
196
1340
55
3950
190
2500
110
1600
60
1250
48
1250
35
1750
86
1500
65
775
32
1225
52
1000
40
7500
260
1625
70
4750
117
1890
90
390
30
1875
105
1000
52
1350
80
1475
60
4950
140
425
20
2475
100
425
28
57570
2305
Y*Y
XY
784
422500
18200
2500
1960000
70000
11236
10562500
344500
38416
16000000
784000
3025
1795600
73700
36100
15602500
750500
12100
6250000
275000
3600
2560000
96000
2304
1562500
60000
1225
1562500
43750
7396
3062500
150500
4225
2250000
97500
1024
600625
24800
2704
1500625
63700
1600
1000000
40000
67600
56250000
1950000
4900
2640625
113750
13689
22562500
555750
8100
3572100
170100
900
152100
11700
11025
3515625
196875
2704
1000000
52000
6400
1822500
108000
3600
2175625
88500
19600
24502500
693000
400
180625
8500
10000
6125625
247500
784
180625
277941 191372300
11900
7099725
Y = 2056.07
a = 26.77 b = -147.33
le même exemple traite par un logiciel dont output
10
Statistiques descriptives
Prix (Y)
Moyenne
2056,07
Ecart-type
1644,342
82,32
57,152
Surface (X)
N
28
28
Corrélations
Corrélation de
Pearson
Prix (Y)
Signification
(unilatérale)
Prix (Y)
N
Surface (X)
Surface (X)
Prix (Y)
1,000
Surface (X)
,930
,930
1,000
.
,000
,000
.
Prix (Y)
28
28
Surface (X)
28
28
Récapitulatif du modèle
Modèle
1
R
R-deux
R-deux ajusté
Erreur
standard de
l'estimation
,930(a)
,865
,860
a Valeurs prédites : (constantes), Surface (X)
614,694
Changement dans les statistiques
Variation
de R-deux
,865
Variation de F
167,210
ddl 1
ddl 2
1
26
3 – Cas de deux variables quantitatives définies par des intervalles
Dans ce cas, on définit un tableau de contingence, sur lequel on calcule la
covariance et le coefficient de corrélation linéaire.
Exemple : Une société distribue à ses employés une prime de fin d’année en
fonction de l’ancienneté et du nombre de jours d’absence dans
l’année sous forme de points selon le barème suivant :
• Moins de 5 ans d’ancienneté :
1 point
• De 5 à 10 ans d’ancienneté :
2 points
• Plus de 10 ans d’ancienneté :
3 points
™ Moins de 5 jours d’absence :
2 points
™ Au moins 5 jours d’absence :
0 points
Un employé reçoit pour chaque point gagné 1000 Dh de prime.
11
Mod
ificat
ion
de F
signi
ficati
on
,000
Afin d’évaluer le total des primes à verser à la fin de l’année, on tire un
échantillon de 10 personnes (10 a été choisi pour simplifier les calculs).
Nom
Années d’ancienneté
Jours d’absence
A
7
4
B
2
0
C
3
2
D
9
6
E
8
10
F
4
8
G H
14 16
4 7
I
2
3
J
1
6
1- Etablir le tableau de distribution de la variable X : nombre de points
d’ancienneté. Calculer sa moyenne et sa variance.
2- Etablir le tableau de distribution de la variable Y : nombre de points
d’assiduité. Calculer sa moyenne et sa variance.
3- Etablir le tableau de contingence donnant la distribution à deux caractères X
et Y. Ces caractères sont-ils indépendants.
4- Soit Z = X + Y, établir le tableau de répartition de cette variable. Calculer sa
moyenne et sa variance. Déduire les relations qui lient ces caractéristiques à
celles des variables X et Y.
Solution
1. loi de X
Ancienneté
- 5 ans
X
(2.5)
ni
5
ni X i
12.5
2
31.25
ni X i
[5 10[
(7.5)
3
22.5
168.75
10 et plus
(12.5)
2
25
312.5
Somme
10
60
512.5
2. distribution de Y
V ( X ) = 15.25
X = 10
Absence
Y
Moins de 5 jours
2 .5
5
12.5
31.25
ni
niYi
niYi 2
Y =5
σ X = 3.90
V (Y ) = 6.25
5 jours et plus
7.5
5
37.5
281.25
somme
10
50
312.5
σ Y = 2.5
3. distribution du couple
Absence
Ancienneté
Moins de 5 ans
[5 10[
Plus de 10 ans
Somme
Moins de 5
jours
3
1
1
5
5 jours et plus somme
2
2
1
5
5
3
2
10
12
II. nous examinons la répartition de l’usage d’un logiciel de Gestion Intégrée
selon le type de biens concernés. Nous obtenons le tableau de contingence
suivant :
utilisateurs
Biens
Intermédiaires
Biens de Production
Biens de
Consommation
Biens Agroalimentaires
Total
Total
317
nonutilisateurs
958
396
188
981
444
1377
632
340
900
1240
1241
3283
4524
1275
1. Complétez le tableau des effectifs théoriques calculés sous l’hypothèse
d’indépendance entre les deux facteurs (utilisation d’un progiciel de
gestion intégrée et type de bien concerné) :
Biens
Intermédiaires
Biens de
Production
Biens de
Consommation
Biens AgroAlimentaires
Total
utilisateurs non-utilisateurs
349,751
925,249
Total
1275
377,731
999,269
1377
??
??
632
??
??
1240
1241
3283
4524
2. Quelle est la statistique utilisée et sa loi sous l’hypothèse d’indépendance
des facteurs ?
3. La valeur trouvée est Δ = 7, 146 et la p-value associée est égale à 6,74%.
Peut-on dire, au risque de 10% que l’utilisation d’un progiciel de Gestion
Intégrée dépend du type de biens concerné ?
Solution
1. complétant le tableau théorique
utilisateurs non-utilisateurs
Biens
349,751
925,249
Total
1275
13
Intermédiaires
Biens de
Production
Biens de
Consommation
Biens AgroAlimentaires
Total
377,731
999,269
1377
173.367
458.633
632
340.151
899.849
1240
1241
3283
4524
14
Téléchargement