Cours #2

publicité
Statistique 51-601-02
Cours #2 et #3
Avons-nous des conditions
gagnantes?
Prise de décision à partir d’inférence
Bien souvent, une décision se prend à la suite
d’une analyse quantitative de certains
paramètres.
Exemples:
 Deux concepts publicitaires vous sont proposés
pour lancer un nouveau produit. Vous choisirez
celui qui obtiendra le meilleur score d’efficacité
dans votre marché cible.
 Si la résistance ou durabilité moyenne d’un
nouveau produit est significativement plus
grande que celle du meilleur produit concurrent,
vous mettrez ce produit sur le marché.
 Si les « conditions gagnantes » sont réunies et
que plus de 50% des Québécois votaient oui à
un référendum sur la souveraineté, alors Bernard
Landry prendrait la décision d ’en faire un.
2
En général, les paramètres qui nous
intéressent sont estimés à l ’aide d ’un
échantillon et notre décision sera prise à la
suite d’un test d’hypothèse.
 Exemple:
On demande à 1000 Québécois,
choisit au hasard et ayant le droit de
vote, s ’ ils voteraient oui,
aujourd’hui, à un référendum sur la
souveraineté du Québec.
3
Que fait Bernard Landry si:
 432 électeurs votaient oui?
 (432/1000 = 43,2%)
 il ne fait définitivement pas un référendum.
 517 électeurs votaient oui?
 (517/1000 = 51,7%)
 est-ce que 51,7 % est significativement plus grand que 50%?
 612 électeurs votaient oui?
 (612/1000 = 61,2%)
 61.2% est fort probablement significativement plus grand que
50%. Donc il prend la décision de faire un référendum sur la
souveraineté du Québec.
4
Notions de base des tests
d’hypothèses
 Pour nous aider à prendre une décision (surtout
dans le cas 2 de la diapositive précédente), nous
essayerons de quantifier le terme
«significativement différent », statistiquement
parlant, en y associant une probabilité d’erreur.
 En d’autres termes, nous voulons savoir, à partir
des résultats obtenus dans l ’échantillon, quelle est
la probabilité que le Premier Ministre a de se
tromper en prenant la décision de faire un
référendum sur la souveraineté.
5
Notions de base des tests
d’hypothèses (suite)
 Si la probabilité de se tromper est petite
(disons inférieure à 5%, par exemple) alors
il prendra la décision de faire un
référendum sur la souveraineté bientôt.
 Si cette probabilité est grande (disons
supérieure à 5%, par exemple) alors il
attendra encore un certain temps pour
avoir des « conditions gagnantes » et faire
un référendum .
6
Notions de base des tests
d’hypothèses (suite)
• Il y a essentiellement deux possibilités:
 50% ou moins des électeurs voteraient oui si un
référendum avait lieu aujourd’hui;
 plus de 50% des électeurs voteraient oui.
 La première possibilité est appelée hypothèse
nulle (notée H0).
 La deuxième possibilité est appelée la contrehypothèse (notée H1).
7
Notation:
 Soit « p » la vraie proportion d’électeurs qui
voteraient oui à un référendum, alors on a les deux
possibilités suivantes:
 H0: p  50% vs
H1: p > 50%
 Règle générale, la contre-hypothèse est ce que l’on
veut montrer « hors de tout doute raisonnable! » c.à-d. on veut que la probabilité de se tromper en
prenant la décision H1, à partir des résultats de
l ’échantillon, soit petite.
8
Les erreurs possibles lors d’une prise de
décision à partir d ’un échantillon:
 Erreur de Type I:
 Rejeter H0 en faveur de H1 (c.-à-d. prendre la décision H1)
lorsque en réalité H0 est vraie.
 La probabilité d ’une erreur de Type I est la probabilité qu’on
a d ’observer la « valeur » obtenue dans notre échantillon,
ou une valeur encore plus « éloignée » de H0 , si H0 est
vraie. Cette probabilité est souvent appelée «p-value » dans
le jargon statistique.
 Erreur de Type II:
 Ne pas rejeter H0 en faveur de H1 lorsque en réalité H1 est
vraie.
9
Est-ce que l’accusé est
coupable ou non coupable?
Vérité
H0
non
coupable
Décision
du jury
H0
non
coupable
H1
coupable
H1
coupable

Erreur
de
Type II
Erreur
de
Type I

10
Contrôle des erreurs de Type I et II
 Étant donné les résultats obtenus dans
l ’échantillon, je calcule la probabilité de
commettre une erreur de Type I (p-value).
 Si cette probabilité est relativement petite (p-
value < 5% par exemple), alors on rejettera
H0 pour prendre la décision H1. Sinon on ne
rejettera pas H0.
11
P-value
 Mesure la confiance que l’on a en H0
 Une petite value de la p-value indique que vous
devriez être moins confiant en H0
 Combien la p-value doit-elle être petite pour
rejeter H0 en faveur de H1?
 Cela dépend de vous…
12
Contrôle des erreurs de Type I et II
(suite)
 Pour une erreur de Type I fixée à l’avance
(ex. 5%), on contrôle l’erreur de Type II avant
de mener l ’étude à l’aide de la taille de
l’échantillon.
 On définit la puissance d’un test d’hypothèse
comme la quantité:
(1- probabilité de commettre une erreur de Type II).
13
Dans les prochaines minutes, nous
verrons cinq tests statistiques de base:
1. test sur une proportion
2. test sur une moyenne
3. test sur la différence entre deux
proportions
4. test sur la différence entre deux
moyennes pour deux échantillons
indépendants
5. test sur la différence entre deux
moyennes pour un même échantillon
14
1. Test sur une proportion:
Exemple:
Il y a deux ans, une entreprise a mis sur
le marché un nouveau produit. La
direction de l’entreprise envisage
d’augmenter les dépenses publicitaires
pour ce produit si moins de 70% de la
population connaît le produit.
15
Quelles sont les hypothèses possibles que
nous voulons confronter?
Soit « p » la vraie proportion d’individus dans la
population qui connaissent le produit et « p0 » la
valeur qui correspond à notre hypothèse ou prise de
décision (p0 = 70% dans l’exemple précédent). On a
le choix entre:

H0 : p  p0 vs H1 : p > p0 (test unilatéral à droite)

H0 : p  p0 vs H1 : p < p0 (test unilatéral à gauche)

H0 : p = p0 vs H1 : p  p0 (test bilatéral)
16
Procédure :
On prélève un échantillon de n individus dans la
population cible, et on calcule la proportion d’individus
qui connaissent le produit.
On rejettera l’hypothèse nulle H0, au niveau , si on a
suffisamment de preuve contre celle-ci, c.-à-d.
suffisamment d’évidence en faveur de la contrehypothèse H1, c.-à-d. p-value < .
17
La statistique du test est donné par:
Si l’hypothèse nulle H0 est vraie et que la taille de
l’échantillon est grande, la statistique z suivra
approximativement une loi normale avec moyenne
0 et variance 1 [ notée N(0,1) ].
18
Afin de prendre une décision, on calcule le seuil
expérimental (p-value), c.-à-d. la probabilité de
commettre une erreur de Type I.
 Test unilatéral à droite:
 p-value = Prob[N(0,1) > z]
 Test unilatéral à gauche:
 p-value = Prob[N(0,1) < z]
 Test bilatéral:
 p-value = 2 x Prob[N(0,1) > |z|]
 Pur le calculs nous utiliserons proportion-
1t.xls
19
L’entreprise commande une enquête
téléphonique auprès de 500 personnes faisant
partie de la population cible.
 372 individus répondent qu’ils connaissent le
produit (372/500 = 74,4%).
H0: p = 70% vs H1: p  70%

 p-value = 2xProb[N(0,1) > |2,147|] =
0,031793
On rejettera H0 au niveau 5%.
De plus, puisque 74.4% > 70%, on prendra
la décision de réduire le budget publicitaire
pour ce produit.
20
Correspondance entre le test bilatéral et
l ’intervalle de confiance:
 Intervalle de confiance au niveau 95% pour la proportion
d’individus dans la population qui connaissent le produit :
 I.C. au niveau 95% : (0,706 ; 0,782)
 Puisque l ’intervalle de confiance au niveau 95% ne contient
pas la valeur p0 = 70% , on rejettera H0 au niveau 5%.
 En affirmant que la vraie proportion des gens qui
connaissent le produit se situe entre 70,6% et 78,2%, on a
seulement 5% de chance de se tromper.
21
Exemple des intentions de vote:
 On demande à 1000 Québécois, choisit au hasard et ayant le
droit de vote, s ’ils voteraient oui aujourd’hui à un référendum
sur la souveraineté. Dans l ’échantillon, 517 électeurs
répondent qu’ils voteraient oui.
 H0: p  50% vs
H1: p > 50%

 p-value = 0.1411
 On ne rejettera pas H0 au niveau 5%
 Bernard Landry ne fera pas de référendum prochainement
22
Exemple des intentions de vote:
 On demande à 1000 Québécois, choisit au hasard et ayant le
droit de vote, s ’ils voteraient oui aujourd’hui à un référendum
sur la souveraineté. Dans l ’échantillon, 612 électeurs
répondent qu’ils voteraient oui.
 H0: p  50% vs
H1: p > 50%

 p-value = 7.08E-13
 On rejettera H0 au niveau 5%
 Bernard Landry ferait un référendum prochainement.
23
Test vs intervalle de confiance
 Tester H0 : p = p0 vs H1 : p  p0 revient à
construire un intervalle de confiance pour
p0.
 On rejette H0 si p0 n’est pas dans
l’intervalle.
24
2. Test sur une moyenne
 Exemple:
Vous êtes en charge du département qui fabrique
et met en sac de 170 grammes la marque de chips
Lay’s. Pour vérifier si le procédé de remplissage
se maintient à 170 grammes, en moyenne, chaque
jour un de vos employés est responsable de
prélever un échantillon aléatoire de 100 sacs et le
poids moyen de l ’échantillon est calculé. Le
procédé de remplissage sera arrêté si le poids
moyen est significativement différent de 170
grammes.
25
Quelles sont les hypothèses possibles
que nous voulons confronter?
Soit «  » la vraie moyenne d ’une caractéristique dans la population. Cette
moyenne est inconnue, de même que la variance 2. Soit « 0 » la valeur de
la moyenne qui correspond à notre hypothèse ou prise de décision ( 0 =
170g dans l’exemple précédent). On a le choix entre:
 H0 :   0 vs H1 :  > 0 (test unilatéral à droite)
 H0 :   0 vs H1 :  < 0 (test unilatéral à gauche)
 H0 :  = 0 vs H1 :   0
(test bilatéral)
26
Procédure:
On prélève un échantillon de taille n dans la
population cible et on calcule la moyenne et
l’écart type s.
On rejettera l’hypothèse nulle H0, au niveau , si
on a suffisamment de preuve contre celle-ci, c.-àd. suffisamment d’évidence en faveur de la la
contre-hypothèse H1, c.-à-d. p-value < .
27
La statistique du test est donné par:
Si l’hypothèse nulle H0 est vraie, la
statistique t suivra une loi de Student
avec n-1 degrés de liberté [ notée t(n1) ].
28
Afin de prendre une décision, on calcule le seuil
expérimental (p-value), c.-à-d. la probabilité de
commettre une erreur de Type I.
 Test unilatéral à droite:
 p-value=Prob[ t(n-1) > t ]
 Test unilatéral à gauche:
 p-value=Prob[ t(n-1) < t ]
 Test bilatéral:
 p-value= 2 x Prob[ t(n-1) > |t| ]
 Intervalle de confiance pour  au niveau (1-)
 Nous calculerons la p-value avec moyenne-1t.xls
29
Exemple:
 La moyenne de l’échantillon de 100 sacs de chips est
de 169,9 grammes et l’écart type s =0,27.
H0:  = 170g vs
H1:   170g
p-value = 0,0003
On rejettera H0 ici sans avoir peur de se tromper!
Intervalle de confiance pour  au niveau 95%:

[169,846 ; 169,953]
L ’intervalle ne contient pas la valeur 170  on
rejette H0 au niveau 5%
30
 Si la moyenne de l’échantillon de 100 sacs de chips
est de 170.011 grammes et l’écart type s = 0,27.
H0:  = 170g vs
H1:   170g
p-value = 0,69
On ne rejettera pas H0
Intervalle de confiance pour  au niveau 95%:
 [169,957 ; 170,064]
L’intervalle contient la valeur 170  on ne rejette
pas H0 au niveau 5%
31
Test vs intervalle de confiance
 Tester H0 :  = 0 vs H1 :   0 revient à
construire un intervalle de confiance pour
0.
 On rejette H0 si 0 n’est pas dans
l’intervalle.
32
Étude de cas
 Le salaire annuel moyen d'un groupe de
travailleurs d'une ville est de 45000$. Lors de
la négociation d'une nouvelle convention
collective, vous affirmez que votre groupe
d'employés est moins bien payé que dans les
autres villes.
 On décide alors de tester cette hypothèse. Si
vous avez raison, en prenant un risque de 5%,
la ville fera en sorte que vous ne soyez plus
sous-payés.
33
Étude de cas (suite)
 On choisit au hasard 50 villes comparables et on note
pour chacune le salaire annuel moyen. La moyenne
des résultats est de 50000$, et l'écart type des salaires
est de 16000$.
 a) Quelle est la probabilité critique?
 b) Quelle est votre conclusion?
 c) La ville vous propose d'augmenter le salaire annuel
moyen à 46500$. Le négociateur a-t-il respecté sa
promesse?
34
3. Test sur la différence entre deux
proportions
 Exemple:
Dans deux municipalités avoisinantes, on
a effectué un sondage pour connaître
l’opinion des contribuables sur
l ’aménagement d ’un site pour
l ’enfouissement des déchets. Si une
municipalité a une proportion de
contribuables en faveur significativement
plus élevée que dans l ’autre municipalité,
alors le site sera fort probablement
aménagé dans cette municipalité.
35
Quelles sont les hypothèses possibles
que nous voulons confronter?
Soit « p1 » la vraie proportion d’individus en faveur
dans la population 1 et « p2 » la vraie proportion
d’individus en faveur dans la population 2. On a le
choix entre:

H0 : p1  p2 vs H1 : p1 > p2 (test unilatéral)

H0 : p1  p2 vs H1 : p1 < p2 (test unilatéral)

H0 : p1 = p2 vs H1 : p1  p2 (test bilatéral)
36
On prélève un échantillon aléatoire de taille
n1 dans la population 1 et de taille n2 dans la
population 2.
On rejettera l’hypothèse nulle H0, au niveau , si
on a suffisamment de preuve contre celle-ci, c.à-d. suffisamment d’évidence en faveur de la
contre-hypothèse H1, c.-à-d. p-value < .
La statistique du test est donné par:
37
où
 Si l’hypothèse nulle H0 est vraie et que les tailles des
deux échantillons sont suffisamment grandes, la
statistique du test z suivra approximativement une loi
normale avec moyenne 0 et variance 1.
 Ceci nous sert à calculer le « p-value » afin de
prendre notre décision.
38
 Un échantillon de 150 individus ont répondu au
sondage dans la municipalité 1 et 84 étaient en
faveur (56%) tandis que 124 individus ont
répondu dans la municipalité 2 et 62 étaient en
faveur (50%).
 H0 : p1 = p2 vs H1 : p1  p2 (test bilatéral)
p-value = 2xProb[N(0,1) > |0,99|] = 0,322
On ne rejettera pas H0 au niveau 5%
39
4. Test sur la différence entre
deux moyennes
 Exemple:
Un nouveau procédé technique a été
recommandé par une firme de
consultants pour réduire le niveau de
pollution de l ’air dans l ’environnement
d ’une usine. L ’objectif est de réduire le
taux de monoxide de carbone dans
l ’air. Des essais indépendants ont été
effectués avec le procédé actuel et le
nouveau produit.
40
Quelles sont les hypothèses possibles
que nous voulons confronter?
Soit « 1 » la vraie moyenne de la caractéristique
dans la population 1 et « 2 » la vraie moyenne de
la caractéristique dans la population 2. On a le
choix entre:

H0 : 1  2 vs H1 : 1 > 2 (test unilatéral)

H0 : 1  2 vs H1 : 1 < 2 (test unilatéral)

H0 : 1 = 2 vs H1 : 1  2 (test bilatéral)
41
On prélève un échantillon aléatoire de taille
n1 dans la population 1 et , de taille n2 dans
la population 2.
On rejettera l’hypothèse nulle H0, au niveau , si
on a suffisamment de preuve contre celle-ci, c.à-d. suffisamment d’évidence en faveur de la
contre-hypothèse H1, c.-à-d. p-value < .
1) Cas où les variances des 2 populations sont
égales
La statistique du test est donné par:
42
2) Cas où les variances des 2
populations sont inégales
La statistique du test est donné par:
Si l’hypothèse nulle H0 est vraie, la
statistique du test t suivra une loi de
Student.
Ceci nous sert à calculer le « p-value »
afin de prendre notre décision.
43
La firme de consultants a fait 48 essais avec le procédé
actuel et 55 avec le nouveau produit. Voici les résultats:
1) Test pour l ’égalité des variances:
Le p-value pour le test bilatéral d ’égalité des variances est égal à
2x0,000049 = 0,000098 => on rejette l ’hypothèse d ’égalité des
variances.
44
2) Test pour l ’égalité des moyennes lorsque les
variances sont inégales:
H0 : actuel  nouveau vs H1 : actuel > nouveau
45
5.
Test sur la différence de deux
moyennes pour un même échantillon
Exemple:
La directrice des ressources humaines d ’une entreprise veut
suggérer à la direction de mettre en œuvre un programme
spécial d ’apprentissage pour les employés affectés au
département d ’assemblage. Pour évaluer l ’efficacité de ce
programme d ’une durée de 3 semaines, on a choisit au
hasard 15 employés et on a observé le nombre de pièces
assemblées durant une certaine période de temps. Par la
suite, ces 15 employés ont suivi le programme
d ’apprentissage et on a observé à nouveau le nombre de
pièces assemblées durant la même période de temps.
46
Les résultats obtenus se présentent comme suit
(hr.xls) :
individu
avant
après
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
15
13
8
9
7
12
11
12
11
9
10
12
11
7
12
17
16
10
9
9
13
14
15
14
11
14
11
13
10
13
différence
2
3
2
0
2
1
3
3
3
2
4
-1
2
3
1
47
Les résultats de l ’analyse statistique à l ’aide de
Excel se présentent comme suit:
48
Ce test est équivalent au test sur une moyenne pour
la variable différence entre après et avant:
Test T pour une moyenne (sigma inconnu)
X-bar Mu0
n
s
Statistique t
2
0
15
1,309
5,917
p-value
Niveau de IC: borne inf. IC: borne sup.
test bilatéral
confiance
0,0000
95,0%
1,3
2,7
p-value
pour H1: Mu > Mu0
0,0000
p-value
pour H1: Mu < Mu0
1,0000
Donc, la productivité moyenne est significativement supérieure
après le programme. Si les coûts du programme d’apprentissage
sont moindres que les gains en productivité, alors on adoptera le
programme.
49
Analyse de données
qualitatives
Exemple:
Une étude a été effectuée par le département
des ressources humaines d’une grande
entreprise multinationale sur le niveau de
satisfaction des employés par rapport à leur
emploi.
Un total de 527 employés ont participé à cet
étude.
51
Voici, sous forme de tableau, les résultats
obtenus:
EMPLOI(emploi)
SATIS(satisfaction)
Fréquence
|non
|satisfait| Total
|satisfait|
|
--------------------------------------------professionnel/
|
17 |
62 |
79
cadre
|
|
|
--------------------------------------------col blanc
|
50 |
112 |
162
--------------------------------------------col bleu
|
99 |
187 |
286
--------------------------------------------Total
|
166 |
361 |
527
52
Question: est-ce qu’il y a un lien entre le
type d’emploi et la satisfaction dans cette
entreprise?
 La variable « type d ’emploi » est une
variable qualitative à trois niveaux c.-à-d. à
trois catégories.
 La variable « satisfaction » est également
qualitative dans cet exemple et à deux
niveaux.
53
Il est plus facile de répondre à la question, de façon
descriptive, avec des pourcentages:
EMPLOI(emploi)
SATIS(satisfaction)
Fréquence
%
% ligne
% colonne
|
|
|
|non
|satisfait| Total
|satisfait|
|
--------------------------------------------professionnel/
|
17 |
62 |
79
cadre
|
3.23 | 11.76 | 14.99
| 21.52 | 78.48 |
| 10.24 | 17.17 |
--------------------------------------------col blanc
|
50 |
112 |
162
|
9.49 | 21.25 | 30.74
| 30.86 | 69.14 |
| 30.12 | 31.02 |
--------------------------------------------col bleu
|
99 |
187 |
286
| 18.79 | 35.48 | 54.27
| 34.62 | 65.38 |
| 59.64 | 51.80 |
--------------------------------------------Total
|
166 |
361
|
527
| 31.50 |
68.50 | 100.00
54
Les tableaux croisés permettent:
 de synthétiser et présenter l’information
 de décrire la présence ou l’absence de lien entre
deux variables qualitatives (nominales et/ou
ordinales)
 de vérifier, à l’aide d’un test d’hypothèse, s’il
existe un lien statistiquement significatif entre
deux variables qualitatives
55
Les deux hypothèses possibles que l’on veut
confronter sont:
H0: Il n ’y a pas de lien entre les deux variables qualitatives
c.-à-d. les deux variables sont indépendantes
H1: Il y a un lien entre les deux variables qualitatives
c.-à-d. les deux variables sont dépendantes
Lorsque les deux variables sont indépendantes, la
distribution des pourcentages des catégories d’une variable
est identique (semblable) pour chaque catégorie de l’autre
variable.
56
Pour illustrer le concept du test d’indépendance entre deux variables
qualitatives, reprenons notre exemple et supposons que nous avons les
effectifs suivants afin de faciliter les calculs:
EMPLOI(emploi)
SATIS(satisfaction)
Fréquence
|non
|satisfait| Total
|satisfait|
|
--------------------------------------------professionnel/
|
0
|
100
|
100
cadre
|
|
|
--------------------------------------------col blanc
|
100
|
200
|
300
--------------------------------------------col bleu
|
300
|
300
|
600
--------------------------------------------Total
|
400
|
600
|
1000
57
La distribution des pourcentages est:
EMPLOI(emploi)
SATIS(satisfaction)
Fréquence
%
% ligne
% colonne
‚
‚
‚
‚non
‚satisfait‚ Total
‚satisfait‚
‚
--------------------------------------------professionnel/
‚
0 ‚
100 ‚
100
cadre
‚
0.00 ‚ 10.00 ‚ 10.00
‚
0.00 ‚ 100.00 ‚
‚
0.00 ‚ 16.67 ‚
--------------------------------------------col blanc
‚
100 ‚
200 ‚
300
‚ 10.00 ‚ 20.00 ‚ 30.00
‚ 33.33 ‚ 66.67 ‚
‚ 25.00 ‚ 33.33 ‚
--------------------------------------------col bleu
‚
300 ‚
300 ‚
600
‚ 30.00 ‚ 30.00 ‚ 60.00
‚ 50.00 ‚ 50.00 ‚
‚ 75.00 ‚ 50.00 ‚
--------------------------------------------Total
400
600
1000
40.00
60.00
100.00
58
Dans le tableau précédent, les deux variables
sont dépendantes car:
 pour chaque type d’emploi, la distribution de la
satisfaction des employés est différente. En effet, 100%
des professionnels/cadres sont satisfaits
comparativement à 67% pour les cols blancs et
seulement 50% pour les cols bleus (% ligne);
 ou bien, pour chaque catégorie de satisfaction, la
distribution du type d’emploi est différente. En effet, chez
les non satisfaits, 0% sont professionnels/cadres, 25% col
blanc et 75% col bleu, comparativement à 17%, 33% et
50% respectivement chez les satisfaits (% colonne).
59
Dans le cas où les deux variables seraient complètement indépendantes,
nous aurions les fréquences suivantes dans les cellules du tableau
(remarque: les totaux pour les lignes et les colonnes sont inchangés):
EMPLOI(emploi)
SATIS(satisfaction)
Fréquence
|non
|satisfait| Total
|satisfait|
|
---------------------------------------------professionnel/
|
40
|
60
|
100
cadre
|
|
|
---------------------------------------------col blanc
|
120
|
180
|
300
---------------------------------------------col bleu
|
240
|
360
|
600
---------------------------------------------Total
|
400
|
600
|
1000
60
La distribution des pourcentages est:
EMPLOI(emploi)
SATIS(satisfaction)
Fréquence
%
% ligne
% colonne
‚
‚
‚
‚non
‚satisfait‚ Total
‚satisfait‚
‚
--------------------------------------------professionnel/
‚
40 ‚
60 ‚
100
cadre
‚
4.00 ‚
6.00 ‚ 10.00
‚ 40.00 ‚ 60.00 ‚
‚ 10.00 ‚ 10.00 ‚
--------------------------------------------col blanc
‚
120 ‚
180 ‚
300
‚ 12.00 ‚ 18.00 ‚ 30.00
‚ 40.00 ‚ 60.00 ‚
‚ 30.00 ‚ 30.00 ‚
--------------------------------------------col bleu
‚
240 ‚
360 ‚
600
‚ 24.00 ‚ 36.00 ‚ 60.00
‚ 40.00 ‚ 60.00 ‚
‚ 60.00 ‚ 60.00 ‚
--------------------------------------------Total
400
600
1000
40.00
60.00
100.00
61
Dans le tableau précédent, les deux variables
sont indépendantes car:
 pour chaque type d’emploi, la distribution de la
satisfaction des employés est la même, c.-à-d.
60% des employés sont satisfaits et 40% sont
non satisfaits (% ligne).
 ou bien, pour chaque catégorie de satisfaction,
la distribution du type d’emploi est la même, c.à-d. 10% sont professionnel/cadre, 30% col
blanc et 60% col bleu (% colonne).
62
 Les cellules ij du tableau précédent sont
composées de fréquences « théoriques », c.-à-d.
les fréquences qu’on devrait avoir si les deux
variables étaient parfaitement indépendantes.
 Si l’hypothèse d ’indépendance est vraie, les
fréquences théoriques pour chaque cellule du
tableau croisé sont trouvées comme suit:
 fthéo cellule ij = (total rangée i) x (total colonne j) / total
63
 Tester l’indépendance entre deux variables
qualitatives revient à tester la différence entre
les fréquences observées et les fréquences
théoriques.
 Si les deux variables sont indépendantes, les
fréquences observées devraient être proche
des fréquences théoriques.
 La statistique du test est donnée par:
2obs = somme [(fobs-fthéo)2/fthéo]
64
 On rejettera l’hypothèse d’indépendance si la valeur de la
statistique 2obs est grande.
 Le calcul du seuil expérimental (p-value) se fait à l’aide de
la loi de probabilité du khi-deux avec le nombre de degrés
de liberté donné par
(#lignes-1)x(#colonnes-1)
dans le tableau croisé.
 Remarque: ce test est valide seulement pour les grands
échantillons, c.-à-d. lorsque toutes les fréquences
théoriques sont  5 (ou presque).
 On peut démontrer que 0  2obs  n(m-1), où
m=minimum (# lignes, # colonnes).
65
 La valeur de la statistique 2obs vaut 0 lorsque les deux variables
sont parfaitement indépendantes. Elle atteint sa borne supérieure
lorsqu’une dépendance fonctionnelle lie une des variables à l’autre.
 Le coefficient de Cramer se définit à partir de la statistique 2obs et
sert à mesurer l’intensité du lien de dépendance entre deux
variables qualitatives dans un tableau de contingence (croisé).
 Coefficient de Cramer:
 Si les deux variables sont indépendantes, V= 0 ; si une des
variables dépend fonctionnellement de l ’autre, V= 1.
66
Exemple: dépendance (lien fonctionnel)
EMPLOI(emploi)
SATIS(satisfaction)
Fréquence
‚non
‚satisfait‚ Total
% ligne
‚satisfait‚
‚
--------------------------------------------professionnel/
‚
0 ‚
100 ‚
100
cadre
‚
0.00 ‚ 100.00 ‚
--------------------------------------------col blanc
‚
0 ‚
300 ‚
300
‚
0.00 ‚ 100.00 ‚
--------------------------------------------col bleu
‚
600 ‚
0 ‚
600
‚ 100.00 ‚
0.00 ‚
--------------------------------------------Total
600
400
1000
Statistique
DL
Valeur
P-value
-----------------------------------------------Khi-deux
2
1000.000
0.000
67
Exemple: indépendance
EMPLOI(emploi)
SATIS(satisfaction)
Fréquence
‚non
‚satisfait‚ Total
% ligne
‚satisfait‚
‚
--------------------------------------------professionnel/
‚
40 ‚
60 ‚
100
cadre
‚ 40.00 ‚ 60.00 ‚
--------------------------------------------col blanc
‚
120 ‚
180 ‚
300
‚ 40.00 ‚ 60.00 ‚
--------------------------------------------col bleu
‚
240 ‚
360 ‚
600
‚ 40.00 ‚ 60.00 ‚
--------------------------------------------Total
400
600
1000
Statistique
DL
Valeur
P-value
--------------------------------------------------Khi-deux
2
0.000
1.000
68
Exemple:
EMPLOI(emploi)
SATIS(satisfaction)
Fréquence obs.
Fréquence théo.
%
% ligne
% colonne
‚
‚
‚
‚
‚non
‚satisfait‚ Total
‚satisfait‚
‚
--------------------------------------------professionnel/
‚
17 ‚
62 ‚
79
cadre
‚ 24.884 ‚ 54.116 ‚
‚
3.23 ‚ 11.76 ‚ 14.99
‚ 21.52 ‚ 78.48 ‚
‚ 10.24 ‚ 17.17 ‚
--------------------------------------------col blanc
‚
50 ‚
112 ‚
162
‚ 51.028 ‚ 110.97 ‚
‚
9.49 ‚ 21.25 ‚ 30.74
‚ 30.86 ‚ 69.14 ‚
‚ 30.12 ‚ 31.02 ‚
--------------------------------------------col bleu
‚
99 ‚
187 ‚
286
‚ 90.087 ‚ 195.91 ‚
‚ 18.79 ‚ 35.48 ‚ 54.27
‚ 34.62 ‚ 65.38 ‚
‚ 59.64 ‚ 51.80 ‚
--------------------------------------------Total
166
361
527
31.50
68.50
100.00
69
Résultats du test statistique: (obtenu
avec tc.xls)
Statistique du chi-deux:
Degrés de liberté:
P-value:
4.964
2
0.084
Donc, on ne rejettera pas l’hypothèse
d ’indépendance au niveau =5% car le
« p-value » est > 5%.
70
Qu ’arrive-t-il au « p-value » si la taille de l ’échantillon augmente mais que
les distributions sont les mêmes?
EMPLOI(emploi)
SATIS(satisfaction)
Fréquence obs.
Fréquence théo.
%
% ligne
% colonne
‚
‚
‚
‚
‚non
‚satisfait‚ Total
‚satisfait‚
‚
--------------------------------------------professionnel/
‚
34 ‚
124 ‚
158
cadre
‚ 49.769 ‚ 108.23 ‚
‚
3.23 ‚ 11.76 ‚ 14.99
‚ 21.52 ‚ 78.48 ‚
‚ 10.24 ‚ 17.17 ‚
--------------------------------------------col blanc
‚
100 ‚
224 ‚
324
‚ 102.06 ‚ 221.94 ‚
‚
9.49 ‚ 21.25 ‚ 30.74
‚ 30.86 ‚ 69.14 ‚
‚ 30.12 ‚ 31.02 ‚
--------------------------------------------col bleu
‚
198 ‚
374 ‚
572
‚ 180.17 ‚ 391.83 ‚
‚ 18.79 ‚ 35.48 ‚ 54.27
‚ 34.62 ‚ 65.38 ‚
‚ 59.64 ‚ 51.80 ‚
--------------------------------------------Total
332
722
1054
31.50
68.50
100.00
71
Résultats du test statistique:
Statistique du chi-deux:
Degrés de liberté:
P-value:
9.928
2
0.007
Donc, on rejettera l’hypothèse
d’indépendance au niveau =5% car le
« p-value » est < 5%!!
72
Application: test sur la différence entre deux
proportions
 Dans deux municipalités avoisinantes, on a effectué un
sondage pour connaître l’opinion des contribuables sur
l ’aménagement d ’un site pour l ’enfouissement des
déchets. Si une municipalité a une proportion de
contribuables en faveur significativement plus élevée que
dans l ’autre municipalité, alors le site sera probablement
aménager dans cette municipalité. Dans la municipalité 1 ,
n1 individus ont répondu au sondage scientifique et n2
individus dans la municipalité 2.
73
Un échantillon de 150 individus ont répondu au sondage
dans la municipalité 1 et 84 étaient en faveur (56%), tandis
que 124 individus ont répondu dans la municipalité
2 et 62 étaient en faveur (50%).
H0 : p1 = p2 vs H1 : p1  p2 (test bilatéral)
Remarque: on peut poser le problème de la façon suivante:
est-ce qu ’il y a un lien entre la variable municipalité et
l’opinion sur l’aménagement d ’un site pour
l’enfouissement des déchets.
74
MUNI(municipalité)
OPINION
Fréquence‚
Fréq th. ‚
%
‚
% ligne ‚
% colonne‚non
‚en
‚ Total
‚favorable‚faveur ‚
-----------------------------------1
‚
66 ‚
84 ‚
150
‚ 70.073 ‚ 79.927 ‚
‚ 24.09 ‚ 30.66 ‚ 54.74
‚ 44.00 ‚ 56.00 ‚
‚ 51.56 ‚ 57.53 ‚
-----------------------------------2
‚
62 ‚
62 ‚
124
‚ 57.927 ‚ 66.073 ‚
‚ 22.63 ‚ 22.63 ‚ 45.26
‚ 50.00 ‚ 50.00 ‚
‚ 48.44 ‚ 42.47 ‚
-----------------------------------Total
128
146
274
46.72
53.28
100.00
Statistique
DL
Valeur
P-value
---------------------------------------------------Khi-deux
1
0.982
0.322
75
En utilisant le test d’indépendance,
on trouve une p-value de 0.32, ce qui
nous amène à accepter l’hypothèse
nulle d’indépendance. Les deux
proportions ne sont pas
significativement différentes.
Statistique du chi-deux:
Degrés de liberté:
P-value:
0.982
1
0.32176588
76
Téléchargement