POL1803: Analyse des techniques quantitatives

publicité
POL1803: Analyse des
techniques quantitatives
Cours 13
Extensions de la régression
Plan de la séance

Régression logistique binaire

Régression logistique multinomiale

Commentaires sur l’examen et le TP

Estimation à partir de l’équation de
régression (révision et exercices)

Disponibilité pour toutes questions
La régression
logistique binaire
Les variables dépendantes
nominales dichotomiques
Régression linéaire appropriée
100
80
60
40
20
0
0
20
40
60
80
100
Évaluation thermomètre de B. Landry (0-100)
Régression linéaire appropriée
100
80
60
40
20
0
0
20
40
60
80
100
Évaluation thermomètre de B. Landry (0-100)
Régression linéaire inappropriée
1,0
,8
,6
,4
,2
0,0
0
20
40
60
80
Évaluation thermomètre du PQ (0-100)
100
Régression linéaire inappropriée
1,0
,8
,6
,4
,2
0,0
0
20
40
60
80
Évaluation thermomètre du PQ (0-100)
100
Régression linéaire inappropriée

Problèmes :
– une mauvaise description des
relations entre les variables
– des coefficients de régression, des
statistiques t, des coefficients de
détermination et des intervalles
d’estimations inutilisables
– des prédictions irréalistes
(inférieures à 0 et supérieures à 1)
La régression non-linéaire
1,0
,8
,6
,4
,2
0,0
0
20
40
60
80
Évaluation thermomètre du PQ (0-100)
100
La régression logistique binaire

Définition:
– Outil pour résumer les relations entre
une variable dépendante dichotomique
et plusieurs variables indépendantes.
– Permet de prédire (estimer) des valeurs
inconnues de la variable dépendante.
La régression logistique binaire

Formule:
ln [p / (1 – p)] = a + b1X1 + b2X2 + ...
où ln [p / (1 – p)] = transformation logistique
de la variable dépendante
a = Intersection ou constante
b = Pente ou coefficient de régression
X1 = Variable indépendante 1
X2 = Variable indépendante 2
La régression logistique binaire
La régression logistique binaire
ln [p / (1 – p)] = a + b1X1 + b2X2 + ...

Constante:
– Score logistique de la variable dépendante
lorsque toutes les variables indépendantes
possèdent la valeur de 0.
La régression logistique binaire
Variables dans l'équation
Etape
a
1
THERMOPQ
Constante
B
,219
-11,299
E.S.
,073
3,769
Wald
8,876
8,989
ddl
1
1
Signif.
,003
,003
a. Variable(s) entrées à l'étape 1: THERMOPQ.
Récapitulatif du modèle
Etape
1
-2log-vrais
emblance
12,081
R-deux de
Cox & Snell
,676
R-deux de
Nagelkerke
,904
Exp(B)
1,244
,000
La régression logistique binaire
ln [p / (1 – p)] = a + b1X1 + b2X2 + ...

Coefficient de régression:
– Le signe d’un coefficient reflète la direction
de la relation.
– La valeur d’un coefficient indique l’effet
spécifique produit par un mouvement d’une
unité sur la variable indép. sur le score
logistique de la variable dépendante.
La régression logistique binaire
Variables dans l'équation
Etape
a
1
THERMOPQ
Constante
B
,219
-11,299
E.S.
,073
3,769
Wald
8,876
8,989
ddl
1
1
Signif.
,003
,003
a. Variable(s) entrées à l'étape 1: THERMOPQ.
Récapitulatif du modèle
Etape
1
-2log-vrais
emblance
12,081
R-deux de
Cox & Snell
,676
R-deux de
Nagelkerke
,904
Exp(B)
1,244
,000
La régression logistique binaire
ln [p / (1 – p)] = a + b1X1 + b2X2 + ...

La statistique Wald:
– Mesure de la signification statistique de
chaque coefficient de régression.
– Pour que le coefficient de régression soit
statistiquement significatif (95%), la valeur
du Wald doit dépasser 3,84.
La régression logistique binaire
Variables dans l'équation
Etape
a
1
THERMOPQ
Constante
B
,219
-11,299
E.S.
,073
3,769
Wald
8,876
8,989
ddl
1
1
Signif.
,003
,003
a. Variable(s) entrées à l'étape 1: THERMOPQ.
Récapitulatif du modèle
Etape
1
-2log-vrais
emblance
12,081
R-deux de
Cox & Snell
,676
R-deux de
Nagelkerke
,904
Exp(B)
1,244
,000
La régression logistique binaire
ln [p / (1 – p)] = a + b1X1 + b2X2 + ...

Le coefficient de détermination:
– Mesuré par divers types de pseudo-R2.
– Mesure de la proportion de variation chez
la variable dépendante qui est expliquée
par le modèle d’explication.
La régression logistique binaire
Variables dans l'équation
Etape
a
1
THERMOPQ
Constante
B
,219
-11,299
E.S.
,073
3,769
Wald
8,876
8,989
ddl
1
1
Signif.
,003
,003
a. Variable(s) entrées à l'étape 1: THERMOPQ.
Récapitulatif du modèle
Etape
1
-2log-vrais
emblance
12,081
R-deux de
Cox & Snell
,676
R-deux de
Nagelkerke
,904
Exp(B)
1,244
,000
Un exemple
Un exemple
Que faire?

Variable dépendante:
– Action Démocratique du Québec
– Parti Libéral du Québec
– Parti Québécois
La régression
logistique multinomiale
Les variables dépendantes
nominales à plus de 2 catégories
Régression logistique multinomiale

Équation qui cherche à expliquer,
simultanément, la probabilité de choisir
chaque choix.

Équivalent à l’estimation de plusieurs
régressions logistiques binaires, une pour
chaque combinaison de deux choix.

Produit une constante, des coefficients de
régression, des statistiques Wald, et un
coefficient de détermination.

Interprétation via des valeurs prédites.
Un exemple
Un exemple
Téléchargement