Régression logistique

publicité
La régression logistique
Régression logistique

Mesure de la relation entre une variable dépendante
(dichotomique) et une ou plusieurs variables indépendantes

Utile dans la prédiction de la présence ou absence d’un
comportement (ex. succès ou échec, amélioration ou non)
Régression logistique

Exemple: Le nombre d’heures de travail par semaine par rapport à
l’obtention d’une promotion.
Régression logistique

Une fonction linéaire ne permettra pas d’ajuster de façon optimale
les données. Puisque la variable dépendante est dichotomique, un
régression nonlinéaire (logistique) est la meilleure option.
u  b0  b1 x1  b2 x2 
yˆ 
1
1  eu
 bp x p
Régression logistique
Régression logistique

Cependant, la méthode des moindres carrés n’est pas optimale pour
trouver la solution des coefficients de régression. Il faut donc
utiliser la méthode du maximum du log de la vraisemblance. Le
but est de trouver les b qui maximisent L(b).
b  (b0 , b1 , b2 ,
n
, bp )
L(b)    yi ln yˆi  (1  yi ) ln(1  yˆi )   log-likelihood=LL(b)
i 1
Régression logistique

Exemple
L(b)  55.6765
b0  5.30945
b1  0.110921
Régression logistique
Test d’hypothèse: Fonction de ressemblance

L’idée est de comparer le rapport entre un modèle avec peu de
coefficients par rapport à un modèle avec plus de coefficients. Par
exemple, un modèle avec les prédicteurs et un modèle sans les
prédicteurs.
G 2 = -2ln
vraisemblance de la constante
vraisemblance de la constante plus les coefficients
G2 = 2  LL(b)  LL(0) 
Régression logistique
Test d’hypothèse

Exemple
LL(0)  -68.3315
LL(b)  -53.6765
G2 = 2  -53.6765  -68.3315  29.3099

Dans des échantillons élevés, G2 se distribue selon un c2. Les
degrés de liberté correspondent au nombre de prédicteurs dans le
modèle ayant le plus de prédicteurs moins celui qui en a le moins.
dl  1  0  1
Régression logistique
Test d’hypothèse

Exemple
G2 = 29.3099
dl  1
c 2 (1, 0.95) = 3.84

Comme le G2>c2, alors nous concluons que le prédicteur x1 ne doit
pas être enlevé de l’équation. Autrement dit, le nombre d’heure de
travail est significatif par rapport à l’obtention d’une promotion.
Régression logistique
Test d’hypothèse: Test de Wald


Permet d’identifier les prédicteurs qui sont significatif.
Le test se distribue selon un Z.
W

bi
Z
SEbi
Note: SPSS rapporte un W=Z2
Régression logistique
Rapport de cote

Permet de mesurer l’augmentation (diminution) de la cote d’être
dans une catégorie lorsque la valeur d’une unité est augmenté de 1.
RCi  ebi

Exemple:
RC1  eb1  e0.110921  1.11731

Pour chaque augmentation d’une
heure de travail, les chances de
promotion augmente de 12%
Régression logistique
Tableau de classification

Permet de voir le taux de bonnes et mauvaises classification

Si le prédicteur est aussi dichotomique, alors il également possible de calculer le
rapport de cote
Régression logistique
Force d’association ~ R2

Permet de mesurer le pourcentage de variance expliquée.

 2  1

LL(b)
LL(0)
Exemple
 2  0.214468
Cox & Snell
2
CS
R


McFadden
 1 e

2
 LL (b )  LL (0)
n
2
RCS
 0.254052
Nagerlkerke
2
RCS
R  2 ,
RMAX
2
N
2
MAX
R
 1 e
2
LL (0)
n
RN2  0.340993
Fin!
Téléchargement