La régression logistique Régression logistique Mesure de la relation entre une variable dépendante (dichotomique) et une ou plusieurs variables indépendantes Utile dans la prédiction de la présence ou absence d’un comportement (ex. succès ou échec, amélioration ou non) Régression logistique Exemple: Le nombre d’heures de travail par semaine par rapport à l’obtention d’une promotion. Régression logistique Une fonction linéaire ne permettra pas d’ajuster de façon optimale les données. Puisque la variable dépendante est dichotomique, un régression nonlinéaire (logistique) est la meilleure option. u b0 b1 x1 b2 x2 yˆ 1 1 eu bp x p Régression logistique Régression logistique Cependant, la méthode des moindres carrés n’est pas optimale pour trouver la solution des coefficients de régression. Il faut donc utiliser la méthode du maximum du log de la vraisemblance. Le but est de trouver les b qui maximisent L(b). b (b0 , b1 , b2 , n , bp ) L(b) yi ln yˆi (1 yi ) ln(1 yˆi ) log-likelihood=LL(b) i 1 Régression logistique Exemple L(b) 55.6765 b0 5.30945 b1 0.110921 Régression logistique Test d’hypothèse: Fonction de ressemblance L’idée est de comparer le rapport entre un modèle avec peu de coefficients par rapport à un modèle avec plus de coefficients. Par exemple, un modèle avec les prédicteurs et un modèle sans les prédicteurs. G 2 = -2ln vraisemblance de la constante vraisemblance de la constante plus les coefficients G2 = 2 LL(b) LL(0) Régression logistique Test d’hypothèse Exemple LL(0) -68.3315 LL(b) -53.6765 G2 = 2 -53.6765 -68.3315 29.3099 Dans des échantillons élevés, G2 se distribue selon un c2. Les degrés de liberté correspondent au nombre de prédicteurs dans le modèle ayant le plus de prédicteurs moins celui qui en a le moins. dl 1 0 1 Régression logistique Test d’hypothèse Exemple G2 = 29.3099 dl 1 c 2 (1, 0.95) = 3.84 Comme le G2>c2, alors nous concluons que le prédicteur x1 ne doit pas être enlevé de l’équation. Autrement dit, le nombre d’heure de travail est significatif par rapport à l’obtention d’une promotion. Régression logistique Test d’hypothèse: Test de Wald Permet d’identifier les prédicteurs qui sont significatif. Le test se distribue selon un Z. W bi Z SEbi Note: SPSS rapporte un W=Z2 Régression logistique Rapport de cote Permet de mesurer l’augmentation (diminution) de la cote d’être dans une catégorie lorsque la valeur d’une unité est augmenté de 1. RCi ebi Exemple: RC1 eb1 e0.110921 1.11731 Pour chaque augmentation d’une heure de travail, les chances de promotion augmente de 12% Régression logistique Tableau de classification Permet de voir le taux de bonnes et mauvaises classification Si le prédicteur est aussi dichotomique, alors il également possible de calculer le rapport de cote Régression logistique Force d’association ~ R2 Permet de mesurer le pourcentage de variance expliquée. 2 1 LL(b) LL(0) Exemple 2 0.214468 Cox & Snell 2 CS R McFadden 1 e 2 LL (b ) LL (0) n 2 RCS 0.254052 Nagerlkerke 2 RCS R 2 , RMAX 2 N 2 MAX R 1 e 2 LL (0) n RN2 0.340993 Fin!