POL1803: Analyse des techniques quantitatives Cours 13 Extensions de la régression Plan de la séance Régression logistique binaire Régression logistique multinomiale Commentaires sur l’examen et le TP Estimation à partir de l’équation de régression (révision et exercices) Disponibilité pour toutes questions La régression logistique binaire Les variables dépendantes nominales dichotomiques Régression linéaire appropriée 100 80 60 40 20 0 0 20 40 60 80 100 Évaluation thermomètre de B. Landry (0-100) Régression linéaire appropriée 100 80 60 40 20 0 0 20 40 60 80 100 Évaluation thermomètre de B. Landry (0-100) Régression linéaire inappropriée 1,0 ,8 ,6 ,4 ,2 0,0 0 20 40 60 80 Évaluation thermomètre du PQ (0-100) 100 Régression linéaire inappropriée 1,0 ,8 ,6 ,4 ,2 0,0 0 20 40 60 80 Évaluation thermomètre du PQ (0-100) 100 Régression linéaire inappropriée Problèmes : – une mauvaise description des relations entre les variables – des coefficients de régression, des statistiques t, des coefficients de détermination et des intervalles d’estimations inutilisables – des prédictions irréalistes (inférieures à 0 et supérieures à 1) La régression non-linéaire 1,0 ,8 ,6 ,4 ,2 0,0 0 20 40 60 80 Évaluation thermomètre du PQ (0-100) 100 La régression logistique binaire Définition: – Outil pour résumer les relations entre une variable dépendante dichotomique et plusieurs variables indépendantes. – Permet de prédire (estimer) des valeurs inconnues de la variable dépendante. La régression logistique binaire Formule: ln [p / (1 – p)] = a + b1X1 + b2X2 + ... où ln [p / (1 – p)] = transformation logistique de la variable dépendante a = Intersection ou constante b = Pente ou coefficient de régression X1 = Variable indépendante 1 X2 = Variable indépendante 2 La régression logistique binaire La régression logistique binaire ln [p / (1 – p)] = a + b1X1 + b2X2 + ... Constante: – Score logistique de la variable dépendante lorsque toutes les variables indépendantes possèdent la valeur de 0. La régression logistique binaire Variables dans l'équation Etape a 1 THERMOPQ Constante B ,219 -11,299 E.S. ,073 3,769 Wald 8,876 8,989 ddl 1 1 Signif. ,003 ,003 a. Variable(s) entrées à l'étape 1: THERMOPQ. Récapitulatif du modèle Etape 1 -2log-vrais emblance 12,081 R-deux de Cox & Snell ,676 R-deux de Nagelkerke ,904 Exp(B) 1,244 ,000 La régression logistique binaire ln [p / (1 – p)] = a + b1X1 + b2X2 + ... Coefficient de régression: – Le signe d’un coefficient reflète la direction de la relation. – La valeur d’un coefficient indique l’effet spécifique produit par un mouvement d’une unité sur la variable indép. sur le score logistique de la variable dépendante. La régression logistique binaire Variables dans l'équation Etape a 1 THERMOPQ Constante B ,219 -11,299 E.S. ,073 3,769 Wald 8,876 8,989 ddl 1 1 Signif. ,003 ,003 a. Variable(s) entrées à l'étape 1: THERMOPQ. Récapitulatif du modèle Etape 1 -2log-vrais emblance 12,081 R-deux de Cox & Snell ,676 R-deux de Nagelkerke ,904 Exp(B) 1,244 ,000 La régression logistique binaire ln [p / (1 – p)] = a + b1X1 + b2X2 + ... La statistique Wald: – Mesure de la signification statistique de chaque coefficient de régression. – Pour que le coefficient de régression soit statistiquement significatif (95%), la valeur du Wald doit dépasser 3,84. La régression logistique binaire Variables dans l'équation Etape a 1 THERMOPQ Constante B ,219 -11,299 E.S. ,073 3,769 Wald 8,876 8,989 ddl 1 1 Signif. ,003 ,003 a. Variable(s) entrées à l'étape 1: THERMOPQ. Récapitulatif du modèle Etape 1 -2log-vrais emblance 12,081 R-deux de Cox & Snell ,676 R-deux de Nagelkerke ,904 Exp(B) 1,244 ,000 La régression logistique binaire ln [p / (1 – p)] = a + b1X1 + b2X2 + ... Le coefficient de détermination: – Mesuré par divers types de pseudo-R2. – Mesure de la proportion de variation chez la variable dépendante qui est expliquée par le modèle d’explication. La régression logistique binaire Variables dans l'équation Etape a 1 THERMOPQ Constante B ,219 -11,299 E.S. ,073 3,769 Wald 8,876 8,989 ddl 1 1 Signif. ,003 ,003 a. Variable(s) entrées à l'étape 1: THERMOPQ. Récapitulatif du modèle Etape 1 -2log-vrais emblance 12,081 R-deux de Cox & Snell ,676 R-deux de Nagelkerke ,904 Exp(B) 1,244 ,000 Un exemple Un exemple Que faire? Variable dépendante: – Action Démocratique du Québec – Parti Libéral du Québec – Parti Québécois La régression logistique multinomiale Les variables dépendantes nominales à plus de 2 catégories Régression logistique multinomiale Équation qui cherche à expliquer, simultanément, la probabilité de choisir chaque choix. Équivalent à l’estimation de plusieurs régressions logistiques binaires, une pour chaque combinaison de deux choix. Produit une constante, des coefficients de régression, des statistiques Wald, et un coefficient de détermination. Interprétation via des valeurs prédites. Un exemple Un exemple