Régression linéaire multiple L'analyse de régression linéaire multiple permet d'examiner le lien entre une variable dépendante et plusieurs variables indépendantes pour ultimement faire des prédictions. Par exemple, soit le ratio de documents par usager au sein des bibliothèques membres de l’ARL1, le ratio de dépenses par usager et finalement le ratio d’emprunts par usager. Peut-on expliquer le ratio documents par usager en fonction des ratios dépenses par usager et emprunts par usager? Si oui, comment? Pour le savoir, il faut faire une analyse de régression linéaire multiple en utilisant le ratio documents/usager comme variable dépendante (Y) et les ratios dépenses/usager et emprunts/usager comme variables indépendantes (X). 1 Source : ARL Statistics and Performance Measures, 1999 [http://www.arl.org/stats/arlstat/indi99.pdf] Analyse de régression linéaire multiple dans Excel [Utilitaire d'analyse – Régression linéaire] Résultats retournés par Excel avec l'utilitaire d'analyse Régression linéaire Statistiques de la régression Coefficient de détermination multiple 0,930931867 Coefficient de détermination R^2 0,866634141 Coefficient de détermination R^2 Erreur-type Observations Coefficient de corrélation (r) Valeur = 0,93, donc une relation forte entre les variables. On ne parle pas ici de sens de la relation (directe ou inverse) car ce n'est pas d'une droite dont il s'agit… mais d'un objet linéaire à n dimensions, où n = nombre de variables indépendantes + 1 0,864164403 50,07808443 111 Coefficient de détermination R^2 (carré du coefficient de corrélation) Proportion de Y qui peut être expliquée par les X (pourcentage) Plus c'est élevé, plus les X sont utiles pour expliquer Y Valeur critique de F Permet de vérifier si le lien observé est significatif ou simplement dû au hasard. Si plus petit ou égal au seuil critique, c'est significatif; sinon c'est dû au hasard. Habituellement on prend un seuil critique de 0,05 (5%). Ici : =5,65E-48 < 0,05 donc c'est significatif, il y a bien un lien entre les deux variables. On peut continuer l'analyse en toute légitimité. Ici : = 87% c'est-à-dire que les variations du ratio documents/usager s'expliquent à 87% par les variations des emprunts/usager et des dépenses/usager. ANALYSE DE VARIANCE Régression Degré de liberté Somme des carrés Moyenne des carrés F 2 1759990,41 879995,203 350,901228 Résidus 108 270843,97 Total 110 2030834,38 Valeur critique de F 5,65473E-48 2507,81454 Constante de la courbe de régression (b0) Constante RATIO DEPENSES/ USAGER RATIO EMPRUNTS/ USAGER Coefficients Erreur-type Statistique t Probabilité 8,549465992 9,76892105 0,87516993 0,38342363 0,144238628 25,9566937 -10,81422971 3,1268E-48 0,133223898 -4,42884773 5,48560875 -0,80735757 0,42123506 -15,30227562 Coefficient de la variable indépendante X1 (b1) 0,0055569 Limite inférieure pour seuil de confiance = 95% Limite Limite inférieure supérieure pour seuil pour seuil de de confiance = confiance = 95,0% 95,0% Limite supérieure pour seuil de confiance = 95% 27,91316169 -10,8142297 27,9131617 0,155253358 0,1332239 0,15525336 6,44458016 -15,3022756 6,44458016 Coefficient de la variable indépendante X2 (b2) Ici, la courbe de régression serait (en utilisant les coefficients b0, b1 et b2): Y = b0 + b1X1 + b2X2 = 8,55 + 0,14X1 -4,43X2 Ce qui se traduit par : Ratio de documents/usager = 8,55 + 0,14 * Ratio dépenses/usager - 4,43 * Ratio emprunts/usager Utilité? Pour faire des prédictions! Par exemple, quel ratio de documents/usager peut-on s'attendre pour une bibliothèque ayant un ratio de dépenses par usager de 500 $/usager et un ratio d'emprunts/usager de 3 docs/usager ? = 8,55 + 0,14 * 500 - 4,43 * 3 = 65,26 docs/usager. SCI6060A – Cours 11 (25 mars 2011) Professeure : Christine Dufour RATIO EMPRUNTS/ USAGER Courbe de régression RATIO DEPENSES/ USAGER Courbe de régression 900 800 700 600 500 400 300 200 100 0 0 1 2 3 4 5 6 RATIO EMPRUNTS/ USAGER RATIO DOC/ USAGER Prévisions RATIO DOC/ USAGER 7 RATIO DOC/ USAGER RATIO DOC/ USAGER L’analyse de régression linéaire multiple produisant un objet linéaire en n dimensions, Excel ne peut le représenter directement graphiquement. Il produit à la place des graphiques en deux dimensions, un par variable indépendante, mettant en lien la variable dépendante et chacune des variables indépendantes. On ne cherche pas ici à surimposer une droite. 900 800 700 600 500 400 300 200 100 0 0 1000 2000 3000 4000 5000 RATIO DEPENSES/ USAGER RATIO DOC/ USAGER Prévisions RATIO DOC/ USAGER 6000