Conditions d‘appliation pour le test de corrélation R de Pearson 1. Deux variables continues 2. Les observations dans une même variable doivent être indépendantes : question d’ordre méthodologique, qui ne peut donc pas être verifée statistiquement on ne peut que supposer que l’échantillonage a été fait correctement (exemple tp 3 ex.2) 3. Réalisation du nuage de points : ANALYSE DE SCATTERPLOT 3.1. Détection visuelle des outliers bivariés 3.2. Relation linéaire ? 3.3. Homogénéité de la relation : est-ce que les points se repartissement + ou – en forme de tube autour de la droite de régression 4. Verification de la condition de normalité : ANALYSE DU TEST DE NORMALITE ET DU Q-Q PLOT 4.1. Test de Shapiro-Wilk H0= la distribution des données ne s’écarte pas significativement d’une distribution normale Condition de normalité respectée H1= la distribution des données s’écarte significativement d’une distribution normale Condition de normalité non respectée Si Shapiro-Wilk p > 0,05 Rejet de H0 Condition de normalité non respectée Si Shapiro-Wilk p ≤ 0,05 Rejet de H0 Condition de normalité respectée 4.2. Q-Q plot Il s’agit d’une représentation graphique qui compare les quantiles des résidus standardisés (sur l’ordonnée) à ceux d’une distribution normale standardisée (sur l’axe des abscisses) Si les quantiles des résidus standardisés sont exactement répartis sur la diagonale, cela signifie qu’ils sont identiques à deux de la distribution normale standardisée. Au contraire, plus ils s’eloignent de la diagonale, plus cela traduit un écart à la normalité. MAIS, malgré tout qu’à condition que les échantillons soient suffisamment grands, les tests paramétriques peuvent rester valide, même lorsque la condition de normalité est fortement compromise Si toutes les conditions sont respectées, nous pouvons utiliser le test de corrélation R de Pearson (test paramétrique) ANALYSE DE LA MATRICE DE CORRELATION Pour que la corrélation soit considée comme significative, la p-valeur associée au coefficient de corrélation (r de Pearson) doit être ≤ au risque alpha choisi (généralement 0,05 soit 5%). Lorsqu’elle l’est, il y’a deux éléments intéressents à analyser : – Le sens de la relation linéaire entre les deux variables : Un coefficient de corrélation négatif traduit une relation négative entre les deux variables. Un coefficinet de corrélation positif traduit une relation positive entre les deux varibales. – La force de la relation linéaire entre les deux variables : plus la valeur du coefficient est proche de +1 (si relation positive) ou de -1 (si relation négative), plus les deux variables entretiennent une forte relation linéaire. Au contraire, plus le coefficient est proche de 0, moins la relation linéaire entre les deux variables est importante. On peut interpréter la force de la relation linéaire entre deux variables à l’aide des balises de Cohen. Les balises de Cohen :