L’«écart type» (ou «déviation standard») est une bonne mesure de la dispersion des valeurs. L’écart type
des 3 valeurs : 1, 10, 19 est 9. L’écart type des 3 valeurs : 8, 10, 12 est de 2. Comme l’écart type est une
distance des diverses dispersions (racine carré de la «variance» qui est une moyenne des dispersions au
carré 2), on obtient respectivement pour nos trois séries de 5 valeurs : 6.40, 1.58, 0.79. La première
série a un écart type beaucoup plus important que les deuxième et troisième séries. On peut alors proposer
comme hypothèse que la première série appartient au premier groupe et que les deux séries suivantes
pourrait appartenir au second groupe. Il faut cependant encore s’interroger sur la différence entre les
écarts types des deux dernières séries.
Les écarts types sont différents parce qu’ils sont calculés à partir des valeurs brutes de nos séries. Cependant
nous ne savons pas si la troisième série est notée sur 10 ou sur 20. On pourrait «centrer» ces valeurs avant
traitement (les uniformiser sur 20). Nous allons plutôt calculer leur «corrélation».
La corrélation est calculée à partir de la covariance : une comparaison entre les variances des valeurs
centrées. Il faut alors calculer les corrélations entre chaque série de valeurs deux à deux 3.
La corrélation entre notre première et seconde série est identique à la corrélation entre la première et le
troisième série. Sa valeur est de 0.94. La corrélation entre la seconde et troisième série est de 1: nous
avons une corrélation totale. Il est alors fort probable que notre première série de notes appartient au
premier groupe et que les deuxième et troisième séries appartiennent au second groupe, contrairement à
ce que laissait imaginer le seul examen des moyennes. Nous pouvons alors interpréter le second groupe
comme un groupe d’étudiants aux résultats homogènes. Le premier groupe étant un groupe contenant des
étudiants ayant de très bon résultats avec des étudiants ayant de très faibles résultats.
Ces premières notions nous permettent déjà de nous rendre compte qu’une étude statistique des valeurs col-
lectées nous apporte des informations complémentaires sur leur contexte. Cependant il apparaît également
qu’un certain nombre de précautions doivent impérativement être pris compte :
– Un seul critère pour examiner une série de valeurs n’est pas suffisant. Une moyenne sans écart type
n’a pas beaucoup de sens (comme les multiples sondages qui essaient d’illustrer «ce que pensent les
français»).
– Il faut impérativement une connaissance du domaine traité pour choisir les meilleurs outils de traite-
ment. La médiane serait un mauvais choix s’il n’y pas de risque d’erreur de saisie. Inversement, il
peut être nécessaire de corriger les données traitées pour enlever d’éventuelles valeurs aberrantes.
– La corrélation masque plusieurs traitements mathématiques. Dans notre cas, en centrant implicite-
ment les valeurs de la troisième série, nous émettons l’hypothèse qu’il s’agit de notes sur 10 et non
sur 20. Il ne faut jamais oublier que la corrélation reste un indicateur et n’implique pas forcément une
causalité.
– L’absence ou le manque de valeurs doivent amener à une absence de décision plutôt qu’à une inter-
prétation littérale des valeurs calculées.
Lorsque l’on étudie deux séries de valeurs d’autres outils sont régulièrement utilisés. L’outil le plus courant
est la «régression linéaire» : il s’agit de trouver la droite qui passe au mieux entre les valeurs de notre
distribution de données. Ainsi si l’on effectue une régression linéaire entre nos séries de valeurs corrélées,
on trouve très logiquement une droite de coefficient directeur 2.0 (la «pente» ou «slope» en anglais) et une
ordonnée à l’origine de 0(«décalage» ou «intercept» en anglais). 4
La régression linéaire est un modèle de distribution de données. D’autres modèles sont possibles. Par ex-
emple, lorsque l’on dispose de données qualitatives (présence ou absence d’un attribut) au lieu de données
quantitatives comme dans notre exemple, on peut imaginer que le modèle est une distribution aléatoire
2. Il est inutile de retenir cette formule qui est essentiellement destinée à simplifier les manipulations mathématiques
3. On peut représenter ces résultats par une matrice de corrélations symétrique sur la diagonale
4. Attention : en France on représente traditionnellement une droite sous la forme y=ax+balors que le monde anglo-saxon
utilise plutôt y=a+bx
JRES 2015 - Montpellier 3/18