Telechargé par med man

Evaluer corriger

publicité
Evaluer, corriger, pondérer, noter, classer…..
février 2004
Tous les enseignants ont une connaissance empirique des examens qu’ils font passer aux
étudiants et des règles de notation qui conduisent à la réussite ou à l’échec, au passage ou au
redoublement.
Il peut cependant être utile d’en rappeler les termes principaux.
La docimologie désigne la « science » des examens et en particulier, l’étude du comportement
des examinateurs et des examinés. Il s’agit d’un néologisme proposé par un chercheur
français , Henri Piéron , professeur au Collège de France, qui a accompli entre 1935 et 1965
une bonne partie des travaux sur lesquels se fondent les connaissances docimologiques (1).
Initialement, la docimologie avait un objet limité à l’étude critique du déficit de validité et de
fidélité qui caractérisait la plupart des méthodes d’examen.
On parle aussi de docimastique, terme imposé par le Belge De Landsheere (2), qui recouvre la
technique de construction et de correction des examens et de doxologie, qui est l’étude du rôle
que l’évaluation joue dans la formation.
Après avoir fait passer une épreuve aux étudiants, l’enseignant doit encore l’exploiter, c’est à
dire, parvenir au jugement et le cas échéant à la décision qui s’appliquera à chaque étudiant
ayant passé l’épreuve. Pour parvenir à ce jugement, l’enseignant doit s’astreindre à trois
étapes successives principales :
- La première étape est la correction. Cela consiste à identifier dans la réponse de
l’étudiant chaque élément (de réponse ) qui était attendu, puis à porter sur chacun
d’eux un jugement binaire « correct ou incorrect ». Les enseignants savent bien –
dès lors que l’épreuve revêt une certaine importance – qu’il est préférable d’établir
une grille pour accomplir cette première étape de correction.
- La deuxième étape est la pondération. Cela consiste à affecter à chaque élément de
réponse une valeur numérique variable en fonction de sa pertinence (utile,
important, essentiel, absolument indispensable, etc…). C’est à ce stade que se pose
éventuellement la question de la pondération négative, pour des éléments de
réponse inappropriés, dangereux , coûteux, etc…
- La troisième étape est la notation. Cela revient à attribuer à chaque étudiant une
appréciation globale sur sa performance ou son comportement. Le plus souvent,
cette appréciation résulte d’une totalisation simple, arithmétique, des points
correspondant aux éléments de jugement corrects et incorrects présents dans la
réponse de l’étudiant. Mais à ce stade, peuvent également intervenir différentes
opérations permettant d’établir des séries de notes en évitant les ex-aequo. Ces
opérations qui utilisent – en toute transparence – des coefficients de dispersion ou
des formules de calcul de note, sont particulièrement utiles dans le cadre de
concours où le nombre de place est limité.
Reste que l’examen (ou plus largement l’évaluation ) est avant tout une mesure. Selon J-P
Guilford cité par De Landsheere, mesurer signifie assigner un nombre à un événement, ou à
un objet, selon une règle logiquement acceptable.
Pour autant, ces mesures peuvent être soumises à des biais, qui ont été patiemment mis en
évidence par les travaux de docimologie. En voici quelques exemples.
Sources de biais mis en évidence par la docimologie critique
. La distribution forcée (Posthumus)
. L’effet de tendance centrale ou effet centripète ( selon lequel les correcteurs centrent leurs
appréciations autour d’une zone médiane, entre 8 et 12 sur 20, et répugnent à utiliser l’échelle
de notation sur toute son amplitude )
. Les biais résultant de l'interaction entre le correcteur et l'étudiant ou la copie évalué
. Effet de halo
. Effets de contraste entre copies ou entre étudiants ( selon lequel une copie moyenne venant
après une excellente copie est sous évaluée et inversement )
. L'instabilité d'un même correcteur
. Les différences entre correcteurs
La distribution forcée (Posthumus)
Définition: « Un enseignant tend à ajuster le niveau de son enseignement et ses appréciations
des performances des élèves de façon à conserver, d’année en année, approximativement la
même distribution (gaussienne) de notes.»
Laugier et Weinberg (1927) souscrivent à cette idée: « En gros, les notes [de 166 candidats à
un concours universitaire dont les copies ont été jugées par deux correcteurs indépendants,
expérimentés et méticuleux] sont distribuées par chaque examinateur à peu près suivant une
courbe normale "en cloche": les notes moyennes sont les plus fréquentes, les notes très
bonnes ou très mauvaises sont les plus rares. C'est un signe qui atteste de la valeur de la
notation, car on sait que si l'on mesure, dans un groupe homogène d'individus, un trait
quelconque, - que ce soit la taille ou le poids, ou une fonction mentale au moyen d'un test, on constate que les résultats se distribuent selon une courbe en cloche. Tout porte à croire
qu'il en est de même pour les connaissances dans le groupe d'individus qui se présentent à un
concours, et la confirmation en a été donnée par les applications de tests pédagogiques.»
Effet de halo
Weiss (1969), de son côté, a fait l’expérience suivante (rapportée par De Landsheere) :
Deux rédactions, redactylographiées ont été soumise à 2 groupes de 46 instituteurs de 4°
primaire. Au premier groupe , on indique :
« Le travail 1 est l’œuvre d’un élève moyen qui aime lire des BD ; son père et sa mère sont
employés. Le travail 2 a été fait par un enfant doué ; son père est rédacteur d’un quotidien
connu ».
Pour le deuxième groupe , les commentaires ont été inversés. Trois aspects (orthographe,
style, fond) devaient être jugés indépendamment, en plus d’une « note globale », chaque fois
sur une échelle à 5 niveaux (1 = TB ; 5 = insuffisant).
De Landsheere précise « Pour les quatre aspects considérés, les notes attribuées au travail
pour lequel on a créé un préjugé favorable ont été significativement supérieures aux autres.
Pour l'orthographe, qui semblait le plus devoir échapper à l'effet œdipien de la prédiction, on
observe qu'au travail de l'élève présenté comme doué, 16% des correcteurs accordent la note
très bien et aucun la note insuffisant; si le même élève est présenté comme moyen, les
correcteurs n'accordent aucun très bien, mais 11% notent insuffisant ».
Les différences entre correcteurs
On peut mettre en évidence, en faisant corriger la même copie par plusieurs correcteurs
qualifiés, des différences parfois fort importantes entre les notes attribuées à celle-ci. Ce type
d'études a été mené très tôt.
Dans une expérience, rapportée par Piéron lui-même, une même composition française a été
jugée par 76 professeurs de français. Voici la distribution de leurs notes (NP = Nombre de
correcteurs attribuant une note donnée) :
Note 0-1
( 0 à
20 )
NP
1
2-3
4-5
6-7
8-9
10-11
12-13
6
20
34
10
3
2
Evidemment, les variations auraient été bien moindres pour des copies d’épreuves de
matières scientifiques.
jm chabot – janvier 2004
1. Pieron H. Examens et docimologie. Paris. PUF, 1963.
2. De Landsheere G. Evaluation continue et examens – Précis de docimologie
Bruxelles Labor . Paris Nathan, 1971
Téléchargement