L'évaluation n'est pas une mesure. La preuve par la notation
De laléatoire dans la notation
Qu'est-ce qu'une mesure ? Selon J.-P.. Guilford, cité par Gilbert De Landsheere (1976, p. 70) mesurer signifie assigner un nombre à un événement, ou à un objet, selon une règle logiquement acceptable. Cela implique que l'objet, ou l'événement, puisse être saisi sous une seule dimension, isolable, susceptible d'être pourvue d'une échelle numérique (Bonniol, 1976). La mesure est ainsi une opération de description quantitative de la réalité. Mais l'évaluation, en tout cas sous sa forme, dominante, de pratique de notation, ne revient-elle pas précisément à attribuer des nombres à des choses ? Telle est l'origine de l'illusion : il y a, en apparence, identité formelle entre les opérations de mesure et de notation. Et l'idée que l'évaluation est une mesure des performances des élèves est, nous l'avons vu, solidement ancrée dans la tête des professeurs... et souvent des élèves. Mais regardons les choses de plus près. Une mesure est objective en ce sens que, une fois définie l'unité, on doit avoir toujours la même mesure du même phénomène. Certes, une erreur est toujours possible, due aux imperfections de l'instrumentation. Car elle tient alors aux conditions de mise en couvre des instruments. Elle provient de l'opération de mesure elle-même. C'est pourquoi on peut la calculer et, partant, la neutraliser. Qu'en est-il dans le domaine des notations ? Soit un objet à " mesurer " : une copie d'élève. Où est l'instrument ? Ce ne peut être que la personne du correcteur. Or, il est clair que cet instrument n'est pas fiable. Dès que l'on a voulu prendre plusieurs mesures différentes d'une même copie, on s'est rendu compte que les notes divergeaient, et souvent très largement. Les premiers travaux de docimologie en ont fourni, très abondamment, des exemples. Au sens étymologique, la docimologie est la science (logos) des examens, ou de la mesure par examen (dokimê). Celui-ci a donc été perçu, d'emblée, par la docimologie, comme un acte de mesure. Mais les travaux entrepris par la docimologie allaient justement démontrer que l'idée de départ, selon laquelle l'examen est une mesure, s'avère pour le moins très discutable. Comme le rappelle Maurice Reuchlin (1971, p. 213) " les résultats obtenus dans le domaine de la critique expérimentale des procédures d'évaluation sont tout à fait convergents et ont été maintes fois vérifiés " depuis les premières recherches dont rend compte Henri Piéron (1963).
On a ainsi porté attention aux notes attribuées à l'examen du baccalauréat. Une comparaison des moyennes de notes attribuées en 1955, dans une même matière, par 17 jurys d'une part (série philosophie) et 13 de l'autre (série mathématiques) fait apparaître " d'assez larges différences " (M. Reuchlin, ibid.). Par exemple, ces moyennes fluctuent de 5,81 à 9,06 pour l'épreuve écrite de mathématiques, et de 8,30 à 13 pour l'épreuve orale de physique. Conséquence : les pourcentages de candidats admis sont très différents d'un jury à l'autre. En mathématiques, ces pourcentages de reçus variaient, cette année là, de 31 à 53 % ! Ces résultats sont anciens. Qu'en est-il quarante ans plus tard ? La prise en compte d'une série de données, dans le cadre d'une, recherche portant sur la question de la pertinence de l'expertise professorale (en tant que productrice de jugements professoraux) amène Pierre Merle (1996, p. 217) à conclure que l'incertitude du jugement professoral relative, ainsi, à l'évaluation de l'ensemble des épreuves du bac, concerne près d'un tiers des candidats, ce qui correspond à peu près au pourcentage des élèves qui passent actuellement les oraux de rattrapage au bac. Autrement dit, pour 30 % des candidats, la réussite dépend du hasard de la réparation dans les jurys. Le problème fut abordé de front par le recteur de l'Académie de Lille en 1984. Un taux de réussite au bac dans son académie était en effet inférieur à la moyenne nationale. Cela signifiait-il que les élèves étaient effectivement moins bons, ou que les correcteurs étaient plus sévères à Lille qu'ailleurs en France ? Cette seconde hypothèse heurte, d'une certaine façon, le sens commun : comment imaginer que les désaccords professoraux sur la valeur des élèves aillent finalement dans le même sens ? Ne devraient-ils pas s'annuler ? Peut-on concevoir un " comportement collectif qui prendrait la forme d'une sévérité ou d'une indulgence commune à chaque correcteur ? " (P. Merle, ibid., p. 218).
Cette hypothèse met en cause, à la fois, la compétence évaluative individuelle des professeurs, et l'équité de l'examen au niveau national.
La question étant posée par un recteur, on décida toutefois de la tester, en ce qui concerne, notamment, l'épreuve de sciences économiques et sociales du baccalauréat B, en soumettant au jugement de correcteurs d'autres académies des copies de SES corrigées une première fois à Lille. On préleva 120 copies, par tirage au sort parmi les copies de 6 jurys représentatifs de l'académie de Lille, pour les soumettre à 4 jurys constitués de correcteurs de Lille, de Nancy et de Poitiers, selon des modalités permettant une étude comparative. Les deux jurys ne comprenant que des Lillois donnent une moyenne sensiblement identique (7,74 pour l'un, 7,80 pour l'autre). On peut donc effectivement parier d'une " norme académique implicite ". Les correcteurs de Nancy parviennent à une moyenne de 8,81, ceux de Poitiers de 9,05. On est donc bien plus sévère à Lille. L'écart maximum (9,05 - 7,74) est de 1,31 point, ce qui conduit à 5,24 points si l'on tient compte du coefficient de l'épreuve (4). C'est suffisant pour ne pas être " racheté " à la suite du premier groupe d'épreuves. Pour des candidats de même compétence, la probabilité d'être reçu au baccalauréat est plus forte à Poitiers qu'à Lille. On parvient à la même conclusion qu'en 1955 : si les dissertations de sciences économiques et sociales des candidats lillois avaient été corrigées à Poitiers, " le pourcentage de reçus définitifs après les écrans serait passé de 46,21 à 51,26 % " (P. Merle, 1996, p. 221). La probabilité pour les candi- dats d'être reçus varie selon les régions.
Un autre fait peut donner une idée de la dimension aléatoire de la réussite introduite par l'existence de normes implicites aux jurys, s'agissant cette fois-ci des concours de recrutement d'enseignants.
En 1989, le jury du CAPES de mathématiques admettait 1111 candidats pour 1 343 postes, pourvoyant ainsi 82,7 % des postes offerts. En lettres modernes, le jury admettait 708 candidats pour 1 060 postes, pourvoyant ainsi 66,7 % des postes. Et en espagnol, 245 candidats étaient retenus pour 488 postes offerts, ce qui correspond à 50,2 % des postes. De l'avis même du ministre de l'époque, le jury d'espagnol a été " excessivement sélectionniste " (Le Monde du 6 septembre 1989). Il s'agit ici certes de disciplines différentes. Le niveau des candidats peut par ailleurs fluctuer " objectivement " d'une année à l'autre. Mais existe-t-il " objectivement " une différence de niveau et de compétence entre les candidats d'espagnol et de mathématiques telle que l'on pourvoie 50,2 % des postes offerts dans un cas, et 82,7 % dans l'autre ? Le ministre ne sera sans doute pas le seul à parler, pour le cas de l'espagnol, d'un jury trop sévère...
Ce qui est vrai des jurys est, a fortiori, vrai des examinateurs. Quand on compare les notes distribuées par des correcteurs différents, on constate premièrement que l'espace de dispersion est différent (certains notent de 1 à 19, d'autres de 6 à 13 par exemple), et que les moyennes, comme pour les jurys, sont également différentes. On peut distinguer de ce point de vue des examinateurs sévères (moyenne basse) et indulgents (moyenne plus élevée).
À la session de 1996, une examinatrice d'anglais a été relevée et remplacée pendant l'examen pour " notation trop sévère ". La moyenne des premières notes qu'elle avait attribuées à l'épreuve orale d'anglais à des élèves de série technologique s'élevait à 8, avec des notes allant de 1 à 13 sur 20 (Le Monde des 7-8 juillet 1996). Et il ne suffira pas, pour corriger cela (car il a bien fallu se résoudre à corriger les divergences des correcteurs !), d'ajuster les distributions de notes en relevant, par exemple, les notes des candidats jugés par des examinateurs ou des jurys trop sévères, de façon à aboutir à une harmonisation des moyennes. Car cela ne corrige pas les différences dans les classements opérés par les différents correcteurs. Dans l'expérience évoquée par Pierre Merle, " le désaccord entre les correcteurs sur la "valeur" de la copie est, pour près d'une copie sur deux, égal ou supérieur à trois points " (1996, p. 222). E faudrait donc, non seulement harmoniser les moyennes des jurys, mais celles de tous les correcteurs de chaque discipline. Et cela ne serait nullement un gage de plus grande équité. Car demeure l'obstacle le plus sérieux : celui -de la mesure " objective ", par un correcteur, de la valeur de chaque copie.
Les enquêtes sur les résultats obtenus au baccalauréat montrent donc que la réussite est due pour une part au hasard de l'attribution à un jury. De ce premier point de vue, l'examen n'est pas une science exacte. Mais cela révèle, comme le montre le dernier exemple présenté ci-dessus, que ce qu'on pourrait appeler " l'examination " individuelle, d'une copie-produit, par un examinateur voulant (qui pourrait en douter ?) être l'instrument d'une juste mesure, n'est pas fiable. Car les écarts de notes, pour un même produit, d'un examinateur à l'autre, vont bien au- delà de ce qui ne serait qu'une incertitude normale, due aux conditions " locales " de la prise de mesure. Toutes les expériences de multicorrection - et elles furent nombreuses - le démontrent abondamment. Nous avons nous-même (C. Hadji, 1989) cité de nombreux exemples. On pourra se rapporter aux travaux de H. Piéron (1963), de G. De Landsheere (1976), G. Noizet et J.-P. Caverni (1978). Contentons-nous de deux exemples, plus récents.
Premier exemple : la même copie de SES, n°19064, est notée 15/20 à Lille, et 5/20 à Nancy. On estime à Lille qu'elle fait " une assez bonne utilisation des documents difficiles ", et à Nancy que " les documents sont mal exploités " (P. Merle, 1996, p. 222-223). Inversement, une même copie peut obtenir 8/20 à Lille et 16/20 à Nancy.
Deuxième exemple : à la session de 1994 du baccalauréat, une jeune fille, élève de terminale C au lycée Henri IV à Paris, obtient à l'épreuve écrite de philosophie la note de 1 sur 20. Or, elle avait obtenu, cette année-là, les honneurs du concours général de philosophie (Séries B, C, D, E) en obtenant... le deuxième prix ! Le journaliste rapportant ce fait concluait : " La roue de la loterie... n'est pas prête de cesser de tourner " (le Monde, 10-11 juillet 1994).
Qu'il s'agisse de disciplines littéraires (ce qui, pour le sens commun, pourra paraître moins étonnant) ou scientifiques (ce qui apparaîtra aux mêmes plus choquant !), les résultats des expérimentations vont toujours dans le même sens. Qu'en conclure, sinon que :
a) s'il s'agit vraiment d'une opération de mesure, l'instrument de mesure manque totalement de fiabilité. Il sera alors vraiment très difficile, voire impossible, de redresser la situation ;
b) il s'agit vraisemblablement de tout autre chose que d'une opération de mesure.
Hadji, Ch. (1997). L'évaluation démystifiée. Paris, ESF, p.24-28.