Créer un examen

Les formations en médecine font face à des défis permanents vis-à-vis de la société, des patients, des médecins, et des étudiants. Elles y ont répondu de différentes manières en développant de nouvelles formations, situations d'apprentissage, et méthodes d'évaluation formatives ou plus formelles (examens).

Des soins efficaces et efficients requièrent non seulement de bonnes connaissances et un bon niveau technique, mais aussi un esprit de synthèse, des capacités à communiquer, à interagir au sein d'équipes interprofessionnelles, à conseiller, et ce, en intégrant l'évidence scientifique et les contraintes des systèmes de soins… Tout un programme!

Avant de faire le choix de vos modalités d'examen, posez-vous les questions :

Qu'est ce qui doit être évalué ? Pourquoi ?
Mon choix est-il valide ? Fiable ? Faisable ?

Les modalités d'évaluation ont un fort impact sur l'apprentissage et en fait, sur toute la structure d'un curriculum de formation. Elles montrent aux étudiants ce que nous, professionnels, institutions, considérons comme important, et sont une des sources principales de motivation pour les étudiants.

L'évaluation doit accompagner les objectifs d'apprentissage, et doit être construite dans ce but. Aucun format unique ne peut faire l'affaire pour répondre à tous ces objectifs: plusieurs formats et méthodes sont nécessaires pour couvrir les multiples dimensions mentionnées ci-dessus.

Vous trouverez-ci-dessous plus de détails concernant certains formats d'examen et quelques précisions relatives aux indicateurs qui sont utilisés pour mesurer la qualité de ceux-ci.

Examen Oral

Un examen oral a une faible validité de contenu, une forte, voire très forte, variabilité inter-examinateur, et conduit souvent à des notes incohérentes : c'est un instrument sujet aux biais et intrinsèquement peu sûr. Un examen oral ne doit pas être utilisé pour remplacer une évaluation écrite, évaluer un spectre très étendu de connaissances devant être maîtrisées, ou si l'examen présente un enjeu important.

Il reste cependant un outil très utile est particulièrement opportun pour évaluer des raisonnements complexes, capacités de synthèse, de résolution de problèmes, de passage de la théorie à la pratique, mesurer le degré de profondeur des connaissances, l'habilité à raisonner "par soi même", et mesurer des compétences dans les relations interpersonnelles et interprofessionnelles. C'est aussi une opportunité de renforcer les interactions, surtout pour les enseignements à distance.

Mettre sur pied un examen oral :

définissez les objectifs d'apprentissage qui seront testés et leurs modalités (travail sur place ou pas, individuel ou en groupe etc.)
écrivez les questions, standardisez leur nombre, difficulté, et temps alloué pour répondre
développez une grille d'évaluation capable de distinguer les niveaux de maîtrise que vous voulez évaluer : le remplissage doit être suffisamment simple et évident pour pouvoir se faire entièrement durant l'examen
préparez les étudiants en les informant clairement au sujet de l'étendue des champs qui seront testés, donnez leurs l'opportunité de s'entraîner avec un temps de discussion et de feedback, montrez des exemples de questions et réponses en étant transparent sur la notation

Examen écrit

Les examens écrits peuvent prendre des formes très différentes : question à choix multiples classiques (QCM), question à réponse ouverte courte (QROC), rédaction. L'utilisation généralisée de supports informatiques connectés (ordinateur ou tablette, sur site ou à distance) a permis de diversifier les formats : zone à mettre en évidence sur une image, valeur numérique, question semi-ouverte (le texte se complète automatiquement suivant des propositions suggérées par l'application), concordance de script etc.

Les examens écrits relativement communs, par exemple de type QCM, présentent de nombreux avantages: ils sont plus complets et permettent de tester une large palette de champs de connaissances, ils sont objectifs et impartiaux, faciles à implémenter et à corriger, économiques en temps et en coûts. Ces examens peuvent être standardisés et alignés facilement sur des objectifs d'apprentissage. Enfin dernier avantage et non des moindres: plusieurs techniques sont disponibles pour établir des seuils de passage. L'une des plus simples est la méthode empirique proposée par Janke Cohen largement utilisée au sein de notre Faculté.

Les rapports d'analyse des examens envoyés aux enseignants contiennent en général au minimum les informations suivantes :

Résultat statistique pour chaque question (en général appelée item):

le nombre minimum de points obtenus pour cette question (Min)

le nombre maximum de points obtenus pour cette question (Max)

la médiane du nombre de points obtenus (Médiane)

la moyenne du nombre de points obtenus (Moyenne)

la facilité, c'est à dire le pourcentage des étudiants ayant obtenu pour cette question la moitié ou plus des points attribuables (Facilité)

la corrélation sérielle (Rbis) indique si la question est discriminante, c'est à dire si en général les étudiants ayant bien répondu à cette question ont tendance à avoir un bon score à l'examen: dans ce cas le coefficient est positif (idéalement en vert, c'est à dire significatif). Si au contraire le coefficient est négatif, les étudiants ayant bien répondu à cette question ont tendance à avoir un mauvais score à l'examen! Si cette corrélation est négative et significative, le chiffre est en rouge (situation à éviter)

pour chaque option de réponse : le nombre et pourcentage d'étudiants ayant fait ce choix ainsi que le score moyen à l'examen de ce même sous groupe (en vert si significativement élevé, en rouge si significativement bas).

Résultat statistique pour l'examen dans son ensemble:

résumé global de l'examen avec histogramme des scores (et des notes si un barème a été défini).

coefficient α de Cronbach (Alpha) mesure la cohérence interne (ou la fiabilité) des questions posées lors de l’examen. Interprétation suggérée :

≥ 0.9 Excellent

≥ 0.8 Bon

≥ 0.7 Acceptable

≥ 0.6 Peu fiable

≥ 0.5 Mauvais

< 0.5 Aucune garantie de fiabilité

erreur standard de mesure (Standard error of measurement SEM): cette valeur dépend du coefficient α de Cronbach et indique en quelque sorte avec quelle précision on peut estimer le niveau d'un étudiant. Si par exemple un étudiant a obtenu un score de 60 avec un examen dont l'erreur standard de mesure est de 2, alors on peut conclure qu'un autre étudiant ayant exactement le même niveau et passant un examen exactement similaire en difficulté et contenu testé obtiendra un score compris entre 56 et 64.

Examen ECOS

L'Examen Clinique avec Objectif Structuré (ECOS) est conçu de manière à évaluer le rendement et les compétences cliniques à l’égard d’une série d’aptitudes. Il s’agit d’une approche pratique et réaliste quant à l’apprentissage et à l’évaluation.

Les tâches à effectuer dans chacune des stations d’ECOS représentent des situations cliniques de la vie réelle. On peut ainsi évaluer la capacité du candidat à appliquer ses connaissances et compétences cliniques lorsqu’il, par exemple, rencontre un patient, rédige une ordonnance d’hospitalisation, donne un congé, s’entretient avec un collègue, etc.

Ces paragraphes sont tirés du site du Conseil Médical du Canada : vous pouvez vous y référer pour toute information plus détaillée et conseils aux étudiants.

Les rapports d'analyse des examens envoyés aux enseignants contiennent en général au minimum les informations suivantes :

Résumé statistique des questions (StatQuestion)

Pour chaque item de la grille d'évaluation est indiqué

le nombre minimum de points obtenus pour cette question (Minimum)

le nombre maximum de points obtenus pour cette question (Maximum)

la médiane du nombre de points obtenus (Median)

la moyenne du nombre de points obtenus (Mean)

la corrélation avec l’item précédent (Correlation) Interprétation de la corrélation avec l’item précédent : le terme Dependent en orange (significatif) ou en rouge (fortement significatif) indique une dépendance avec l'item précédent: s'il n'y a pas de raison de penser que ces items sont liés (par exemple deux phases d'un même geste technique) cela peut indiquer un effet de bord: les examinateurs ne sachant pas exactement évaluer l'item ont eu tendance à l'évaluer comme le précédent

la facilité, c'est à dire le pourcentage des étudiants ayant obtenu pour cette question (Facility %) la moitié ou plus des points attribuables

la corrélation sérielle (RPBis) indique si la question est discriminante, c'est à dire si en général les étudiants ayant bien répondu à cette question ont tendance à avoir un bon score à l'examen: dans ce cas le coefficient est positif (idéalement en vert, c'est à dire significatif). Si au contraire le coefficient est négatif, les étudiants ayant bien répondu à cette question ont tendance à avoir un mauvais score à l'examen! Si cette corrélation est négative et significative, le chiffre est en rouge (situation si possible à éviter)

Résumé (Summary)

Résumé (en score %) de l'examen avec un détail par catégorie.

La valeur de α correspond au coefficient souvent appelé alpha de Cronbach qui est une mesure de cohérence interne (ou fiabilité) des items de la grille d’évaluation (les réponses aux items portant sur un même sujet devant être corrélées). Sa valeur s'établit entre 0 et 1, et la fiabilité augmente avec sa valeur.

Feuille QA Assurance Qualité (QA)

Cette feuille passe en revue un certain nombre d’indicateurs qualité:

- α de Cronbach : voir le paragraphe ci-dessus

variance inter-groupe (Between Group Variance): part de variabilité (en %) étant expliquée par l’effet groupe. Si aucun facteur groupe n’est défini, cette section reste vide. Un groupe désigne un ensemble d’étudiants ayant passé l’examen dans les même conditions (si cette donnée est disponible il s’agit par exemple des étudiants ayant eu le même examinateur: il s'agir alors de la variance inter-examinateur). Cette valeur doit être en théorie la plus faible possible

évaluation globale : résumé concernant le dernier item (Global Grade) des grilles d’évaluation, qui n’est pas pris en compte dans le calcul du score des étudiants

régression linéaire : la linéarité (souhaitable) de la relation entre l'évaluation globale et le score indiqué par la grille est ici étudiée. Le coefficient R2 est la part de variabilité expliquée par la régression. Un estimateur du seuil de passage (Suggested threshold avec intervalle de confiance à 95%) issu de la régression est donné, ainsi que la valeur discriminative inter-grade (Inter-grade discrimination i.e. la pente de la courbe), qui doit être suffisamment élevée

corrélationentre les différentes dimensions de la grille (Correlation). Il ne doit pas y avoir de corrélation trop forte entre les différentes dimensions sans quoi la grille est probablement trop longue et redondante.

Pour aller plus loin

Références examens

Dario M Torre, L W T Schuwirth, C P M Van der Vleuten Theoretical considerations on programmatic assessment Med Teach. 2020; 42:213-220.
Phillip Dawson, Margaret Bearman, David J. Boud, Matt Hall, Elizabeth K. Molloy, Sue Bennett and Gordon Joughin Assessment Might Dictate the Curriculum, But What Dictates Assessment? Teaching & Learning Inquiry: The ISSOTL Journal. 2013; 1: 107-111.

références examen oral

Margery H. Davis & Indika Karunathilake The place of the oral examination in today's assessment systems Medical Teacher 2005; 27:294-297.
G Joughin A short guide to oral assessment Leeds Metropolitan University University of Wollongon 2010

références examen écrit

Susan M. Case and David B. Swanson Constructing Written Test Questions for the Basic and Clinical Sciences National Board of Medical Examiners 2001; Third edition.
Janke Cohen-Schotanus and Cees P. M. Van Der Vleuten A standard setting method with the best performing students as point of reference: Practical and affordable Medical Teacher 2010; 32:154-160.

références examen ECOS

Kamran Z Khan, Kathryn Gaunt, Sankaranarayanan Ramachandran, Piyush Pushkar The Objective Structured Clinical Examination (OSCE): AMEE Guide No. 81. Part II: organisation & administration Med Teach 2013; 35:e1447-63.
Patrício MF, Julião M, Fareleira F, Carneiro AV Is the OSCE a feasible tool to assess competencies in undergraduate medical education? Med Teach. 2013; 35:503-14.