Édumétrie

L'édumétrie est la mesure de l'apprentissage, en sciences de l'éducation. Le mot édumétrie a été introduit par Carver en 1974.

L'édumétrie est une discipline proche de la psychométrie.

L'édumétrie théorise et applique des concepts et des méthodes qui permettront à l'individu d'acquérir des connaissances précises (celles qui se trouvent déjà partagées entre les ressortissants d’un groupe culturel dont il veut faire partie). Ses méthodes proviennent de la docimologie, science de la mesure des résultats aux examens (pour des groupes). Alors que la docimologie s’occupe de normaliser (notes pondérées en fonction de la moyenne du groupe), l’édumétrie permet d’individualiser la progression à travers les contenus particuliers des objectifs propres aux divers champs d’enseignement. Elle se situe donc, dans la pédagogie (où il est tenu compte des types de groupes d’étudiants), du côté de la didactique (où il est tenu compte de chaque type de matière à enseigner).

Histoire

Le mot édumétrie a été introduit par Carver en 1974[1].

La docimologie est née à Paris en 1922[2]. Des divergences inquiétantes apparaissaient lors de la comparaison des notes obtenues par les mêmes copies selon divers examinateurs (même les plus qualifiés). Un minimum d’objectivité devait être assuré. Il fallut prendre le chemin d’une standardisation des questions et des réponses (questionnaire à choix multiples : QCM)[3]. Cela rendrait applicables les formules mathématiques de la statistique.

On établit une moyenne du nombre de bonnes réponses dans un groupe, un écart-type (moyenne des écarts, positifs ou négatifs, par rapport à la moyenne, dans le groupe), et la discriminance d’une qcm[4]. Mieux une qcm (question à choix multiple)[5] trie les répondants suivant leur habileté mesurée, donc de la même façon que le QCM (l’ensemble du questionnaire), plus elle sera sélective, c’est-à-dire révélatrice de la compétence (et utilisable dans un test d’évaluation). Les formules courantes de calcul des indices se trouvent expliquées sur les pages Édumétrie du site de l’Institut de recherche et de documentation pédagogique (IRDP), en Suisse romande[6].

Le rendement scolaire dans les pays membres de l’Union européenne est comparé par l’Organisation de coopération et de développement économique (O.C.D.E.)[7]

L’évaluation de l’acquis n’est pas la seule tâche que pouvait entreprendre le pédagogue formé aux méthodes scientifiques. L'analyse des comportements en situation d'apprentissage a pu être abordée statistiquement dès 1948 par l’American Psychological Association à son congrès de Boston. Benjamin S. Bloom y a fait la synthèse des contributions en proposant une taxonomie d’objectifs cognitifs et affectifs[8] qui ajoute à la mémoire la compréhension, l’application, l’analyse, la synthèse créative et l’évaluation personnelle comme types d’objectifs principaux. À l’université de Liège (Belgique), G. de Landsheere crée un laboratoire de pédagogie expérimentale où sont mises à l’épreuve les qcm, les qro (question à réponse ouverte), les qcl (question à choix large), etc. De l’évaluation des groupes, on passe à la mesure des différents formes que peut prendre, pour mieux s’effectuer, l’apprentissage individuel. Ici peut être situé le tournant de la docimologie vers l’édumétrie[9].

Un lien s’établit avec la psychologie expérimentale. On observe (Richard Bertrand, Jean-Guy Blais, Gilles Raîche) un étroite parenté entre la courbe d’apprentissage d’Ebbinghaus, en psychologie expérimentale[10] et la courbe logistique obtenue par Birnbaum[11] à partir de la courbe gaussienne (Voir Loi normale).

Sur ces bases, une utilisation systématique des facilités de l’informatisation a permis l’ébauche d’une didactique du français moins empirique, et collaborative (elle s’adresse aux enseignants). Il s’agit de faire des relevés de réactions par qcm, pour des usages linguistiques concrets (le plus souvent des « fautes») selon les groupes culturels[12], et de tirer, des courbes obtenues (dites strates de compétence collectives), un apprentissage individualisé, le «sur mesure». Un tel développement demandait de recevoir un nom distinct de celui de docimologie. Édumétrie pris dans un sens spécifique semble convenir.

Problématique

Dans un groupe partiellement connu, par ses réponses aux qcm appropriées selon le domaine d’enseignement, comment déterminer pour un individu qui se présente, les qcm les plus utiles (celles qui lui apprendront ce qui lui manque pour tout saisir) et comment les présenter dans l’ordre optimal (d’abord les plus faciles, puis les autres à mesure que son niveau s’accroît).

En IRT[13], on appelle trait latent ce que les réponses obtenues peuvent déceler concernant chaque répondant (compétence, aptitude, profil...)[14]. Le mathématicien Georg Rasch propose une formule de calcul de la probabilité de réussite à une question en fonction du score obtenu par l’individu pour l’ensemble du test. C’est un pas important : on établit un lien entre la difficulté d’une question et la compétence de l’individu.

La formule se raffine quand elle prend en compte non seulement la difficulté (% de bonnes réponses) mais la sélectivité (que répondent ceux qui ont les meilleures notes) et même la fiabilité (quelles sont les risques de réponse choisie au hasard, le guessing). Tel est le modèle proposé par Lord[15]. Pour chaque qcm, il est tracé du courbe logistique[16]. Cette courbe dessine et mesure un «moment pédagogique», qui est le niveau d'apprentissage[17]. Le point mesuré est le moment où 50 % du groupe passe de l'ignorance au savoir. Ainsi est précisé un degré d'habileté auquel sont maximales les chances d'acquérir un élément microgradué de connaissance (disons, à titre d’exemple, pour la langue française, le sens nouveau d'un terme, ou la pénétration inconsciente d'un calque: le «alors que» accepté par le Robert comme équivalent de «when» et non plus comme adversatif).

Dans les groupes où il trouve des répondants, tout distracteur devient ainsi représentatif d'un stade de connaissance, même embryonnaire. Ne reçoit-il pas un niveau dont la formulation mathématique permet de tracer la courbe? Cette «strate de compétence» dessine, sur le plan cartésien des positions possibles dans le groupe tout entier, la zone où se situent, en qualité et quantité, ses répondants. Avec plus ou moins de vigueur suivant sa «sélectivité»[18], elle décèle un niveau d'habileté, un degré de connaissance, une marge d’acquisition éventuelle (quels sont les étudiants qui sont au niveau requis pour comprendre d’emblée le point enseigné). Les données recueillies ne contribuent à l’établissement des indices que dans la mesure où la fiabilité est vérifiée (on tient compte du hasard en mesurant le « guessing») et surtout, dans la mesure où la question est validée pour le groupe (ceux qui répondent le mieux ne sont-ils pas majoritaires dans un des distracteurs plutôt que dans la bonne réponse prévue par les rédacteurs ?).

Or, en ce point, il a été possible d’aller plus loin, en introduisant dans le traitement des données les résultats obtenus pendant ce traitement. Il ne s’agit pas d’un quatrième paramètre mais d’une mesure affinée sur elle-même de la valeur des distracteurs et du même coup, d’une validation intrinsèque de la norme, dans un groupe donné.

Validation des distracteurs ?

Les trois indices (niveau de difficulté, sélectivité, guessing) obtenus pour les distracteurs par les QCM d’expérimentation diffèrent selon les connaissances des groupes. L’individu recevant un rang dans son groupe voit son rang dépendre de la compétence moyenne des autres. La dispersion de celle-ci dans le groupe varie aussi (écart type). La fiabilité est plutôt liée au contenu ou à la façon de poser la question. Au départ, le choix d’un distracteur comme bonne réponse est fait par le professeur. Les indices ne peuvent pas être établis autrement que sur une échelle de valeur fixée d’avance. On en déduit une échelle des habiletés qui est simplement le nombre des bonnes réponses de chacun, ce qui permet de donner un rang.

Or c’est seulement le rédacteur des qcm, l'enseignant comme représentant de l'institution scientifique, et des fluctuations de la vérité scientifique, qui établit quelle est la réponse à considérer comme bonne. Mais une fois que chaque distracteur a reçu un niveau (qui est celui de l’habileté moyenne obtenue par ceux du groupe qui l’ont choisi), il devient possible de donner une valeur à tous ceux qui ont été retenus, et plus seulement à la « bonne réponse». On découvre parfois que la norme du groupe (le choix qui attire les plus habiles) diffère de celle de l’enseignant. Le phénomène est rare, sauf dans des groupes très marginaux. En revanche, pour la précision des indices, c’est le détail qui change tout. Il devient possible de renvoyer la balle, de revenir de la difficulté, cette fois mesurée, à l’habileté correspondante. On dispose en effet d’une échelle de valeurs expérimentée, et qui concerne tous les distracteurs. On peut mesurer à nouveau les scores obtenus par les répondants.

On obtient ainsi une nouvelle évaluation, beaucoup plus fine, des habiletés, et une échelle tellement plus précise que beaucoup de rangs ont changé. Même les «mauvaises» réponses contribuent à l’établissement des valeurs des individus, pour peu qu'elles eussent quelque chose de bon (ce qui vient d'être mesuré). Et la définition de ce « qqch. de bon» n’est plus dans l’esprit des équipes rédactionnelles seulement mais dans celui des répondants tout autant (puisque ce sont leurs résultats qui en font la mesure). Ceci n’est envisageable que dans les applications informatisées réunissant un assez grand nombre de données. Il faut traiter des lots d’environ 300 qcm auxquelles ont répondu 300 personnes, prises au hasard dans une même population, si l’on veut obtenir des indices assez semblables. Ces hypothèses ont pu être vérifiées au moyen d’un logiciel de traitement des réponses[19] qui a servi aux Cours autodidactiques de français écrit[20].

Des itérations

Pourquoi s’arrêter en si bon chemin ? Les nouvelles habiletés, pondérées en fonction de la valeur de toutes les réponses, ne vont-elle pas modifier à leur tour, si on reprend tous les calculs, la valeur des distracteurs ? La balle est renvoyée à nouveau puisque c'était par l'habileté des répondants que les niveaux des distracteurs avaient été mesurés. Ils vont être remesurés, s'ajuster davantage. Et ainsi de suite. À chaque itération, quelques rangs changent, quelques distracteurs s'ajustent, des réponses jugées bonnes le deviennent moins et inversement. La clé de correction du professeur devient peu à peu celle du groupe. La pondération édumétrique concerne autant le contenu des questions que la compétence des répondants.

Ceux qui répondent au hasard ont des ensembles de réponses qui ne ressemblent à aucun autre (ce qui les identifie et permet de les disqualifier) mais ceux qui sont le plus souvent d'accord entre eux sont identifiés par là comme les meilleurs, non seulement sur l'échelle a priori des bonnes réponses prévues, mais sur cette échelle qui se constitue progressivement à partir des réactions du groupe, et qui donne aux distracteurs la valeur des habiletés mesurées de ceux qui les ont choisis. Les habiletés mesurées sur les réponses qui font converger les répondants donnent une échelle où les niveaux s'ajustent par palier. Le processus est poursuivi informatiquement et ne demande que quelques minutes de patience. Le logiciel relit les réponses saisies et les traite chaque fois sur la plus récente échelle obtenue pour tous les distracteurs. À chaque itération, on voit diminuer le nombre de modifications nécessaires. Ce qui est rejoint progressivement est une norme interne pour le groupe.

Conséquences didactiques

Les indices obtenus prennent place dans un tableau. Ils sont aussi visualisés : à chaque distracteur correspond une courbe qui trace les limites du sous-groupe qui l'a choisi, selon les degrés de compétence de ceux et celles qui composent ce sous-groupe. Telles sont les strates de compétence collective qui viennent s'ordonner et s'étager dans un graphe, pour chaque qcm. D'un seul coup d'œil, on peut faire les comparaisons qui facilitent les discussions entre enseignants ou entre l'enseignant et son groupe. Chacun peut proposer des interprétations des réactions obtenues.

Tout d'abord seront écartés du programme les points qui déstabilisent, comme trop difficiles, car ils ne peuvent que convaincre l'apprenant de son incapacité, si provisoire qu'elle soit. Les indices permettent aussi de prioriser des points de langue qui renforcent le fonctionnement du système d'expression selon l'état de connaissance du groupe. Cela donne des ensembles d'exercices bien adaptés et plus utiles, dans les classes de même population.

On peut en outre trier les questions à choix multiple par niveau pour les attribuer à chaque apprenant dans un ordre de difficulté qui croît avec sa compétence renforcée progressivement. On respecte ainsi les moments d'apprentissage mesurés. Cela donne des didacticiels autoguidés.

Un risque calculé

Loin d'être contestée, la langue soignée, académique, sort finalement renforcée, sur bien des points, par cette épreuve, en dépit d'une certaine démocratisation didactique. Pour les fautes de français écrit, les expérimentations ont presque partout démontré que la norme enseignée et pratiquée était la mieux partagée par les plus compétents, même loin de Paris. Dans le cas des règles les plus subtiles ou des nuances de sens impondérables, ces compétents deviennent sans doute de moins en moins nombreux. C'est ce qui élève le niveau de la qcm (son indice de difficulté). Le point de langue sera à réserver aux plus habiles, en attendant que l'habileté des autres se soit élevée, et qu'ils puissent à leur tour saisir aisément une subtilité.

On se doute aussi que, pour la pondération édumétrique, la représentativité de la «population» testée (sa conformité à un public cible) est essentielle, comme en toute statistique. Et l'enseignant voit sa tâche facilitée mais non diminuée. Il lui restera à interpréter les réactions, pour son groupe, à trouver les motifs des choix selon les strates, à envisager des hypothèses, à reformuler les règles en conformité avec ce qui se passe dans les esprits de ses élèves. Il a le privilège de recueillir leurs opinions. Les motifs des erreurs deviennent analysables (subgrammaires)[21].

Il existe une étude sur l'ensemble diversifié des données cueillies en francophonie[22].

Notes et références

Marc Demeuse, « VI. Psychométrie et édumétrie » [PDF], sur http://iredu.u-bourgogne.fr/ (consulté le 9 avril 2017)
H. Laugier, H. Piéron, Mme H. Piéron, E. Toulouse, D. Weinberg, 1934, « Études docimologiques sur le perfectionnement des examens et concours », Conservatoire national des arts et métiers, 88p.
http://www.crame.u-bordeaux2.fr/pdf/docimologie.pdf
Autrement dit sa sélectivité.
souvent appelée item comme en anglais.
« Édumétrie :: IRDP :: Institut de recherche et de documentation pédagogique », sur www.irdp.ch (consulté le 1^er décembre 2016)
Voir notamment le Programme international pour le suivi des acquis (PISA). D’autres organismes sont mentionnés sur le site du ministère de l’Éducation nationale : http://www.education.gouv.fr/cid23200/definitions-des-termes-et-indicateurs-statistiques-de-l-education-nationale.html
Voir D. Leclercq (2005) Édumétrie et docimologie pour praticiens chercheurs. Éd. de l’Univ. de Liège – ch. 4. http://www.labset.net/~georges/des_toise_leclercq.pdf
Les deux termes restent encore assez souvent confondus.
Voir : http://www.er.uqam.ca/nobel/m263244/biographieebbinghaus.htm
Richard Bertrand et Jean-Guy Blais, Modèles de mesure : L'apport de la théorie des réponses aux items, 2004, 389 p. (ISBN 978-2-7605-1666-3, lire en ligne), p. 119.
Voir aussi : Allan Birnbaum, 1962, « On the foundations of statistical inference » Journal of American Statistical Association, vol 57, no 298, p 269-326. Georg Rasch, 1981, « Probabilistic Models for Some Intelligence and Attainment Tests », Univ. of Chicago, 199p.
Avec l'aide de l'Agence universitaire de la francophonie. Voir : http://www.aidenligne-francais-universite.auf.org/spip.php?page=sommaire_fr_sur_mesure.
Item response theory
Au trait latent, qui concerne les personnes, on peut considérer que correspond, du côté des contenus, le curriculum caché, dont les secrets donnent également lieu à des hypothèses dont on pourra tenir compte.
Frederic M. Lord et Melvin R. Novick, 1968, « Statistical Theories of Mental Test Scores » Addison-Wesley, 568p.
Distribution gaussienne mais dont les données sont présentées de manière cumulative, ce qui montre une progression lente, rapide, puis de nouveau lente, «en S».
En unité d'écart-type, entre -3 et +3 sigmas.
La raideur de la courbe, la discriminance.
Réalisé par Norman W. Molhant.
Voir www.cafe.edu.
Voir http://www.cafe.edu/grammaire/fra1011/mod01.html Réaction 44.
«Le français enseigné sur mesure. Apprivoiser la norme,» (http://www.cafe.edu/accueil/ordolit.pdf) Conseil international de la langue française.

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.