La théorie derrière le programme TOEIC
Comment déterminer si un test est adapté à l’objectif pour lequel il a été conçu ? Cette question fondamentale de validité préoccupe les développeurs de tests, les chercheurs et les utilisateurs de scores. Les normes professionnelles en sont venues à adopter l’idée que les développeurs de tests doivent convaincre les parties prenantes (c’est-à-dire toute personne concernée par le test) que l’utilisation prévue d’un test est suffisamment soutenue ou justifiée. Cette vision est formalisée dans l’approche fondée sur l’argument pour justifier l’utilisation des tests.
L’article Articulating and Evaluating Validity Arguments for the TOEIC® Tests offre une introduction accessible à l’approche fondée sur l’argumentation, à sa mise en œuvre pour les tests TOEIC et à ses avantages perçus pour les parties prenantes.
L’article commence par un bref aperçu de l’argument de l’utilisation de l’évaluation, une approche avancée de validation fondée sur des arguments. Ensuite, il décrit le processus utilisé pour construire des arguments de validation pour les tests TOEIC.
Ce processus a intégré des preuves provenant de diverses sources, notamment la documentation des tests, les activités de suivi et la recherche. Enfin, l’article propose un aperçu des deux principales manières dont les arguments de validation du TOEIC sont utilisés : la priorité à la recherche et la communication avec les parties prenantes.
Dans l’ensemble, ce processus démontre comment la recherche TOEIC adopte une approche large, critique et rigoureuse pour soutenir l’utilisation appropriée des tests TOEIC. Ce travail vise également à améliorer la littératie en évaluation des parties prenantes en se concentrant sur les affirmations critiques que tous les développeurs de tests devraient soutenir.
Objectif
L’approche fondée sur l’argumentation pour justifier l’utilisation des tests suppose que les développeurs doivent convaincre les parties prenantes (c’est-à-dire toute personne concernée par le test) que l’utilisation prévue du test est justifiée. À cette fin, le développeur du test avance des affirmations explicites sur la manière dont les scores doivent être interprétés et utilisés pour prendre des décisions. Ces affirmations sont étayées ou infirmées par des preuves pouvant inclure des documents issus du processus de développement des essais et/ou des recherches en cours. En examinant les affirmations du développeur de l’essai et les preuves à leur sujet, les parties prenantes peuvent parvenir à une évaluation globale de la justification de l’utilisation prévue du test. Cette approche est utilisée pour :
- Développement des tests de guide
- Orienter la recherche en cours
- servir d’outil de responsabilité pour différents groupes d’acteurs
Structure
Un argument d’utilisation de l’évaluation est « un cadre conceptuel pour guider le développement et l’utilisation d’une évaluation linguistique particulière, incluant les interprétations et usages que nous faisons sur la base de l’évaluation » (Bachman et Palmer, 2010, 99). Le cadre est structuré comme un ensemble hiérarchique d’affirmations faites par le développeur du test concernant la manière dont les scores doivent être interprétés et utilisés pour prendre des décisions. Elle prend la forme générale suivante :

Chaque composant de la figure ci-dessus représente une revendication. Au plus haut niveau, le développeur du test peut affirmer que les conséquences résultant des décisions prises sur la base du test sont bénéfiques pour tous les groupes de parties prenantes (par exemple, les erreurs décisionnelles ont été minimisées). Cela présume une affirmation concernant les décisions découlant de l’interprétation des scores — en particulier, que les décisions sont équitables et sensibles aux valeurs des institutions concernées (éducative, sociétale, organisationnelle, juridique). Afin de justifier les interprétations des capacités des candidats sur la base des scores, le développeur du test avance des affirmations sur la signification, l’impartialité, la généralisabilité, la pertinence et la suffisance des interprétations. Enfin, toutes ces affirmations reposent sur l’affirmation fondamentale que les scores basés sur les performances des candidats sont cohérents entre les formulaires de test, les administrations et les évaluateurs. Ainsi, chaque revendication dans une AUA se compose de :
- un résultat de l’utilisation des tests (par exemple, les décisions découlant des interprétations concernant les capacités des passants)
- Qualités de ce résultat (par exemple, les décisions sont sensibles aux valeurs et équitables)
Les décideurs et les développeurs de tests partagent la responsabilité de justifier l’utilisation de l’évaluation. Les développeurs de tests sont censés fournir des preuves pour étayer l’affirmation que les scores sont cohérents, et que ces scores peuvent servir à interpréter les capacités des candidats. Les décideurs doivent démontrer que les décisions sont sensibles aux valeurs et équitables, et que les conséquences de ces décisions sont bénéfiques. Malheureusement, les décideurs peuvent manquer de l’expertise nécessaire pour fournir un soutien adéquat à ces affirmations (par exemple, la documentation issue de la définition des normes, des estimations des erreurs décisionnelles). Par conséquent, un AUA peut être amélioré grâce à la collaboration entre décideurs et développeurs de tests. Au minimum, les développeurs de tests devraient solliciter les retours des décideurs afin de déterminer si les affirmations concernant les décisions et les conséquences fondées sur l’utilisation des tests peuvent être justifiées.
Utilité
Dans son ensemble, la structure d’une AUA fournit une base pour une justification complète de l’utilisation des tests qui relie les préoccupations réelles concernant les décisions et leurs conséquences aux préoccupations traditionnelles des développeurs de tests — fiabilité et validité. En tant que liste exhaustive des affirmations, mandats, soutiens et réfutations, elle peut être utilisée pour identifier les faiblesses de l’argument global en faveur de l’utilisation des tests et prioriser la recherche ou le développement des projets.
Enfin, en tant qu’ensemble hiérarchique simple d’affirmations (comme montré dans la figure ci-dessus), un AUA peut être utilisé comme un outil de communication illustrant les questions clés déterminant les qualités importantes de l’utilité d’un test, notamment l’équité, l’impact, la fiabilité et la validité. Les préoccupations des individus et des groupes d’acteurs varient, et l’un des défis de la recherche est d’aborder ces préoccupations de manière cohérente, tout en améliorant la littératie en évaluation des parties prenantes. Les préoccupations peuvent inclure :
- Régularité des scores
« Comment peux-tu t’assurer que tous les évaluateurs suivent les guides de notation ? » - L’interprétation des partitions
« Quand on calcule la validité des critères, qui ou quel est le critère ? » - Les décisions fondées sur ces interprétations
« Quels sont les coupures dans les autres institutions ? » - Conséquences de l’utilisation des tests
« Comment les tests TOEIC ont-ils été utiles pour les chercheurs d’emploi ? » - Utilisation de tests liés à plusieurs de ces problèmes
« Comment les recruteurs peuvent-ils savoir que les scores TOEIC répondent aux besoins du marché ? »
En proposant des versions d’une AUA destinées à des groupes d’acteurs spécifiques, un développeur de tests disposant d’un programme de recherche solide peut aider les parties prenantes à trouver des réponses à leurs questions et à devenir des consommateurs plus sophistiqués de produits d’évaluation.
Nous fournissons une description de la manière dont cette approche a été mise en œuvre pour les tests TOEIC® Bridge repensés dans l’article « Faire valoir la qualité et l’utilisation d’une nouvelle évaluation de la maîtrise linguistique : argument de validité pour les tests TOEIC Bridge repensés. » Dans cet article, les chercheurs décrivent les preuves soutenant des affirmations spécifiques concernant la cohérence des scores, l’interprétation des résultats des tests, les décisions basées sur les résultats et les conséquences de l’utilisation des tests. Cette synthèse encourage les parties prenantes à s’engager de manière critique avec les affirmations réelles (et les preuves) sur ce qu’un test mesure et comment il est censé être utilisé. Ce niveau d’engagement peut aider les parties prenantes à mieux comprendre si les tests sont adaptés à leurs besoins, ainsi que leur rôle dans la facilitation de leur utilisation efficace.
Bachman, L. F., & Palmer, A. (2010). Évaluation du langage en pratique. Oxford : Oxford University Press.
Schmidgall, J. (2017). Formulation et évaluation des arguments de validité pour les tests TOEIC® (Mémorandum de recherche n° RM-13-09). ETS.
Schmidgall, J., Cid, J., Carter Grissom, E., & Li, L. (2021). Défendre la qualité et l’utilisation d’une nouvelle évaluation de la compétence linguistique : argument de validité pour les tests ponts® TOEIC repensés (rapport de recherche n° RR-21-20). ETS.