N’importe qui peut créer un test, surtout maintenant avec tout ce que l’IA peut faire. La question plus difficile est de savoir si ce test mesure ce qu’il prétend faire, s’il tient la route à travers les populations, et s’il reste équitable et valide à grande échelle.
L’ETS développe, administre et évalue des millions de tests chaque année, et la plupart ont de réelles conséquences pour les personnes qui les passent. Un seul résultat peut façonner l’avenir d’un apprenant, une opportunité de carrière ou un résultat d’obtention de licences. Permettre ces opportunités aux individus est ce qui motive notre mission et pourquoi nous nous tenons à des standards aussi élevés. Lorsque l’IA entre en jeu, la barre devient plus élevée, pas plus basse. Nous y répondons en faisant des choix disciplinés sur les domaines où l’IA apporte de la valeur et en veillant à ce que ce soient les humains, et non l’IA, qui restent aux commandes.
Comment l’ETS utilise l’IA tout au long du cycle de vie de l’évaluation
Chez ETS, l’IA prend en charge plusieurs étapes du cycle de vie de l’évaluation : développement de contenu, assemblage et livraison des tests, et notation.
Développement de contenu
Nous utilisons notre moteur propriétaire de contenu IA pour générer les premiers brouillons d’éléments et de contenus associés à la plupart de nos principaux programmes. Nous définissons les garde-fous, contraintes et exigences de l’IA et apportons des décennies d’expérience en développement d’évaluations pour orienter la génération initiale de manière appropriée. Aujourd’hui, près de 80 % de notre contenu d’évaluation, y compris les questions et les passages de lecture, Commencez par là.
Mais générer du contenu n’est que le point de départ. Avant qu’un élément ne soit utilisé dans l’un de nos programmes, il passe par un processus d’évaluation structuré visant à garantir son équité et son accessibilité tout en confirmant son comportement conforme aux attentes et à la grille d’évaluation prévue. En termes simples, nous ne considérons pas la production IA comme un travail terminé. Nous le considérons comme un candidat qui doit mériter sa place.
Assemblage et livraison
Nous utilisons l’IA pour aider à personnaliser les tests en les adaptant en temps réel. Dans un environnement de test adaptatif, les questions ou tâches peuvent être sélectionnées en fonction de la réponse du candidat aux tests précédents, aidant ainsi l’évaluation à recueillir les bonnes preuves plus efficacement. Ce type d’évaluation permet des temps de test plus courts et plus efficaces, réduire le temps de « place » pour les candidats, ainsi que l’adaptation du contenu à leur niveau.
Ce n’est pas seulement une meilleure façon pour les candidats de montrer ce qu’ils peuvent faire. C’est aussi une mesure de sécurité importante : les gens ne reçoivent pas exactement le même formulaire et peuvent donc recevoir des ensembles de contenus différents.
Pointage
L’ETS utilise l’IA dans la composition des scores depuis le début des années 2000, bien avant l’apparition des grands modèles de langage (LLM). La vraie question n’est pas de savoir si l’IA peut obtenir une réponse, mais si elle peut le faire de manière fiable, équitable et selon les standards du programme qu’elle sert.
C’est pourquoi certaines évaluations ETS sont notées entièrement par des humains, tandis que d’autres utilisent uniquement l’IA et d’autres utilisent une combinaison de notation IA et humaine selon le type de réponse. Le bon modèle de notation dépend du programme, des enjeux du score, du type de réponse évalué et des attentes des marchés qu’il sert, Tout cela au service de produire le résultat le plus précis, équitable et défendable pour chaque apprenant.
Ce que signifie la « confiance » pour nos parties prenantes
La confiance dans l’évaluation habilitée par l’IA n’est pas une qualité unique. Il s’agit de savoir si le système produit systématiquement des résultats valides, équitables et fiables, et si les personnes qui s’appuient sur ces résultats croient que c’est le cas.
Les parties prenantes principales de l’ETS comprennent chacune la confiance en ce qui concerne l’IA différemment. Les candidats aux tests considèrent souvent la confiance comme le résultat de l’équité et de la transparence, tandis que les partenaires institutionnels peuvent exiger des preuves de contrôles disciplinés du cycle de vie et d’une présence humaine dans la boucle. Les partenaires souhaitent poursuivre leur surveillance afin de s’assurer que l’IA n’affaiblit pas la comparabilité, la fiabilité ou l’équité à mesure que les programmes grandissent, Et les décideurs ont besoin d’un compte rendu clair de la manière dont les risques sont identifiés, mesurés et gérés à travers les populations.
Chez ETS, l’objectif n’est pas d’utiliser l’IA partout. C’est pour l’utiliser là où cela nous aide à faire davantage pour les apprenants et les institutions en maintenant les standards que nous avons construits au fil des décennies. Cela signifie utiliser la bonne méthode pour la tâche, garder les humains en charge et évaluer minutieusement les preuves avant de faire confiance à une nouvelle capacité. C’est ainsi que nous rendons l’IA utile et responsable tout en maintenant la confiance que nos scoreurs et éducateurs nous ont insufflée, ainsi qu’à nos produits.