Écriture assistée par IA : implications pour la notation automatisée

L’avancée rapide de l’IA générative a changé la façon dont les gens écrivent. L’IA est désormais intégrée dans de nombreux outils d’écriture quotidiens, aidant les utilisateurs à générer des idées, à rédiger du contenu, à réviser des phrases et à améliorer leur écriture. En conséquence, l’écriture devient de plus en plus un processus collaboratif entre humains et IA. Pour les étudiants, les enseignants et les organisations de test, cela soulève une question fondamentale : lorsque l’IA devient partie intégrante du processus d’écriture, quelles compétences essentielles en écriture devons-nous valoriser, et comment les mesurer ?

Ce changement remet également en question les systèmes de notation automatisés existants, développés en grande partie sur le principe que les essais étaient rédigés indépendamment par des humains. Des caractéristiques telles que la grammaire, l’usage, la mécanique et l’organisation sont depuis longtemps utilisées comme indicateurs de la qualité de l’écriture et constituent une composante clé de nombreux modèles automatisés de notation. Mais lorsque l’IA peut améliorer ces aspects de l’écriture avec un minimum d’effort, leur rôle dans la notation automatisée doit être reconsidéré. Ce défi concerne surtout les devoirs d’écriture non surveillés, où l’utilisation de l’IA est difficile à contrôler, plutôt que les tests d’écriture formels surveillés où l’accès à de tels outils peut être restreint.

Un article récent, « Essais générés par IA : caractéristiques et implications pour la notation automatisée et l’intégrité académique », publié dans Educational Measurement : Issues and Practice (EM :IP), explore cette question à travers le prisme de l’évaluation de l’écriture analytique GRE. L’étude, issue d’un projet de stage d’été de l’ETS, a comparé des essais générés par IA à des essais écrits par des humains et les a évalués à la fois en utilisant des évaluateurs humains formés et le moteur automatisé de notation électronique de l’ETS. Les résultats révèlent des différences importantes entre les essais générés par l’IA et ceux écrits par l’homme et offrent des perspectives utiles pour la prochaine génération de systèmes automatisés de notation.

Le notation automatisée fait face à un nouveau défi

La notation automatisée joue un rôle important dans l’évaluation à grande échelle de l’écriture. Ces systèmes reposent souvent sur des caractéristiques du langage telles que la grammaire, l’usage, la mécanique, le style, l’organisation et le choix des mots, car ils peuvent être calculés efficacement avec des techniques de NLP. Bien que ces caractéristiques fassent partie du concept dans de nombreux tests linguistiques, dans les tâches axées davantage sur l’argumentation et le raisonnement, elles servent souvent d’indicateurs indirects d’une qualité d’écriture plus profonde plutôt que de preuves directes de la qualité des idées, des preuves ou du raisonnement.

Par exemple, un élève qui écrit avec une grammaire précise, une organisation claire et des paragraphes bien développés démontre souvent également de meilleures compétences en raisonnement et en communication.

L’IA générative change cette relation. Les essais générés par IA peuvent obtenir de bons résultats sur les fonctionnalités liées à la langue car la technologie peut produire une écriture soignée et bien structurée. Cependant, les caractéristiques de langage fortes issues des essais générés par IA ne s’accompagnent pas toujours d’un raisonnement solide, d’une analyse significative ou d’une réflexion originale.

En conséquence, certaines fonctionnalités qui étaient traditionnellement de bons indicateurs de qualité d’écriture deviennent moins fiables lorsque les essais sont générés ou fortement assistés par l’IA.

Ce que l’étude a révélé

L’étude a révélé deux résultats importants.

Premièrement, les essais générés par l’IA surpassaient systématiquement les essais écrits par des humains sur les aspects liés au langage, même lorsque les idées ou arguments sous-jacents étaient relativement limités. Deuxièmement, les évaluateurs® électroniques attribuaient des scores plus élevés aux essais générés par IA que les évaluateurs humains.

Cette différence reflète la manière dont les systèmes de notation automatisés ont traditionnellement été développés. E-Rater® a été formé à l’aide d’essais rédigés par des humains, où un usage fort du langage est généralement associé à une rédaction globale plus solide. En conséquence, ces caractéristiques jouent un rôle important dans le processus de notation.

Les essais générés par IA peuvent très bien s’exprimer sur ces aspects liés au langage tout en manquant encore d’un raisonnement analytique solide, de l’utilisation des preuves et de la profondeur de l’argumentation. Lorsque l’évaluateur® électronique attribue les mêmes poids à ces caractéristiques lors de l’évaluation des essais générés par IA, cela gonfle les notes.

Les évaluateurs humains, en revanche, évaluent non seulement la qualité du langage mais aussi la qualité du raisonnement, l’utilisation des preuves et le développement des idées, selon la grille d’évaluation de la grille d’évaluation. Cela explique pourquoi les évaluateurs humains n’ont pas noté les essais générés par l’IA aussi haut que le système automatisé.

Il est important de noter que ces résultats ne suggèrent pas que l’e-rater® soit défaillant. Au contraire, ils mettent en lumière comment l’IA générative a modifié certaines des hypothèses sur lesquelles les systèmes automatisés de notation existants ont été construits.

Quels sont les prochains besoins en notation automatisée

Les systèmes automatisés de notation font plus que simplement attribuer des notes. Avant le début de la notation, ils vérifient généralement si une réponse est appropriée pour la notation. Traditionnellement, cette étape s’est concentrée sur le signalement des essais hors sujet, exceptionnellement courts ou longs, répétitifs, mémorisés ou autrement inappropriés pour la notation.

À mesure que l’écriture assistée par IA devient plus courante, ce processus de sélection initial doit s’élargir pour identifier les réponses générées ou fortement assistées par l’IA lorsque l’utilisation de l’IA n’est pas autorisée. En fait, les résultats de l’article EM :IP montrent que les essais générés par divers modèles d’IA générative peuvent être détectés avec une grande précision. Cependant, les méthodes de détection devront être continuellement mises à jour à mesure que de nouveaux modèles d’IA émergent.

En même temps, les systèmes automatisés de notation doivent reconsidérer l’importance accordée aux différents aspects de l’écriture. Les traits de langage de surface peuvent être des indicateurs moins utiles d’un raisonnement plus profond de l’écriture lorsque l’IA peut les améliorer avec un minimum d’effort.

Les systèmes futurs devraient accorder une plus grande importance aux qualités plus profondes de l’écriture, telles que l’utilisation efficace des preuves, la qualité du raisonnement, la profondeur de l’analyse et la force de l’argumentation.

L’avenir de l’évaluation écrite

L’écriture assistée par l’IA est là pour rester. À mesure que ces outils deviennent partie intégrante de l’écriture quotidienne, la question centrale n’est plus comment détecter ou empêcher leur utilisation, mais comment redéfinir ce que nous attendons de mesurer en écrivant dans ce nouvel environnement.

Répondre à cette question nécessitera un accord sur plusieurs questions importantes, notamment le niveau de compétence en écriture indépendante attendu, les types d’aide IA appropriés, et les preuves à utiliser pour évaluer la qualité de l’écriture. Les systèmes automatisés de notation doivent évoluer parallèlement à cette conversation plus large, afin de continuer à soutenir des jugements valides et significatifs sur l’écriture à l’ère de l’IA.

{"teaserCardGridModuleHeader":"L’intuition stimule le progrès","teaserCardGridModuleDescription":"Découvrez les recherches, les histoires et les idées qui font avancer l’éducation, le travail et le potentiel humain.","teaserCardGridModuleTheme":"ets-xdark","showSeparator":true,"teaserCards":[{"teaserCardTitle":"Découvrez l’IA sur ETS","teaserCardDescription":"Découvrez notre vision, nos principes et nos solutions en IA – et comment nous donnons à notre personnel des compétences concrètes en IA.","teaserCardImage":"/content/dam/ets-org/brands/insights-and-perspectives/ai.png","teaserCardImageAlt":"Image 1","teaserCardLink":"/ai.html","enableGatedContent":false,"ctas":[]},{"teaserCardTitle":"Rapport sur les progrès humains","teaserCardDescription":"Découvrez comment la mission d’ETS prend vie à travers les personnes et leur impact. Ce sont des histoires de transformation, d’opportunités et de progrès en action.","teaserCardImage":"/content/dam/ets-org/Rebrand/Photos/insights-teaser-card-image-1.webp","teaserCardImageAlt":"Image 2","teaserCardLink":"/human-progress-report.html","enableGatedContent":false,"ctas":[]}],"ctas":[]}