Ce n’est pas aussi simple que vous pourriez le penser.
Les grands modèles de langage (LLM), comme ChatGPT d’OpenAI et Llama de Meta, transforment nos vies depuis un certain temps déjà. Pourtant, avec autant de modèles parmi lesquels choisir, beaucoup de gens se demandent lequel est « le meilleur ». Pour répondre à cette question, chercheurs et utilisateurs se tournent souvent vers des benchmarks et tests pour voir quel modèle a résolu les problèmes de codage les plus difficiles ou obtenu le score SAT le plus élevé. Dans cet article, je vais argumenter trois points.
- Ni les benchmarks ni les tests traditionnels ne sont appropriés pour évaluer les capacités des LLM modernes.
- Les LLM présentant des capacités humaines sans posséder une intelligence et une cognition humaines ajoutent de toutes nouvelles dimensions au domaine de la psychométrie.
- Une recherche approfondie sera nécessaire pour parvenir aux évaluations LLM dont les résultats peuvent être interprétés avec confiance.
Références
Les benchmarks ont traditionnellement été utilisés pour évaluer les performances des logiciels et du matériel. Un benchmark évalue les performances d’un outil en lui faisant accomplir un ensemble de tâches pour lesquelles il a été spécifiquement conçu. Un classificateur d’image est évalué en classant une sélection d’images, et un processeur informatique est évalué en exécutant une série de calculs complexes.
En ce qui concerne les LLM, le benchmarking n’est pas simple. Premièrement, les LLM ne sont pas formés pour une tâche spécifique : ils peuvent être utilisés pour la classification de texte, mais ne sont pas des classificateurs de texte ; ils peuvent servir à noter des essais, mais ne sont pas des notateurs automatisés – etc. Ainsi, tout résultat de benchmark dépend non seulement du LLM utilisé, mais aussi de la manière dont il a été employé. Cette ambiguïté nuit à la crédibilité des résultats et conduit souvent à des débats, par exemple, sur la question de savoir si un autre prompt aurait conduit à des résultats différents.
Deux autres problèmes courants avec les benchmarks sont la saturation, qui signifie que tous les modèles récents atteignent presque des scores parfaits, et la contamination, c’est-à-dire que certains ou tous les éléments d’un benchmark sont inclus dans les données d’entraînement du modèle. Ces deux problèmes sont particulièrement aigus dans le cas des LLM car leur progression est rapide et leurs données d’entraînement contiennent pratiquement tout Internet.
En raison de ces problèmes et d’autres, de nombreux benchmarks LLM offrent une valeur limitée pour évaluer la qualité globale d’un LLM. Cette lacune a déclenché des initiatives pour établir ces benchmarks selon divers critères de qualité. Ces efforts visent à établir un ensemble de benchmarks de haute qualité comprenant des ensembles de problèmes soigneusement élaborés, surveillés pour la saturation et la contamination, et mis à jour ou recalibrés si nécessaire. À cet égard, les benchmarks se rapprochent des tests traditionnels où de telles pratiques étaient courantes depuis le début. Cependant, passer du benchmarking aux tests d’IA apporte son lot de défis.
Tests
Pratiquement tout le monde a été testé à un moment donné de sa vie, que ce soit pour l’admission à l’université, un permis professionnel ou un permis de conduire. Ces tests diffèrent nettement des références. Le plus important, c’est que la capacité ou les connaissances qu’un test évalue est trop complexe pour être mesurée directement. Par exemple, la préparation d’un étudiant à l’université ne peut pas être testée en lui permettant de suivre une sélection de programmes de premier cycle. Par conséquent, les tests doivent être soigneusement conçus pour être valides.
Considérons deux types courants de preuves de validité : prédictives et liées au contenu. Les preuves prédictives de la validité d’un test peuvent être établies par le degré auquel son score prédit des résultats et des performances observables importants. Par exemple, les scores SAT corrélément bien avec diverses mesures de réussite scolaire. Les preuves liées au contenu suggèrent que le test reflète la capacité testée. Par exemple, une question d’algèbre dans un contexte de tennis ne devrait pas nécessiter de connaître les règles du tennis, ni ne devrait être répondable qu’en connaissant les règles du tennis.
Les problèmes de validité surviennent inévitablement lorsque nous laissons les LLM passer des tests conçus pour les humains. Prenons les preuves prédictives : un LLM peut réussir le SAT, mais il ne s’inscrira pas à l’université ; il peut réussir haut la main à l’examen du barreau, mais ne représentera pas les clients devant les tribunaux — du moins pour un avenir prévisible. Des problèmes similaires surviennent avec les preuves liées au contenu. Si un humain obtient un score élevé à un test d’algèbre, on peut en déduire qu’il comprend et est capable d’appliquer les lois de l’algèbre sondées par les items du test. En revanche, la question de savoir comment les LLM résolvent les problèmes d’algèbre et s’ils apprennent réellement des lois généralisables reste largement sans réponse. En général, plus le concept testé est complexe, plus l’interprétation du résultat d’un LLM devient spéculative : un LLM qui obtient un bon score à un examen de licence médicale démontre-t-il vraiment des connaissances en médecine clinique ou en gestion des patients ?
Cependant, avec davantage de tâches et de responsabilités déléguées aux LLM, nous assistons à l’émergence de tests précoces conçus spécifiquement pour les LLM. Par exemple, une entreprise utilisant un LLM pour son service client doit tester un nouveau modèle avant de le déployer. Bien que ces tests puissent commencer par un ensemble de benchmarks et de vérifications de raison, ils tendent à devenir plus structurés et incluent avec le temps des éléments plus sophistiqués qui capturent des aspects importants des défis rencontrés par les modèles précédents et peut-être mal gérés. Par conséquent, le test deviendra un indicateur de plus en plus informatif de la capacité d’un modèle à répondre aux besoins de service client de l’entreprise.
Bien que ces « proto-tests » soient utiles, ils sont souvent propriétaires, limités dans leur portée et motivés par des besoins opérationnels plutôt que par des recherches scientifiques.
Défis de recherche
Comme argumenté ci-dessus, l’intelligence non humaine distincte des LLM invalide de nombreuses hypothèses qui sous-tendent la théorie des tests et la psychométrie. Des efforts de recherche importants seront nécessaires pour établir quels tests sont appropriés pour les LLM et quelles interprétations des résultats de tests peuvent être étayées par des expériences scientifiquement solides.
De plus, les grands réseaux entraînés à partir de zéro sur d’immenses ensembles de données sont peu susceptibles de rester les seuls systèmes dotés de capacités humaines. Par exemple, les architectures prédictives d’intégration conjointe (JEPA) apprennent de manière plus humaine en observant et interagissant directement avec leur environnement, tandis que les IA neurosymboliques se concentrent sur le raisonnement symbolique et la représentation explicite des connaissances. Ainsi, les chercheurs pourraient bientôt être confrontés à une multitude de types d’intelligence différents qui donnent naissance aux mêmes capacités.
Cela soulève des questions fondamentales : pouvons-nous définir des constructions indépendamment du type d’intelligence sous-jacent ? La capacité à « penser de manière critique » est-elle la même pour les humains et pour les différents types d’IA ? Si oui, comment devrions-nous la mesurer ? Chaque type d’intelligence nécessitera-t-il son propre test ? Par exemple, un test de pensée critique pourrait tenir compte des différents degrés de lecture des candidats mais supposera probablement que tous les candidats peuvent compter et connaître les directions cardinales. Pour les LLM, c’est l’inverse : ils sont très alphabétisés par conception mais peuvent manquer de compétences de base. Tant que ces différences ne sont pas prises en compte, les résultats des tests LLM resteront sujets à des mauvaises interprétations.
Enfin, il pourrait y avoir une fertilisation intéressante entre les tests d’IA et des domaines plus établis de la psychométrie. Par exemple, des facteurs tels que l’âge, le genre, la culture et l’éducation, en plus des troubles neurologiques, ont démontré un impact sur les processus cognitifs chez les individus. Dans ce contexte, une IA peut être considérée comme un cas extrême d’intelligence neurodivergente. Une meilleure compréhension de ce cas extrême pourrait ouvrir la voie à des évaluations plus personnalisées, plus équitables et plus objectives, permettant aux apprenants aux traits cognitifs uniques de démontrer l’ensemble de leurs compétences.
En conclusion, bien que l’évaluation des LLM soit un défi considérable, mes collègues chercheurs de l’ETS et moi sommes enthousiastes à l’idée de repousser les limites et d’améliorer les techniques de la psychométrie moderne.
Michael Fauss est chercheur scientifique à l’Institut de recherche ETS. Ses travaux portent sur l’IA éthique.