Avec les modèles d’IA qui obtiennent chaque référence, il est temps pour l’évaluation humaine

 Avec les modèles d’IA qui obtiennent chaque référence, il est temps pour l’évaluation humaine


Veronika Oliinyk / Getty Images

L’intelligence artificielle a traditionnellement progressé par des tests de précision automatique dans les tâches destinées à approximer les connaissances humaines.

Des tests de référence soigneusement fabriqués tels que le benchmark d’évaluation de la compréhension du langage général (GLUE), l’ensemble de données de compréhension du langage multitâche massif (MMLU) et « Le dernier examen de l’humanité« ont utilisé de grandes tableaux de questions pour marquer la façon dont un modèle grand langage sait beaucoup de choses.

Cependant, ces tests sont de plus en plus insatisfaisant comme mesure de la valeur des programmes d’IA génératifs. Quelque chose d’autre est nécessaire, et cela pourrait bien être une évaluation plus humaine de la production d’IA.

Aussi: L’IA ne frappe pas un mur, ça devient trop intelligent pour les références, dit anthropic

Ce point de vue flotte dans l’industrie depuis un certain temps maintenant. « Nous avons saturé les repères », a déclaré Michael Gerstenhaber, chef des technologies d’API chez Anthropic, ce qui fait de la famille Claude de LLMS, pendant un Conférence Bloomberg sur l’IA en novembre.

La nécessité pour les humains d’être « dans la boucle » lors de l’évaluation des modèles d’IA apparaît également dans la littérature.

Dans un Document publié cette semaine Dans le New England Journal of Medicine par des chercheurs de plusieurs institutions, notamment le Beth Israel Deaconess Medical Center de Boston, l’auteur principal Adam Rodman et les collaborateurs soutiennent que « en ce qui concerne les références, les humains sont le seul moyen ».

Les références traditionnelles dans le domaine de l’IA médicale, telles que MeDQA créées au MIT, «sont devenues saturées», ils écrivent, ce qui signifie que les modèles d’IA acent facilement de tels examens mais ne sont pas branchés sur ce qui compte vraiment dans la pratique clinique. « Notre propre travail montre à quel point les repères difficiles tombent dans des systèmes de raisonnement comme Openai O1 », écrivent-ils.

Rodman et l’équipe se disputent pour l’adaptation des méthodes classiques par lesquelles les médecins humains sont formés, comme le jeu de rôle avec les humains. « Les études d’interaction des ordinateurs humains sont beaucoup plus lentes que même les évaluations de référence additionnées sur l’homme, mais à mesure que les systèmes deviennent plus puissants, ils deviendront encore plus essentiels », écrivent-ils.

Aussi: Le dernier examen de l’humanité « est un coup de référence sur les modèles AI supérieurs – pouvez-vous faire mieux?

La surveillance humaine du développement de l’IA a été un aliment de base du progrès dans la génération AI. Le développement de Chatte En 2022, a utilisé largement «l’apprentissage du renforcement par la rétroaction humaine». Cette approche effectue de nombreuses cycles à ce que les humains notent la sortie des modèles d’IA pour façonner cette sortie vers un objectif souhaité.

Maintenant, cependant, le créateur de Chatgpt Openai et d’autres développeurs de modèles dits frontières impliquent des humains dans la notation et le classement de leur travail.

Dans dévoilement Son open source Gemma 3 ce mois-ci, Google a souligné que Google a souligné les scores de référence non automatisés mais les notes des évaluateurs humains pour plaider en faveur de la supériorité du modèle.

Google-2025-GEMMA-3-ELO-COMPARISON

Google

Google a même réussi Gemma 3 dans les mêmes termes que les meilleurs athlètes, en utilisant ce que l’on appelle Scores ELO pour la capacité globale.

Aussi: Google affirme que Gemma 3 atteint 98% de la précision de Deepseek – en utilisant un seul GPU

De même, quand Openai dévoilé son dernier modèle haut de gammeGPT-4.5, en février, il a souligné non seulement les résultats sur des références automatisées telles que SimpleQA, mais aussi la façon dont les examinateurs humains pensaient de la sortie du modèle.

« Les mesures de préférence humaine », explique Openai, est un moyen d’évaluer « le pourcentage de requêtes où les testeurs préféraient le GPT – 4.5 sur GPT-4O ». La société affirme que GPT-4.5 a un plus grand « quotient émotionnel » en conséquence, bien qu’il n’ait pas précisé de quelle manière.

OpenAI-2025-GPT-4-5 Évalué par humain

Openai

Même si de nouvelles références sont fabriquées pour remplacer les repères qui auraient été saturés, les concepteurs de références semblent incorporer la participation humaine en tant qu’élément central.

En décembre, le GPT-O3 « Mini » d’OpenAI est devenu le premier modèle de grande langue à avoir jamais battu une partition humaine sur un test de raisonnement abstrait appelé Abstraction and Reaship Corpus for Artificiel General Intelligence (ARC-AGI).

Cette semaine, François Chollet, inventeur d’Arc-Agi et un scientifique de l’unité d’IA de Google, dévoilé une nouvelle version plus difficileArc-Agi 2. Bien que la version originale ait été notée pour la capacité humaine en testant les travailleurs de Turk en mécanique Amazon humain, Chollet, cette fois-ci, a eu une participation humaine plus vive.

Aussi: Google publie des Gémeaux expérimentaux «les plus intelligents».

« Pour garantir l’étalonnage des difficultés orientées humains, nous avons mené une étude en direct à San Diego au début de 2025 impliquant plus de 400 membres du grand public », écrit Chollet dans son article de blog. « Les participants ont été testés sur des tâches candidates ARC-AGI-2, nous permettant d’identifier quels problèmes pourraient être résolus de manière cohérente par au moins deux individus dans deux tentatives ou moins. Ces données de premier parti fournissent une référence solide pour les performances humaines et seront publiées aux côtés du document Arc-Agi-2. »

C’est un peu comme un mélange d’analyse comparative automatisée avec les foules flash ludiques de l’art de la performance il y a quelques années.

Ce type de fusion du développement du modèle d’IA avec la participation humaine suggère qu’il y a beaucoup de place pour étendre la formation, le développement, l’ingénierie et les tests des modèles d’IA avec une implication humaine de plus en plus importante dans la boucle.

Même Chollet ne peut pas dire à ce stade si tout ce qui mènera à l’intelligence générale artificielle.

Vous voulez plus d’histoires sur l’IA? Inscrivez-vous à l’innovationnotre newsletter hebdomadaire.





Source link

Related post