Pouvons-nous réparer la crise de l’évaluation de l’IA?

En tant que journaliste technologique, on me pose souvent des questions comme « Deepseek est-il vraiment meilleur que Chatgpt? » ou « Le modèle anthropique est-il bon? » Si je n’ai pas envie de le transformer en un séminaire d’une heure, je donnerai généralement la réponse diplomatique: « Ils sont tous les deux solides de différentes manières. »
La plupart des gens qui demandent ne définissent pas «bien» d’une manière précise, et c’est juste. Il est humain de vouloir donner un sens à quelque chose de nouveau et apparemment puissant. Mais cette simple question – ce modèle est-il bon? – est vraiment juste la version quotidienne d’un problème technique beaucoup plus compliqué.
Jusqu’à présent, la façon dont nous avons essayé de répondre à cette question passe par des références. Ceux-ci donnent aux modèles un ensemble fixe de questions pour les répondre et les noter sur le nombre de personnes. Mais tout comme des examens comme le SAT (un test d’admission utilisé par de nombreux collèges américains), ces repères ne reflètent pas toujours des capacités plus profondes. Dernièrement, il a l’impression qu’un nouveau modèle d’IA tombe chaque semaine, et chaque fois qu’une entreprise en lance une, il est livré avec de nouveaux scores montrant qu’il bat les capacités des prédécesseurs. Sur le papier, tout semble s’améliorer tout le temps.
En pratique, ce n’est pas si simple. Tout comme le broyage pour le SAT pourrait augmenter votre score sans améliorer votre pensée critique, les modèles peuvent être formés pour optimiser les résultats de référence sans devenir plus intelligents, comme Russell Brandon expliqué dans sa pièce pour nous. Comme le vétéran d’Openai et Tesla AI Andrej Karpathy l’a récemment dit récemment, nous vivons une crise d’évaluation – notre tableau de bord pour l’IA ne reflète plus ce que nous voulons vraiment mesurer.
Les références sont devenues périmées pour quelques raisons clés. Premièrement, l’industrie a appris à «enseigner au test», à former des modèles d’IA à bien marquer plutôt qu’à s’améliorer. Deuxièmement, la contamination généralisée des données signifie que les modèles ont peut-être déjà vu les questions de référence, voire les réponses, quelque part dans leurs données de formation. Et enfin, de nombreuses références sont simplement au maximum. Sur les tests populaires comme la superglue, les modèles ont déjà atteint ou dépassé la précision de 90%, ce qui fait que des gains supplémentaires ressemblent plus à un bruit statistique qu’une amélioration significative. À ce stade, les scores cessent de nous dire tout ce qui est utile. Cela est particulièrement vrai dans les domaines de haut niveau comme le codage, le raisonnement et la résolution complexe de problèmes de tige.
Cependant, il y a un nombre croissant d’équipes du monde entier qui essaient de lutter contre la crise de l’évaluation de l’IA.
Un résultat est une nouvelle référence appelée LiveCodeBench Pro. Il puise des problèmes des Olympiades algorithmiques internationales – les compétitions pour les programmeurs d’élite du lycée et de l’université où les participants résolvent des problèmes difficiles sans outils externes. Les meilleurs modèles d’IA ne gèrent actuellement qu’environ 53% à première vue sur les problèmes de difficulté moyenne et 0% sur les plus difficiles. Ce sont des tâches où les experts humains excellent régulièrement.
Zihan Zheng, junior de NYU et finaliste mondial en codage compétitif, a conduit le projet à développer Livecodebench Pro avec une équipe de médaillés olympiaques. Ils ont publié à la fois l’indice de référence et une étude détaillée montrant que les modèles de haut niveau comme GPT-4O Mini et les Gemini 2.5 de Google fonctionnent à un niveau comparable aux 10% supérieurs des concurrents humains. Dans l’ensemble, Zheng a observé un modèle: AI excelle à faire des plans et à exécuter des tâches, mais elle lutte avec un raisonnement algorithmique nuancé. «Cela montre que l’IA est encore loin de correspondre aux meilleurs codeurs humains», dit-il.
LivecodeBench Pro pourrait définir une nouvelle barre supérieure. Mais qu’en est-il du sol? Plus tôt ce mois-ci, un groupe de chercheurs de plusieurs universités a soutenu que Les agents LLM doivent être évalués principalement sur la base de leur risque, pas seulement dans leur performance. Dans le monde réel, les environnements axés sur les applications – en particulier avec les agents de l’IA – non récité, les hallucinations et la fragilité sont ruineuses. Une mauvaise décision pourrait signifier une catastrophe lorsque l’argent ou la sécurité sont en jeu.
Il existe d’autres nouvelles tentatives pour résoudre le problème. Certains repères, comme ARC-AGI, gardent désormais une partie de leur ensemble de données privé pour empêcher les modèles d’IA d’être optimisés excessivement pour le test, un problème appelé «sur-ajustement». Yann LeCun de Meta a créé LiveBench, une référence dynamique où les questions évoluent tous les six mois. L’objectif est d’évaluer les modèles non seulement sur les connaissances mais sur l’adaptabilité.
Xbench, un projet de référence chinois développé par Hongshan Capital Group (anciennement Sequoia China), est un autre de ces efforts. Je viens d’écrire à ce sujet dans une histoire. XBench a été initialement construit en 2022 – après le lancement de Chatgpt – comme un outil interne pour évaluer les modèles de recherche sur les investissements. Au fil du temps, l’équipe a élargi le système et a fait venir des collaborateurs externes. Il vient de rendre des parties de son ensemble de questions accessibles au public la semaine dernière.
XBench est remarquable pour sa conception à double voie, qui essaie de combler l’écart entre les tests en laboratoire et l’utilité réelle. La première piste évalue les compétences de raisonnement technique en testant les connaissances STEM d’un modèle et la capacité à effectuer des recherches en chinois. La deuxième piste vise à évaluer l’utilité pratique – comment bien un modèle s’effectue sur des tâches dans des domaines comme le recrutement et le marketing. Par exemple, une tâche demande à un agent d’identifier cinq candidats d’ingénieur de batterie qualifié; Un autre a des marques d’assurance avec des influenceurs pertinents d’un pool de plus de 800 créateurs.
L’équipe derrière Xbench a de grandes ambitions. Ils prévoient d’élargir ses capacités de test dans des secteurs comme la finance, le droit et la conception, et ils prévoient de mettre à jour l’ensemble de test trimestriel pour éviter la stagnation.
C’est quelque chose que je me demande souvent, car la capacité de raisonnement hardcore d’un modèle ne se traduit pas nécessairement par une expérience amusante, informative et créative. La plupart des requêtes des utilisateurs moyens ne seront probablement pas en science des fusées. Il n’y a pas encore beaucoup de recherches sur la façon d’évaluer efficacement la créativité d’un modèle, mais j’aimerais savoir quel modèle serait le meilleur pour l’écriture créative ou les projets artistiques.
Les tests de préférence humaine sont également devenus une alternative aux repères. Une plate-forme de plus en plus populaire est Lmarena, qui permet aux utilisateurs de soumettre des questions et de comparer les réponses de différents modèles côte à côte – puis de choisir celui qu’ils aiment le plus. Pourtant, cette méthode a ses défauts. Les utilisateurs récompensent parfois la réponse qui semble plus flatteuse ou plus agréable, même si c’est mal. Cela peut inciter les modèles de «parcours sucré» et les résultats biaisés en faveur du pandering.
Les chercheurs de l’IA commencent à réaliser – et à admettre – que le statu quo des tests d’IA ne peut pas se poursuivre. Lors de la récente conférence du CVPR, le professeur de NYU Sounting, Xie, s’est inscrit aux jeux finis et infinis de l’historien James Carse pour critiquer la culture hypercompatititive de la recherche sur l’IA. Un jeu infini, a-t-il noté, est ouvert – le but est de continuer à jouer. Mais dans l’IA, un joueur dominant laisse souvent un grand résultat, déclenchant une vague de documents de suivi pour poursuivre le même sujet étroit. Cette culture de race à édition exerce une pression énorme sur les chercheurs et les récompenses à la vitesse de la profondeur, les victoires à court terme sur des informations à long terme. « Si le monde universitaire choisit de jouer à un jeu fini », a-t-il averti, « ça perdra tout. »
J’ai trouvé son cadrage puissant – et peut-être qu’il s’applique également aux repères. Alors, avons-nous un tableau de bord vraiment complet pour la qualité d’un modèle? Pas vraiment. De nombreuses dimensions – sociales, émotionnelles, interdisciplinaires – éludent toujours l’évaluation. Mais la vague de nouvelles références fait allusion à un changement. Au fur et à mesure que le champ évolue, un peu de scepticisme est probablement sain.
Cette histoire est apparue à l’origine dansL’algorithmenotre newsletter hebdomadaire sur l’IA. Pour obtenir des histoires comme celle-ci dans votre boîte de réception en premier,Inscrivez-vous ici.