Comment construire une meilleure référence IA
Les limites des tests traditionnels
Si les entreprises de l’IA ont été lents à répondre à l’échec croissant des repères, c’est en partie parce que l’approche de scoring de tests est si efficace depuis si longtemps.
L’un des plus grands succès précoces de l’IA contemporaine a été le défi ImageNet, une sorte d’anticedent des références contemporaines. Sorti en 2010 en tant que défi ouvert aux chercheurs, la base de données a détenu plus de 3 millions d’images pour que les systèmes d’IA se classent en 1 000 classes différentes.
Surtout, le test était complètement agnostique pour les méthodes, et tout algorithme réussi a rapidement gagné en crédibilité, quelle que soit son fonctionnement. Lorsqu’un algorithme appelé Alexnet a percé en 2012, avec une forme alors non conventionnelle de formation GPU, elle est devenue l’un des résultats fondamentaux de l’IA moderne. Peu de gens auraient deviné à l’avance que les filets neuronaux convolutionnels d’Alexnet seraient le secret pour débloquer la reconnaissance d’image – mais après avoir bien marqué, personne n’a osé le contester. (L’un des développeurs d’Alexnet, Ilya Sutskeverpasserait à Cofound Openai.)
Une grande partie de ce qui a rendu ce défi si efficace était qu’il y avait peu de différence pratique entre le défi de classification des objets d’imageNet et le processus réel de demander à un ordinateur de reconnaître une image. Même s’il y avait des litiges sur les méthodes, personne ne doutait que le modèle le plus score aurait un avantage lorsqu’il est déployé dans un système de reconnaissance d’image réel.
Mais au cours des 12 années qui ont suivi, les chercheurs d’IA ont appliqué cette même approche agnostique de méthode des tâches de plus en plus générales. Swe-Bench est couramment utilisé comme indicateur indirect d’une capacité de codage plus large, tandis que d’autres repères de style examen représentent souvent une capacité de raisonnement. Cette large portée rend difficile d’être rigoureuse sur ce qu’une mesure de référence spécifique – qui, à son tour, rend difficile d’utiliser les résultats de manière responsable.
Où les choses se décomposent
Anka Reuel, doctorante qui s’est concentrée sur le problème de référence dans le cadre de ses recherches à Stanford, est devenue convaincue que le problème d’évaluation est le résultat de cette poussée vers la généralité. «Nous sommes passés des modèles spécifiques aux tâches aux modèles à usage général», explique Reuel. « Il ne s’agit plus d’une seule tâche mais d’un tas de tâches, donc l’évaluation devient plus difficile. »
Comme les Jacobs de l’Université du Michigan, Reuel pense que «le principal problème avec les références est la validité, encore plus que la mise en œuvre pratique», notant: «C’est là que beaucoup de choses se décomposent». Pour une tâche aussi compliquée que le codage, par exemple, il est presque impossible d’incorporer chaque scénario possible dans votre ensemble de problèmes. En conséquence, il est difficile d’évaluer si un modèle marque mieux car il est plus qualifié dans le codage ou parce qu’il a manipulé plus efficacement l’ensemble de problèmes. Et avec tant de pression sur les développeurs pour obtenir des scores d’enregistrement, les raccourcis sont difficiles à résister.
Pour les développeurs, l’espoir est que le succès sur de nombreux repères spécifiques s’ajoutera à un modèle généralement capable. Mais les techniques d’IA agentiques signifient qu’un seul système d’IA peut englober un éventail complexe de modèles différents, ce qui rend difficile d’évaluer si l’amélioration d’une tâche spécifique conduira à la généralisation. «Il y a juste beaucoup plus de boutons que vous pouvez tourner», explique Sayash Kapoor, un informaticien de Princeton et un critique éminent des pratiques bâclées dans l’industrie de l’IA. «En ce qui concerne les agents, ils ont en quelque sorte abandonné les meilleures pratiques d’évaluation.»
