Une entreprise chinoise vient de lancer un ensemble en constante évolution de repères d’IA

Le développement de l’indice de référence à Hongshan a commencé en 2022, après le succès de la rupture de Chatgpt, en tant qu’outil interne pour évaluer dans quels modèles méritent d’être investis. Depuis lors, dirigé par le partenaire Gong Yuan, l’équipe a régulièrement élargi le système, amenant des chercheurs et des professionnels externes pour aider à les affiner. Alors que le projet devenait plus sophistiqué, ils ont décidé de le publier au public.
Xbench a abordé le problème avec deux systèmes différents. L’un est similaire à l’analyse comparative traditionnelle: un test académique qui évalue l’aptitude d’un modèle sur divers sujets. L’autre ressemble plus à un entretien technique pour un emploi, évaluant la valeur économique du monde réel qu’un modèle pourrait offrir.
Les méthodes de XBench pour évaluer l’intelligence brute incluent actuellement deux composantes: XBench-Scienceqa et Xbench-DeepResearch. Scienceqa n’est pas un écart radical par rapport aux références STEM de niveau de troisième cycle existantes comme Gpqa et Supergpqa. Il comprend des questions couvrant les champs de la biochimie à la mécanique orbitale, rédigés par des étudiants diplômés et revérifiés par les professeurs. Marquer les récompenses non seulement la bonne réponse, mais aussi la chaîne de raisonnement qui y mène.
DeepResearch, en revanche, se concentre sur la capacité d’un modèle à naviguer sur le réseau chinois. Dix experts de la matière ont créé 100 questions en musique, en histoire, en finance et en littérature – des questions qui ne peuvent pas simplement être googlées mais nécessitent des recherches importantes pour répondre. La notation des favoris des sources, de la cohérence factuelle et de la volonté d’un modèle d’admettre quand il n’y a pas suffisamment de données. Une question dans la collection médiatisée est «Combien de villes chinoises dans les trois provinces du Nord-Ouest frontalière un pays étranger?» (Il est 12, et seulement 33% des modèles testés ont bien fait les choses, si vous vous demandez.)
Sur le site Web de l’entreprise, les chercheurs ont déclaré qu’ils voulaient ajouter plus de dimensions au test – par exemple, des aspects tels que la création d’un modèle dans sa résolution de problèmes, à quel point il est collaboratif lorsqu’il travaille avec d’autres modèles et à quel point il est fiable.
L’équipe s’est engagée à mettre à jour les questions de test une fois par quart et à maintenir un ensemble de données demi-privé et demi-privé.
Pour évaluer la préparation du monde réel des modèles, l’équipe a travaillé avec des experts pour développer des tâches modélisées sur les flux de travail réels, initialement dans le recrutement et le marketing. Par exemple, une tâche demande un modèle pour s’approvisionner cinq candidats d’ingénieur de batterie qualifié et justifier chaque choix. Un autre lui demande de faire correspondre les annonceurs avec des créateurs à courte-vidéo appropriés à partir d’un pool de plus de 800 influenceurs.
Le site Web taquine également les catégories à venir, notamment la finance, le juridique, la comptabilité et la conception. Les ensembles de questions pour ces catégories n’ont pas encore été open source.
ChatGPT-O3 se classe à nouveau en premier dans les deux catégories professionnelles actuelles. Pour le recrutement, la recherche de perplexité et le sonnet de Claude 3.5 prennent respectivement la deuxième et la troisième place. Pour le marketing, Claude, Grok et Gemini fonctionnent tous bien.
«Il est vraiment difficile pour les références d’inclure des choses si difficiles à quantifier», explique Zihan Zheng, chercheur principal sur une nouvelle référence appelée Livecodebench Pro et étudiante à NYU. « Mais Xbench représente un début prometteur. »