Meta se fait prendre le jeu AI Benchmarks avec Llama 4

 Meta se fait prendre le jeu AI Benchmarks avec Llama 4


Au cours du week-end, Meta a laissé tomber deux nouveaux Modèles Llama 4: Un modèle plus petit nommé Scout, et Maverick, un modèle de taille moyenne que la société prétend peut battre GPT-4O et Gemini 2.0 Flash «sur une large gamme de références largement signalées».

Maverick a rapidement obtenu la place numéro deux sur Lmarena, le site de référence de l’IA où les humains comparent les résultats de différents systèmes et votent sur le meilleur. Dans les méta-méta communiqué de pressela société a mis en évidence le score ELO de Maverick de 1417, qui l’a placé au-dessus de l’Openai 4O et juste sous Gemini 2.5 Pro. (Un score ELO plus élevé signifie que le modèle gagne plus souvent dans l’arène lorsqu’il s’affronte avec des concurrents.)

La réalisation a semblé positionner le LLAMA 4 de Meta en fonction de Meta en tant que challenger sérieux des modèles fermés à la pointe de la technologie d’Openai, Anthropic et Google. Ensuite, les chercheurs d’IA qui creusent dans la documentation de Meta ont découvert quelque chose d’inhabituel.

En petits caractères, Meta reconnaît que la version de Maverick testée sur Lmarena n’est pas la même chose que ce qui est disponible pour le public. Selon les matériaux de Meta, il a déployé un « Version de chat expérimentale » de Maverick en lmarena qui était spécifiquement «optimisé pour la conversation», TechCrunch d’abord signalé.

«L’interprétation de la méta de notre politique ne correspondait pas à ce que nous attendons des fournisseurs de modèles», Lmarena affiché sur x deux jours après la sortie du modèle. « Meta aurait dû indiquer plus clairement que« Llama-4-Maverick-03-26-Experimental »était un modèle personnalisé pour optimiser pour la préférence humaine. En conséquence, nous mettons à jour nos politiques de classement pour renforcer notre engagement envers les évaluations équitables et reproductibles afin que cette confusion ne se produise pas à l’avenir. »

Un porte-parole de Meta, Ashley Gabriel, a déclaré dans une déclaration envoyée par e-mail que «nous expérimentons tous les types de variantes personnalisées».

« ‘Llama-4-Maverick-03-26-Experimental’ est une version optimisée de chat avec laquelle nous avons expérimenté qui fonctionne également bien sur Lmarena », a déclaré Gabriel. « Nous avons maintenant publié notre version open source et verrons comment les développeurs personnalisent Llama 4 pour leurs propres cas d’utilisation. Nous sommes ravis de voir ce qu’ils créeront et attendront avec impatience leurs commentaires continus. »

Alors que ce que Meta a fait avec Maverick n’est pas explicitement contre les règles de Lmarena, le site a partagé des préoccupations sur le jeu du système et a pris des mesures pour «prévenir le sur-ajustement et les fuites de référence». Lorsque les entreprises peuvent soumettre des versions spécialement réglées de leurs modèles de test tout en libérant différentes versions au public, les classements de référence comme Lmarena deviennent moins significatifs en tant qu’indicateurs de performances réelles.

« C’est la référence générale la plus respectée parce que toutes les autres sont nulles », explique le chercheur indépendant d’IA Simon Willison Le verge. « Quand Llama 4 est sorti, le fait qu’il soit arrivé deuxième dans l’arène, juste après Gemini 2.5 Pro – qui m’a vraiment impressionné, et je me donne un coup de pied pour ne pas avoir lu le petit imprimé. »

Peu de temps après la sortie de Meta Maverick et Scout, la communauté de l’IA a commencé parler d’une rumeur Cette méta avait également formé ses modèles Llama 4 pour mieux performer sur les références tout en cachant leurs réelles limites. Le vice-président de l’IA générative à Meta, Ahmad al-Dahle, a abordé les accusations Dans un post sur x: « Nous avons également entendu des affirmations selon lesquelles nous nous sommes formés sur des ensembles de tests – ce n’est tout simplement pas vrai et nous ne le ferions jamais. Notre meilleure compréhension est que la qualité variable que les gens voient est due à stabiliser les implémentations. »

« C’est une version très déroutante en général. »

Quelques Aussi remarqué Ce Llama 4 est sorti à un moment étrange. Le samedi n’a pas tendance à être lorsque les grandes nouvelles de l’IA tombent. Après que quelqu’un sur les fils a demandé pourquoi Llama 4 avait été libéré ce week-end, le méta-PDG Mark Zuckerberg répondu: « C’est à ce moment-là que c’était prêt. »

«C’est une libération très déroutante en général», explique Willison, qui suit et documente de près les modèles d’IA. « Le score du modèle que nous avons obtenu est sans valeur pour moi. Je ne peux même pas utiliser le modèle sur lequel ils ont obtenu un score élevé. »

Le chemin de Meta pour libérer Llama 4 n’était pas exactement fluide. Selon à un rapport récent depuis Les informationsla société a repoussé à plusieurs reprises le lancement en raison du modèle qui ne répondait pas aux attentes internes. Ces attentes sont particulièrement élevées après que Deepseek, une startup d’IA open source de Chine, a publié un modèle de poids ouvert qui a généré une tonne de buzz.

En fin de compte, l’utilisation d’un modèle optimisé dans Lmarena met les développeurs dans une position difficile. Lors de la sélection de modèles comme Llama 4 pour leurs applications, ils cherchent naturellement à rédiger des conseils. Mais comme c’est le cas pour Maverick, ces repères peuvent refléter des capacités qui ne sont pas réellement disponibles dans les modèles auxquels le public peut accéder.

Alors que le développement de l’IA accélère, cet épisode montre comment les repères deviennent des champs de bataille. Cela montre également à quel point Meta est désireuse d’être considérée comme un leader de l’IA, même si cela signifie jouer le système.

Mise à jour, 7 avril: L’histoire a été mise à jour pour ajouter la déclaration de META.



Source link

Related post