L’écart de référence AI révèle des lacunes dans les allégations de performance

Les derniers résultats de FrontitierMath, un test de référence pour l’IA génératif sur les problèmes de mathématiques avancés, montrent que le modèle O3 d’OpenAI a été pire qu’Openai initialement. Alors que les nouveaux modèles OpenAI surpassent désormais O3, l’écart met en évidence la nécessité de examiner de près les repères de l’IA.
Epoch AI, l’institut de recherche qui a créé et administré le test, a publié ses dernières résultats le 18 avril.
OpenAI a réclamé 25% d’achèvement du test en décembre
L’année dernière, le score Frontitiermath pour Openai O3 faisait partie du nombre presque écrasant d’annonces et de promotions publiées dans le cadre de l’événement de vacances à 12 jours d’Openai. La société a affirmé qu’Openai O3, alors son modèle de raisonnement le plus puissant, avait résolu plus de 25% des problèmes sur FrontitierArt. En comparaison, La plupart des modèles d’IA rivaux ont obtenu environ 2%selon TechCrunch.
Voir: pour le Jour de la Terre, Les organisations pourraient prendre en compte le pouvoir de l’IA génératrice dans leurs efforts de durabilité.
Le 18 avril, Epoch Ai a été publié Résultats des tests montrant Openai O3 a marqué plus près de 10%. Alors, pourquoi y a-t-il une si grande différence? Le modèle et le test auraient pu être différents en décembre. La version d’Openai O3 qui avait été soumise pour l’analyse comparative l’année dernière était une version préalable. Frontitiermath lui-même a changé depuis décembre, avec un nombre différent de problèmes mathématiques. Ce n’est pas nécessairement un rappel de ne pas faire confiance à des références; Au lieu de cela, n’oubliez pas de creuser dans les numéros de version.
Openai O4 et O3 Mini score le plus élevé sur les nouveaux résultats frontalath
Les résultats mis à jour montrent Openai O4 avec le raisonnement le mieux, marquant entre 15% et 19%. Il a été suivi par Openai O3 Mini, avec O3 en troisième. Les autres classements comprennent:
- Openai O1
- Grok-3 Mini
- Claude 3.7 Sonnet (16k)
- Grok-3
- Claude 3.7 Sonnet (64k)
Bien que Epoch AI administre indépendamment le test, Openai a initialement mis en service FrontitierArhath et possède son contenu.
Critiques de l’IA d’analyse comparative
Les repères sont un moyen courant de comparer les modèles d’IA génératifs, mais les critiques disent que les résultats peuvent être influencés par la conception des tests ou le manque de transparence. Une étude de juillet 2024 a soulevé des préoccupations selon lesquelles les références surestimées sur la précision des tâches étroites et souffrent de pratiques d’évaluation non standradiques.