L’écart de référence AI révèle des lacunes dans les allégations de performance

Intelligence Artificielle
Noesis News
avril 22, 2025
0
181
5 minutes de lecture

Précision frontalath pour O3 et O4-MinI d’OpenAI par rapport aux principaux modèles. Image: Epoch Ai

Les derniers résultats de FrontitierMath, un test de référence pour l’IA génératif sur les problèmes de mathématiques avancés, montrent que le modèle O3 d’OpenAI a été pire qu’Openai initialement. Alors que les nouveaux modèles OpenAI surpassent désormais O3, l’écart met en évidence la nécessité de examiner de près les repères de l’IA.

Epoch AI, l’institut de recherche qui a créé et administré le test, a publié ses dernières résultats le 18 avril.

OpenAI a réclamé 25% d’achèvement du test en décembre

L’année dernière, le score Frontitiermath pour Openai O3 faisait partie du nombre presque écrasant d’annonces et de promotions publiées dans le cadre de l’événement de vacances à 12 jours d’Openai. La société a affirmé qu’Openai O3, alors son modèle de raisonnement le plus puissant, avait résolu plus de 25% des problèmes sur FrontitierArt. En comparaison, La plupart des modèles d’IA rivaux ont obtenu environ 2%selon TechCrunch.

Voir: pour le Jour de la Terre, Les organisations pourraient prendre en compte le pouvoir de l’IA génératrice dans leurs efforts de durabilité.

Le 18 avril, Epoch Ai a été publié Résultats des tests montrant Openai O3 a marqué plus près de 10%. Alors, pourquoi y a-t-il une si grande différence? Le modèle et le test auraient pu être différents en décembre. La version d’Openai O3 qui avait été soumise pour l’analyse comparative l’année dernière était une version préalable. Frontitiermath lui-même a changé depuis décembre, avec un nombre différent de problèmes mathématiques. Ce n’est pas nécessairement un rappel de ne pas faire confiance à des références; Au lieu de cela, n’oubliez pas de creuser dans les numéros de version.

Openai O4 et O3 Mini score le plus élevé sur les nouveaux résultats frontalath

Les résultats mis à jour montrent Openai O4 avec le raisonnement le mieux, marquant entre 15% et 19%. Il a été suivi par Openai O3 Mini, avec O3 en troisième. Les autres classements comprennent:

Openai O1
Grok-3 Mini
Claude 3.7 Sonnet (16k)
Grok-3
Claude 3.7 Sonnet (64k)

Bien que Epoch AI administre indépendamment le test, Openai a initialement mis en service FrontitierArhath et possède son contenu.

Critiques de l’IA d’analyse comparative

Les repères sont un moyen courant de comparer les modèles d’IA génératifs, mais les critiques disent que les résultats peuvent être influencés par la conception des tests ou le manque de transparence. Une étude de juillet 2024 a soulevé des préoccupations selon lesquelles les références surestimées sur la précision des tâches étroites et souffrent de pratiques d’évaluation non standradiques.

Source link

L’écart de référence AI révèle des lacunes dans les allégations de performance

OpenAI a réclamé 25% d’achèvement du test en décembre

Openai O4 et O3 Mini score le plus élevé sur les nouveaux résultats frontalath

Critiques de l’IA d’analyse comparative

Noesis News

Posts Récents

Commentaires Récents

Archives

Catégories

Elon Musk prévient que l’IA « va évidemment faire...

(R) Observer les modèles inattendus dans la demande...

Comment construire un pipeline de données léger avec...

Le navigateur COMET AI de Perplexity pourrait exposer...

Elon Musk prévient que l’IA « va évidemment faire...

(R) Observer les modèles inattendus dans la demande...

Comment construire un pipeline de données léger avec...

Le navigateur COMET AI de Perplexity pourrait exposer...

Arrêter d’écrire un python désordonné: un cours accidentel...

The best sunglasses for seniors in 2025, according...

40 mèmes hilarants relatables partagés sur le compte...

WELEVEL RAshes 5,7 millions de dollars au développement...

L’IA d’Elon Musk propose des

Last Week in AI #297

Voici quelle est la tendance

OpenAI a réclamé 25% d’achèvement du test en décembre

Openai O4 et O3 Mini score le plus élevé sur les nouveaux résultats frontalath

Critiques de l’IA d’analyse comparative

Noesis News

Related post

Posts Récents

Commentaires Récents

Archives

Catégories

Tags