(R) preuve ou bluff? Évaluation des LLMS le 2025 USA Math Olympiad

Intelligence Artificielle
Noesis News
avril 2, 2025
0
73
4 minutes de lecture

Preuve ou bluff? Évaluation des LLMS le 2025 USA Math Olympiad
Ivo Petrov, Jasper Dekoninck, Lyuben Baltadzhiev, Maria Drencheva, Kristian Minchev, Mislav Balunović, Nikola Jovanović, Martin Vechev – Eth Zurich, Insait, Sofia University "St. Kliment Ohridski"
Les récentes repères mathématiques pour les modèles de grande langue (LLM) tels que Matharena indiquent que les modèles de raisonnement de pointe atteignent des performances impressionnantes sur des compétitions mathématiques comme l’AIME, avec le modèle leader, O3-Mini, réalisant des scores comparables aux principaux concurrents humains. Cependant, ces repères évaluent les modèles uniquement sur la base de réponses numériques finales, négligeant un raisonnement rigoureux et une génération d’épreuves qui sont essentiels pour les tâches mathématiques du monde réel. Pour y remédier, nous introduisons la première évaluation complète du raisonnement en pleine solution pour contester les problèmes mathématiques. En utilisant des annotateurs humains experts, nous avons évalué plusieurs modèles de raisonnement de pointe sur les six problèmes de l’USAMO 2025 dans les heures suivant leur libération. Nos résultats révèlent que tous les modèles testés ont eu du mal de manière significative, atteignant moins de 5% en moyenne. Grâce à une analyse détaillée des traces de raisonnement, nous identifions les modes de défaillance les plus courants et trouvons plusieurs artefacts indésirables résultant des stratégies d’optimisation utilisées lors de la formation modèle. Dans l’ensemble, nos résultats suggèrent que les LLM actuelles sont inadéquates pour des tâches de raisonnement mathématique rigoureuses, mettant en évidence la nécessité d’une amélioration substantielle des capacités de raisonnement et de production d’épreuve.
Arxiv: 2503.21934 (CS.CL): https://arxiv.org/abs/2503.21934v1

https://preview.redd.it/nyjvsp0lb7se1.jpg?width=1291&format=pjpg&auto=webp&s=96500fd5c539a3bca4ee96a8ae2fc39b6757e476

soumis par / u / nunki08
(lien) (Commentaires)

Source link

(R) preuve ou bluff? Évaluation des LLMS le 2025 USA Math Olympiad

Noesis News

Posts Récents

Commentaires Récents

Archives

Catégories

Elon Musk prévient que l’IA « va évidemment faire...

(R) Observer les modèles inattendus dans la demande...

Comment construire un pipeline de données léger avec...

Le navigateur COMET AI de Perplexity pourrait exposer...

Elon Musk prévient que l’IA « va évidemment faire...

(R) Observer les modèles inattendus dans la demande...

Comment construire un pipeline de données léger avec...

Le navigateur COMET AI de Perplexity pourrait exposer...

Pourquoi Jamie a-t-il tué Katie à l’adolescence? Qu’est-ce...

Bitcoin prêt à récupérer 90 000 $, selon...

Les innovations SS atteignent 4 000 chirurgies robotiques...

Apprenez vos animaux de ferme avec l’IA!

L’IA d’Elon Musk propose des

Last Week in AI #297

Voici quelle est la tendance

Noesis News

Related post

Posts Récents

Commentaires Récents

Archives

Catégories

Tags