(R) preuve ou bluff? Évaluation des LLMS le 2025 USA Math Olympiad

 (R) preuve ou bluff? Évaluation des LLMS le 2025 USA Math Olympiad


Preuve ou bluff? Évaluation des LLMS le 2025 USA Math Olympiad
Ivo Petrov, Jasper Dekoninck, Lyuben Baltadzhiev, Maria Drencheva, Kristian Minchev, Mislav Balunović, Nikola Jovanović, Martin Vechev – Eth Zurich, Insait, Sofia University "St. Kliment Ohridski"
Les récentes repères mathématiques pour les modèles de grande langue (LLM) tels que Matharena indiquent que les modèles de raisonnement de pointe atteignent des performances impressionnantes sur des compétitions mathématiques comme l’AIME, avec le modèle leader, O3-Mini, réalisant des scores comparables aux principaux concurrents humains. Cependant, ces repères évaluent les modèles uniquement sur la base de réponses numériques finales, négligeant un raisonnement rigoureux et une génération d’épreuves qui sont essentiels pour les tâches mathématiques du monde réel. Pour y remédier, nous introduisons la première évaluation complète du raisonnement en pleine solution pour contester les problèmes mathématiques. En utilisant des annotateurs humains experts, nous avons évalué plusieurs modèles de raisonnement de pointe sur les six problèmes de l’USAMO 2025 dans les heures suivant leur libération. Nos résultats révèlent que tous les modèles testés ont eu du mal de manière significative, atteignant moins de 5% en moyenne. Grâce à une analyse détaillée des traces de raisonnement, nous identifions les modes de défaillance les plus courants et trouvons plusieurs artefacts indésirables résultant des stratégies d’optimisation utilisées lors de la formation modèle. Dans l’ensemble, nos résultats suggèrent que les LLM actuelles sont inadéquates pour des tâches de raisonnement mathématique rigoureuses, mettant en évidence la nécessité d’une amélioration substantielle des capacités de raisonnement et de production d’épreuve.
Arxiv: 2503.21934 (CS.CL): https://arxiv.org/abs/2503.21934v1

https://preview.redd.it/nyjvsp0lb7se1.jpg?width=1291&format=pjpg&auto=webp&s=96500fd5c539a3bca4ee96a8ae2fc39b6757e476

soumis par / u / nunki08
(lien) (Commentaires)



Source link

Related post