Pourquoi les modèles de raisonnement sont des génies en mathématiques mais stupides dans tout le reste

Auteur (s): Mkwrishere
Publié à l’origine sur Vers l’IA.
Nous avons formé l’IA pour être des génies mathématiques, mais créé par inadvertance des catastrophes conversationnelles. – Université Carnegie Mellon
(Lien non membre)
Les modèles d’IA surpassent constamment les repères mathématiques chaque semaine. Certains battent même des experts humains en compétitions comme les mathématiques et l’AIME.
Mais voici ce dont personne ne parle: ces génies mathématiques ne peuvent souvent pas gérer les conversations de base.
Des chercheurs de l’Université Carnegie Mellon viennent de publier des preuves qui vous feront repenser la façon dont nous formons l’IA. Leur étude a examiné plus de 20 modèles axés sur le raisonnement et a trouvé quelque chose de choquant.
Plus un modèle est en mathématiques, plus il devient pire en tout le reste.
L’équipe de recherche a testé des modèles dans trois catégories distinctes:
Tâches de raisonnement en mathématiques: Math-500, Aime24, Aime25 et Olympiadbench. et mc-taco (raisonnement temporel)
Ils ont créé un indice de transférabilité pour mesurer la façon dont les améliorations des mathématiques se traduisent dans d’autres domaines:
Ti_other (%) = (performance_gain_other / performance_gain_math) × 100ti_non (%) = (performance_gain_non / performance_gain_math) × 100
Les nombres positifs indiquent que les compétences en mathématiques ont aidé à d’autres tâches. Les nombres négatifs indiquent que les performances du modèle ont diminué en capacités générales.
La figure 2 révèle un modèle qui coupe toutes les tailles et architectures de modèle:
Apprentissage du renforcement… Lisez le blog complet gratuitement sur Medium.
Publié via Vers l’IA