(R) Les LLM ont un cœur de pierre: démystifier la capacité de pensée douce des grands modèles de raisonnement

 (R) Les LLM ont un cœur de pierre: démystifier la capacité de pensée douce des grands modèles de raisonnement


Tl; dr: Jetons mous (une somme pondérée en fonction des probabilités) "dur" jetons. Mais une astuce Gumbel-SoftMax peut récupérer ce problème.

Papier: https://www.arxiv.org/pdf/2508.03440

Abstrait:

La cognition humaine s’engage naturellement avec des concepts abstraits et fluides, tandis que les modèles de raisonnement existants reposent souvent sur la génération de jetons discrets, ce qui pourrait contraindre potentiellement leurs capacités expressives. Les progrès récents visent à aborder cette limitation en permettant aux modèles de langue importants (LLM) de générer des jetons doux et abstraits, facilitant ainsi le raisonnement dans un espace conceptuel continu. Cet article explore les capacités de «réflexion douce» de divers LLM en examinant le comportement interne des modèles à l’aide d’une suite de techniques de sondage. Contrairement à la croyance commune selon laquelle la pensée douce permet l’exploration simultanée de voies de raisonnement divers, nos résultats révèlent que les LLM s’appuient principalement sur le composant le plus influent des entrées souples au cours des étapes de décodage ultérieures. Cette dépendance entrave l’exploration de différents chemins de raisonnement et réduit la pensée douce de la vanille à une forme de décodage gourmand, masquant l’avantage de transmettre plus d’informations à travers des jetons mous. Pour résoudre ce problème, nous explorons des stratégies d’échantillonnage pour introduire emph {aléatoire}, en utilisant des méthodes telles que le rééchantillonnage de Dirichlet et l’astuce Gumbel-Softmax. Nos expériences démontrent que l’intégration de l’aléatoire peut atténuer les limites des approches de vanille et libérer le potentiel de la pensée douce. Notamment, l’astuce Gumbel-SoftMax offre un aléatoire adéquat avec une douceur contrôlée, entraînant des performances supérieures sur huit repères de raisonnement.

Faits saillants visuels:

https://preview.redd.it/zza3t8r17fhf1.png?width=1099&format=png&auto=webp&s=e12815cb0774bce2a2614b2c3ad0df47b071d8c8

https://preview.redd.it/Lulzrar27fhf1.png?width=1109&format=png&auto=webp&s=0fd5cd8dc90a9c09afb46dbd8e0412a72800dbe3

soumis par / U / STRARPLEDWATERMELON
(lien) (Commentaires)



Source link

Related post