(R) Les LLM ont un cœur de pierre: démystifier la capacité de pensée douce des grands modèles de raisonnement

Tl; dr: Jetons mous (une somme pondérée en fonction des probabilités) "dur" jetons. Mais une astuce Gumbel-SoftMax peut récupérer ce problème. Papier: https://www.arxiv.org/pdf/2508.03440 Abstrait:
Faits saillants visuels: soumis par / U / STRARPLEDWATERMELON |