(R) Atlas: Apprendre à mémoriser de manière optimale le contexte au moment du test

 (R) Atlas: Apprendre à mémoriser de manière optimale le contexte au moment du test


Tl; dr: L’équipe de Google Research continue de publier de nouvelles architectures SOTA pour la modélisation des langues autorégressives, soutenue par des considérations théoriques approfondies.

Papier: https://www.arxiv.org/pdf/2505.23735

Abstrait:

Les transformateurs ont été établis comme les squeries les plus populaires dans la modélisation des séquences, principalement en raison de leur efficacité dans les tâches de récupération dans le contexte et de la capacité d’apprendre à grande échelle. Leur mémoire quadratique et leur complexité temporelle, cependant, ont lié leur applicabilité dans des séquences plus longues et ont donc motivé les chercheurs à explorer des architectures alternatives efficaces telles que les réseaux neuronaux récurrents modernes (aka module de mémoire récurrente à long terme). Malgré leur récent succès dans diverses tâches en aval, ils luttent dans des tâches qui nécessitent une longue compréhension du contexte et de l’extrapolation à des séquences plus longues. Nous observons que ces lacunes proviennent de trois aspects disjoints dans leur conception: (1) la capacité de mémoire limitée qui est délimitée par l’architecture de la mémoire et la cartographie des fonctionnalités de l’entrée; (2) Nature en ligne de la mise à jour, c’est-à-dire, optimiser la mémoire uniquement par rapport à la dernière entrée; et (3) une gestion moins expressive de leur mémoire de taille fixe. Pour améliorer ces trois aspects, nous présentons Atlas, un module de mémoire à long terme à haute capacité qui apprend à mémoriser le contexte en optimisant la mémoire en fonction des jetons actuels et passés, surmontant la nature en ligne des modèles de mémoire à long terme. S’appuyant sur cette perspicacité, nous présentons une nouvelle famille d’architectures de type transformateur, appelées profondes, qui sont des généralisations strictes de l’architecture transformateur originale. Nos résultats expérimentaux sur la modélisation linguistique, le raisonnement de bon sens, les tâches de compréhension à forte intensité de rappel et le contexte à long terme montrent que l’ATLAS dépasse les performances des transformateurs et des modèles récurrents linéaires récents. Atlas améliore encore les performances du contexte long des Titans, atteignant une précision de + 80% dans la durée du contexte 10m de Babilong Benchmark.

Faits saillants visuels:

https://preview.redd.it/uo3umo13835f1.png?width=1201&format=png&auto=webp&s=7caf036556ccaae6821a471449ea885345ec42eaea

https://preview.redd.it/37zdk764835f1.png?width=1301&format=png&auto=webp&s=16ea25baa246247a254e3ad0a071fc36c8178951

https://preview.redd.it/yij6yc55835f1.png?width=887&format=png&auto=webp&s=b4c4c28e9ce5abf43f1ecc301293084d6f86a45a

Notez que Atlas (MAG) et Atlas (Mal) sont également des architectures hybrides.

https://preview.redd.it/a724x7n2a35f1.png?width=1203&format=png&auto=webp&s=1c9e7f4328f8dd10593560478e03394bf886a2e2

Le comportement du transformateur sur le panneau de gauche peut s’expliquer par la formation du modèle sur la longueur du contexte 4K, sans aucune extension ultérieure. Le panneau de droite a l’air super impressionnant

soumis par / U / STRARPLEDWATERMELON
(lien) (Commentaires)



Source link

Related post