(R) Tout est connecté: un voyage à travers la mémorisation du temps de test, le biais attentionnel, la rétention et l’optimisation en ligne

 (R) Tout est connecté: un voyage à travers la mémorisation du temps de test, le biais attentionnel, la rétention et l’optimisation en ligne


Tl; dr L’article présente un cadre théorique unifié décrivant l’organisation de la mémoire des architectures modernes (tramsformateurs, RNNS, etc.) et évalue plusieurs modèles de mémoire entièrement nouveaux qui peuvent être dérivés de ce cadre.

Papier: https://www.arxiv.org/pdf/2504.13173

Abstrait:

La conception des squeries architecturales efficaces et efficaces a été au cœur des efforts de recherche pour améliorer la capacité des modèles de fondation. Inspiré par le phénomène cognitif humain du biais attentionnel – la tendance naturelle à hiérarchiser certains événements ou les stimuli-nous reconceptualiser les architectures neuronales, y compris les transformateurs, les titans et les réseaux neuronaux récurrents linéaires modernes en tant que modules de mémoire associatifs qui apprennent une cartographie des clés et des valeurs en utilisant un objectif interne, référé en tant que BIA attentionnels. Étonnamment, nous avons observé que la plupart des modèles de séquence existants exploitent (1) la similitude du produit de point, soit (2) les objectifs de régression L2 comme biais attentionnelle. En dépassant ces objectifs, nous présentons un ensemble de configurations de biais d’attention alternatives ainsi que leurs approximations efficaces pour stabiliser leur procédure de formation. Nous réinterprétons ensuite les mécanismes d’oubli dans les architectures d’apprentissage en profondeur modernes comme une forme de régularisation de rétention, fournissant un nouvel ensemble de portes d’oubli pour les modèles de séquence. S’appuyant sur ces idées, nous présentons Miras, un cadre général pour concevoir des architectures d’apprentissage en profondeur basées sur quatre choix de: (i) Architecture de mémoire associative, (ii) Objectif du biais attentionnel, (iii) Gate de rétention et (iv) algorithme d’apprentissage de la mémoire. Nous présentons trois nouveaux modèles de séquence monéta, Yaad et Memora qui vont au-delà de la puissance des RNN linéaires existants tout en conservant un processus de formation parallélisable rapide. Nos expériences montrent différents choix de conception dans les modèles de rendement miras avec des forces variables. Par exemple, certains cas de MIRAS atteignent des performances exceptionnelles dans des tâches spéciales telles que la modélisation du langage, le raisonnement de bon sens et les tâches intensives de rappel, même surperformant les transformateurs et d’autres modèles récurrents linéaires modernes.

Résumé visuel:

https://preview.redd.it/yjcr3t4quzve1.png?width=1147&format=png&auto=webp&s=923BBD6240A3BB54AEB95A6B48BDAB3190B8E01

Faits saillants visuels:

https://preview.redd.it/eb35u98ovzve1.png?width=1105&format=png&auto=webp&s=90af5c35dadb372912110d9fc3172697b719ee06

https://preview.redd.it/pmozss1pvzve1.png?width=1169&format=png&auto=webp&s=f61654e865ce53c041ca6ce5b6e177294cbc453f

Les modèles marqués de ★ sont proposés par les auteurs

https://preview.redd.it/lh2cp70rvzve1.png?width=1327&format=png&auto=webp&s=61f344dc9e0bb330d03ee15e3a572355988f01e4

soumis par / U / STRARPLEDWATERMELON
(lien) (Commentaires)



Source link

Related post