(P) a mis en œuvre le document de recherche «Memorizing Transformers» à partir de zéro avec mes propres modifications supplémentaires en architecture et pipeline de formation personnalisée.

 (P) a mis en œuvre le document de recherche «Memorizing Transformers» à partir de zéro avec mes propres modifications supplémentaires en architecture et pipeline de formation personnalisée.


A apporté quelques modifications majeures à l’architecture du modèle et aux hyperparamètres, visant des performances améliorées. L’ensemble du modèle est construit à partir de zéro à l’aide de pytorch. L’article d’origine introduit un mécanisme basé sur la mémoire qui permet au modèle de s’occuper des informations au-delà de sa fenêtre de contexte, permettant une manipulation de contexte à long terme. Au lieu d’un seul mécanisme d’attention, l’architecture incorpore deux types de blocs d’attention: XLATTENTION pour capturer la mémoire à court terme et la knnattention pour permettre une récupération de mémoire à long terme.

Modifications clés de l’article d’origine: • Remplacé le codage positionnel par défaut avec des incorporations de positionnelles rotatives (Corde) • Altéré le mécanisme d’attention pour utiliser l’attention de la requête groupée • Customated the dataloader pour prendre en charge les ensembles de données fracas

HF Repo avec modèle et code de formation est ici:

https://huggingface.co/abhinavv3/gpt_with_modified_memorizing_transformateur

soumis par / u / remarquable-AD3290
(lien) (Commentaires)



Source link

Related post