(P) a mis en œuvre le document de recherche «Memorizing Transformers» à partir de zéro avec mes propres modifications supplémentaires en architecture et pipeline de formation personnalisée.

A apporté quelques modifications majeures à l’architecture du modèle et aux hyperparamètres, visant des performances améliorées. L’ensemble du modèle est construit à partir de zéro à l’aide de pytorch. L’article d’origine introduit un mécanisme basé sur la mémoire qui permet au modèle de s’occuper des informations au-delà de sa fenêtre de contexte, permettant une manipulation de contexte à long terme. Au lieu d’un seul mécanisme d’attention, l’architecture incorpore deux types de blocs d’attention: XLATTENTION pour capturer la mémoire à court terme et la knnattention pour permettre une récupération de mémoire à long terme. Modifications clés de l’article d’origine: • Remplacé le codage positionnel par défaut avec des incorporations de positionnelles rotatives (Corde) • Altéré le mécanisme d’attention pour utiliser l’attention de la requête groupée • Customated the dataloader pour prendre en charge les ensembles de données fracas HF Repo avec modèle et code de formation est ici: https://huggingface.co/abhinavv3/gpt_with_modified_memorizing_transformateur soumis par / u / remarquable-AD3290 |