(P) a mis en œuvre le document de recherche «Memorizing Transformers» à partir de zéro avec mes propres modifications supplémentaires en architecture et pipeline de formation personnalisée.

Intelligence Artificielle
Noesis News
août 3, 2025
0
24
3 minutes de lecture

A apporté quelques modifications majeures à l’architecture du modèle et aux hyperparamètres, visant des performances améliorées. L’ensemble du modèle est construit à partir de zéro à l’aide de pytorch. L’article d’origine introduit un mécanisme basé sur la mémoire qui permet au modèle de s’occuper des informations au-delà de sa fenêtre de contexte, permettant une manipulation de contexte à long terme. Au lieu d’un seul mécanisme d’attention, l’architecture incorpore deux types de blocs d’attention: XLATTENTION pour capturer la mémoire à court terme et la knnattention pour permettre une récupération de mémoire à long terme.

Modifications clés de l’article d’origine: • Remplacé le codage positionnel par défaut avec des incorporations de positionnelles rotatives (Corde) • Altéré le mécanisme d’attention pour utiliser l’attention de la requête groupée • Customated the dataloader pour prendre en charge les ensembles de données fracas

HF Repo avec modèle et code de formation est ici:

https://huggingface.co/abhinavv3/gpt_with_modified_memorizing_transformateur

soumis par / u / remarquable-AD3290
(lien) (Commentaires)

Source link

(P) a mis en œuvre le document de recherche «Memorizing Transformers» à partir de zéro avec mes propres modifications supplémentaires en architecture et pipeline de formation personnalisée.

Noesis News

Posts Récents

Commentaires Récents

Archives

Catégories

Elon Musk prévient que l’IA « va évidemment faire...

(R) Observer les modèles inattendus dans la demande...

Comment construire un pipeline de données léger avec...

Le navigateur COMET AI de Perplexity pourrait exposer...

Elon Musk prévient que l’IA « va évidemment faire...

(R) Observer les modèles inattendus dans la demande...

Comment construire un pipeline de données léger avec...

Le navigateur COMET AI de Perplexity pourrait exposer...

Blog des gens •

Économisez 235 $ sur l’outil de diagrammes de...

Rise Robotics collecte des fonds pour les actionneurs...

Comment l’IA changera la conception des puces

L’IA d’Elon Musk propose des

Last Week in AI #297

Voici quelle est la tendance

Noesis News

Related post

Posts Récents

Commentaires Récents

Archives

Catégories

Tags