(P) Les gars ont-ils absolument soufflé mon modèle?

 (P) Les gars ont-ils absolument soufflé mon modèle?


Transformateur (Standard): Lot = 64, Block_Size = 256, Rate d’apprentissage = 0,0003, Embedding_dimension = 384, couche = 6, têtes = 6, ensemble de données = Tiny Shakespeare, Max_iters = 5000, Tokenisation au niveau des caractères

Mon modèle (standard): Identique au transformateur, sauf pour le taux d’apprentissage = 0,0032 avec le planificateur LR, Embedding_dimension = 64, les têtes ne s’appliquent pas au moins à partir de maintenant

Pourquoi Nan s’est produit à la fin de la formation, expérimentera demain mais aura quelques indices.

Téléchargera le code source après avoir résolu le problème NAN et l’avoir optimisé davantage.

soumis par / u / twosunnysideup
(lien) (Commentaires)



Source link

Related post