(D) Perte de train / Val extrêmement faible (

 (D) Perte de train / Val extrêmement faible (


Je prédisse actuellement GPT-2 Small sur le sous-ensemble de jeton 10B de Fineweb Edu. Les seules différences que mon modèle a du modèle GPT-2 d’origine sont les incorporations de position (j’utilise la corde), les couches MLP (j’utilise Swiglu), les tailles de lot (j’augmente linéairement la taille du lot de 32k à 525k sur les premiers jetons ~ 2B), et la normalisation (je utilise RMSNORM). J’utilise également BF16, FSDPV2 avec SPMD, un TPU V3-8 et Syncfree ADAMW. Je me suis assuré que les cibles sont compensées par 1 à partir des entrées et j’ai vérifié le masquage de l’attention. Mon code peut être trouvé ici. Pourquoi mes pertes sont-elles si faibles?

Mes poids et biais Tableau de bord

soumis par / u / new-skin-5064
(lien) (Commentaires)



Source link

Related post