(D) gpt-2 petit pas convergent malgré l’utilisation des mêmes hyperparams que la karpathie

 (D) gpt-2 petit pas convergent malgré l’utilisation des mêmes hyperparams que la karpathie


Pour une raison quelconque, ma perte de formation continue à osciller et ne tombe jamais en dessous de 4 après une époque. Il génère toujours des ordures comme: "Il était une fois, avec un exemple seul, pré deg; est une maladie, la plaque décontractée américaine. Roberts of Campaign"(Il était une fois l’invite). J’utilise la petite architecture GPT-2 et la formation sur Fineweb-Edu 10b. La taille du lot est de ~ 525k jetons et j’utilise 0,1 abandon. Parce que le Kaggle TPU tire après 9 heures, je reversais le dernier point de contrôle le lendemain pour reprendre la formation, ce qui, je pense, est la raison pour laquelle le taux d’apprentissage augmente au hasard dans le graphique. J’ai vérifié mon dataloader et il semble charger correctement le texte à partir des éclats. Si quelqu’un sait ce que je fais mal, j’apprécierais vos commentaires.

Voici mon code pour référence: https://github.com/sr5434/llm/blob/main/gpt-2-pretraining.ipynb

J’ai également modifié le même pipeline, rétréci le modèle et entraîné sur Tinystories V2, et le modèle a commencé à générer un meilleur texte après 900 étapes que les autres en plus de 20 000! La seule différence entre les deux pipelines est le dataloader, car Fineweb est fragné, mais pas les minystories. Cette implémentation peut être trouvée ici: https://github.com/sr5434/llm/blob/main/gpt-2-pretraining.ipynb

https://preview.redd.it/07m56zpx6y7f1.png?width=789&format=png&auto=webp&s=f99900a3d0ac834dea630baf7641cee2204072d3

soumis par / u / new-skin-5064
(lien) (Commentaires)



Source link

Related post