(D) Perte de train / Val extrêmement faible (

Intelligence Artificielle
Noesis News
juin 25, 2025
0
43
2 minutes de lecture

Je prédisse actuellement GPT-2 Small sur le sous-ensemble de jeton 10B de Fineweb Edu. Les seules différences que mon modèle a du modèle GPT-2 d’origine sont les incorporations de position (j’utilise la corde), les couches MLP (j’utilise Swiglu), les tailles de lot (j’augmente linéairement la taille du lot de 32k à 525k sur les premiers jetons ~ 2B), et la normalisation (je utilise RMSNORM). J’utilise également BF16, FSDPV2 avec SPMD, un TPU V3-8 et Syncfree ADAMW. Je me suis assuré que les cibles sont compensées par 1 à partir des entrées et j’ai vérifié le masquage de l’attention. Mon code peut être trouvé ici. Pourquoi mes pertes sont-elles si faibles?

Mes poids et biais Tableau de bord

soumis par / u / new-skin-5064
(lien) (Commentaires)

Source link

(D) Perte de train / Val extrêmement faible (

Noesis News

Posts Récents

Commentaires Récents

Archives

Catégories

Génération d’images rétiniennes pour la découverte de la...

ABB, Regal Rexnord Partner sur 7e axe

J’ai testé tous les principaux LLM pour le...

Judea Pearl: raisonnement causal, contrefactuels, réseaux bayésiens et...

Génération d’images rétiniennes pour la découverte de la...

ABB, Regal Rexnord Partner sur 7e axe

J’ai testé tous les principaux LLM pour le...

Judea Pearl: raisonnement causal, contrefactuels, réseaux bayésiens et...

Donald Trump s’est senti obligé d’expliquer ce qu’il...

« M’a obligé à faire semblant d’être un requin »:...

Robot de tennis accéléré avec mode Vision et...

La fille du Happy Face Killer a utilisé...

L’IA d’Elon Musk propose des

Last Week in AI #297

Pump.fun déploie le Pumpswap Dex

Noesis News

Related post

Posts Récents

Commentaires Récents

Archives

Catégories

Tags