(P) Comprendre le muon: un optimiseur de réseau neuronal révolutionnaire


(P) Comprendre le muon: un optimiseur de réseau neuronal révolutionnaire

https://preview.redd.it/oiupfzxptlff1.png?width=1536&format=png&auto=webp&s=ffc81d2aad36267e19040a2ce4515a93362690a

Je viens de publier une ventilation de Muon, l’optimiseur alimentant le nouveau modèle de paramètre OS Sota Tillion Kimi K2 et battant GPT-4.

💡 Pourquoi Muon est-il un gros problème?

Il repense la façon dont nous optimisons les réseaux de neurones en traitant des matrices de poids non seulement comme des nombres, mais comme des objets géométriques conduisant à 35% de formation plus rapide avec 15% de jetons en moins.

J’adorerais entendre vos suggestions 🙂

https://glorious-potato-19.Notion.site/Understanding-Muon-a-Revolutionary-neural-Network-Optimizer-233ffa7f40c4800afa5cc843e039327

https://preview.redd.it/r50mbmjrtldf1.png?width=1242&format=png&auto=webp&s=67e799f1a77deaa762f8d8a459d051826bffe37eaaea

soumis par / u / glorious__potato
(lien) (Commentaires)



Source link

Related post