(P) Comprendre le muon: un optimiseur de réseau neuronal révolutionnaire
![]() |
Je viens de publier une ventilation de Muon, l’optimiseur alimentant le nouveau modèle de paramètre OS Sota Tillion Kimi K2 et battant GPT-4. 💡 Pourquoi Muon est-il un gros problème? Il repense la façon dont nous optimisons les réseaux de neurones en traitant des matrices de poids non seulement comme des nombres, mais comme des objets géométriques conduisant à 35% de formation plus rapide avec 15% de jetons en moins. J’adorerais entendre vos suggestions 🙂 soumis par / u / glorious__potato |