GROKKING, GÉNÉRISATION ENCORDE ET LA Dynamique de la formation des réseaux de neurones profonds avec Charles Martin

 GROKKING, GÉNÉRISATION ENCORDE ET LA Dynamique de la formation des réseaux de neurones profonds avec Charles Martin


Aujourd’hui, nous sommes rejoints par Charles Martin, fondateur de Calcul Consulting, pour discuter de Weight Watcher, un outil open-source pour analyser et améliorer les réseaux de neurones profonds (DNN) basés sur les principes de la physique théorique. Nous explorons les fondements de la théorie de l’autorégularisation à la queue lourde (HTSR) qui le sous-tend, qui combine la théorie de la matrice aléatoire et les idées de groupes de renormalisation pour découvrir des informations profondes sur la dynamique de la formation des modèles. Charles nous guide à travers la capacité de Weightwatcher à détecter trois phases d’apprentissage distinctes – sous-ajustées, le gréement et l’effondrement de la généralisation – et comment sa métrique de «qualité de couche» de signature révèle si les couches individuelles sont sous-plaçantes, sur-otittales ou optimalement réglées. De plus, nous fouillons dans les complexités impliquées dans des modèles de réglage fin, la corrélation surprenante entre l’optimalité du modèle et l’hallucination, les défis souvent sous-estimés de la pertinence de recherche et leurs implications pour le chiffon. Enfin, Charles partage ses idées sur les applications du monde réel de l’IA générative et ses leçons tirées de travailler sur le terrain.



Source link

Related post