Modélisation du langage avec des modèles d’espace d’état avec Dan Fu

Aujourd’hui, nous sommes rejoints par Dan Fu, doctorant à l’Université de Stanford. Dans notre conversation avec Dan, nous discutons des limites des modèles d’espace d’État dans la modélisation du langage et de la recherche de blocs de construction alternatifs qui peuvent aider à augmenter la longueur du contexte sans être irréalisable. Dan nous guide à travers la technique de l’architecture et de l’attention des flashs H3, ce qui peut réduire l’empreinte de la mémoire d’un modèle et le rendre possible à affiner. Nous explorons également son travail sur l’amélioration des modèles de langues à l’aide de langues synthétiques, la question de la longueur longue durée de séquence affectant à la fois la formation et l’inférence dans les modèles, et l’espoir de trouver quelque chose de sub-quadratique qui peut effectuer un traitement du langage plus efficacement que l’approche de l’attention de la force brute.