Architectures Mamba, Mamba-2 et post-transformatrice pour une AI générative avec Albert Gu

Aujourd’hui, nous sommes rejoints par Albert Gu, professeur adjoint à l’Université Carnegie Mellon, pour discuter de ses recherches sur les architectures post-transformatrices pour les modèles de fondation multimodale, en mettant l’accent sur les modèles d’espace d’État en général et récent d’Albert Mamba et Mamba-2 papiers en particulier. Nous fouillons dans l’efficacité du mécanisme d’attention et ses limites à la gestion des modalités perceptuelles à haute résolution, et les forces et les faiblesses des architectures de transformateurs par rapport aux alternatives pour diverses tâches. Nous foulons dans le rôle de la tokenisation et des correctifs dans les pipelines transformateurs, soulignant comment l’abstraction et les relations sémantiques entre les jetons sous-tendent l’efficacité du modèle, et explorons comment cela se rapporte au débat entre les pipelines fabriqués à la main et les architectures de bout en bout dans l’apprentissage automatique. De plus, nous abordons le paysage évolutif de modèles hybrides qui intègrent des éléments d’attention et d’état, de l’importance des mécanismes de mise à jour de l’État dans l’adaptabilité des modèles et l’efficacité d’apprentissage, ainsi que la contribution et l’adoption de modèles d’espace d’État comme Mamba et Mamba-2 dans le monde universitaire et l’industrie. Enfin, Albert partage sa vision des modèles de fondation à travers diverses modalités et applications.