Fusion de jeton dynamique pour des modèles de langue de niveau octet efficaces avec

Aujourd’hui, nous sommes rejoints par Julie Kallini, étudiante au doctorat à l’Université de Stanford pour discuter de ses récents articles, «MRT5: fusion de jetons dynamiques pour des modèles de langue de niveau octet efficaces» et «Mission: Modèles de langue impossible». Pour l’article MRT5, nous explorons l’importance et les défaillances de la tokenisation dans les modèles de langues importants – y compris les taux de compression inefficaces pour les langues sous-ressources – et creuser dans la modélisation au niveau des octets comme alternative. Nous discutons de l’architecture de MRT5, de sa capacité à apprendre les taux de compression spécifiques à la langue, de ses performances sur les références multilingues et les tâches de manipulation au niveau des caractères, ainsi que ses performances et son efficacité. Pour l’article «Mission: Impossible Language Models», nous passons en revue l’idée principale derrière la recherche, la définition et la création de langues impossibles, la création de jeux de données de formation en langage impossible et explorer le biais des architectures de modèle de langue vers le langage naturel.