Apprendre des représentations visolinguistiques avec Vilbert avec Stefan Lee

Aujourd’hui, nous sommes rejoints par Stefan Lee, professeur adjoint à la School of Electrical Engineering and Computer Science à l’Oregon State University. Stefan, avec qui nous nous sommes assis chez Nerips l’hiver dernier, se concentre sur le développement d’agents qui peuvent percevoir leur environnement et communiquer leur compréhension avec les humains afin de coordonner leurs actions pour atteindre les objectifs mutuels. Dans notre conversation, nous nous concentrons sur son papier VILBERT: Professions visiolinguistiques d’agniguistique pré-entraînement pour les tâches de vision et de langageun modèle d’apprentissage des représentations conjointes du contenu d’image et du langage naturel. Nous discutons du processus de développement et de formation pour ce modèle, l’adaptation du processus de formation pour intégrer des informations visuelles supplémentaires aux modèles Bert, où cette recherche mène du point de vue de l’intégration entre les tâches visuelles et linguistiques et enfin, nous discutons de l’importance de la mise à la terre visuelle.