Vidéo en tant qu’interface universelle pour le raisonnement de l’IA avec Sherry Yang

Aujourd’hui, nous sommes rejoints par Sherry Yang, chercheur principal chez Google Deepmind et doctorant à l’UC Berkeley. Dans cette interview, nous discutons de son nouvel article, « La vidéo en tant que nouvelle langue pour la prise de décision du monde réel », qui explore comment les modèles vidéo génératifs peuvent jouer un rôle similaire aux modèles de langue comme moyen de résoudre les tâches dans le monde réel. Sherry tire l’analogie entre le langage naturel en tant que représentation unifiée des informations et de la prédiction de texte comme interface de tâche commune et montre comment la vidéo en tant que vidéo médium et générative en tant que tâche présente des propriétés similaires. Cette formulation permet aux modèles de génération de vidéos de jouer une variété de rôles du monde réel en tant que planificateurs, agents, moteurs de calcul et simulateurs d’environnement. Enfin, nous explorons Unisim, une démo interactive du travail de Sherry et un aperçu de sa vision pour interagir avec les environnements générés par l’IA.