Genie: environnements interactifs génératifs avec Ashley Edwards

 Genie: environnements interactifs génératifs avec Ashley Edwards


Aujourd’hui, nous sommes rejoints par Ashley Edwards, membre du personnel technique de la piste, pour discuter Genie: environnements interactifs génératifsun système de création d’environnements vidéo «jouables» pour la formation des agents d’apprentissage en renforcement profond (RL) à grande échelle d’une manière complètement non supervisée. Nous explorons les motivations derrière Genie, les défis de l’acquisition de données pour RL et la capacité de Genie à apprendre les modèles mondiaux à partir de vidéos sans données d’action explicites, permettant une interaction transparente et une prédiction de cadre. Ashley nous guide à travers les composants principaux de Genie – le modèle d’action latent, le tokenzer et le modèle de dynamique – et explique comment ces éléments collaborent pour prédire les trames futures dans les séquences vidéo. Nous discutons de l’architecture du modèle, des stratégies de formation, des repères utilisés, ainsi que de l’application de transformateurs spatio-temporels et des techniques de maskgit utilisées pour une prédiction et une représentation efficaces de jetons. Enfin, nous avons abordé les implications pratiques de Genie, sa comparaison avec d’autres modèles de génération de vidéos comme «Sora» et les directions futures potentielles dans les modèles de génération de vidéos et de diffusion.



Source link

Related post