Imaginez tout en raisonnement dans l’espace: visualisation multimodale de pensée avec Chengzu Li

Aujourd’hui, nous sommes rejoints par Chengzu Li, doctorant à l’Université de Cambridge pour discuter de son récent article, «Imaginez tout en raisonnement dans l’espace: visualisation multimodale de pensée». Nous explorons les motivations derrière MVOT, sa connexion avec des travaux antérieurs comme TopViewrs et sa relation avec les principes des sciences cognitives telles que la théorie du double codage. Nous fouillons dans le cadre MVOT avec ses différents environnements de tâches: le lac de lame, du mini-comportement et du lac gelé. Nous explorons la perte de divergence de jetons, une technique conçue pour aligner le langage et les incorporations visuelles, assurant des représentations visuelles précises et significatives. De plus, nous couvrons le processus de collecte et de formation des données, le raisonnement sur les relations spatiales relatives entre les différentes entités et le raisonnement spatial dynamique. Enfin, Chengzu partage les idées des expériences avec MVOT, en se concentrant sur les leçons apprises et le potentiel d’application de ces modèles dans des scénarios du monde réel comme la robotique et la conception architecturale.