Entretien avec Yuki Mitsufuji: Amélioration de la génération d’images de l’IA

Yuki Mitsufuji est un chercheur principal chez Sony AI. Yuki et son équipe ont présenté deux articles lors de la récente conférence sur les systèmes de traitement de l’information neuronale (INIPS 2024). Ces œuvres s’attaquent à différents aspects de la génération d’images et ont droit: Genwarp: Image unique à de nouvelles vues avec la déformation générative de préservation sémantique et Pagoda: Grow progressive d’un générateur en une étape d’un professeur de diffusion basse résolution . Nous avons rattrapé Yuki pour en savoir plus sur cette recherche.
Il y a deux recherches que nous aimerions vous poser des questions aujourd’hui. Pourrions-nous commencer par le papier Genwarp? Pourriez-vous décrire le problème sur lequel vous vous concentriez dans ce travail?
Le problème que nous visons à résoudre est appelé synthèse de vue nouvelle à un seul coup, où vous avez une image et que vous souhaitez créer une autre image de la même scène à partir d’un angle de caméra différent. Il y a eu beaucoup de travail dans cet espace, mais un défi majeur demeure: lorsqu’un angle d’image change considérablement, la qualité de l’image se dégrade considérablement. Nous voulions pouvoir générer une nouvelle image basée sur une seule image donnée, ainsi que d’améliorer la qualité, même dans des paramètres de changement d’angle très difficiles.
Comment avez-vous résolu ce problème – quelle était votre méthodologie?
Les travaux existants dans cet espace ont tendance à profiter de l’estimation de la profondeur monoculaire, ce qui signifie qu’une seule image est utilisée pour estimer la profondeur. Ces informations de profondeur nous permettent de modifier l’angle et de modifier l’image en fonction de cet angle – nous l’appelons «Warp». Bien sûr, il y aura des pièces occluses dans l’image, et il manquera des informations sur l’image d’origine sur la façon de créer l’image sous un nouvel angle. Par conséquent, il y a toujours une deuxième phase où un autre module peut interpoler la région occluse. En raison de ces deux phases, dans les travaux existants dans ce domaine, les erreurs géométriques introduites dans la déformation ne peuvent pas être compensées dans la phase d’interpolation.
Nous résolvons ce problème en fusionnant tout ensemble. Nous n’optons pas à une approche en deux phases, mais faisons le tout en même temps dans un seul modèle de diffusion. Pour préserver la signification sémantique de l’image, nous avons créé un autre réseau neuronal qui peut extraire les informations sémantiques à partir d’une image donnée ainsi que des informations de profondeur monoculaire. Nous l’injectons en utilisant un mécanisme de transtention croisée, dans le modèle de diffusion de base principal. Étant donné que la déformation et l’interpolation ont été effectuées dans un modèle et que la partie occluse peut être très bien reconstruite avec les informations sémantiques injectées de l’extérieur, nous avons vu la qualité globale s’améliorer. Nous avons vu des améliorations de la qualité d’image à la fois subjectivement et objectivement, en utilisant des mesures telles que Fid et PSNR.
Les gens peuvent-ils voir certaines des images créées à l’aide de Genwarp?
Oui, nous avons en fait un démoqui se compose de deux parties. L’un montre l’image d’origine et l’autre montre les images déformées sous différents angles.
En passant au papier de pagode, ici vous abordiez le coût de calcul élevé des modèles de diffusion? Comment avez-vous résolu ce problème?
Les modèles de diffusion sont très populaires, mais il est bien connu qu’ils sont très coûteux pour la formation et l’inférence. Nous abordons ce problème en proposant Pagoda, notre modèle qui traite à la fois l’efficacité de la formation et l’efficacité d’inférence.
Il est facile de parler d’efficacité d’inférence, qui se connecte directement à la vitesse de la génération. La diffusion prend généralement de nombreuses étapes itératives vers la sortie finale générée – notre objectif était de sauter ces étapes afin que nous puissions générer rapidement une image en une seule étape. Les gens l’appellent une «génération en une étape» ou une «diffusion en une étape». Il ne doit pas toujours être une étape; Il peut s’agir de deux ou trois étapes, par exemple, «diffusion en quelques étapes». Fondamentalement, la cible est de résoudre le goulot d’étranglement de la diffusion, qui est une méthode de génération itérative en plusieurs étapes qui prend du temps.
Dans les modèles de diffusion, la génération d’une sortie est généralement un processus lent, nécessitant de nombreuses étapes itératives pour produire le résultat final. Une tendance clé dans la progression de ces modèles est la formation d’un «modèle étudiant» qui distille les connaissances d’un modèle de diffusion pré-formé. Cela permet une génération plus rapide – produisant parfois une image en une seule étape. Ceux-ci sont souvent appelés modèles de diffusion distillés. La distillation signifie que, étant donné un enseignant (un modèle de diffusion), nous utilisons ces informations pour former un autre modèle efficace en une étape. Nous l’appelons distillation car nous pouvons distiller les informations du modèle d’origine, qui a une vaste connaissance de la génération de bonnes images.
Cependant, les modèles de diffusion classiques et leurs homologues distillés sont généralement liés à une résolution d’image fixe. Cela signifie que si nous voulons un modèle de diffusion distillé à haute résolution capable d’une génération en une étape, nous aurions besoin de recycler le modèle de diffusion, puis de le distiller à nouveau à la résolution souhaitée.
Cela rend tout le pipeline de formation et de génération tout à fait fastidieux. Chaque fois qu’une résolution plus élevée est nécessaire, nous devons recycler le modèle de diffusion à partir de zéro et passer à nouveau par le processus de distillation, ajoutant une complexité et un temps significatifs au flux de travail.
Le caractère unique de la pagode est que nous nous entraînons à travers différents modèles de résolution dans un système, ce qui lui permet d’atteindre une génération en une étape, ce qui rend le flux de travail beaucoup plus efficace.
Par exemple, si nous voulons distiller un modèle pour des images de 128 × 128, nous pouvons le faire. Mais si nous voulons le faire pour une autre échelle, disons 256 × 256, alors nous devrions faire s’entraîner le professeur sur 256 × 256. Si nous voulons l’étendre encore plus pour des résolutions plus élevées, nous devons le faire plusieurs fois. Cela peut être très coûteux, donc pour éviter cela, nous utilisons l’idée d’une formation en croissance progressive, qui a déjà été étudiée dans le domaine des réseaux adversaires génératifs (GAN), mais pas tant dans l’espace de diffusion. L’idée est que, étant donné le modèle de diffusion de l’enseignant formé sur 64 × 64, nous pouvons distiller les informations et former un modèle en une étape pour toute résolution. Pour de nombreux cas de résolution, nous pouvons obtenir une performance de pointe en utilisant Pagoda.
Pourriez-vous donner une idée approximative de la différence de coût de calcul entre votre méthode et les modèles de diffusion standard. Quel genre d’économie faites-vous?
L’idée est très simple – nous ignorons simplement les étapes itératives. Il dépend fortement du modèle de diffusion que vous utilisez, mais un modèle de diffusion standard typique dans le passé a historiquement utilisé environ 1000 étapes. Et maintenant, les modèles de diffusion modernes et bien optimisés nécessitent 79 étapes. Avec notre modèle qui descend à une étape, nous le regardons environ 80 fois plus rapidement, en théorie. Bien sûr, tout dépend de la façon dont vous implémentez le système, et s’il existe un mécanisme de parallélisation sur les puces, les gens peuvent l’exploiter.
Y a-t-il autre chose que vous aimeriez ajouter sur l’un ou l’autre des projets?
En fin de compte, nous voulons obtenir une génération en temps réel, et pas seulement cette génération se limiter aux images. La génération de son en temps réel est un domaine que nous examinons.
De plus, comme vous pouvez le voir dans la démo d’animation de Genwarp, les images changent rapidement, ce qui le fait ressembler à une animation. Cependant, la démo a été créée avec de nombreuses images générées avec des modèles de diffusion coûteux hors ligne. Si nous pouvions réaliser une génération à grande vitesse, disons avec Pagoda, alors théoriquement, nous pourrions créer des images sous n’importe quel angle à la volée.
En savoir plus:
- Genwarp: Image unique à de nouvelles vues avec la déformation générative de préservation sémantique, Junyoung SEO, Kazumi Fukuda, Takashi Shibuya, Takuya Narihira, Naoki Murata, Shoukang Hu, Chieh-Hsin Lai, Seungryong Kim, Yuki Mitsufuji.
- Démo Genwarp
- Pagoda: Grow progressive d’un générateur en une étape d’un professeur de diffusion basse résolution, Dongjun Kim, Chieh-hsin Lai, Wei-Hsiang Liao, Yuhta Takida, Naoki Murata, Toshimitsu Uesaka, Yuki Mitsufuji, Stefano Ermon.
À propos de Yuki Mitsufuji
![]() |
Yuki Mitsufuji est un chercheur principal chez Sony AI. En plus de son rôle chez Sony AI, il est un ingénieur distingué pour Sony Group Corporation et le chef de Creative AI Lab pour Sony R&D. Yuki est titulaire d’un doctorat en sciences de l’information et technologie de l’Université de Tokyo. Son travail révolutionnaire a fait de lui un pionnier dans la musique fondamentale et le travail sonore, tels que la séparation du son et d’autres modèles génératifs qui peuvent être appliqués à la musique, au son et à d’autres modalités. |
Aihub
est un organisme sans but lucratif dédié à la connexion de la communauté de l’IA au public en fournissant des informations gratuites et de haute qualité en IA.
AIHUB est un organisme sans but lucratif dédié à la connexion de la communauté de l’IA au public en fournissant des informations gratuites et de haute qualité dans l’IA.