(R) Distillation à l’échelle des modèles de diffusion

Aujourd’hui, notre équipe de Yandex Research a publié un nouvel article, voici l’essentiel des auteurs (qui sont moins actifs ici que moi 🫣): Tl; dr: Nous avons distillé SD3.5 grand / milieu en générateurs rapides en quelques étapes, qui sont aussi rapides que l’échantillonnage en deux étapes et surpassent d’autres méthodes de distillation dans le même budget de calcul. Les modèles de diffusion de texte à l’image (DMS) distillant sont un sujet brûlant pour les accélérer, réduisant les marches à ~ 4. Mais passer à 1-2 étapes est toujours difficile pour les DM de texte à image SOTA. Il y a donc de la place pour repousser les limites en explorant d’autres degrés de liberté. L’un de ces degrés est la résolution spatiale à laquelle les DM fonctionnent sur des étapes de diffusion intermédiaires. Cet article s’inspire de la récente perspicacité que DMS approximative autorégression spectrale et suggère que le DMS n’a pas besoin de travailler à des résolutions élevées pour des niveaux de bruit élevés. L’intuition est simple: le bruit disparaît des fréquences élevées -> Nous n’avons pas besoin de gaspiller en les modélisant à des étapes de diffusion précoces. La méthode proposée, SWD, combine cette idée avec des approches de distillation de diffusion SOTA pour un échantillonnage en quelques étapes et produit des images en les augmentant progressivement à chaque étape de diffusion. Surtout, le tout dans un seul modèle – aucune cascade requise. soumis par / u / _puhsu |