(R) Diffusion ambiante Omni: formation de bons modèles avec de mauvaises données

 (R) Diffusion ambiante Omni: formation de bons modèles avec de mauvaises données


Nouveau article sur l’amélioration des modèles génératifs avec des données synthétiques, de faible qualité et hors distribution.

Papier: https://arxiv.org/abs/2506.10038

Blogpost: https://giannisdaras.github.io/publication/ambient_omni

Fil de discussion Twitter: https://x.com/giannis_daras/status/1934656404263928260

Code (version complète en attente): https://github.com/giannisdaras/ambient-omni

https://preview.redd.it/32ubun695c7f1.png?width=1280&format=png&auto=webp&s=3bffe1715d0a1efeb81adc7cd3f0c4c051648c63

Résumé: Nous montrons comment utiliser des images de basse qualité, synthétiques et hors distribution pour améliorer la qualité d’un modèle de diffusion. En règle générale, les modèles de diffusion sont formés sur des ensembles de données organisés qui émergent de pools de données hautement filtrés à partir du Web et d’autres sources. Nous montrons qu’il y a une immense valeur dans les images de qualité inférieure qui sont souvent jetées. Nous présentons une diffusion ambiante Omni, un cadre simple et fondé en principe pour former des modèles de diffusion qui peuvent extraire le signal de toutes les images disponibles pendant la formation. Notre cadre exploite deux propriétés des images naturelles – la décomposition et la localité du droit du pouvoir spectral. Nous validons d’abord notre cadre en formant avec succès des modèles de diffusion avec des images corrompues synthétiquement par un flou gaussien, une compression JPEG et un flou de mouvement. Nous utilisons ensuite notre cadre pour atteindre un IMAMENET FID de pointe, et nous montrons des améliorations significatives à la fois de la qualité d’image et de la diversité pour la modélisation générative du texte à l’image. L’informatique de base est que le bruit atténue le biais initial entre la distribution de haute qualité souhaitée et la distribution mixte que nous observons réellement. Nous fournissons une justification théorique rigoureuse de notre approche en analysant le compromis entre l’apprentissage des données biaisées par rapport aux données non biaisées limitées à travers les temps de diffusion.

soumis par / u / constante_club_9926
(lien) (Commentaires)



Source link

Related post