(R) Nous avons enseigné aux modèles génératifs pour segmenter uniquement les meubles et les voitures, mais ils ont en quelque sorte généralisé à essentiellement tout le reste …

 (R) Nous avons enseigné aux modèles génératifs pour segmenter uniquement les meubles et les voitures, mais ils ont en quelque sorte généralisé à essentiellement tout le reste …


Papier: https://arxiv.org/abs/2505.15263

Site web: https://reachomk.github.io/gen2seg/

Démo en câlins: https://huggingface.co/spaces/reachomk/gen2seg

Abstrait:

En pré-formation de synthétiser des images cohérentes à partir d’entrées perturbées, les modèles génératifs apprennent intrinsèquement à comprendre les limites des objets et les compositions de scène. Comment pouvons-nous réutiliser ces représentations génératives pour une organisation perceptuelle à usage général? Nous finettune stable Diffusion et MAE (Encodeur + décodeur) pour la segmentation des instances de catégorie d’agnostiques en utilisant notre perte de coloriage d’instance exclusivement sur un ensemble étroit de types d’objets (mobilier intérieur et voitures). Étonnamment, nos modèles présentent une forte généralisation zéro, segmentant avec précision des objets de types et de styles invisibles dans les finetuning (et dans de nombreux cas, l’imaget-1k de Mae a également prélèvement). Nos modèles les plus performants approchent étroitement du SAM fortement supervisé lorsqu’ils sont évalués sur des types d’objets et des styles invisibles, et la surpassent lors de la segmentation des structures fines et des limites ambiguës. En revanche, les architectures de segmentation promptables existantes ou les modèles pré-étendus discriminants ne parviennent pas à généraliser. Cela suggère que les modèles génératifs apprennent un mécanisme de regroupement inhérent qui se transfère entre les catégories et les domaines, même sans pré-formation à l’échelle Internet. Le code, les modèles pré-entraînés et les démos sont disponibles sur notre site Web.

soumis par / u / patientwrongDoer9257
(lien) (Commentaires)



Source link

Related post