(D) combiner des invites en boîte et point avec SAM 2.1 pour une segmentation plus cohérente – les meilleures pratiques?

 (D) combiner des invites en boîte et point avec SAM 2.1 pour une segmentation plus cohérente – les meilleures pratiques?


Je développe une application en utilisant SAM 2.1 (via FastAPI) pour la segmentation des objets en temps réel à partir d’un flux de caméra en direct. Le frontend envoie une boîte ou une invite de point au backend, qui renvoie un masque composé dans une toile pour la manipulation et l’exportation.

Chaque type d’invite fonctionne bien isolément – mais ils sont incohérents dans différentes classes d’objets. Quelques exemples:

  • Plante en pot: Une invite de boîte capture le feuillage mais exclut souvent le pot. Une invite ponctuelle sur les feuilles segmente parfois une seule feuille, en particulier avec des tiges fines ou une texture dense.
  • Theragun / outil portable: Un point près de la poignée donne souvent d’excellents résultats. Une invite de boîte renvoie parfois l’arrière-plan ou les sur-segments d’objets à proximité.

J’explore maintenant en combinant les deux types d’invites: dessiner une boîte de délimitation et permettant à l’utilisateur de taper à l’intérieur pour renforcer l’intention. Puisque SAM 2.1 accepte les deux boxes et point_coords + point_labelscela semble réalisable – mais je suis curieux:

  • D’autres ici ont-ils essayé de combiner ces invites dans des outils de production ou de recherche?
  • Y a-t-il des heuristiques que vous avez trouvées efficaces pour hiérarchiser ou pondérer les types d’invites dans des contextes ambigus?
  • Utilisez-vous multimask_output=True et appliquer après la sélection en fonction de la zone, de l’IOU ou de la saillance visuelle?
  • Des architectures ou des méthodes recommandées pour le raffinement du masque après une segmentation SAM basée sur une invite (par exemple pour récupérer de petits appendices comme les fils, les racines ou les intérieurs creux)?

J’apprécierais les informations de toute personne déploiement des variantes SAM ou expérimentant les UIS de segmentation. Essayer d’optimiser pour une large classe d ‘«objets physiques irréguliers» où les limites sémantiques ne sont pas toujours visuellement dominantes.

soumis par / u / w0nx
(lien) (Commentaires)



Source link

Related post