(P) Comment extraire le diagramme et remettre en question le texte séparément d’une image comme celle-ci? Un ensemble de données?

 (P) Comment extraire le diagramme et remettre en question le texte séparément d’une image comme celle-ci? Un ensemble de données?


Salut les gars,
Je travaille sur un script qui prend une image comme celle-ci (capture d’écran d’un PDF / MCQ) et la divise en deux images distinctes:

  • un avec juste le question du texte
  • Et un avec juste le diagramme

J’ai essayé les approches YOLOV8 et Basic OpenCV, mais je n’ai pas trouvé de bons ensembles de données qui correspondent à cette mise en page, c’est-à-dire un texte mixte avec un diagramme à côté ou le chevauchant (comme dans les livres ou les tests)

Des idées sur les ensembles de données que je pourrais utiliser?
Ou une meilleure approche recommanderiez-vous, peut-être en utilisant des modèles de mise en page comme Donut, Pix2Struct ou autre chose?

https://preview.redd.it/iypcp3jvk13f1.png?width=711&format=png&auto=webp&s=96ea8a5aec7d3691129ceb5c56df2bf1d0a75c5b5b

Exemple d’image

soumis par / u / joie_pesimist_0
(lien) (Commentaires)



Source link

Related post