(P) Besoin de suggestions: construire une récupération multimodale précise pour les PDF SOP avec des images de capture d’écran (pile Azure)

 (P) Besoin de suggestions: construire une récupération multimodale précise pour les PDF SOP avec des images de capture d’écran (pile Azure)


Je travaille sur un système de chiffons multimodal au niveau de l’industrie pour traiter Documents PDF de procédure d’exploitation MST qui contiennent Des centaines de captures d’écran dense du texte (Je suis en stage dans l’une des 10 meilleures sociétés de logistique au monde). Ces captures d’écran montrent visuellement des actions étape par étape (par exemple, cliquez sur les boutons, entrez du texte) et ont parfois minuscules changements d’interface utilisateur (par exemple, Box surligné, nouvelle flèche, modifications de champ) indiquant la prochaine action.

Par exemple, par exemple de ce à quoi ressemble les images AVG. Les images dans les documents auront 2x de texte de plus que cela et auront des boîtes rouges, des flèches, etc … pour indiquer quelle action doit être effectuée).

Ce que j’ai essayé (pile native Azure):

  • Créé Rangement blob Pour contenir des PDF / images
  • Installation Recherche Azure AI (Rag multimodal dans l’importation et la fonction de données vectoriser)
  • Déployé Azure Openai GPT-4O pour la verbalisation de l’image
  • Utilisé texton pour la vectorisation de texte
  • A couru l’indexeur pour traiter et ater les PDF

Mais les résultats n’étaient pas précis. Gpt-4o hallucinéa raté presque tous les petits changements visuels, et a souvent donné des interprétations génériques qui étaient bien éloignées du contenu du PDF. J’ai besoin du modèle pour:

  1. Avec précision Comprendre à la fois le contenu texte et les images de capture d’écran
  2. Détecter les petits changements d’interface utilisateur (Par exemple, la boîte surlignée, nouveau champ, bouton cliquée, Arrows) Pour déduire l’étape correcte
  3. Interpréter visuels non UI comme Organigrammes, graphiques, etc.
  4. S’il pouvait récupérer et montrer l’image qui est interrogée sur ce serait encore mieux
  5. Être entièrement déployable dans Azuré et accessible aux équipes internes

Pile que je peux utiliser:

  • Azure ML (calcul GPU, pipelines, points de terminaison)
  • Azure Ai Vision (OCR), Azure AI Search
  • Azure Openai (GPT-4O, modèles d’intégration, etc.)
  • Fonderie AI, fonctions azure, cosmosdb, etc …
  • Je peux essayer d’autres aussi, ça doit juste fonctionner avec Azure

GPT m’a donné cette suggestion pour mon cas particulier. Bienvenue aux suggestions sur les modèles open source et autres

À la recherche de suggestions des scientifiques des données / ingénieurs qui ont abordé Capture d’écran / SOP compréhension ou chiffon visuel basé sur l’image.
Que changeriez-vous? Des astuces pour réduire les hallucinations? Dois-je affiner les VLM comme Blip ou opter pour un détecteur d’interface utilisateur personnalisé?

Merci d’avance : )

soumis par / u / légèrement soupport7917
(lien) (Commentaires)



Source link

Related post