(P) Besoin de suggestions: construire une récupération multimodale précise pour les PDF SOP avec des images de capture d’écran (pile Azure)
|
Je travaille sur un système de chiffons multimodal au niveau de l’industrie pour traiter Documents PDF de procédure d’exploitation MST qui contiennent Des centaines de captures d’écran dense du texte (Je suis en stage dans l’une des 10 meilleures sociétés de logistique au monde). Ces captures d’écran montrent visuellement des actions étape par étape (par exemple, cliquez sur les boutons, entrez du texte) et ont parfois minuscules changements d’interface utilisateur (par exemple, Box surligné, nouvelle flèche, modifications de champ) indiquant la prochaine action. Ce que j’ai essayé (pile native Azure):
Mais les résultats n’étaient pas précis. Gpt-4o hallucinéa raté presque tous les petits changements visuels, et a souvent donné des interprétations génériques qui étaient bien éloignées du contenu du PDF. J’ai besoin du modèle pour:
Pile que je peux utiliser:
À la recherche de suggestions des scientifiques des données / ingénieurs qui ont abordé Capture d’écran / SOP compréhension ou chiffon visuel basé sur l’image. Merci d’avance : ) soumis par / u / légèrement soupport7917 |
