(P) Besoin de suggestions: construire une récupération multimodale précise pour les PDF SOP avec des images de capture d’écran (pile Azure)

Intelligence Artificielle
Noesis News
juin 19, 2025
0
80
5 minutes de lecture

Je travaille sur un système de chiffons multimodal au niveau de l’industrie pour traiter Documents PDF de procédure d’exploitation MST qui contiennent Des centaines de captures d’écran dense du texte (Je suis en stage dans l’une des 10 meilleures sociétés de logistique au monde). Ces captures d’écran montrent visuellement des actions étape par étape (par exemple, cliquez sur les boutons, entrez du texte) et ont parfois minuscules changements d’interface utilisateur (par exemple, Box surligné, nouvelle flèche, modifications de champ) indiquant la prochaine action.

Par exemple, par exemple de ce à quoi ressemble les images AVG. Les images dans les documents auront 2x de texte de plus que cela et auront des boîtes rouges, des flèches, etc … pour indiquer quelle action doit être effectuée).

Ce que j’ai essayé (pile native Azure):

Créé Rangement blob Pour contenir des PDF / images
Installation Recherche Azure AI (Rag multimodal dans l’importation et la fonction de données vectoriser)
Déployé Azure Openai GPT-4O pour la verbalisation de l’image
Utilisé texton pour la vectorisation de texte
A couru l’indexeur pour traiter et ater les PDF

Mais les résultats n’étaient pas précis. Gpt-4o hallucinéa raté presque tous les petits changements visuels, et a souvent donné des interprétations génériques qui étaient bien éloignées du contenu du PDF. J’ai besoin du modèle pour:

Avec précision Comprendre à la fois le contenu texte et les images de capture d’écran
Détecter les petits changements d’interface utilisateur (Par exemple, la boîte surlignée, nouveau champ, bouton cliquée, Arrows) Pour déduire l’étape correcte
Interpréter visuels non UI comme Organigrammes, graphiques, etc.
S’il pouvait récupérer et montrer l’image qui est interrogée sur ce serait encore mieux
Être entièrement déployable dans Azuré et accessible aux équipes internes

Pile que je peux utiliser:

Azure ML (calcul GPU, pipelines, points de terminaison)
Azure Ai Vision (OCR), Azure AI Search
Azure Openai (GPT-4O, modèles d’intégration, etc.)
Fonderie AI, fonctions azure, cosmosdb, etc …
Je peux essayer d’autres aussi, ça doit juste fonctionner avec Azure

GPT m’a donné cette suggestion pour mon cas particulier. Bienvenue aux suggestions sur les modèles open source et autres

À la recherche de suggestions des scientifiques des données / ingénieurs qui ont abordé Capture d’écran / SOP compréhension ou chiffon visuel basé sur l’image.
Que changeriez-vous? Des astuces pour réduire les hallucinations? Dois-je affiner les VLM comme Blip ou opter pour un détecteur d’interface utilisateur personnalisé?

Merci d’avance : )

soumis par / u / légèrement soupport7917
(lien) (Commentaires)

Source link

(P) Besoin de suggestions: construire une récupération multimodale précise pour les PDF SOP avec des images de capture d’écran (pile Azure)

Ce que j’ai essayé (pile native Azure):

Noesis News

Posts Récents

Commentaires Récents

Archives

Catégories

Elon Musk prévient que l’IA « va évidemment faire...

(R) Observer les modèles inattendus dans la demande...

Comment construire un pipeline de données léger avec...

Le navigateur COMET AI de Perplexity pourrait exposer...

Elon Musk prévient que l’IA « va évidemment faire...

(R) Observer les modèles inattendus dans la demande...

Comment construire un pipeline de données léger avec...

Le navigateur COMET AI de Perplexity pourrait exposer...

Blog des gens •

Économisez 235 $ sur l’outil de diagrammes de...

Rise Robotics collecte des fonds pour les actionneurs...

Comment l’IA changera la conception des puces

L’IA d’Elon Musk propose des

Last Week in AI #297

Voici quelle est la tendance

Ce que j’ai essayé (pile native Azure):

Noesis News

Related post

Posts Récents

Commentaires Récents

Archives

Catégories

Tags