(P) les meilleurs modèles pour lire les codes à partir de petits extraits de papier déchiré

 (P) les meilleurs modèles pour lire les codes à partir de petits extraits de papier déchiré


Salut tout le monde,

Je travaille sur une tâche qui implique la lecture de codes alphanumériques à 9 caractères à partir de petits extraits de papier comme celui de l’image ci-dessous. Ceux-ci sont similaires aux codes de bon ou aux séries imprimées. Voici un exemple d’image:

J’ai environ 300 images de ce type que je peux utiliser pour un réglage fin. L’objectif est de soit: soit:

  • Utilisez un modèle pré-formé
  • Affinez un modèle OCR approprié pour extraire avec précision la chaîne à 9 caractères.

Jusqu’à présent, j’ai essayé ce qui suit:

  • Troc: Ajusté sur mon ensemble de données mais n’a pas donné d’excellents résultats. Peut-être en raison de paramètres de formation sous-optimaux.
  • Smoldocling: Léger mais pas très précis sur mon ensemble de données.
  • Llama3.2-vision: Fonctionne dans une certaine mesure, mais pas fiable pour une lecture précise des personnages.
  • Yolo (formé sur mesure): Formé un modèle de détection d’objet pour identifier les caractères individuels, puis concaténer les détections dans une chaîne. Cela a en fait donné les meilleurs résultats jusqu’à présent, mais il y a des cas de bord (par exemple, une mauvaise détection de "je") où il échoue.

Je soupçonne qu’un modèle plus spécialisé dans la détection des chaînes OCR, en particulier pour les codes courts, fonctionnerait mieux que la détection d’objets ou les grands modèles de langue de vision.

Des suggestions de modèles ou d’approches qui conviendraient bien à cette tâche? Points bonus si le modèle est relativement léger et facile à déployer.

Exemple de l’extrait de papier

soumis par / U / EHPPHDOCTOR007
(lien) (Commentaires)



Source link

Related post