(P) Nanonets-OCR-S: un modèle d’image à mark-to-mark open source avec latex, les tables, les signatures, les cases et plus

 (P) Nanonets-OCR-S: un modèle d’image à mark-to-mark open source avec latex, les tables, les signatures, les cases et plus


Nous sommes ravis de partager Nanonets-oCr-Sun modèle VLM puissant et léger (3b) qui convertit les documents en Réduction. Ce modèle est formé pour comprendre la structure des documents et le contexte de contenu (comme les tables, les équations, les images, les parcelles, les filigranes, les cases à cocher, etc.).

🔍 Caractéristiques clés:

  • Reconnaissance de l’équation du latex Convertit les mathématiques en ligne et au niveau du bloc en latex correctement formaté, distinguant entre $...$ et $$...$$.
  • Descriptions d’images pour les LLM Décrit des images intégrées en utilisant <img> Tags. Gère les logos, les graphiques, les parcelles, etc.
  • Détection et isolement de la signature Trouve et étiquette des signatures dans des documents numérisés, les étendant dans <signature> blocs.
  • Extraction de filigrane Extrait le texte de filigrane et le stocke à l’intérieur <watermark> Tag pour la traçabilité.
  • Gestion de la boîte à cocher intelligente et de la radio Convertit les cases à cocher en symboles Unicode comme ☑, ☒ et ☐ pour l’analyse fiable dans les applications en aval.
  • Extraction de table complexe Gangle des tables multi-rangs / colonnes, préservant la structure et sortie à la fois Réduction et Html formats.

HuggingFace / Github / Essayez-le:
Carte de modèle HuggingFace
Lire l’annonce complète
Essayez-le avec Docext à Colab

Cocher les cases

Équations

Descriptions d’images

Signature

Tables

Filigrane

soumis par / u / souvikmandal
(lien) (Commentaires)



Source link

Related post