Parse Documents, y compris les images, les tables, les équations, les graphiques et le code.

 Parse Documents, y compris les images, les tables, les équations, les graphiques et le code.


Auteur (s): Ahmed Boulahia

Publié à l’origine sur Vers l’IA.

Améliorez votre pipeline de chiffon en utilisant Smoldocling pour analyser les documents complexes (tables, équations, graphiques et code) dans votre Vector DBImage créée par la structure AuthorVision +: Smoldocling est un nouveau modèle de paramètre de 256m qui lit des pages de documents entières et les convertit en un format de balisage de doctags riches capturant le contenu et la mise en page.compact & Fast: malgré sa petite taille, il correspond à la précision des modèles 10–27 × plus grand. Il fonctionne rapidement (≈0,35s / page sur un A100 GPU). CARACTÉRISTIQUES CLÉS: OCR intégrée avec boîtes de délimitation, reconnaissance de formule / code, analyse de table / graphique, regroupement de liste, liaison de légende, etc., le tout dans un package de bout en bout.

Avez-vous déjà essayé de copier-coller du texte à partir d’un document de recherche PDF et s’est retrouvé avec du charabia, des chiffres manquants ou des équations mal formées? Les documents complexes sont souvent emballés avec des éléments non texte comme des images, des graphiques, des tables et des mathématiques, ce simple IA basé sur le texte ne peut pas gérer.

Smoldocling vise à changer cela, c’est un modèle d’IA multimodal conçu pour traiter une image de page entière et sortir une représentation structurée unique et structurée de tout.

Dans cet article, nous verrons pourquoi la combinaison de la vision et du langage est essentielle pour les documents modernes, et comment les fonctionnalités de Smoldocling le laissent convertir des documents complexes de bout en bout.

Document traditionnel L’IA a souvent traité les pages comme un «texte juste». Un modèle commun était: exécuter un moteur OCR pour obtenir tous les mots (et leurs positions), puis alimenter cela dans un modèle de texte.

Des systèmes comme Layoutlm… Lisez le blog complet gratuitement sur Medium.

Publié via Vers l’IA



Source link

Related post