Parse Documents, y compris les images, les tables, les équations, les graphiques et le code.

Intelligence Artificielle
Noesis News
mai 15, 2025
0
45
3 minutes de lecture

Auteur (s): Ahmed Boulahia

Publié à l’origine sur Vers l’IA.

Améliorez votre pipeline de chiffon en utilisant Smoldocling pour analyser les documents complexes (tables, équations, graphiques et code) dans votre Vector DBImage créée par la structure AuthorVision +: Smoldocling est un nouveau modèle de paramètre de 256m qui lit des pages de documents entières et les convertit en un format de balisage de doctags riches capturant le contenu et la mise en page.compact & Fast: malgré sa petite taille, il correspond à la précision des modèles 10–27 × plus grand. Il fonctionne rapidement (≈0,35s / page sur un A100 GPU). CARACTÉRISTIQUES CLÉS: OCR intégrée avec boîtes de délimitation, reconnaissance de formule / code, analyse de table / graphique, regroupement de liste, liaison de légende, etc., le tout dans un package de bout en bout.

Avez-vous déjà essayé de copier-coller du texte à partir d’un document de recherche PDF et s’est retrouvé avec du charabia, des chiffres manquants ou des équations mal formées? Les documents complexes sont souvent emballés avec des éléments non texte comme des images, des graphiques, des tables et des mathématiques, ce simple IA basé sur le texte ne peut pas gérer.

Smoldocling vise à changer cela, c’est un modèle d’IA multimodal conçu pour traiter une image de page entière et sortir une représentation structurée unique et structurée de tout.

Dans cet article, nous verrons pourquoi la combinaison de la vision et du langage est essentielle pour les documents modernes, et comment les fonctionnalités de Smoldocling le laissent convertir des documents complexes de bout en bout.

Document traditionnel L’IA a souvent traité les pages comme un «texte juste». Un modèle commun était: exécuter un moteur OCR pour obtenir tous les mots (et leurs positions), puis alimenter cela dans un modèle de texte.

Des systèmes comme Layoutlm… Lisez le blog complet gratuitement sur Medium.

Publié via Vers l’IA

Source link

Parse Documents, y compris les images, les tables, les équations, les graphiques et le code.

Auteur (s): Ahmed Boulahia

Noesis News

Posts Récents

Commentaires Récents

Archives

Catégories

Elon Musk prévient que l’IA « va évidemment faire...

(R) Observer les modèles inattendus dans la demande...

Comment construire un pipeline de données léger avec...

Le navigateur COMET AI de Perplexity pourrait exposer...

Elon Musk prévient que l’IA « va évidemment faire...

(R) Observer les modèles inattendus dans la demande...

Comment construire un pipeline de données léger avec...

Le navigateur COMET AI de Perplexity pourrait exposer...

Pourquoi Jamie a-t-il tué Katie à l’adolescence? Qu’est-ce...

Bitcoin prêt à récupérer 90 000 $, selon...

Les innovations SS atteignent 4 000 chirurgies robotiques...

Apprenez vos animaux de ferme avec l’IA!

L’IA d’Elon Musk propose des

Last Week in AI #297

Voici quelle est la tendance

Auteur (s): Ahmed Boulahia

Noesis News

Related post

Posts Récents

Commentaires Récents

Archives

Catégories

Tags