(D) Pourquoi l’extraction de table n’est-elle pas encore résolue par les modèles multimodaux modernes?

 (D) Pourquoi l’extraction de table n’est-elle pas encore résolue par les modèles multimodaux modernes?


Il y a beaucoup de battage médiatique autour de modèles multimodaux, tels que Qwen 2.5 VL ou Omni, GOT, Smoldocling, etc. Je voudrais savoir si d’autres ont fait une expérience similaire dans la pratique: bien qu’ils puissent faire des choses impressionnantes, ils ont toujours du mal avec l’extraction de la table, dans les cas qui sont simples pour les humains.

Attaché est un exemple simple, tout ce dont j’ai besoin est une reconstruction de la table en tant que CSV plat, préservant correctement toutes les cellules vides vides. Quel modèle open source est capable de le faire?

https://preview.redd.it/krox7ytlhvre1.png?width=1650&format=png&auto=webp&s=5daa7f68f4acc55f4bdac3b2defa21b9ebfae0d9

soumis par / u / electronic-leter592
(lien) (Commentaires)



Source link

Related post