(D) Pourquoi l’extraction de table n’est-elle pas encore résolue par les modèles multimodaux modernes?
|
Il y a beaucoup de battage médiatique autour de modèles multimodaux, tels que Qwen 2.5 VL ou Omni, GOT, Smoldocling, etc. Je voudrais savoir si d’autres ont fait une expérience similaire dans la pratique: bien qu’ils puissent faire des choses impressionnantes, ils ont toujours du mal avec l’extraction de la table, dans les cas qui sont simples pour les humains. Attaché est un exemple simple, tout ce dont j’ai besoin est une reconstruction de la table en tant que CSV plat, préservant correctement toutes les cellules vides vides. Quel modèle open source est capable de le faire? soumis par / u / electronic-leter592 |
