(D) Comment extraire le tableau du PDF comme celui-ci?

 (D) Comment extraire le tableau du PDF comme celui-ci?


J’ai essayé avec PDFPLUMBER et PYPDF2, et les API LLM telles qu’Openai et Claude, mais aucun d’eux ne fonctionne.

PDFPLUMBER et PYPDF2 peuvent généralement recoganiser le contenu de la table, mais manquer beaucoup de chiffres, et la structure du tableau est gâchée.

Les API LLM peuvent bien générer la structure du tableau, mais ont beaucoup de mauvais nombres. Par exemple, est recoganisé comme 8 ou 9 …

J’essaie d’extraire toutes les données et d’essayer un modèle ARIMA pour la pratique, mais coincé à la toute première étape – obtenir les données …

Des suggetions?

https://preview.redd.it/tr8ifgrd5Tue1.png?width=2032&format=png&auto=webp&s=0ac820ab2250f5d0fd0dced9149a52b5bde59f99

Les données proviennent du Toronto Regional Real Estate Board. Ils n’offrent pas de données brutes, semblent. Au moins, je ne le trouve pas.

soumis par / u / ericytt
(lien) (Commentaires)



Source link

Related post