Analyse PDF avancée à l’aide de Python (extraction de texte sans tableaux, etc.): quelle est la meilleure bibliothèque?

Je cherche une bibliothèque PDF qui me permettra d’extraire le texte d’un document PDF. J’ai regardé PyPDF, et cela peut très bien extraire le texte d’un document PDF. Le problème est que si le document contient des tables, le texte des tables est extrait en ligne avec le rest du texte du document. Cela peut être problématique car cela produit des sections de texte qui ne sont pas utiles et qui ont l’air brouillé (par exemple, beaucoup de nombres écrasés ensemble).

Je cherche quelque chose de plus avancé. Je voudrais extraire le texte d’un document PDF, à l’ exclusion des tables et du formatage spécial. Y a-t-il une bibliothèque qui fait ça? Ou suis-je obligé de faire du post-traitement sur le texte de sortie pour éliminer ces sections?

Vous pouvez également consulter PDFMiner , un autre parsingur PDF en Python.

La particularité de PDFMiner qui peut vous intéresser est que vous pouvez contrôler la façon dont il regroupe les parties de texte lors de l’extraction. Vous faites cela en spécifiant l’espace entre les lignes, les mots, les caractères, etc. Ainsi, peut-être en tweetant cela vous pouvez obtenir ce que vous voulez (cela dépend de la variabilité de vos documents). PDFMiner peut également vous donner l’emplacement du texte dans la page, il peut extraire des données par ID d’object et d’autres choses. Alors creusez dans PDFMiner et soyez créatif!

Mais votre problème n’est pas facile à résoudre car, dans un PDF, le texte n’est pas continu, mais est composé de nombreux petits groupes de caractères positionnés absolument dans la page. Le but de PDF est de conserver la mise en page intacte. Ce n’est pas orienté contenu mais orienté présentation.

C’est un problème difficile à résoudre car les PDF visuellement similaires peuvent avoir une structure extrêmement différente selon la manière dont ils ont été produits. Dans le pire des cas, la bibliothèque devrait essentiellement agir comme un OCR. D’autre part, le PDF peut contenir suffisamment de structure et de métadonnées pour supprimer facilement les tableaux et les figures, sur lesquels la bibliothèque peut être adaptée pour en tirer parti.

Je suis sûr qu’il n’y a pas d’outils open source qui résolvent votre problème pour une grande variété de fichiers PDF, mais je me souviens d’avoir entendu parler de logiciels commerciaux prétendant faire exactement ce que vous demandez. Je suis sûr que vous les rencontrerez pendant que vous allez sur Google.