Comment lire les fichiers PDF en Java?

Je veux lire des données de texte à partir d’un fichier PDF en utilisant Java. S’il vous plaît aidez-moi à le faire.

Toute aide est appréciée.

PDFBox est la meilleure bibliothèque que j’ai trouvée à cet effet, elle est complète et très facile à utiliser si vous ne faites que l’extraction de texte de base. Des exemples peuvent être trouvés ici .

Il l’explique sur la page, mais une chose à surveiller est que les index de début et de fin lors de l’utilisation de setStartPage () et de setEndPage () sont tous deux inclus. J’ai sauté cette explication pour la première fois et il m’a fallu du temps pour comprendre pourquoi je recevais plus d’une page à chaque appel!

Itext est une autre alternative qui fonctionne aussi avec C #, même si je ne l’ai jamais utilisée personnellement. C’est un niveau plus bas que PDFBox, donc moins adapté au travail si tout ce dont vous avez besoin est une extraction de texte de base.

PDFBox contient des outils pour l’extraction de texte .

iText prend en charge la manipulation de texte à un niveau inférieur, mais vous devez écrire une quantité considérable de code pour extraire du texte.

iText in Action contient un bon aperçu des limites de l’extraction de texte à partir de PDF, quelle que soit la bibliothèque utilisée (Section 18.2: Extraction et édition de texte), et une explication convaincante de l’absence de support d’extraction de texte. En bref, il est relativement facile d’écrire un code qui traitera des cas simples, mais il est fondamentalement impossible d’extraire du texte d’un fichier PDF en général.

avec Apache PDFBox ça va comme ceci:

PDDocument document = PDDocument.load(new File("test.pdf")); if (!document.isEncrypted()) { PDFTextSsortingpper ssortingpper = new PDFTextSsortingpper(); Ssortingng text = ssortingpper.getText(document); System.out.println("Text:" + text); } document.close(); 

Utilisez une bibliothèque PDF telle que iText .