Extraire des données de texte à partir de fichiers PDF

Est-il possible d’parsingr des données texte à partir de fichiers PDF dans R? Il ne semble pas y avoir de paquetage pertinent pour une telle extraction , mais est-ce que quelqu’un a tenté ou vu cela dans R?

En Python, il y a PDFMiner , mais je voudrais garder cette parsing tout en R si possible.

Aucune suggestion?

Les systèmes Linux ont un pdftotext lequel j’ai eu un succès raisonnable. Par défaut, il crée foo.txt partir d’un foo.pdf .

Cela dit, les packages de text mining peuvent avoir des convertisseurs. Une recherche rapide rseek.org semble concorder avec votre recherche crantastic.

Ceci est un fil très ancien, mais pour référence future: le paquetage pdftools R extrait le texte des fichiers PDF.

Un collègue m’a parlé de cet outil open source pratique: http://tabula.nerdpower.org/ . Installez, téléchargez le fichier PDF et sélectionnez la table dans le fichier PDF nécessitant une mise en forme des données. Pas une solution directe dans R, mais certainement meilleure que le travail manuel.

Une solution purement R pourrait être:

 library('tm') file <- 'namefile.pdf' Rpdf <- readPDF(control = list(text = "-layout")) corpus <- VCorpus(URISource(file), readerControl = list(reader = Rpdf)) corpus.array <- content(content(corpus)[[1]]) 

alors vous aurez des lignes pdf dans un tableau.

L’application d’extraction de table PDF tabula est basée sur une application de ligne de commande basée sur un package JAR Java, tabula-extractor .

Le package R tabulizer fournit un wrapper R qui facilite la transmission du chemin vers un fichier PDF et l’extraction des données extraites des tables de données.

Tabula aura une bonne idée de savoir où se trouvent les tables, mais vous pouvez également lui indiquer la partie de la page à examiner en spécifiant une zone cible de la page.

Les données peuvent être extraites de plusieurs pages et une zone différente peut être spécifiée pour chaque page, si nécessaire.

Pour un exemple de cas d’utilisation, voir: Lorsque les documents deviennent des bases de données – Tabulizer R Wrapper pour Tabula PDF Extracteur de tableaux .

 install.packages("pdftools") library(pdftools) 

download.file (” http://www.nfl.com/liveupdate/gamecenter/56901/DEN_Gamebook.pdf “, “56901.DEN.Gamebook”, mode = “wb”)

 txt <- pdf_text("56901.DEN.Gamebook") cat(txt[1]) 

J’ai utilisé un utilitaire externe pour effectuer la conversion et je l’ai appelé depuis R. Tous les fichiers avaient une table de premier plan avec les informations souhaitées

Définissez le chemin d’access vers pdftotxt.exe et convertissez le pdf en texte

 exeFile <- "C:/Projects/xpdfbin-win-3.04/bin64/pdftotext.exe" for(i in 1:length(pdfFracList)){ fileNumber <- str_sub(pdfFracList[i], start = 1, end = -5) pdfSource <- paste0(reportDir,"/", fileNumber, ".pdf") txtDestination <- paste0(reportDir,"/", fileNumber, ".txt") print(paste0("File number ", i, ", Processing file ", pdfSource)) system(paste(exeFile, "-table" , pdfSource, txtDestination, sep = " "), wait = TRUE) } 

https://ropensci.org/blog/2016/03/01/pdftools-and-jeroen

Cela devrait aider beaucoup

Cela aide beaucoup pour l’extraction de pdf