Extraire du texte pdf dans l’objective C

Jusqu’à présent, je n’avais pas trouvé de solution permettant d’extraire du texte d’un fichier pdf dans Objective C pour l’utiliser sur l’iPhone. J’ai trouvé du code C standard et l’ai modifié pour fonctionner, et j’ai pensé que je le fournirais ici, car jusqu’à présent j’ai utilisé un stackoverflow mais je n’ai jamais rendu. Vous pouvez l’obtenir ici: https://bitbucket.org/zachron/pdfiphone/overview

Il prend en entrée le chemin du fichier pdf et renvoie un nsssortingng du texte dans le pdf. Je n’en ai pas écrit la majorité, mais je l’ai modifié pour qu’il fonctionne avec l’iPhone et l’Objective C. Il faut inclure la bibliothèque Zlib dans votre projet (libz.dylib sur l’iPhone) si quelqu’un prend cela et fait c’est plus génial, c’est du bon temps.

Gardez à l’esprit que cela ne fonctionnera que pour extraire du texte stocké en tant que tel dans le PDF. Il ne numérisera pas les fichiers PDF. Si vous le souhaitez, vous pouvez utiliser Tesseract , le moteur OCR robuste et FOSS de Google. Il comstack sur l’iPhone : voir Tesseract-iPhone-Demo de Nolan Brown pour un exemple concret. La bibliothèque d’images ImageMagic est également compilée sur l’iPhone et vous permettra de convertir des fichiers PDF au format TIFF, que Tesseract accepte en entrée.