Extraire du texte de fichiers PDF avec Python
En Python, extraire du texte de fichiers PDF est une tâche courante souvent accomplie à l'aide de la bibliothèque PyPDF2. Lorsque vous tentez d'extraire du texte à l'aide de PyPDF2, il est possible de rencontrer des écarts dans le contenu extrait par rapport au PDF d'origine.
Explication du problème
Le script fourni, écrit en PyPDF2 , extrait avec succès le texte du fichier PDF mais rencontre des caractères corrompus dans la sortie. En effet, PyPDF2 ne peut pas gérer certains encodages utilisés dans les documents PDF.
Solution
Pour résoudre ce problème, pensez à utiliser la bibliothèque Tika. Tika-Python fournit une interface Python aux services REST d'Apache Tika, offrant des capacités d'extraction de texte avec une gestion améliorée de divers encodages.
Exemple de code
from tika import parser # pip install tika raw = parser.from_file('sample.pdf') print(raw['content'])
Notes supplémentaires
Tika nécessite un environnement d'exécution Java. Assurez-vous de l'avoir installé avant d'utiliser Tika-Python. De plus, Tika peut consommer de la mémoire supplémentaire par rapport à PyPDF2, alors tenez compte de cet aspect lors de la sélection de la meilleure solution pour votre application.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!