Comment puis-je extraire des tableaux structurés d'un PDF présentant des problèmes de police et du texte dans une langue autre que l'anglais ?-Tutoriel Python-php.cn

Comment puis-je extraire des tableaux structurés d'un PDF présentant des problèmes de police et du texte dans une langue autre que l'anglais ?

Linda Hamilton

Libérer： 2024-10-30 16:55:03

original

441 Les gens l'ont consulté

How Can I Extract Structured Tables from a PDF with Font Issues and Non-English Text?

Extraire des tableaux structurés à partir de documents PDF

Question :

Malgré les tentatives de différentes méthodes, vous ne parvenez pas à extraire un tableau structuré données à partir de documents PDF. Plus précisément, la conversion du PDF en HTML donne des résultats insatisfaisants en raison de problèmes de police et de texte non anglais. De plus, l'extraction basée sur les coordonnées XY n'est pas pratique en raison des emplacements potentiellement variables des tableaux dans les futurs PDF.

Analyse d'experts :

Contrairement aux feuilles de calcul structurées, les PDF manquent de données de tableau explicites. Au lieu de cela, ils présentent une combinaison de lignes et de glyphes de caractères que les humains perçoivent comme des tableaux. L'extraction de données tabulaires nécessite des techniques de reconnaissance informatique similaires à la perception humaine.

Dans certaines circonstances, où les PDF suivent systématiquement un format spécifique, il peut être possible d'identifier des modèles et de développer des règles de reconnaissance du contenu des tableaux. Cependant, le document PDF fourni présente un autre défi :

Problème de police intégrée :

Le PDF contient du texte qui n'est pas encodé à l'aide du WinAnsiEncoding revendiqué. Cette divergence entraîne l'extraction de caractères imprévisibles, ce qui rend la récupération directe du texte peu pratique.

Limites de l'extraction de texte :

Copier et coller à partir d'Adobe Reader, un outil d'extraction de texte fiable, ne parvient pas non plus à produire des résultats significatifs. Cela indique que l'extraction de texte sans reconnaissance optique de caractères (OCR) n'est pas réalisable dans ce cas.

Par conséquent, l'extraction de tableaux structurés de votre document PDF, sans recourir à l'OCR, n'est actuellement pas possible.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!