フォントの問題や英語以外のテキストを含む PDF から構造化表を抽出するにはどうすればよいですか?-Python チュートリアル-php.cn

フォントの問題や英語以外のテキストを含む PDF から構造化表を抽出するにはどうすればよいですか?

Linda Hamilton

リリース： 2024-10-30 16:55:03

オリジナル

442 人が閲覧しました

How Can I Extract Structured Tables from a PDF with Font Issues and Non-English Text?

PDF ドキュメントから構造化テーブルを抽出する

質問:

別の方法を試しても、構造化テーブルを抽出できませんPDF ドキュメントからのデータ。具体的には、PDF を HTML に変換すると、フォントの問題や英語以外のテキストが原因で満足のいく結果が得られません。さらに、XY 座標に基づく抽出は、将来の PDF でテーブルの配置が変わる可能性があるため、現実的ではありません。

エキスパート分析:

構造化スプレッドシートとは異なり、PDF には明示的なテーブルデータがありません。代わりに、人間が表として認識する線と文字グリフの組み合わせが表示されます。表形式のデータを抽出するには、人間の知覚と同様の計算認識技術が必要です。

PDF が一貫して特定の形式に従っている特定の状況では、パターンを識別し、表の内容を認識するためのルールを開発できる可能性があります。ただし、提供されている PDF ドキュメントにはさらなる課題があります:

埋め込みフォントの問題:

PDF には、主張されている WinAnsiEncoding を使用してエンコードされていないテキストが含まれています。この不一致により、予測できない文字が抽出され、テキストの直接取得が現実的ではなくなります。

テキスト抽出の制限:

信頼性の高いテキスト抽出ツールである Adobe Reader からのコピーアンドペースト。意味のある結果も得られません。これは、この場合、光学式文字認識 (OCR) を使用しないテキスト抽出は実行できないことを示しています。

したがって、OCR を使用せずに PDF ドキュメントから構造化テーブルを抽出することは、現時点では不可能です。

以上がフォントの問題や英語以外のテキストを含む PDF から構造化表を抽出するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。