Python PDF テキスト抽出で文字化けした出力が生成されるのはなぜですか?それを修正するにはどうすればよいですか?-Python チュートリアル-php.cn

Python PDF テキスト抽出で文字化けした出力が生成されるのはなぜですか?それを修正するにはどうすればよいですか?

Barbara Streisand

リリース： 2024-12-03 15:53:11

オリジナル

1071 人が閲覧しました

Why Does My Python PDF Text Extraction Produce Garbled Output, and How Can I Fix It?

Python を使用した PDF テキストの抽出: 出力の不一致のトラブルシューティング

Python の PyPDF2 ライブラリを使用して PDF ファイルからテキストを抽出しようとすると、次のような問題が発生します。出力が PDF ドキュメント内のテキストと異なることを確認します。具体的には、出力が歪んで読めない文字が含まれています。

PDF テキストを効果的に抽出するには、Tika パッケージを使用することをお勧めします。 PyPDF2 とは異なり、元の書式を保持しながら PDF テキスト抽出をサポートします。

Tika を使用してテキストを抽出する方法は次のとおりです:

from tika import parser # pip install tika

raw = parser.from_file('sample.pdf')
print(raw['content'])

ログイン後にコピー

Tika は Java ランタイムに依存していることに注意してください。 Python で使用する前にインストールする必要があります。

以上がPython PDF テキスト抽出で文字化けした出力が生成されるのはなぜですか?それを修正するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。