ホームページ > バックエンド開発 > Python チュートリアル > Python PDF テキスト抽出で文字化けした出力が生成されるのはなぜですか?それを修正するにはどうすればよいですか?

Python PDF テキスト抽出で文字化けした出力が生成されるのはなぜですか?それを修正するにはどうすればよいですか?

Barbara Streisand
リリース: 2024-12-03 15:53:11
オリジナル
1020 人が閲覧しました

Why Does My Python PDF Text Extraction Produce Garbled Output, and How Can I Fix It?

Python を使用した PDF テキストの抽出: 出力の不一致のトラブルシューティング

Python の PyPDF2 ライブラリを使用して PDF ファイルからテキストを抽出しようとすると、次のような問題が発生します。出力が PDF ドキュメント内のテキストと異なることを確認します。具体的には、出力が歪んで読めない文字が含まれています。

PDF テキストを効果的に抽出するには、Tika パッケージを使用することをお勧めします。 PyPDF2 とは異なり、元の書式を保持しながら PDF テキスト抽出をサポートします。

Tika を使用してテキストを抽出する方法は次のとおりです:

from tika import parser # pip install tika

raw = parser.from_file('sample.pdf')
print(raw['content'])
ログイン後にコピー

Tika は Java ランタイムに依存していることに注意してください。 Python で使用する前にインストールする必要があります。

以上がPython PDF テキスト抽出で文字化けした出力が生成されるのはなぜですか?それを修正するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート