ホームページ > バックエンド開発 > Python チュートリアル > PythonでPDFテキストを抽出する方法

PythonでPDFテキストを抽出する方法

(*-*)浩
リリース: 2019-07-09 10:21:49
オリジナル
6078 人が閲覧しました

この記事では、Python を使用して多数の PDF ファイルのテキスト コンテンツをバッチで抽出する方法を説明します。

PythonでPDFテキストを抽出する方法

まず、ファイル操作を実行するためにいくつかのモジュールを読み込みます。 (推奨される学習: Python ビデオ チュートリアル )

import glob
import os
ログイン後にコピー

デモ ディレクトリには、pdf と newpdf という 2 つのフォルダーがあります。

pdf ファイルが配置されているパスを pdf フォルダーとして指定します。

pdf_path = "pdf/"
ログイン後にコピー

すべての PDF ファイルのパスを取得したいと考えています。 glob を使用すると、この機能は 1 つのコマンドで完了できます。

pdfs = glob.glob("{}/*.pdf".format(pdf_path))
ログイン後にコピー

取得した PDF ファイルのパスが正しいかどうかを確認してください。

pdfs
ログイン後にコピー
['pdf/复杂系统仿真的微博客虚假信息扩散模型研究.pdf',
'pdf/面向影子分析的社交媒体竞争情报搜集.pdf',
'pdf/面向人机协同的移动互联网政务门户探析.pdf']
ログイン後にコピー

確認しました。正確な。

以下では、pdfminer を使用して PDF ファイルからコンテンツを抽出します。ヘルパー Python ファイル pdf_extractor.py から関数 extract_pdf_content を読み取る必要があります。

from pdf_extractor import extract_pdf_content
ログイン後にコピー

この関数を使用して、PDF ファイル リストの最初の記事からコンテンツを抽出し、そのテキストを content 変数に保存しようとします。

content = extract_pdf_content(pdfs[0])
ログイン後にコピー

明らかに、コンテンツの抽出は完全ではなく、ヘッダー、フッター、その他の情報が混在しています。ただし、テキスト分析の用途の多くでは、これは問題になりません。

Python 関連の技術記事の詳細については、Python チュートリアル 列にアクセスして学習してください。

以上がPythonでPDFテキストを抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート