この記事では、Python を使用して多数の PDF ファイルのテキスト コンテンツをバッチで抽出する方法を説明します。
まず、ファイル操作を実行するためにいくつかのモジュールを読み込みます。 (推奨される学習: Python ビデオ チュートリアル )
import glob import os
デモ ディレクトリには、pdf と newpdf という 2 つのフォルダーがあります。
pdf ファイルが配置されているパスを pdf フォルダーとして指定します。
pdf_path = "pdf/"
すべての PDF ファイルのパスを取得したいと考えています。 glob を使用すると、この機能は 1 つのコマンドで完了できます。
pdfs = glob.glob("{}/*.pdf".format(pdf_path))
取得した PDF ファイルのパスが正しいかどうかを確認してください。
pdfs
['pdf/复杂系统仿真的微博客虚假信息扩散模型研究.pdf', 'pdf/面向影子分析的社交媒体竞争情报搜集.pdf', 'pdf/面向人机协同的移动互联网政务门户探析.pdf']
確認しました。正確な。
以下では、pdfminer を使用して PDF ファイルからコンテンツを抽出します。ヘルパー Python ファイル pdf_extractor.py から関数 extract_pdf_content を読み取る必要があります。
from pdf_extractor import extract_pdf_content
この関数を使用して、PDF ファイル リストの最初の記事からコンテンツを抽出し、そのテキストを content 変数に保存しようとします。
content = extract_pdf_content(pdfs[0])
明らかに、コンテンツの抽出は完全ではなく、ヘッダー、フッター、その他の情報が混在しています。ただし、テキスト分析の用途の多くでは、これは問題になりません。
Python 関連の技術記事の詳細については、Python チュートリアル 列にアクセスして学習してください。
以上がPythonでPDFテキストを抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。