NLP 用 Python: 複数のキーワードを含む PDF テキストを処理するには?-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

NLP 用 Python: 複数のキーワードを含む PDF テキストを処理するには?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Sep 28, 2023 pm 10:03 PM

nlp（自然言語処理） Pythonのテキスト処理 PDF処理

Python for NLP：如何处理包含多个关键字的PDF文本？

NLP 用 Python: 複数のキーワードを含む PDF テキストを処理するには?

はじめに:
自然言語処理 (NLP) の分野では、複数のキーワードを含む PDF テキストを処理することが一般的な要件です。この記事では、Python ライブラリを使用してこの機能を実現する方法と、具体的なコード例を紹介します。

準備
始める前に、必要な Python ライブラリをいくつかインストールする必要があります:
PyPDF2: PDF ドキュメントの読み取りと操作に使用します。
re: 正規表現のマッチングに使用されます。

これらのライブラリは、次のコマンドでインストールできます:

pip install PyPDF2

ログイン後にコピー

PDF テキストの読み取り
まず、PDF ドキュメント内のテキストを読み取る必要があります。この機能は、PyPDF2 ライブラリを使用して簡単に実現できます。以下はサンプルコードです:

import PyPDF2

def read_pdf(file_path):
    with open(file_path, 'rb') as file:
        reader = PyPDF2.PdfReader(file)
        text = ''
        for page in reader.pages:
            text += page.extract_text()
    return text

ログイン後にコピー

上記のコードは関数 read_pdf を定義します。この関数は PDF ファイルのパスを入力として受け取り、ファイル内のテキストコンテンツを返します。

キーワードの検索
次に、指定されたキーワードに基づいてテキストを検索する必要があります。この機能は、正規表現 (re) ライブラリを使用して実現できます。以下はサンプルコードです:

import re

def search_keywords(text, keywords):
    matches = []
    for keyword in keywords:
        pattern = re.compile(r'' + keyword + r'', re.IGNORECASE)
        matches.extend(pattern.findall(text))
    return matches

ログイン後にコピー

上記のコードは、テキスト文字列とキーワードリストを入力として受け取り、検索されたキーワードのテキストリストを返す関数 search_keywords を定義します。。

サンプルアプリケーション
次に、上記の 2 つの関数を組み合わせた完全な例を見てみましょう。以下はサンプルコードです。

pdf_file = 'example.pdf'
keywords = ['Python', 'NLP', '文本处理']

text = read_pdf(pdf_file)
matches = search_keywords(text, keywords)

print("关键字搜索结果：")
for match in matches:
    print(match)

ログイン後にコピー

上記のコードでは、まず、処理対象の PDF ファイル example.pdf と一連のキーワードリスト (実際の状況）。次に、read_pdf 関数を呼び出してテキストを読み取り、search_keywords 関数を使用してテキスト内のキーワードを検索します。最後に、すべての検索結果を出力します。

結論:
PyPDF2 と re ライブラリを使用すると、複数のキーワードを含む PDF テキストを簡単に処理できます。上記の例は、実際のニーズに応じてさらに変更および拡張できる基本的なフレームワークを提供します。

注: