Python untuk NLP: Bagaimana untuk mengendalikan teks PDF yang mengandungi berbilang kata kunci?-Tutorial Python-php.cn

Python untuk NLP: Bagaimana untuk mengendalikan teks PDF yang mengandungi berbilang kata kunci?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Lepaskan： 2023-09-28 22:03:36

asal

1560 orang telah melayarinya

Python for NLP：如何处理包含多个关键字的PDF文本？

Python untuk NLP: Bagaimana untuk memproses teks PDF yang mengandungi berbilang kata kunci?

Pengenalan:
Dalam bidang pemprosesan bahasa semula jadi (NLP), pemprosesan teks PDF yang mengandungi berbilang kata kunci adalah keperluan biasa. Artikel ini akan memperkenalkan cara menggunakan perpustakaan Python untuk mencapai fungsi ini, dan memberikan contoh kod khusus.

Persediaan
Sebelum kita mula, kita perlu memasang beberapa perpustakaan Python yang diperlukan:
PyPDF2: untuk membaca dan memanipulasi dokumen PDF.
re: untuk padanan ekspresi biasa.

Perpustakaan ini boleh dipasang melalui arahan berikut:

pip install PyPDF2

Salin selepas log masuk

Baca teks PDF
Pertama, kita perlu membaca teks dalam dokumen PDF. Fungsi ini boleh dicapai dengan mudah menggunakan perpustakaan PyPDF2. Berikut ialah contoh kod:

import PyPDF2

def read_pdf(file_path):
    with open(file_path, 'rb') as file:
        reader = PyPDF2.PdfReader(file)
        text = ''
        for page in reader.pages:
            text += page.extract_text()
    return text

Salin selepas log masuk

Kod di atas mentakrifkan fungsi read_pdf yang menerima laluan fail PDF sebagai input dan mengembalikan kandungan teks dalam fail. read_pdf，该函数接受一个PDF文件的路径作为输入，并返回该文件中的文本内容。

搜索关键字
接下来，我们需要根据给定的关键字来搜索文本。使用正则表达式(re)库可以实现这一功能。以下是一个示例代码：

import re

def search_keywords(text, keywords):
    matches = []
    for keyword in keywords:
        pattern = re.compile(r'' + keyword + r'', re.IGNORECASE)
        matches.extend(pattern.findall(text))
    return matches

Salin selepas log masuk

上面的代码定义了一个函数search_keywords，该函数接受一个文本字符串和一个关键字列表作为输入，并返回在文本中找到的关键字列表。

示例应用
现在让我们看一个完整的示例，将上面的两个函数结合起来。以下是一个示例代码：

pdf_file = 'example.pdf'
keywords = ['Python', 'NLP', '文本处理']

text = read_pdf(pdf_file)
matches = search_keywords(text, keywords)

print("关键字搜索结果：")
for match in matches:
    print(match)

Salin selepas log masuk

上面的代码首先指定了一个要处理的PDF文件example.pdf和一组关键字列表（可以根据实际情况进行修改）。然后，它调用read_pdf函数读取文本，并使用search_keywords

Seterusnya, kita perlu mencari teks berdasarkan kata kunci yang diberikan. Kefungsian ini boleh dicapai menggunakan perpustakaan ungkapan biasa (semula). Berikut ialah contoh kod:

Kod di atas mentakrifkan fungsi search_keywords yang menerima rentetan teks dan senarai kata kunci sebagai input dan mengembalikan kata kunci yang terdapat dalam senarai teks.

Sekarang mari kita lihat contoh lengkap yang menggabungkan dua fungsi di atas. Berikut ialah contoh kod:
rrreee

example.pdf

read_pdf

search_keywords

Kesimpulan:

Dengan menggunakan PyPDF2 dan perpustakaan semula, kami boleh memproses teks PDF yang mengandungi berbilang kata kunci dengan mudah. Contoh di atas menyediakan rangka kerja asas yang boleh diubah suai dan dikembangkan mengikut keperluan sebenar.

Nota:
Apabila menggunakan PyPDF2 untuk memproses dokumen PDF, anda perlu mengetahui beberapa pengehadan, contohnya, sesetengah dokumen mungkin tidak mengekstrak teks dengan betul.

🎜Padanan ungkapan biasa mungkin menghasilkan hasil yang berbeza disebabkan kata kunci yang berbeza, dan boleh dilaraskan mengikut situasi sebenar. 🎜🎜🎜Rujukan: 🎜🎜🎜Dokumentasi PyPDF2: https://pythonhosted.org/PyPDF2/index.html 🎜🎜Dokumentasi perpustakaan semula Python: https://docs.python.org/3/library/re.html🎜

Atas ialah kandungan terperinci Python untuk NLP: Bagaimana untuk mengendalikan teks PDF yang mengandungi berbilang kata kunci?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!