Bagaimana untuk mengekstrak maklumat secara berkumpulan daripada PDF menggunakan Python

PHPz
Lepaskan: 2024-03-02 09:25:16
ke hadapan
630 orang telah melayarinya

Bagaimana untuk mengekstrak maklumat secara berkumpulan daripada PDF menggunakan Python

Untuk menggunakan python untuk mengekstrak maklumat daripada pdf, anda boleh menggunakan perpustakaan Python yang dipanggil PyPDF2. Berikut ialah contoh mudah untuk membantu anda mula mengekstrak maklumat teks daripada PDF:

Pertama, anda perlu memasang perpustakaan PyPDF2. Pustaka boleh dipasang dalam terminal atau command prompt menggunakan arahan berikut:

pip install PyPDF2
Salin selepas log masuk

Kemudian, anda boleh menggunakan kod berikut untuk mengekstrak maklumat teks daripada PDF:

import PyPDF2

def extract_text_from_pdf(pdf_path):
with open(pdf_path, 'rb') as file:
pdf = PyPDF2.PdfFileReader(file)
text = ""
for page_number in range(pdf.getNumPages()):
page = pdf.getPage(page_number)
text += page.extractText()
return text

# 批量提取PDF中的文本信息
pdf_folder = "pdf文件夹路径"
output_folder = "输出文件夹路径"

import os

for filename in os.listdir(pdf_folder):
if filename.endswith(".pdf"):
pdf_path = os.path.join(pdf_folder, filename)
text = extract_text_from_pdf(pdf_path)

output_path = os.path.join(output_folder, f"{filename}.txt")
with open(output_path, 'w', encoding='utf-8') as file:
file.write(text)
Salin selepas log masuk

Dalam kod di atas, pdf_folder是包含PDF文件的文件夹的路径,output_folder ialah laluan folder yang teks yang diekstrak akan dikeluarkan. Kod ini akan melingkari semua fail PDF dalam folder, mengekstrak kandungan teks setiap fail dan menyimpan teks yang diekstrak ke fail teks yang sepadan.

Sila ambil perhatian bahawa kod ini hanya boleh mengekstrak maklumat teks biasa dalam PDF Jika PDF mengandungi kandungan bukan teks seperti imej atau jadual, kod itu mungkin tidak mengekstrak atau mengekstrak dengan betul.

Atas ialah kandungan terperinci Bagaimana untuk mengekstrak maklumat secara berkumpulan daripada PDF menggunakan Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:lsjlt.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan