Bagaimana untuk memproses fail PDF teks dengan Python untuk NLP?
Dengan perkembangan pesat kecerdasan buatan, Natural Language Processing (NLP) telah digunakan secara meluas dalam pelbagai bidang. Sebagai asas pemprosesan NLP, cara mengekstrak data teks daripada fail PDF telah menjadi isu penting. Artikel ini akan memperkenalkan cara menggunakan beberapa perpustakaan dalam Python untuk memproses fail PDF teks dan menyediakan contoh kod khusus.
Pertama, kita perlu memasang beberapa perpustakaan Python untuk memproses fail PDF. Kami akan menggunakan dua perpustakaan PyPDF2 dan pdfminer.six. Jika anda belum memasangnya lagi, anda boleh memasangnya dengan arahan berikut:
pip install PyPDF2 pip install pdfminer.six
Selepas memasang perpustakaan yang diperlukan, kami boleh mula memproses fail PDF. Berikut ialah contoh kod yang menggunakan perpustakaan PyPDF2 untuk mengekstrak teks:
import PyPDF2 def extract_text_from_pdf(file_path): text = '' with open(file_path, 'rb') as file: reader = PyPDF2.PdfFileReader(file) for page_num in range(reader.numPages): page = reader.getPage(page_num) text += page.extract_text() return text # 调用函数来提取文本 pdf_file = 'example.pdf' text = extract_text_from_pdf(pdf_file) print(text)
Kod di atas mula-mula mengimport pustaka PyPDF2 dan kemudian mentakrifkan fungsi yang dipanggil extract_text_from_pdf. Fungsi ini melingkari semua halaman PDF dan mengekstrak teks setiap halaman menggunakan kaedah extract_text. Akhir sekali, gabungkan semua teks yang diekstrak dan kembalikan hasilnya.
Seterusnya, kami akan memperkenalkan cara menggunakan perpustakaan pdfminer.six untuk memproses fail PDF. Pustaka pdfminer.six ialah versi PDFMiner yang serasi Python 3 yang menyediakan fungsi yang lebih baik untuk menghuraikan fail PDF. Berikut ialah contoh kod yang menggunakan perpustakaan pdfminer.six untuk mengekstrak teks:
from pdfminer.high_level import extract_text def extract_text_from_pdf(file_path): text = extract_text(file_path) return text # 调用函数来提取文本 pdf_file = 'example.pdf' text = extract_text_from_pdf(pdf_file) print(text)
Dalam kod di atas, kami mula-mula mengimport fungsi extract_text, yang menghuraikan fail PDF dan mengekstrak teks. Kemudian, kami mentakrifkan fungsi yang dipanggil extract_text_from_pdf, yang memanggil fungsi extract_text untuk mengekstrak teks. Akhir sekali, kami mencetak teks yang diekstrak dengan memanggil fungsi ini.
Selain mengekstrak teks, anda juga boleh menggunakan perpustakaan lain untuk melaksanakan pemprosesan yang lebih kompleks pada fail PDF, seperti mengekstrak imej, mengekstrak jadual, dsb. Contohnya, anda boleh menggunakan perpustakaan pdf2image untuk menukar halaman dalam fail PDF kepada fail imej:
from pdf2image import convert_from_path def convert_pdf_to_images(file_path): images = convert_from_path(file_path) return images # 调用函数将PDF转换为图片 pdf_file = 'example.pdf' images = convert_pdf_to_images(pdf_file) for i, image in enumerate(images): image.save(f'page{i}.jpg', 'JPEG')
Dalam kod di atas, kami mula-mula mengimport fungsi convert_from_path, yang boleh menukar halaman dalam fail PDF kepada imej. Kemudian, kami mentakrifkan fungsi yang dipanggil convert_pdf_to_images, yang memanggil fungsi convert_from_path untuk menukar fail PDF kepada imej. Akhir sekali, kami mengulangi senarai imej dan menyimpan setiap imej sebagai fail JPEG.
Ringkasnya, artikel ini memperkenalkan cara menggunakan perpustakaan seperti PyPDF2, pdfminer.six dan pdf2image dalam Python untuk memproses fail PDF teks dan menyediakan contoh kod yang sepadan. Dengan menggunakan perpustakaan ini, kami boleh mengekstrak teks, imej dan maklumat lain dengan mudah daripada fail PDF, yang memudahkan tugas pemprosesan bahasa semula jadi berikutnya. Saya harap artikel ini akan membantu anda dalam pemprosesan NLP!
Atas ialah kandungan terperinci Bagaimana untuk memproses fail PDF teks dengan Python untuk NLP?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!