Menukar PDF kepada Teks dengan Python
Fail PDF selalunya digunakan untuk berkongsi dokumen dengan selamat, tetapi mengekstrak kandungan teks mungkin mencabar. Soalan ini meneroka modul Python yang mampu menukar dokumen PDF kepada teks.
Pengguna telah bereksperimen dengan kod menggunakan PyPDF, tetapi output tidak mempunyai jarak, menjadikannya tidak boleh digunakan. Respons ini menyediakan penyelesaian alternatif: PDFMiner.
PDFMiner:
PDFMiner ialah modul Python yang boleh menukar fail PDF kepada format HTML, SGML atau "Tagged PDF" . Format PDF Teg amat berguna kerana ia boleh ditukar dengan mudah kepada teks biasa.
Penggunaan:
Untuk menggunakan PDFMiner, ikut langkah berikut:
Pasang PDFMiner:
pip install pdfminer
Ekstrak teks daripada fail PDF:
import pdfminer from pdfminer.high_level import extract_text text = extract_text("path/to/pdf_file.pdf")
Versi Python 3:
Untuk Python 3, PDFMiner boleh didapati di:
Penyelesaian alternatif ini menangani cabaran yang dihadapi oleh pengguna dengan PyPDF, menyediakan kaedah yang lebih cekap untuk mengekstrak teks daripada fail PDF dalam Python.
Atas ialah kandungan terperinci Bagaimana untuk mengekstrak teks daripada fail PDF dalam Python: Menggantikan PyPDF dengan PDFMiner?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!