Pengeluaran Teks daripada Fail PDF Menggunakan PDFMiner dalam Python
Mengekstrak teks daripada fail PDF ialah tugas biasa apabila bekerja dengan data berstruktur. Python menyediakan perpustakaan PDFMiner untuk memudahkan proses ini. Walau bagaimanapun, kemas kini terbaru pada PDFMiner API telah menyebabkan banyak contoh terdahulu menjadi usang.
Untuk menangani perkara ini, mari kita terokai contoh pengekstrakan teks yang berfungsi menggunakan versi semasa PDFMiner:
<code class="python">from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.pdfpage import PDFPage from io import StringIO def convert_pdf_to_txt(path): rsrcmgr = PDFResourceManager() retstr = StringIO() codec = 'utf-8' laparams = LAParams() device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams) fp = open(path, 'rb') interpreter = PDFPageInterpreter(rsrcmgr, device) password = "" maxpages = 0 caching = True pagenos=set() for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True): interpreter.process_page(page) text = retstr.getvalue() fp.close() device.close() retstr.close() return text</code>
Ini fungsi mengambil laluan fail PDF sebagai input dan mengembalikan teks yang diekstrak sebagai rentetan. Ia mengendalikan senario biasa seperti PDF yang dilindungi kata laluan dan dokumen berbilang halaman.
Dengan menggunakan versi terkini PDFMiner dan melaksanakan fungsi ini, anda boleh mengekstrak teks daripada fail PDF dengan cekap dalam aplikasi Python anda.
Atas ialah kandungan terperinci Bagaimana untuk Mengekstrak Teks daripada Fail PDF menggunakan PDFMiner dalam Python dengan Perubahan API Terkini?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!