Bagaimana untuk Mengekstrak Teks daripada Fail PDF menggunakan PDFMiner dalam Python dengan Perubahan API Terkini?-Tutorial Python-php.cn

Bagaimana untuk Mengekstrak Teks daripada Fail PDF menggunakan PDFMiner dalam Python dengan Perubahan API Terkini?

Linda Hamilton

Lepaskan： 2024-10-17 14:23:29

asal

726 orang telah melayarinya

How to Extract Text from PDF Files using PDFMiner in Python with the Latest API Changes?

Pengeluaran Teks daripada Fail PDF Menggunakan PDFMiner dalam Python

Mengekstrak teks daripada fail PDF ialah tugas biasa apabila bekerja dengan data berstruktur. Python menyediakan perpustakaan PDFMiner untuk memudahkan proses ini. Walau bagaimanapun, kemas kini terbaru pada PDFMiner API telah menyebabkan banyak contoh terdahulu menjadi usang.

Untuk menangani perkara ini, mari kita terokai contoh pengekstrakan teks yang berfungsi menggunakan versi semasa PDFMiner:

<code class="python">from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text</code>

Salin selepas log masuk

Ini fungsi mengambil laluan fail PDF sebagai input dan mengembalikan teks yang diekstrak sebagai rentetan. Ia mengendalikan senario biasa seperti PDF yang dilindungi kata laluan dan dokumen berbilang halaman.

Dengan menggunakan versi terkini PDFMiner dan melaksanakan fungsi ini, anda boleh mengekstrak teks daripada fail PDF dengan cekap dalam aplikasi Python anda.

Atas ialah kandungan terperinci Bagaimana untuk Mengekstrak Teks daripada Fail PDF menggunakan PDFMiner dalam Python dengan Perubahan API Terkini?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!