Bagaimana untuk Mengekstrak Teks daripada Fail PDF menggunakan PDFMiner dalam Python dengan Perubahan API Terkini?

Linda Hamilton
Lepaskan: 2024-10-17 14:23:29
asal
674 orang telah melayarinya

How to Extract Text from PDF Files using PDFMiner in Python with the Latest API Changes?

Pengeluaran Teks daripada Fail PDF Menggunakan PDFMiner dalam Python

Mengekstrak teks daripada fail PDF ialah tugas biasa apabila bekerja dengan data berstruktur. Python menyediakan perpustakaan PDFMiner untuk memudahkan proses ini. Walau bagaimanapun, kemas kini terbaru pada PDFMiner API telah menyebabkan banyak contoh terdahulu menjadi usang.

Untuk menangani perkara ini, mari kita terokai contoh pengekstrakan teks yang berfungsi menggunakan versi semasa PDFMiner:

<code class="python">from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text</code>
Salin selepas log masuk

Ini fungsi mengambil laluan fail PDF sebagai input dan mengembalikan teks yang diekstrak sebagai rentetan. Ia mengendalikan senario biasa seperti PDF yang dilindungi kata laluan dan dokumen berbilang halaman.

Dengan menggunakan versi terkini PDFMiner dan melaksanakan fungsi ini, anda boleh mengekstrak teks daripada fail PDF dengan cekap dalam aplikasi Python anda.

Atas ialah kandungan terperinci Bagaimana untuk Mengekstrak Teks daripada Fail PDF menggunakan PDFMiner dalam Python dengan Perubahan API Terkini?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan