Bagaimana untuk mengekstrak teks daripada fail PDF dalam Python: Menggantikan PyPDF dengan PDFMiner?

DDD
Lepaskan: 2024-11-13 07:32:02
asal
949 orang telah melayarinya

How to Extract Text from a PDF File in Python: Replacing PyPDF with PDFMiner?

Menukar PDF kepada Teks dengan Python

Fail PDF selalunya digunakan untuk berkongsi dokumen dengan selamat, tetapi mengekstrak kandungan teks mungkin mencabar. Soalan ini meneroka modul Python yang mampu menukar dokumen PDF kepada teks.

Pengguna telah bereksperimen dengan kod menggunakan PyPDF, tetapi output tidak mempunyai jarak, menjadikannya tidak boleh digunakan. Respons ini menyediakan penyelesaian alternatif: PDFMiner.

PDFMiner:

PDFMiner ialah modul Python yang boleh menukar fail PDF kepada format HTML, SGML atau "Tagged PDF" . Format PDF Teg amat berguna kerana ia boleh ditukar dengan mudah kepada teks biasa.

Penggunaan:

Untuk menggunakan PDFMiner, ikut langkah berikut:

  1. Pasang PDFMiner:

    pip install pdfminer
    Salin selepas log masuk
  2. Ekstrak teks daripada fail PDF:

    import pdfminer
    from pdfminer.high_level import extract_text
    
    text = extract_text("path/to/pdf_file.pdf")
    Salin selepas log masuk

Versi Python 3:

Untuk Python 3, PDFMiner boleh didapati di:

  • https://github.com/pdfminer/pdfminer.six

Penyelesaian alternatif ini menangani cabaran yang dihadapi oleh pengguna dengan PyPDF, menyediakan kaedah yang lebih cekap untuk mengekstrak teks daripada fail PDF dalam Python.

Atas ialah kandungan terperinci Bagaimana untuk mengekstrak teks daripada fail PDF dalam Python: Menggantikan PyPDF dengan PDFMiner?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan