Mengekstrak Teks daripada Fail PDF dengan Python
Dalam Python, mengekstrak teks daripada fail PDF ialah tugas biasa yang sering dilakukan menggunakan pustaka PyPDF2. Apabila cuba mengekstrak teks menggunakan PyPDF2, terdapat kemungkinan percanggahan dalam kandungan yang diekstrak berbanding PDF asal.
Penjelasan Isu
Skrip yang disediakan, ditulis dalam PyPDF2 , berjaya mengekstrak teks daripada fail PDF tetapi menemui aksara yang rosak dalam output. Ini kerana PyPDF2 tidak dapat mengendalikan pengekodan tertentu yang digunakan dalam dokumen PDF.
Penyelesaian
Untuk menyelesaikan isu ini, pertimbangkan untuk menggunakan perpustakaan Tika. Tika-Python menyediakan antara muka Python kepada perkhidmatan REST Apache Tika, menawarkan keupayaan pengekstrakan teks dengan pengendalian pelbagai pengekodan yang lebih baik.
Contoh Kod
from tika import parser # pip install tika raw = parser.from_file('sample.pdf') print(raw['content'])
Nota Tambahan
Tika memerlukan persekitaran masa jalan Java. Pastikan anda telah memasangnya sebelum menggunakan Tika-Python. Tika juga mungkin menggunakan memori tambahan berbanding dengan PyPDF2, jadi pertimbangkan aspek ini apabila memilih penyelesaian terbaik untuk aplikasi anda.
Atas ialah kandungan terperinci Bagaimanakah Perpustakaan Python Boleh Mengekstrak Teks Terbaik daripada PDF, Mengendalikan Isu Pengekodan?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!