Python untuk NLP: Bagaimana untuk memproses teks PDF yang mengandungi berbilang lajur data?
Ikhtisar:
Dengan perkembangan pemprosesan bahasa semula jadi (NLP), pemprosesan teks PDF telah menjadi tugas yang sangat penting. Walau bagaimanapun, apabila teks PDF mengandungi berbilang lajur data, pemprosesannya menjadi lebih kompleks. Dalam artikel ini, kami akan memperkenalkan cara menggunakan Python untuk memproses teks PDF yang mengandungi berbilang lajur data, mengekstrak maklumat berguna dan melaksanakan pemprosesan data yang sesuai.
Langkah 1: Pasang perpustakaan yang diperlukan
Pertama, kita perlu memasang beberapa perpustakaan Python yang diperlukan untuk memudahkan pemprosesan teks PDF. Perpustakaan ini termasuk pdfplumber dan panda. Ia boleh dipasang menggunakan arahan berikut:
pip install pdfplumber pandas
Langkah Kedua: Import perpustakaan yang diperlukan
Sebelum memulakan pengekodan sebenar, kita perlu mengimport perpustakaan yang diperlukan. Kita boleh mengimport perpustakaan pdfplumber dan panda dengan menjalankan arahan berikut:
import pdfplumber import pandas as pd
Langkah Tiga: Baca fail PDF dan ekstrak teks
Seterusnya, kita perlu membaca fail PDF dan ekstrak teks. Fail PDF boleh dibuka menggunakan fungsi pdfplumber.open() dalam perpustakaan pdfplumber dan semua teks yang diekstrak menggunakan kaedah extract_text(). Berikut ialah contoh mudah:
with pdfplumber.open('multi_column_data.pdf') as pdf: text = "" for page in pdf.pages: text += page.extract_text()
Langkah 4: Tukar teks kepada DataFrame
Selepas mengekstrak teks, kita perlu menukarnya kepada struktur data yang sesuai untuk diproses. Memandangkan teks PDF kami mengandungi berbilang lajur data, kami boleh menggunakan DataFrame pustaka panda untuk memproses data ini. Berikut ialah contoh menukar teks kepada DataFrame:
data = pd.DataFrame([row.split(' ') for row in text.split(' ') if row.strip() != ''])
Dalam kod di atas, kami membahagikan teks mengikut baris menggunakan kaedah split() dan membelah setiap baris menggunakan split('
') Selanjutnya dibahagikan kepada lajur. Kami juga menggunakan split('
') untuk memisahkan data antara baris yang berbeza dan menggunakan syarat penghakiman untuk mengalih keluar baris kosong.
Langkah 5: Proses dan bersihkan data
Sekarang kami telah menukar teks menjadi DataFrame, kami boleh mula memproses dan membersihkan data. Apabila memproses data berbilang lajur, anda boleh menggunakan pelbagai kaedah dan fungsi yang disediakan oleh panda untuk diproses. Berikut ialah beberapa contoh operasi pemprosesan data biasa:
Pilih lajur khusus:
selected_data = data[[0, 1]]
data.columns = ['Column1', 'Column2']
data.dropna(inplace=True)
data['Column1'] = data['Column1'].astype(int)
Ringkasan:
Dengan menggunakan perpustakaan pdfplumber dan panda dalam Python, kami boleh memproses teks PDF yang mengandungi berbilang lajur data dengan mudah. Pertama, kami menggunakan perpustakaan pdfplumber untuk mengekstrak teks dan menukarnya menjadi struktur data yang sesuai untuk diproses. Kemudian, gunakan perpustakaan panda untuk pemprosesan dan pembersihan data. Akhir sekali, kami boleh menyimpan data yang diproses sebagai fail CSV atau Excel. Semoga artikel ini menyediakan cara yang mudah tetapi berkesan untuk memproses teks PDF yang mengandungi berbilang lajur data.
Atas ialah kandungan terperinci Python untuk NLP: Bagaimana untuk memproses teks PDF yang mengandungi berbilang lajur data?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!