


Bagaimana untuk menggunakan Python untuk NLP untuk mengenal pasti dan memproses tarikh dan masa dalam fail PDF?
Bagaimana untuk menggunakan Python untuk NLP untuk mengenal pasti dan memproses tarikh dan masa dalam fail PDF?
NLP (Pemprosesan Bahasa Asli) ialah bidang penyelidikan yang digunakan secara meluas yang melibatkan banyak tugas, termasuk klasifikasi teks, pengiktirafan entiti bernama, analisis sentimen, dsb. Dalam NLP, memproses tarikh dan masa adalah tugas penting kerana banyak data teks mengandungi maklumat tentang tarikh dan masa. Artikel ini akan memperkenalkan cara menggunakan Python untuk NLP untuk mengenal pasti dan memproses tarikh dan masa dalam fail PDF, dan memberikan contoh kod khusus.
Sebelum kita mula, kita perlu memasang beberapa perpustakaan Python yang diperlukan. Pustaka utama yang akan kami gunakan termasuk pdfminer.six untuk menghurai fail PDF dan perpustakaan NLTK (Natural Language Toolkit) untuk tugasan NLP. Jika anda masih belum memasang perpustakaan ini, anda boleh memasangnya menggunakan arahan berikut:
pip install pdfminer.six pip install nltk
Selepas memasang perpustakaan ini, kami boleh mula menulis kod. Pertama, kita perlu mengimport perpustakaan yang diperlukan:
import re import nltk from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.pdfpage import PDFPage from io import StringIO
Seterusnya, kita perlu menentukan fungsi untuk menghuraikan fail PDF dan mengekstrak kandungan teks di dalamnya:
def extract_text_from_pdf(pdf_path): rsrcmgr = PDFResourceManager() retstr = StringIO() codec = 'utf-8' laparams = LAParams() device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams) fp = open(pdf_path, 'rb') interpreter = PDFPageInterpreter(rsrcmgr, device) password = "" maxpages = 0 caching = True pagenos = set() for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password, caching=caching, check_extractable=True): interpreter.process_page(page) text = retstr.getvalue() fp.close() device.close() retstr.close() return text
Dalam kod di atas, kami menggunakan fungsi yang disediakan oleh pdfminer perpustakaan untuk menghuraikan fail PDF dan menyimpan kandungan teks yang dihuraikan dalam rentetan.
Seterusnya, kita perlu menentukan fungsi untuk mencari corak tarikh dan masa daripada teks dan mengekstraknya:
def extract_dates_and_times(text): sentences = nltk.sent_tokenize(text) dates_and_times = [] for sentence in sentences: words = nltk.word_tokenize(sentence) tagged_words = nltk.pos_tag(words) pattern = r"(?:[0-9]{1,2}(?:st|nd|rd|th)?s+ofs+)?(?:jan(?:uary)?|feb(?:ruary)?|mar(?:ch)?|apr(?:il)?|may|jun(?:e)?|jul(?:y)?|aug(?:ust)?|sep(?:tember)?|oct(?:ober)?|nov(?:ember)?|dec(?:ember)?)(?:s*[0-9]{1,4})?(?:s*(?:a.?d.?|b.?c.?e.?))?|(?:(?:[0-9]+:)?[0-9]{1,2}(?::[0-9]{1,2})?(?:s*(?:a.?m.?|p.?m.?))?)" matches = re.findall(pattern, sentence, flags=re.IGNORECASE) dates_and_times.extend(matches) return dates_and_times
Dalam kod di atas, kita mula-mula menggunakan fungsi sent_tokenize yang disediakan oleh perpustakaan nltk untuk memisahkan teks kepada ayat , Kemudian gunakan fungsi word_tokenize untuk memisahkan setiap ayat kepada perkataan. Seterusnya, kami menggunakan fungsi pos_tag nltk untuk menandakan perkataan dengan sebahagian daripada ucapan untuk membantu kami mengenal pasti tarikh dan masa. Akhir sekali, kami menggunakan ungkapan biasa untuk memadankan corak pada tarikh dan masa dan menyimpannya dalam senarai hasil.
Akhir sekali, kita boleh menulis kod untuk memanggil fungsi di atas dan menggunakan tarikh dan masa yang diekstrak:
pdf_path = "example.pdf" text = extract_text_from_pdf(pdf_path) dates_and_times = extract_dates_and_times(text) print("Dates and times found in the PDF:") for dt in dates_and_times: print(dt)
Dalam kod di atas, kami menganggap bahawa laluan fail PDF ialah "example.pdf", dan kami memanggil extract_text_from_pdf berfungsi untuk mendapatkan kandungan teks dan memanggil fungsi extract_dates_and_times untuk mengekstrak tarikh dan masa. Akhirnya, kami mencetak tarikh dan masa yang diekstrak.
Dalam aplikasi sebenar, kami boleh melakukan pemprosesan dan analisis selanjutnya seperti yang diperlukan, seperti menukar tarikh dan masa yang diekstrak ke dalam format tertentu, atau melakukan operasi seterusnya yang lain berdasarkan tarikh dan masa.
Ringkasan:
Artikel ini memperkenalkan cara menggunakan Python untuk NLP untuk mengenal pasti dan memproses tarikh dan masa dalam fail PDF. Kami menggunakan perpustakaan pdfminer untuk menghuraikan fail PDF, pustaka NLTK untuk tugasan NLP, dan kemudian menggunakan padanan corak ungkapan biasa untuk mengekstrak tarikh dan masa. Dengan menulis contoh kod yang sepadan, kami boleh mengekstrak tarikh dan masa daripada fail PDF dan melakukan pemprosesan dan analisis seterusnya. Teknologi dan kaedah ini boleh digunakan dalam banyak senario praktikal, seperti dalam bidang seperti pengarkiban dokumen automatik, pengekstrakan maklumat dan analisis data.
Atas ialah kandungan terperinci Bagaimana untuk menggunakan Python untuk NLP untuk mengenal pasti dan memproses tarikh dan masa dalam fail PDF?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



PHP dan Python mempunyai kelebihan dan kekurangan mereka sendiri, dan pilihannya bergantung kepada keperluan projek dan keutamaan peribadi. 1.PHP sesuai untuk pembangunan pesat dan penyelenggaraan aplikasi web berskala besar. 2. Python menguasai bidang sains data dan pembelajaran mesin.

Membolehkan pecutan GPU pytorch pada sistem CentOS memerlukan pemasangan cuda, cudnn dan GPU versi pytorch. Langkah-langkah berikut akan membimbing anda melalui proses: Pemasangan CUDA dan CUDNN Tentukan keserasian versi CUDA: Gunakan perintah NVIDIA-SMI untuk melihat versi CUDA yang disokong oleh kad grafik NVIDIA anda. Sebagai contoh, kad grafik MX450 anda boleh menyokong CUDA11.1 atau lebih tinggi. Muat turun dan pasang Cudatoolkit: Lawati laman web rasmi Nvidiacudatoolkit dan muat turun dan pasang versi yang sepadan mengikut versi CUDA tertinggi yang disokong oleh kad grafik anda. Pasang Perpustakaan Cudnn:

Python dan JavaScript mempunyai kelebihan dan kekurangan mereka sendiri dari segi komuniti, perpustakaan dan sumber. 1) Komuniti Python mesra dan sesuai untuk pemula, tetapi sumber pembangunan depan tidak kaya dengan JavaScript. 2) Python berkuasa dalam bidang sains data dan perpustakaan pembelajaran mesin, sementara JavaScript lebih baik dalam perpustakaan pembangunan dan kerangka pembangunan depan. 3) Kedua -duanya mempunyai sumber pembelajaran yang kaya, tetapi Python sesuai untuk memulakan dengan dokumen rasmi, sementara JavaScript lebih baik dengan MDNWebDocs. Pilihan harus berdasarkan keperluan projek dan kepentingan peribadi.

Docker menggunakan ciri -ciri kernel Linux untuk menyediakan persekitaran berjalan yang cekap dan terpencil. Prinsip kerjanya adalah seperti berikut: 1. Cermin digunakan sebagai templat baca sahaja, yang mengandungi semua yang anda perlukan untuk menjalankan aplikasi; 2. Sistem Fail Kesatuan (Unionfs) menyusun pelbagai sistem fail, hanya menyimpan perbezaan, menjimatkan ruang dan mempercepatkan; 3. Daemon menguruskan cermin dan bekas, dan pelanggan menggunakannya untuk interaksi; 4. Ruang nama dan cgroups melaksanakan pengasingan kontena dan batasan sumber; 5. Pelbagai mod rangkaian menyokong interkoneksi kontena. Hanya dengan memahami konsep -konsep teras ini, anda boleh menggunakan Docker dengan lebih baik.

Penyimpanan Objek Minio: Penyebaran berprestasi tinggi di bawah CentOS System Minio adalah prestasi tinggi, sistem penyimpanan objek yang diedarkan yang dibangunkan berdasarkan bahasa Go, serasi dengan Amazons3. Ia menyokong pelbagai bahasa pelanggan, termasuk Java, Python, JavaScript, dan GO. Artikel ini akan memperkenalkan pemasangan dan keserasian minio pada sistem CentOS. Keserasian versi CentOS Minio telah disahkan pada pelbagai versi CentOS, termasuk tetapi tidak terhad kepada: CentOS7.9: Menyediakan panduan pemasangan lengkap yang meliputi konfigurasi kluster, penyediaan persekitaran, tetapan fail konfigurasi, pembahagian cakera, dan mini

Latihan yang diedarkan Pytorch pada sistem CentOS memerlukan langkah -langkah berikut: Pemasangan Pytorch: Premisnya ialah Python dan PIP dipasang dalam sistem CentOS. Bergantung pada versi CUDA anda, dapatkan arahan pemasangan yang sesuai dari laman web rasmi Pytorch. Untuk latihan CPU sahaja, anda boleh menggunakan arahan berikut: PipinstallToRchTorchVisionTorchaudio Jika anda memerlukan sokongan GPU, pastikan versi CUDA dan CUDNN yang sama dipasang dan gunakan versi pytorch yang sepadan untuk pemasangan. Konfigurasi Alam Sekitar Teragih: Latihan yang diedarkan biasanya memerlukan pelbagai mesin atau mesin berbilang mesin tunggal. Tempat

Apabila memasang pytorch pada sistem CentOS, anda perlu dengan teliti memilih versi yang sesuai dan pertimbangkan faktor utama berikut: 1. Keserasian Persekitaran Sistem: Sistem Operasi: Adalah disyorkan untuk menggunakan CentOS7 atau lebih tinggi. CUDA dan CUDNN: Versi Pytorch dan versi CUDA berkait rapat. Sebagai contoh, Pytorch1.9.0 memerlukan CUDA11.1, manakala Pytorch2.0.1 memerlukan CUDA11.3. Versi CUDNN juga mesti sepadan dengan versi CUDA. Sebelum memilih versi PyTorch, pastikan anda mengesahkan bahawa versi CUDA dan CUDNN yang serasi telah dipasang. Versi Python: Cawangan Rasmi Pytorch

CentOS Memasang Nginx memerlukan mengikuti langkah-langkah berikut: memasang kebergantungan seperti alat pembangunan, pcre-devel, dan openssl-devel. Muat turun Pakej Kod Sumber Nginx, unzip dan menyusun dan memasangnya, dan tentukan laluan pemasangan sebagai/usr/local/nginx. Buat pengguna Nginx dan kumpulan pengguna dan tetapkan kebenaran. Ubah suai fail konfigurasi nginx.conf, dan konfigurasikan port pendengaran dan nama domain/alamat IP. Mulakan perkhidmatan Nginx. Kesalahan biasa perlu diberi perhatian, seperti isu ketergantungan, konflik pelabuhan, dan kesilapan fail konfigurasi. Pengoptimuman prestasi perlu diselaraskan mengikut keadaan tertentu, seperti menghidupkan cache dan menyesuaikan bilangan proses pekerja.
