Python untuk NLP: Bagaimana untuk menyusun dan mengklasifikasikan teks secara automatik dalam fail PDF?-Tutorial Python-php.cn

Jadual Kandungan

1. Pasang perpustakaan Python yang diperlukan

2. Ekstrak teks daripada fail PDF

3. Prapemprosesan teks

4. Klasifikasi Teks

5 Sepadukan kod dan proses fail PDF secara automatik

Kesimpulan

Rumah

pembangunan bahagian belakang

Tutorial Python

Python untuk NLP: Bagaimana untuk menyusun dan mengklasifikasikan teks secara automatik dalam fail PDF?

王林

Sep 28, 2023 am 09:12 AM

python pdf nlp

Python for NLP：如何自动整理和分类PDF文件中的文本？

Python untuk NLP: Bagaimana untuk menyusun dan mengklasifikasikan teks secara automatik dalam fail PDF?

Abstrak:
Dengan perkembangan Internet dan pertumbuhan maklumat yang pesat, kami berhadapan dengan sejumlah besar data teks setiap hari. Dalam era ini, secara automatik menyusun dan mengklasifikasikan teks telah menjadi semakin penting. Artikel ini akan memperkenalkan cara menggunakan Python dan fungsi pemprosesan bahasa semula jadi (NLP) yang berkuasa untuk mengekstrak teks secara automatik daripada fail PDF, menyusun dan mengelaskannya.

1. Pasang perpustakaan Python yang diperlukan

Sebelum kita mula, kita perlu memastikan bahawa perpustakaan Python berikut dipasang:

pdfplumber: digunakan untuk mengekstrak teks daripada PDF.
nltk: untuk pemprosesan bahasa semula jadi.
sklearn: untuk pengelasan teks.
Boleh dipasang menggunakan arahan pip. Contohnya: pip install pdfplumber

2. Ekstrak teks daripada fail PDF

Pertama, kita perlu menggunakan perpustakaan pdfplumber untuk mengekstrak teks daripada fail PDF.

import pdfplumber

def extract_text_from_pdf(file_path):
    with pdfplumber.open(file_path) as pdf:
        text = ""
        for page in pdf.pages:
            text += page.extract_text()
    return text

Salin selepas log masuk

Dalam kod di atas, kami mentakrifkan fungsi yang dipanggil extract_text_from_pdf untuk mengekstrak teks daripada fail PDF yang diberikan. Fungsi ini menerima laluan fail sebagai parameter dan membuka fail PDF menggunakan perpustakaan pdfplumber, kemudian melelang melalui setiap halaman melalui gelung dan mengekstrak teks menggunakan kaedah extract_text().

3. Prapemprosesan teks

Sebelum pengelasan teks, biasanya kita perlu mempraproses teks. Ini termasuk langkah-langkah seperti penyingkiran perkataan henti, tokenisasi, stemming, dsb. Dalam artikel ini, kami akan menggunakan perpustakaan nltk untuk menyelesaikan tugasan ini.

import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import SnowballStemmer

def preprocess_text(text):
    # 将文本转换为小写
    text = text.lower()
    
    # 分词
    tokens = word_tokenize(text)
    
    # 移除停用词
    stop_words = set(stopwords.words("english"))
    filtered_tokens = [word for word in tokens if word not in stop_words]
    
    # 词干提取
    stemmer = SnowballStemmer("english")
    stemmed_tokens = [stemmer.stem(word) for word in filtered_tokens]
    
    # 返回预处理后的文本
    return " ".join(stemmed_tokens)

Salin selepas log masuk

Dalam kod di atas, kita mula-mula menukar teks kepada huruf kecil dan kemudian menggunakan kaedah word_tokenize() untuk menandakan teks. Seterusnya, kami menggunakan pustaka stopwords untuk mengalih keluar perkataan stop dan SnowballStemmer untuk stemming. Akhir sekali, kami mengembalikan teks yang telah diproses.

4. Klasifikasi Teks

Sekarang kami telah mengekstrak teks daripada fail PDF dan memprosesnya terlebih dahulu, kami boleh menggunakan algoritma pembelajaran mesin untuk mengklasifikasikan teks. Dalam artikel ini, kami akan menggunakan algoritma Naive Bayes sebagai pengelas.

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB

def classify_text(text):
    # 加载已训练的朴素贝叶斯分类器模型
    model = joblib.load("classifier_model.pkl")
    
    # 加载已训练的词袋模型
    vectorizer = joblib.load("vectorizer_model.pkl")
    
    # 预处理文本
    preprocessed_text = preprocess_text(text)
    
    # 将文本转换为特征向量
    features = vectorizer.transform([preprocessed_text])
    
    # 使用分类器预测文本类别
    predicted_category = model.predict(features)
    
    # 返回预测结果
    return predicted_category[0]

Salin selepas log masuk

Dalam kod di atas, kami mula-mula memuatkan model pengelas Naive Bayes terlatih dan model beg-of-words menggunakan perpustakaan joblib. Kami kemudian menukar teks praproses kepada vektor ciri dan kemudian menggunakan pengelas untuk mengklasifikasikan teks. Akhir sekali, kami mengembalikan hasil klasifikasi teks yang diramalkan.

5 Sepadukan kod dan proses fail PDF secara automatik

Kini, kami boleh menyepadukan kod di atas dan memproses fail PDF secara automatik, mengekstrak teks dan mengklasifikasikannya.

import os

def process_pdf_files(folder_path):
    for filename in os.listdir(folder_path):
        if filename.endswith(".pdf"):
            file_path = os.path.join(folder_path, filename)
            
            # 提取文本
            text = extract_text_from_pdf(file_path)
            
            # 分类文本
            category = classify_text(text)
            
            # 打印文件名和分类结果
            print("File:", filename)
            print("Category:", category)
            print("--------------------------------------")

# 指定待处理的PDF文件所在文件夹
folder_path = "pdf_folder"

# 处理PDF文件
process_pdf_files(folder_path)

Salin selepas log masuk

Dalam kod di atas, kami mula-mula menentukan fungsi yang dipanggil process_pdf_files untuk memproses fail secara automatik dalam folder PDF. Kemudian, gunakan kaedah listdir() pustaka os untuk beralih melalui setiap fail dalam folder, ekstrak teks fail PDF dan klasifikasikannya. Akhir sekali, kami mencetak nama fail dan keputusan klasifikasi.

Kesimpulan

Menggunakan fungsi Python dan NLP, kami boleh mengekstrak teks dengan mudah daripada fail PDF dan menyusun serta mengelaskannya. Artikel ini menyediakan kod sampel untuk membantu pembaca memahami cara memproses teks secara automatik dalam fail PDF, tetapi senario aplikasi tertentu mungkin berbeza dan perlu dilaraskan dan diubah suai mengikut situasi sebenar.

Rujukan:

pdfdokumen rasmi tukang paip: https://github.com/jsvine/pdfplumber
nltk dokumen rasmi: https://www.nltk.org/
sklearn dokumen rasmi: https://scikit - belajar.org/

Atas ialah kandungan terperinci Python untuk NLP: Bagaimana untuk menyusun dan mengklasifikasikan teks secara automatik dalam fail PDF?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

3 minggu yang lalu By DDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

2 minggu yang lalu By DDD

Akan R.E.P.O. Ada Crossplay?

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7552

Tutorial CakePHP

1382

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

PHP dan Python: Contoh dan perbandingan kod Apr 15, 2025 am 12:07 AM

PHP dan Python mempunyai kelebihan dan kekurangan mereka sendiri, dan pilihannya bergantung kepada keperluan projek dan keutamaan peribadi. 1.PHP sesuai untuk pembangunan pesat dan penyelenggaraan aplikasi web berskala besar. 2. Python menguasai bidang sains data dan pembelajaran mesin.

Bagaimana sokongan GPU untuk Pytorch di CentOS Apr 14, 2025 pm 06:48 PM

Membolehkan pecutan GPU pytorch pada sistem CentOS memerlukan pemasangan cuda, cudnn dan GPU versi pytorch. Langkah-langkah berikut akan membimbing anda melalui proses: Pemasangan CUDA dan CUDNN Tentukan keserasian versi CUDA: Gunakan perintah NVIDIA-SMI untuk melihat versi CUDA yang disokong oleh kad grafik NVIDIA anda. Sebagai contoh, kad grafik MX450 anda boleh menyokong CUDA11.1 atau lebih tinggi. Muat turun dan pasang Cudatoolkit: Lawati laman web rasmi Nvidiacudatoolkit dan muat turun dan pasang versi yang sepadan mengikut versi CUDA tertinggi yang disokong oleh kad grafik anda. Pasang Perpustakaan Cudnn:

Python vs JavaScript: Komuniti, Perpustakaan, dan Sumber Apr 15, 2025 am 12:16 AM

Python dan JavaScript mempunyai kelebihan dan kekurangan mereka sendiri dari segi komuniti, perpustakaan dan sumber. 1) Komuniti Python mesra dan sesuai untuk pemula, tetapi sumber pembangunan depan tidak kaya dengan JavaScript. 2) Python berkuasa dalam bidang sains data dan perpustakaan pembelajaran mesin, sementara JavaScript lebih baik dalam perpustakaan pembangunan dan kerangka pembangunan depan. 3) Kedua -duanya mempunyai sumber pembelajaran yang kaya, tetapi Python sesuai untuk memulakan dengan dokumen rasmi, sementara JavaScript lebih baik dengan MDNWebDocs. Pilihan harus berdasarkan keperluan projek dan kepentingan peribadi.

Penjelasan terperinci mengenai Prinsip Docker Apr 14, 2025 pm 11:57 PM

Docker menggunakan ciri -ciri kernel Linux untuk menyediakan persekitaran berjalan yang cekap dan terpencil. Prinsip kerjanya adalah seperti berikut: 1. Cermin digunakan sebagai templat baca sahaja, yang mengandungi semua yang anda perlukan untuk menjalankan aplikasi; 2. Sistem Fail Kesatuan (Unionfs) menyusun pelbagai sistem fail, hanya menyimpan perbezaan, menjimatkan ruang dan mempercepatkan; 3. Daemon menguruskan cermin dan bekas, dan pelanggan menggunakannya untuk interaksi; 4. Ruang nama dan cgroups melaksanakan pengasingan kontena dan batasan sumber; 5. Pelbagai mod rangkaian menyokong interkoneksi kontena. Hanya dengan memahami konsep -konsep teras ini, anda boleh menggunakan Docker dengan lebih baik.

Keserasian Centos Miniopen Apr 14, 2025 pm 05:45 PM

Penyimpanan Objek Minio: Penyebaran berprestasi tinggi di bawah CentOS System Minio adalah prestasi tinggi, sistem penyimpanan objek yang diedarkan yang dibangunkan berdasarkan bahasa Go, serasi dengan Amazons3. Ia menyokong pelbagai bahasa pelanggan, termasuk Java, Python, JavaScript, dan GO. Artikel ini akan memperkenalkan pemasangan dan keserasian minio pada sistem CentOS. Keserasian versi CentOS Minio telah disahkan pada pelbagai versi CentOS, termasuk tetapi tidak terhad kepada: CentOS7.9: Menyediakan panduan pemasangan lengkap yang meliputi konfigurasi kluster, penyediaan persekitaran, tetapan fail konfigurasi, pembahagian cakera, dan mini

Cara Mengendalikan Latihan Pittorch Diagihkan di Centos Apr 14, 2025 pm 06:36 PM

Latihan yang diedarkan Pytorch pada sistem CentOS memerlukan langkah -langkah berikut: Pemasangan Pytorch: Premisnya ialah Python dan PIP dipasang dalam sistem CentOS. Bergantung pada versi CUDA anda, dapatkan arahan pemasangan yang sesuai dari laman web rasmi Pytorch. Untuk latihan CPU sahaja, anda boleh menggunakan arahan berikut: PipinstallToRchTorchVisionTorchaudio Jika anda memerlukan sokongan GPU, pastikan versi CUDA dan CUDNN yang sama dipasang dan gunakan versi pytorch yang sepadan untuk pemasangan. Konfigurasi Alam Sekitar Teragih: Latihan yang diedarkan biasanya memerlukan pelbagai mesin atau mesin berbilang mesin tunggal. Tempat

Cara Memilih Versi PyTorch di CentOS Apr 14, 2025 pm 06:51 PM

Apabila memasang pytorch pada sistem CentOS, anda perlu dengan teliti memilih versi yang sesuai dan pertimbangkan faktor utama berikut: 1. Keserasian Persekitaran Sistem: Sistem Operasi: Adalah disyorkan untuk menggunakan CentOS7 atau lebih tinggi. CUDA dan CUDNN: Versi Pytorch dan versi CUDA berkait rapat. Sebagai contoh, Pytorch1.9.0 memerlukan CUDA11.1, manakala Pytorch2.0.1 memerlukan CUDA11.3. Versi CUDNN juga mesti sepadan dengan versi CUDA. Sebelum memilih versi PyTorch, pastikan anda mengesahkan bahawa versi CUDA dan CUDNN yang serasi telah dipasang. Versi Python: Cawangan Rasmi Pytorch

Cara mengemas kini pytorch ke versi terkini di CentOS Apr 14, 2025 pm 06:15 PM

Mengemas kini Pytorch ke versi terkini di CentOS boleh mengikuti langkah -langkah berikut: Kaedah 1: Mengemas kini PIP dengan PIP: Mula -mula pastikan PIP anda adalah versi terkini, kerana versi lama PIP mungkin tidak dapat memasang versi terkini PYTORCH. pipinstall-upgradepip uninstalls versi lama pytorch (jika dipasang): pemasangan pipuninstalltorchtorchvisionTorchaudio terkini

See all articles