Rumah pembangunan bahagian belakang Tutorial Python Teknik prapemprosesan teks dalam Python

Teknik prapemprosesan teks dalam Python

Jun 11, 2023 am 08:56 AM
pemprosesan teks pengaturcaraan python Petua prapemprosesan

Python ialah bahasa pengaturcaraan berkuasa yang digunakan secara meluas dalam sains data, pembelajaran mesin, pemprosesan bahasa semula jadi dan bidang lain. Dalam bidang ini, prapemprosesan teks ialah langkah yang sangat kritikal, yang boleh mengurangkan hingar data teks dan meningkatkan ketepatan model. Dalam artikel ini, kami akan memperkenalkan beberapa teknik prapemprosesan teks biasa dalam Python.

1. Membaca data teks

Dalam Python, anda boleh menggunakan fungsi open() untuk membaca fail teks.

with open('example.txt', 'r') as f:
    text = f.read()
Salin selepas log masuk

Dalam contoh ini, kami membuka fail teks bernama "example.txt" dan membaca kandungannya. Kandungan fail teks ini akan disimpan dalam pembolehubah rentetan bernama "teks". Selain menggunakan fungsi read(), kita juga boleh menggunakan fungsi readlines() untuk menyimpan kandungan fail teks dalam senarai.

with open('example.txt', 'r') as f:
    lines = f.readlines()
Salin selepas log masuk

Dalam contoh ini, kandungan "example.txt" akan disimpan sebagai senarai, dengan setiap baris menjadi elemen senarai. Ini berguna apabila bekerja dengan data teks berskala besar, kerana berbilang baris data boleh dibaca dan diproses sekaligus.

2. Alih keluar tanda baca dan nombor

Dalam prapemprosesan teks, kita biasanya perlu mengalih keluar tanda baca dan nombor daripada teks. Modul semula dalam Python menyediakan fungsi ekspresi biasa yang sangat mudah untuk mengendalikan tugas-tugas ini.

import re

text = "This is an example sentence! 12345."
text = re.sub(r'[^ws]', '', text) # Remove punctuation
text = re.sub(r'd+', '', text) # Remove numbers
Salin selepas log masuk

Dalam contoh ini, kita mula-mula menggunakan fungsi re.sub() dan ungkapan biasa "1" untuk mengalih keluar semua tanda baca dan ruang. Kemudian, kami menggunakan fungsi re.sub() dan ungkapan biasa "d+" untuk mengalih keluar semua nombor daripada teks. Akhir sekali, kami menyimpan teks yang diproses dalam pembolehubah rentetan "teks".

3. Pembahagian perkataan

Pembahagian perkataan merujuk kepada membahagikan teks kepada perkataan yang berasingan. Perpustakaan nltk dan perpustakaan spaCy dalam Python kedua-duanya menyediakan alat pembahagian perkataan yang sangat berguna. Di sini kita mengambil perpustakaan nltk sebagai contoh.

import nltk

nltk.download('punkt')

text = "This is an example sentence."
words = nltk.word_tokenize(text)
Salin selepas log masuk

Dalam contoh ini, kami mula-mula memuat turun pakej punkt perpustakaan nltk, yang merupakan kit alat pembahagian perkataan yang sangat popular dalam perpustakaan nltk. Kami kemudian menggunakan fungsi nltk.word_tokenize() untuk memisahkan teks kepada perkataan dan menyimpan hasilnya dalam senarai "perkataan".

4. Alih keluar perkataan henti

Dalam pemprosesan teks, selalunya perlu untuk mengalih keluar perkataan hentian biasa termasuk "adalah", "a", "ini", dll. Perpustakaan nltk dan perpustakaan spaCy dalam Python juga menyediakan senarai perkataan hentian yang baik. Di bawah ialah contoh menggunakan perpustakaan nltk.

import nltk

nltk.download('stopwords')

from nltk.corpus import stopwords

text = "This is an example sentence."
words = nltk.word_tokenize(text)

filtered_words = [word for word in words if word.lower() not in stopwords.words('english')]
Salin selepas log masuk

Dalam contoh ini, kami mula-mula memuat turun pakej stopwords pustaka nltk dan mengimport senarai hentian bahasa Inggeris daripadanya. Kami kemudian menggunakan pemahaman senarai untuk mengalih keluar perkataan henti dalam teks daripada senarai perkataan. Akhir sekali, kami mendapat senarai perkataan "filtered_words" yang tidak termasuk kata henti.

5. Stemming

Stemming ialah proses menormalkan bentuk perkataan yang berbeza (seperti tegang, tunggal dan jamak, dll.) ke dalam bentuk yang sama. Kedua-dua perpustakaan nltk dan perpustakaan spaCy dalam Python menyediakan alat stem yang sangat berguna. Di sini kita juga mengambil perpustakaan nltk sebagai contoh.

import nltk

from nltk.stem import PorterStemmer

stemmer = PorterStemmer()

text = "This is an example sentence."
words = nltk.word_tokenize(text)

stemmed_words = [stemmer.stem(word) for word in words]
Salin selepas log masuk

Dalam contoh ini, kami mula-mula mengimport kelas PorterStemmer daripada perpustakaan nltk. Kemudian, kami membuat instantiate objek PorterStemmer. Seterusnya, kami menggunakan pemahaman senarai untuk mengekstrak batang daripada teks dan menyimpan hasilnya dalam senarai "stemmed_words".

6. Penandaan sebahagian daripada pertuturan

Pelabelan selepas pertuturan ialah proses menandakan perkataan dalam teks ke dalam bahagian pertuturan mereka (seperti kata nama, kata kerja, kata adjektif, dsb. ). Pustaka nltk dan perpustakaan spaCy dalam Python juga menyediakan alat penandaan bahagian pertuturan yang sangat berguna. Di sini, kami juga mengambil perpustakaan nltk sebagai contoh.

import nltk

nltk.download('averaged_perceptron_tagger')

text = "This is an example sentence."
words = nltk.word_tokenize(text)

tagged_words = nltk.pos_tag(words)
Salin selepas log masuk

Dalam contoh ini, kami mula-mula memuat turun pakej averaged_perceptron_tagger pustaka nltk. Kami kemudian menggunakan fungsi nltk.word_tokenize() untuk memisahkan teks kepada perkataan dan menyimpan hasilnya dalam senarai "perkataan". Seterusnya, kami menggunakan fungsi nltk.pos_tag() untuk menandakan perkataan dengan bahagian pertuturannya dan menyimpan hasilnya dalam senarai "tagged_words".

Ringkasan

Artikel ini memperkenalkan beberapa teknik prapemprosesan teks biasa dalam Python, termasuk membaca data teks, mengalih keluar tanda baca dan nombor, pembahagian perkataan, mengalih keluar perkataan henti dan pengetegan stem serta sebahagian daripada pertuturan , dsb. Teknik ini sangat berguna dan digunakan secara meluas dalam pemprosesan teks. Dalam aplikasi praktikal, kami boleh memilih teknik yang sesuai untuk prapemprosesan teks mengikut keperluan kami untuk meningkatkan ketepatan dan kesan data kami.


  1. ws

Atas ialah kandungan terperinci Teknik prapemprosesan teks dalam Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

AssertionError: Bagaimana untuk menyelesaikan ralat pernyataan Python? AssertionError: Bagaimana untuk menyelesaikan ralat pernyataan Python? Jun 25, 2023 pm 11:07 PM

Penegasan dalam Python ialah alat yang berguna untuk pengaturcara untuk menyahpepijat kod mereka. Ia digunakan untuk mengesahkan bahawa keadaan dalaman program memenuhi jangkaan dan menimbulkan ralat penegasan (AssertionError) apabila syarat ini palsu. Semasa proses pembangunan, penegasan digunakan semasa ujian dan penyahpepijatan untuk menyemak sama ada status kod sepadan dengan hasil yang dijangkakan. Artikel ini akan membincangkan punca, penyelesaian dan cara menggunakan penegasan dengan betul dalam kod anda. Punca ralat penegasan Pas ralat penegasan

Python untuk NLP: Bagaimana untuk memproses teks dalam fail PDF menggunakan perpustakaan PDFMiner? Python untuk NLP: Bagaimana untuk memproses teks dalam fail PDF menggunakan perpustakaan PDFMiner? Sep 27, 2023 pm 02:34 PM

PythonforNLP: Bagaimana untuk memproses teks dalam fail PDF menggunakan perpustakaan PDFMiner? Pengenalan: PDF (Portable Document Format) ialah format yang digunakan untuk menyimpan dokumen, biasanya digunakan untuk berkongsi dan mengedarkan dokumen elektronik. Dalam bidang pemprosesan bahasa semula jadi (NLP), kita selalunya perlu mengekstrak teks daripada fail PDF untuk analisis dan pemprosesan teks. Python menyediakan banyak perpustakaan untuk memproses fail PDF, di antaranya PDFMiner adalah yang berkuasa

Bagaimana untuk membangunkan pengimbas kerentanan dalam Python Bagaimana untuk membangunkan pengimbas kerentanan dalam Python Jul 01, 2023 am 08:10 AM

Gambaran keseluruhan cara membangunkan pengimbas kerentanan melalui Python Dalam persekitaran hari ini yang meningkatkan ancaman keselamatan Internet, pengimbas kerentanan telah menjadi alat penting untuk melindungi keselamatan rangkaian. Python ialah bahasa pengaturcaraan popular yang ringkas, mudah dibaca dan berkuasa, sesuai untuk membangunkan pelbagai alat praktikal. Artikel ini akan memperkenalkan cara menggunakan Python untuk membangunkan pengimbas kerentanan untuk menyediakan perlindungan masa nyata untuk rangkaian anda. Langkah 1: Tentukan Sasaran Imbasan Sebelum membangunkan pengimbas kerentanan, anda perlu menentukan sasaran yang ingin anda imbas. Ini boleh menjadi rangkaian anda sendiri atau apa sahaja yang anda mempunyai kebenaran untuk menguji

Cara menggunakan Python untuk skrip dan pelaksanaan di Linux Cara menggunakan Python untuk skrip dan pelaksanaan di Linux Oct 05, 2023 am 11:45 AM

Cara menggunakan Python untuk menulis dan melaksanakan skrip dalam Linux Dalam sistem pengendalian Linux, kita boleh menggunakan Python untuk menulis dan melaksanakan pelbagai skrip. Python ialah bahasa pengaturcaraan ringkas dan berkuasa yang menyediakan banyak perpustakaan dan alatan untuk menjadikan skrip lebih mudah dan lebih cekap. Di bawah ini kami akan memperkenalkan langkah asas cara menggunakan Python untuk penulisan dan pelaksanaan skrip dalam Linux, dan menyediakan beberapa contoh kod khusus untuk membantu anda memahami dan menggunakannya dengan lebih baik. Pasang Python

Penggunaan fungsi sqrt() dalam Python Penggunaan fungsi sqrt() dalam Python Feb 21, 2024 pm 03:09 PM

Contoh penggunaan dan kod fungsi sqrt() dalam Python 1. Fungsi dan pengenalan fungsi sqrt() Dalam pengaturcaraan Python, fungsi sqrt() ialah fungsi dalam modul matematik, dan fungsinya adalah untuk mengira punca kuasa dua bagi nombor. Punca kuasa dua bermaksud nombor yang didarab dengan sendirinya sama dengan kuasa dua nombor itu, iaitu, x*x=n, maka x ialah punca kuasa dua bagi n. Fungsi sqrt() boleh digunakan dalam atur cara untuk mengira punca kuasa dua. 2. Cara menggunakan fungsi sqrt() dalam Python, sq

Amalan pengaturcaraan Python: Cara menggunakan API Peta Baidu untuk menjana fungsi peta statik Amalan pengaturcaraan Python: Cara menggunakan API Peta Baidu untuk menjana fungsi peta statik Jul 30, 2023 pm 09:05 PM

Amalan pengaturcaraan Python: Cara menggunakan API Peta Baidu untuk menjana fungsi peta statik Pengenalan: Dalam masyarakat moden, peta telah menjadi bahagian yang amat diperlukan dalam kehidupan manusia. Apabila bekerja dengan peta, kami selalunya perlu mendapatkan peta statik kawasan tertentu untuk dipaparkan pada halaman web, apl mudah alih atau laporan. Artikel ini akan memperkenalkan cara menggunakan bahasa pengaturcaraan Python dan API Peta Baidu untuk menjana peta statik dan menyediakan contoh kod yang berkaitan. 1. Kerja-kerja penyediaan Bagi merealisasikan fungsi penjanaan peta statik menggunakan API Peta Baidu, I

Pengaturcaraan Python untuk menganalisis fungsi penukaran koordinat dalam dokumentasi API Peta Baidu Pengaturcaraan Python untuk menganalisis fungsi penukaran koordinat dalam dokumentasi API Peta Baidu Aug 01, 2023 am 08:57 AM

Pengaturcaraan Python untuk menganalisis fungsi penukaran koordinat dalam dokumentasi API Peta Baidu Pengenalan: Dengan perkembangan pesat Internet, fungsi penentududukan peta telah menjadi bahagian yang amat diperlukan dalam kehidupan orang moden. Sebagai salah satu perkhidmatan peta paling popular di China, Peta Baidu menyediakan satu siri API untuk digunakan oleh pembangun. Artikel ini akan menggunakan pengaturcaraan Python untuk menganalisis fungsi penukaran koordinat dalam dokumentasi API Peta Baidu dan memberikan contoh kod yang sepadan. 1. Pengenalan Dalam pembangunan, kita kadangkala melibatkan isu penukaran koordinat. AP Peta Baidu

Bagaimana untuk menulis algoritma analisis komponen utama PCA dalam Python? Bagaimana untuk menulis algoritma analisis komponen utama PCA dalam Python? Sep 20, 2023 am 10:34 AM

Bagaimana untuk menulis algoritma analisis komponen utama PCA dalam Python? PCA (Analisis Komponen Utama) ialah algoritma pembelajaran tanpa pengawasan yang biasa digunakan untuk mengurangkan dimensi data untuk memahami dan menganalisis data dengan lebih baik. Dalam artikel ini, kita akan belajar cara menulis algoritma analisis komponen utama PCA menggunakan Python dan memberikan contoh kod khusus. Langkah-langkah PCA adalah seperti berikut: Seragamkan data: Sifarkan min setiap ciri data dan laraskan varians kepada julat yang sama untuk memastikan

See all articles