1. Pengenalan kepada NLTK
NLTK (Natural Language Toolkit) ialah pemprosesan bahasa semula jadiperpustakaan dalam python, yang menyediakan set kaya dengan alat dan algoritma untuk memproses data teks dalam pelbagai bahasa. Salah satu kelebihan hebat NLTK ialah kebolehlanjutannya, pengguna boleh menambah alat dan algoritma mereka sendiri dengan mudah untuk melanjutkan fungsinya.
2. NLTK berpunca
Stemming, juga dikenali sebagai pengekstrakan akar, ialah proses mengurangkan perkataan kepada bentuk pangkal atau akarnya. Tujuannya adalah untuk mengurangkan bilangan perkataan dalam teks, memudahkan pemprosesan teks, dan meningkatkan kecekapan dan ketepatan perolehan semula teks. Contohnya, perkataan "lari", "lari", "lari" dan "lari" semuanya boleh diekstrak sebagai batang "lari".
NLTK menyediakan pelbagai kaedah stemming, antaranya:
3. Contoh berpunca NLTK
Pertama, anda perlu mengimport perpustakaan NLTK.
import nltk
Anda kemudian boleh menggunakan modul stem NLTK untuk memulakan stemmer.
from nltk.stem import PorterStemmer stemmer = PorterStemmer()
Akhir sekali, anda boleh menggunakan kaedah stem() stemmer untuk mengeluarkan batang perkataan.
stemmer.stem("running") # "run"
IV Ringkasan
Stemming ialah salah satu teknologi asas dalam pemprosesan bahasa semula jadi NLTK menyediakan pelbagai kaedah stemming, yang boleh melaksanakan stemming dengan mudah. Artikel ini memperkenalkan penggunaan stemming NLTK dan menunjukkan cara menggunakan NLTK untuk stemming melalui contoh.
Atas ialah kandungan terperinci [Python NLTK] Stemming untuk mendapatkan bentuk akar perkataan dengan mudah. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!