[Python NLTK] Stemming untuk mendapatkan bentuk akar perkataan dengan mudah

WBOY
Lepaskan: 2024-02-25 10:04:30
ke hadapan
732 orang telah melayarinya

【Python NLTK】词干提取,轻松获取词语的根形式

1. Pengenalan kepada NLTK

NLTK (Natural Language Toolkit) ialah pemprosesan bahasa semula jadiperpustakaan dalam python, yang menyediakan set kaya dengan alat dan algoritma untuk memproses data teks dalam pelbagai bahasa. Salah satu kelebihan hebat NLTK ialah kebolehlanjutannya, pengguna boleh menambah alat dan algoritma mereka sendiri dengan mudah untuk melanjutkan fungsinya.

2. NLTK berpunca

  1. Gambaran Keseluruhan Stemming

Stemming, juga dikenali sebagai pengekstrakan akar, ialah proses mengurangkan perkataan kepada bentuk pangkal atau akarnya. Tujuannya adalah untuk mengurangkan bilangan perkataan dalam teks, memudahkan pemprosesan teks, dan meningkatkan kecekapan dan ketepatan perolehan semula teks. Contohnya, perkataan "lari", "lari", "lari" dan "lari" semuanya boleh diekstrak sebagai batang "lari".

  1. Kaedah stemming NLTK

NLTK menyediakan pelbagai kaedah stemming, antaranya:

  • Porter Stemmer: Porter Stemmer ialah salah satu kaedah stemming yang paling biasa digunakan Ia adalah algoritma berasaskan peraturan yang boleh memulihkan kata-kata ke stemnya dengan cepat.
  • Lancaster Stemmer: Lancaster Stemmer juga merupakan algoritma berasaskan peraturan, tetapi ia lebih kompleks daripada Porter Stemmer dan boleh mengekstrak batang yang lebih tepat.
  • Snowball Stemmer: Snowball Stemmer ialah algoritma stem bebas bahasa yang boleh mengendalikan perkataan dalam berbilang bahasa.

3. Contoh berpunca NLTK

  1. Import NLTK

Pertama, anda perlu mengimport perpustakaan NLTK.

import nltk
Salin selepas log masuk
  1. Memulakan stemmer

Anda kemudian boleh menggunakan modul stem NLTK untuk memulakan stemmer.

from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
Salin selepas log masuk
  1. Ekstrak batang menggunakan stemmer

Akhir sekali, anda boleh menggunakan kaedah stem() stemmer untuk mengeluarkan batang perkataan.

stemmer.stem("running")
# "run"
Salin selepas log masuk

IV Ringkasan

Stemming ialah salah satu teknologi asas dalam pemprosesan bahasa semula jadi NLTK menyediakan pelbagai kaedah stemming, yang boleh melaksanakan stemming dengan mudah. Artikel ini memperkenalkan penggunaan stemming NLTK dan menunjukkan cara menggunakan NLTK untuk stemming melalui contoh.

Atas ialah kandungan terperinci [Python NLTK] Stemming untuk mendapatkan bentuk akar perkataan dengan mudah. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:lsjlt.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan