Rumah > pembangunan bahagian belakang > Tutorial Python > Memperkenalkan Toolkit Bahasa Alam (NLTK)

Memperkenalkan Toolkit Bahasa Alam (NLTK)

William Shakespeare
Lepaskan: 2025-03-01 10:05:09
asal
193 orang telah melayarinya

pemprosesan bahasa semulajadi (NLP) adalah pemprosesan automatik atau separa automatik bahasa manusia. NLP berkait rapat dengan linguistik dan mempunyai hubungan dengan penyelidikan dalam sains kognitif, psikologi, fisiologi, dan matematik. Dalam domain sains komputer khususnya, NLP berkaitan dengan teknik pengkompil, teori bahasa formal, interaksi manusia-komputer, pembelajaran mesin, dan teorem. Soalan Quora ini menunjukkan kelebihan NLP yang berbeza. Sebelum kita melihat bagaimana untuk bekerja dengan platform ini, beritahu saya terlebih dahulu memberitahu anda apa yang NLTK. Platform ini pada asalnya dikeluarkan oleh Steven Bird dan Edward Loper bersempena dengan kursus linguistik pengiraan di University of Pennsylvania pada tahun 2001. Terdapat buku yang disertakan untuk platform yang dipanggil Pemprosesan Bahasa Alam dengan Python. Ia akan menjadi menyeronokkan!

Memasang NLTK sangat mudah. Saya menggunakan windows 10, jadi dalam command prompt saya (sent_tokenize ()

kaedah.

Pertimbangkan teks berikut. Output:

Seperti yang anda lihat dari output, tanda baca juga dianggap sebagai kata -kata. mereka. berikut:

Bagaimana kita boleh mengeluarkan kata -kata berhenti dari teks kita sendiri? Contoh di bawah menunjukkan bagaimana kita boleh melaksanakan tugas ini:

output skrip di atas adalah:

jadi apa word_tokenize () <div class="code" style="position:relative; padding:0px; margin:0px;"><div class="code" style="position:relative; padding:0px; margin:0px;"><pre class="brush:php;toolbar:false">&quot;Python is a very high-level programming language. Python is interpreted.&quot;&lt;br&gt;</pre><div class="contentsignin">Salin selepas log masuk</div></div><div class="contentsignin">Salin selepas log masuk</div></div> fungsi adalah: <p></p> <blockquote> tokenize rentetan untuk memisahkan tanda baca selain daripada tempoh </blockquote> <h3> mencari </h3> <p> katakan kami mempunyai fail teks berikut (muat turun fail teks dari Dropbox). Kami ingin mencari (cari) perkataan <code>language. Kita hanya boleh melakukan ini menggunakan platform NLTK seperti berikut:

"Python is a very high-level programming language. Python is interpreted."<br>
Salin selepas log masuk
Salin selepas log masuk

di mana anda akan mendapat output berikut:

Memperkenalkan Toolkit Bahasa Alam (NLTK)

Notis bahawa concordance() mengembalikan setiap kejadian perkataan language, sebagai tambahan kepada beberapa konteks. Sebelum itu, seperti yang ditunjukkan dalam skrip di atas, kami memaksimumkan fail baca dan kemudian menukarnya menjadi objek nltk.Text.

. Ia ditubuhkan pada tahun 1971 oleh Michael S. Hart dan merupakan perpustakaan digital tertua. Kebanyakan item dalam koleksinya adalah teks penuh buku domain awam. Projek ini cuba membuatnya sebagai percuma, dalam format yang tahan lama, terbuka yang boleh digunakan pada hampir mana-mana komputer. Sehingga 3 Oktober 2015, Projek Gutenberg mencapai 50,000 item dalam koleksinya. Untuk melihat fail yang disertakan dari Projek Gutenberg, kami melakukan perkara berikut:

output skrip di atas akan menjadi seperti berikut:
from nltk.tokenize import word_tokenize
text = "Python is a very high-level programming language. Python is interpreted."<br>print(word_tokenize(text))
Salin selepas log masuk

chcp 65001

.

Kesimpulan

Seperti yang telah kita lihat dalam tutorial ini, platform NLTK memberikan kita alat yang berkuasa untuk bekerja dengan pemprosesan bahasa semulajadi (NLP). Saya hanya menggaru permukaan dalam tutorial ini. Jika anda ingin pergi lebih jauh menggunakan NLTK untuk tugas NLP yang berbeza, anda boleh merujuk kepada buku yang disertakan dengan NLTK: Pemprosesan Bahasa Semula Jadi dengan Python. Esther adalah pemaju dan penulis perisian untuk Envato Tuts.

Atas ialah kandungan terperinci Memperkenalkan Toolkit Bahasa Alam (NLTK). Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan