Rumah > pembangunan bahagian belakang > Tutorial Python > [Python NLTK] Pengiktirafan entiti bernama, mengenal pasti nama orang, tempat dan organisasi dengan mudah dalam teks

[Python NLTK] Pengiktirafan entiti bernama, mengenal pasti nama orang, tempat dan organisasi dengan mudah dalam teks

WBOY
Lepaskan: 2024-02-25 10:16:16
ke hadapan
892 orang telah melayarinya

【Python NLTK】命名实体识别,轻松识别文本中的人名、地名、机构名

Pengiktirafan entiti bernama (NER) ialah pemprosesan bahasa semula jaditugas yang bertujuan untuk mengenal pasti entiti yang dinamakan dalam teks, seperti nama orang, nama tempat, nama organisasi, dsb. NER memainkan peranan penting dalam banyak aplikasi praktikal, seperti klasifikasi berita, sistem soal jawab, mesin terjemahan, dsb.

python Pustaka NLTK menyediakan alat yang kaya untuk NER mengenal pasti entiti yang dinamakan dalam teks dengan mudah. Pelbagai model NER pra-latihan dibina ke dalam NLTK dan boleh digunakan secara terus. Selain itu, NLTK juga menyokong latihan dan penggunaan model NER tersuai.

Di bawah ini kami menggunakan contoh mudah untuk menunjukkan cara menggunakan NLTK untuk NER. Pertama, kami mengimport perpustakaan yang diperlukan:

import nltk
Salin selepas log masuk

Kemudian, kami memuatkan model NER yang telah dilatih:

ner_model = nltk.data.load("models/ner_model.pkl")
Salin selepas log masuk

Kini, kita boleh menggunakan model NER untuk mengenali entiti yang dinamakan dalam teks. Sebagai contoh, kita boleh melakukan NER pada teks berikut:

text = "巴拉克·奥巴马是美国第44任总统。"
Salin selepas log masuk

Selepas menggunakan model NER untuk melaksanakan NER pada teks, kita boleh mendapatkan hasil berikut:

[(("巴拉克·奥巴马", "PERSON"), ("美国", "GPE"), ("第44任总统", "TITLE"))]
Salin selepas log masuk

Hasilnya menunjukkan bahawa model NER dengan betul mengenal pasti entiti yang dinamakan dalam teks, termasuk nama orang, tempat dan organisasi.

Selain menggunakan model NER yang telah terlatih, kami juga boleh menyesuaikan model NER. Sebagai contoh, kita boleh menggunakan kelas Trainer dalam NLTK untuk melatih model NER kita sendiri.

trainer = nltk.Trainer()
trainer.train(train_data)
Salin selepas log masuk

Selepas latihan selesai, kami boleh menggunakan model NER terlatih untuk mengenal pasti entiti yang dinamakan dalam teks.

ner_model = trainer.get_model()
ner_model.classify(test_data)
Salin selepas log masuk

Model NER tersuai boleh meningkatkan ketepatan dan kadar ingatan semula NER, menjadikannya lebih sesuai untuk senario aplikasi tertentu.

Secara keseluruhan, Python Perpustakaan NLTK menyediakan alatan NER yang kaya untuk mengenal pasti entiti yang dinamakan dalam teks dengan mudah. Alat ini berguna untuk tugas seperti pemprosesan bahasa semula jadi, pengekstrakan maklumat dan banyak lagi.

Atas ialah kandungan terperinci [Python NLTK] Pengiktirafan entiti bernama, mengenal pasti nama orang, tempat dan organisasi dengan mudah dalam teks. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:lsjlt.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan