Gunakan Python+pyahocorasick untuk memadankan kata kunci, iaitu kira-kira 10-20 aksara Cina.
Teks yang digunakan untuk membina ahocorasick dibaca daripada kata kunci fail setempat. Formatnya adalah seperti berikut:
Kawasan ibu dan bayi<Makanan pelengkap<Mi/mi: bayi, kanak-kanak, bayi, kanak-kanak, bayi | Mee, mee nipis, mee tebal, mee buatan tangan, mee sayur, mee berkhasiat, mee pecah, mee kering, mee |
Hasil padanan kosong.
Kod adalah seperti berikut:
import ahocorasick
A = ahocorasick.Automaton()
title = 'Hello Kitty3色蔬菜细面300克 婴儿幼儿营养面条宝宝辅食面条'
with open('key_word', 'r') as f:
for line in f.readlines():
line = line.strip()
line = str(line.split('<'))
A.add_word(line, line)
A.make_automaton()
aa = A.iter(title)
for item in aa:
print(item) # 打印为空值
Jika sesiapa telah menangani masalah ini, sila bantu saya, berikan contoh kod, atau berikan penyelesaian, terima kasih!
Selepas dua hari penyelidikan, saya melaksanakan fungsi ini sendiri
Fail tempatan mempunyai terlalu banyak kata kunci berulang dan padanan tidak 100%, untuk rujukan
Kod rujukan adalah seperti berikut:
Hasil cetakan: Bahagian ibu dan bayi<Makanan pelengkap<Mee/Mee