Verwenden Sie Python+pyahocorasick, um Schlüsselwörter zuzuordnen. Die Schlüsselwörter bestehen wahrscheinlich aus 10–20 chinesischen Zeichen.
Der zum Erstellen von ahocorasick verwendete Text wird aus der lokalen Datei key_word gelesen. Das Format ist wie folgt:
Mutter- und Babybereich<Ergänzungsnahrung<Nudeln/Nudeln: Säuglinge, Kleinkinder, Babys, Kinder, Babys | Nudeln, dünne Nudeln, dicke Nudeln, handgemachte Nudeln, Gemüsenudeln, nahrhafte Nudeln, gebrochene Nudeln, getrocknete Nudeln, Nudeln |
Das Matching-Ergebnis ist leer.
Der Code lautet wie folgt:
import ahocorasick
A = ahocorasick.Automaton()
title = 'Hello Kitty3色蔬菜细面300克 婴儿幼儿营养面条宝宝辅食面条'
with open('key_word', 'r') as f:
for line in f.readlines():
line = line.strip()
line = str(line.split('<'))
A.add_word(line, line)
A.make_automaton()
aa = A.iter(title)
for item in aa:
print(item) # 打印为空值
Wenn sich jemand mit diesem Problem befasst hat, helfen Sie mir bitte, stellen Sie Beispielcode bereit oder bieten Sie Lösungen an. Vielen Dank!
研究了两天,自己实现了这个功能
本地文件有太多重复关键字,匹配并不是100%,供参考
参考代码如下:
打印结果:母婴专区<辅食<面仔/面条