Elasticsearch Chinesische Suche: Analysatoren und Best Practices
Analyse und Lexikisation sind im Content Index von Elasticsearch von entscheidender Bedeutung, insbesondere im Umgang mit nicht englischen Sprachen. Für Chinesen ist dieser Prozess aufgrund der Eigenschaften chinesischer Charaktere und des Mangels an Räumen zwischen Wörtern und Sätzen noch komplizierter.
In diesem Artikel werden verschiedene Lösungen für die Analyse chinesischer Inhalte in Elasticsearch erörtert, einschließlich des Standard-Chinesischen Analysators, des Paoding-Plug-In-, des CJK-Analysators, des SmartCN-Analysators und der Intensivstation und analysiert deren Vorteile und Nachteile und anwendbaren Szenarien.
Herausforderungen der chinesischen Suche
chinesische Zeichen sind Ideogramme, die ein Wort oder Morpheme darstellen (die kleinste aussagekräftige Einheit in der Sprache). Wenn sich zusammen kombiniert, ändert sich seine Bedeutung und repräsentiert ein völlig neues Wort. Eine weitere Schwierigkeit ist, dass es keine Räume zwischen Wörtern und Sätzen gibt, was es Computern schwer macht zu wissen, wo ein Wort beginnt und endet.
Auch wenn Sie nur Mandarin (die offizielle chinesische Sprache und die am häufigsten verwendeten Chinesen der Welt) betrachten, gibt es Zehntausende chinesischer Charaktere, auch wenn Sie tatsächlich Chinesisch schreiben, müssen Sie nur drei bis viertausend wissen Chinesische Charaktere. Zum Beispiel ist "Vulcano" (Vulkan) tatsächlich eine Kombination aus den folgenden zwei chinesischen Zeichen:
Unser Wortpartizip muss klug genug sein, um diese beiden chinesischen Charaktere zu trennen, da sich ihre Bedeutung von der Zeit unterscheidet, wenn sie getrennt sind.
Eine weitere Schwierigkeit ist die verwendete Rechtschreibvariante:
Chinesischer Analysator in Elasticsearch
derzeit liefert Elasticsearch die folgenden chinesischen Analysatoren:
Chinese
Analysator, basierend auf veralteten Klassen in Lucene 4;
paoding
cjk
Analysator, ein offiziell unterstütztes Plug-In;
smartcn
Roboter: Roboter
_analyze
Standard Chinese
Analysator: Es unterteilt nur alle chinesischen Zeichen in Wortelemente. Daher erhalten wir zwei lexikalische Elemente: Handy und Handy. Der standard
Analysator von Elasticsearch erzeugt genau die gleiche Ausgabe. Daher ist Chinese
veraltet und wird bald durch standard
ersetzt und sollte vermieden werden.
paoding
Plug-In: paoding
Fast ein Industriestandard und gilt als elegante Lösung. Leider wird das Plugin für Elasticsearch nicht beibehalten, und ich kann es nur nach einigen Änderungen auf Version 1.0.1 ausführen. (Installationsschritte werden weggelassen, ursprünglicher Text) Nach der Installation erhalten wir einen neuen paoding
Word -Segmentierer und zwei Sammler: max_word_len
und most_word
. Standardmäßig gibt es keinen öffentlichen Analysator, daher müssen wir einen neuen Analysator deklarieren. (Konfigurationsschritte werden weggelassen, ursprünglicher Text) Beide Konfigurationen liefern gute Ergebnisse mit klaren und eindeutigen lexikalischen Elementen. Es verhält sich auch sehr gut, wenn es um komplexere Sätze geht.
cjk
Analysator: Sehr einfacher Analysator, der nur einen Text in Binärdateien umwandelt. "Mobile" nur indexiert 手机
, was gut ist, aber wenn wir längere Wörter verwenden, wie z. und jeweils "Xiao Festival".
smartcn
Plug-In: Sehr einfach zu installieren. (Installationsschritte werden weggelassen, Originaltext vorgelegt) Es enthält einen neuen smartcn
-Analysator sowie smartcn_tokenizer
Word -Segmentierer unter Verwendung von Lucenes SmartChineseAnalyzer
. Es verwendet eine Wahrscheinlichkeitsuite, um die beste Segmentierung von Wörtern zu finden, wobei Hidden Markov -Modelle und eine große Menge Trainingstext verwendet werden. Daher wurde ein ziemlich gutes Trainingswörterbuch eingebettet - unsere Beispiele sind korrekt beteiligt.
ICU -Plugin: Ein weiteres offizielles Plugin. (Die Installationsschritte werden weggelassen, Originaltext vorgelegt) Wenn Sie sich mit einer nicht englischen Sprache befassen, wird empfohlen, dieses Plugin zu verwenden. Es gibt einen icu_tokenizer
Wortsegmentierer sowie viele leistungsstarke Analyse -Tools wie icu_normalizer
, icu_folding
, icu_collation
usw. offen. Es verwendet chinesische und japanische Wörterbücher, die Informationen über die Worthäufigkeit enthalten, um chinesische Charaktergruppen zu schließen. Auf "Handy" ist alles normal und funktioniert wie erwartet, aber auf "Lantern Festival" werden zwei Wörter produziert: Lantern Festival und Festival - das liegt daran, dass "Lantern Festival" und "Festival" wichtiger sind als "Lantern Festival" ". gemeinsam.
Vergleich der Ergebnisse (Das Formular weggelassen, ursprünglicher Text angegeben)
Aus meiner Sicht haben paoding
und smartcn
die besten Ergebnisse erzielt. chinese
Das Wort Partizip ist sehr schlecht, icu_tokenizer
ist ein bisschen enttäuschend auf dem "Lanternfest", aber es ist sehr gut darin, mit traditionellen Chinesen umzugehen.
traditionelle chinesische Unterstützung
Sie müssen möglicherweise herkömmliche Chinesen aus einer Dokument- oder Benutzer -Suchanforderung verarbeiten. Sie benötigen einen Normalisierungsschritt, um diese traditionellen Eingänge in moderne Chinesisch umzuwandeln, da Plugins wie smartcn
oder paoding
es nicht richtig behandeln.
Sie können es über Ihre Anwendung verarbeiten oder versuchen, das Plugin elasticsearch-analysis-stconvert
zu verwenden, um es direkt in Elasticsearch zu verarbeiten. Es kann traditionelle und vereinfachte Zeichen in beide Richtungen umwandeln. (Installationsschritte werden weggelassen, der ursprüngliche Text wurde bereitgestellt)
Die letzte Lösung besteht darin, cjk
zu verwenden: Wenn Sie das Partizip nicht richtig eingeben können, erfassen Sie die erforderliche Dokumentation immer noch sehr wahrscheinlich und verwenden dann icu_tokenizer
(auch ziemlich gut), um die Relevanz zu verbessern.
Weitere Verbesserungen
Es gibt keine perfekte universelle Lösung für die Elasticsearch -Analyse, und Chinesen sind keine Ausnahme. Sie müssen Ihre eigenen Analysatoren basierend auf den von Ihnen erhaltenen Informationen kombinieren und erstellen. Zum Beispiel verwende ich das Partizip cjk
und smartcn
im Suchfeld mit mehreren Feld- und Multi-Match-Abfragen.
(FAQ -Teil weggelassen, Originaltext angegeben)
Das obige ist der detaillierte Inhalt vonEffiziente chinesische Suche mit Elasticsearch. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!