Heim Backend-Entwicklung PHP-Tutorial Effiziente chinesische Suche mit Elasticsearch

Effiziente chinesische Suche mit Elasticsearch

Feb 19, 2025 am 08:28 AM

Elasticsearch Chinesische Suche: Analysatoren und Best Practices

Analyse und Lexikisation sind im Content Index von Elasticsearch von entscheidender Bedeutung, insbesondere im Umgang mit nicht englischen Sprachen. Für Chinesen ist dieser Prozess aufgrund der Eigenschaften chinesischer Charaktere und des Mangels an Räumen zwischen Wörtern und Sätzen noch komplizierter.

In diesem Artikel werden verschiedene Lösungen für die Analyse chinesischer Inhalte in Elasticsearch erörtert, einschließlich des Standard-Chinesischen Analysators, des Paoding-Plug-In-, des CJK-Analysators, des SmartCN-Analysators und der Intensivstation und analysiert deren Vorteile und Nachteile und anwendbaren Szenarien.

Herausforderungen der chinesischen Suche

chinesische Zeichen sind Ideogramme, die ein Wort oder Morpheme darstellen (die kleinste aussagekräftige Einheit in der Sprache). Wenn sich zusammen kombiniert, ändert sich seine Bedeutung und repräsentiert ein völlig neues Wort. Eine weitere Schwierigkeit ist, dass es keine Räume zwischen Wörtern und Sätzen gibt, was es Computern schwer macht zu wissen, wo ein Wort beginnt und endet.

Auch wenn Sie nur Mandarin (die offizielle chinesische Sprache und die am häufigsten verwendeten Chinesen der Welt) betrachten, gibt es Zehntausende chinesischer Charaktere, auch wenn Sie tatsächlich Chinesisch schreiben, müssen Sie nur drei bis viertausend wissen Chinesische Charaktere. Zum Beispiel ist "Vulcano" (Vulkan) tatsächlich eine Kombination aus den folgenden zwei chinesischen Zeichen:

  • Feuer: Feuer
  • Berg: Berg

Unser Wortpartizip muss klug genug sein, um diese beiden chinesischen Charaktere zu trennen, da sich ihre Bedeutung von der Zeit unterscheidet, wenn sie getrennt sind.

Eine weitere Schwierigkeit ist die verwendete Rechtschreibvariante:

  • vereinfachtes Chinesisch: Kalligraphie
  • traditionelles Chinesisch, komplexer und reicher: Buchmethode
  • Pinyin, romanisierte Form von Mandarin: Shū fǎ

Chinesischer Analysator in Elasticsearch

derzeit liefert Elasticsearch die folgenden chinesischen Analysatoren:

  • Standard Chinese Analysator, basierend auf veralteten Klassen in Lucene 4;
  • Plugin, obwohl nicht mehr beibehalten, basiert auf einem sehr guten Wörterbuch paoding
  • Analysator, der den Inhalt binärisiert;
  • cjk Analysator, ein offiziell unterstütztes Plug-In;
  • ICU-Plug-In und sein Word-Segmentierungsgerät.
  • smartcn
  • Diese Analysatoren variieren stark und wir werden ihre Leistung mit einem einfachen Testwort "Mobiltelefon" vergleichen. "Handy" bedeutet "Mobiltelefon", das aus zwei chinesischen Charakteren besteht, die "Hand" und "Handy" darstellen. Das Wort "ji" bildet auch viele andere Wörter:
Flüge: Flugtickets

Roboter: Roboter
  • Maschinengewehr: Maschinengewehr
  • Gelegenheit: Opportunity
  • Unser Partizip kann diese chinesischen Charaktere nicht teilen, denn wenn ich nach "Handy" suche, möchte ich keine Dokumentation über Rambo, das ein Maschinengewehr besitzt.
  • Wir werden diese Lösungen mit der leistungsstarken
api testen:

_analyze

  • Standard Chinese Analysator: Es unterteilt nur alle chinesischen Zeichen in Wortelemente. Daher erhalten wir zwei lexikalische Elemente: Handy und Handy. Der standard Analysator von Elasticsearch erzeugt genau die gleiche Ausgabe. Daher ist Chinese veraltet und wird bald durch standard ersetzt und sollte vermieden werden.

  • paoding Plug-In: paoding Fast ein Industriestandard und gilt als elegante Lösung. Leider wird das Plugin für Elasticsearch nicht beibehalten, und ich kann es nur nach einigen Änderungen auf Version 1.0.1 ausführen. (Installationsschritte werden weggelassen, ursprünglicher Text) Nach der Installation erhalten wir einen neuen paoding Word -Segmentierer und zwei Sammler: max_word_len und most_word. Standardmäßig gibt es keinen öffentlichen Analysator, daher müssen wir einen neuen Analysator deklarieren. (Konfigurationsschritte werden weggelassen, ursprünglicher Text) Beide Konfigurationen liefern gute Ergebnisse mit klaren und eindeutigen lexikalischen Elementen. Es verhält sich auch sehr gut, wenn es um komplexere Sätze geht.

  • cjk Analysator: Sehr einfacher Analysator, der nur einen Text in Binärdateien umwandelt. "Mobile" nur indexiert 手机, was gut ist, aber wenn wir längere Wörter verwenden, wie z. und jeweils "Xiao Festival".

  • smartcn Plug-In: Sehr einfach zu installieren. (Installationsschritte werden weggelassen, Originaltext vorgelegt) Es enthält einen neuen smartcn -Analysator sowie smartcn_tokenizer Word -Segmentierer unter Verwendung von Lucenes SmartChineseAnalyzer. Es verwendet eine Wahrscheinlichkeitsuite, um die beste Segmentierung von Wörtern zu finden, wobei Hidden Markov -Modelle und eine große Menge Trainingstext verwendet werden. Daher wurde ein ziemlich gutes Trainingswörterbuch eingebettet - unsere Beispiele sind korrekt beteiligt.

  • ICU -Plugin: Ein weiteres offizielles Plugin. (Die Installationsschritte werden weggelassen, Originaltext vorgelegt) Wenn Sie sich mit einer nicht englischen Sprache befassen, wird empfohlen, dieses Plugin zu verwenden. Es gibt einen icu_tokenizer Wortsegmentierer sowie viele leistungsstarke Analyse -Tools wie icu_normalizer, icu_folding, icu_collation usw. offen. Es verwendet chinesische und japanische Wörterbücher, die Informationen über die Worthäufigkeit enthalten, um chinesische Charaktergruppen zu schließen. Auf "Handy" ist alles normal und funktioniert wie erwartet, aber auf "Lantern Festival" werden zwei Wörter produziert: Lantern Festival und Festival - das liegt daran, dass "Lantern Festival" und "Festival" wichtiger sind als "Lantern Festival" ". gemeinsam.

Vergleich der Ergebnisse (Das Formular weggelassen, ursprünglicher Text angegeben)

Aus meiner Sicht haben paoding und smartcn die besten Ergebnisse erzielt. chinese Das Wort Partizip ist sehr schlecht, icu_tokenizer ist ein bisschen enttäuschend auf dem "Lanternfest", aber es ist sehr gut darin, mit traditionellen Chinesen umzugehen.

traditionelle chinesische Unterstützung

Sie müssen möglicherweise herkömmliche Chinesen aus einer Dokument- oder Benutzer -Suchanforderung verarbeiten. Sie benötigen einen Normalisierungsschritt, um diese traditionellen Eingänge in moderne Chinesisch umzuwandeln, da Plugins wie smartcn oder paoding es nicht richtig behandeln.

Sie können es über Ihre Anwendung verarbeiten oder versuchen, das Plugin elasticsearch-analysis-stconvert zu verwenden, um es direkt in Elasticsearch zu verarbeiten. Es kann traditionelle und vereinfachte Zeichen in beide Richtungen umwandeln. (Installationsschritte werden weggelassen, der ursprüngliche Text wurde bereitgestellt)

Die letzte Lösung besteht darin, cjk zu verwenden: Wenn Sie das Partizip nicht richtig eingeben können, erfassen Sie die erforderliche Dokumentation immer noch sehr wahrscheinlich und verwenden dann icu_tokenizer (auch ziemlich gut), um die Relevanz zu verbessern.

Weitere Verbesserungen

Es gibt keine perfekte universelle Lösung für die Elasticsearch -Analyse, und Chinesen sind keine Ausnahme. Sie müssen Ihre eigenen Analysatoren basierend auf den von Ihnen erhaltenen Informationen kombinieren und erstellen. Zum Beispiel verwende ich das Partizip cjk und smartcn im Suchfeld mit mehreren Feld- und Multi-Match-Abfragen.

(FAQ -Teil weggelassen, Originaltext angegeben)

Das obige ist der detaillierte Inhalt vonEffiziente chinesische Suche mit Elasticsearch. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

<🎜>: Bubble Gum Simulator Infinity - So erhalten und verwenden Sie Royal Keys
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Nordhold: Fusionssystem, erklärt
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Flüstern des Hexenbaum
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Java-Tutorial
1672
14
PHP-Tutorial
1276
29
C#-Tutorial
1256
24
Erklären Sie sicheres Kennwort -Hashing in PHP (z. B. password_hash, password_verify). Warum nicht MD5 oder SHA1 verwenden? Erklären Sie sicheres Kennwort -Hashing in PHP (z. B. password_hash, password_verify). Warum nicht MD5 oder SHA1 verwenden? Apr 17, 2025 am 12:06 AM

In PHP sollten die Funktionen für Passwort_Hash und passwart_verify verwendet werden, um sicheres Passwort -Hashing zu implementieren, und MD5 oder SHA1 sollte nicht verwendet werden. 1) Passwort_hash generiert einen Hash, der Salzwerte enthält, um die Sicherheit zu verbessern. 2) Passwort_Verify prüfen Sie das Passwort und sicherstellen Sie die Sicherheit, indem Sie die Hash -Werte vergleichen. 3) MD5 und SHA1 sind anfällig und fehlen Salzwerte und sind nicht für die Sicherheit der modernen Passwort geeignet.

PHP und Python: Vergleich von zwei beliebten Programmiersprachen PHP und Python: Vergleich von zwei beliebten Programmiersprachen Apr 14, 2025 am 12:13 AM

PHP und Python haben jeweils ihre eigenen Vorteile und wählen nach den Projektanforderungen. 1.PHP ist für die Webentwicklung geeignet, insbesondere für die schnelle Entwicklung und Wartung von Websites. 2. Python eignet sich für Datenwissenschaft, maschinelles Lernen und künstliche Intelligenz mit prägnanter Syntax und für Anfänger.

PHP in Aktion: Beispiele und Anwendungen in realer Welt PHP in Aktion: Beispiele und Anwendungen in realer Welt Apr 14, 2025 am 12:19 AM

PHP wird in E-Commerce, Content Management Systems und API-Entwicklung häufig verwendet. 1) E-Commerce: Wird für die Einkaufswagenfunktion und Zahlungsabwicklung verwendet. 2) Content -Management -System: Wird für die Erzeugung der dynamischen Inhalte und die Benutzerverwaltung verwendet. 3) API -Entwicklung: Wird für die erholsame API -Entwicklung und die API -Sicherheit verwendet. Durch Leistungsoptimierung und Best Practices werden die Effizienz und Wartbarkeit von PHP -Anwendungen verbessert.

Wie funktioniert der Php -Typ -Hinweis, einschließlich Skalartypen, Rückgabetypen, Gewerkschaftstypen und nullbaren Typen? Wie funktioniert der Php -Typ -Hinweis, einschließlich Skalartypen, Rückgabetypen, Gewerkschaftstypen und nullbaren Typen? Apr 17, 2025 am 12:25 AM

PHP -Typ -Eingabeaufforderungen zur Verbesserung der Codequalität und der Lesbarkeit. 1) Tipps zum Skalartyp: Da Php7.0 in den Funktionsparametern wie int, float usw. angegeben werden dürfen. 3) Eingabeaufforderung für Gewerkschaftstyp: Da Php8.0 in Funktionsparametern oder Rückgabetypen angegeben werden dürfen. 4) Nullierstyp Eingabeaufforderung: Ermöglicht die Einbeziehung von Nullwerten und Handlungsfunktionen, die Nullwerte zurückgeben können.

Die dauerhafte Relevanz von PHP: Ist es noch am Leben? Die dauerhafte Relevanz von PHP: Ist es noch am Leben? Apr 14, 2025 am 12:12 AM

PHP ist immer noch dynamisch und nimmt immer noch eine wichtige Position im Bereich der modernen Programmierung ein. 1) Einfachheit und leistungsstarke Unterstützung von PHP machen es in der Webentwicklung weit verbreitet. 2) Seine Flexibilität und Stabilität machen es ausstehend bei der Behandlung von Webformularen, Datenbankoperationen und Dateiverarbeitung; 3) PHP entwickelt sich ständig weiter und optimiert, geeignet für Anfänger und erfahrene Entwickler.

PHP und Python: Verschiedene Paradigmen erklärt PHP und Python: Verschiedene Paradigmen erklärt Apr 18, 2025 am 12:26 AM

PHP ist hauptsächlich prozedurale Programmierung, unterstützt aber auch die objektorientierte Programmierung (OOP). Python unterstützt eine Vielzahl von Paradigmen, einschließlich OOP, funktionaler und prozeduraler Programmierung. PHP ist für die Webentwicklung geeignet, und Python eignet sich für eine Vielzahl von Anwendungen wie Datenanalyse und maschinelles Lernen.

Wie verhindern Sie die SQL -Injektion in PHP? (Vorbereitete Aussagen, PDO) Wie verhindern Sie die SQL -Injektion in PHP? (Vorbereitete Aussagen, PDO) Apr 15, 2025 am 12:15 AM

Die Verwendung von Vorverarbeitungsanweisungen und PDO in PHP kann SQL -Injektionsangriffe effektiv verhindern. 1) Verwenden Sie PDO, um eine Verbindung zur Datenbank herzustellen und den Fehlermodus festzulegen. 2) Erstellen Sie Vorverarbeitungsanweisungen über die Vorbereitungsmethode und übergeben Sie Daten mit Platzhaltern und führen Sie Methoden aus. 3) Abfrageergebnisse verarbeiten und die Sicherheit und Leistung des Codes sicherstellen.

PHP und Python: Code Beispiele und Vergleich PHP und Python: Code Beispiele und Vergleich Apr 15, 2025 am 12:07 AM

PHP und Python haben ihre eigenen Vor- und Nachteile, und die Wahl hängt von den Projektbedürfnissen und persönlichen Vorlieben ab. 1.PHP eignet sich für eine schnelle Entwicklung und Wartung großer Webanwendungen. 2. Python dominiert das Gebiet der Datenwissenschaft und des maschinellen Lernens.

See all articles