Maison développement back-end tutoriel php Recherche chinoise efficace avec elasticsearch

Recherche chinoise efficace avec elasticsearch

Feb 19, 2025 am 08:28 AM

Elasticsearch Chinese Search: Analysers and Best Practices

L'analyse et la lexisation sont cruciales dans l'indice de contenu d'Elasticsearch, en particulier lorsqu'ils traitent des langues non anglophones. Pour le chinois, ce processus est encore plus compliqué en raison des caractéristiques des caractères chinois et du manque d'espaces entre les mots et les phrases.

Cet article traite de plusieurs solutions pour analyser le contenu chinois dans Elasticsearch, notamment l'analyseur chinois par défaut, le plug-in PAODing, l'analyseur CJK, l'analyseur SmartCN et le plug-in USI, et analyse leurs avantages et inconvénients et scénarios applicables.

Défis de la recherche chinoise

Les caractères chinois sont des idéogrammes qui représentent un mot ou des morphèmes (la plus petite unité significative de la langue). Lorsqu'il est combiné ensemble, sa signification changera, représentant un tout nouveau mot. Une autre difficulté est qu'il n'y a pas d'espaces entre les mots et les phrases, ce qui rend difficile pour les ordinateurs de savoir où commence et se termine un mot.

Même si vous ne considérez que le mandarin (la langue chinoise officielle et le chinois le plus utilisé au monde), il y a des dizaines de milliers de caractères chinois, même si vous écrivez réellement le chinois, vous n'avez qu'à connaître trois à quatre mille Caractères chinois. Par exemple, "Volcano" (volcan) est en fait une combinaison des deux caractères chinois suivants:

  • Fire: Fire
  • montagne: montagne

Notre Parti de la Parole doit être assez intelligent pour éviter de séparer ces deux caractères chinois, car leur signification est différente de la séparation.

Une autre difficulté est la variante d'orthographe utilisée:

  • chinois simplifié: calligraphie
  • Chinois traditionnel, plus complexe et plus riche: méthode du livre
  • pinyin, forme romanisée de mandarin: shū fǎ

Analyseur chinois dans Elasticsearch

À l'heure actuelle, Elasticsearch fournit les analyseurs chinois suivants:

  • Analyseur par défaut Chinese, basé sur des classes obsolètes dans Lucene 4; Le plugin
  • , bien que non maintenu, est basé sur un très bon dictionnaire; paoding
  • Analyseur, qui binarrise le contenu;
  • cjk Analyseur, un plug-in officiellement pris en charge;
  • plug-in de soins intensifs et son dispositif de segmentation de mots.
  • smartcn
  • Ces analyseurs varient considérablement et nous comparerons leurs performances avec un simple mot de test "téléphone mobile". "Téléphone mobile" signifie "téléphone mobile", qui se compose de deux caractères chinois, qui représentent "main" et "mobile". Le mot "ji" constitue également de nombreux autres mots:
vols: billets d'air

robot: robot
  • Match Gun: Machine Gun
  • Opportunité: Opportunité
  • Notre participe ne peut pas diviser ces caractères chinois parce que si je recherche "téléphone mobile", je ne veux pas de documentation sur la possession d'une mitrailleuse.
  • Nous testerons ces solutions en utilisant la puissante API
API:

_analyze

  • Default Chinese analyseur: Il ne divise que tous les caractères chinois en éléments de mot. Par conséquent, nous obtenons deux éléments lexicaux: le téléphone portable et le téléphone portable. L'analyseur standard d'Elasticsearch produit exactement la même sortie. Par conséquent, Chinese est obsolète et sera bientôt remplacé par standard et devrait être évité.

  • paoding Plug-in: paoding presque une norme de l'industrie et est considéré comme une solution élégante. Malheureusement, le plugin pour Elasticsearch n'est pas maintenu, et je ne peux l'exécuter que sur la version 1.0.1 après quelques modifications. (Les étapes d'installation sont omises, texte d'origine fournis) Après l'installation, nous obtenons un nouveau segmentateur de mots paoding et deux collectionneurs: max_word_len et most_word. Par défaut, il n'y a pas d'analyseur public, nous devons donc déclarer un nouvel analyseur. (Les étapes de configuration sont omises, le texte original fourni) Les deux configurations fournissent de bons résultats avec des éléments lexicaux clairs et uniques. Il se comporte également très bien lorsqu'il s'agit de phrases plus complexes.

  • cjk Analyseur: Analyseur très simple qui ne convertit que n'importe quel texte en binaires. "Phone Mobile" ne dit que 手机, ce qui est bien, mais si nous utilisons des mots plus longs, tels que "Lantern Festival" (Lantern Festival), deux mots seront générés: Lantern Festival et Xiao Festival, qui signifie "Lantern Festival" et respectivement "Xiao Festival".

  • smartcn Plug-in: Très facile à installer. (Les étapes d'installation sont omises, le texte d'origine fourni) Il expose un nouvel analyseur smartcn, ainsi que le segmenter de mots smartcn_tokenizer, en utilisant Lucene's SmartChineseAnalyzer. Il utilise une suite de probabilité pour trouver la meilleure segmentation des mots, en utilisant des modèles de Markov cachés et une grande quantité de texte de formation. Par conséquent, un assez bon dictionnaire de formation a été intégré - nos exemples sont correctement participés.

  • Plugin USI: Un autre plugin officiel. (Les étapes d'installation sont omises, texte original fourni) Si vous traitez avec une langue non anglaise, il est recommandé d'utiliser ce plugin. Il révèle un segmenter de mots icu_tokenizer, ainsi que de nombreux outils d'analyse puissants tels que icu_normalizer, icu_folding, icu_collation, etc. Il utilise des dictionnaires chinois et japonais qui contiennent des informations sur la fréquence des mots pour déduire des groupes de caractères chinois. Sur "Mobile Phone", tout est normal et fonctionne comme prévu, mais sur "Lantern Festival", deux mots seront produits: Lantern Festival and Festival - c'est parce que "Lantern Festival" et "Festival" sont plus importants que "Lantern Festival ". commun.

Comparaison des résultats (le formulaire omis, texte original fourni)

De mon point de vue, paoding et smartcn ont obtenu les meilleurs résultats. chinese Le mot participe est très mauvais, icu_tokenizer est un peu décevant sur le "Lantern Festival", mais il est très bon pour traiter avec le chinois traditionnel.

Support chinois traditionnel

Vous devrez peut-être traiter les Chinois traditionnels à partir d'un document ou d'une demande de recherche d'utilisateurs. Vous avez besoin d'une étape de normalisation pour convertir ces entrées traditionnelles en chinois modernes parce que des plugins comme smartcn ou paoding ne le gérent pas correctement.

Vous pouvez le gérer via votre application ou essayer d'utiliser le plugin elasticsearch-analysis-stconvert pour le gérer directement dans Elasticsearch. Il peut convertir des caractères traditionnels et simplifiés dans les deux sens. (Les étapes d'installation sont omises, le texte d'origine a été fourni)

La dernière solution consiste à utiliser cjk: Si vous ne pouvez pas entrer correctement du participe, vous êtes toujours très susceptible de capturer la documentation requise, puis d'utiliser icu_tokenizer (également assez bon) pour améliorer la pertinence.

Améliorations supplémentaires

Il n'y a pas de solution universelle parfaite pour l'analyse Elasticsearch, et le chinois ne fait pas exception. Vous devez combiner et construire vos propres analyseurs en fonction des informations que vous avez obtenues. Par exemple, j'utilise le participe cjk et smartcn sur le champ de recherche, en utilisant une requête multi-champs et multi-matchs.

(partie FAQ omise, texte original fourni)

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

<🎜>: Grow A Garden - Guide de mutation complet
3 Il y a quelques semaines By DDD
<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Nordhold: Système de fusion, expliqué
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Whispers of the Witch Tree - Comment déverrouiller le grappin
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Tutoriel Java
1666
14
Tutoriel PHP
1273
29
Tutoriel C#
1253
24
Expliquez le hachage de mot de passe sécurisé dans PHP (par exemple, Password_Hash, Password_verify). Pourquoi ne pas utiliser MD5 ou SHA1? Expliquez le hachage de mot de passe sécurisé dans PHP (par exemple, Password_Hash, Password_verify). Pourquoi ne pas utiliser MD5 ou SHA1? Apr 17, 2025 am 12:06 AM

Dans PHP, Password_Hash et Password_verify Les fonctions doivent être utilisées pour implémenter le hachage de mot de passe sécurisé, et MD5 ou SHA1 ne doit pas être utilisé. 1) Password_hash génère un hachage contenant des valeurs de sel pour améliorer la sécurité. 2) Password_verify Vérifiez le mot de passe et assurez-vous la sécurité en comparant les valeurs de hachage. 3) MD5 et SHA1 sont vulnérables et manquent de valeurs de sel, et ne conviennent pas à la sécurité de mot de passe moderne.

PHP et Python: comparaison de deux langages de programmation populaires PHP et Python: comparaison de deux langages de programmation populaires Apr 14, 2025 am 12:13 AM

PHP et Python ont chacun leurs propres avantages et choisissent en fonction des exigences du projet. 1.Php convient au développement Web, en particulier pour le développement rapide et la maintenance des sites Web. 2. Python convient à la science des données, à l'apprentissage automatique et à l'intelligence artificielle, avec syntaxe concise et adaptée aux débutants.

PHP: un langage clé pour le développement Web PHP: un langage clé pour le développement Web Apr 13, 2025 am 12:08 AM

PHP est un langage de script largement utilisé du côté du serveur, particulièrement adapté au développement Web. 1.Php peut intégrer HTML, traiter les demandes et réponses HTTP et prend en charge une variété de bases de données. 2.PHP est utilisé pour générer du contenu Web dynamique, des données de formulaire de traitement, des bases de données d'accès, etc., avec un support communautaire solide et des ressources open source. 3. PHP est une langue interprétée, et le processus d'exécution comprend l'analyse lexicale, l'analyse grammaticale, la compilation et l'exécution. 4.PHP peut être combiné avec MySQL pour les applications avancées telles que les systèmes d'enregistrement des utilisateurs. 5. Lors du débogage de PHP, vous pouvez utiliser des fonctions telles que error_reportting () et var_dump (). 6. Optimiser le code PHP pour utiliser les mécanismes de mise en cache, optimiser les requêtes de base de données et utiliser des fonctions intégrées. 7

PHP en action: Exemples et applications du monde réel PHP en action: Exemples et applications du monde réel Apr 14, 2025 am 12:19 AM

PHP est largement utilisé dans le commerce électronique, les systèmes de gestion de contenu et le développement d'API. 1) E-commerce: Utilisé pour la fonction de panier et le traitement des paiements. 2) Système de gestion du contenu: utilisé pour la génération de contenu dynamique et la gestion des utilisateurs. 3) Développement des API: Utilisé pour le développement de l'API RESTful et la sécurité de l'API. Grâce à l'optimisation des performances et aux meilleures pratiques, l'efficacité et la maintenabilité des applications PHP sont améliorées.

Comment fonctionne la résistance au type PHP, y compris les types scalaires, les types de retour, les types d'union et les types nullables? Comment fonctionne la résistance au type PHP, y compris les types scalaires, les types de retour, les types d'union et les types nullables? Apr 17, 2025 am 12:25 AM

Le type PHP invite à améliorer la qualité et la lisibilité du code. 1) Conseils de type scalaire: Depuis PHP7.0, les types de données de base sont autorisés à être spécifiés dans les paramètres de fonction, tels que INT, Float, etc. 2) Invite de type de retour: Assurez la cohérence du type de valeur de retour de fonction. 3) Invite de type d'union: Depuis PHP8.0, plusieurs types peuvent être spécifiés dans les paramètres de fonction ou les valeurs de retour. 4) Invite de type nullable: permet d'inclure des valeurs nulles et de gérer les fonctions qui peuvent renvoyer les valeurs nulles.

La pertinence durable de PHP: est-elle toujours vivante? La pertinence durable de PHP: est-elle toujours vivante? Apr 14, 2025 am 12:12 AM

PHP est toujours dynamique et occupe toujours une position importante dans le domaine de la programmation moderne. 1) La simplicité de PHP et le soutien communautaire puissant le rendent largement utilisé dans le développement Web; 2) sa flexibilité et sa stabilité le rendent exceptionnelle dans la gestion des formulaires Web, des opérations de base de données et du traitement de fichiers; 3) PHP évolue et optimise constamment, adapté aux débutants et aux développeurs expérimentés.

PHP et Python: exemples de code et comparaison PHP et Python: exemples de code et comparaison Apr 15, 2025 am 12:07 AM

PHP et Python ont leurs propres avantages et inconvénients, et le choix dépend des besoins du projet et des préférences personnelles. 1.Php convient au développement rapide et à la maintenance des applications Web à grande échelle. 2. Python domine le domaine de la science des données et de l'apprentissage automatique.

PHP vs autres langues: une comparaison PHP vs autres langues: une comparaison Apr 13, 2025 am 12:19 AM

PHP convient au développement Web, en particulier dans le développement rapide et le traitement du contenu dynamique, mais n'est pas bon dans les applications de la science des données et de l'entreprise. Par rapport à Python, PHP présente plus d'avantages dans le développement Web, mais n'est pas aussi bon que Python dans le domaine de la science des données; Par rapport à Java, PHP fonctionne moins bien dans les applications au niveau de l'entreprise, mais est plus flexible dans le développement Web; Par rapport à JavaScript, PHP est plus concis dans le développement back-end, mais n'est pas aussi bon que JavaScript dans le développement frontal.

See all articles